---
title: "AI4S 突破：深度原理 MIRA + MPA 材料基座模型 40 项实验全面 SOTA，递归自训练打造最强材料基座"
source_url: https://mp.weixin.qq.com/s/Do3sauQ8oSoRluaCptYe-g
ingested: 2026-06-02
sha256: d964a0d56b8cd88cc816cc3158694e1e8edd00115813b4b6c5e54904a9e72dda
author: "关注AI4S的"
feed: "机器之心"
published: 2026-06-02
tags: [ai4s, deep-principle, mira, mpa, materials-property-axiom, recursive-self-improvement, autonomous-research, suiren, unimol, molecular-foundation-model, scientific-agent, self-improving-agent, three-stage-training, jack-clark, agi]
---

# AI4S 突破：深度原理 MIRA + MPA 材料基座模型 40 项实验全面 SOTA，递归自训练打造最强材料基座

> 来源：机器之心 / 2026-06-02 / 关注 AI4S 的 · 编辑：冷猫
> 标题：AGI 将至！40 项实验全面 SOTA，超级递归智能体自主打造最强材料基座模型
> 技术报告：https://www.deepprinciple.com/papers/mpa.pdf
> 体验链接：https://sciclaw.cn/?invite_code=CN-JJLRHO9U

## 1. 时代背景：递归自进化按下 AGI 加速键

> **今年，我们正在打开 AI 自我进化的大门，按下了通往 AGI 的加速键。**

### Jack Clark 与 OpenAI 的信号

- **Anthropic 联合创始人 Jack Clark 发帖**：到 2028 年底，**递归自进化（recursive self-improvement）发生的概率有 60%**，AI 很快就能自己改造自己了
- **OpenAI 公开招聘「递归自我改进安全研究员」**，年薪 **44 万美元**

### AI4S 领域 Nature 三连发

- **Google DeepMind Co-Scientist**——急性髓系白血病药物筛选中命中 3 个阳性候选分子
- **FutureHouse Robin 系统**——自主完成从假设生成到实验验证的完整闭环
- **Google ERA 引擎**——并行生成数千个代码变体进行计算实验

> **AI 智能体自我迭代飞轮的启动，需要智能体自主从代码重构、数据清洗到模型训练，最终独立产出超越人类精心设计的 SOTA 模型。**

## 2. MPA 模型：40 项实验全面 SOTA

**深度原理团队**（DeepPrinciple）本周发布 **Materials Property Axiom（MPA）** 模型。

- 由自研 **AI Scientist 平台 MIRA** 通过**递归自训练**产出
- **40 项实验性质预测任务**中全面刷新 SOTA
- **平均 MAE 降低 10%，最高降幅达 51%**

> **研究报告提到，在整个研究流程中，MIRA 承担了关键工作，包括开展初步研究、适配并更新骨干基础模型、自动化训练与评估循环、分析实验结果，并撰写报告初稿。**

> **这或许是「AI for AI」概念迄今为止最具说服力的一次落地。**

## 3. 前 SOTA 的暴力美学

### Suiren-1.0（上海科学智能研究院，2026-03）

- 参数量 **1.8B** 分子基座模型家族
- **320 张 NVIDIA H800 GPU** + **7000 万条量子化学级别分子构象数据**
- 一举击败长期霸榜的 UniMol 系列模型
- **典型的「暴力美学」路线**

### Suiren 的结构性盲区

> **训练数据和优化目标主要围绕计算性质**（通过量子化学软件批量算出来的性质）

**而实际材料研发中，决定分子能不能用的是实验性质**：
- 沸点、闪点
- 毒性、溶解度
- 等等

**实验性质预测为什么难**：
- 实验数据天然稀疏（一次实验可能花几天）
- 噪声大（不同实验室测出来的值可能不同）
- 不同性质背后的物理机制完全不同
- **靠堆数据和堆参数，解决不了这种物理多样性带来的迁移难题**

> **这正是 MPA 切入的突破口。**

## 4. AutoResearch 架构：从自动化科研开始

MPA 的诞生与传统模式截然不同。**深度原理团队构建了基于 MIRA 的 AutoResearch 架构**：

- 人类科学家只需参与**意图说明和阶段性审核**
- AI 科研智能体**全自主完成**从文献调研、代码实现、数据处理到模型训练的完整科研管线

> **MIRA 在这套架构中扮演的角色类似于一个全栈科研员**：理解研究目标，自主拆解任务，调用计算资源执行实验，分析中间结果并据此调整策略。

> **整个过程形成递归闭环，每一轮迭代的输出成为下一轮的输入，模型性能在自主循环中持续攀升。**

**这和 Self-Improving Agent 的研究方向不谋而合，但深度原理将其落地到了一个可量化验证的科学问题上。**

## 5. 自主重构：AI 改写 AI 的代码

### 团队向 MIRA 抛出开放性问题

> **"考虑到目前已经具备 3D 分子结构和实验性质标签，最可行的多性质预测模型是什么？"**

**MIRA 启动 brainstorm**，系统性地分析当时可选的所有路径，认为 **UniMol 系列的 3D 预训练编码器是最合理的起点**。

MIRA 给出改进路径：
- **保留 UniMol-v2 的 3D Transformer 骨架**
- **增加多构象感知能力**
- 面向实验性质的**对齐训练**

> **这个决策过程完全由 MIRA 自主完成。人类研究员的角色，是提出问题和确认方向。**

### 自主重构代码

MIRA 对现有的分子基座模型代码进行自主重构：
- 识别架构中的冗余模块
- 重新设计数据流管线以适配三阶段训练框架
- 将预训练、中间训练和后训练三个阶段的接口标准化
- 重构后的代码库成为 MPA 三阶段训练框架的工程基础

> **这种代码级的自主重构能力，正是 MIRA 区别于任何一个科研工具的关键。它操作的对象不仅是超参数空间，而是整个模型架构和训练管线的源代码。**

## 6. 自主清理：AI 的「科研直觉」

### MPA 的下游基准

**40 个实验性质预测任务**，数据来源涵盖：
- OPERA
- Yaws 手册
- CRC 化学物理手册
- TDC
- MoleculeNet

**数据问题**：不同团队、不同时期整理，存在单位不一致、重复样本、标签噪声等

### MIRA 的多阶段清洗

> **MIRA 在数据预处理阶段自主执行了多阶段清洗管线。更关键的是，它能够基于物理常识判断数据的合理性。**

**示例**：当某个分子的沸点数据与其分子量和官能团组成**明显不匹配**时，MIRA 会将其**标记为可疑数据点并从训练集中移除**。

> **这种能力在传统流程中需要领域专家花数周人工审查。MIRA 把它变成了自动化流程的一部分。**

## 7. 自主设计：三阶段训练框架

**核心设计思想来自一个类比：大语言模型的训练范式**。
- LLM：广泛预训练 → 领域对齐的中间训练 → 任务特定微调
- MPA：将这一范式迁移到材料基座模型，但**做了一个关键的物理学改造**：**中间训练的监督信号必须与下游目标共享物理机制**

### 预训练阶段

- 基于 **PubChem-xTB 数据集**（约 **6400 万分子结构**）
- 采用**几何恢复的 3D 自监督目标**
- 让模型学习通用的分子空间表征

### 物理对齐中间训练（MPA 的核心创新）

> **MIRA 在迭代过程中发现，并非所有辅助任务都能提升下游性能，只有与目标性质共享物理机制的辅助监督才有效。**

### 后训练阶段

MIRA 自主发现两个关键改进：

**改进 1**：将 **MSE 损失替换为 Huber 损失**（scaffold split 下带来 **2.65%** 的 MAE 降低）——**有效抑制了实验数据中异常值的干扰**。

**改进 2**：设计**混合读出头（hybrid readout）**——
- **注意力池化分支** + **原子加和分支**
- **可学习系数 α** 让模型自动适配不同性质的物理结构

> **这个设计的精妙之处在于，它将物理先验编码进了模型架构本身。**

| 性质类型 | 主导分支 | scaffold split MAE 降低 |
|---------|---------|------------------------|
| **热力学量**（生成焓、燃烧焓、热容等） | 原子加和分支 | **高达 21.38%** |
| **非加和性质**（闪点等） | 注意力分支 | 主导 |

## 8. 最终战绩

MPA 的最终版本，配合三阶段训练框架：

| 指标 | 数据 |
|------|------|
| **40 个实验性质中 38 个获得提升** | 与仅预训练模型结构相比 |
| **平均误差降低 14.0%** | 与仅预训练对比 |
| **燃烧焓误差降低 51.1%** | 热力学性质优势最突出 |
| **吉布斯自由能降低 31.6%** | 热力学性质 |
| **40 个可比端点中赢下 35 个** | vs Suiren 正面对决 |
| **平均误差再降 5.4%** | vs Suiren 对比 |

### 分布外泛化（真正的考试）

> **面对全新分子骨架时，MPA 的性能退化仅 25.7%，而 Suiren 为 31.8%。**

> **在实际材料发现中，你要预测的往往是从未见过的新分子。MPA 在这种「真正的考试」中表现最稳，这才是它对产业界最有价值的地方。**

## 9. 迭代实录：进化的飞轮已经转动

**之前讲的那些干净利落的模型架构和成就全新 SOTA 的实验结果，背后是 MIRA 在一个月时间内尝试的上百轮「假设 → 验证 → 调整」循环。**

### 数据侧（三次有效尝试）

> **MIRA 在分析了模型的表现后判断：模型从预训练直接跳到下游微调，中间缺了一层「物理直觉」。**

- **使用 deep research、计算化学相关的技能——yamo**
- 得到理论计算的热力学、偶极矩等数据
- 从文献获取了油水分配系数（logP）数据集
- **自主完成关键步骤：将基准测试中出现过的分子从训练集中剔除**（避免数据泄漏）

**三次数据叠加**：MAE 降低 **6.5% → 7.5% → 最终 8.4%**

### 模型结构（两次有效尝试）

> **继续堆数据的边际收益在递减，应该转向模型结构的改进。**

> **下游微调阶段只用了简单的多层感知机（MLP）做预测头，还有很大的改进空间。**

**第一次改进**：将 MLP 替换为多头注意力机制，**MAE 又降低 1.8%**

**第二次改进**：发现**40 个实验性质有"广延性"和"强度性质"两种**——
- 广延性：性质值随分子大小线性缩放
- 强度性质：和分子大小无关
- 在多头注意力之外，**增加一条原子级 embedding 经过残差网络后求和的通路**
- 这条通路**显式表达广延性质"各部分之和等于整体"的物理规律**
- **MAE 继续降低至 12.3%**

> **模型学会了"什么性质该用什么物理假设"。**

### 损失函数与推理

- **MSE 换 Smooth L1（Huber 损失）**——降低少数极端值对训练的拖累，MAE 再降 **1.3%**
- **推理阶段加入多构象信息聚合**——提升构象相关性质表现

**最终 MAE 降低 14.6%**

## 10. 核心判断：递归进化的齿轮

> **如果 AI 能在材料科学这样一个高度专业化的领域自主完成从 0 到 SOTA 的全流程，那它在其他科学领域呢？在 AI for AI 本身呢？**

> **MIRA 做的事情，本质上是用 AI 来改进 AI。它重构了一个 AI 模型的代码，优化了这个 AI 模型的训练数据，迭代了这个 AI 模型的训练策略，最终产出了一个更强的 AI 模型。人类在这里的角色已经从「执行者」变成了「目标设定者」，AI 在用 AI 做原料，产出更好的 AI。**

> **一旦这个飞轮转起来，每一圈都比上一圈转得更快。**

### 三个阶段

- **Coding Agent** 自动写代码
- **Research Agent** 自动做科研
- **Self-Improving Agent** 自动改进自身

> **AI 智能体的能力边界正在以一种加速度向外扩展。每一次成功的递归迭代，都在缩短我们与 AGI 之间的距离。**

> **递归进化的齿轮已经转动，AGI 可能比我们预想的来得更快。**

---

- 原文：机器之心 / 2026-06-02 / 关注 AI4S 的
- 技术报告：https://www.deepprinciple.com/papers/mpa.pdf
- 体验链接：https://sciclaw.cn/?invite_code=CN-JJLRHO9U