--- title: "DeepSeek陈德里AI论文第二弹:从6分到8分,DeliAutoResearch SKILL又进化了" description: "陈德里第二篇与AI合作论文:持续学习与自我改进统一框架,三轴分类法/五类方法论/收敛条件形式化/六开放挑战,评审8分 source_url: "https://mp.weixin.qq.com/s/g42Tchq89GVN7D35BVLqMA" author: "机器之心编辑部" platform: wechat published: "2026-05-30" ingested: "2026-05-30" sha256: "6cdc72527bde26062c2e2c2b5f3c6f1dc839b1a8c5b01e509fce43e703c5f38b" type: article tags: - agent - deepseek - continual-learning - self-improvement - ai-research - autonomous-research source: [[entities/deli-auto-research-skill-deepseek]] --- # DeepSeek陈德里AI论文第二弹:从6分到8分,DeliAutoResearch SKILL又进化了 机器之心编辑部 | 2026-05-30 ## 论文背景 DeepSeek 研究员陈德里(Deli Chen)和 AI 合作的第二篇论文,聚焦 continual learning(持续学习)与 self-iteration(自我迭代)。陈德里认为这是 AI 迈向 AGI 过程中极为关键的一步。 由于 arXiv 不允许将 AI 列为作者,论文 99% 工作量由 DeepSeek-V4-Pro(文字)和 GPT-Image-2(图像)承担,移至脚注说明。 论文地址:https://victorchen96.github.io/continual_learning_survey.pdf ## 核心判断:未来AI将持续学习、自我更新 未来的 AI 系统不会长期停留在一组冻结参数的形态,而会逐渐演变为能够持续学习、自我更新、自我迭代的系统。 上下文管理和文档化记忆可以在一定程度上帮助模型维持注意力、保留任务经验。但注意力窗口终究会被填满,届时需要把知识和经验参数化,以降低认知负担。 ## DeliAutoResearch SKILL的迭代实验 这篇论文也是陈德里搭建的自主科研智能体框架 DeliAutoResearch SKILL 自身的一次迭代实验。 **关键指标变化(第一篇→第二篇)**: - 交互轮数大幅下降 — 说明系统更自主 - 总 token 消耗显著上升 — 说明系统在做更深层推理 - 模拟同行评审分数:6分 → 8分 **解读**:人工介入变少,系统自主设计和运行实验部分变多。这是自动科研工作流走向更高自主性的信号。 ## 为什么要统一持续学习和自我改进? 传统研究中,持续学习和自我改进被视为两个不同研究方向,但面对同一底层问题:**模型如何在接收新信息或新目标后更新自己,同时不破坏已掌握的能力?** - 持续学习:模型如何顺序适应新的任务或数据 - 自我改进:模型如何自主增强能力 两者的技术难点高度相似:分布变化下稳定优化、保留已有表征、处理探索与利用的权衡、没有固定测试集的情况下评估进步。 **核心主张**:下一代 LLM 训练管线必然会把外部数据流和模型自生成训练信号结合起来,形成紧密耦合的反馈循环。统一研究不是方便之举,而是必要之举。 ## 核心贡献一:三轴统一分类框架 首个同时覆盖大语言模型持续学习与自我改进的分类框架,三个相互正交的维度: 1. **更新什么**:被更新的是知识、技能、对齐能力还是推理能力 2. **如何更新**:采用哪一类方法 3. **何时更新**:离线阶段、周期性阶段、在线阶段,还是由特定事件触发 该框架能对任何部署后的学习系统进行精确刻画,揭示不同方法之间此前未被充分认识到的联系。 ## 核心贡献二:五大方法类别系统分析 论文系统分析了 100 多篇论文,归纳为五类方法: 1. **基于正则化的持续学习** 2. **回放与经验管理** 3. **参数高效与模块化方法** 4. **自我改进与自博弈** 5. **在线自适应方法** 每类方法都形式化描述核心机制,分析理论性质,比较代表性方法。 ## 核心贡献三:自我改进收敛条件形式化 论文对迭代式自我改进在什么条件下能够保证收敛而非发散进行了形式化分析,将来自自博弈、迭代蒸馏和 Constitutional AI 等分散的理论结果统一到同一框架。 **关键洞察**:自我改进代表范式转变——模型能力提升正从依赖人类监督,转向由模型自主驱动。 所有方法都需某种 **grounding signal(锚定信号)**:验证器、宪法原则、人类偏好数据,或问题本身的结构。没有锚定信号,自我改进的循环最终必然会退化。 **核心观点**:自我改进轨迹不取决于生成机制有多复杂,而取决于评估信号的质量及其相对于模型自身的独立性。 ## 核心贡献四:六个开放挑战 1. **大模型规模能否解决灾难性遗忘**:规模不是根治方案,需研究规模如何影响稳定性—可塑性权衡 2. **自我改进的理论极限**:模型能否无限自我提升?何时收敛?何时坍塌?缺少外部验证器时容易陷入自我确认 3. **多模态持续学习**:跨模态保留能力是新难题 4. **安全的持续对齐**:模型变强的同时安全约束不能被遗忘或绕过 5. **部署时「实时学习」**:低延迟高稳定性 vs 在线学习计算需求天然冲突,需要分层更新机制 6. **与Agent框架结合**:层级记忆架构(短期情节记忆+长期参数知识),多Agent持续学习机制 ## 论文核心判断 持续学习和自我改进正在走向融合。未来有前景的方向是构建这样的模型:既能吸收外部世界的新知识,也能利用自我反思、自我验证和自我搜索来改进学习策略;既能变得更强,又能保持稳定与安全。