--- title: "Agivar 录屏教学:清华非十科技桌面 Agent — 大脑小脑双层架构 + Jittor 推理引擎 + 2.3× 速度 + 三层确定性" source: "机器之心" source_url: "https://mp.weixin.qq.com/s/c8xIwgeulISyyuQee7cwnA" ingested: 2026-06-16 sha256: "dd1cf5f344e4a32eeb90dcc5895b630541eaa95d75d4eb41391dcaf2c661f1ed" type: raw tags: [agivar, screen-recording-teaching, desktop-agent, computer-use, brain-cerebellum, jittor, tsinghua-university, fittentech, fitten-code, fde, forward-deployment-engineer, three-layer-determinism, multi-agent-validation, 2026, machine-spirit] review_value: 8 review_confidence: 8 --- # Agivar 录屏教学:清华非十科技桌面 Agent **作者**:机器之心 | **发布时间**:2026-06-16 11:33 > **软文性质**:机器之心发布"非十科技 Agivar"产品。本文重点提取**架构创新 + 方法论**,软文部分批判性吸收。 ## 一句话定位 **Agivar** 是清华大学计算机系博士团队创立的非十科技(fittentech.com)发布的桌面 Agent——核心能力是"**录屏教学**"(用户演示一次工作流程,AI 学习后自动执行),采用"**大脑 + 小脑**"双层架构,底层基于清华自研 **Jittor(计图)** 深度学习框架。同任务**2.3× 提速**(57 秒 vs 某主流 2 分 12 秒)+ **三层确定性设计**(训练收敛/多重校验/规则约束)。 > 区别于"按键精灵"的坐标记录,Agivar 学习的是**任务和逻辑**:为什么先打开这个页面?为什么填这个数字?什么情况下跳过这一步? ## 序:AI 学着操作电脑 过去 AI 回答问题,现在它直接开始帮你干活。填表格、录系统、整理文件,Anthropic **Claude Cowork** / OpenAI **Codex 桌面版**——越来越多的 Agent 开始接管真实工作流。 **核心矛盾**:AI 越来越会干活了,但普通人该怎么把自己的工作流程交给它? 主流 Agent "你写 Prompt → AI 执行" 屡屡碰壁。打开内部系统、填表单、传附件、点提交…这些动作早已是员工的"肌肉记忆",要用文字描述清楚,大多数人直接卡住。 ## FDE (Forward Deployment Engineer) 现状 硅谷新职业 —— FDE (Forward Deployment Engineer,前沿部署工程师)。驻场在客户公司,工作就是把业务人员"说不清"的流程,翻译成 AI 能执行的任务。既要懂技术,又要熟悉真实工作流。 **资深 FDE 年薪中位数已高达 48.5 万美元**。 FDE 的存在说明了一件事:**让人学会教 AI,其实没有那么容易**。 ## Agivar 核心能力:录屏教学 使用方式:打开电脑录屏,像平时工作一样把流程操作一遍。录制结束后,剩下的事情交给 AI。 ### 与"按键精灵"的本质区别 | 维度 | 按键精灵 | Agivar | |------|---------|--------| | 记录内容 | 坐标和动作 (鼠标 (300,500) 点击) | 任务和逻辑 (为什么填这个数字) | | 抗界面变化 | 不能(界面改版就失效) | 能(识别正确目标并执行) | | 学习对象 | 操作轨迹 | **工作方法** | ## 案例:广东省政务部门 某政务部门工作人员,每天都要在内部系统处理大量表单。打开系统→选择业务类型→填写信息→上传附件→提交审批,每天同样的流程都要重复十几次。仅这一项工作,日常就要花掉一、两个小时。 这些系统**没有 API、没有自动化接口,只能靠人工点击**。使用 Agivar 录制一次完整流程,不到三分钟,此后便自动执行。 **录屏三分钟,换回每天两小时**。 类似场景:政务系统、企业 ERP/CRM、财务软件、内部 OA、采购系统 —— **大量重复、无 API、只能手工操作的流程**。 ## 大脑 + 小脑双层架构 为什么 Agivar 更快?团队针对桌面任务场景训练了专用执行模型,强化桌面操作能力。设计了"大脑 + 小脑"双层架构: | 层 | 模型 | 职责 | |----|------|------| | **大脑** | 大模型 | 理解录屏内容 / 拆解任务目标 / 规划执行路径 / 处理异常 | | **小脑** | 专用小模型 | 界面识别 / 鼠标点击 / 键盘输入 / 高频动作执行 | **类比人类神经系统**:开车时不会每踩一次油门都重新思考交通规则。大脑负责路线规划,小脑负责具体动作。 ### 底层:Jittor (计图) 推理引擎 团队基于清华大学自研深度学习框架 **Jittor(计图)** 开发的推理引擎,针对高吞吐、低延迟桌面任务场景,专门优化模型调度和执行链路,**确保大小模型协同不等待**。 ### 速度对比 同一台电脑执行同一后台信息录入任务: - 某主流产品:**2 分 12 秒** - Agivar:**57 秒**(**2.3× 提速**) 单个任务差一分钟差距或许不明显,但 100 份报销单 / 300 条客户信息 / 一天批量审批时,分钟级差距放大成小时级成本。 ## 三层确定性设计 企业是否能将 Agent 推进生产,关注的是**稳**而不是**快**。大模型是概率系统,第一次点 A,第二次可能点 B —— 写诗时是创意,财务录入/合同归档里却是风险。 **AI 能否进入生产环境,拼的从来不是上限,而是下限**。 | 层 | 机制 | 作用 | |----|------|------| | **1. 训练收敛** | 海量桌面任务数据,强化"界面状态→用户意图→执行动作"稳定映射 | 减少"发散" | | **2. 多重校验** | 内部多个 Agent 交叉验证(规划/执行/观察/复核) | 不同角色各司其职 | | **3. 规则约束** | 高频流程关键操作节点、绝对不能出错的动作,写成程序控制"铁律" | 不随意发挥 | **最终目标**:同一任务重复执行,走同样路径,得到同样结果。**生产环境不需要惊喜,只需要稳定**。 ## 全栈自研:清华团队底牌 | 维度 | 来源 | |------|------| | 模型训练 | 非十科技自研 | | 执行框架 | 非十科技自研 | | 深度学习框架 | 清华自研 **Jittor (计图)** | | 团队核心 | 清华大学计算机系博士 + Jittor 主要开发者 | Jittor 已成国内主流深度学习框架之一。Agivar 对底层推理调度的优化,**并非建立在第三方能力之上,而是具备从框架层到模型层的完整掌控能力**。 ### 同公司前作:Fitten Code 非十科技此前推出 **Fitten Code** AI 编程助手,累计下载量超过 **150 万**,多个主流插件平台评分第一。 同时拥有大模型自研 + 深度学习框架研发 + 百万级产品落地经验,"这样的组合,在国内外同类赛道中并不多见"。 ## 平台支持 - **公测中**:Agivar 已开启公测 - **系统支持**:Windows + macOS - **下载地址**:https://agivar.fittentech.com ## 核心洞察 1. **录屏教学改变了人机协作关系**:过去软件要求人适应系统,下一代 Agent 正在反过来适应人 2. **大脑小脑分层是 Agent 性能突破的关键**:避免每次点击都调用通用大模型(5+ 秒延迟) 3. **确定性比速度更重要**:企业级 Agent 必须设计"铁律"约束层,不能纯靠概率 4. **清华 Jittor + 全栈自研 = 垂直整合优势**:从深度学习框架到模型到产品的完整掌控 5. **FDE 模式成本太高**:48.5 万美元年薪的"翻译者"如果能被 AI 替代——**批判性看**,这是产品宣传话术,实际替代取决于具体场景的流程复杂度 ## 与 Anthropic Computer Use / Claude Cowork / Codex 桌面版的关系 | 产品 | 核心方法 | 痛点 | |------|---------|------| | **Anthropic Computer Use** | 通用多模态大模型直接"看屏幕"执行 | 慢(5+ 秒/步)、贵(45× structured APIs)、需复杂 prompt | | **Claude Cowork** | Computer Use + 工作流编排 | 偏向团队协作场景 | | **OpenAI Codex 桌面版** | 通用多模态模型控制桌面 | 同上 | | **Agivar** | **录屏教学 + 大脑小脑分层** | 演示一次即可训练专属 Agent | **Agivar 差异化**:**演示式学习**(让 AI 主动理解用户工作流)而非 **Prompt 编写**(用户主动教 AI)。 ## 适用场景 vs 不适用场景 ### 适用 - 政务系统、企业 ERP/CRM、财务软件、内部 OA、采购系统 - 没有 API、只能手工操作的流程 - 重复性高、规则明确的工作(录屏 3 分钟可表达的) ### 不适用 - 需要创造性判断的工作 - 异常处理频次高的流程 - 跨多个非结构化系统的工作 ## 关联引用 → [[entities/anthropic-computer-use-best-practices|Anthropic Computer Use 最佳实践]] — 通用多模态大模型路径 → [[entities/computer-use-45x-more-expensive-than-structured-apis|Computer Use 45× 成本问题]] — Computer Use 的成本痛点 → [[entities/ibm-forward-deployed-units-ai-deployment|IBM Forward Deployed Units (FDU)]] — FDE 模式企业级 AI 部署 → [[entities/the-race-to-own-the-agentic-future-tidemark|Agentic Future 竞赛 (Tidemark)]] — FDE 概念与投资视角 → [[raw/articles/agivar-screen-recording-teaching-brain-cerebellum-architecture-2026|原文存档(本篇)]]