---
title: "Agivar 录屏教学：清华非十科技桌面 Agent — 大脑小脑双层架构 + Jittor 推理引擎 + 2.3× 速度 + 三层确定性"
source: "机器之心"
source_url: "https://mp.weixin.qq.com/s/c8xIwgeulISyyuQee7cwnA"
ingested: 2026-06-16
sha256: "dd1cf5f344e4a32eeb90dcc5895b630541eaa95d75d4eb41391dcaf2c661f1ed"
type: raw
tags: [agivar, screen-recording-teaching, desktop-agent, computer-use, brain-cerebellum, jittor, tsinghua-university, fittentech, fitten-code, fde, forward-deployment-engineer, three-layer-determinism, multi-agent-validation, 2026, machine-spirit]
review_value: 8
review_confidence: 8
---

# Agivar 录屏教学：清华非十科技桌面 Agent

**作者**：机器之心 | **发布时间**：2026-06-16 11:33

> **软文性质**：机器之心发布"非十科技 Agivar"产品。本文重点提取**架构创新 + 方法论**，软文部分批判性吸收。

## 一句话定位

**Agivar** 是清华大学计算机系博士团队创立的非十科技（fittentech.com）发布的桌面 Agent——核心能力是"**录屏教学**"（用户演示一次工作流程，AI 学习后自动执行），采用"**大脑 + 小脑**"双层架构，底层基于清华自研 **Jittor（计图）** 深度学习框架。同任务**2.3× 提速**（57 秒 vs 某主流 2 分 12 秒）+ **三层确定性设计**（训练收敛/多重校验/规则约束）。

> 区别于"按键精灵"的坐标记录，Agivar 学习的是**任务和逻辑**：为什么先打开这个页面？为什么填这个数字？什么情况下跳过这一步？

## 序：AI 学着操作电脑

过去 AI 回答问题，现在它直接开始帮你干活。填表格、录系统、整理文件，Anthropic **Claude Cowork** / OpenAI **Codex 桌面版**——越来越多的 Agent 开始接管真实工作流。

**核心矛盾**：AI 越来越会干活了，但普通人该怎么把自己的工作流程交给它？

主流 Agent "你写 Prompt → AI 执行" 屡屡碰壁。打开内部系统、填表单、传附件、点提交…这些动作早已是员工的"肌肉记忆"，要用文字描述清楚，大多数人直接卡住。

## FDE (Forward Deployment Engineer) 现状

硅谷新职业 —— FDE (Forward Deployment Engineer，前沿部署工程师)。驻场在客户公司，工作就是把业务人员"说不清"的流程，翻译成 AI 能执行的任务。既要懂技术，又要熟悉真实工作流。

**资深 FDE 年薪中位数已高达 48.5 万美元**。

FDE 的存在说明了一件事：**让人学会教 AI，其实没有那么容易**。

## Agivar 核心能力：录屏教学

使用方式：打开电脑录屏，像平时工作一样把流程操作一遍。录制结束后，剩下的事情交给 AI。

### 与"按键精灵"的本质区别

| 维度 | 按键精灵 | Agivar |
|------|---------|--------|
| 记录内容 | 坐标和动作 (鼠标 (300,500) 点击) | 任务和逻辑 (为什么填这个数字) |
| 抗界面变化 | 不能（界面改版就失效） | 能（识别正确目标并执行） |
| 学习对象 | 操作轨迹 | **工作方法** |

## 案例：广东省政务部门

某政务部门工作人员，每天都要在内部系统处理大量表单。打开系统→选择业务类型→填写信息→上传附件→提交审批，每天同样的流程都要重复十几次。仅这一项工作，日常就要花掉一、两个小时。

这些系统**没有 API、没有自动化接口，只能靠人工点击**。使用 Agivar 录制一次完整流程，不到三分钟，此后便自动执行。

**录屏三分钟，换回每天两小时**。

类似场景：政务系统、企业 ERP/CRM、财务软件、内部 OA、采购系统 —— **大量重复、无 API、只能手工操作的流程**。

## 大脑 + 小脑双层架构

为什么 Agivar 更快？团队针对桌面任务场景训练了专用执行模型，强化桌面操作能力。设计了"大脑 + 小脑"双层架构：

| 层 | 模型 | 职责 |
|----|------|------|
| **大脑** | 大模型 | 理解录屏内容 / 拆解任务目标 / 规划执行路径 / 处理异常 |
| **小脑** | 专用小模型 | 界面识别 / 鼠标点击 / 键盘输入 / 高频动作执行 |

**类比人类神经系统**：开车时不会每踩一次油门都重新思考交通规则。大脑负责路线规划，小脑负责具体动作。

### 底层：Jittor (计图) 推理引擎

团队基于清华大学自研深度学习框架 **Jittor（计图）** 开发的推理引擎，针对高吞吐、低延迟桌面任务场景，专门优化模型调度和执行链路，**确保大小模型协同不等待**。

### 速度对比

同一台电脑执行同一后台信息录入任务：
- 某主流产品：**2 分 12 秒**
- Agivar：**57 秒**（**2.3× 提速**）

单个任务差一分钟差距或许不明显，但 100 份报销单 / 300 条客户信息 / 一天批量审批时，分钟级差距放大成小时级成本。

## 三层确定性设计

企业是否能将 Agent 推进生产，关注的是**稳**而不是**快**。大模型是概率系统，第一次点 A，第二次可能点 B —— 写诗时是创意，财务录入/合同归档里却是风险。

**AI 能否进入生产环境，拼的从来不是上限，而是下限**。

| 层 | 机制 | 作用 |
|----|------|------|
| **1. 训练收敛** | 海量桌面任务数据，强化"界面状态→用户意图→执行动作"稳定映射 | 减少"发散" |
| **2. 多重校验** | 内部多个 Agent 交叉验证（规划/执行/观察/复核） | 不同角色各司其职 |
| **3. 规则约束** | 高频流程关键操作节点、绝对不能出错的动作，写成程序控制"铁律" | 不随意发挥 |

**最终目标**：同一任务重复执行，走同样路径，得到同样结果。**生产环境不需要惊喜，只需要稳定**。

## 全栈自研：清华团队底牌

| 维度 | 来源 |
|------|------|
| 模型训练 | 非十科技自研 |
| 执行框架 | 非十科技自研 |
| 深度学习框架 | 清华自研 **Jittor (计图)** |
| 团队核心 | 清华大学计算机系博士 + Jittor 主要开发者 |

Jittor 已成国内主流深度学习框架之一。Agivar 对底层推理调度的优化，**并非建立在第三方能力之上，而是具备从框架层到模型层的完整掌控能力**。

### 同公司前作：Fitten Code

非十科技此前推出 **Fitten Code** AI 编程助手，累计下载量超过 **150 万**，多个主流插件平台评分第一。

同时拥有大模型自研 + 深度学习框架研发 + 百万级产品落地经验，"这样的组合，在国内外同类赛道中并不多见"。

## 平台支持

- **公测中**：Agivar 已开启公测
- **系统支持**：Windows + macOS
- **下载地址**：https://agivar.fittentech.com

## 核心洞察

1. **录屏教学改变了人机协作关系**：过去软件要求人适应系统，下一代 Agent 正在反过来适应人
2. **大脑小脑分层是 Agent 性能突破的关键**：避免每次点击都调用通用大模型（5+ 秒延迟）
3. **确定性比速度更重要**：企业级 Agent 必须设计"铁律"约束层，不能纯靠概率
4. **清华 Jittor + 全栈自研 = 垂直整合优势**：从深度学习框架到模型到产品的完整掌控
5. **FDE 模式成本太高**：48.5 万美元年薪的"翻译者"如果能被 AI 替代——**批判性看**，这是产品宣传话术，实际替代取决于具体场景的流程复杂度

## 与 Anthropic Computer Use / Claude Cowork / Codex 桌面版的关系

| 产品 | 核心方法 | 痛点 |
|------|---------|------|
| **Anthropic Computer Use** | 通用多模态大模型直接"看屏幕"执行 | 慢（5+ 秒/步）、贵（45× structured APIs）、需复杂 prompt |
| **Claude Cowork** | Computer Use + 工作流编排 | 偏向团队协作场景 |
| **OpenAI Codex 桌面版** | 通用多模态模型控制桌面 | 同上 |
| **Agivar** | **录屏教学 + 大脑小脑分层** | 演示一次即可训练专属 Agent |

**Agivar 差异化**：**演示式学习**（让 AI 主动理解用户工作流）而非 **Prompt 编写**（用户主动教 AI）。

## 适用场景 vs 不适用场景

### 适用
- 政务系统、企业 ERP/CRM、财务软件、内部 OA、采购系统
- 没有 API、只能手工操作的流程
- 重复性高、规则明确的工作（录屏 3 分钟可表达的）

### 不适用
- 需要创造性判断的工作
- 异常处理频次高的流程
- 跨多个非结构化系统的工作

## 关联引用

→ [[entities/anthropic-computer-use-best-practices|Anthropic Computer Use 最佳实践]] — 通用多模态大模型路径
→ [[entities/computer-use-45x-more-expensive-than-structured-apis|Computer Use 45× 成本问题]] — Computer Use 的成本痛点
→ [[entities/ibm-forward-deployed-units-ai-deployment|IBM Forward Deployed Units (FDU)]] — FDE 模式企业级 AI 部署
→ [[entities/the-race-to-own-the-agentic-future-tidemark|Agentic Future 竞赛 (Tidemark)]] — FDE 概念与投资视角
→ [[raw/articles/agivar-screen-recording-teaching-brain-cerebellum-architecture-2026|原文存档（本篇）]]