| 阶段 | 描述 |
|---|---|
| 观察 | 通过系统快照、实时截图或无障碍树(Accessibility Tree)获取当前界面状态。该观察用于判断上一执行步骤的结果,并为后续执行提供决策证据。 |
| 推理 | LLM/VLM 理解当前页面,检查上一动作状态,按需检索相关记忆,选择合适的技能或工具,并决定直接回答还是继续执行。 |
| 执行 | 通过 Android 原子动作调度具体操作,包括点击、滑动、文本输入和应用切换等。 |
| 架构层 | 核心组件 | 职责定义 |
|---|---|---|
| 感知层 | Multi-modal Input | 融合语音识别(ASR)、截图/录屏帧、无障碍树信息,构建统一感知上下文。 |
| 策略层 | Agent Loop | 智能体主循环:任务拆解;通过 Kotlin 桥接进行分发。 |
| 执行层 | Device Scheduler | 快照、模拟 UI 操作和应用生命周期管理。 |
| 验收层 | Success Monitor | 执行后的检查与循环检测,用于判断偏移或完成。 |
| 核心能力 | 核心优化点 | 技术实现 |
|---|---|---|
| Omni Perception(全感知) | 统一多模态入口与意图理解 | 整合 UI 状态、真实世界视觉上下文、语音输入、定时触发、悬浮组件和外部渠道;通过时间对齐与场景化 VLM 理解,将原始输入流转化为结构化意图。 |
| Omni Memory(全记忆) | 多模态个性化记忆 | 结合用于任务连续性的工作记忆,以及从本地多模态数据中蒸馏出的长期个人记忆,支持个性化多轮交互和记忆驱动的自动化执行。 |
| Omni Action(全行动) | 稳健执行与可复用技能 | 围绕混合 UI 证据运行观察-推理-执行循环,并通过行为克隆和轨迹回放将用户导航转化为可复用的 deeplink/intent 技能。 |
| 📷 Demo A1 — 相机感知执行 | 📺 Demo A2 — 屏幕替身 / 屏幕伴随 |
|---|---|
| 用户指令 「这瓶水在淘宝上卖多少钱」 |
用户指令 「开始做题吧。」 |
|
执行特征 • 看相机画面 + 听语音,先判断“这是啥、要查什么” • 自动一键进入目标 App 的搜索页(如淘宝) • 结果页自动滚动截图并提取价格/销量,给出带数字结论 |
执行特征 • 跟随当前投屏/界面作为主视角,切哪页跟哪页 • 用户按住语音后启动执行,结合屏幕内容理解任务 • 长任务按步骤连续推进,边执行边看反馈并动态调整 |
| 相机识物 → 电商询价闭环。 | 屏幕伴侣跟随 → 多步读屏自动作答。 |
|
|
| ✂️ Demo B — 记忆驱动的一键成片 | 📦 Demo C — 直达美团秒杀页(行为克隆) |
|---|---|
| 用户指令 「帮我找到与鹦鹉主题相关的照片并一键成片。」 |
用户指令 「打开美团秒杀」 |
|
执行特征 • 先在后台把相册内容整理成“可按主题检索”的记忆清单,再按你说的“鹦鹉”挑出候选照片 • 把选中的图先集中到一个临时相册(如 A_latest),避免在全相册里一张张翻找• 自动跳到剪映一键成片页,批量勾选这些照片,必要时点“跳过分析”,最后进入导出/分享 |
执行特征 • 录一次轨迹,沉淀成可复用书签/技能(含页面启动信息) • 之后一句话即可直达目标页(如“打开美团秒杀”) • 启动失败时自动降级兜底,尽量回到上次具体页面 |
| 主题找图 → 一键成片。 | 录制一次轨迹 → 一句话直达目标页。 |
|
|