---
layout: center
highlighter: shiki
css: unocss
colorSchema: dark
transition: fade-out
title: 'AIRI: 我们是如何从零实现外网爆火的 AI 主播的'
exportFilename: AIRI - 我们是如何从零实现外网爆火的 AI 主播的
lineNumbers: false
drawings:
persist: false
mdc: true
clicks: 0
preload: false
glowSeed: 200
routerMode: hash
---
AIRI: 我们是如何从零实现外网爆火的 AI 主播的
AIRI: How we recreated the famous AI VTuber on YouTube / Twitch from scratch
奶扣 Neko
---
layout: intro
class: px-35
glowSeed: 128
---
Neko
Literally Full-stack Developer
社区
Project AIRI
其他项目 / 组织
Moeru AI
---
title: The previous ones
glowSeed: 203
---
---
class: flex justify-center items-center gap-20 px-40 text-xl
---
AI 主播?
---
class: flex justify-center items-center gap-20 px-40 text-xl
---
听说过 VTuber 吗?
---
class: py-0! px-0!
clicks: 1
---
---
class: py-0! px-0!
---
类 ChatGPT Voice Chat 实时语音
---
class: flex justify-center items-center gap-20 px-20 text-xl
clicks: 2
---
所以我们做了什么?
Project AIRI
---
class: px-0! py-0!
---
---
class: px-0! py-0!
---
---
class: px-0! py-0!
---
---
class: flex justify-center items-center gap-20 px-40 text-xl
---
傲慢的开始
---
class: py-10
glowSeed: 100
---
# 事情远比想象的复杂
为什么没那么简单?Vibe coding 不行吗?
记忆层并不是 RAG 就结束了,不仅要考虑语义、时间相关性,遗忘曲线和记忆对应的情绪同样重要
目前的 Mem0 和 Zep,LlamaIndex 方案都是纯粹面向 RAG 的
没有实现遗忘曲线和情绪化的能力
更没有办法 Debug 和可观测
同时实现实时语音交互、身体控制、视觉和游戏能力需要多流水线无缝衔接
业界主要还是在 VAD + ASR + TTS 拼接流水线,端到端可定制化程度低
没有现成稳定的动作生成方案
需要潜心优化延迟,并非 vibe 能出结果
系统模块非常多,工程化难度比 CRUD 应用高
提示词 和 Lorebook,以及角色卡是分裂的三个生态和系统,难以同时开发
从有状态 MCP 到有状态 Agent,全部都靠回调会很难
模块繁多
---
class: py-10
clicks: 5
---
# 目前的效果
确实是工程落地了,一小部分东西吧...?
---
class: px-0! pt-6!
---
刷推
---
class: px-0! pt-6!
---
一起玩 我的世界 Minecraft
---
class: px-0! pt-6!
---
一起玩 异星工厂 Factorio
---
class: flex justify-center items-center gap-20 px-20 text-xl
clicks: 2
---
有什么我们能分享的吗?
Project AIRI
×
Moeru AI
---
class: py-10
---
# 部分形成生态
我们尽最大努力让大家都可以用上我们也在使用的先进工具和工作流封装方法...
- [xsAI](https://github.com/moeru-ai/xsai): Vercel AI SDK 替代品,超级迷你和可拓展
- [Velin](https://github.com/luoling8192/velin): 用 Vue 或者 JSX 书写提示词
- [`unspeech`](https://github.com/moeru-ai/unspeech): 用于代理云服务 TTS 和 STT 的服务器实现,类似语音界的 LiteLLM / OpenRouter
- [MCP Launcher](https://github.com/moeru-ai/mcp-launcher): 易于使用的 MCP 启动器,就像用于 MCP 启动和管理的 Ollama 一样!
- [xsAI 的 🤗 Transformers.js 提供商](https://github.com/moeru-ai/xsai-transformers):在浏览器里跑 LLM,Embedding,让快速 PoC RAG 不是梦!
- [AIRI Factorio](https://github.com/moeru-ai/airi-factorio): 让 AIRI 玩 Factorio
- [Inventory](https://github.com/moeru-ai/inventory): 中心化模型目录和默认提供商配置的公开 API 服务
- [Demodel](https://github.com/moeru-ai/demodel): 轻松加速各种推理引擎和模型下载器拉/下载模型或数据集的速度
- [`@proj-airi/drizzle-duckdb-wasm`](https://github.com/moeru-ai/airi/tree/main/packages/drizzle-duckdb-wasm/README.md): 浏览器里跑分析型数据库做记忆层!
- [`hfup`](https://github.com/moeru-ai/hfup): 帮助部署、打包到 HuggingFace Spaces 的工具集
- [🥺 SAD](https://github.com/moeru-ai/sad): 自托管和浏览器运行 LLM 的文档和说明
---
class: flex justify-center flex-col items-center gap-10 px-20 text-4xl
---
不仅是网页端...
客户端桌宠和个人 AI 助理也不是问题
---
class: py-10
---
# 想要文字版?
我们还写了好多好多 DevLog 介绍进展
---
class: flex justify-center flex-col items-center gap-10 px-20 text-4xl
---
# 你说不是要搞 VTuber 吗?那角色在哪里?
---
class: py-10
theme: light
glowSeed: 210
---
---
class: py-10
---
# 一到两个人是不能 vibe 出来这么复杂的系统的
我们也想寻找能够一起合作的以下领域的伙伴们...
> 我们另外还有个 WebXR / Vision Pro 的类似应用
---
class: py-10
glowSeed: 1298
---
# 感兴趣吗?
虽然是开源项目,但是也欢迎感兴趣的设计师,产品经理,工程师们一起去实现这可能的生命形态
---
title: Thank you
class: py-10
glowSeed: 230
---