---
source_url: "https://mp.weixin.qq.com/s/AEN8XCDZkt4uCmF75kYIvw"
ingested: 2026-06-26
sha256: 1e6ae014cfd4e023
---
sha256: 03cefba8cbaff5c7
---
title: GitHub 2.2万 Star！阿里这个开源项目，输入一句话就能全自动出视频
source_url: https://mp.weixin.qq.com/s/AEN8XCDZkt4uCmF75kYIvw
author: 极客之家 (公众号丛林)
publisher: 极客之家
publish_time: 2026-06-13 12:05
project_repo: https://github.com/AIDC-AI/Pixelle-Video
project_name: Pixelle-Video
project_team: 阿里国际 AI 团队 (AIDC-AI)
project_license: Apache 2.0
project_stars: 22000
ingested: 2026-06-15
type: raw
sources: []
review_value: 7
review_confidence: 7
review_recommendation: worth-reading
review_stars: 3
char_count: 3307
sha256: 564e709ffbde08a99d632fcfb4a1dc5360c28bf57f6912e0a10abf4904663197
notes: |
  阿里国际 AI 团队 (AIDC-AI) 开源项目 Pixelle-Video 上手实测 (2.2万 Star)。
  核心定位: "装配工" pipeline 编排层(不自研生成模型,只串接 LLM+ComfyUI+TTS+ffmpeg)。
  文章以实测视角给出 4 步流程、3 路配图、5 实战场景、3 种数字人扩展模块、3 部署方案(本地零成本/云端API/Windows 整合包)。
---

# GitHub 2.2万 Star！阿里这个开源项目，输入一句话就能全自动出视频

**公众号**: 极客之家 (作者: 丛林) | **发布时间**: 2026-06-13 12:05
**项目**: [Pixelle-Video](https://github.com/AIDC-AI/Pixelle-Video) | 阿里国际 AI 团队 AIDC-AI | Apache 2.0 | 2.2万 Star

---

周末在GitHub trending上刷到 Pixelle-Video,我点进去的时候以为又是哪个套壳项目,毕竟AI自动化制作视频的套壳产品太多了。仔细看了看还真不是,这个是阿里国际AI团队(AIDC-AI)做的,Apache 2.0开源。

说回这东西本身,输入一个主题,它自动写完文案、生成配图或视频片段、合成语音,加上BGM,吐出一个成品视频。这个东西我看了一下,牛X之处在于不用会剪辑、不用写脚本、没显卡的话直接用云端API,如果有显卡全套跑本地的话,一分钱不用花。

说真的这类工具今年冒出来不少,有的只做文案,有的只做配音,有的只能生图不能生视频。Pixelle-Video 是我见到的第一个把整条产线串起来的。

**生成流程我直接放图:**

就四步:文案生成 → 配图规划 → 逐帧处理 → 视频合成。

## 它不生成任何东西——就是个把各种模型串起来的装配工

别搞混了,Pixelle-Video 不是 Runway 之类的,它自己不生成任何东西。

它干的事情说白了就是把别人家模型串起来。LLM写文案,丢给ComfyUI或者Seedream出图,再丢给Edge-TTS念稿,最后ffmpeg合在一起,套个HTML模板。每个环节接什么模型全由你自己定,这个产品不会做任何限制。(生成的质量取决于你使用的模型质量)

画质不行换图模型,文案太烂换LLM,声音不喜欢换TTS工作流,不用赌一个模型能把所有事都做好。

WebUI长这样,Streamlit搭的,灰底白框,没什么设计感,就那种「能用就行」的开发者界面:三栏布局,左边输入,中间调参数,右边预览。

## 文案:LLM随便换,不想让AI写就贴现成稿子

在左侧栏敲一句主题,点生成,LLM给你吐一段解说词出来。接的模型随便换: GPT-4o、通义千问、DeepSeek、Ollama本地模型,下拉菜单直接选,选了自动填好 base_url 和 api_key。

不想让AI写也行。切到「固定文案内容」模式,把现成稿子贴进去。项目文档里有个例子是拿这个模式做《斗破苍穹》小说解说。

## 配图方案:ComfyUI本地、RunningHub云端、直连API,三条路都行

文案有了得配画面。Pixelle-Video 在这块的选择空间是我觉得整个项目最对胃口的地方。三条路:ComfyUI 本地、RunningHub 云端、直连 API(如 Seedream)。

这三条路不是互斥的,比如文案走 Ollama 本地,配图走 ComfyUI,语音走 Edge-TTS 免费方案。这种拼积木的感觉是 Pixelle-Video 跟其他那种一键出片工具拉开差距的地方。

## 语音合成、视频模板,还有几个塞进来的扩展模块

语音这块 Edge-TTS 免费用,微软的,多语言支持,效果不差。能做声音克隆,上传一段参考音频(MP3/WAV/FLAC都行),它复刻那个声音来念解说词。

2026年1月加了多语言TTS,韩语法语日语都能搞。TTS工作流跟配图那套逻辑一样,会写的自己丢进 workflows 文件夹。

模板系统分三种:`static_` 开头的是纯文字排版,`image_` 开头的是AI生成的图当背景叠文字,`video_` 开头的是AI视频片段当背景。竖屏横屏方形都有,下拉菜单选。

说实话默认模板的美术就那样,不是挑剔,是偏工具感。要做出小红书那种精致程度得自己磨 prompt prefix 或者干脆重写模板。

**今年初开始这个项目还塞了几个奇怪的模块进来:**

- **数字人口播**,上传一张人像图和文案,数字人对着镜头念,韩语日语都行,使用场景应该是跨境电商(毕竟这玩意开发团队背景是阿里国际AI团队)
- **图生视频**,一张静态图让它动起来。**动作迁移**,传一段参考视频(比如跳舞)和一张图片(比如猫),视频里的动作迁移到图片上,效果就是那只猫在跳那段舞
- **自定义素材**,上传自己的照片和视频,AI分析完自动生成脚本再合成

## 安装

**Windows整合包一键启动,完全免费也能跑**

Windows用户去Releases页面下整合包,解压,双击start.bat,浏览器自动打开localhost:8501。Python、ffmpeg全在包里,什么都不用装。

**macOS和Linux从源码跑:**

```bash
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py
```

**零成本方案**: Ollama本地跑LLM, ComfyUI本地跑图像, Edge-TTS免费语音, BGM用内置的。零成本。当然得有张能跑ComfyUI的卡,8G显存起步。

**云端API方案**: 懒得折腾本地的用通义千问API,做个三段视频大概0.01到0.05元。作者实测:三分钟短视频,通义千问加Edge-TTS,API费不到一毛。

**全套云端走OpenAI加RunningHub**: 也行,不挑设备,笔记本都能跑,费用猛长,适合对视频质量要求很高的玩家。

## 简单做个总结

这项目当然不是完美的,GPU永远是硬伤,生图生视频吃显存,Pixelle-Video 只是个装配工它解决不了这种事。默认模板和默认工作流的审美也就及格水平,出品好不好看全看你自己肯不肯花时间调。

对于不需要特别精美的,做个视频教程啊、内部分享课程啊什么的,这玩意就非常合适。

**GitHub地址**: https://github.com/AIDC-AI/Pixelle-Video