Voice-Pro
最佳AI语音识别、翻译和多语言配音解决方案 🚀
## 🎙️ 为语音识别、翻译和配音设计的AI驱动网络应用程序
한국어
∙
English
∙
中文简体
∙
中文繁體
∙
日本語
∙
Deutsch
∙
Español
∙
Português
Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中,为创作者、研究人员和多语言专家提供理想的解决方案。
- 🔊 顶级语音识别: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- 🎤 零样本语音克隆: **F5-TTS**, **E2-TTS**, **CosyVoice**
- 📢 多语言文本转语音: **Edge-TTS**, **kokoro** (付费版包括 **Azure TTS**)
- 🎥 YouTube处理与音频提取: **yt-dlp**
- 🌍 超过100种语言的即时翻译: **Deep-Translator** (付费版包括 **Azure Translator**)
作为**ElevenLabs**的强大替代方案,Voice-Pro为播客主持人、开发者和创作者提供高级语音解决方案。
## ⚠️ 请注意
- 由于[WeConnect](https://www.wctokyoseoul.com)开发工作,Voice-Pro的开发和更新暂时无法进行。
- 我们已经公开了所有Voice-Pro代码并完全免费。Voice-Pro现在可以自由分发和修改。
- 在配备NVIDIA GPU的Windows环境下运行良好。Mac和Linux上的运行尚未验证。
- 请将您的请求留在 [](https://github.com/abus-aikorea/voice-pro/issues) 或 [](https://github.com/abus-aikorea/voice-pro/discussions) 页面。
- **故障排除**: 在大多数情况下,删除`installer_files`文件夹,然后依次运行`configure.bat`和`start.bat`即可解决问题。
## 📰 新闻与历史
version 3.2
- 我们过去几个月一直专注于[WeConnect](https://www.wctokyoseoul.com)开发,完全无法管理Voice-Pro。
- 我们决定开源所有Voice-Pro代码。
- Voice-Pro完全免费,支持Windows、Mac、Linux。
- [WeConnect](https://www.wctokyoseoul.com)是一个用于全球文化交流的应用程序。
- 与世界各地的 人们 连接,进行有意义的文化交流、语言学习和国际友谊。
version 3.1
- 🪄 支持 **F5-TTS** 的微调模型
- 🌍 支持的语言
-
English &
Chinese: SWivid/F5-TTS_v1
-
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
-
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
-
Hindi: SPRINGLab/F5-Hindi-24KHz
-
Italian: alien79/F5-TTS-italian
-
Japanese: Jmica/F5TTS/JA_21999120
-
Russian: hotstone228/F5-TTS-Russian
-
Spanish: jpgallegoar/F5-Spanish
版本 3.0
- 🔥 **AI Cover**功能已移除。
- 🚀 添加了对**m-bain/whisperX**的支持。
版本 2.0
- 🐍 使用Python 3.10.15、Torch 2.5.1+cu124和Gradio 5.14.0构建。
- 🆓 免费试用支持最长**60秒**的媒体。
- 🔥 添加了**AI Cover**功能。
- 🎤 引入了对**CosyVoice**和**kokoro**的支持。
- ⏳ 首次运行时下载**CozyVoice2-0.5B (9GB)**,根据网络速度可能需要超过1小时。
- 🎧 用于语音克隆的语音样本将持续更新。
- 📝 添加了**spaCy**以实现自然逐句翻译和TTS。
- ☁️ 订阅版本包括**Microsoft Azure**的翻译和TTS。
- 🏪 订阅版本在订阅期间提供**无限制使用**(无60秒限制),可通过 [](https://r17wvy-t2.myshopify.com) 购买。
## 🎥 YouTube Showcase
## ⭐ 主要功能
### 1. 配音工作室
- YouTube视频下载与音频提取
- 使用**Demucs**进行声音分离
- 支持100多种语言的语音识别与翻译
### 2. 语音技术
- **语音转文本:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- **文本转语音:**
- **Edge-TTS**: 100多种语言,400多种声音
- **E2-TTS**, **F5-TTS**, **CosyVoice**: 零样本克隆
- **kokoro**: 在HuggingFace TTS竞技场中排名第2
### 3. 实时翻译
- 即时语音识别
- 实时多语言翻译
- 可定制的音频输入
## 🤖 网页界面
### `配音工作室`标签页
- 集成中心:YouTube下载、降噪、字幕、翻译、TTS
- 支持所有ffmpeg兼容格式
- 输出选项:WAV、FLAC、MP3
- 支持100多种语言的字幕和识别
- 可调节TTS的速度、音量、音调

### `Whisper字幕`标签页
- 专用字幕:90多种语言
- 视频集成字幕显示
- 单词级高亮和降噪选项
### `翻译`标签页
- 100多种语言翻译
- 支持字幕文件(ASS、SSA、SRT等)
- 实时语音识别和翻译

### `语音生成`标签页
- 选项:**Edge-TTS**、**F5-TTS**、**CosyVoice**、**kokoro**
- 使用名人声音制作播客和多语言支持

## 🎤✨ 参考声音
- 请在Issues页面上请求想添加的声音。[Issues](https://github.com/abus-aikorea/voice-pro/issues/50)
English
 Andrew Bustamante |
 Andrew Huberman |
 Avi Loeb |
 Ben Shapiro |
 Brett Johnson |
 Brian Keating |
 Coffeezilla |
 Dan Carlin |
 David Buss |
 David Fravor |
 David Kipping |
 Dennis Whyte |
 Donald Hoffman |
 Donald Trump |
 Douglas Murray |
 Duncan Trussell |
 Elon Musk |
 Garry Nolan |
 Jack Barsky |
 James Sexton |
 Jeff Bezos |
 Joe Rogan |
 John Mearsheimer |
 Jordan Peterson |
 Kanye 'Ye' West |
 Mark Zuckerberg |
 Michael Levin |
 Michael Saylor |
 Michio Kaku |
 MrBeast |
 Nick Lane |
 Paul Rosolie |
 Ryan Graves |
 Sam Altman |
 Sam Harris |
 Stephen Wolfram |
 Tucker Carlson |
 Vitalik Buterin |
 Yuval Harari |
|
|
|
Chinese
 迪丽热巴 (Dílì Rèbā) |
 蔡依林 (Cài Yīlín) |
 吴亦凡 (Wú Yìfán) |
 李易峰 (Lǐ Yìfēng) |
 杨幂 (Yáng Mì) |
 赵丽颖 (Zhào Lìyǐng) |
Korean
 BTS 진 (Jin) |
 BTS RM |
 IU (아이유) |
 이병헌 |
 이정재 |
 유재석 |
Japanese
 綾瀬はるか (Ayase Haruka) |
|
|
|
|
|
## 💻 系统要求
- **操作系统:** Windows 10/11(64位)、Linux、Mac
- **显卡:** 支持CUDA 12.4的NVIDIA显卡(推荐)
- **显存:** 4GB以上(推荐8GB以上)
- **内存:** 4GB以上
- **存储:** 20GB以上可用空间
- **网络:** 必需
## 📀 安装
使用**configure.bat**和**start.bat**轻松安装Voice-Pro(Mac/Linux上使用configure.sh和start.sh)。
### 1. 准备包
- 从[](https://github.com/abus-aikorea/voice-pro/)下载最新发布版本(**Source code (zip)**)
```bash
git clone https://github.com/abus-aikorea/voice-pro.git
```
### 2. 安装和运行
1. 🚀 **configure.bat**
- 安装git、ffmpeg、CUDA(使用NVIDIA GPU时)
- 首次运行一次;需要网络,可能需要1小时以上
- 不要关闭命令窗口
2. 🚀 **start.bat**
- 运行Voice-Pro网页界面
- 首次运行时安装依赖(可能需要1小时以上)
- 如果出现问题,删除**installer_files**后重新运行
### 3. 更新
- 🚀 **update.bat**:更新Python环境(比重新安装更快)
### 4. 卸载
- 运行**uninstall.bat**或删除文件夹(便携式安装)
## ❓使用技巧
#### 浏览器没有自动启动时
- 关闭Windows命令窗口,重新运行start.bat,或
- 直接启动浏览器,在地址栏输入Windows命令窗口显示的地址(例如**http://127.0.0.1:7870**)
#### 出现CUDA内存不足错误时
- 在Windows任务管理器-性能标签中检查GPU内存状态
- 将降噪级别设置为0或1。降噪级别2需要8GB以上的GPU内存
- 将计算类型设置为int类型。float类型质量更好但需要更多GPU内存
#### 如何提高字幕质量?
- 字幕质量通常随着使用更大的Whisper模型而提高,但并不总是如此。large > medium > small > base > tiny
- 在计算类型中,float类型性能更好。int类型通过模型量化降低GPU使用量并提高速度,但性能较差
- 提高降噪级别可以更多地去除背景音,只将剩余的语音用于语音识别。但不总是能保证更好的结果
## 🚨 通知
- 由于[WeConnect](https://www.wctokyoseoul.com)开发工作,暂时不会有Voice-Pro更新。
- 所有Voice-Pro代码已公开。现在完全免费使用。
- [WeConnect](https://www.wctokyoseoul.com)是一个面向全球文化交流的通信平台。
## ⏳ 用于字幕制作、翻译和TTS的SaaS平台
下表列出了支持字幕制作、翻译和文本转语音(TTS/配音)功能的SaaS平台。成本基于2025年4月15日的最新定价数据,计算包括处理60分钟韩语视频的字幕生成、英语翻译和英语配音。
| 平台 | 字幕制作 | 翻译 | TTS/配音 | 60分钟视频处理成本 (美元, 约) | 主要功能 |
| --- | --- | --- | --- | --- | --- |
| **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | 支持125+语言,实时字幕,SEO关键词提取,15分钟免费试用。 |
| **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Pro计划,按分钟) | AI字幕,100+语言翻译,自动唇同步配音,提供免费层。 |
| **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Pro计划,部分处理) | 99.9%准确字幕,Instagram优化字幕,直观编辑器。 |
| **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (按需付费) | 120+语言,专业校对选项,安全,会议转录。 |
| **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Standard计划) | 54+语言,30分钟免费转录,YouTube/Zoom集成。 |
| **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Creator计划) | 文本编辑,Overdub TTS,填充词移除,1小时免费转录。 |
| **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | 定制定价 (联系) | 媒体专用,定制模型,元数据生成,基于云的Workbench。 |
| **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (按需付费) | 100+语言,YouTube链接转录,99%准确度,简单编辑器。 |
### 成本计算详情
- **[Maestra](https://maestra.ai)**: Premium计划 ($158/月,1200积分)。60分钟视频:字幕60积分 + 翻译60积分 + 配音60积分 = 180积分。成本 = (180/1200) \* $158 = $23.70。
- **[Kapwing](https://www.kapwing.com)**: Pro计划 (\~$24/月,分钟限制)。字幕+翻译+配音每分钟$0.50\~$0.67估算(基于分钟定价趋势)。60分钟成本:$30\~$40。需确认准确价格。
- **[VEED.IO](https://www.veed.io)**: Pro计划 (\~$24/月)。字幕+翻译每分钟$0.40\~$0.60估算。无TTS,部分处理。60分钟成本:$24\~$36。请在veed.io确认。
- **[HappyScribe](https://happyscribe.com)**: 按需付费 (转录每分钟\~$0.20,翻译$0.20,配音$0.20)。60分钟成本:$36\~$48(假设组合服务)。请在happyscribe.com确认。
- **[Sonix](https://sonix.ai)**: Standard计划 (转录每小时\~$10,翻译/配音额外)。总计每分钟$0.50\~$0.67估算。60分钟成本:$30\~$40。请在sonix.ai确认。
- **[Descript](https://descript.com)**: Creator计划 (\~$24/月,时间限制)。字幕+翻译+配音每分钟$0.60\~$0.80估算。60分钟成本:$36\~$48。请在descript.com确认。
- **[AppTek](https://apptek.ai)**: 企业定制定价。无公开分钟费率。请联系apptek.ai获取报价。
- **[Transkriptor](https://transkriptor.com)**: 按需付费 (转录每分钟$0.05\~$0.10,翻译类似)。无TTS,部分处理。60分钟成本:$12\~$18。请在transkriptor.com确认。
### 备注
- **60分钟视频处理成本**: 成本为处理60分钟韩语视频的字幕、英语翻译和英语配音(若可用)的近似值。无TTS的平台(例:VEED.IO、Transkriptor)反映部分处理成本。
- **语言支持**: 大多数平台支持韩语和英语。具体语言支持请在各网站确认。
- **使用场景**:
- 媒体/娱乐: AppTek, Maestra
- 社交媒体: Kapwing, VEED.IO
- 播客/访谈: Sonix, Descript
- 在线学习/全球内容: Transkriptor, HappyScribe
- **价格更新**: 因计划变更或促销,价格可能有所变动。请在官方网站查看最新信息。
- 如需贡献或推荐特定使用场景,请在此仓库中提交问题或拉取请求!
## ☕ 贡献
您好,我是Voice-Pro团队的戴维。
我们的团队致力于发掘业内顶尖的人工智能技术,并提供给所有人,让大家都能轻松便捷地使用。
我们是一家刚成立一年的韩国小型创业公司。我们努力工作,旨在帮助您和其他创作者制作出色的内容。
您的⭐⭐⭐⭐⭐评价对我们的业务与您共同成长至关重要,我们对此深表感谢。请您支持我们这个小团队。
谢谢,
ABUS客户服务
- 如果您想参与并帮助我们进行此项目,请随时创建一个 [Issues](https://github.com/abus-aikorea/voice-pro/issues)。
- 如果出现问题,请提交一个 [Pull requests](https://github.com/abus-aikorea/voice-pro/pulls) 以改进此项目。
- 欢迎任何类型的贡献。
- 有关购买、商业伙伴关系、技术调整、投资和其他相关事宜的咨询,请通过电子邮件 () 与我们联系。
- 如果您喜欢这个项目,请给这个存储库加星标。我们将非常感谢。 ⭐⭐⭐
- 您可以在这里通过捐赠支持 Voice-Pro:
## 📬 联系方式
- Email:
- Homepage (Korean):
## 🙏 鸣谢
* Demucs:
* yt-dlp:
* gradio:
* edge-TTS:
* F5-TTS:
* openai-whisper:
* faster-whisper:
* whisper-timestamped:
* whisperX:
* CosyVoice:
* kokoro:
* Deep-Translator:
* spaCy:
## ©️ 版权信息
by [ABUS](https://www.wctokyoseoul.com)