Voice-Pro

最佳AI语音识别、翻译和多语言配音解决方案 🚀

Dubbing Studio

## 🎙️ 为语音识别、翻译和配音设计的AI驱动网络应用程序

South Korea Flag 한국어 ∙ United Kingdom Flag English ∙ China Flag 中文简体 ∙ Taiwan Flag 中文繁體 ∙ Japan Flag 日本語 ∙ Germany Flag Deutsch ∙ Spain Flag Español ∙ Portugal Flag Português

Voice-Pro是一款革新多媒体内容制作的先进网页应用。它将YouTube视频下载、音频分离、语音识别、翻译和文本转语音(TTS)集成到一个强大的工具中，为创作者、研究人员和多语言专家提供理想的解决方案。 - 🔊 顶级语音识别: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX** - 🎤 零样本语音克隆: **F5-TTS**, **E2-TTS**, **CosyVoice** - 📢 多语言文本转语音: **Edge-TTS**, **kokoro** (付费版包括 **Azure TTS**) - 🎥 YouTube处理与音频提取: **yt-dlp** - 🌍 超过100种语言的即时翻译: **Deep-Translator** (付费版包括 **Azure Translator**) 作为**ElevenLabs**的强大替代方案，Voice-Pro为播客主持人、开发者和创作者提供高级语音解决方案。 ## ⚠️ 请注意 - 由于[WeConnect](https://www.wctokyoseoul.com)开发工作，Voice-Pro的开发和更新暂时无法进行。 - 我们已经公开了所有Voice-Pro代码并完全免费。Voice-Pro现在可以自由分发和修改。 - 在配备NVIDIA GPU的Windows环境下运行良好。Mac和Linux上的运行尚未验证。 - 请将您的请求留在 [![GitHub Issues](https://img.shields.io/github/issues/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/issues) 或 [![GitHub Discussions](https://img.shields.io/github/discussions/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/discussions) 页面。 - **故障排除**: 在大多数情况下，删除`installer_files`文件夹，然后依次运行`configure.bat`和`start.bat`即可解决问题。 ## 📰 新闻与历史

version 3.2

- 我们过去几个月一直专注于[WeConnect](https://www.wctokyoseoul.com)开发，完全无法管理Voice-Pro。 - 我们决定开源所有Voice-Pro代码。 - Voice-Pro完全免费，支持Windows、Mac、Linux。 - [WeConnect](https://www.wctokyoseoul.com)是一个用于全球文化交流的应用程序。 - 与世界各地的人们连接，进行有意义的文化交流、语言学习和国际友谊。

ScreenShot 0 ScreenShot 1 ScreenShot 2 ScreenShot 3 ScreenShot 4

version 3.1

- 🪄 支持 **F5-TTS** 的微调模型 - 🌍 支持的语言 - United Kingdom Flag

English &

Chinese: SWivid/F5-TTS_v1 - Spain Flag

Finnish: AsmoKoskinen/F5-TTS_Finnish_Model - Spain Flag

French: RASPIAUDIO/F5-French-MixedSpeakers-reduced - Spain Flag

Hindi: SPRINGLab/F5-Hindi-24KHz - Spain Flag

Italian: alien79/F5-TTS-italian - Spain Flag

Japanese: Jmica/F5TTS/JA_21999120 - Spain Flag

Russian: hotstone228/F5-TTS-Russian - Spain Flag

Spanish: jpgallegoar/F5-Spanish

版本 3.0

- 🔥 **AI Cover**功能已移除。 - 🚀 添加了对**m-bain/whisperX**的支持。

版本 2.0

- 🐍 使用Python 3.10.15、Torch 2.5.1+cu124和Gradio 5.14.0构建。 - 🆓 免费试用支持最长**60秒**的媒体。 - 🔥 添加了**AI Cover**功能。 - 🎤 引入了对**CosyVoice**和**kokoro**的支持。 - ⏳ 首次运行时下载**CozyVoice2-0.5B (9GB)**，根据网络速度可能需要超过1小时。 - 🎧 用于语音克隆的语音样本将持续更新。 - 📝 添加了**spaCy**以实现自然逐句翻译和TTS。 - ☁️ 订阅版本包括**Microsoft Azure**的翻译和TTS。 - 🏪 订阅版本在订阅期间提供**无限制使用**（无60秒限制），可通过 [![Shopify](https://img.shields.io/badge/Shopify-7ab55c.svg?style=flat-square&logo=shopify&logoColor=white)](https://r17wvy-t2.myshopify.com) 购买。

## 🎥 YouTube Showcase

Demo for Voice-Pro (v2.0)	F5-TTS: Voice Cloning	Live Transcription & Translation	Multi-Lingual Voice Cloning: Korean - German
Multi-Lingual Voice Cloning: English - Korean	Multi-Lingual Voice Cloning: Korean - Japanese	NVIDIA RTX Video Super-Resolution	AI Karaoke
Multi-Lingual Voice Cloning: English - Korean

## ⭐ 主要功能 ### 1. 配音工作室 - YouTube视频下载与音频提取 - 使用**Demucs**进行声音分离 - 支持100多种语言的语音识别与翻译 ### 2. 语音技术 - **语音转文本:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX** - **文本转语音:** - **Edge-TTS**: 100多种语言，400多种声音 - **E2-TTS**, **F5-TTS**, **CosyVoice**: 零样本克隆 - **kokoro**: 在HuggingFace TTS竞技场中排名第2 ### 3. 实时翻译 - 即时语音识别 - 实时多语言翻译 - 可定制的音频输入 ## 🤖 网页界面 ### `配音工作室`标签页 - 集成中心：YouTube下载、降噪、字幕、翻译、TTS - 支持所有ffmpeg兼容格式 - 输出选项：WAV、FLAC、MP3 - 支持100多种语言的字幕和识别 - 可调节TTS的速度、音量、音调

多语言语音转换和字幕生成网页界面

### `Whisper字幕`标签页 - 专用字幕：90多种语言 - 视频集成字幕显示 - 单词级高亮和降噪选项 ### `翻译`标签页 - 100多种语言翻译 - 支持字幕文件（ASS、SSA、SRT等） - 实时语音识别和翻译

实时语音识别和翻译网页界面

### `语音生成`标签页 - 选项：**Edge-TTS**、**F5-TTS**、**CosyVoice**、**kokoro** - 使用名人声音制作播客和多语言支持

使用语音克隆技术制作播客的网页界面

## 🎤✨ 参考声音 - 请在Issues页面上请求想添加的声音。[Issues](https://github.com/abus-aikorea/voice-pro/issues/50)

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

## 💻 系统要求 - **操作系统：** Windows 10/11（64位）、Linux、Mac - **显卡：** 支持CUDA 12.4的NVIDIA显卡（推荐） - **显存：** 4GB以上（推荐8GB以上） - **内存：** 4GB以上 - **存储：** 20GB以上可用空间 - **网络：** 必需 ## 📀 安装使用**configure.bat**和**start.bat**轻松安装Voice-Pro（Mac/Linux上使用configure.sh和start.sh）。 ### 1. 准备包 - 从[![GitHub Release](https://img.shields.io/github/v/release/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/)下载最新发布版本（**Source code (zip)**） ```bash git clone https://github.com/abus-aikorea/voice-pro.git ``` ### 2. 安装和运行 1. 🚀 **configure.bat** - 安装git、ffmpeg、CUDA（使用NVIDIA GPU时） - 首次运行一次；需要网络，可能需要1小时以上 - 不要关闭命令窗口 2. 🚀 **start.bat** - 运行Voice-Pro网页界面 - 首次运行时安装依赖（可能需要1小时以上） - 如果出现问题，删除**installer_files**后重新运行 ### 3. 更新 - 🚀 **update.bat**：更新Python环境（比重新安装更快） ### 4. 卸载 - 运行**uninstall.bat**或删除文件夹（便携式安装） ## ❓使用技巧 #### 浏览器没有自动启动时 - 关闭Windows命令窗口，重新运行start.bat，或 - 直接启动浏览器，在地址栏输入Windows命令窗口显示的地址（例如**http://127.0.0.1:7870**） #### 出现CUDA内存不足错误时 - 在Windows任务管理器-性能标签中检查GPU内存状态 - 将降噪级别设置为0或1。降噪级别2需要8GB以上的GPU内存 - 将计算类型设置为int类型。float类型质量更好但需要更多GPU内存 #### 如何提高字幕质量？ - 字幕质量通常随着使用更大的Whisper模型而提高，但并不总是如此。large > medium > small > base > tiny - 在计算类型中，float类型性能更好。int类型通过模型量化降低GPU使用量并提高速度，但性能较差 - 提高降噪级别可以更多地去除背景音，只将剩余的语音用于语音识别。但不总是能保证更好的结果 ## 🚨 通知 - 由于[WeConnect](https://www.wctokyoseoul.com)开发工作，暂时不会有Voice-Pro更新。 - 所有Voice-Pro代码已公开。现在完全免费使用。 - [WeConnect](https://www.wctokyoseoul.com)是一个面向全球文化交流的通信平台。
## ⏳ 用于字幕制作、翻译和TTS的SaaS平台下表列出了支持字幕制作、翻译和文本转语音（TTS/配音）功能的SaaS平台。成本基于2025年4月15日的最新定价数据，计算包括处理60分钟韩语视频的字幕生成、英语翻译和英语配音。 | 平台 | 字幕制作 | 翻译 | TTS/配音 | 60分钟视频处理成本 (美元, 约) | 主要功能 | | --- | --- | --- | --- | --- | --- | | **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | 支持125+语言，实时字幕，SEO关键词提取，15分钟免费试用。 | | **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Pro计划，按分钟) | AI字幕，100+语言翻译，自动唇同步配音，提供免费层。 | | **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Pro计划，部分处理) | 99.9%准确字幕，Instagram优化字幕，直观编辑器。 | | **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (按需付费) | 120+语言，专业校对选项，安全，会议转录。 | | **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Standard计划) | 54+语言，30分钟免费转录，YouTube/Zoom集成。 | | **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Creator计划) | 文本编辑，Overdub TTS，填充词移除，1小时免费转录。 | | **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | 定制定价 (联系) | 媒体专用，定制模型，元数据生成，基于云的Workbench。 | | **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (按需付费) | 100+语言，YouTube链接转录，99%准确度，简单编辑器。 | ### 成本计算详情 - **[Maestra](https://maestra.ai)**: Premium计划 ($158/月，1200积分)。60分钟视频：字幕60积分 + 翻译60积分 + 配音60积分 = 180积分。成本 = (180/1200) \* $158 = $23.70。 - **[Kapwing](https://www.kapwing.com)**: Pro计划 (\~$24/月，分钟限制)。字幕+翻译+配音每分钟$0.50\~$0.67估算（基于分钟定价趋势）。60分钟成本：$30\~$40。需确认准确价格。 - **[VEED.IO](https://www.veed.io)**: Pro计划 (\~$24/月)。字幕+翻译每分钟$0.40\~$0.60估算。无TTS，部分处理。60分钟成本：$24\~$36。请在veed.io确认。 - **[HappyScribe](https://happyscribe.com)**: 按需付费 (转录每分钟\~$0.20，翻译$0.20，配音$0.20)。60分钟成本：$36\~$48（假设组合服务）。请在happyscribe.com确认。 - **[Sonix](https://sonix.ai)**: Standard计划 (转录每小时\~$10，翻译/配音额外)。总计每分钟$0.50\~$0.67估算。60分钟成本：$30\~$40。请在sonix.ai确认。 - **[Descript](https://descript.com)**: Creator计划 (\~$24/月，时间限制)。字幕+翻译+配音每分钟$0.60\~$0.80估算。60分钟成本：$36\~$48。请在descript.com确认。 - **[AppTek](https://apptek.ai)**: 企业定制定价。无公开分钟费率。请联系apptek.ai获取报价。 - **[Transkriptor](https://transkriptor.com)**: 按需付费 (转录每分钟$0.05\~$0.10，翻译类似)。无TTS，部分处理。60分钟成本：$12\~$18。请在transkriptor.com确认。 ### 备注 - **60分钟视频处理成本**: 成本为处理60分钟韩语视频的字幕、英语翻译和英语配音（若可用）的近似值。无TTS的平台（例：VEED.IO、Transkriptor）反映部分处理成本。 - **语言支持**: 大多数平台支持韩语和英语。具体语言支持请在各网站确认。 - **使用场景**: - 媒体/娱乐: AppTek, Maestra - 社交媒体: Kapwing, VEED.IO - 播客/访谈: Sonix, Descript - 在线学习/全球内容: Transkriptor, HappyScribe - **价格更新**: 因计划变更或促销，价格可能有所变动。请在官方网站查看最新信息。 - 如需贡献或推荐特定使用场景，请在此仓库中提交问题或拉取请求！
## ☕ 贡献您好，我是Voice-Pro团队的戴维。我们的团队致力于发掘业内顶尖的人工智能技术，并提供给所有人，让大家都能轻松便捷地使用。我们是一家刚成立一年的韩国小型创业公司。我们努力工作，旨在帮助您和其他创作者制作出色的内容。您的⭐⭐⭐⭐⭐评价对我们的业务与您共同成长至关重要，我们对此深表感谢。请您支持我们这个小团队。谢谢， ABUS客户服务 - 如果您想参与并帮助我们进行此项目，请随时创建一个 [Issues](https://github.com/abus-aikorea/voice-pro/issues)。 - 如果出现问题，请提交一个 [Pull requests](https://github.com/abus-aikorea/voice-pro/pulls) 以改进此项目。 - 欢迎任何类型的贡献。 - 有关购买、商业伙伴关系、技术调整、投资和其他相关事宜的咨询，请通过电子邮件 () 与我们联系。 - 如果您喜欢这个项目，请给这个存储库加星标。我们将非常感谢。 ⭐⭐⭐ - 您可以在这里通过捐赠支持 Voice-Pro：

## 📬 联系方式 - Email: - Homepage (Korean): ## 🙏 鸣谢 * Demucs: * yt-dlp: * gradio: * edge-TTS: * F5-TTS: * openai-whisper: * faster-whisper: * whisper-timestamped: * whisperX: * CosyVoice: * kokoro: * Deep-Translator: * spaCy: ## ©️ 版权信息

by [ABUS](https://www.wctokyoseoul.com)