Voice-Pro
最佳AI語音識別、翻譯和多語言配音解決方案 🚀
## 🎙️ 為語音識別、翻譯和配音設計的AI驅動網絡應用程序
한국어
∙
English
∙
中文简体
∙
中文繁體
∙
日本語
∙
Deutsch
∙
Español
∙
Português
Voice-Pro是一款革新多媒體內容製作的先進網頁應用程式。它將YouTube影片下載、音訊分離、語音辨識、翻譯和文字轉語音(TTS)整合到一個強大的工具中,為創作者、研究人員和多語言專家提供理想的解決方案。
- 🔊 頂級語音識別: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- 🎤 零樣本語音複製: **F5-TTS**, **E2-TTS**, **CosyVoice**
- 📢 多語言文本轉語音: **Edge-TTS**, **kokoro** (付費版包括 **Azure TTS**)
- 🎥 YouTube處理與音頻提取: **yt-dlp**
- 🌍 超過100種語言的即時翻譯: **Deep-Translator** (付費版包括 **Azure Translator**)
作為**ElevenLabs**的強大替代方案,Voice-Pro為播客主持人、開發者和創作者提供進階語音解決方案。
## ⚠️ 請注意
- 由於[WeConnect](https://www.wctokyoseoul.com)開發工作,Voice-Pro的開發和更新暫時無法進行。
- 我們已經公開了所有Voice-Pro代碼並完全免費。Voice-Pro現在可以自由分發和修改。
- 在配備NVIDIA GPU的Windows環境下運行良好。Mac和Linux上的運行尚未驗證。
- 請將您的請求留在 [](https://github.com/abus-aikorea/voice-pro/issues) 或 [](https://github.com/abus-aikorea/voice-pro/discussions) 頁面。
- **故障排除**: 在大多數情況下,刪除`installer_files`文件夾,然後依次運行`configure.bat`和`start.bat`即可解決問題。
## 📰 新聞與歷史
version 3.2
- 我們過去幾個月一直專注於[WeConnect](https://www.wctokyoseoul.com)開發,完全無法管理Voice-Pro。
- 我們決定開源所有Voice-Pro代碼。
- Voice-Pro完全免費,支援Windows、Mac、Linux。
- [WeConnect](https://www.wctokyoseoul.com)是一個用於全球文化交流的應用程式。
- 與世界各地的 人們 連接,進行有意義的文化交流、語言學習和國際友誼。
version 3.1
- 🪄 支援 **F5-TTS** 的微調模型
- 🌍 支援的語言
-
English &
Chinese: SWivid/F5-TTS_v1
-
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
-
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
-
Hindi: SPRINGLab/F5-Hindi-24KHz
-
Italian: alien79/F5-TTS-italian
-
Japanese: Jmica/F5TTS/JA_21999120
-
Russian: hotstone228/F5-TTS-Russian
-
Spanish: jpgallegoar/F5-Spanish
版本 3.0
- 🔥 **AI Cover**功能已移除。
- 🚀 添加了對**m-bain/whisperX**的支持。
版本 2.0
- 🐍 使用Python 3.10.15、Torch 2.5.1+cu124和Gradio 5.14.0構建。
- 🆓 免費試用支持最長**60秒**的媒體。
- 🔥 添加了**AI Cover**功能。
- 🎤 引入了對**CosyVoice**和**kokoro**的支持。
- ⏳ 首次運行時下載**CozyVoice2-0.5B (9GB)**,根據網絡速度可能需要超過1小時。
- 🎧 用於語音克隆的語音樣本將持續更新。
- 📝 添加了**spaCy**以實現自然逐句翻譯和TTS。
- ☁️ 訂閱版本包括**Microsoft Azure**的翻譯和TTS。
- 🏪 訂閱版本在訂閱期間提供**無限制使用**(無60秒限制),可通過[](https://r17wvy-t2.myshopify.com)購買。
## 🎥 YouTube Showcase
## ⭐ 主要功能
### 1. 配音工作室
- YouTube視頻下載與音頻提取
- 使用**Demucs**進行聲音分離
- 支持100多種語言的語音識別與翻譯
### 2. 語音技術
- **語音轉文本:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- **文本轉語音:**
- **Edge-TTS**: 100多種語言,400多種聲音
- **E2-TTS**, **F5-TTS**, **CosyVoice**: 零樣本克隆
- **kokoro**: 在HuggingFace TTS競技場中排名第2
### 3. 實時翻譯
- 即時語音識別
- 實時多語言翻譯
- 可自定義的音頻輸入
## 🤖 網頁介面
### `配音工作室`標籤頁
- 整合中心:YouTube下載、降噪、字幕、翻譯、TTS
- 支援所有ffmpeg相容格式
- 輸出選項:WAV、FLAC、MP3
- 支援100多種語言的字幕和辨識
- 可調節TTS的速度、音量、音調

### `Whisper字幕`標籤頁
- 專用字幕:90多種語言
- 影片整合字幕顯示
- 單字級醒目提示和降噪選項
### `翻譯`標籤頁
- 100多種語言翻譯
- 支援字幕檔案(ASS、SSA、SRT等)
- 即時語音辨識和翻譯

### `語音生成`標籤頁
- 選項:**Edge-TTS**、**F5-TTS**、**CosyVoice**、**kokoro**
- 使用名人聲音製作播客和多語言支援

## 🎤✨ 參考聲音
- 請在Issues頁面上請求想添加的聲音。[Issues](https://github.com/abus-aikorea/voice-pro/issues/50)
English
 Andrew Bustamante |
 Andrew Huberman |
 Avi Loeb |
 Ben Shapiro |
 Brett Johnson |
 Brian Keating |
 Coffeezilla |
 Dan Carlin |
 David Buss |
 David Fravor |
 David Kipping |
 Dennis Whyte |
 Donald Hoffman |
 Donald Trump |
 Douglas Murray |
 Duncan Trussell |
 Elon Musk |
 Garry Nolan |
 Jack Barsky |
 James Sexton |
 Jeff Bezos |
 Joe Rogan |
 John Mearsheimer |
 Jordan Peterson |
 Kanye 'Ye' West |
 Mark Zuckerberg |
 Michael Levin |
 Michael Saylor |
 Michio Kaku |
 MrBeast |
 Nick Lane |
 Paul Rosolie |
 Ryan Graves |
 Sam Altman |
 Sam Harris |
 Stephen Wolfram |
 Tucker Carlson |
 Vitalik Buterin |
 Yuval Harari |
|
|
|
Chinese
 迪丽热巴 (Dílì Rèbā) |
 蔡依林 (Cài Yīlín) |
 吴亦凡 (Wú Yìfán) |
 李易峰 (Lǐ Yìfēng) |
 杨幂 (Yáng Mì) |
 赵丽颖 (Zhào Lìyǐng) |
Korean
 BTS 진 (Jin) |
 BTS RM |
 IU (아이유) |
 이병헌 |
 이정재 |
 유재석 |
Japanese
 綾瀬はるか (Ayase Haruka) |
|
|
|
|
|
## 💻 系統需求
- **作業系統:** Windows 10/11(64位元)、Linux、Mac
- **顯示卡:** 支援CUDA 12.4的NVIDIA顯示卡(建議)
- **顯示記憶體:** 4GB以上(建議8GB以上)
- **記憶體:** 4GB以上
- **儲存空間:** 20GB以上可用空間
- **網路:** 必需
## 📀 安裝
使用**configure.bat**和**start.bat**輕鬆安裝Voice-Pro(Mac/Linux上使用configure.sh和start.sh)。
### 1. 準備套件
- 從[](https://github.com/abus-aikorea/voice-pro/)下載最新發布版本(**Source code (zip)**)
```bash
git clone https://github.com/abus-aikorea/voice-pro.git
```
### 2. 安裝和執行
1. 🚀 **configure.bat**
- 安裝git、ffmpeg、CUDA(使用NVIDIA GPU時)
- 首次執行一次;需要網路,可能需要1小時以上
- 不要關閉命令視窗
2. 🚀 **start.bat**
- 執行Voice-Pro網頁介面
- 首次執行時安裝相依性(可能需要1小時以上)
- 如果出現問題,刪除**installer_files**後重新執行
### 3. 更新
- 🚀 **update.bat**:更新Python環境(比重新安裝更快)
### 4. 解除安裝
- 執行**uninstall.bat**或刪除資料夾(可攜式安裝)
## ❓使用技巧
#### 瀏覽器沒有自動啟動時
- 關閉Windows命令視窗,重新執行start.bat,或
- 直接啟動瀏覽器,在網址列輸入Windows命令視窗顯示的網址(例如**http://127.0.0.1:7870**)
#### 出現CUDA記憶體不足錯誤時
- 在Windows工作管理員-效能標籤中檢查GPU記憶體狀態
- 將降噪等級設定為0或1。降噪等級2需要8GB以上的GPU記憶體
- 將計算類型設定為int類型。float類型品質更好但需要更多GPU記憶體
#### 如何提高字幕品質?
- 字幕品質通常隨著使用更大的Whisper模型而提高,但並不總是如此。large > medium > small > base > tiny
- 在計算類型中,float類型效能更好。int類型透過模型量化降低GPU使用量並提高速度,但效能較差
- 提高降噪等級可以更多地去除背景音,只將剩餘的語音用於語音辨識。但不總是能保證更好的結果
## 🚨 通知
- 由於[WeConnect](https://www.wctokyoseoul.com)開發工作,暫時不會有Voice-Pro更新。
- 所有Voice-Pro代碼已公開。現在完全免費使用。
- [WeConnect](https://www.wctokyoseoul.com)是一個面向全球文化交流的通信平台。
## ⏳ 用於字幕製作、翻譯和TTS的SaaS平台
下表列出了支援字幕製作、翻譯和文字轉語音(TTS/配音)功能的SaaS平台。成本基於2025年4月15日的最新定價數據,計算包括處理60分鐘韓語影片的字幕生成、英語翻譯和英語配音。
| 平台 | 字幕製作 | 翻譯 | TTS/配音 | 60分鐘影片處理成本 (美元, 約) | 主要功能 |
| --- | --- | --- | --- | --- | --- |
| **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | 支援125+語言,實時字幕,SEO關鍵詞提取,15分鐘免費試用。 |
| **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Pro計劃,按分鐘) | AI字幕,100+語言翻譯,自動唇部同步配音,提供免費層。 |
| **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Pro計劃,部分處理) | 99.9%精準字幕,Instagram優化字幕,直觀編輯器。 |
| **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (按需付費) | 120+語言,專業校對選項,安全,會議轉錄。 |
| **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Standard計劃) | 54+語言,30分鐘免費轉錄,YouTube/Zoom整合。 |
| **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Creator計劃) | 文字編輯,Overdub TTS,填充詞移除,1小時免費轉錄。 |
| **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | 客製化定價 (聯繫) | 媒體專用,客製化模型,元數據生成,基於雲的Workbench。 |
| **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (按需付費) | 100+語言,YouTube連結轉錄,99%精準度,簡單編輯器。 |
### 成本計算詳情
- **[Maestra](https://maestra.ai)**: Premium計劃 ($158/月,1200積分)。60分鐘影片:字幕60積分 + 翻譯60積分 + 配音60積分 = 180積分。成本 = (180/1200) \* $158 = $23.70。
- **[Kapwing](https://www.kapwing.com)**: Pro計劃 (\~$24/月,分鐘限制)。字幕+翻譯+配音每分鐘$0.50\~$0.67估算(基於分鐘定價趨勢)。60分鐘成本:$30\~$40。需確認準確價格。
- **[VEED.IO](https://www.veed.io)**: Pro計劃 (\~$24/月)。字幕+翻譯每分鐘$0.40\~$0.60估算。無TTS,部分處理。60分鐘成本:$24\~$36。請在veed.io確認。
- **[HappyScribe](https://happyscribe.com)**: 按需付費 (轉錄每分鐘\~$0.20,翻譯$0.20,配音$0.20)。60分鐘成本:$36\~$48(假設組合服務)。請在happyscribe.com確認。
- **[Sonix](https://sonix.ai)**: Standard計劃 (轉錄每小時\~$10,翻譯/配音額外)。總計每分鐘$0.50\~$0.67估算。60分鐘成本:$30\~$40。請在sonix.ai確認。
- **[Descript](https://descript.com)**: Creator計劃 (\~$24/月,時間限制)。字幕+翻譯+配音每分鐘$0.60\~$0.80估算。60分鐘成本:$36\~$48。請在descript.com確認。
- **[AppTek](https://apptek.ai)**: 企業客製化定價。無公開分鐘費率。請聯繫apptek.ai獲取報價。
- **[Transkriptor](https://transkriptor.com)**: 按需付費 (轉錄每分鐘$0.05\~$0.10,翻譯類似)。無TTS,部分處理。60分鐘成本:$12\~$18。請在transkriptor.com確認。
### 備註
- **60分鐘影片處理成本**: 成本為處理60分鐘韓語影片的字幕、英語翻譯和英語配音(若可用)的近似值。無TTS的平台(例:VEED.IO、Transkriptor)反映部分處理成本。
- **語言支援**: 大多數平台支援韓語和英語。具體語言支援請在各網站確認。
- **使用場景**:
- 媒體/娛樂: AppTek, Maestra
- 社交媒體: Kapwing, VEED.IO
- 播客/訪談: Sonix, Descript
- 在線學習/全球內容: Transkriptor, HappyScribe
- **價格更新**: 因計劃變更或促銷,價格可能有所變動。請在官方網站查看最新信息。
- 如需貢獻或推薦特定使用場景,請在此倉庫中提交問題或拉取請求!
## ☕ 貢獻
您好,我是Voice-Pro團隊的戴維。
我們的團隊致力於發掘業內頂尖的人工智慧技術,並提供給大家,讓大家都能輕鬆便捷地使用。
我們是一家剛成立一年的韓國小型創業公司。我們努力工作,旨在幫助您和其他創作者製作出色的內容。
您的⭐⭐⭐⭐⭐評價對我們的業務與您共同成長至關重要,我們對此深表感謝。請您支持我們這個小團隊。
謝謝,
ABUS客戶服務
- 如果您想參與並幫助我們進行此專案,請隨時建立一個 [Issues](https://github.com/abus-aikorea/voice-pro/issues)。
- 如果出現問題,請提交一個 [Pull requests](https://github.com/abus-aikorea/voice-pro/pulls) 以改進此專案。
- 歡迎任何類型的貢獻。
- 有關購買、商業夥伴關係、技術調整、投資和其他相關事宜的諮詢,請透過電子郵件 () 與我們聯繫。
- 如果您喜歡這個專案,請給這個儲存庫加星號。我們將非常感謝。 ⭐⭐⭐
- 您可以在這裡透過捐贈支持 Voice-Pro:
## 📬 聯絡方式
- Email:
- Homepage (Korean):
## 🙏 鳴謝
* Demucs:
* yt-dlp:
* gradio:
* edge-TTS:
* F5-TTS:
* openai-whisper:
* faster-whisper:
* whisper-timestamped:
* whisperX:
* CosyVoice:
* kokoro:
* Deep-Translator:
* spaCy:
## ©️ 版權資訊
by [ABUS](https://www.wctokyoseoul.com)