Voice-Pro
最高のAI音声認識、翻訳、多言語ダビングソリューション 🚀
## 🎙️ 音声認識、翻訳、ダビングのためのAI搭載ウェブアプリケーション
한국어
∙
English
∙
中文简体
∙
中文繁體
∙
日本語
∙
Deutsch
∙
Español
∙
Português
Voice-Proは、マルチメディアコンテンツ制作に革新をもたらす最先端のウェブアプリです。YouTube動画のダウンロード、音声分離、音声認識、翻訳、テキストから音声への変換(TTS)を1つの強力なツールに統合し、クリエイター、研究者、多言語専門家にとって理想的なソリューションを提供します。
- 🔊 トップレベルの音声認識: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- 🎤 ゼロショット音声クローニング: **F5-TTS**, **E2-TTS**, **CosyVoice**
- 📢 多言語テキスト読み上げ: **Edge-TTS**, **kokoro** (有料版には **Azure TTS** が含まれます)
- 🎥 YouTube処理およびオーディオ抽出: **yt-dlp**
- 🌍 100以上の言語に対応した即時翻訳: **Deep-Translator** (有料版には **Azure Translator** が含まれます)
**ElevenLabs**の強力な代替として、Voice-Proはポッドキャスター、開発者、クリエイターに先進的な音声ソリューションを提供します。
## ⚠️ 注意事項
- [WeConnect](https://www.wctokyoseoul.com)の開発作業により、Voice-Proの開発およびアップデートは当分の間不可能です。
- すべてのVoice-Proコードを公開し、完全無料に変更しました。Voice-Proは現在、誰でも自由に配布および変更できます。
- NVIDIA GPUを搭載したWindows環境で正常に動作します。Mac、Linuxでの動作は確認していません。
- ご要望は、[](https://github.com/abus-aikorea/voice-pro/issues) または [](https://github.com/abus-aikorea/voice-pro/discussions) ページに残してください。
- **トラブルシューティング**: ほとんどの場合、`installer_files`フォルダを削除し、`configure.bat`を実行した後に`start.bat`を実行することで問題が解決します。
## 📰 ニュースと履歴
version 3.2
- 私たちは過去数ヶ月間、[WeConnect](https://www.wctokyoseoul.com)の開発に集中していたため、Voice-Proを全く管理できませんでした。
- すべてのVoice-Proコードをオープンソース化することを決定しました。
- Voice-Proは完全無料で、Windows、Mac、Linuxをサポートしています。
- [WeConnect](https://www.wctokyoseoul.com)はグローバルな文化交流のためのアプリケーションです。
- 世界中の人々とつながり、意味のある文化交流、言語学習、国際的な友情を築くことができます。
version 3.1
- 🪄 **F5-TTS** のファインチューニングされたモデルのサポート
- 🌍 対応言語
-
English &
Chinese: SWivid/F5-TTS_v1
-
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
-
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
-
Hindi: SPRINGLab/F5-Hindi-24KHz
-
Italian: alien79/F5-TTS-italian
-
Japanese: Jmica/F5TTS/JA_21999120
-
Russian: hotstone228/F5-TTS-Russian
-
Spanish: jpgallegoar/F5-Spanish
バージョン 3.0
- 🔥 **AI Cover**機能が削除されました。
- 🚀 **m-bain/whisperX**のサポートが追加されました。
バージョン 2.0
- 🐍 Python 3.10.15、Torch 2.5.1+cu124、Gradio 5.14.0で構築されました。
- 🆓 無料トライアルは最大**60秒**のメディアをサポートします。
- 🔥 **AI Cover**機能が追加されました。
- 🎤 **CosyVoice**および**kokoro**のサポートが導入されました。
- ⏳ 初回実行時に**CozyVoice2-0.5B (9GB)**をダウンロードし、ネットワーク速度によっては1時間以上かかる場合があります。
- 🎧 ボイスクローニング用のボイスサンプルは継続的に更新されます。
- 📝 文ごとの自然な翻訳とTTSのために**spaCy**が追加されました。
- ☁️ サブスクリプション版には**Microsoft Azure**の翻訳およびTTSが含まれます。
- 🏪 サブスクリプション版は期間中の**無制限使用**(60秒制限なし)を提供し、[](https://r17wvy-t2.myshopify.com)で購入可能です。
## 🎥 YouTube Showcase
## ⭐ 主な機能
### 1. ダビングスタジオ
- YouTube動画のダウンロードとオーディオ抽出
- **Demucs**による音声分離
- 音声認識と翻訳のための100以上の言語に対応
### 2. 音声技術
- **音声からテキストへ:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- **テキストから音声へ:**
- **Edge-TTS**: 100以上の言語、400以上の声
- **E2-TTS**, **F5-TTS**, **CosyVoice**: ゼロショットクローニング
- **kokoro**: HuggingFace TTSアリーナで2位
### 3. リアルタイム翻訳
- 即時音声認識
- その場での多言語翻訳
- カスタマイズ可能なオーディオ入力
## 🤖 ウェブUI
### `ダビングスタジオ`タブ
- 統合ハブ: YouTubeダウンロード、ノイズ除去、字幕、翻訳、TTS
- ffmpeg互換フォーマットすべて対応
- 出力オプション: WAV, FLAC, MP3
- 100以上の言語での字幕と認識
- 速度、ボリューム、ピッチ調整可能なTTS

### `Whisper字幕`タブ
- 字幕専用: 90以上の言語
- ビデオと統合された字幕表示
- 単語単位のハイライトとノイズ除去オプション
### `翻訳`タブ
- 100以上の言語翻訳
- 字幕ファイル対応(ASS、SSA、SRTなど)
- リアルタイム音声認識と翻訳

### `音声生成`タブ
- オプション: **Edge-TTS**, **F5-TTS**, **CosyVoice**, **kokoro**
- 有名人声でのポッドキャストと多言語サポート

## 🎤✨ 参照音声
- 追加したい音声はIssuesページでリクエストしてください。[Issues](https://github.com/abus-aikorea/voice-pro/issues/50)
English
 Andrew Bustamante |
 Andrew Huberman |
 Avi Loeb |
 Ben Shapiro |
 Brett Johnson |
 Brian Keating |
 Coffeezilla |
 Dan Carlin |
 David Buss |
 David Fravor |
 David Kipping |
 Dennis Whyte |
 Donald Hoffman |
 Donald Trump |
 Douglas Murray |
 Duncan Trussell |
 Elon Musk |
 Garry Nolan |
 Jack Barsky |
 James Sexton |
 Jeff Bezos |
 Joe Rogan |
 John Mearsheimer |
 Jordan Peterson |
 Kanye 'Ye' West |
 Mark Zuckerberg |
 Michael Levin |
 Michael Saylor |
 Michio Kaku |
 MrBeast |
 Nick Lane |
 Paul Rosolie |
 Ryan Graves |
 Sam Altman |
 Sam Harris |
 Stephen Wolfram |
 Tucker Carlson |
 Vitalik Buterin |
 Yuval Harari |
|
|
|
Chinese
 迪丽热巴 (Dílì Rèbā) |
 蔡依林 (Cài Yīlín) |
 吴亦凡 (Wú Yìfán) |
 李易峰 (Lǐ Yìfēng) |
 杨幂 (Yáng Mì) |
 赵丽颖 (Zhào Lìyǐng) |
Korean
 BTS 진 (Jin) |
 BTS RM |
 IU (아이유) |
 이병헌 |
 이정재 |
 유재석 |
Japanese
 綾瀬はるか (Ayase Haruka) |
|
|
|
|
|
## 💻 システム要件
- **OS:** Windows 10/11(64ビット)、Linux、Mac
- **GPU:** CUDA 12.4対応NVIDIA(推奨)
- **VRAM:** 4GB以上(8GB以上推奨)
- **RAM:** 4GB以上
- **ストレージ:** 20GB以上の空き容量
- **インターネット:** 必須
## 📀 インストール
**configure.bat**と**start.bat**でVoice-Proを簡単にインストールできます(Mac/Linuxではconfigure.shとstart.shを使用)。
### 1. パッケージ準備
- [](https://github.com/abus-aikorea/voice-pro/)から最新リリースをダウンロード(**Source code (zip)**)
```bash
git clone https://github.com/abus-aikorea/voice-pro.git
```
### 2. インストールと実行
1. 🚀 **configure.bat**
- git、ffmpeg、CUDAをインストール(NVIDIA GPU使用時)
- 初回のみ実行。インターネット必要、1時間以上かかる場合あり
- コマンドウィンドウを閉じない
2. 🚀 **start.bat**
- Voice-ProウェブUIを起動
- 初回実行時に依存関係をインストール(1時間以上かかる場合あり)
- 問題発生時は**installer_files**を削除後再実行
### 3. アップデート
- 🚀 **update.bat**: Python環境を更新(再インストールより高速)
### 4. アンインストール
- **uninstall.bat**実行、またはフォルダ削除(ポータブルインストール)
## ❓ 使用のヒント
#### ブラウザが自動起動しない場合
- Windowsコマンドウィンドウを閉じ、**start.bat**を再実行するか
- ブラウザを直接起動し、コマンドウィンドウに表示されるアドレス(例: **http://127.0.0.1:7870**)を入力
#### CUDAメモリ不足エラーが出る場合
- Windowsタスクマネージャーの「パフォーマンス」タブでGPUメモリを確認
- ノイズ除去レベルを0または1に設定(レベル2は8GB以上のGPUメモリが必要)
- 計算タイプをintに設定(floatは品質が高いがGPUメモリを多く使用)
#### 字幕の品質を向上させるには?
- 大きなWhisperモデルほど字幕品質が向上する傾向あり(large > medium > small > base > tiny)、ただし必ずしもそうではない
- 計算タイプではfloatが優れた性能を発揮。intはモデル量子化でGPU使用量を減らし速度を向上させるが、性能は低下
- ノイズ除去レベルを上げると背景音が除去され、残った音声のみが認識に使用されるが、常に良い結果を保証するわけではない
## 🚨 お知らせ
- [WeConnect](https://www.wctokyoseoul.com)の開発作業により、当分の間Voice-Proのアップデートはありません。
- すべてのVoice-Proコードを公開しました。完全無料で使用できます。
- [WeConnect](https://www.wctokyoseoul.com)は、グローバルな文化交流のためのコミュニケーションプラットフォームです。
## ⏳ 字幕作成、翻訳、TTSのためのSaaSプラットフォーム
以下の表は、字幕作成、翻訳、テキスト音声変換(TTS/ダビング)機能をサポートするSaaSプラットフォームをまとめたものです。コストは2025年4月15日時点の最新価格データに基づき、60分の韓国語ビデオを字幕生成、英語翻訳、英語ダビング処理することを含めて計算されています。
| プラットフォーム | 字幕作成 | 翻訳 | TTS/ダビング | 60分ビデオ処理コスト (USD, 約) | 主な特徴 |
| --- | --- | --- | --- | --- | --- |
| **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | 125以上の言語、リアルタイム字幕、SEOキーワード抽出、15分無料トライアル。 |
| **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Proプラン、分単位) | AI字幕、100以上の言語翻訳、自動リップシンクダビング、無料ティア提供。 |
| **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Proプラン、部分処理) | 99.9%正確な字幕、Instagram最適化字幕、直感的なエディター。 |
| **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (従量制) | 120以上の言語、プロの校正オプション、セキュア、会議文字起こし。 |
| **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Standardプラン) | 54以上の言語、30分無料文字起こし、YouTube/Zoom統合。 |
| **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Creatorプラン) | テキストベース編集、Overdub TTS、フィラー単語除去、1時間無料文字起こし。 |
| **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | カスタム価格 (要問い合わせ) | メディア特化、カスタムモデル、メタデータ生成、クラウドベースWorkbench。 |
| **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (従量制) | 100以上の言語、YouTubeリンク文字起こし、99%正確度、シンプルなエディター。 |
### コスト計算詳細
- **[Maestra](https://maestra.ai)**: Premiumプラン ($158/月、1200クレジット)。60分ビデオ:字幕60クレジット + 翻訳60クレジット + ダビング60クレジット = 180クレジット。コスト = (180/1200) \* $158 = $23.70。
- **[Kapwing](https://www.kapwing.com)**: Proプラン (\~$24/月、制限付き分数)。字幕+翻訳+ダビングで分あたり$0.50\~$0.67と推定 (分単位価格トレンドに基づく)。60分コスト:$30\~$40。正確な価格は要確認。
- **[VEED.IO](https://www.veed.io)**: Proプラン (\~$24/月)。字幕+翻訳で分あたり$0.40\~$0.60と推定。TTSなし、部分処理。60分コスト:$24\~$36。veed.ioで確認。
- **[HappyScribe](https://happyscribe.com)**: 従量制 (文字起こし分あたり\~$0.20、翻訳$0.20、ダビング$0.20)。60分コスト:$36\~$48 (結合サービスを仮定)。happyscribe.comで確認。
- **[Sonix](https://sonix.ai)**: Standardプラン (文字起こし時間あたり\~$10、翻訳/ダビング追加)。合計分あたり$0.50\~$0.67と推定。60分コスト:$30\~$40。sonix.aiで確認。
- **[Descript](https://descript.com)**: Creatorプラン (\~$24/月、制限付き時間)。字幕+翻訳+ダビングで分あたり$0.60\~$0.80と推定。60分コスト:$36\~$48。descript.comで確認。
- **[AppTek](https://apptek.ai)**: 企業向けカスタム価格。公開分単位料金なし。apptek.aiに問い合わせ。
- **[Transkriptor](https://transkriptor.com)**: 従量制 (文字起こし分あたり$0.05\~$0.10、翻訳同等)。TTSなし、部分処理。60分コスト:$12\~$18。transkriptor.comで確認。
### 注記
- **60分ビデオ処理コスト**: コストは60分の韓国語ビデオの字幕、英語翻訳、英語ダビング(可能な場合)を処理することを前提とした近似値です。TTS非対応プラットフォーム(例:VEED.IO、Transkriptor)は部分処理コストを反映。
- **言語サポート**: ほとんどのプラットフォームは韓国語と英語をサポート。特定言語の対応状況は各ウェブサイトで確認。
- **ユースケース**:
- メディア/エンターテインメント: AppTek, Maestra
- ソーシャルメディア: Kapwing, VEED.IO
- ポッドキャスト/インタビュー: Sonix, Descript
- Eラーニング/グローバルコンテンツ: Transkriptor, HappyScribe
- **価格更新**: プラン変更やプロモーションにより価格が変動する場合があります。最新情報は公式ウェブサイトで確認。
- 貢献や特定ユースケースの提案のために、このリポジトリでイシューを開くか、プルリクエストを提出してください!
## ☕ 貢献
こんにちは、Voice-Proチームのデイビッドです。
私たちのチームは、業界最高の人工知能技術を発掘し、誰でも簡単かつ便利に利用できるように提供しています。
私たちは創業からわずか1年の韓国の小さなスタートアップです。皆様や他のクリエイターが素晴らしいコンテンツを制作できるよう、日々努力しています。
あなたの⭐⭐⭐⭐⭐レビューは、私たちのビジネスが皆様と共に成長する上で非常に役立ちますので、ぜひご協力をお願いいたします。私たちの小さなチームを支援してください。
ありがとうございます。
ABUSカスタマーサービス
- このプロジェクトに参加して協力したい場合は、お気軽に[Issues](https://github.com/abus-aikorea/voice-pro/issues)を作成してください。
- 問題が発生した場合は、このプロジェクトを改善するために[Pull requests](https://github.com/abus-aikorea/voice-pro/pulls)を提出してください。
- どのような貢献も歓迎します。
- 購入、ビジネスパートナーシップ、技術チューニング、投資、その他の関連事項に関するお問い合わせは、メール()でお問い合わせください。
- このプロジェクトが気に入ったら、このリポジトリに星を付けてください。大変感謝いたします。 ⭐⭐⭐
- こちらから寄付でVoice-Proを支援できます。
## 📬 連絡先
- Email:
- Homepage (Korean):
## 🙏 クレジット
* Demucs:
* yt-dlp:
* gradio:
* edge-TTS:
* F5-TTS:
* openai-whisper:
* faster-whisper:
* whisper-timestamped:
* whisperX:
* CosyVoice:
* kokoro:
* Deep-Translator:
* spaCy:
## ©️ 著作権情報
by [ABUS](https://www.wctokyoseoul.com)