Voice-Pro
Die beste KI-Spracherkennung, Übersetzung und mehrsprachige Synchronlösung 🚀
## 🎙️ Eine KI-gestützte Webanwendung für Spracherkennung, Übersetzung und Synchronisation
한국어
∙
English
∙
中文简体
∙
中文繁體
∙
日本語
∙
Deutsch
∙
Español
∙
Português
Voice-Pro ist eine hochmoderne Web-App, die die Erstellung von Multimedia-Inhalten revolutioniert. Sie kombiniert YouTube-Video-Downloads, Stimmseparation, Spracherkennung, Übersetzung und Text-to-Speech (TTS) in einem einzigen, leistungsstarken Tool und bietet so eine ideale Lösung für Kreative, Forscher und mehrsprachige Profis.
- 🔊 Erstklassige Spracherkennung: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- 🎤 Zero-Shot-Stimmenklonierung: **F5-TTS**, **E2-TTS**, **CosyVoice**
- 📢 Mehrsprachige Text-to-Speech: **Edge-TTS**, **kokoro** (Die kostenpflichtige Version enthält **Azure TTS**)
- 🎥 YouTube-Verarbeitung & Audioextraktion: **yt-dlp**
- 🌍 Sofortübersetzung für über 100 Sprachen: **Deep-Translator** (Die kostenpflichtige Version enthält **Azure Translator**)
Als starke Alternative zu **ElevenLabs** bietet Voice-Pro Podcastern, Entwicklern und Kreativen fortschrittliche Sprachlösungen.
## ⚠️ Bitte beachten
- Aufgrund der [WeConnect](https://www.wctokyoseoul.com)-Entwicklungsarbeit sind Voice-Pro-Entwicklung und Updates vorerst nicht möglich.
- Wir haben den gesamten Voice-Pro-Code als Open Source veröffentlicht und vollständig kostenlos gemacht. Voice-Pro kann jetzt von jedem frei verteilt und modifiziert werden.
- Es funktioniert gut unter Windows mit NVIDIA GPU. Der Betrieb unter Mac und Linux wurde nicht überprüft.
- Bitte hinterlassen Sie Ihre Anfragen auf den [](https://github.com/abus-aikorea/voice-pro/issues)- oder [](https://github.com/abus-aikorea/voice-pro/discussions)-Seiten.
- **Fehlerbehebung**: In den meisten Fällen können Probleme durch das Löschen des `installer_files`-Ordners und das anschließende Ausführen von `configure.bat` gefolgt von `start.bat` behoben werden.
## 📰 Neuigkeiten & Verlauf
version 3.2
- Wir haben uns in den letzten Monaten auf die Entwicklung von [WeConnect](https://www.wctokyoseoul.com) konzentriert und konnten Voice-Pro überhaupt nicht verwalten.
- Wir haben beschlossen, den gesamten Voice-Pro-Code zu öffnen.
- Voice-Pro ist vollständig kostenlos und unterstützt Windows, Mac, Linux.
- [WeConnect](https://www.wctokyoseoul.com) ist eine Anwendung für den globalen Kulturaustausch.
- Verbinden Sie sich mit Menschen aus aller Welt für bedeutungsvolle Kulturaustausche, Sprachenlernen und internationale Freundschaften.
version 3.1
- 🪄 Unterstützung für feinabgestimmte Modelle von **F5-TTS**
- 🌍 Unterstützte Sprachen
-
English &
Chinese: SWivid/F5-TTS_v1
-
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
-
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
-
Hindi: SPRINGLab/F5-Hindi-24KHz
-
Italian: alien79/F5-TTS-italian
-
Japanese: Jmica/F5TTS/JA_21999120
-
Russian: hotstone228/F5-TTS-Russian
-
Spanish: jpgallegoar/F5-Spanish
Version 3.0
- 🔥 Die **AI Cover**-Funktion wurde entfernt.
- 🚀 Unterstützung für **m-bain/whisperX** wurde hinzugefügt.
Version 2.0
- 🐍 Mit Python 3.10.15, Torch 2.5.1+cu124 und Gradio 5.14.0 erstellt.
- 🆓 Die kostenlose Testversion unterstützt Medien bis zu **60 Sekunden** Länge.
- 🔥 Die **AI Cover**-Funktion wurde hinzugefügt.
- 🎤 Unterstützung für **CosyVoice** und **kokoro** wurde eingeführt.
- ⏳ Beim ersten Start wird **CozyVoice2-0.5B (9GB)** heruntergeladen, was je nach Netzwerkgeschwindigkeit über eine Stunde dauern kann.
- 🎧 Sprachproben für das Sprachklonen werden kontinuierlich aktualisiert.
- 📝 **spaCy** wurde für natürliche satzweise Übersetzung und TTS hinzugefügt.
- ☁️ Die Abonnement-Version umfasst den **Microsoft Azure**-Übersetzer und TTS.
- 🏪 Die Abonnement-Version bietet **unbegrenzte Nutzung** (keine 60-Sekunden-Beschränkung) während der Abonnementlaufzeit und kann über [](https://r17wvy-t2.myshopify.com) erworben werden.
## 🎥 YouTube Showcase
## ⭐ Hauptfunktionen
### 1. Synchronstudio
- YouTube-Video-Downloads & Audioextraktion
- Stimmtrennung mit **Demucs**
- Unterstützt über 100 Sprachen für Spracherkennung & Übersetzung
### 2. Sprachtechnologien
- **Sprache-zu-Text:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- **Text-zu-Sprache:**
- **Edge-TTS**: Über 100 Sprachen, 400+ Stimmen
- **E2-TTS**, **F5-TTS**, **CosyVoice**: Zero-Shot-Klonen
- **kokoro**: Platz 2 in der HuggingFace TTS-Arena
### 3. Echtzeit-Übersetzung
- Sofortige Spracherkennung
- Mehrsprachige Übersetzung in Echtzeit
- Anpassbare Audioeingaben
## 🤖 WebUI
### `Dubbing-Studio`-Tab
- All-in-One-Hub: YouTube-Downloads, Rauschunterdrückung, Untertitel, Übersetzung, TTS
- Unterstützt alle ffmpeg-kompatiblen Formate
- Ausgabeoptionen: WAV, FLAC, MP3
- Untertitel & Erkennung für über 100 Sprachen
- TTS mit einstellbarer Geschwindigkeit, Lautstärke und Tonlage

### `Whisper-Untertitel`-Tab
- Untertitel-spezifisch: Über 90 Sprachen
- Integrierte Untertitelanzeige mit Video
- Wortweise Hervorhebung & Optionen zur Rauschunterdrückung
### `Übersetzung`-Tab
- Übersetzung in über 100 Sprachen
- Unterstützt Untertiteldateien (ASS, SSA, SRT usw.)
- Echtzeit-Spracherkennung und Übersetzung

### `Sprachgenerierung`-Tab
- Optionen: **Edge-TTS**, **F5-TTS**, **CosyVoice**, **kokoro**
- Podcasts mit Promi-Stimmen & mehrsprachige Unterstützung

## 🎤✨ Referenzstimme
- Bitte fordern Sie die Stimme, die Sie hinzufügen möchten, auf der Issues-Seite an. [Issues](https://github.com/abus-aikorea/voice-pro/issues/50)
English
 Andrew Bustamante |
 Andrew Huberman |
 Avi Loeb |
 Ben Shapiro |
 Brett Johnson |
 Brian Keating |
 Coffeezilla |
 Dan Carlin |
 David Buss |
 David Fravor |
 David Kipping |
 Dennis Whyte |
 Donald Hoffman |
 Donald Trump |
 Douglas Murray |
 Duncan Trussell |
 Elon Musk |
 Garry Nolan |
 Jack Barsky |
 James Sexton |
 Jeff Bezos |
 Joe Rogan |
 John Mearsheimer |
 Jordan Peterson |
 Kanye 'Ye' West |
 Mark Zuckerberg |
 Michael Levin |
 Michael Saylor |
 Michio Kaku |
 MrBeast |
 Nick Lane |
 Paul Rosolie |
 Ryan Graves |
 Sam Altman |
 Sam Harris |
 Stephen Wolfram |
 Tucker Carlson |
 Vitalik Buterin |
 Yuval Harari |
|
|
|
Chinese
 迪丽热巴 (Dílì Rèbā) |
 蔡依林 (Cài Yīlín) |
 吴亦凡 (Wú Yìfán) |
 李易峰 (Lǐ Yìfēng) |
 杨幂 (Yáng Mì) |
 赵丽颖 (Zhào Lìyǐng) |
Korean
 BTS 진 (Jin) |
 BTS RM |
 IU (아이유) |
 이병헌 |
 이정재 |
 유재석 |
Japanese
 綾瀬はるか (Ayase Haruka) |
|
|
|
|
|
## 💻 Systemanforderungen
- **OS:** Windows 10/11 (64-Bit), Linux, Mac
- **GPU:** NVIDIA mit CUDA 12.4 (empfohlen)
- **VRAM:** 4 GB+ (8 GB+ bevorzugt)
- **RAM:** 4 GB+
- **Speicher:** Mindestens 20 GB freier Speicherplatz
- **Internet:** Erforderlich
## 📀 Installation
Mit **configure.bat** und **start.bat** lässt sich Voice-Pro einfach installieren (auf Mac/Linux verwenden Sie configure.sh und start.sh).
### 1. Paketvorbereitung
- Laden Sie die neueste Version von [](https://github.com/abus-aikorea/voice-pro/) herunter (**Source code (zip)**)
```bash
git clone https://github.com/abus-aikorea/voice-pro.git
```
### 2. Installation und Ausführung
1. 🚀 **configure.bat**
- Installiert git, ffmpeg und CUDA (bei NVIDIA-GPU)
- Einmalige Ausführung; Internet erforderlich, kann über 1 Stunde dauern
- Schließen Sie das Befehlsfenster nicht
2. 🚀 **start.bat**
- Startet die Voice-Pro-WebUI
- Bei erstmaliger Ausführung werden Abhängigkeiten installiert (kann über 1 Stunde dauern)
- Bei Problemen **installer_files** löschen und erneut ausführen
### 3. Update
- 🚀 **update.bat**: Aktualisiert die Python-Umgebung (schneller als Neuinstallation)
### 4. Deinstallation
- Führen Sie **uninstall.bat** aus oder löschen Sie den Ordner (portable Installation)
## ❓ Nutzungstipps
#### Wenn der Browser nicht automatisch startet
- Schließen Sie das Windows-Befehlsfenster und führen Sie **start.bat** erneut aus
- Öffnen Sie den Browser manuell und geben Sie die im Befehlsfenster angezeigte Adresse ein (z. B. **http://127.0.0.1:7870**)
#### Bei einem CUDA-Out-of-Memory-Fehler
- Überprüfen Sie den GPU-Speicherstatus im Windows Task-Manager – Reiter „Leistung“
- Stellen Sie den Rauschunterdrückungslevel auf 0 oder 1 ein (Level 2 erfordert mindestens 8 GB GPU-Speicher)
- Stellen Sie den Berechnungstyp auf „int“ ein („float“ bietet bessere Qualität, benötigt aber mehr GPU-Speicher)
#### Wie kann die Untertitelqualität verbessert werden?
- Größere Whisper-Modelle tendieren zu besserer Untertitelqualität (large > medium > small > base > tiny), dies ist jedoch nicht garantiert
- Unter den Berechnungstypen bietet „float“ gute Leistung; „int“ reduziert GPU-Nutzung und erhöht die Geschwindigkeit durch Modellquantisierung, allerdings mit Leistungseinbußen
- Ein höherer Rauschunterdrückungslevel entfernt mehr Hintergrundgeräusche und nutzt nur die verbleibende Stimme für die Erkennung, garantiert aber nicht immer bessere Ergebnisse
## 🚨 Hinweis
- Aufgrund der [WeConnect](https://www.wctokyoseoul.com)-Entwicklungsarbeit wird es vorerst keine Voice-Pro-Updates geben.
- Der gesamte Voice-Pro-Code wurde als Open Source veröffentlicht. Er kann jetzt vollständig kostenlos verwendet werden.
- [WeConnect](https://www.wctokyoseoul.com) ist eine Kommunikationsplattform für den globalen Kulturaustausch.
## ⏳ SaaS-Plattformen für Untertitelung, Übersetzung und TTS
Die folgende Tabelle listet SaaS-Plattformen auf, die Untertitelung, Übersetzung und Text-to-Speech (TTS/Synchronisation) unterstützen. Die Kosten wurden basierend auf den neuesten verfügbaren Preisdaten vom 15. April 2025 berechnet und beinhalten die Verarbeitung eines 60-minütigen koreanischen Videos mit Untertitelgenerierung, englischer Übersetzung und englischer Synchronisation.
| Plattform | Untertitelung | Übersetzung | TTS/Synchronisation | Kosten für 60-min Video (USD, ca.) | Hauptmerkmale |
| --- | --- | --- | --- | --- | --- |
| **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | Über 125 Sprachen, Echtzeit-Untertitel, SEO-Keyword-Extraktion, 15-min kostenlose Testversion. |
| **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Pro-Plan, pro Minute) | KI-Untertitel, Übersetzung in über 100 Sprachen, automatische Lip-Sync-Synchronisation, kostenloser Tarif. |
| **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Pro-Plan, teilweise) | 99,9 % genaue Untertitel, Instagram-optimierte Untertitel, intuitiver Editor. |
| **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (Pay-as-you-go) | Über 120 Sprachen, professionelle Korrekturoption, sicher, Transkription von Meetings. |
| **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Standard-Plan) | Über 54 Sprachen, 30-min kostenlose Transkription, YouTube/Zoom-Integration. |
| **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Creator-Plan) | Textbasierte Bearbeitung, Overdub TTS, Entfernung von Füllwörtern, 1-Stunde kostenlose Transkription. |
| **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | Individuelle Preisgestaltung (Kontakt) | Medienfokussiert, individuelle Modelle, Metadatengenerierung, cloudbasierte Workbench. |
| **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (Pay-as-you-go) | Über 100 Sprachen, YouTube-Link-Transkription, 99 % Genauigkeit, einfacher Editor. |
### Details zur Kostenberechnung
- **[Maestra](https://maestra.ai)**: Premium-Plan ($158/Monat, 1200 Credits). 60-min Video: 60 Credits (Untertitel) + 60 Credits (Übersetzung) + 60 Credits (Synchronisation) = 180 Credits. Kosten = (180/1200) \* $158 = $23.70.
- **[Kapwing](https://www.kapwing.com)**: Pro-Plan (\~$24/Monat, begrenzte Minuten). Geschätzt $0.50\~$0.67/Minute für Untertitel+Übersetzung+Synchronisation (basierend auf Preistrends). 60-min Kosten: $30\~$40. Exakte Preise erfordern Bestätigung.
- **[VEED.IO](https://www.veed.io)**: Pro-Plan (\~$24/Monat). Untertitel+Übersetzung geschätzt $0.40\~$0.60/Minute. Kein TTS, daher teilweise Verarbeitung. 60-min Kosten: $24\~$36. Bestätigen Sie auf veed.io.
- **[HappyScribe](https://happyscribe.com)**: Pay-as-you-go (\~$0.20/Minute Transkription, $0.20 Übersetzung, $0.20 Synchronisation). 60-min Kosten: $36\~$48 (unter Annahme kombinierter Dienste). Bestätigen Sie auf happyscribe.com.
- **[Sonix](https://sonix.ai)**: Standard-Plan (\~$10/Stunde Transkription, zusätzlich für Übersetzung/Synchronisation). Geschätzt $0.50\~$0.67/Minute gesamt. 60-min Kosten: $30\~$40. Bestätigen Sie auf sonix.ai.
- **[Descript](https://descript.com)**: Creator-Plan (\~$24/Monat, begrenzte Stunden). Geschätzt $0.60\~$0.80/Minute für Untertitel+Übersetzung+Synchronisation. 60-min Kosten: $36\~$48. Bestätigen Sie auf descript.com.
- **[AppTek](https://apptek.ai)**: Individuelle Preisgestaltung für Unternehmen. Keine öffentlichen Minutenpreise. Kontaktieren Sie apptek.ai für Angebote.
- **[Transkriptor](https://transkriptor.com)**: Pay-as-you-go ($0.05\~$0.10/Minute Transkription, ähnlich für Übersetzung). Kein TTS, daher teilweise Verarbeitung. 60-min Kosten: $12\~$18. Bestätigen Sie auf transkriptor.com.
### Hinweise
- **Kosten für 60-min Video**: Die Kosten sind Näherungswerte und basieren auf der Verarbeitung eines 60-minütigen koreanischen Videos für Untertitel, englische Übersetzung und englische Synchronisation (falls verfügbar). Plattformen ohne TTS (z. B. VEED.IO, Transkriptor) berücksichtigen teilweise Verarbeitungskosten.
- **Sprachunterstützung**: Die meisten Plattformen unterstützen Koreanisch und Englisch. Überprüfen Sie die Verfügbarkeit spezifischer Sprachen auf den jeweiligen Websites.
- **Anwendungsfälle**:
- Medien/Unterhaltung: AppTek, Maestra
- Soziale Medien: Kapwing, VEED.IO
- Podcasts/Interviews: Sonix, Descript
- E-Learning/globale Inhalte: Transkriptor, HappyScribe
- **Preisaktualisierungen**: Preise können aufgrund von Planänderungen oder Aktionen variieren. Überprüfen Sie die offiziellen Websites für aktuelle Details.
- Für Beiträge oder Empfehlungen zu spezifischen Anwendungsfällen öffnen Sie ein Issue oder reichen Sie einen Pull Request in diesem Repository ein!
## ☕ Beiträge
Hallo, ich bin David vom Voice-Pro-Team.
Unser Team entdeckt die besten KI-Technologien der Branche und stellt sie jedem zur einfachen und bequemen Nutzung zur Verfügung.
Wir sind ein kleines Startup in Korea, das erst seit einem Jahr existiert. Wir arbeiten hart daran, Ihnen und anderen Kreativen zu helfen, großartige Inhalte zu erstellen.
Ihre ⭐⭐⭐⭐⭐ Bewertung wäre sehr willkommen, da sie unserem Unternehmen hilft, mit Ihnen zu wachsen. Bitte helfen Sie mit, unser kleines Team zu unterstützen.
Vielen Dank,
ABUS Kundenservice
- Wenn Sie an diesem Projekt teilnehmen und uns helfen möchten, können Sie gerne ein [Issues](https://github.com/abus-aikorea/voice-pro/issues) erstellen.
- Wenn etwas schief geht, senden Sie bitte einen [Pull Requests](https://github.com/abus-aikorea/voice-pro/pulls), um dieses Projekt zu verbessern.
- Jede Art von Beitrag ist willkommen.
- Für Anfragen zu Käufen, Geschäftspartnerschaften, technischer Anpassung, Investitionen und anderen Angelegenheiten kontaktieren Sie uns bitte per E-Mail ().
- Wenn Ihnen dieses Projekt gefällt, geben Sie diesem Repository bitte einen Stern. Wir würden uns sehr freuen. ⭐⭐⭐
- Sie können Voice-Pro hier mit einer Spende unterstützen:
## 📬 Kontakt
- Email:
- Homepage (Korean):
## 🙏 Danksagung
* Demucs:
* yt-dlp:
* gradio:
* edge-TTS:
* F5-TTS:
* openai-whisper:
* faster-whisper:
* whisper-timestamped:
* whisperX:
* CosyVoice:
* kokoro:
* Deep-Translator:
* spaCy:
## ©️ Urheberrecht
by [ABUS](https://www.wctokyoseoul.com)