Voice-Pro
La mejor solución de reconocimiento de voz, traducción y doblaje multilingüe con IA 🚀
## 🎙️ Una aplicación web impulsada por IA para reconocimiento de voz, traducción y doblaje
한국어
∙
English
∙
中文简体
∙
中文繁體
∙
日本語
∙
Deutsch
∙
Español
∙
Português
Voice-Pro es una aplicación web de vanguardia que transforma la creación de contenido multimedia. Integra la descarga de videos de YouTube, separación de voz, reconocimiento de voz, traducción y conversión de texto a voz (TTS) en una sola herramienta poderosa, ofreciendo una solución ideal para creadores, investigadores y profesionales multilingües.
- 🔊 Reconocimiento de voz de primer nivel: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- 🎤 Clonación de voz sin entrenamiento: **F5-TTS**, **E2-TTS**, **CosyVoice**
- 📢 Texto a voz multilingüe: **Edge-TTS**, **kokoro** (La versión de pago incluye **Azure TTS**)
- 🎥 Procesamiento de YouTube y extracción de audio: **yt-dlp**
- 🌍 Traducción instantánea para más de 100 idiomas: **Deep-Translator** (La versión de pago incluye **Azure Translator**)
Como una alternativa sólida a **ElevenLabs**, Voice-Pro empodera a podcasters, desarrolladores y creadores con soluciones de voz avanzadas.
## ⚠️ Por favor, tenga en cuenta
- Debido al trabajo de desarrollo de [WeConnect](https://www.wctokyoseoul.com), el desarrollo y las actualizaciones de Voice-Pro no son posibles por el momento.
- Hemos hecho público todo el código de Voice-Pro y es completamente gratuito. Voice-Pro ahora puede ser distribuido y modificado libremente por cualquiera.
- Funciona bien en Windows con GPU NVIDIA. El funcionamiento en Mac y Linux no ha sido verificado.
- Por favor, deje sus solicitudes en las páginas de [](https://github.com/abus-aikorea/voice-pro/issues) o [](https://github.com/abus-aikorea/voice-pro/discussions) .
- **Solución de problemas**: En la mayoría de los casos, los problemas se pueden resolver eliminando la carpeta `installer_files` y luego ejecutando `configure.bat` seguido de `start.bat`.
## 📰 Noticias e Historia
version 3.2
- Nos hemos centrado en el desarrollo de [WeConnect](https://www.wctokyoseoul.com) durante los últimos meses y no hemos podido gestionar Voice-Pro en absoluto.
- Hemos decidido abrir el código de Voice-Pro.
- Voice-Pro es completamente gratuito y es compatible con Windows, Mac, Linux.
- [WeConnect](https://www.wctokyoseoul.com) es una aplicación para el intercambio cultural global.
- Conecta con personas de todo el mundo para intercambios culturales significativos, aprendizaje de idiomas y amistades internacionales.
version 3.1
- 🪄 Soporte para modelos ajustados de **F5-TTS**
- 🌍 Idiomas compatibles
-
English &
Chinese: SWivid/F5-TTS_v1
-
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
-
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
-
Hindi: SPRINGLab/F5-Hindi-24KHz
-
Italian: alien79/F5-TTS-italian
-
Japanese: Jmica/F5TTS/JA_21999120
-
Russian: hotstone228/F5-TTS-Russian
-
Spanish: jpgallegoar/F5-Spanish
Versión 3.0
- 🔥 Se eliminó la función **AI Cover**.
- 🚀 Se añadió soporte para **m-bain/whisperX**.
Versión 2.0
- 🐍 Construido con Python 3.10.15, Torch 2.5.1+cu124 y Gradio 5.14.0.
- 🆓 La prueba gratuita soporta medios de hasta **60 segundos** de duración.
- 🔥 Se añadió la función **AI Cover**.
- 🎤 Se introdujo soporte para **CosyVoice** y **kokoro**.
- ⏳ La primera ejecución descarga **CozyVoice2-0.5B (9GB)**, lo que puede tomar más de una hora dependiendo de la velocidad de la red.
- 🎧 Las muestras de voz para clonación se actualizarán continuamente.
- 📝 Se añadió **spaCy** para traducción y TTS natural por frases.
- ☁️ La versión de suscripción incluye el traductor y TTS de **Microsoft Azure**.
- 🏪 La versión de suscripción ofrece **uso ilimitado** (sin límite de 60 segundos) durante el período de suscripción y se puede comprar en [](https://r17wvy-t2.myshopify.com).
## 🎥 YouTube Showcase
## ⭐ Características principales
### 1. Estudio de doblaje
- Descarga de videos de YouTube y extracción de audio
- Separación de voces con **Demucs**
- Soporta más de 100 idiomas para reconocimiento y traducción de voz
### 2. Tecnologías de voz
- **Voz a texto:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- **Texto a voz:**
- **Edge-TTS**: Más de 100 idiomas, 400+ voces
- **E2-TTS**, **F5-TTS**, **CosyVoice**: Clonación sin entrenamiento previo
- **kokoro**: Clasificado #2 en la Arena TTS de HuggingFace
### 3. Traducción en tiempo real
- Reconocimiento instantáneo de voz
- Traducción multilingüe en tiempo real
- Entradas de audio personalizables
## 🤖 Interfaz Web
### Pestaña `Estudio de Doblaje`
- Centro integrado: Descargas de YouTube, eliminación de ruido, subtítulos, traducción y TTS
- Soporta todos los formatos compatibles con ffmpeg
- Opciones de salida: WAV, FLAC, MP3
- Subtítulos y reconocimiento para más de 100 idiomas
- TTS con ajustes de velocidad, volumen y tono

### Pestaña `Subtítulos Whisper`
- Enfocada en subtítulos: Más de 90 idiomas
- Visualización de subtítulos integrada con video
- Resaltado por palabra y opciones de eliminación de ruido
### Pestaña `Traducción`
- Traducción a más de 100 idiomas
- Soporte para archivos de subtítulos (ASS, SSA, SRT, etc.)
- Reconocimiento y traducción de voz en tiempo real

### Pestaña `Generación de Voz`
- Opciones: **Edge-TTS**, **F5-TTS**, **CosyVoice**, **kokoro**
- Podcasts con voces de celebridades y soporte multilingüe

## 🎤✨ Voz de referencia
- Por favor, solicite la voz que desea agregar en la página de Issues. [Issues](https://github.com/abus-aikorea/voice-pro/issues/50)
English
 Andrew Bustamante |
 Andrew Huberman |
 Avi Loeb |
 Ben Shapiro |
 Brett Johnson |
 Brian Keating |
 Coffeezilla |
 Dan Carlin |
 David Buss |
 David Fravor |
 David Kipping |
 Dennis Whyte |
 Donald Hoffman |
 Donald Trump |
 Douglas Murray |
 Duncan Trussell |
 Elon Musk |
 Garry Nolan |
 Jack Barsky |
 James Sexton |
 Jeff Bezos |
 Joe Rogan |
 John Mearsheimer |
 Jordan Peterson |
 Kanye 'Ye' West |
 Mark Zuckerberg |
 Michael Levin |
 Michael Saylor |
 Michio Kaku |
 MrBeast |
 Nick Lane |
 Paul Rosolie |
 Ryan Graves |
 Sam Altman |
 Sam Harris |
 Stephen Wolfram |
 Tucker Carlson |
 Vitalik Buterin |
 Yuval Harari |
|
|
|
Chinese
 迪丽热巴 (Dílì Rèbā) |
 蔡依林 (Cài Yīlín) |
 吴亦凡 (Wú Yìfán) |
 李易峰 (Lǐ Yìfēng) |
 杨幂 (Yáng Mì) |
 赵丽颖 (Zhào Lìyǐng) |
Korean
 BTS 진 (Jin) |
 BTS RM |
 IU (아이유) |
 이병헌 |
 이정재 |
 유재석 |
Japanese
 綾瀬はるか (Ayase Haruka) |
|
|
|
|
|
## 💻 Requisitos del Sistema
- **SO:** Windows 10/11 (64 bits), Linux, Mac
- **GPU:** NVIDIA con soporte CUDA 12.4 (recomendado)
- **VRAM:** 4 GB o más (8 GB+ preferible)
- **RAM:** 4 GB o más
- **Almacenamiento:** Al menos 20 GB de espacio libre
- **Internet:** Requerido
## 📀 Instalación
Instala Voice-Pro fácilmente con **configure.bat** y **start.bat** (usa configure.sh y start.sh en Mac/Linux).
### 1. Preparación del Paquete
- Descarga la versión más reciente en [](https://github.com/abus-aikorea/voice-pro/) (**Source code (zip)**)
```bash
git clone https://github.com/abus-aikorea/voice-pro.git
```
### 2. Instalación y Ejecución
1. 🚀 **configure.bat**
- Instala git, ffmpeg y CUDA (si usas GPU NVIDIA)
- Ejecútalo solo una vez; requiere internet, puede tomar más de 1 hora
- No cierres la ventana de comandos
2. 🚀 **start.bat**
- Inicia la interfaz web de Voice-Pro
- En la primera ejecución, instala dependencias (puede tomar más de 1 hora)
- En caso de problemas, elimina **installer_files** y ejecuta de nuevo
### 3. Actualización
- 🚀 **update.bat**: Actualiza el entorno Python (más rápido que reinstalar)
### 4. Desinstalación
- Ejecuta **uninstall.bat** o elimina la carpeta (instalación portátil)
## ❓ Consejos de Uso
#### Si el navegador no se abre automáticamente
- Cierra la ventana de comandos de Windows y ejecuta **start.bat** nuevamente
- Abre el navegador manualmente e introduce la dirección mostrada en la ventana de comandos (ej.: **http://127.0.0.1:7870**)
#### Si ocurre un error CUDA Out-of-Memory
- Verifica el estado de la memoria GPU en el Administrador de Tareas de Windows - pestaña "Rendimiento"
- Configura el nivel de eliminación de ruido en 0 o 1 (el nivel 2 requiere al menos 8 GB de memoria GPU)
- Establece el tipo de cálculo en "int" (el tipo "float" ofrece mejor calidad, pero requiere más memoria GPU)
#### ¿Cómo mejorar la calidad de los subtítulos?
- Los modelos Whisper más grandes tienden a mejorar la calidad de los subtítulos (large > medium > small > base > tiny), pero no siempre es así
- Entre los tipos de cálculo, "float" ofrece buen rendimiento; "int" reduce el uso de GPU y aumenta la velocidad mediante cuantización del modelo, pero con pérdida de rendimiento
- Aumentar el nivel de eliminación de ruido elimina más sonidos de fondo y usa solo la voz restante para el reconocimiento, pero no siempre garantiza mejores resultados
## 🚨 Aviso
- Debido al trabajo de desarrollo de [WeConnect](https://www.wctokyoseoul.com), no habrá actualizaciones de Voice-Pro por el momento.
- Todo el código de Voice-Pro ha sido publicado como código abierto. Ahora es completamente gratuito de usar.
- [WeConnect](https://www.wctokyoseoul.com) es una plataforma de comunicación para el intercambio cultural global.
## ⏳ Plataformas SaaS para Subtitulado, Traducción y TTS
La siguiente tabla enumera las plataformas SaaS que admiten funciones de subtitulado, traducción y conversión de texto a voz (TTS/doblaje). Los costos se calcularon para procesar un video en coreano de 60 minutos, incluyendo la generación de subtítulos, traducción al inglés y doblaje en inglés, basados en los datos de precios más recientes al 15 de abril de 2025.
| Plataforma | Subtitulado | Traducción | TTS/Doblaje | Costo para Video de 60 min (USD, aprox.) | Características Principales |
| --- | --- | --- | --- | --- | --- |
| **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | Más de 125 idiomas, subtítulos en tiempo real, extracción de palabras clave SEO, prueba gratuita de 15 min. |
| **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Plan Pro, por minuto) | Subtítulos por IA, traducción a más de 100 idiomas, doblaje con sincronización labial automática, nivel gratuito. |
| **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Plan Pro, procesamiento parcial) | Subtítulos con 99.9% de precisión, subtítulos optimizados para Instagram, editor intuitivo. |
| **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (Pago por uso) | Más de 120 idiomas, opción de corrección profesional, seguro, transcripción de reuniones. |
| **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Plan Estándar) | Más de 54 idiomas, 30 min de transcripción gratuita, integración con YouTube/Zoom. |
| **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Plan Creador) | Edición basada en texto, Overdub TTS, eliminación de palabras de relleno, 1 hora de transcripción gratuita. |
| **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | Precios personalizados (Contactar) | Enfocado en medios, modelos personalizados, generación de metadatos, Workbench basado en la nube. |
| **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (Pago por uso) | Más de 100 idiomas, transcripción desde enlaces de YouTube, 99% de precisión, editor simple. |
### Detalles del Cálculo de Costos
- **[Maestra](https://maestra.ai)**: Plan Premium ($158/mes, 1200 créditos). Video de 60 min: 60 créditos (subtítulos) + 60 créditos (traducción) + 60 créditos (doblaje) = 180 créditos. Costo = (180/1200) \* $158 = $23.70.
- **[Kapwing](https://www.kapwing.com)**: Plan Pro (\~$24/mes, minutos limitados). Estimado $0.50\~$0.67/min para subtítulos+traducción+doblaje (basado en tendencias de precios por minuto). Costo de 60 min: $30\~$40. Se requiere confirmación de precios exactos.
- **[VEED.IO](https://www.veed.io)**: Plan Pro (\~$24/mes). Subtítulos+traducción estimados en $0.40\~$0.60/min. Sin TTS, procesamiento parcial. Costo de 60 min: $24\~$36. Confirme en veed.io.
- **[HappyScribe](https://happyscribe.com)**: Pago por uso (\~$0.20/min transcripción, $0.20 traducción, $0.20 doblaje). Costo de 60 min: $36\~$48 (suponiendo servicios combinados). Confirme en happyscribe.com.
- **[Sonix](https://sonix.ai)**: Plan Estándar (\~$10/hora transcripción, adicional para traducción/doblaje). Estimado $0.50\~$0.67/min total. Costo de 60 min: $30\~$40. Confirme en sonix.ai.
- **[Descript](https://descript.com)**: Plan Creador (\~$24/mes, horas limitadas). Estimado $0.60\~$0.80/min para subtítulos+traducción+doblaje. Costo de 60 min: $36\~$48. Confirme en descript.com.
- **[AppTek](https://apptek.ai)**: Precios personalizados para empresas. Sin tarifas públicas por minuto. Contacte a apptek.ai para cotizaciones.
- **[Transkriptor](https://transkriptor.com)**: Pago por uso ($0.05\~$0.10/min transcripción, similar para traducción). Sin TTS, procesamiento parcial. Costo de 60 min: $12\~$18. Confirme en transkriptor.com.
### Notas
- **Costo para Video de 60 min**: Los costos son aproximados y asumen el procesamiento de un video en coreano de 60 minutos para subtítulos, traducción al inglés y doblaje en inglés (donde esté disponible). Las plataformas sin TTS (p. ej., VEED.IO, Transkriptor) reflejan costos de procesamiento parcial.
- **Soporte de Idiomas**: La mayoría de las plataformas admiten coreano e inglés. Verifique la disponibilidad de idiomas específicos en sus sitios web.
- **Casos de Uso**:
- Medios/Entretenimiento: AppTek, Maestra
- Redes Sociales: Kapwing, VEED.IO
- Podcasts/Entrevistas: Sonix, Descript
- E-learning/Contenido Global: Transkriptor, HappyScribe
- **Actualizaciones de Precios**: Los precios pueden variar debido a cambios en los planes o promociones. Consulte los sitios web oficiales para obtener detalles actualizados.
- Para contribuciones o recomendaciones de casos de uso específicos, abra un issue o envíe un pull request en este repositorio.
## ☕ Contribuciones
Hola, soy David del equipo de Voice-Pro.
Nuestro equipo descubre las mejores tecnologías de IA de la industria y las proporciona para que cualquiera pueda usarlas de manera fácil y conveniente.
Somos una pequeña startup en Corea que solo lleva un año en funcionamiento. Estamos trabajando arduamente para ayudarlos a usted y a otros creadores a producir contenido excelente.
Su reseña de ⭐⭐⭐⭐⭐ sería muy apreciada, ya que ayuda a que nuestro negocio crezca con usted. Por favor, ayude a apoyar a nuestro pequeño equipo.
Gracias,
Servicio al Cliente de ABUS
- Si desea participar y ayudarnos con este proyecto, no dude en crear un [Issues](https://github.com/abus-aikorea/voice-pro/issues).
- Si algo sale mal, envíe un [Pull requests](https://github.com/abus-aikorea/voice-pro/pulls) para mejorar este proyecto.
- Cualquier tipo de contribución es bienvenida.
- Para consultas relacionadas con compras, asociaciones comerciales, ajustes técnicos, inversiones y otros asuntos, contáctenos por correo electrónico ().
- Si le gusta este proyecto, por favor, marque este repositorio con una estrella. Lo agradeceríamos mucho. ⭐⭐⭐
- Puede apoyar a Voice-Pro con una donación aquí:
## 📬 Contacto
- Email:
- Homepage (Korean):
## 🙏 Créditos
* Demucs:
* yt-dlp:
* gradio:
* edge-TTS:
* F5-TTS:
* openai-whisper:
* faster-whisper:
* whisper-timestamped:
* whisperX:
* CosyVoice:
* kokoro:
* Deep-Translator:
* spaCy:
## ©️ Derechos de Autor
por [ABUS](https://www.wctokyoseoul.com)