Voice-Pro

La mejor solución de reconocimiento de voz, traducción y doblaje multilingüe con IA 🚀

Dubbing Studio

## 🎙️ Una aplicación web impulsada por IA para reconocimiento de voz, traducción y doblaje

South Korea Flag 한국어 ∙ United Kingdom Flag English ∙ China Flag 中文简体 ∙ Taiwan Flag 中文繁體 ∙ Japan Flag 日本語 ∙ Germany Flag Deutsch ∙ Spain Flag Español ∙ Portugal Flag Português

Voice-Pro es una aplicación web de vanguardia que transforma la creación de contenido multimedia. Integra la descarga de videos de YouTube, separación de voz, reconocimiento de voz, traducción y conversión de texto a voz (TTS) en una sola herramienta poderosa, ofreciendo una solución ideal para creadores, investigadores y profesionales multilingües. - 🔊 Reconocimiento de voz de primer nivel: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX** - 🎤 Clonación de voz sin entrenamiento: **F5-TTS**, **E2-TTS**, **CosyVoice** - 📢 Texto a voz multilingüe: **Edge-TTS**, **kokoro** (La versión de pago incluye **Azure TTS**) - 🎥 Procesamiento de YouTube y extracción de audio: **yt-dlp** - 🌍 Traducción instantánea para más de 100 idiomas: **Deep-Translator** (La versión de pago incluye **Azure Translator**) Como una alternativa sólida a **ElevenLabs**, Voice-Pro empodera a podcasters, desarrolladores y creadores con soluciones de voz avanzadas. ## ⚠️ Por favor, tenga en cuenta - Debido al trabajo de desarrollo de [WeConnect](https://www.wctokyoseoul.com), el desarrollo y las actualizaciones de Voice-Pro no son posibles por el momento. - Hemos hecho público todo el código de Voice-Pro y es completamente gratuito. Voice-Pro ahora puede ser distribuido y modificado libremente por cualquiera. - Funciona bien en Windows con GPU NVIDIA. El funcionamiento en Mac y Linux no ha sido verificado. - Por favor, deje sus solicitudes en las páginas de [![GitHub Issues](https://img.shields.io/github/issues/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/issues) o [![GitHub Discussions](https://img.shields.io/github/discussions/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/discussions) . - **Solución de problemas**: En la mayoría de los casos, los problemas se pueden resolver eliminando la carpeta `installer_files` y luego ejecutando `configure.bat` seguido de `start.bat`. ## 📰 Noticias e Historia

version 3.2

- Nos hemos centrado en el desarrollo de [WeConnect](https://www.wctokyoseoul.com) durante los últimos meses y no hemos podido gestionar Voice-Pro en absoluto. - Hemos decidido abrir el código de Voice-Pro. - Voice-Pro es completamente gratuito y es compatible con Windows, Mac, Linux. - [WeConnect](https://www.wctokyoseoul.com) es una aplicación para el intercambio cultural global. - Conecta con personas de todo el mundo para intercambios culturales significativos, aprendizaje de idiomas y amistades internacionales.

ScreenShot 0 ScreenShot 1 ScreenShot 2 ScreenShot 3 ScreenShot 4

version 3.1

- 🪄 Soporte para modelos ajustados de **F5-TTS** - 🌍 Idiomas compatibles - United Kingdom Flag

English &

Chinese: SWivid/F5-TTS_v1 - Spain Flag

Finnish: AsmoKoskinen/F5-TTS_Finnish_Model - Spain Flag

French: RASPIAUDIO/F5-French-MixedSpeakers-reduced - Spain Flag

Hindi: SPRINGLab/F5-Hindi-24KHz - Spain Flag

Italian: alien79/F5-TTS-italian - Spain Flag

Japanese: Jmica/F5TTS/JA_21999120 - Spain Flag

Russian: hotstone228/F5-TTS-Russian - Spain Flag

Spanish: jpgallegoar/F5-Spanish

Versión 3.0

- 🔥 Se eliminó la función **AI Cover**. - 🚀 Se añadió soporte para **m-bain/whisperX**.

Versión 2.0

- 🐍 Construido con Python 3.10.15, Torch 2.5.1+cu124 y Gradio 5.14.0. - 🆓 La prueba gratuita soporta medios de hasta **60 segundos** de duración. - 🔥 Se añadió la función **AI Cover**. - 🎤 Se introdujo soporte para **CosyVoice** y **kokoro**. - ⏳ La primera ejecución descarga **CozyVoice2-0.5B (9GB)**, lo que puede tomar más de una hora dependiendo de la velocidad de la red. - 🎧 Las muestras de voz para clonación se actualizarán continuamente. - 📝 Se añadió **spaCy** para traducción y TTS natural por frases. - ☁️ La versión de suscripción incluye el traductor y TTS de **Microsoft Azure**. - 🏪 La versión de suscripción ofrece **uso ilimitado** (sin límite de 60 segundos) durante el período de suscripción y se puede comprar en [![Shopify](https://img.shields.io/badge/Shopify-7ab55c.svg?style=flat-square&logo=shopify&logoColor=white)](https://r17wvy-t2.myshopify.com).

## 🎥 YouTube Showcase

Demo for Voice-Pro (v2.0)	F5-TTS: Voice Cloning	Live Transcription & Translation	Multi-Lingual Voice Cloning: Korean - German
Multi-Lingual Voice Cloning: English - Korean	Multi-Lingual Voice Cloning: Korean - Japanese	NVIDIA RTX Video Super-Resolution	AI Karaoke
Multi-Lingual Voice Cloning: English - Korean

## ⭐ Características principales ### 1. Estudio de doblaje - Descarga de videos de YouTube y extracción de audio - Separación de voces con **Demucs** - Soporta más de 100 idiomas para reconocimiento y traducción de voz ### 2. Tecnologías de voz - **Voz a texto:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX** - **Texto a voz:** - **Edge-TTS**: Más de 100 idiomas, 400+ voces - **E2-TTS**, **F5-TTS**, **CosyVoice**: Clonación sin entrenamiento previo - **kokoro**: Clasificado #2 en la Arena TTS de HuggingFace ### 3. Traducción en tiempo real - Reconocimiento instantáneo de voz - Traducción multilingüe en tiempo real - Entradas de audio personalizables ## 🤖 Interfaz Web ### Pestaña `Estudio de Doblaje` - Centro integrado: Descargas de YouTube, eliminación de ruido, subtítulos, traducción y TTS - Soporta todos los formatos compatibles con ffmpeg - Opciones de salida: WAV, FLAC, MP3 - Subtítulos y reconocimiento para más de 100 idiomas - TTS con ajustes de velocidad, volumen y tono

Interfaz Web de Conversión de Voz Multilingüe y Generación de Subtítulos

### Pestaña `Subtítulos Whisper` - Enfocada en subtítulos: Más de 90 idiomas - Visualización de subtítulos integrada con video - Resaltado por palabra y opciones de eliminación de ruido ### Pestaña `Traducción` - Traducción a más de 100 idiomas - Soporte para archivos de subtítulos (ASS, SSA, SRT, etc.) - Reconocimiento y traducción de voz en tiempo real

Interfaz Web para Reconocimiento de Voz y Traducción en Tiempo Real

### Pestaña `Generación de Voz` - Opciones: **Edge-TTS**, **F5-TTS**, **CosyVoice**, **kokoro** - Podcasts con voces de celebridades y soporte multilingüe

Interfaz Web para Producción de Podcasts usando Tecnología de Clonación de Voz

## 🎤✨ Voz de referencia - Por favor, solicite la voz que desea agregar en la página de Issues. [Issues](https://github.com/abus-aikorea/voice-pro/issues/50)

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

## 💻 Requisitos del Sistema - **SO:** Windows 10/11 (64 bits), Linux, Mac - **GPU:** NVIDIA con soporte CUDA 12.4 (recomendado) - **VRAM:** 4 GB o más (8 GB+ preferible) - **RAM:** 4 GB o más - **Almacenamiento:** Al menos 20 GB de espacio libre - **Internet:** Requerido ## 📀 Instalación Instala Voice-Pro fácilmente con **configure.bat** y **start.bat** (usa configure.sh y start.sh en Mac/Linux). ### 1. Preparación del Paquete - Descarga la versión más reciente en [![GitHub Release](https://img.shields.io/github/v/release/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/) (**Source code (zip)**) ```bash git clone https://github.com/abus-aikorea/voice-pro.git ``` ### 2. Instalación y Ejecución 1. 🚀 **configure.bat** - Instala git, ffmpeg y CUDA (si usas GPU NVIDIA) - Ejecútalo solo una vez; requiere internet, puede tomar más de 1 hora - No cierres la ventana de comandos 2. 🚀 **start.bat** - Inicia la interfaz web de Voice-Pro - En la primera ejecución, instala dependencias (puede tomar más de 1 hora) - En caso de problemas, elimina **installer_files** y ejecuta de nuevo ### 3. Actualización - 🚀 **update.bat**: Actualiza el entorno Python (más rápido que reinstalar) ### 4. Desinstalación - Ejecuta **uninstall.bat** o elimina la carpeta (instalación portátil) ## ❓ Consejos de Uso #### Si el navegador no se abre automáticamente - Cierra la ventana de comandos de Windows y ejecuta **start.bat** nuevamente - Abre el navegador manualmente e introduce la dirección mostrada en la ventana de comandos (ej.: **http://127.0.0.1:7870**) #### Si ocurre un error CUDA Out-of-Memory - Verifica el estado de la memoria GPU en el Administrador de Tareas de Windows - pestaña "Rendimiento" - Configura el nivel de eliminación de ruido en 0 o 1 (el nivel 2 requiere al menos 8 GB de memoria GPU) - Establece el tipo de cálculo en "int" (el tipo "float" ofrece mejor calidad, pero requiere más memoria GPU) #### ¿Cómo mejorar la calidad de los subtítulos? - Los modelos Whisper más grandes tienden a mejorar la calidad de los subtítulos (large > medium > small > base > tiny), pero no siempre es así - Entre los tipos de cálculo, "float" ofrece buen rendimiento; "int" reduce el uso de GPU y aumenta la velocidad mediante cuantización del modelo, pero con pérdida de rendimiento - Aumentar el nivel de eliminación de ruido elimina más sonidos de fondo y usa solo la voz restante para el reconocimiento, pero no siempre garantiza mejores resultados ## 🚨 Aviso - Debido al trabajo de desarrollo de [WeConnect](https://www.wctokyoseoul.com), no habrá actualizaciones de Voice-Pro por el momento. - Todo el código de Voice-Pro ha sido publicado como código abierto. Ahora es completamente gratuito de usar. - [WeConnect](https://www.wctokyoseoul.com) es una plataforma de comunicación para el intercambio cultural global.
## ⏳ Plataformas SaaS para Subtitulado, Traducción y TTS La siguiente tabla enumera las plataformas SaaS que admiten funciones de subtitulado, traducción y conversión de texto a voz (TTS/doblaje). Los costos se calcularon para procesar un video en coreano de 60 minutos, incluyendo la generación de subtítulos, traducción al inglés y doblaje en inglés, basados en los datos de precios más recientes al 15 de abril de 2025. | Plataforma | Subtitulado | Traducción | TTS/Doblaje | Costo para Video de 60 min (USD, aprox.) | Características Principales | | --- | --- | --- | --- | --- | --- | | **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | Más de 125 idiomas, subtítulos en tiempo real, extracción de palabras clave SEO, prueba gratuita de 15 min. | | **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Plan Pro, por minuto) | Subtítulos por IA, traducción a más de 100 idiomas, doblaje con sincronización labial automática, nivel gratuito. | | **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Plan Pro, procesamiento parcial) | Subtítulos con 99.9% de precisión, subtítulos optimizados para Instagram, editor intuitivo. | | **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (Pago por uso) | Más de 120 idiomas, opción de corrección profesional, seguro, transcripción de reuniones. | | **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Plan Estándar) | Más de 54 idiomas, 30 min de transcripción gratuita, integración con YouTube/Zoom. | | **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Plan Creador) | Edición basada en texto, Overdub TTS, eliminación de palabras de relleno, 1 hora de transcripción gratuita. | | **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | Precios personalizados (Contactar) | Enfocado en medios, modelos personalizados, generación de metadatos, Workbench basado en la nube. | | **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (Pago por uso) | Más de 100 idiomas, transcripción desde enlaces de YouTube, 99% de precisión, editor simple. | ### Detalles del Cálculo de Costos - **[Maestra](https://maestra.ai)**: Plan Premium ($158/mes, 1200 créditos). Video de 60 min: 60 créditos (subtítulos) + 60 créditos (traducción) + 60 créditos (doblaje) = 180 créditos. Costo = (180/1200) \* $158 = $23.70. - **[Kapwing](https://www.kapwing.com)**: Plan Pro (\~$24/mes, minutos limitados). Estimado $0.50\~$0.67/min para subtítulos+traducción+doblaje (basado en tendencias de precios por minuto). Costo de 60 min: $30\~$40. Se requiere confirmación de precios exactos. - **[VEED.IO](https://www.veed.io)**: Plan Pro (\~$24/mes). Subtítulos+traducción estimados en $0.40\~$0.60/min. Sin TTS, procesamiento parcial. Costo de 60 min: $24\~$36. Confirme en veed.io. - **[HappyScribe](https://happyscribe.com)**: Pago por uso (\~$0.20/min transcripción, $0.20 traducción, $0.20 doblaje). Costo de 60 min: $36\~$48 (suponiendo servicios combinados). Confirme en happyscribe.com. - **[Sonix](https://sonix.ai)**: Plan Estándar (\~$10/hora transcripción, adicional para traducción/doblaje). Estimado $0.50\~$0.67/min total. Costo de 60 min: $30\~$40. Confirme en sonix.ai. - **[Descript](https://descript.com)**: Plan Creador (\~$24/mes, horas limitadas). Estimado $0.60\~$0.80/min para subtítulos+traducción+doblaje. Costo de 60 min: $36\~$48. Confirme en descript.com. - **[AppTek](https://apptek.ai)**: Precios personalizados para empresas. Sin tarifas públicas por minuto. Contacte a apptek.ai para cotizaciones. - **[Transkriptor](https://transkriptor.com)**: Pago por uso ($0.05\~$0.10/min transcripción, similar para traducción). Sin TTS, procesamiento parcial. Costo de 60 min: $12\~$18. Confirme en transkriptor.com. ### Notas - **Costo para Video de 60 min**: Los costos son aproximados y asumen el procesamiento de un video en coreano de 60 minutos para subtítulos, traducción al inglés y doblaje en inglés (donde esté disponible). Las plataformas sin TTS (p. ej., VEED.IO, Transkriptor) reflejan costos de procesamiento parcial. - **Soporte de Idiomas**: La mayoría de las plataformas admiten coreano e inglés. Verifique la disponibilidad de idiomas específicos en sus sitios web. - **Casos de Uso**: - Medios/Entretenimiento: AppTek, Maestra - Redes Sociales: Kapwing, VEED.IO - Podcasts/Entrevistas: Sonix, Descript - E-learning/Contenido Global: Transkriptor, HappyScribe - **Actualizaciones de Precios**: Los precios pueden variar debido a cambios en los planes o promociones. Consulte los sitios web oficiales para obtener detalles actualizados. - Para contribuciones o recomendaciones de casos de uso específicos, abra un issue o envíe un pull request en este repositorio.
## ☕ Contribuciones Hola, soy David del equipo de Voice-Pro. Nuestro equipo descubre las mejores tecnologías de IA de la industria y las proporciona para que cualquiera pueda usarlas de manera fácil y conveniente. Somos una pequeña startup en Corea que solo lleva un año en funcionamiento. Estamos trabajando arduamente para ayudarlos a usted y a otros creadores a producir contenido excelente. Su reseña de ⭐⭐⭐⭐⭐ sería muy apreciada, ya que ayuda a que nuestro negocio crezca con usted. Por favor, ayude a apoyar a nuestro pequeño equipo. Gracias, Servicio al Cliente de ABUS - Si desea participar y ayudarnos con este proyecto, no dude en crear un [Issues](https://github.com/abus-aikorea/voice-pro/issues). - Si algo sale mal, envíe un [Pull requests](https://github.com/abus-aikorea/voice-pro/pulls) para mejorar este proyecto. - Cualquier tipo de contribución es bienvenida. - Para consultas relacionadas con compras, asociaciones comerciales, ajustes técnicos, inversiones y otros asuntos, contáctenos por correo electrónico (). - Si le gusta este proyecto, por favor, marque este repositorio con una estrella. Lo agradeceríamos mucho. ⭐⭐⭐ - Puede apoyar a Voice-Pro con una donación aquí:

## 📬 Contacto - Email: - Homepage (Korean): ## 🙏 Créditos * Demucs: * yt-dlp: * gradio: * edge-TTS: * F5-TTS: * openai-whisper: * faster-whisper: * whisper-timestamped: * whisperX: * CosyVoice: * kokoro: * Deep-Translator: * spaCy: ## ©️ Derechos de Autor

por [ABUS](https://www.wctokyoseoul.com)