Voice-Pro

A melhor solução de reconhecimento de voz, tradução e dublagem multilíngue com IA 🚀

Dubbing Studio

## 🎙️ Um aplicativo web baseado em IA para reconhecimento de voz, tradução e dublagem

South Korea Flag 한국어 ∙ United Kingdom Flag English ∙ China Flag 中文简体 ∙ Taiwan Flag 中文繁體 ∙ Japan Flag 日本語 ∙ Germany Flag Deutsch ∙ Spain Flag Español ∙ Portugal Flag Português

Voice-Pro é um aplicativo web de ponta que transforma a criação de conteúdo multimídia. Ele integra download de vídeos do YouTube, separação de voz, reconhecimento de fala, tradução e conversão de texto em fala (TTS) em uma única ferramenta poderosa, oferecendo uma solução ideal para criadores, pesquisadores e profissionais multilíngues. - 🔊 Reconhecimento de fala de alto nível: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX** - 🎤 Clonagem de voz sem treinamento: **F5-TTS**, **E2-TTS**, **CosyVoice** - 📢 Texto para fala multilíngue: **Edge-TTS**, **kokoro** (A versão paga inclui **Azure TTS**) - 🎥 Processamento de YouTube e extração de áudio: **yt-dlp** - 🌍 Tradução instantânea para mais de 100 idiomas: **Deep-Translator** (A versão paga inclui **Azure Translator**) Como uma alternativa robusta ao **ElevenLabs**, o Voice-Pro capacita podcasters, desenvolvedores e criadores com soluções de voz avançadas. ## ⚠️ Por favor, note - Devido ao trabalho de desenvolvimento do [WeConnect](https://www.wctokyoseoul.com), o desenvolvimento e as atualizações do Voice-Pro não são possíveis por enquanto. - Tornamos todo o código do Voice-Pro de código aberto e completamente gratuito. O Voice-Pro agora pode ser distribuído e modificado livremente por qualquer pessoa. - Funciona bem no Windows com GPU NVIDIA. O funcionamento no Mac e Linux não foi verificado. - Por favor, deixe suas solicitações nas páginas de [![GitHub Issues](https://img.shields.io/github/issues/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/issues) ou [![GitHub Discussions](https://img.shields.io/github/discussions/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/discussions) . - **Resolução de problemas**: Na maioria dos casos, os problemas podem ser resolvidos excluindo a pasta `installer_files` e, em seguida, executando `configure.bat` seguido por `start.bat`. ## 📰 Notícias e Histórico

version 3.2

- Estivemos focados no desenvolvimento do [WeConnect](https://www.wctokyoseoul.com) nos últimos meses e não conseguimos gerenciar o Voice-Pro. - Decidimos abrir o código do Voice-Pro. - O Voice-Pro é completamente gratuito e suporta Windows, Mac, Linux. - [WeConnect](https://www.wctokyoseoul.com) é um aplicativo para intercâmbio cultural global. - Conecte-se com pessoas de todo o mundo para intercâmbios culturais significativos, aprendizado de idiomas e amizades internacionais.

ScreenShot 0 ScreenShot 1 ScreenShot 2 ScreenShot 3 ScreenShot 4

version 3.1

- 🪄 Suporte para modelos ajustados do **F5-TTS** - 🌍 Idiomas suportados - United Kingdom Flag

English &

Chinese: SWivid/F5-TTS_v1 - Spain Flag

Finnish: AsmoKoskinen/F5-TTS_Finnish_Model - Spain Flag

French: RASPIAUDIO/F5-French-MixedSpeakers-reduced - Spain Flag

Hindi: SPRINGLab/F5-Hindi-24KHz - Spain Flag

Italian: alien79/F5-TTS-italian - Spain Flag

Japanese: Jmica/F5TTS/JA_21999120 - Spain Flag

Russian: hotstone228/F5-TTS-Russian - Spain Flag

Spanish: jpgallegoar/F5-Spanish

Versão 3.0

- 🔥 A função **AI Cover** foi removida. - 🚀 Suporte para **m-bain/whisperX** foi adicionado.

Versão 2.0

- 🐍 Construído com Python 3.10.15, Torch 2.5.1+cu124 e Gradio 5.14.0. - 🆓 A versão de teste gratuita suporta mídias de até **60 segundos** de duração. - 🔥 A função **AI Cover** foi adicionada. - 🎤 Suporte para **CosyVoice** e **kokoro** foi introduzido. - ⏳ A primeira execução baixa **CozyVoice2-0.5B (9GB)**, o que pode levar mais de uma hora dependendo da velocidade da rede. - 🎧 Amostras de voz para clonagem serão atualizadas continuamente. - 📝 **spaCy** foi adicionado para tradução e TTS naturais por sentença. - ☁️ A versão por assinatura inclui o tradutor e TTS do **Microsoft Azure**. - 🏪 A versão por assinatura oferece **uso ilimitado** (sem limite de 60 segundos) durante o período de assinatura e pode ser adquirida no [![Shopify](https://img.shields.io/badge/Shopify-7ab55c.svg?style=flat-square&logo=shopify&logoColor=white)](https://r17wvy-t2.myshopify.com).

## 🎥 YouTube Showcase

Demo for Voice-Pro (v2.0)	F5-TTS: Voice Cloning	Live Transcription & Translation	Multi-Lingual Voice Cloning: Korean - German
Multi-Lingual Voice Cloning: English - Korean	Multi-Lingual Voice Cloning: Korean - Japanese	NVIDIA RTX Video Super-Resolution	AI Karaoke
Multi-Lingual Voice Cloning: English - Korean

## ⭐ Recursos principais ### 1. Estúdio de dublagem - Downloads de vídeos do YouTube e extração de áudio - Separação de vozes com **Demucs** - Suporta mais de 100 idiomas para reconhecimento e tradução de fala ### 2. Tecnologias de fala - **Fala para texto:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX** - **Texto para fala:** - **Edge-TTS**: Mais de 100 idiomas, 400+ vozes - **E2-TTS**, **F5-TTS**, **CosyVoice**: Clonagem sem treinamento prévio - **kokoro**: Classificado como #2 na Arena TTS do HuggingFace ### 3. Tradução em tempo real - Reconhecimento instantâneo de fala - Tradução multilíngue em tempo real - Entradas de áudio personalizáveis ## 🤖 Interface Web ### Aba `Estúdio de Dublagem` - Centro integrado: Downloads do YouTube, remoção de ruído, legendas, tradução e TTS - Suporta todos os formatos compatíveis com ffmpeg - Opções de saída: WAV, FLAC, MP3 - Legendas e reconhecimento para mais de 100 idiomas - TTS com ajustes de velocidade, volume e tom

Interface Web de Conversão de Voz Multilíngue e Geração de Legendas

### Aba `Legendas Whisper` - Foco em legendas: Mais de 90 idiomas - Exibição de legendas integrada ao vídeo - Destaque por palavra e opções de remoção de ruído ### Aba `Tradução` - Tradução para mais de 100 idiomas - Suporte a arquivos de legendas (ASS, SSA, SRT, etc.) - Reconhecimento e tradução de voz em tempo real

Interface Web para Reconhecimento de Fala e Tradução em Tempo Real

### Aba `Geração de Voz` - Opções: **Edge-TTS**, **F5-TTS**, **CosyVoice**, **kokoro** - Podcasts com vozes de celebridades e suporte multilíngue

Interface Web para Produção de Podcasts usando Tecnologia de Clonagem de Voz

## 🎤✨ Voz de referência - Por favor, solicite a voz que você deseja adicionar na página de Issues. [Issues](https://github.com/abus-aikorea/voice-pro/issues/50)

English

Andrew Bustamante	Andrew Huberman	Avi Loeb	Ben Shapiro	Brett Johnson	Brian Keating
Coffeezilla	Dan Carlin	David Buss	David Fravor	David Kipping	Dennis Whyte
Donald Hoffman	Donald Trump	Douglas Murray	Duncan Trussell	Elon Musk	Garry Nolan
Jack Barsky	James Sexton	Jeff Bezos	Joe Rogan	John Mearsheimer	Jordan Peterson
Kanye 'Ye' West	Mark Zuckerberg	Michael Levin	Michael Saylor	Michio Kaku	MrBeast
Nick Lane	Paul Rosolie	Ryan Graves	Sam Altman	Sam Harris	Stephen Wolfram
Tucker Carlson	Vitalik Buterin	Yuval Harari

Chinese

迪丽热巴 (Dílì Rèbā)

蔡依林 (Cài Yīlín)

吴亦凡 (Wú Yìfán)

李易峰 (Lǐ Yìfēng)

杨幂 (Yáng Mì)

赵丽颖 (Zhào Lìyǐng)

Korean

BTS 진 (Jin)

BTS RM

IU (아이유)

이병헌

이정재

유재석

Japanese

綾瀬はるか (Ayase Haruka)

## 💻 Requisitos do Sistema - **SO:** Windows 10/11 (64 bits), Linux, Mac - **GPU:** NVIDIA com suporte a CUDA 12.4 (recomendado) - **VRAM:** 4 GB ou mais (8 GB+ preferível) - **RAM:** 4 GB ou mais - **Armazenamento:** Pelo menos 20 GB de espaço livre - **Internet:** Obrigatória ## 📀 Instalação Instale o Voice-Pro facilmente com **configure.bat** e **start.bat** (use configure.sh e start.sh no Mac/Linux). ### 1. Preparação do Pacote - Baixe a versão mais recente em [![GitHub Release](https://img.shields.io/github/v/release/abus-aikorea/voice-pro)](https://github.com/abus-aikorea/voice-pro/) (**Source code (zip)**) ```bash git clone https://github.com/abus-aikorea/voice-pro.git ``` ### 2. Instalação e Execução 1. 🚀 **configure.bat** - Instala git, ffmpeg e CUDA (se usar GPU NVIDIA) - Execute apenas uma vez; requer internet, pode levar mais de 1 hora - Não feche a janela de comando 2. 🚀 **start.bat** - Inicia a interface web do Voice-Pro - Na primeira execução, instala dependências (pode levar mais de 1 hora) - Em caso de problemas, delete **installer_files** e execute novamente ### 3. Atualização - 🚀 **update.bat**: Atualiza o ambiente Python (mais rápido que reinstalar) ### 4. Desinstalação - Execute **uninstall.bat** ou delete a pasta (instalação portátil) ## ❓ Dicas de Uso #### Se o navegador não abrir automaticamente - Feche a janela de comando do Windows e execute **start.bat** novamente - Abra o navegador manualmente e insira o endereço exibido na janela de comando (ex.: **http://127.0.0.1:7870**) #### Se ocorrer um erro CUDA Out-of-Memory - Verifique o status da memória da GPU no Gerenciador de Tarefas do Windows - guia "Desempenho" - Defina o nível de remoção de ruído para 0 ou 1 (o nível 2 requer pelo menos 8 GB de memória GPU) - Configure o tipo de cálculo como "int" (o tipo "float" tem melhor qualidade, mas exige mais memória GPU) #### Como melhorar a qualidade das legendas? - Modelos Whisper maiores tendem a melhorar a qualidade das legendas (large > medium > small > base > tiny), mas isso não é garantido - Entre os tipos de cálculo, "float" oferece bom desempenho; "int" reduz o uso da GPU e aumenta a velocidade por meio de quantização do modelo, mas com perda de desempenho - Aumentar o nível de remoção de ruído elimina mais sons de fundo e usa apenas a voz restante para reconhecimento, mas não garante sempre bons resultados ## 🚨 Aviso - Devido ao trabalho de desenvolvimento do [WeConnect](https://www.wctokyoseoul.com), não haverá atualizações do Voice-Pro por enquanto. - Todo o código do Voice-Pro foi publicado como código aberto. Agora é completamente gratuito de usar. - [WeConnect](https://www.wctokyoseoul.com) é uma plataforma de comunicação para intercâmbio cultural global.
## ⏳ Plataformas SaaS para Legendagem, Tradução e TTS A tabela a seguir lista plataformas SaaS que suportam funcionalidades de legendagem, tradução e conversão de texto em fala (TTS/dublagem). Os custos foram calculados para o processamento de um vídeo em coreano de 60 minutos, incluindo geração de legendas, tradução para o inglês e dublagem em inglês, com base nos dados de preços mais recentes de 15 de abril de 2025. | Plataforma | Legendagem | Tradução | TTS/Dublagem | Custo para Vídeo de 60 min (USD, aprox.) | Principais Características | | --- | --- | --- | --- | --- | --- | | **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | Mais de 125 idiomas, legendas em tempo real, extração de palavras-chave SEO, teste gratuito de 15 min. | | **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Plano Pro, por minuto) | Legendas por IA, tradução para mais de 100 idiomas, dublagem com sincronização labial automática, nível gratuito. | | **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Plano Pro, processamento parcial) | Legendas com 99,9% de precisão, legendas otimizadas para Instagram, editor intuitivo. | | **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (Pagamento por uso) | Mais de 120 idiomas, opção de revisão profissional, seguro, transcrição de reuniões. | | **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Plano Standard) | Mais de 54 idiomas, 30 min de transcrição gratuita, integração com YouTube/Zoom. | | **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Plano Criador) | Edição baseada em texto, Overdub TTS, remoção de palavras de preenchimento, 1 hora de transcrição gratuita. | | **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | Preços personalizados (Contato) | Focado em mídia, modelos personalizados, geração de metadados, Workbench baseado na nuvem. | | **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (Pagamento por uso) | Mais de 100 idiomas, transcrição de links do YouTube, 99% de precisão, editor simples. | ### Detalhes do Cálculo de Custos - **[Maestra](https://maestra.ai)**: Plano Premium ($158/mês, 1200 créditos). Vídeo de 60 min: 60 créditos (legendas) + 60 créditos (tradução) + 60 créditos (dublagem) = 180 créditos. Custo = (180/1200) \* $158 = $23.70. - **[Kapwing](https://www.kapwing.com)**: Plano Pro (\~$24/mês, minutos limitados). Estimado $0.50\~$0.67/min para legendas+tradução+dublagem (com base em tendências de preços por minuto). Custo de 60 min: $30\~$40. Confirmação de preços exatos necessária. - **[VEED.IO](https://www.veed.io)**: Plano Pro (\~$24/mês). Legendas+tradução estimadas em $0.40\~$0.60/min. Sem TTS, processamento parcial. Custo de 60 min: $24\~$36. Confirme em veed.io. - **[HappyScribe](https://happyscribe.com)**: Pagamento por uso (\~$0.20/min transcrição, $0.20 tradução, $0.20 dublagem). Custo de 60 min: $36\~$48 (assumindo serviços combinados). Confirme em happyscribe.com. - **[Sonix](https://sonix.ai)**: Plano Standard (\~$10/hora transcrição, adicional para tradução/dublagem). Estimado $0.50\~$0.67/min total. Custo de 60 min: $30\~$40. Confirme em sonix.ai. - **[Descript](https://descript.com)**: Plano Criador (\~$24/mês, horas limitadas). Estimado $0.60\~$0.80/min para legendas+tradução+dublagem. Custo de 60 min: $36\~$48. Confirme em descript.com. - **[AppTek](https://apptek.ai)**: Preços personalizados para empresas. Sem taxas públicas por minuto. Contate apptek.ai para cotações. - **[Transkriptor](https://transkriptor.com)**: Pagamento por uso ($0.05\~$0.10/min transcrição, similar para tradução). Sem TTS, processamento parcial. Custo de 60 min: $12\~$18. Confirme em transkriptor.com. ### Notas - **Custo para Vídeo de 60 min**: Os custos são aproximados e assumem o processamento de um vídeo em coreano de 60 minutos para legendas, tradução para o inglês e dublagem em inglês (quando disponível). Plataformas sem TTS (ex.: VEED.IO, Transkriptor) refletem custos de processamento parcial. - **Suporte a Idiomas**: A maioria das plataformas suporta coreano e inglês. Verifique a disponibilidade de idiomas específicos nos respectivos sites. - **Casos de Uso**: - Mídia/Entretenimento: AppTek, Maestra - Redes Sociais: Kapwing, VEED.IO - Podcasts/Entrevistas: Sonix, Descript - E-learning/Conteúdo Global: Transkriptor, HappyScribe - **Atualizações de Preços**: Os preços podem variar devido a mudanças nos planos ou promoções. Consulte os sites oficiais para detalhes atualizados. - Para contribuições ou recomendações de casos de uso específicos, abra um issue ou envie um pull request neste repositório.
## ☕ Contribuições Olá, sou David da equipe Voice-Pro. Nossa equipe descobre as melhores tecnologias de IA do setor e as fornece para que qualquer pessoa possa usá-las de forma fácil e conveniente. Somos uma pequena startup na Coreia que existe há apenas um ano. Estamos trabalhando arduamente para ajudar você e outros criadores a produzir conteúdo excelente. Sua avaliação de ⭐⭐⭐⭐⭐ seria muito apreciada, pois ajuda nossa empresa a crescer com você. Por favor, ajude a apoiar nossa pequena equipe. Obrigado, Serviço de Atendimento ao Cliente ABUS - Se você deseja participar e nos ajudar com este projeto, sinta-se à vontade para criar um [Issues](https://github.com/abus-aikorea/voice-pro/issues). - Se algo der errado, envie um [Pull requests](https://github.com/abus-aikorea/voice-pro/pulls) para melhorar este projeto. - Qualquer tipo de contribuição é bem-vindo. - Para dúvidas relacionadas a compras, parcerias comerciais, ajustes técnicos, investimentos e outros assuntos, entre em contato conosco por e-mail (). - Se você gosta deste projeto, por favor, dê uma estrela a este repositório. Nós agradeceríamos muito. ⭐⭐⭐ - Você pode apoiar o Voice-Pro com uma doação aqui:

## 📬 Contato - Email: - Homepage (Korean): ## 🙏 Créditos * Demucs: * yt-dlp: * gradio: * edge-TTS: * F5-TTS: * openai-whisper: * faster-whisper: * whisper-timestamped: * whisperX: * CosyVoice: * kokoro: * Deep-Translator: * spaCy: ## ©️ Direitos Autorais

por [ABUS](https://www.wctokyoseoul.com)