Voice-Pro
최고의 AI 음성인식, 번역 및 다국어 더빙 솔루션 🚀
## 🎙️ 음성 인식, 번역 및 더빙을 위한 AI 기반 웹 애플리케이션
한국어
∙
English
∙
中文简体
∙
中文繁體
∙
日本語
∙
Deutsch
∙
Español
∙
Português
Voice-Pro는 멀티미디어 콘텐츠 제작을 혁신하는 최첨단 웹 앱입니다. YouTube 비디오 다운로드, 음성 분리, 음성 인식, 번역, 텍스트-음성 변환(TTS)을 하나의 강력한 도구로 통합하여 창작자, 연구자, 다국어 전문가에게 이상적인 솔루션을 제공합니다.
- 🔊 최고 수준의 음성 인식: **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- 🎤 제로샷 음성 복제: **F5-TTS**, **E2-TTS**, **CosyVoice**
- 📢 다국어 텍스트-음성 변환: **Edge-TTS**, **kokoro**
- 🎥 YouTube 처리 및 오디오 추출: **yt-dlp**
- 🌍 100개 이상의 언어에 대한 즉시 번역: **Deep-Translator**
**ElevenLabs**의 강력한 대안으로, Voice-Pro는 팟캐스터, 개발자, 창작자들에게 고급 음성 솔루션을 제공합니다.
## ⚠️ 주의 사항
- [WeConnect](https://www.wctokyoseoul.com) 개발 작업으로 인해 Voice-Pro의 개발 및 업데이트는 당분간 불가능합니다.
- 우리는 Voice-Pro의 모든 코드를 공개하였고 완전 무료로 변경하였습니다. Voice-Pro는 이제 누구나 자유롭게 배포 및 변형이 가능합니다.
- NVIDIA GPU를 갖춘 Windows 환경에서 잘 작동합니다. Mac, Linux 에서의 동작은 확인하지 못했습니다.
- 요청사항은 [](https://github.com/abus-aikorea/voice-pro/issues) 혹은 [](https://github.com/abus-aikorea/voice-pro/discussions) 페이지에 남겨주세요.
- **문제 해결**: 대부분의 경우, `installer_files` 폴더를 삭제한 후 `configure.bat`를 실행하고 이어서 `start.bat`를 실행하면 문제가 해결됩니다.
## 📰 뉴스 및 히스토리
version 3.2
- 우리는 지난 몇달간 [WeConnect](https://www.wctokyoseoul.com) 개발에 집중하느라 Voice-Pro를 전혀 관리하지 못했습니다.
- 앞으로도 이같은 상황이 당분간 계속될 것 같기 때문에, Voice-Pro의 모든 코드를 공개하기로 결정하였습니다.
- [WeConnect](https://www.wctokyoseoul.com) 는 글로벌 문화 교류를 위한 애플리케이션입니다.
- 전 세계 각지의 사람들과 연결하여 의미 있는 문화 교류, 언어 학습, 국제적 우정을 쌓을 수 있도록 합니다.
version 3.1
- 🪄 **F5-TTS**의 미세 조정 모델 지원
- 🌍 지원 언어 (한국어는 없음 ㅠㅠㅠ)
-
English &
Chinese: SWivid/F5-TTS_v1
-
Finnish: AsmoKoskinen/F5-TTS_Finnish_Model
-
French: RASPIAUDIO/F5-French-MixedSpeakers-reduced
-
Hindi: SPRINGLab/F5-Hindi-24KHz
-
Italian: alien79/F5-TTS-italian
-
Japanese: Jmica/F5TTS/JA_21999120
-
Russian: hotstone228/F5-TTS-Russian
-
Spanish: jpgallegoar/F5-Spanish
버전 3.0
- 🔥 **AI Cover** 기능이 제거되었습니다.
- 🚀 **m-bain/whisperX** 지원이 추가되었습니다.
버전 2.0
- 🐍 Python 3.10.15, Torch 2.5.1+cu124, Gradio 5.14.0으로 제작되었습니다.
- 🆓 무료 체험은 최대 **60초** 길이의 미디어를 지원합니다.
- 🔥 **AI Cover** 기능이 추가되었습니다.
- 🎤 **CosyVoice** 및 **kokoro** 지원이 도입되었습니다.
- ⏳ 초기 실행 시 **CozyVoice2-0.5B (9GB)**를 다운로드하며, 네트워크 속도에 따라 1시간 이상 걸릴 수 있습니다.
- 🎧 음성 복제를 위한 음성 샘플은 지속적으로 업데이트됩니다.
- 📝 문장별 자연스러운 번역 및 TTS를 위해 **spaCy**가 추가되었습니다.
- ☁️ 구독 버전은 **Microsoft Azure** 번역기 및 TTS를 포함합니다.
- 🏪 구독 버전은 구독 기간 동안 **무제한 사용** (60초 제한 없음)을 제공하며, [](https://r17wvy-t2.myshopify.com)에서 구매할 수 있습니다.
## 🎥 YouTube Showcase
## ⭐ 주요 기능
### 1. 더빙 스튜디오
- YouTube 비디오 다운로드 및 오디오 추출
- **Demucs**를 사용한 음성 분리
- 음성 인식 및 번역을 위한 100개 이상의 언어 지원
### 2. 음성 기술
- **음성을 텍스트로:** **Whisper**, **Faster-Whisper**, **Whisper-Timestamped**, **WhisperX**
- **텍스트를 음성으로:**
- **Edge-TTS**: 100개 이상의 언어, 400개 이상의 음성
- **E2-TTS**, **F5-TTS**, **CosyVoice**: 제로샷 클로닝
- **kokoro**: HuggingFace TTS 아레나에서 2위
### 3. 실시간 번역
- 즉각적인 음성 인식
- 실시간 다국어 번역
- 사용자 정의 가능한 오디오 입력
## 🤖 웹UI
### `더빙 스튜디오` 탭
- 통합 허브: YouTube 다운로드, 소음 제거, 자막, 번역, TTS
- ffmpeg 호환 형식 모두 지원
- 출력 옵션: WAV, FLAC, MP3
- 100개 이상 언어에 대한 자막 및 인식
- 속도, 볼륨, 피치 조절 가능한 TTS

### `Whisper 자막` 탭
- 자막 전용: 90개 이상 언어
- 비디오와 통합된 자막 표시
- 단어 단위 하이라이트 및 소음 제거 옵션
### `번역` 탭
- 100개 이상 언어 번역
- 자막 파일 지원 (ASS, SSA, SRT 등)
- 실시간 음성 인식 및 번역

### `음성 생성` 탭
- 옵션: **Edge-TTS**, **F5-TTS**, **CosyVoice**, **kokoro**
- 유명인 목소리로 팟캐스트 및 다국어 지원

## 🎤✨ 참조 음성
- 추가하고 싶은 음성은 [Issues](https://github.com/abus-aikorea/voice-pro/issues/50) 페이지에서 요청해 주세요.
English
 Andrew Bustamante |
 Andrew Huberman |
 Avi Loeb |
 Ben Shapiro |
 Brett Johnson |
 Brian Keating |
 Coffeezilla |
 Dan Carlin |
 David Buss |
 David Fravor |
 David Kipping |
 Dennis Whyte |
 Donald Hoffman |
 Donald Trump |
 Douglas Murray |
 Duncan Trussell |
 Elon Musk |
 Garry Nolan |
 Jack Barsky |
 James Sexton |
 Jeff Bezos |
 Joe Rogan |
 John Mearsheimer |
 Jordan Peterson |
 Kanye 'Ye' West |
 Mark Zuckerberg |
 Michael Levin |
 Michael Saylor |
 Michio Kaku |
 MrBeast |
 Nick Lane |
 Paul Rosolie |
 Ryan Graves |
 Sam Altman |
 Sam Harris |
 Stephen Wolfram |
 Tucker Carlson |
 Vitalik Buterin |
 Yuval Harari |
|
|
|
Chinese
 迪丽热巴 (Dílì Rèbā) |
 蔡依林 (Cài Yīlín) |
 吴亦凡 (Wú Yìfán) |
 李易峰 (Lǐ Yìfēng) |
 杨幂 (Yáng Mì) |
 赵丽颖 (Zhào Lìyǐng) |
Korean
 BTS 진 (Jin) |
 BTS RM |
 IU (아이유) |
 이병헌 |
 이정재 |
 유재석 |
Japanese
 綾瀬はるか (Ayase Haruka) |
|
|
|
|
|
## 💻 시스템 요구사항
- **OS:** Windows 10/11 (64비트), Linux, Mac
- **GPU:** CUDA 12.4 지원 NVIDIA (권장)
- **VRAM:** 4GB 이상 (8GB 이상 권장)
- **RAM:** 4GB 이상
- **저장소:** 20GB 이상 여유 공간
- **인터넷:** 필수
## 📀 설치
**configure.bat** 및 **start.bat**으로 Voice-Pro를 쉽게 설치하세요. (Mac/Linux 에서는 configure.sh 및 start.sh)
### 1. 패키지 준비
- [](https://github.com/abus-aikorea/voice-pro/)에서 최신 릴리스 다운로드 (**Source code (zip)**)
```bash
git clone https://github.com/abus-aikorea/voice-pro.git
```
### 2. 설치 및 실행
1. 🚀 **configure.bat**
- git, ffmpeg, CUDA 설치 (NVIDIA GPU 사용 시)
- 최초 1회 실행; 인터넷 필요, 1시간 이상 소요 가능
- 명령 창 닫지 않기
2. 🚀 **start.bat**
- Voice-Pro 웹UI 실행
- 첫 실행 시 의존성 설치 (1시간 이상 소요 가능)
- 문제 발생 시 **installer_files** 삭제 후 재실행
### 3. 업데이트
- 🚀 **update.bat**: Python 환경 갱신 (재설치보다 빠름)
### 4. 제거
- **uninstall.bat** 실행 또는 폴더 삭제 (휴대용 설치)
## ❓사용팁
#### Browser가 자동으로 실행되지 않는 경우
- Windows-Commnad 창을 종료하고, start.bat 을 다시 실행하거나
- Browser를 직접 실행하고, Windows-Command 창에 표시된 주소(예, **http://127.0.0.1:7870** )를 주소창에 입력합니다.
#### CUDA Out-Of-Memory 오류가 발생하는 경우
- 윈도우 작업관리자 - 성능 탭에서 GPU 메모리 상태를 확인하세요.
- Denoise 레벨을 0 또는 1 로 설정하세요. Denoise 레벨 2 는 8GB 이상의 GPU 메모리를 필요로 합니다.
- Compute Type 을 int 타입으로 설정하세요. float 타입의 품질이 더 좋지만 더 많은 GPU 메모리를 요구합니다.
#### 자막의 품질을 높이려면?
- 자막의 품질은 더 큰 Whisper 모델을 사용할 수록 좋아지는 경향은 있지만, 꼭 그런것은 아닙니다. large > medium > small > base > tiny
- Compute Type 중에서는 float 타입의 성능이 좋습니다. int 타입은 모델 양자화를 통해 GPU사용량을 낮추고 속도를 높인 모델입니다. 반면, 성능은 떨어집니다.
- Denoise 레벨을 높이면 배경음을 더 많이 제거하고, 남아있는 보이스만 음성인식에 사용하게 됩니다. 항상 좋은 결과를 보장하지는 않습니다.
## 🚨 공지
- [WeConnect](https://www.wctokyoseoul.com) 개발 작업으로 인해 당분간 Voice-Pro의 업데이트는 없습니다.
- Voice-Pro의 모든 코드를 공개하였습니다. 완전 무료로 사용가능합니다.
- [WeConnect](https://www.wctokyoseoul.com)는 글로벌 문화 교류를 위한 커뮤니케이션 플랫폼입니다.
## ⏳ 자막 제작, 번역, TTS를 위한 SaaS 플랫폼
아래 표는 자막 제작, 번역, 텍스트-음성 변환(TTS/더빙) 기능을 지원하는 SaaS 플랫폼을 정리한 것입니다. 비용은 2025년 4월 15일 기준 최신 가격 데이터를 바탕으로, 60분 분량의 한국어 영상에 대해 자막 생성, 영어 번역, 영어 더빙 처리를 포함하여 계산되었습니다.
| 플랫폼 | 자막 제작 | 번역 | TTS/더빙 | 60분 영상 처리 비용 (USD, 약) | 주요 기능 |
| --- | --- | --- | --- | --- | --- |
| **[Maestra](https://maestra.ai)** | ✅ | ✅ | ✅ | $23.70 | 125+ 언어, 실시간 자막, SEO 키워드 추출, 15분 무료 체험. |
| **[Kapwing](https://www.kapwing.com)** | ✅ | ✅ | ✅ | $30\~$40 (Pro 플랜, 분당) | AI 자막, 100+ 언어 번역, 자동 립싱크 더빙, 무료 티어 제공. |
| **[VEED.IO](https://www.veed.io)** | ✅ | ✅ | ❌ | $24\~$36 (Pro 플랜, 부분 처리) | 99.9% 정확도 자막, 인스타그램 최적화 자막, 직관적인 편집기. |
| **[HappyScribe](https://happyscribe.com)** | ✅ | ✅ | ✅ | $36\~$48 (종량제) | 120+ 언어, 전문 교정 옵션, 보안, 회의 전사. |
| **[Sonix](https://sonix.ai)** | ✅ | ✅ | ✅ | $30\~$40 (Standard 플랜) | 54+ 언어, 30분 무료 전사, YouTube/Zoom 통합. |
| **[Descript](https://descript.com)** | ✅ | ✅ | ✅ | $36\~$48 (Creator 플랜) | 텍스트 기반 편집, Overdub TTS, 필러 단어 제거, 1시간 무료 전사. |
| **[AppTek](https://apptek.ai)** | ✅ | ✅ | ✅ | 맞춤 가격 (문의) | 미디어 특화, 맞춤 모델, 메타데이터 생성, 클라우드 기반 Workbench. |
| **[Transkriptor](https://transkriptor.com)** | ✅ | ✅ | ❌ | $12\~$18 (종량제) | 100+ 언어, YouTube 링크 전사, 99% 정확도, 간단한 편집기. |
### 비용 계산 상세
- **[Maestra](https://maestra.ai)**: Premium 플랜 ($158/월, 1200 크레딧). 60분 영상: 자막 60 크레딧 + 번역 60 크레딧 + 더빙 60 크레딧 = 180 크레딧. 비용 = (180/1200) \* $158 = $23.70.
- **[Kapwing](https://www.kapwing.com)**: Pro 플랜 (\~$24/월, 제한된 분량). 자막+번역+더빙 분당 $0.50\~$0.67 추정 (분당 가격 트렌드 기반). 60분 비용: $30\~$40. 정확한 가격은 확인 필요.
- **[VEED.IO](https://www.veed.io)**: Pro 플랜 (\~$24/월). 자막+번역 분당 $0.40\~$0.60 추정. TTS 없음, 부분 처리. 60분 비용: $24\~$36. veed.io에서 확인.
- **[HappyScribe](https://happyscribe.com)**: 종량제 (전사 분당 \~$0.20, 번역 $0.20, 더빙 $0.20). 60분 비용: $36\~$48 (결합 서비스 가정). happyscribe.com에서 확인.
- **[Sonix](https://sonix.ai)**: Standard 플랜 (전사 시간당 \~$10, 번역/더빙 추가). 총 분당 $0.50\~$0.67 추정. 60분 비용: $30\~$40. sonix.ai에서 확인.
- **[Descript](https://descript.com)**: Creator 플랜 (\~$24/월, 제한된 시간). 자막+번역+더빙 분당 $0.60\~$0.80 추정. 60분 비용: $36\~$48. descript.com에서 확인.
- **[AppTek](https://apptek.ai)**: 기업용 맞춤 가격. 공개 분당 요금 없음. apptek.ai로 문의.
- **[Transkriptor](https://transkriptor.com)**: 종량제 (전사 분당 $0.05\~$0.10, 번역 유사). TTS 없음, 부분 처리. 60분 비용: $12\~$18. transkriptor.com에서 확인.
### 참고
- **60분 영상 처리 비용**: 비용은 60분 한국어 영상의 자막, 영어 번역, 영어 더빙(가능한 경우)을 처리하는 것을 가정하며, 근사치입니다. TTS 미지원 플랫폼(예: VEED.IO, Transkriptor)은 부분 처리 비용을 반영.
- **언어 지원**: 대부분 플랫폼은 한국어와 영어를 지원. 특정 언어 지원 여부는 각 웹사이트에서 확인.
- **사용 사례**:
- 미디어/엔터테인먼트: AppTek, Maestra
- 소셜 미디어: Kapwing, VEED.IO
- 팟캐스트/인터뷰: Sonix, Descript
- E-러닝/글로벌 콘텐츠: Transkriptor, HappyScribe
- **가격 업데이트**: 플랜 변경이나 프로모션으로 가격이 변동될 수 있음. 최신 정보는 공식 웹사이트에서 확인.
- 기여나 특정 사용 사례 추천을 위해 이 저장소에서 이슈를 열거나 풀 리퀘스트를 제출하세요!
## ☕ 기여
안녕하세요, 저는 Voice-Pro 팀의 David입니다.
저희 팀은 업계 최고의 AI 기술을 발굴하여 누구나 쉽고 편리하게 사용할 수 있도록 제공하고 있습니다.
저희는 설립된 지 1년밖에 되지 않은 한국의 작은 스타트업입니다. 여러분과 다른 창작자들이 훌륭한 콘텐츠를 제작할 수 있도록 열심히 노력하고 있습니다.
여러분의 ⭐⭐⭐⭐⭐ 리뷰는 저희 비즈니스가 여러분과 함께 성장하는 데 큰 도움이 됩니다. 저희 작은 팀을 지원해 주시면 감사하겠습니다.
감사합니다,
ABUS 고객 서비스
- 이 프로젝트에 참여하고 저희를 돕고 싶으시다면, 언제든지 [Issues](https://github.com/abus-aikorea/voice-pro/issues)를 생성해주세요.
- 문제가 발생하면, 이 프로젝트를 개선하기 위해 [Pull requests](https://github.com/abus-aikorea/voice-pro/pulls)를 제출해주세요.
- 모든 유형의 기여를 환영합니다.
- 구매, 비즈니스 파트너십, 기술 튜닝, 투자 및 기타 관련 문의는 이메일()로 문의해주세요.
- 이 프로젝트가 마음에 드시면, 이 저장소에 별표를 눌러주세요. 저희에게 매우 큰 도움이 될 것입니다. ⭐⭐⭐
- 기부를 통해 Voice-Pro를 후원할 수 있습니다.
## 📬 연락처
- Email:
- Homepage (Korean):
## 🙏 Credits
* Demucs:
* yt-dlp:
* gradio:
* edge-TTS:
* F5-TTS:
* openai-whisper:
* faster-whisper:
* whisper-timestamped:
* whisperX:
* CosyVoice:
* kokoro:
* Deep-Translator:
* spaCy:
## ©️ 저작권 정보
by [ABUS](https://www.wctokyoseoul.com)