Chatterbox TTS — 오픈소스 최고 수준의 감정 제어 음성 합성 모델

화니. 2025. 6. 12. 09:32

2025. 6. 12. 09:32

Chatterbox TTS는 Resemble AI가 개발한 오픈소스 음성 합성(TTS: Text-To-Speech) 모델입니다. MIT 라이선스 하에 공개되어 누구나 자유롭게 사용할 수 있으며, 상용 서비스 못지않은 높은 품질을 제공합니다. 특히 ElevenLabs 등 기존 상용 시스템과의 벤치마크에서도 경쟁력을 입증했습니다.

이 모델의 가장 큰 특징은 감정 과장 제어(emotion exaggeration control) 기능입니다. 이를 통해 목소리의 감정을 더 극적으로 조절할 수 있어, 밈 제작, 게임, 영상, AI 에이전트 등 다양한 콘텐츠 제작에 적합합니다.

주요 특징:

최첨단 Zero-shot TTS 지원
LLaMA 기반 5억 파라미터 모델
감정 과장/강도 제어 기능
정렬 정보 기반 안정적 추론 (ultra-stable inference)
50만 시간의 정제된 음성 데이터로 학습
워터마크 삽입 기능으로 책임 있는 AI 구현
간편한 음성 변환 스크립트 제공

https://github.com/resemble-ai/chatterbox

GitHub - resemble-ai/chatterbox: SoTA open-source TTS

SoTA open-source TTS. Contribute to resemble-ai/chatterbox development by creating an account on GitHub.

github.com

'IT 소식 > AI' 카테고리의 다른 글

스마트폰에서 직접 AI 구동하기: ‘Cactus’ 프레임워크 소개 (0)	2025.07.11
AgenticSeek – 완전한 로컬 AI 비서, 클라우드 없이 자율적으로 작업 수행 (2)	2025.06.02
스탠포드 MAST의 오픈소스 프로젝트, BLAST로 웹 브라우징 AI 효율적으로 서빙하기 (0)	2025.05.12

화니의 세상