3초짜리 내 목소리 녹음만 있으면, 그 목소리로 소설 전체를 읽어주는 오디오북을 만들 수 있다. 클라우드 API 키도 필요 없다. 맥에서 그냥 돌아간다.
MimikaStudio는 Apple Silicon(M1~M4)에서 로컬로 돌아가는 음성 복제·TTS 앱이다. MLX 기반이라 MCP 서버로도 쓸 수 있고, PDF를 읽어주는 리드 알라우드 기능, 오디오북 생성까지 한 앱에 다 들어있다.
flowchart LR A["3초 음성 샘플"] --> B["MimikaStudio"] B --> C["Qwen3-TTS / Chatterbox"] C --> D["목소리 복제 완료"] D --> E["TTS / 오디오북 / 리드알라우드"] B --> F["MCP 서버 모드"] F --> G["AI 에이전트 연동"]
어떤 일을 할 수 있나
크게 세 가지다.
음성 복제(Voice Cloning): 3초~몇 초의 참고 음성만 있으면 그 사람 목소리 톤을 그대로 복제한다. Qwen3-TTS 엔진은 10개 언어(한국어 포함)로 클론할 수 있고, Chatterbox는 23개 언어를 지원한다. 영어 목소리를 한국어로 말하게 하는 크로스랭귀지 클론도 가능하다.
TTS(텍스트 음성 변환): Kokoro(82M, 빠른 영어 TTS)와 Supertonic(5개 언어, 한국어 포함) 두 엔진이 있다. 프리셋 보이스를 곧바로 쓸 수도 있고, 복제한 목소리로 읽히게 할 수도 있다.
오디오북 & 리드 알라우드: PDF, DOCX, EPUB, 마크다운 파일을 문장 단위로 하이라이트하며 읽어준다. 챕터별로 큐에 넣어 오디오북을 통째로 뽑아낼 수도 있다. Qwen3-TTS로 43분짜리 셜록 홈즈 오디오북을 만든 데모도 GitHub에 공개되어 있다.
지원 모델 한눈에 보기
| 모델 | 파라미터 | 용도 | 언어 |
|---|---|---|---|
| Kokoro-82M | 82M | 빠른 TTS | 영어(영국/미국) |
| Qwen3-TTS 0.6B | 600M | 음성 복제 | 10개 언어(한국어 포함) |
| Qwen3-TTS 1.7B | 1.7B | 음성 복제(고품질) | 10개 언어 |
| Qwen3-TTS CustomVoice | 0.6B / 1.7B | 프리셋 보이스 | 4개 언어(한국어 포함) |
| Chatterbox Multilingual | — | 감정 표현 클론 | 23개 언어 |
| Supertonic-2 | — | 다국어 TTS(ONNX) | 5개 언어(한국어 포함) |
한국어를 쓸 때는 Qwen3-TTS(복제)나 Supertonic(일반 TTS)을 선택하면 된다. 8-bit 양자화 모델도 제공해서 메모리가 부족한 환경에서도 돌릴 수 있다.
📋 핵심 치트시트
- 음성 복제 → Qwen3-TTS (한국어 지원, 3초 샘플로 가능)
- 빠른 영어 TTS → Kokoro-82M (가볍고 빠름)
- 감정 표현 → Chatterbox (표정·감정 컨트롤)
- 오디오북 → 챕터 큐 → 한 번에 생성
- MCP 연동 → AI 에이전트에서 음성 바로 호출
설치하고 5분 안에 써보기
1단계: 다운로드
GitHub Releases에서 최신 macOS 바이너리를 받는다. v2026.04.1 기준 Apple Silicon 전용이다.
https://github.com/BoltzmannEntropy/MimikaStudio/releases
2단계: 첫 실행
앱을 열면 필요한 MLX 모델을 자동으로 내려받는다. 첫 실행이라면 모델 다운로드에 몇 분 걸린다. 이후부터는 로컬에서 바로 돌아간다.
3단계: 음성 복제 해보기
- “Voice Clone” 탭을 연다
- 참고 음성 파일을 드래그앤드롭한다 (3초 이상, WAV 권장)
- Qwen3-TTS 또는 Chatterbox 엔진을 선택한다
- 텍스트를 입력하고 “Generate”를 누른다
끝이다. 복제된 목소리로 텍스트를 읽어준다.
4단계: 오디오북 만들기 (선택)
- PDF나 EPUB 파일을 불러온다
- 음성 프리셋이나 복제한 보이스를 선택한다
- 챕터별로 큐에 추가하고 “Generate Audiobook”을 누른다
MCP 서버로 AI 에이전트와 연결하기
MimikaStudio는 MCP(Model Context Protocol) 서버 모드를 지원한다. Claude Desktop이나 Cursor 같은 AI 에이전트에서 직접 음성 복제·TTS를 호출할 수 있다.
설정 → MCP에서 서버를 켜면, 에이전트가 REST API로 TTS·클론·오디오북 작업을 큐에 넣을 수 있다. 백그라운드 잡 큐 오케스트레이션이 내장되어 있어서 여러 작업을 동시에 돌려도 충돌하지 않는다.
어디에 쓰면 좋을까
- 유튜브 내레이션: 내 목소리를 녹음할 필요 없이 텍스트로 더빙
- 오디오북 제작: 소설·논픽션을 오디오북으로 변환
- 프레젠테이션 더빙: PDF 보고서를 음성으로 변환
- 접근성: 시각 장애인용 문서 읽어주기
- AI 에이전트 음성 출력: MCP 연동으로 챗봇에 음성 부여
알아둘 점
- macOS 전용 (Apple Silicon). Windows 지원은 로드맵에 있지만 현재 미지원
- BSL-1.1 라이선스: 소스코드는 공개되어 있지만 상업적 사용에 제한이 있을 수 있다. 개인 사용은 무료
- 온디바이스 처리: 음성 데이터가 외부로 전송되지 않는다. 프라이버시가 중요한 작업에 적합
- 메모리: Qwen3-TTS 1.7B 모델은 M1 8GB에서도 돌아가지만, 16GB 이상을 권장