3초짜리 내 목소리 녹음만 있으면, 그 목소리로 소설 전체를 읽어주는 오디오북을 만들 수 있다. 클라우드 API 키도 필요 없다. 맥에서 그냥 돌아간다.

MimikaStudio는 Apple Silicon(M1~M4)에서 로컬로 돌아가는 음성 복제·TTS 앱이다. MLX 기반이라 MCP 서버로도 쓸 수 있고, PDF를 읽어주는 리드 알라우드 기능, 오디오북 생성까지 한 앱에 다 들어있다.

flowchart LR
    A["3초 음성 샘플"] --> B["MimikaStudio"]
    B --> C["Qwen3-TTS / Chatterbox"]
    C --> D["목소리 복제 완료"]
    D --> E["TTS / 오디오북 / 리드알라우드"]
    B --> F["MCP 서버 모드"]
    F --> G["AI 에이전트 연동"]

어떤 일을 할 수 있나

크게 세 가지다.

음성 복제(Voice Cloning): 3초~몇 초의 참고 음성만 있으면 그 사람 목소리 톤을 그대로 복제한다. Qwen3-TTS 엔진은 10개 언어(한국어 포함)로 클론할 수 있고, Chatterbox는 23개 언어를 지원한다. 영어 목소리를 한국어로 말하게 하는 크로스랭귀지 클론도 가능하다.

TTS(텍스트 음성 변환): Kokoro(82M, 빠른 영어 TTS)와 Supertonic(5개 언어, 한국어 포함) 두 엔진이 있다. 프리셋 보이스를 곧바로 쓸 수도 있고, 복제한 목소리로 읽히게 할 수도 있다.

오디오북 & 리드 알라우드: PDF, DOCX, EPUB, 마크다운 파일을 문장 단위로 하이라이트하며 읽어준다. 챕터별로 큐에 넣어 오디오북을 통째로 뽑아낼 수도 있다. Qwen3-TTS로 43분짜리 셜록 홈즈 오디오북을 만든 데모도 GitHub에 공개되어 있다.

지원 모델 한눈에 보기

모델파라미터용도언어
Kokoro-82M82M빠른 TTS영어(영국/미국)
Qwen3-TTS 0.6B600M음성 복제10개 언어(한국어 포함)
Qwen3-TTS 1.7B1.7B음성 복제(고품질)10개 언어
Qwen3-TTS CustomVoice0.6B / 1.7B프리셋 보이스4개 언어(한국어 포함)
Chatterbox Multilingual감정 표현 클론23개 언어
Supertonic-2다국어 TTS(ONNX)5개 언어(한국어 포함)

한국어를 쓸 때는 Qwen3-TTS(복제)나 Supertonic(일반 TTS)을 선택하면 된다. 8-bit 양자화 모델도 제공해서 메모리가 부족한 환경에서도 돌릴 수 있다.

📋 핵심 치트시트

  • 음성 복제 → Qwen3-TTS (한국어 지원, 3초 샘플로 가능)
  • 빠른 영어 TTS → Kokoro-82M (가볍고 빠름)
  • 감정 표현 → Chatterbox (표정·감정 컨트롤)
  • 오디오북 → 챕터 큐 → 한 번에 생성
  • MCP 연동 → AI 에이전트에서 음성 바로 호출

설치하고 5분 안에 써보기

1단계: 다운로드

GitHub Releases에서 최신 macOS 바이너리를 받는다. v2026.04.1 기준 Apple Silicon 전용이다.

https://github.com/BoltzmannEntropy/MimikaStudio/releases

2단계: 첫 실행

앱을 열면 필요한 MLX 모델을 자동으로 내려받는다. 첫 실행이라면 모델 다운로드에 몇 분 걸린다. 이후부터는 로컬에서 바로 돌아간다.

3단계: 음성 복제 해보기

  1. “Voice Clone” 탭을 연다
  2. 참고 음성 파일을 드래그앤드롭한다 (3초 이상, WAV 권장)
  3. Qwen3-TTS 또는 Chatterbox 엔진을 선택한다
  4. 텍스트를 입력하고 “Generate”를 누른다

끝이다. 복제된 목소리로 텍스트를 읽어준다.

4단계: 오디오북 만들기 (선택)

  1. PDF나 EPUB 파일을 불러온다
  2. 음성 프리셋이나 복제한 보이스를 선택한다
  3. 챕터별로 큐에 추가하고 “Generate Audiobook”을 누른다

MCP 서버로 AI 에이전트와 연결하기

MimikaStudio는 MCP(Model Context Protocol) 서버 모드를 지원한다. Claude Desktop이나 Cursor 같은 AI 에이전트에서 직접 음성 복제·TTS를 호출할 수 있다.

설정 → MCP에서 서버를 켜면, 에이전트가 REST API로 TTS·클론·오디오북 작업을 큐에 넣을 수 있다. 백그라운드 잡 큐 오케스트레이션이 내장되어 있어서 여러 작업을 동시에 돌려도 충돌하지 않는다.

어디에 쓰면 좋을까

  • 유튜브 내레이션: 내 목소리를 녹음할 필요 없이 텍스트로 더빙
  • 오디오북 제작: 소설·논픽션을 오디오북으로 변환
  • 프레젠테이션 더빙: PDF 보고서를 음성으로 변환
  • 접근성: 시각 장애인용 문서 읽어주기
  • AI 에이전트 음성 출력: MCP 연동으로 챗봇에 음성 부여

알아둘 점

  • macOS 전용 (Apple Silicon). Windows 지원은 로드맵에 있지만 현재 미지원
  • BSL-1.1 라이선스: 소스코드는 공개되어 있지만 상업적 사용에 제한이 있을 수 있다. 개인 사용은 무료
  • 온디바이스 처리: 음성 데이터가 외부로 전송되지 않는다. 프라이버시가 중요한 작업에 적합
  • 메모리: Qwen3-TTS 1.7B 모델은 M1 8GB에서도 돌아가지만, 16GB 이상을 권장

관련 링크