Naia에서 음성 대화를 사용하는 방법은 두 가지입니다.
두 가지 방식
옴니 모드
하나의 AI 모델이 음성을 직접 듣고, 음성으로 바로 응답합니다. 중간 변환 없이 톤과 감정까지 이해하므로 자연스럽고 빠릅니다.
STT → LLM → TTS 파이프라인
음성 인식(STT), 텍스트 AI(LLM), 음성 합성(TTS)을 각각 다른 제공업체로 조합합니다. 제공업체를 자유롭게 선택할 수 있고, 완전 무료 구성도 가능합니다.
옴니 모드
설정 > AI에서 모델 목록에 🗣️ 아이콘이 표시된 모델을 선택하면 옴니 모드가 활성화됩니다.
Gemini Flash Live (클라우드)
| 제공업체 | 모델 | API 키 | 비용 |
|---|---|---|---|
| Naia Cloud | Gemini 3.1 Flash Live 🗣️ | 불필요 (크레딧) | 크레딧 차감 |
| Gemini (직접) | Gemini 2.5 Flash Live 🗣️ | Google API 키 | ~$0.03/분 |
음성 8종: Kore(여성, 기본), Puck(남성), Charon(남성), Aoede(여성), Fenrir(남성), Leda(여성), Orus(남성), Zephyr(중성)
GPT-4o Realtime (클라우드)
| 제공업체 | 모델 | API 키 | 비용 |
|---|---|---|---|
| OpenAI | GPT-4o Realtime 🗣️ | OpenAI API 키 | ~$0.10/분 |
음성 10종: Alloy(중성), Ash(남성), Ballad(남성), Coral(여성), Echo(남성), Sage(여성), Shimmer(여성), Verse(남성), Marin(추천), Cedar(추천)
MiniCPM-o 4.5 (로컬)
vllm-omni 서버를 통해 완전히 로컬에서 옴니 음성 대화를 실행합니다. 현재 로컬에서 실용적으로 사용 가능한 사실상 유일한 옴니 모델입니다.
설정 > AI에서 제공업체를 vLLM으로 선택하면 서버의 모델 목록을 자동으로 가져오며, 모델 이름에 "minicpm-o"가 포함되면 🗣️로 자동 인식됩니다.
요구 사양: BF16 기준 약 35GB VRAM. A40(46GB) 이상 또는 48GB GPU 권장.
서버 실행:
vllm serve openbmb/MiniCPM-o-4_5 \
--omni --port 8091 --host 0.0.0.0 \
--max-model-len 2048 --skip-mm-profiling
Naia 설정에서 vLLM 서버 주소를 입력합니다 (예: http://localhost:8091).
로컬에 GPU가 없는 경우 RunPod 등 클라우드 GPU에서 실행할 수 있습니다. RunPod 가이드를 참조하세요.
현재 영어와 중국어의 음성 입출력을 지원합니다.
향후 계획: 오디오 레퍼런스 음성 복제 및 파인튜닝 파이프라인을 지원할 예정입니다.
STT → LLM → TTS 파이프라인
옴니 모델 없이도 STT와 TTS를 개별 설정하여 음성 대화를 구성할 수 있습니다.
STT (음성 인식)
설정 > 음성에서 선택합니다:
| 제공업체 | 오프라인 | API 키 | 비용 |
|---|---|---|---|
| Web Speech API | 아니오 | 불필요 | 무료 |
| Vosk | 예 | 불필요 | 무료 |
| Whisper | 예 | 불필요 | 무료 |
| Naia Cloud | 아니오 | 불필요 (로그인) | 크레딧 |
| vLLM ASR | 예 (로컬) | 불필요 | 무료 |
TTS (음성 합성)
설정 > 음성에서 선택합니다:
| 제공업체 | 오프라인 | API 키 | 비용 |
|---|---|---|---|
| 브라우저 TTS | 예 | 불필요 | 무료 |
| Edge TTS | 아니오 | 불필요 | 무료 |
| Naia Cloud TTS | 아니오 | 불필요 (로그인) | 크레딧 |
| Google Cloud TTS | 아니오 | 필요 | $0.016/1K자 |
| OpenAI TTS | 아니오 | 필요 | $0.015/1K자 |
| ElevenLabs | 아니오 | 필요 | $0.30/1K자 |
| vLLM TTS | 예 (로컬) | 불필요 | 무료 |
미리듣기 버튼으로 선택한 음성을 테스트할 수 있습니다.
조합 예시
| 환경 | STT | LLM | TTS | 비용 |
|---|---|---|---|---|
| 완전 무료 | Vosk | Ollama (로컬) | 브라우저 TTS | 무료 |
| 가성비 | Web Speech | Gemini 2.5 Flash | Edge TTS | ~$0.3/1M 토큰 |
| 고품질 | Whisper | Claude Sonnet | ElevenLabs | API 비용 |
| Naia Cloud | Naia Cloud STT | Naia Cloud LLM | Naia Cloud TTS | 크레딧만 |
| 완전 로컬 (GPU) | vLLM ASR | vLLM | vLLM TTS | 무료 |