음성 대화 — Naia 사용법

Naia에서 음성 대화를 사용하는 방법은 두 가지입니다.

두 가지 방식

하나의 AI 모델이 음성을 직접 듣고, 음성으로 바로 응답합니다. 중간 변환 없이 톤과 감정까지 이해하므로 자연스럽고 빠릅니다.

음성 인식(STT), 텍스트 AI(LLM), 음성 합성(TTS)을 각각 다른 제공업체로 조합합니다. 제공업체를 자유롭게 선택할 수 있고, 완전 무료 구성도 가능합니다.

설정 > AI에서 모델 목록에 🗣️ 아이콘이 표시된 모델을 선택하면 옴니 모드가 활성화됩니다.

제공업체	모델	API 키	비용
Naia Cloud	Gemini 3.1 Flash Live 🗣️	불필요 (크레딧)	크레딧 차감
Gemini (직접)	Gemini 2.5 Flash Live 🗣️	Google API 키	~$0.03/분

음성 8종: Kore(여성, 기본), Puck(남성), Charon(남성), Aoede(여성), Fenrir(남성), Leda(여성), Orus(남성), Zephyr(중성)

제공업체	모델	API 키	비용
OpenAI	GPT-4o Realtime 🗣️	OpenAI API 키	~$0.10/분

음성 10종: Alloy(중성), Ash(남성), Ballad(남성), Coral(여성), Echo(남성), Sage(여성), Shimmer(여성), Verse(남성), Marin(추천), Cedar(추천)

vllm-omni 서버를 통해 완전히 로컬에서 옴니 음성 대화를 실행합니다. 현재 로컬에서 실용적으로 사용 가능한 사실상 유일한 옴니 모델입니다.

설정 > AI에서 제공업체를 vLLM으로 선택하면 서버의 모델 목록을 자동으로 가져오며, 모델 이름에 "minicpm-o"가 포함되면 🗣️로 자동 인식됩니다.

요구 사양: BF16 기준 약 35GB VRAM. A40(46GB) 이상 또는 48GB GPU 권장.

서버 실행:

vllm serve openbmb/MiniCPM-o-4_5 \
  --omni --port 8091 --host 0.0.0.0 \
  --max-model-len 2048 --skip-mm-profiling

Naia 설정에서 vLLM 서버 주소를 입력합니다 (예: http://localhost:8091).

로컬에 GPU가 없는 경우 RunPod 등 클라우드 GPU에서 실행할 수 있습니다. RunPod 가이드를 참조하세요.

현재 영어와 중국어의 음성 입출력을 지원합니다.

향후 계획: 오디오 레퍼런스 음성 복제 및 파인튜닝 파이프라인을 지원할 예정입니다.

옴니 모델 없이도 STT와 TTS를 개별 설정하여 음성 대화를 구성할 수 있습니다.

설정 > 음성에서 선택합니다:

제공업체	오프라인	API 키	비용
Web Speech API	아니오	불필요	무료
Vosk	예	불필요	무료
Whisper	예	불필요	무료
Naia Cloud	아니오	불필요 (로그인)	크레딧
vLLM ASR	예 (로컬)	불필요	무료

설정 > 음성에서 선택합니다:

제공업체	오프라인	API 키	비용
Naia Cloud TTS	아니오	불필요 (로그인)	크레딧
Edge TTS	아니오	불필요	무료
Google Cloud TTS	아니오	필요	$0.016/1K자
OpenAI TTS	아니오	필요	$0.015/1K자
ElevenLabs	아니오	필요	$0.30/1K자
vLLM TTS	예 (로컬)	불필요	무료
커스텀	상황에 따라	상황에 따라	상황에 따라

미리듣기 버튼으로 선택한 음성을 테스트할 수 있습니다.