Naia
목차
  1. 1동영상 매뉴얼
  2. 2Naia OS 라이브 USB
  3. 3설치
  4. 3.1Naia OS 설치 (ISO)
  5. 3.2리눅스 앱 설치
  6. 4시작하기
  7. 5메인 화면
  8. 6채팅
  9. 7대화 기록
  10. 8작업 현황
  11. 9스킬 관리
  12. 10채널 연동
  13. 11에이전트
  14. 12시스템 진단
  15. 13워크스페이스
  16. 14브라우저
  17. 15패널 관리
  18. 16음성 대화
  19. 17설정
  20. 18도구 상세
  21. 19Naia 계정
  22. 20문제 해결
  23. 21오픈소스 활용 및 기여

16. 음성 대화

Naia에서 음성 대화를 사용하는 방법은 두 가지입니다.

두 가지 방식

옴니 모드

하나의 AI 모델이 음성을 직접 듣고, 음성으로 바로 응답합니다. 중간 변환 없이 톤과 감정까지 이해하므로 자연스럽고 빠릅니다.

STT → LLM → TTS 파이프라인

음성 인식(STT), 텍스트 AI(LLM), 음성 합성(TTS)을 각각 다른 제공업체로 조합합니다. 제공업체를 자유롭게 선택할 수 있고, 완전 무료 구성도 가능합니다.


옴니 모드

설정 > AI에서 모델 목록에 🗣️ 아이콘이 표시된 모델을 선택하면 옴니 모드가 활성화됩니다.

Gemini Flash Live (클라우드)

제공업체모델API 키비용
Naia CloudGemini 3.1 Flash Live 🗣️불필요 (크레딧)크레딧 차감
Gemini (직접)Gemini 2.5 Flash Live 🗣️Google API 키~$0.03/분

음성 8종: Kore(여성, 기본), Puck(남성), Charon(남성), Aoede(여성), Fenrir(남성), Leda(여성), Orus(남성), Zephyr(중성)

GPT-4o Realtime (클라우드)

제공업체모델API 키비용
OpenAIGPT-4o Realtime 🗣️OpenAI API 키~$0.10/분

음성 10종: Alloy(중성), Ash(남성), Ballad(남성), Coral(여성), Echo(남성), Sage(여성), Shimmer(여성), Verse(남성), Marin(추천), Cedar(추천)

MiniCPM-o 4.5 (로컬)

vllm-omni 서버를 통해 완전히 로컬에서 옴니 음성 대화를 실행합니다. 현재 로컬에서 실용적으로 사용 가능한 사실상 유일한 옴니 모델입니다.

설정 > AI에서 제공업체를 vLLM으로 선택하면 서버의 모델 목록을 자동으로 가져오며, 모델 이름에 "minicpm-o"가 포함되면 🗣️로 자동 인식됩니다.

요구 사양: BF16 기준 약 35GB VRAM. A40(46GB) 이상 또는 48GB GPU 권장.

서버 실행:

vllm serve openbmb/MiniCPM-o-4_5 \
  --omni --port 8091 --host 0.0.0.0 \
  --max-model-len 2048 --skip-mm-profiling

Naia 설정에서 vLLM 서버 주소를 입력합니다 (예: http://localhost:8091).

로컬에 GPU가 없는 경우 RunPod 등 클라우드 GPU에서 실행할 수 있습니다. RunPod 가이드를 참조하세요.

현재 영어와 중국어의 음성 입출력을 지원합니다.

향후 계획: 오디오 레퍼런스 음성 복제 및 파인튜닝 파이프라인을 지원할 예정입니다.


STT → LLM → TTS 파이프라인

옴니 모델 없이도 STT와 TTS를 개별 설정하여 음성 대화를 구성할 수 있습니다.

STT (음성 인식)

설정 > 음성에서 선택합니다:

제공업체오프라인API 키비용
Web Speech API아니오불필요무료
Vosk불필요무료
Whisper불필요무료
Naia Cloud아니오불필요 (로그인)크레딧
vLLM ASR예 (로컬)불필요무료

TTS (음성 합성)

설정 > 음성에서 선택합니다:

제공업체오프라인API 키비용
브라우저 TTS불필요무료
Edge TTS아니오불필요무료
Naia Cloud TTS아니오불필요 (로그인)크레딧
Google Cloud TTS아니오필요$0.016/1K자
OpenAI TTS아니오필요$0.015/1K자
ElevenLabs아니오필요$0.30/1K자
vLLM TTS예 (로컬)불필요무료

미리듣기 버튼으로 선택한 음성을 테스트할 수 있습니다.

조합 예시

환경STTLLMTTS비용
완전 무료VoskOllama (로컬)브라우저 TTS무료
가성비Web SpeechGemini 2.5 FlashEdge TTS~$0.3/1M 토큰
고품질WhisperClaude SonnetElevenLabsAPI 비용
Naia CloudNaia Cloud STTNaia Cloud LLMNaia Cloud TTS크레딧만
완전 로컬 (GPU)vLLM ASRvLLMvLLM TTS무료