Naia
목차
  1. 1동영상 매뉴얼
  2. 2Naia OS 라이브 USB
  3. 3설치
  4. 3.1Naia OS 설치 (ISO)
  5. 3.2리눅스 앱 설치
  6. 4시작하기
  7. 4.1Naia 모델 가격 정책
  8. 4.2Naia-0.9-omni-24g 실시간 멀티모달 모듈
  9. 4.3라이브 데모
  10. 4.4Naia 모델 다운로드
  11. 4.5Naia 모델 상세 이용 (개발)
  12. 4.6Naia 모델 온라인 이용안내 (예정)
  13. 5메인 화면
  14. 6채팅
  15. 7대화 기록
  16. 8작업 현황
  17. 9스킬 관리
  18. 10채널 연동
  19. 11에이전트
  20. 12시스템 진단
  21. 13워크스페이스
  22. 14브라우저
  23. 15패널 관리
  24. 16음성 대화
  25. 17설정
  26. 18도구 상세
  27. 19Naia 계정
  28. 20문제 해결
  29. 21오픈소스 활용 및 기여

4.2. Naia-0.9-omni-24g 실시간 멀티모달 모듈

naia-0.9-omni-24g는 옴니 모델(model)과 동일한 인터페이스로 사용 가능하지만, 사실 엄밀한 옴니 모델은 아닙니다. naia에서 여러 모델을 엮어 만든 조립식(cascade) 모듈로서 실시간 멀티모달 "뇌(brain)" 를 지향합니다. 현재는 사용자의 음성을 실시간으로 듣고 음성으로 바로 답하는 것을 시작으로, 버전이 올라갈수록 보고·기억하고 더 풍부하게 사고하는 방향으로 확장됩니다.

무엇을 지향하나요

naia가 "듣고 말하는" 것을 넘어 "보고, 기억하고, 맥락을 이해하는" 실시간 인지 모듈로 성장하는 것을 목표로 합니다.

  • 지금: 실시간 음성 대화 — 듣기 → 사고 → 말하기
  • 앞으로: 이미지 입력(현재 LLM이 이미지를 지원하므로 비교적 빠르게 더해질 수 있습니다), 장기기억(naia-memory) 연동, 검색 증강(naia-agent RAG) 같은 다양한 인지 능력을 더해 갈 예정입니다. (어떤 것을 어떤 순서로 더할지는 정해져 있지 않습니다.)
  • 지향점: 비전·기억 등 여러 인지 능력을 한데 묶은 naia의 실시간 멀티모달 인지 모듈

naia-0.9-omni-24g라는 이름은 현재의 음성 한 가지가 아니라, 이 모든 인지 능력을 담아 갈 하나의 실시간 멀티모달 창구를 가리킵니다.

omni 모델처럼, 하지만 실제로는 cascade

naia-0.9-omni-24g는 omni(통합 멀티모달) 모델과 같은 자리에서, 같은 방식으로 제공됩니다. 클라이언트 입장에선 omni 모델 하나를 호출하는 것과 똑같습니다. 하지만 내부 구현은 단일 모델이 아니라 cascade입니다.

cascade란

cascade 는 하나의 거대한 모델로 모든 것을 처리하는 대신, 각 역할을 맡은 검증된 부품을 순서대로 연결(직렬) 해 전체 기능을 만드는 방식입니다. naia-0.9-omni-24g는 음성 인식(STT) → 언어 모델(LLM) → 음성 합성(TTS)을 잇고, 그 사이에 음성 감지(VAD)·감정 처리 등을 더합니다.

각 단계는 독립적이라 여러 모델을 함께 사용할 수 있습니다. 단계마다 가장 적합한 모델을 골라 끼우는 것 자체가 하나의 조율(orchestration) 이 됩니다 — 즉 cascade는 단순한 연결이 아니라, 여러 모델을 엮어 더 나은 결과를 만드는 조립·조율 체계입니다.

음성 입력 → 음성 인식(STT) → 언어 모델(LLM) → 음성 합성(TTS) → 음성 출력

단일 omni 모델 vs cascade

단일 omni 모델cascade (naia 방식)
구성하나로 통합된 모델역할별 부품을 조립
능력 변경한 번 훈련되면 고정 — 새 능력은 재학습 필요언제든 부품 교체·추가 — 재학습 없이 개선
속도통합되어 빠름(낮은 지연)단계가 있어 지연이 조금 더 생길 수 있음
멀티모달 확장처음부터 다시 학습입력·출력에 부품을 끼워 넣기
부품 선택통째로 묶임검증된 부품을 골라 사용·교체
모델 활용한 모델에 고정여러 모델을 함께 — 단계마다 최적 모델, 그 자체로 조율

→ naia는 빠르고 안전하게 능력을 더해 가기 위해 cascade를 택했습니다. omni 모델 같은 매끄러운 경험은 단일 표준 창구로 제공하고, 내부는 유연한 조립식으로 키웁니다.

그 밖의 특징

  • 끼어들기(barge-in): AI가 말하는 도중에도 끊고 새로 말할 수 있습니다. 라이브 omni 모델의 자연스러운 끼어들기 경험을 cascade로 그대로 재현했습니다.
  • 24GB GPU 1장(RTX 3090 / 4090 / A5000) 기준 tier입니다. 모델명 끝의 -24g 가 이 tier를 뜻합니다 — 처음부터 개인 PC의 GPU 한 장에서 돌아가는 것을 목표로 설계했습니다. (클라우드는 이 구성을 그대로 빌려 쓰는 것일 뿐입니다.)
  • 외부에는 하나의 단일 창구로 노출됩니다 — 클라이언트는 백엔드(로컬 PC GPU인지 클라우드 GPU인지)를 알 필요가 없습니다. 이미지·영상·기억으로 확장되어도 이 단일 창구는 그대로 유지됩니다.

왜 이 구조가 "실시간 멀티모달 뇌"로 자라나

  • 실시간 양방향: 연결이 유지된 채 데이터가 양쪽으로 끊김 없이 흐릅니다. 입력은 도착하는 즉시 처리되고, 응답은 생성되는 즉시 스트리밍됩니다. 한 번 묻고 한 번 답하는 방식이 아니라, 대화가 살아 있는 동안 실시간으로 무엇이든 주고받는 구조입니다.
  • cascade(조립식) 구조: 입력단(인식) · 사고단(LLM) · 출력단(표현)이 분리돼 있어, 입력에 이미지·영상 인코더를, 출력에 새로운 표현을 끼워 넣기만 하면 됩니다. 그래서 실시간으로 무엇이든 받아들이고, 무엇이든 답할 수 있는 형태로 자랍니다.
  • 통짜 모델을 처음부터 다시 학습시키는 대신, 검증된 부품을 갈아 끼우며 빠르고 안전하게 능력을 더합니다 — 이것이 naia의 실시간 멀티모달 뇌를 키우는 방식입니다.

이용 안내

naia-0.9-omni-24g는 처음부터 GPU 한 장(24GB)에서 단독으로 도는 것을 목표로 설계됐습니다. 이용 방식·가격은 아래 전용 페이지에서 안내합니다.

가장 쉽게 쓰는 법 — 라이브 데모

로그인하면 제공 크레딧으로 1분간 브라우저에서 naia-0.9-omni-24g의 음성 품질을 체험하는 웹 데모입니다(서비스 이용이 아닌 품질 체험용). 마이크·스피커 상태 확인, 페르소나 변경, 레퍼런스 음성(URL) 변경, 텍스트 입력을 지원합니다.

👉 라이브 데모 열기

naia-os에서 쓰는 법

설정 > AI에서 모델 목록의 naia-0.9-omni-24g 를 선택하면 음성 대화가 활성화됩니다. 별도 API 키 입력 없이 Naia 계정 크레딧으로 바로 사용합니다.

개발자 — API로 직접 호출(게이트웨이 Realtime API)은 4.5 온라인 버전 에서 다룹니다.