Naia-0.9-omni-24g 실시간 멀티모달 모듈

naia-0.9-omni-24g는 옴니 모델(model)과 동일한 인터페이스로 사용 가능하지만, 사실 엄밀한 옴니 모델은 아닙니다. naia에서 여러 모델을 엮어 만든 조립식(cascade) 모듈로서 실시간 멀티모달 "뇌(brain)" 를 지향합니다. 현재는 사용자의 음성을 실시간으로 듣고 음성으로 바로 답하는 것을 시작으로, 버전이 올라갈수록 보고·기억하고 더 풍부하게 사고하는 방향으로 확장됩니다.

무엇을 지향하나요

naia가 "듣고 말하는" 것을 넘어 "보고, 기억하고, 맥락을 이해하는" 실시간 인지 모듈로 성장하는 것을 목표로 합니다.

지금: 실시간 음성 대화 — 듣기 → 사고 → 말하기
앞으로: 이미지 입력(현재 LLM이 이미지를 지원하므로 비교적 빠르게 더해질 수 있습니다), 장기기억(naia-memory) 연동, 검색 증강(naia-agent RAG) 같은 다양한 인지 능력을 더해 갈 예정입니다. (어떤 것을 어떤 순서로 더할지는 정해져 있지 않습니다.)
지향점: 비전·기억 등 여러 인지 능력을 한데 묶은 naia의 실시간 멀티모달 인지 모듈

naia-0.9-omni-24g라는 이름은 현재의 음성 한 가지가 아니라, 이 모든 인지 능력을 담아 갈 하나의 실시간 멀티모달 창구를 가리킵니다.

omni 모델처럼, 하지만 실제로는 cascade

naia-0.9-omni-24g는 omni(통합 멀티모달) 모델과 같은 자리에서, 같은 방식으로 제공됩니다. 클라이언트 입장에선 omni 모델 하나를 호출하는 것과 똑같습니다. 하지만 내부 구현은 단일 모델이 아니라 cascade입니다.

cascade란

cascade 는 하나의 거대한 모델로 모든 것을 처리하는 대신, 각 역할을 맡은 검증된 부품을 순서대로 연결(직렬) 해 전체 기능을 만드는 방식입니다. naia-0.9-omni-24g는 음성 인식(STT) → 언어 모델(LLM) → 음성 합성(TTS)을 잇고, 그 사이에 음성 감지(VAD)·감정 처리 등을 더합니다.

각 단계는 독립적이라 여러 모델을 함께 사용할 수 있습니다. 단계마다 가장 적합한 모델을 골라 끼우는 것 자체가 하나의 조율(orchestration) 이 됩니다 — 즉 cascade는 단순한 연결이 아니라, 여러 모델을 엮어 더 나은 결과를 만드는 조립·조율 체계입니다.

음성 입력 → 음성 인식(STT) → 언어 모델(LLM) → 음성 합성(TTS) → 음성 출력

단일 omni 모델 vs cascade

	단일 omni 모델	cascade (naia 방식)
구성	하나로 통합된 모델	역할별 부품을 조립
능력 변경	한 번 훈련되면 고정 — 새 능력은 재학습 필요	언제든 부품 교체·추가 — 재학습 없이 개선
속도	통합되어 빠름(낮은 지연)	단계가 있어 지연이 조금 더 생길 수 있음
멀티모달 확장	처음부터 다시 학습	입력·출력에 부품을 끼워 넣기
부품 선택	통째로 묶임	검증된 부품을 골라 사용·교체
모델 활용	한 모델에 고정	여러 모델을 함께 — 단계마다 최적 모델, 그 자체로 조율

→ naia는 빠르고 안전하게 능력을 더해 가기 위해 cascade를 택했습니다. omni 모델 같은 매끄러운 경험은 단일 표준 창구로 제공하고, 내부는 유연한 조립식으로 키웁니다.

그 밖의 특징

끼어들기(barge-in): AI가 말하는 도중에도 끊고 새로 말할 수 있습니다. 라이브 omni 모델의 자연스러운 끼어들기 경험을 cascade로 그대로 재현했습니다.
24GB GPU 1장(RTX 3090 / 4090 / A5000) 기준 tier입니다. 모델명 끝의 -24g 가 이 tier를 뜻합니다 — 처음부터 개인 PC의 GPU 한 장에서 돌아가는 것을 목표로 설계했습니다. (클라우드는 이 구성을 그대로 빌려 쓰는 것일 뿐입니다.)
외부에는 하나의 단일 창구로 노출됩니다 — 클라이언트는 백엔드(로컬 PC GPU인지 클라우드 GPU인지)를 알 필요가 없습니다. 이미지·영상·기억으로 확장되어도 이 단일 창구는 그대로 유지됩니다.

왜 이 구조가 "실시간 멀티모달 뇌"로 자라나

실시간 양방향: 연결이 유지된 채 데이터가 양쪽으로 끊김 없이 흐릅니다. 입력은 도착하는 즉시 처리되고, 응답은 생성되는 즉시 스트리밍됩니다. 한 번 묻고 한 번 답하는 방식이 아니라, 대화가 살아 있는 동안 실시간으로 무엇이든 주고받는 구조입니다.
cascade(조립식) 구조: 입력단(인식) · 사고단(LLM) · 출력단(표현)이 분리돼 있어, 입력에 이미지·영상 인코더를, 출력에 새로운 표현을 끼워 넣기만 하면 됩니다. 그래서 실시간으로 무엇이든 받아들이고, 무엇이든 답할 수 있는 형태로 자랍니다.
통짜 모델을 처음부터 다시 학습시키는 대신, 검증된 부품을 갈아 끼우며 빠르고 안전하게 능력을 더합니다 — 이것이 naia의 실시간 멀티모달 뇌를 키우는 방식입니다.

이용 안내

naia-0.9-omni-24g는 처음부터 GPU 한 장(24GB)에서 단독으로 도는 것을 목표로 설계됐습니다. 이용 방식·가격은 아래 전용 페이지에서 안내합니다.

1분 무료 체험 → 4.3 라이브 데모
내 GPU에서 직접 구동 (오프라인 · $10/월 구독, 개인 전용) → 4.4 오프라인 버전
클라우드로 이용 (온라인 · 예정) → 4.5 온라인 버전
가격 · 라인업 전체 → 4.1 모델 가격 정책

가장 쉽게 쓰는 법 — 라이브 데모

로그인하면 제공 크레딧으로 1분간 브라우저에서 naia-0.9-omni-24g의 음성 품질을 체험하는 웹 데모입니다(서비스 이용이 아닌 품질 체험용). 마이크·스피커 상태 확인, 페르소나 변경, 레퍼런스 음성(URL) 변경, 텍스트 입력을 지원합니다.

👉 라이브 데모 열기

naia-os에서 쓰는 법

설정 > AI에서 모델 목록의 naia-0.9-omni-24g 를 선택하면 음성 대화가 활성화됩니다. 별도 API 키 입력 없이 Naia 계정 크레딧으로 바로 사용합니다.

개발자 — API로 직접 호출(게이트웨이 Realtime API)은 4.5 온라인 버전 에서 다룹니다.

4.2. Naia-0.9-omni-24g 실시간 멀티모달 모듈