ナイア
· Luke

RTX 3090で音声クローン・リアルタイム対話・スキルを実現するNaia-0.9-Omni-24g、公開 (Naia v0.1.5)

naia-osnaia-omnivoice-aicascadeopen-sourcev0.1.5

こんにちは、AI OSナイア(Naia)を作っているルークです。前回、急ぎでローンチのお知らせを伝え、ご協力をお願いした記事に続き、今回はv0.1.5アップデートとともに最も重要なお知らせ — AI OSだけでなく、新しいAIオムニモデル、正確には**Naia-Omniモジュール(naia-0.9-omni-24g)**の公開をお伝えします。

Naia-0.9-Omni-24g
Naia-0.9-Omni-24g

▎今回のv0.1.5のNaia-OSで直接体験できること

  • 3Dアバターとのリアルタイム音声対話 (音声クローニング含む) — 今回のバージョンの主役です。
  • 組み込みブラウザ — 画面の中でAIが一緒に見て、手伝ってくれます。
  • スキルシステム — 内蔵スキルで機能を広げ、MCP(Model Context Protocol)ツールを連携します。
  • アプリパネル — Naiaの中に好きなアプリパネルを追加できます。
  • 自分のモデル、自分のキーをそのまま — 好みのAIプロバイダー・キーを連携したり、ローカルモデルで動かしたりできます。
  • プライバシー — ローカル実行が基本で、入力・出力をモデル学習に使いません。
  • 14言語のインターフェース対応

Naiaは単にOSを標榜するシェル(Shell)にとどまりません。今回のアップデートの核心は、コンシューマー向けGPU(RTX 3090/4090/5090など24GB VRAM)環境で30か国語の多言語とともに、ChatGPT・Gemini級のフルデュプレックスのリアルタイム対話を実現したnaia-0.9-omni-24gモジュールです。

私のPCに直接インストールしたNaia-Omniに接続し、実際の音声で対話する映像です。(私のマイク音声は映像に録音されていない点をご了承ください。)

▎なぜ「cascade」モジュールなのか

以前、MiniCPM-4.5-omniをvLLMに移植中だとお伝えしたことがありますが、それはまさにこのNaiaに移植するためでした。Omniモデルの最大の長所は、リアルタイムで非常に自然な対話が可能な点です。ただしそのモデルは28GB以上のVRAMを要求するうえに、中国語と英語しか対応していないという限界がありました。これを韓国語に改善しようとTalkerファインチューニング(FT)などさまざまな研究を並行しましたが、最終的に技術的な天井にぶつかり、ほかのOmniモデルはこれよりはるかに重いものでした。

そうして代替策を模索した末に作り上げたのが、単一モデルではない**「カスケード(Cascade)」方式のnaia-0.9-omni-24gです。複数のAIモデルを適切にオーケストレーションし最適化したモジュールで、完璧なトークン単位の処理とまではいかないものの、それに準じた速度とはるかに柔軟な構成を誇ります。コンシューマー向け24GB GPUで30か国語の多言語、フルデュプレックス、リアルタイム音声クローニングをすべて対応する、事実上唯一の代替策です。あたかも1つの独立したモデルのようにAPIレベルで活用**いただけるようご案内しており、はるかに賢く、くっきりとした音声複製能力を直接体験いただけます。

単一omniモデルcascade (Naia方式)
構成1つに統合されたモデル役割ごとの部品を組み立て
能力変更一度学習すると固定 — 新たな能力は再学習が必要いつでも部品を交換・追加 — 再学習なしで改善
速度統合されていて速い(低遅延)段階があるため遅延が少し増えることがある
マルチモーダル拡張最初から学習し直し入力・出力に部品を差し込む
部品選択まるごと固定検証済みの部品を選んで使用・交換
モデル活用1つのモデルに固定複数のモデルを併用 — 段階ごとに最適なモデル

こうして完成したnaia-0.9-omni-24gは、コンシューマー向けPC環境であるRTX 3090/4090/5090(24GB)で滑らかに動作します。

⚙️ 利用方式および特徴

今回のアップデートの利用方式は、現実的なインフラ状況を考慮して次のように刷新しました。

ローカルコンテナ提供 (ベーシック購読者特典) — どなたでも個人PCにコンテナ形式でダウンロードし、自分だけのアプリケーションを直接作れるよう開放しました。

podman pull ghcr.io/nextain/naia-0.9-omni-24g:latest

ただ、私自身も生計を維持しながらこのオープンソースプロジェクトを続けていく必要があるため、ベーシック購読(月$10)の利用者の方々に1 Copyずつご利用いただけるようにしました。Naiaオープンソースエコシステムが着実に成長するために必要な最小限のご支援とお考えいただければ幸いです。 → Naiaモデルダウンロードおよびアクティベーションマニュアル

ウェブデモ体験 (60秒お試し) — 現在、私の個人PC 1台で直接稼働させ、60秒ずつのお試し体験を提供しています。限られたリソースのため、アクセス人数によっては待機列(Queue)が生じる可能性がある点、何卒ご了承ください。 → ライブデモ

Naiaライブデモ画面 クラウド利用 (準備中) — 当初企画していた1時間あたり$0.33のモデルは、残念ながら当面「準備中」へ切り替えます。資本と機材が不足している今は、常時待機するGPUプールを維持するのが難しく、割り当て後の起動にかかる約15分間のサーバー費用を無償で負担するのは厳しいのが実情です。国内で使える遠隔RTX 3090ベースのシステムもすでに開発済みですが、GPUの品薄により円滑なサービスは難しいと判断しました。いずれ資本が整えば、待ち時間のない快適なクラウドサービスを必ずお披露目します。
Naiaライブデモ画面

高い互換性 — OpenAI Realtime APIに対応し、既存環境との互換性を最大化しました。

エンドポイント用途
GET /health準備状態 {"ready":true} (認証不要)
GET /v1/modelsモデル一覧
WS /v1/realtimeリアルタイム音声セッション (VAD・割り込み・感情)
POST /v1/chat/completionsチャット (ストリーミング対応)
POST /v1/audio/speech音声合成(TTS)
POST /v1/audio/transcriptions音声認識(STT)
POST /v1/embeddings埋め込み

Naiaモデル詳細利用 (開発者向けマニュアル)

安全性およびプライバシー — モジュールの性能が優れている分、ボイスフィッシングなどに悪用される恐れもあるため、音声ウォーターマーク技術を適用して追跡性を備え、安心してお使いいただけるよう準備しました。

🧠 Naiaが描く未来 (Naia Cognitive)

Naiaが追求する究極の方向性は、**「自分のコンピューターの中の自分のAI」**を実現し、AIとともに使うアプリケーションの開発・配布エコシステムを作ることです。私が描くマルチモーダルは、単なるデータの入出力ではなく、AIが自ら経験し、記憶し、表現する認知能力(Naia Cognitive)を目指します。

次のバージョンでは、エージェント(Naia-agent)、長期記憶(Naia-memory)、フレームワーク(Naia-ADK)などのアップデートが待っています。Naia-0.9-Omni-48gとともに上がる次のバージョンは、コーディング作業が可能なレベルのローカルプロファイル・環境構成と、ユーザーを記憶しながらリアルタイム音声で一緒に働く — まさに「アイアンマンのジャービス」のような姿を目標に研究・開発しています。

48GBはまだ24GBにどんなに詰め込んでも手に余る領域ですが、旧型のRTX 3090を2枚挿せば済むので、個人でも十分に夢見る価値があると考えています。

🎮 Naia OSは私を記憶し、私と働き遊ぶAI

Naia-OSが描く構想はこうです。

  • Steam(Bazzite)/Windowsベースのゲームマシン + 私を記憶するインテリジェントなエージェント + 3DアバターベースのナチュラルなUI + VRAM別の最適化プロファイル

最近、MSとNvidiaがRTXベースの小型AI機器を作ると大きな話題になりましたね。実は待つ必要はありません。ゲームもできてAIもできるNaia-OSが、まさにそのポジションを狙っているからです。私ならその新製品の代わりにNaia-OS構成を選びます — 価格は私たちが推奨する上位ラインよりも高く、ゲーム互換性も未知数で、統合メモリは遅いです。一方、検証済みのコンシューマー向けGPUを挿すNaia-OSは、ゲーム・AI・拡張性をすべて押さえます。

Mac環境をわざと後回しにしているのではなく、機材と時間が足りずにまだ手をつけられていないだけです。一緒に手伝ってくださることになった方々もいらっしゃいます。

Naia-OSは単一モジュールではなく、それぞれの役割が分離されたオープンソースリポジトリで構成され、一歩ずつ骨組みを整えています。「やけにたくさんあるな?」と思われるかもしれませんが、今がまさに「AIベースの開発時代」だからこそ可能なことです。

従来のOSがアプリケーションの管理ツールだったとすれば、AI OSは自然言語でコミュニケーションを取り、記憶し、自ら仕事を処理するソフトウェアでありロボットになると信じています。単なるブラフではなく、一つひとつ成果物で証明してみせます。

🤝 一緒にやりましょう — オフライン集まり & Discord

来週中に、これまで取り組んできたものを紹介し、ともに助け合える方々を探すオフライン集まりを開いてみようと思います。モジュールも一度ダウンロードしてみていただき、関心のある方は下記のDiscordへお越しください。本格的なオープンソースコミュニティへと発展することを願っています。

Naia Discordに参加する

これからNextainとNaiaが築いていく歩みに、たくさんの応援とご関心をお願いいたします。

#Nextain #Naia

Popular Posts

CC BY-NC-SA 4.0This post is licensed under CC BY-NC-SA 4.0.

コメント

ログインなしでコメントできます

...