ナイア
目次
  1. 1動画マニュアル
  2. 2Naia OS Live USB
  3. 3インストールと展開
  4. 3.1Naia OS インストール (ISO)
  5. 3.2アプリインストール
  6. 4はじめに
  7. 5メイン画面
  8. 6チャット
  9. 7会話履歴
  10. 8作業の進捗状況
  11. 9スキル
  12. 10チャンネル
  13. 11エージェント
  14. 12診断
  15. 13ワークスペース
  16. 14ブラウザ
  17. 15パネル管理
  18. 16音声会話
  19. 17設定
  20. 18ツールの詳細
  21. 19Naia アカウント
  22. 20トラブルシューティング
  23. 21オープンソースの活用と貢献

16. 音声会話

Naiaで音声会話を使用する方法は2つあります。

2つの方式

オムニモード

1つのAIモデルが音声を直接聞き取り、音声で即座に応答します。中間変換なしにトーンや感情まで理解するため、自然で高速です。

STT → LLM → TTS パイプライン

音声認識(STT)、テキストAI(LLM)、音声合成(TTS)をそれぞれ異なるプロバイダーで組み合わせます。プロバイダーを自由に選択でき、完全無料の構成も可能です。


オムニモード

設定 > AIでモデル一覧に🗣️アイコンが表示されているモデルを選択すると、オムニモードが有効になります。

Gemini Flash Live(クラウド)

プロバイダーモデルAPIキーコスト
Naia CloudGemini 3.1 Flash Live 🗣️不要(クレジット)クレジット消費
Gemini(直接)Gemini 2.5 Flash Live 🗣️Google APIキー約$0.03/分

ボイス8種:Kore(女性、デフォルト)、Puck(男性)、Charon(男性)、Aoede(女性)、Fenrir(男性)、Leda(女性)、Orus(男性)、Zephyr(ニュートラル)

GPT-4o Realtime(クラウド)

プロバイダーモデルAPIキーコスト
OpenAIGPT-4o Realtime 🗣️OpenAI APIキー約$0.10/分

ボイス10種:Alloy(ニュートラル)、Ash(男性)、Ballad(男性)、Coral(女性)、Echo(男性)、Sage(女性)、Shimmer(女性)、Verse(男性)、Marin(推奨)、Cedar(推奨)

MiniCPM-o 4.5(ローカル)

vllm-omniサーバーを使用して、完全にローカルでオムニ音声会話を実行します。現在ローカルで実用的に使用可能な事実上唯一のオムニモデルです。

設定 > AIでプロバイダーをvLLMに選択すると、サーバーのモデル一覧を自動的に取得し、モデル名に「minicpm-o」が含まれていると🗣️として自動認識されます。

必要スペック: BF16基準で約35GB VRAM。A40(46GB)以上または48GB GPUを推奨。

サーバー起動:

vllm serve openbmb/MiniCPM-o-4_5 \
  --omni --port 8091 --host 0.0.0.0 \
  --max-model-len 2048 --skip-mm-profiling

Naiaの設定でvLLMサーバーのアドレスを入力します(例: http://localhost:8091)。

ローカルにGPUがない場合、RunPodなどのクラウドGPUで実行できます。RunPodガイドを参照してください。

現在、英語と中国語の音声入出力をサポートしています。

今後の計画: オーディオリファレンスによる音声クローンおよびファインチューニングパイプラインをサポート予定です。


STT → LLM → TTS パイプライン

オムニモデルを使用しなくても、STTとTTSを個別に設定して音声会話を構成できます。

STT(音声認識)

設定 > 音声で選択します:

プロバイダーオフラインAPIキーコスト
Web Speech APIいいえ不要無料
Voskはい不要無料
Whisperはい不要無料
Naia Cloudいいえ不要(ログイン)クレジット
vLLM ASRはい(ローカル)不要無料

TTS(音声合成)

設定 > 音声で選択します:

プロバイダーオフラインAPIキーコスト
ブラウザ TTSはい不要無料
Edge TTSいいえ不要無料
Naia Cloud TTSいいえ不要(ログイン)クレジット
Google Cloud TTSいいえ必要$0.016/1K文字
OpenAI TTSいいえ必要$0.015/1K文字
ElevenLabsいいえ必要$0.30/1K文字
vLLM TTSはい(ローカル)不要無料

プレビューボタンで選択した音声をテストできます。

組み合わせ例

環境STTLLMTTSコスト
完全無料VoskOllama(ローカル)ブラウザ TTS無料
コスパ重視Web SpeechGemini 2.5 FlashEdge TTS約$0.3/1Mトークン
高品質WhisperClaude SonnetElevenLabsAPI料金
Naia CloudNaia Cloud STTNaia Cloud LLMNaia Cloud TTSクレジットのみ
完全ローカル(GPU)vLLM ASRvLLMvLLM TTS無料