音声会話 — Naia マニュアル

Naiaで音声会話を使用する方法は2つあります。

2つの方式

1つのAIモデルが音声を直接聞き取り、音声で即座に応答します。中間変換なしにトーンや感情まで理解するため、自然で高速です。

音声認識（STT）、テキストAI（LLM）、音声合成（TTS）をそれぞれ異なるプロバイダーで組み合わせます。プロバイダーを自由に選択でき、完全無料の構成も可能です。

設定 > AIでモデル一覧に🗣️アイコンが表示されているモデルを選択すると、オムニモードが有効になります。

プロバイダー	モデル	APIキー	コスト
Naia Cloud	Gemini 3.1 Flash Live 🗣️	不要（クレジット）	クレジット消費
Gemini（直接）	Gemini 2.5 Flash Live 🗣️	Google APIキー	約$0.03/分

ボイス8種：Kore（女性、デフォルト）、Puck（男性）、Charon（男性）、Aoede（女性）、Fenrir（男性）、Leda（女性）、Orus（男性）、Zephyr（ニュートラル）

プロバイダー	モデル	APIキー	コスト
OpenAI	GPT-4o Realtime 🗣️	OpenAI APIキー	約$0.10/分

ボイス10種：Alloy（ニュートラル）、Ash（男性）、Ballad（男性）、Coral（女性）、Echo（男性）、Sage（女性）、Shimmer（女性）、Verse（男性）、Marin（推奨）、Cedar（推奨）

vllm-omniサーバーを使用して、完全にローカルでオムニ音声会話を実行します。現在ローカルで実用的に使用可能な事実上唯一のオムニモデルです。

設定 > AIでプロバイダーをvLLMに選択すると、サーバーのモデル一覧を自動的に取得し、モデル名に「minicpm-o」が含まれていると🗣️として自動認識されます。

必要スペック: BF16基準で約35GB VRAM。A40（46GB）以上または48GB GPUを推奨。

サーバー起動:

vllm serve openbmb/MiniCPM-o-4_5 \
  --omni --port 8091 --host 0.0.0.0 \
  --max-model-len 2048 --skip-mm-profiling

Naiaの設定でvLLMサーバーのアドレスを入力します（例: http://localhost:8091）。

ローカルにGPUがない場合、RunPodなどのクラウドGPUで実行できます。RunPodガイドを参照してください。

現在、英語と中国語の音声入出力をサポートしています。

今後の計画: オーディオリファレンスによる音声クローンおよびファインチューニングパイプラインをサポート予定です。

オムニモデルを使用しなくても、STTとTTSを個別に設定して音声会話を構成できます。

設定 > 音声で選択します：

プロバイダー	オフライン	APIキー	コスト
Web Speech API	いいえ	不要	無料
Vosk	はい	不要	無料
Whisper	はい	不要	無料
Naia Cloud	いいえ	不要（ログイン）	クレジット
vLLM ASR	はい（ローカル）	不要	無料

設定 > 音声で選択します：

プロバイダー	オフライン	APIキー	コスト
Naia Cloud TTS	いいえ	不要（ログイン）	クレジット
Edge TTS	いいえ	不要	無料
Google Cloud TTS	いいえ	必要	$0.016/1K文字
OpenAI TTS	いいえ	必要	$0.015/1K文字
ElevenLabs	いいえ	必要	$0.30/1K文字
vLLM TTS	はい（ローカル）	不要	無料
Custom	各種	各種	各種

プレビューボタンで選択した音声をテストできます。