Naiaで音声会話を使用する方法は2つあります。
2つの方式
オムニモード
1つのAIモデルが音声を直接聞き取り、音声で即座に応答します。中間変換なしにトーンや感情まで理解するため、自然で高速です。
STT → LLM → TTS パイプライン
音声認識(STT)、テキストAI(LLM)、音声合成(TTS)をそれぞれ異なるプロバイダーで組み合わせます。プロバイダーを自由に選択でき、完全無料の構成も可能です。
オムニモード
設定 > AIでモデル一覧に🗣️アイコンが表示されているモデルを選択すると、オムニモードが有効になります。
Gemini Flash Live(クラウド)
| プロバイダー | モデル | APIキー | コスト |
|---|---|---|---|
| Naia Cloud | Gemini 3.1 Flash Live 🗣️ | 不要(クレジット) | クレジット消費 |
| Gemini(直接) | Gemini 2.5 Flash Live 🗣️ | Google APIキー | 約$0.03/分 |
ボイス8種:Kore(女性、デフォルト)、Puck(男性)、Charon(男性)、Aoede(女性)、Fenrir(男性)、Leda(女性)、Orus(男性)、Zephyr(ニュートラル)
GPT-4o Realtime(クラウド)
| プロバイダー | モデル | APIキー | コスト |
|---|---|---|---|
| OpenAI | GPT-4o Realtime 🗣️ | OpenAI APIキー | 約$0.10/分 |
ボイス10種:Alloy(ニュートラル)、Ash(男性)、Ballad(男性)、Coral(女性)、Echo(男性)、Sage(女性)、Shimmer(女性)、Verse(男性)、Marin(推奨)、Cedar(推奨)
MiniCPM-o 4.5(ローカル)
vllm-omniサーバーを使用して、完全にローカルでオムニ音声会話を実行します。現在ローカルで実用的に使用可能な事実上唯一のオムニモデルです。
設定 > AIでプロバイダーをvLLMに選択すると、サーバーのモデル一覧を自動的に取得し、モデル名に「minicpm-o」が含まれていると🗣️として自動認識されます。
必要スペック: BF16基準で約35GB VRAM。A40(46GB)以上または48GB GPUを推奨。
サーバー起動:
vllm serve openbmb/MiniCPM-o-4_5 \
--omni --port 8091 --host 0.0.0.0 \
--max-model-len 2048 --skip-mm-profiling
Naiaの設定でvLLMサーバーのアドレスを入力します(例: http://localhost:8091)。
ローカルにGPUがない場合、RunPodなどのクラウドGPUで実行できます。RunPodガイドを参照してください。
現在、英語と中国語の音声入出力をサポートしています。
今後の計画: オーディオリファレンスによる音声クローンおよびファインチューニングパイプラインをサポート予定です。
STT → LLM → TTS パイプライン
オムニモデルを使用しなくても、STTとTTSを個別に設定して音声会話を構成できます。
STT(音声認識)
設定 > 音声で選択します:
| プロバイダー | オフライン | APIキー | コスト |
|---|---|---|---|
| Web Speech API | いいえ | 不要 | 無料 |
| Vosk | はい | 不要 | 無料 |
| Whisper | はい | 不要 | 無料 |
| Naia Cloud | いいえ | 不要(ログイン) | クレジット |
| vLLM ASR | はい(ローカル) | 不要 | 無料 |
TTS(音声合成)
設定 > 音声で選択します:
| プロバイダー | オフライン | APIキー | コスト |
|---|---|---|---|
| ブラウザ TTS | はい | 不要 | 無料 |
| Edge TTS | いいえ | 不要 | 無料 |
| Naia Cloud TTS | いいえ | 不要(ログイン) | クレジット |
| Google Cloud TTS | いいえ | 必要 | $0.016/1K文字 |
| OpenAI TTS | いいえ | 必要 | $0.015/1K文字 |
| ElevenLabs | いいえ | 必要 | $0.30/1K文字 |
| vLLM TTS | はい(ローカル) | 不要 | 無料 |
プレビューボタンで選択した音声をテストできます。
組み合わせ例
| 環境 | STT | LLM | TTS | コスト |
|---|---|---|---|---|
| 完全無料 | Vosk | Ollama(ローカル) | ブラウザ TTS | 無料 |
| コスパ重視 | Web Speech | Gemini 2.5 Flash | Edge TTS | 約$0.3/1Mトークン |
| 高品質 | Whisper | Claude Sonnet | ElevenLabs | API料金 |
| Naia Cloud | Naia Cloud STT | Naia Cloud LLM | Naia Cloud TTS | クレジットのみ |
| 完全ローカル(GPU) | vLLM ASR | vLLM | vLLM TTS | 無料 |