AI 脳 ai-know.
JA · EN
CONCEPT · STUB

Voice AI(Voice AI)

Voice AI は、音声入力と音声出力を介してリアルタイムに会話を行う AI システムの総称。STT(Speech-to-Text)、LLM による推論、TTS(Text-to-Speech)の 3 層で構成されることが多く、エンドツーエンドのレイテンシ(音声入力から音声応答までの遅延)が体験品質の主要指標となる。

2024〜2025 年にかけて OpenAI の Realtime API・xAI Grok Voice・Google Gemini Live など複数の主要プレイヤーが実サービスを展開し、「テキスト LLM の付加機能」から「独立した競争カテゴリ」へ移行した。リアルタイム LLM インフラと WebRTC スタック の整備が品質上限を決定する構造になっている。

ターンテイキング(話者交代の自然な検出)が最大の技術的難題のひとつとされている。

言及された記事