AI 脳 ai-know.
JA · EN
CONCEPT · STUB

リアルタイム LLM(Real-Time LLM)

リアルタイム LLM(Real-Time LLM)は、人間との自然な会話や音声インタラクションに必要な低遅延(通常 300ms 以下)で推論・応答を返せる LLM インフラおよびシステム設計を指す概念。標準的なバッチ処理型 LLM 推論とは異なり、ストリーミング生成・インタラクティブな中断・ターンテイキング検出を含む設計が求められる。

OpenAI Realtime API が先行事例として確立し、ストリーミングトークン生成と音声出力を組み合わせてエンドツーエンドの遅延を最小化する実装が産業標準になりつつある。Voice AI の品質上限を決定する主要コンポーネントであり、WebRTC スタック とのシステム統合が必須となる。

推論のスピードだけでなく、低ビットレート環境でのロバスト性や長時間セッションでの安定性も重要な設計指標となっている。

言及された記事