レイテンシ

LATENCY
読み: レイテンシ

読み: レイテンシ

レイテンシとはAI応答速度の指標

AIモデルにプロンプトを入力してから最初のトークンが出力されるまで、あるいは回答が完了するまでの応答遅延時間を指す。顧客体験や業務の処理速度に直結する重要指標である。

かんたんに言うと

レストランで注文をしてから料理がテーブルに運ばれてくるまでの待ち時間。厨房の広さや料理人の腕、レシピの複雑さによって時間は変わる。

レイテンシがAIシステムの現場定着を左右するAPI経由LLM呼び出しの現実

プロンプトを投げてから返答が来るまでの沈黙。これがレイテンシである。我々が普段API経由でLLMを呼び出すとき、ネットワークの向こう側では膨大な計算が行われている。OpenAIのAPIを叩いて数秒待たされる経験は誰にでもあるだろう。この数秒を許容できるか。社内チャットボットなら多少遅くても文句は出ないかもしれない。だが、リアルタイムの音声翻訳や、物流倉庫でのピッキング指示システムに組み込む場合、1秒の遅延が致命傷になる。現場の作業員は画面の前で立ち止まってはくれないのである。応答速度は単なるスペックではない。システムが現場で使われるか、それともゴミ箱行きになるかを分ける境界線である。

クラウドサーバーの奥底で起きている推論処理

入力されたテキストはトークンに分割され、クラウドサーバー上のGPUに送られる。ここで推論処理が走る。NVIDIAのH100を何千枚も並べたクラスターが、次の単語の確率を計算し続ける。この計算の重さがレイテンシの正体である。モデルのサイズが大きければ大きいほど、計算量は跳ね上がる。さらに厄介なのがネットワークの遅延である。東京からアメリカ西海岸のサーバーにリクエストを投げれば、物理的な距離だけで数十ミリ秒が飛ぶ。AWSの東京リージョンにモデルをデプロイできれば話は早いが、最新モデルが常に国内で使えるとは限らない。インフラの制約とモデルの重さ。この二重苦をどう乗り越えるか、設計者の腕が試される。判断が分かれるところである。

現場が求めるスピードと代表的ツールの実力

ChatGPTのWeb画面で数秒待つのは構わない。だが、製造ラインの異常検知で数秒待てば不良品は次の工程へ流れてしまう。Claude 3.5 Sonnetは賢いが、APIの応答速度には波がある。Gemini 1.5 Flashはスピードに特化しているが、複雑な推論ではボロが出る。物流の配送ルートの動的再計算にどのモデルを使うべきか。スピードを優先してGeminiを選ぶか、精度を求めてClaudeを非同期で回すか。現場の要件次第で正解は変わる。リアルタイム性が求められるシステムに、重厚長大なモデルをそのまま突っ込むのは素人のやり方である。現場のオペレーションを観察し、何秒の遅延までなら業務が回るのかを測らなければならない。悩ましい問題である。

パラメータ数と量子化がもたらす妥協点

精度を上げれば遅くなる。速くすれば馬鹿になる。これがLLMの残酷な現実である。70Bクラスのモデルを動かせばレイテンシは悪化する。そこで量子化の出番となる。16ビットの重みを4ビットに圧縮して計算を軽くする手法。確かに速くなる。だが、日本語の微妙なニュアンスの理解力は確実に落ちる。法務部門の契約書チェックに量子化したモデルを使って、免責事項の抜け漏れを見落としたら誰が責任を取るのか。クラウドの遅延を嫌ってエッジAIに逃げる手もある。工場内のローカルPCで軽量モデルを動かせばネットワーク遅延はゼロである。しかし、PCのスペック上限という新たな壁にぶつかる。どこで妥協するか。技術の限界を理解した上で、業務要件との折り合いをつける泥臭い作業が待っている。

当社の見解

技術の選定で最も避けるべきは「流行っているから」という理由で導入することだ。当社は複数のAIツール・フレームワークを実際に検証した上で、自社の用途に合うものだけを採用している。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。実装指示した人間側が実装したことも忘れて、気が付けば動いていない機能があった、ということも起きる。さらに、MCPやフックやルールを増やしすぎてAIが情報過多で機能しなくなった経験もある。どんなにルールや機能を付け足しても機能しなければ意味がない。足し算より引き算。1週間の検証期間が、3か月の手戻りを防ぐ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する