On-demand Embedding & Inferenceとは

ON DEMAND EMBEDDING
読み: オンデマンドエンベディングアンドインファレンス

On-demand Embedding & Inferenceとは、AIモデルを常駐させず

読み: オンデマンドエンベディングアンドインファレンス

AIモデルを常駐させず、必要なタイミングでのみ起動して推論やエンベディング生成を実行する運用方式である。アイドル時のCPU・GPU消費をゼロにし、バッチ処理やhookトリガーとの組み合わせで軽量なAIパイプラインを構築できる。

かんたんに言うと

飲食店に例えると、常駐型は「24時間営業のファミレス」で、オンデマンド型は「予約制の料理人出張サービス」である。注文があったときだけ料理人が来て、作り終わったら帰る。待機中の人件費がゼロになる。

常駐型との比較

OllamaHindsightのようなサービスは、プロセスが常駐してリクエストを待ち受ける。応答は高速だが、アイドル時にもCPU・GPUを消費し続ける。オーバーヘッドが問題になるのはこのケースである。

On-demand方式では、hookやスケジューラのトリガーに応じてモデルバイナリを起動し、処理完了後にプロセスを終了する。llama.cppのCLI実行や、ONNX Runtimeのライブラリ呼び出しがこれに該当する。起動コスト(数秒)と引き換えに、アイドルオーバーヘッドがゼロになる。

プロアクティブAIでの応用

プロアクティブAIアシスタントの先読み処理において、モデルの階層化とOn-demand実行を組み合わせると、「hookが発火→0.5Bモデルで意図分類→インプロセスDBで記憶検索→結果をメインAIに注入→プロセス終了」という一連の処理が、常駐プロセスなしで実現できる。

当社の見解

当社はこの概念を「計画」ではなく「実装済み」の段階に進めた。Ollama常駐実行(CPU 25%、GPU 30%を常時占有)を廃止し、FastEmbed(Qdrant社提供、ONNX Runtimeベース)をライブラリとして組み込んだ。hookが発火した瞬間にのみプロセスを起動し、sentence-transformers/all-MiniLM-L6-v2で埋め込みを生成、LanceDB(Y Combinator支援、サーバー不要のインプロセスDB)でベクトル検索を実行し、完了後にプロセスを即座に終了する。アイドル時のGPU/CPU消費はゼロ。キャッシュ済みの実行時間は3.6秒、検索レイテンシは8msで、1,655件の記憶データに対して実用的な速度を実現している。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する