On-demand Embedding & Inferenceとは

ON DEMAND EMBEDDING
読み: オンデマンドエンベディングアンドインファレンス

On-demand Embedding & Inferenceとは、AIモデルを常駐させず、必要なタイミングでのみ起動して推論やエンベディング生成を実行する運用方式である

読み: オンデマンドエンベディングアンドインファレンス

アイドル時のCPU・GPU消費をゼロにし、バッチ処理やhookトリガーとの組み合わせで軽量なAIパイプラインを構築できる。

かんたんに言うと

飲食店に例えると、常駐型は「24時間営業のファミレス」で、オンデマンド型は「予約制の料理人出張サービス」である。注文があったときだけ料理人が来て、作り終わったら帰る。待機中の人件費がゼロになる。

常駐型との比較

OllamaHindsightのようなサービスは、プロセスが常駐してリクエストを待ち受ける。応答は高速だが、アイドル時にもCPU・GPUを消費し続ける。オーバーヘッドが問題になるのはこのケースである。

On-demand方式では、hookやスケジューラのトリガーに応じてモデルバイナリを起動し、処理完了後にプロセスを終了する。llama.cppのCLI実行や、ONNX Runtimeのライブラリ呼び出しがこれに該当する。起動コスト(数秒)と引き換えに、アイドルオーバーヘッドがゼロになる。

プロアクティブAIでの応用

プロアクティブAIアシスタントの先読み処理において、モデルの階層化とOn-demand実行を組み合わせると、「hookが発火→0.5Bモデルで意図分類→インプロセスDBで記憶検索→結果をメインAIに注入→プロセス終了」という一連の処理が、常駐プロセスなしで実現できる。

当社の見解

当社はこの概念を「計画」ではなく「実装済み」の段階に進めた。Ollama常駐実行(CPU 25%、GPU 30%を常時占有)を廃止し、FastEmbed(Qdrant社提供、ONNX Runtimeベース)をライブラリとして組み込んだ。hookが発火した瞬間にのみプロセスを起動し、sentence-transformers/all-MiniLM-L6-v2で埋め込みを生成、LanceDB(Y Combinator支援、サーバー不要のインプロセスDB)でベクトル検索を実行し、完了後にプロセスを即座に終了する。アイドル時のGPU/CPU消費はゼロ。キャッシュ済みの実行時間は3.6秒、検索レイテンシは8msで、1,655件の記憶データに対して実用的な速度を実現している。

売上の頭打ちを打破して、毎年20%成長を目指す経営者へ

1人の社員が4つのAIエージェントを使いこなせば、
1日8時間 × 4エージェント × 20営業日 = 月間640時間相当の実行余力を生み出せます。

その時間を、営業改善・商品改善・顧客対応・業務効率化に再投資できれば、
毎年20%成長を目指せる組織基盤は現実的に作れます。

初回30分の無料相談で、貴社の業務のどこにAIを入れるべきか、
640時間相当の実行余力を生み出すための導入ステップをご提案します。

無料で相談する