Phi-3-miniとは

PHI 3 MINI

読み: ファイスリーミニ

公開日 2026.04.05 最終更新 2026.04.05

Phi-3-miniとは、Microsoftが開発した3.8Bパラメータの小規模言語モデルである

読み: ファイスリーミニ

Microsoftが開発した3.8Bパラメータの小規模言語モデルである。モバイルデバイスやエッジ環境で動作する設計で、そのサイズに対して高い推論精度を持つ。意図分類や要約といった軽量タスクに適しており、大規模モデルとの階層化運用で計算コストを削減できる。

かんたんに言うと

スマートフォンでも動くほど軽量なAIモデルである。GPT-4のような巨大モデルに全てを任せるのではなく、簡単な質問はPhi-3-miniが即座に答え、難しい質問だけ大きなモデルに渡す使い方が想定されている。

性能と設計思想

Phi-3-miniは3.8Bパラメータでありながら、一部のベンチマークでは7Bクラスのモデルと同等以上の精度を発揮する。Microsoftの「小さくても賢い」設計思想に基づき、高品質なトレーニングデータの選別と蒸留技術によって実現されている。

コンテキストウィンドウは128Kトークンに対応しており、長文の処理にも対応する。ONNX Runtimeでの推論最適化にも対応しているため、CPU環境でも実用的な速度で動作する。

モデル階層化での役割

モデルの階層化設計において、Phi-3-miniはIntent Classification（意図分類）や簡易的なテキスト処理を担う第一層として機能する。LLMのフルサイズモデルを起動する前のフィルターとして使うことで、全体のオーバーヘッドを削減できる。

当社の見解

当社はこの概念を「計画」ではなく「実装済み」の段階に進めた。Ollama常駐実行（CPU 25%、GPU 30%を常時占有）を廃止し、FastEmbed（Qdrant社提供、ONNX Runtimeベース）をライブラリとして組み込んだ。hookが発火した瞬間にのみプロセスを起動し、sentence-transformers/all-MiniLM-L6-v2で埋め込みを生成、LanceDB（Y Combinator支援、サーバー不要のインプロセスDB）でベクトル検索を実行し、完了後にプロセスを即座に終了する。アイドル時のGPU/CPU消費はゼロ。キャッシュ済みの実行時間は3.6秒、検索レイテンシは8msで、1,655件の記憶データに対して実用的な速度を実現している。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する