Phi-3-miniとは
Phi-3-miniとは、Microsoftが開発した3.8Bパラメータの小規模言語モデルである
読み: ファイスリーミニ
Microsoftが開発した3.8Bパラメータの小規模言語モデルである。モバイルデバイスやエッジ環境で動作する設計で、そのサイズに対して高い推論精度を持つ。意図分類や要約といった軽量タスクに適しており、大規模モデルとの階層化運用で計算コストを削減できる。
かんたんに言うと
スマートフォンでも動くほど軽量なAIモデルである。GPT-4のような巨大モデルに全てを任せるのではなく、簡単な質問はPhi-3-miniが即座に答え、難しい質問だけ大きなモデルに渡す使い方が想定されている。
性能と設計思想
Phi-3-miniは3.8Bパラメータでありながら、一部のベンチマークでは7Bクラスのモデルと同等以上の精度を発揮する。Microsoftの「小さくても賢い」設計思想に基づき、高品質なトレーニングデータの選別と蒸留技術によって実現されている。
コンテキストウィンドウは128Kトークンに対応しており、長文の処理にも対応する。ONNX Runtimeでの推論最適化にも対応しているため、CPU環境でも実用的な速度で動作する。
モデル階層化での役割
モデルの階層化設計において、Phi-3-miniはIntent Classification(意図分類)や簡易的なテキスト処理を担う第一層として機能する。LLMのフルサイズモデルを起動する前のフィルターとして使うことで、全体のオーバーヘッドを削減できる。
当社の見解
当社はこの概念を「計画」ではなく「実装済み」の段階に進めた。Ollama常駐実行(CPU 25%、GPU 30%を常時占有)を廃止し、FastEmbed(Qdrant社提供、ONNX Runtimeベース)をライブラリとして組み込んだ。hookが発火した瞬間にのみプロセスを起動し、sentence-transformers/all-MiniLM-L6-v2で埋め込みを生成、LanceDB(Y Combinator支援、サーバー不要のインプロセスDB)でベクトル検索を実行し、完了後にプロセスを即座に終了する。アイドル時のGPU/CPU消費はゼロ。キャッシュ済みの実行時間は3.6秒、検索レイテンシは8msで、1,655件の記憶データに対して実用的な速度を実現している。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
