Foundry Localとは

FOUNDRY LOCAL

読み: ファウンドリ・ローカル

公開日 2026.05.27 最終更新 2026.05.28

Foundry Localとは、Microsoftが提供するローカルAI推論ランタイムです

読み: ファウンドリ・ローカル

Azure AI Foundryのモデルカタログの一部を、手元のPCやワークステーション上で実行できる仕組みで、GPUやNPU、CPUを自動的に切り替えながら推論を行います。

かんたんに言うと

クラウドのAzure AI Foundryで動かしているAIモデルを、手元のパソコンの中でも動かせるようにする仕組みです。社内ネットワークの外にデータを出さずにAIを試したい場面に向いています。

仕組みと技術基盤

Foundry LocalはONNX Runtimeを基盤とした軽量な推論エンジンです。アプリケーションプロセスの内側で推論を完結させるインプロセス設計を採用しており、外部サーバーやAPIエンドポイントへの接続を必要としません。

実行時にはGPU・NPU・CPUを自動検出し、利用可能なハードウェアアクセラレータを優先的に選びます。GPUが無い環境ではCPUに自動でフォールバックする設計のため、配布先の端末スペックを限定せずにアプリを配れます。

Foundry Localの推論フロー

対応言語とAPI互換

JavaScript・Python・C#・RustのSDKが用意されており、OpenAI互換APIに対応しています。これによりOpenAI SDKをそのまま用いてローカル推論に切り替えられ、既存のクラウド前提のコードベースを大きく書き換えずに移行できます。

CLI・SDK・REST APIの3経路で操作でき、開発時はSDKでアプリに組み込み、運用時はCLIでモデルの追加や入れ替えを行うといった役割分担が可能です。

ローカル実行のメリット

クラウド推論と比較した利点は3点に整理できます。1点目はデータ秘匿性で、機密文書や個人情報を外部APIに送らずにAI処理ができます。2点目はレイテンシで、ネットワーク往復が無いため応答時間が安定します。3点目はInference Time Computeのコスト構造で、トークン課金から端末リソースの消費に置き換わるため、リクエスト量が増えても課金が比例しません。

類似のローカル推論基盤としてOllamaやLM Studio、llama.cppがあります。Foundry LocalはAzure AI Foundryのモデルカタログや運用ツールとの一貫性が特徴です。

Foundry LocalとOllamaの比較

比較項目	Foundry Local	Ollama
提供元	Microsoft(Azure AI Foundry連携)	Ollama社(オープンソースコミュニティ)
モデルカタログ	Azure AI Foundryと共通カタログ(Phi/Qwenほか)	Llama・Qwen・Mistralほか主要OSSモデル網羅
推論エンジン	ONNX Runtime	llama.cpp(GGUF形式)
ハードウェア対応	GPU/NPU/CPUを自動検出して切替	GPU(NVIDIA/AMD/Apple Silicon)+CPU
API互換	OpenAI互換+独自SDK(JS/Python/C#/Rust)	独自REST API+OpenAI互換エンドポイント
動作モデル	インプロセス組み込み(=アプリ内推論)	常駐デーモン+REST通信
Windows統合	Windows MLランタイムと統合	プラットフォーム非依存(=独自実装)

Azureを既に業務利用しておりクラウドとオンデバイスを行き来したい組織はFoundry Localが向きます。OSSモデルの選択肢の広さやコミュニティの活発さを優先する場合はOllamaが選ばれやすい構図です。

Foundry LocalとLM Studioの比較

比較項目	Foundry Local	LM Studio
提供元	Microsoft	Element Labs(独立企業)
操作方式	CLI+SDK+REST API中心	デスクトップGUI中心(+CLI/SDKあり)
対象ユーザー	アプリ開発者・業務システム組込担当	個人ユーザー・モデル検証担当
モデルカタログ	Azure AI Foundryと共通(=企業向け選定済)	Hugging Face連携で広範な選択肢
推論エンジン	ONNX Runtime	llama.cpp+MLX
NPU活用	Windows ML経由でNPU自動検出	バージョンにより限定的
OpenAI互換API	対応	対応(=ローカルサーバーモード)

コードに組み込んで業務AIを配布したい場合はFoundry Localが向きます。手元のPCでモデルの挙動を試しながら選ぶ用途にはGUI操作が充実したLM Studioが使われやすい構図です。

当社の見解

当社はLocal LLM運用の選択肢としてOllamaを採用しています。Foundry LocalはAzureのクラウド側モデルカタログと管理ツールを共有できる点が強みで、業務でAzureを既に使う組織にとってはクラウドとオンデバイスを行き来する設計が現実的になります。データ秘匿性が重要な経営判断や機密文書の壁打ちでは、Foundry LocalのようなインプロセスAIの存在が選択肢を広げると考えます。

売上の頭打ちを打破して、毎年20%成長を目指す経営者へ

1人の社員が4つのAIエージェントを使いこなせば、
1日8時間 × 4エージェント × 20営業日 = 月間640時間相当の実行余力を生み出せます。

その時間を、営業改善・商品改善・顧客対応・業務効率化に再投資できれば、
毎年20%成長を目指せる組織基盤は現実的に作れます。

初回30分の無料相談で、貴社の業務のどこにAIを入れるべきか、
640時間相当の実行余力を生み出すための導入ステップをご提案します。

無料で相談する