MoE
読み: エムオーイー
MoEとは専門AI切替の仕組み
MoEは巨大な単一モデルを動かすのではなく、特定分野に特化した複数の小型モデルを束ね、入力に応じて最適な専門モデルを瞬時に切り替えるアーキテクチャである。計算コストを抑えつつ高い推論精度を叩き出す。
かんたんに言うと
総合病院の受付である。患者の症状を聞いて内科や外科などの専門医に振り分ける。全員の医師が同時に診察するのではなく、必要な医師だけが対応するため無駄がない。
計算コストと推論精度を両立させるMoEの基本構造
Mixture of Expertsの肝はGating Networkと呼ばれるルーター機能にある。ユーザーのプロンプトを受け取ると、背後に控える複数のエキスパートネットワークから、その処理に最も適したモデルを1つか2つ選び出してタスクを投げる。
全部のモデルを同時に動かすわけではない。
だから計算リソースの消費が少ない。例えば法務部門で契約書の条文チェックをさせる場合、一般的な言語処理モデルよりも、法律用語に特化したエキスパートが選ばれる仕組み。ただ、このルーターの振り分け精度が低いと、的外れな専門家がアサインされて悲惨な結果になる。現場で使えないAIの典型例である。
MoEアーキテクチャを採用する代表的な生成AIツール
今や最前線のモデルは軒並みMoEを採用している。OpenAIのGPT-4がMoEを採用しているとの報道があり(OpenAI自身は公式に認めていない)、Mistral AIのMixtral 8x7Bがオープンソース界隈の勢力図を塗り替えた。GoogleのGemini 1.5 Proも、xAIのGrok-1もMoEベースである。
なぜ各社がこぞってMoEに走るのか。
単純に巨大なモデルを作るだけでは、推論にかかる電気代とサーバー代で会社が傾くからである。経理部門がクラウドの請求書を見て青ざめる事態は避けたい。MoEなら、見かけ上のパラメータ数が1兆を超えていても、1回の推論で動くのはその一部に過ぎない。
企業がMoE搭載モデルを利用するメリットと技術的な限界
推論コストを抑えつつ賢い回答が得られる。これが最大のメリットである。しかし、現場のエンジニアを泣かせる落とし穴がある。
VRAMの消費量である。
推論時に動くモデルは一部でも、システムを待機させておくためには全てのエキスパートをGPUのメモリ上に乗せておかなければならない。Mixtral 8x7Bをオンプレミス環境で動かそうとして、手持ちのNVIDIA A100ではメモリが足りず途方に暮れる製造業のインフラ担当者を何人も見てきた。処理速度は速いが、初期投資としてのハードウェア要求は容赦なく跳ね上がる。このトレードオフをどう評価するかは悩ましい。
自社のAI導入においてMoEモデルを選ぶべき判断基準
自社環境にオープンソースのMoEモデルをデプロイするか、おとなしくAPIを叩くか。
判断が分かれるところである。
物流部門の配送ルート計算のように、外部に絶対に出せない機密データを扱うならオンプレミスでの運用を検討する余地はある。だが、そのために数千万円のGPUサーバーを買う覚悟があるか。大半の企業にとっては、Azure OpenAI ServiceやGoogle Cloud経由でGPT-4やGeminiのAPIを使う方が現実的な解になる。自社のデータガバナンス要件とインフラ予算の天秤である。流行りのアーキテクチャだからといって、無理に自前で抱え込む必要はどこにもない。
当社の見解
当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
