マルチモーダルAI
読み: マルチモーダルAI
マルチモーダルAIとは五感統合
テキストや画像、音声といった異なる形式のデータを同時に読み込み、人間が五感を使って状況を把握するように複雑な文脈を統合的に理解して出力するAI技術。
かんたんに言うと
目隠しをして料理の味だけを評価していた審査員が、目隠しを外し、見た目や香り、厨房の音まで含めて総合的に料理を評価するようになる変化。
テキストだけでは足りない現場データを丸ごと処理する次世代AIの特徴
テキストだけ、あるいは画像だけを処理するシングルモーダルAIの時代はとうに過ぎ去った。
現場のデータは常に複合的である。ディープラーニングの進化により、複数の入力形式を同時に処理できるようになった。
テキストだけの処理なら従来の言語モデルで事足りる。
だが、実際の業務データはテキスト単体で存在することなど稀である。添付ファイル、図面、会議の録音データ。これらを別々に処理して後から人間が繋ぎ合わせる手間は、実務において致命的なになる。マルチモーダルAIは、これらを丸ごと飲み込んで文脈を解釈する。本当にそんなことが可能なのかと疑うかもしれないが、すでに実用段階に入っている。
テキストと画像や音声を結びつける技術的仕組み
異なる形式のデータをどうやって計算機に理解させるのか。
鍵となるのはベクトル化である。テキストも画像も音声も、エンコーダと呼ばれる仕組みを通して、高次元の数値の配列に変換される。
ここでTransformerアーキテクチャが真価を発揮する。
数値化された異なるデータ間の関係性を計算し、テキストの「赤い」という単語と画像の「赤い部分」を紐づける。ただ、この変換処理のチューニングは非常に泥臭い。どこまで細かくベクトル化するかで精度が露骨に変わる。現場のエンジニアは常にパラメータの調整に追われている。理論通りに動かないシステムを前に、何度頭を抱えたことか。
ビジネス現場での活用事例と代表的なツール
製造業のライン検品を想像してほしい。
カメラの映像と、作業員の音声メモを同時に解析する。GPT-4oの音声認識と画像処理のレスポンス速度は異常である。リアルタイムでの異常検知に十分耐えうる。
経理部門ならどうだろうか。
手書きの領収書画像と、PDFの請求書、そして担当者のメールテキストを突き合わせる。Claude 3はこうした複雑なレイアウトの文書解析で他を寄せ付けない精度を叩き出す。また、物流の現場でドライブレコーダーの動画と運行データを照合するなら、動画処理に長けたGeminiの出番になる。ツール選びは適材適所である。どれか一つで全てを賄おうとするのは愚の骨頂である。
導入によって得られる恩恵と現在の技術的限界
できることが増える反面、代償も大きい。
複数のデータを同時に処理するため、消費するGPUリソースは跳ね上がる。クラウドのAPI利用料の請求書を見て血の気が引いた経験は一度や二度ではない。
さらに厄介なのがハルシネーションである。
テキスト単体の時よりも、画像や音声が交差する分、AIがもっともらしい嘘をつくメカニズムは複雑化している。画像内の影を汚れと誤認し、それに辻褄を合わせるようなテキストを生成してしまう。この挙動をどう制御するかは、実務においてかなり悩ましい。完全に防ぐ手立ては今のところ存在しない。
自社への導入を検討する際の評価基準とステップ
まずはAPI経由で既存モデルを叩くのが定石である。
だが、製造業の機密図面や法務の未公開契約書を扱う場合、パブリッククラウドにデータを投げること自体が許されない。オンプレミス環境で独自のマルチモーダルモデルを構築する選択肢も浮上するが、初期投資の桁が変わる。
ここでROIをどう算定するか。
単純な人件費削減だけでは、膨大な計算コストを正当化できないことが多い。新しいビジネス価値を生み出せるかどうかの判断が分かれるところである。結局のところ、現場の泥臭い運用に耐えうるか、テストを繰り返して見極めるしかない。美しい計画書通りに進むプロジェクトなど、この領域には存在しないのである。
当社の見解
当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
