Diffusion

DIFFUSION
読み: ディフュージョン

読み: ディフュージョン

ディフュージョンとは画像生成技術

Diffusion(拡散モデル)は、画像に意図的にノイズを加え、それを段階的に除去する過程を学習することで、テキストの指示から高精細な画像を生成する技術。現在の画像生成AIの中核を担い、無から有を生み出すのではなく、ノイズの海から意味のあるピクセルを削り出すアプローチをとる。

かんたんに言うと

砂嵐のテレビ画面から、少しずつノイズを取り除いて鮮明な風景画を復元する作業に似ている。最初はただの砂嵐だが、何度も拭き取るうちに、指定した通りの絵が浮かび上がってくる。

ノイズの海からピクセルを削り出すU-Netの挙動

画像にノイズを足していくForward Diffusionと、ノイズを取り除くReverse Diffusion。この2つのプロセスを学習するのが拡散モデルの基本。
ノイズ除去の要となるのがU-Netというアーキテクチャだが、現場でこれを意識することは少ない。ただ、プロンプトを入力した際、裏側でAIが砂嵐から画像を削り出している感覚を持てるかどうかで、生成結果のコントロール力は変わる。
なぜか。
ノイズの除去過程でどの要素を残すか、AIは確率的に判断しているからである。シード値を固定しても、サンプラーの設定一つで出力は全く別物になる。この確率的な揺らぎを許容できるかどうかが、業務適用の最初の壁になる。

製造現場や営業資料における画像生成ツールの実態

Stable DiffusionやMidjourney、DALL-E 3といったツール群は、すでに現場で使われ始めている。
例えば製造業の製品企画部門。新製品のモックアップを作る前段階で、Adobe Fireflyを使って数十パターンのコンセプト画像を生成し、営業部門がそれを顧客への初期提案書に組み込む。これまではデザイナーの工数を気にして数パターンしか用意できなかったものが、一瞬で量産できるようになった。
だが、手放しでは喜べない。
生成された画像は一見綺麗だが、よく見ると製品の構造としてあり得ないパーツが混ざっていることが多い。物理法則を無視した画像が平気で出力されるのである。これを営業がそのまま顧客に見せてしまう事故が後を絶たない。

VRAMの壁と著作権リスクの狭間で揺れる現場

表現の多様性は確かに魅力的である。しかし、ローカル環境でStable Diffusionを動かそうとすれば、GPUのVRAM容量が容赦なく牙を剥く。最低でも12GB、できれば24GBのVRAMを積んだRTX 4090クラスのグラフィックボードを用意しなければ、高解像度の生成は途中でクラッシュする。
クラウドAPIを叩けば済む話だろうか。
ここで著作権リスクが顔を出す。学習データの出所が不透明なモデルを商用利用してよいのか、法務部門の判断は分かれる。安全策をとってAdobe Fireflyのようなクリーンな学習データを謳うSaaSを選ぶ企業も多いが、生成される画像のテイストが限定的になりがちで、現場からは不満の声が漏れる。悩ましい問題である。

クラウドAPIかオンプレミスかというインフラの選択

導入にあたり、API経由でDALL-E 3などのSaaSを利用するか、自社サーバーにオンプレミスでStable Diffusion環境を構築するか。
機密性の高い未発表の製品データをプロンプトに含める場合、外部APIにデータを投げるのはリスクが高い。そのため、高価なGPUサーバーを自社で調達し、ローカルでモデルを動かす選択をする製造業や設計部門は少なくない。
しかし、オンプレミス環境の維持は泥臭い。
日進月歩で更新されるモデルや拡張機能のバージョン管理、Python環境の依存関係の崩壊。これらを社内のインフラエンジニアが面倒を見切れるのか。安易にローカル構築に走ると、運用保守の泥沼にハマることになる。

当社の見解

当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する