Stable Diffusion

STABLE DIFFUSION
読み: ステーブル・ディフュージョン

読み: ステーブル・ディフュージョン

画像生成AIとはSD活用の要点

Stable Diffusionはテキスト指示から高品質な画像を生成する無償公開された画像生成AIモデルである。自社環境での独自構築や商用利用が可能であり、特定の用途向けにカスタマイズできる特性を持つ。

かんたんに言うと

砂嵐のテレビ画面から、言葉の指示に従って少しずつ意味のある風景や人物の輪郭を削り出していく凄腕の彫刻家のようなものである。

機密データを外部に出さず画像生成できるStable Diffusionの全体像

Stability AIが2022年に公開したこのモデルは、画像生成の界隈を完全にひっくり返した。MidjourneyやDALL-E 3も確かに綺麗な絵を出す。だが、それらは運営会社のサーバー内で動くブラックボックスである。我々実務家が中身を覗くことはできない。自社の閉じたネットワーク内で動かせる。これがどれほど重要か、想像できるだろうか。機密の未発表製品データを食わせる場合、外部のAPIに投げるのはリスクが高すぎる。ローカル環境にモデルをダウンロードし、完全にオフラインで画像を生成できる選択肢は、実質的にこれ一択に近い。ただ、自由度が高い分、環境構築のハードルは決して低くない。

ノイズ除去による画像生成の仕組み

技術的な中身は潜在拡散モデルと呼ばれる手法。簡単に言えば、完全にランダムなノイズ画像からスタートし、U-Netというネットワークを使って少しずつノイズを取り除いていく。その過程でプロンプトの指示を反映させる仕組み。ピクセルそのものではなく、圧縮された潜在空間で計算を行う。だからこそ、一般向けのPCでもギリギリ動く軽さを実現できた。とはいえ、プロンプトの解釈は気まぐれである。「赤い車」と打っても、背景が赤くなるのか車体が赤くなるのか、出力されるまで分からない。意図通りの画像を百発百中で出すのは至難の業である。ガチャを回し続けるような感覚に陥ることも多く、現場の作業時間をどう見積もるかは常に悩ましい。

製造業やアパレル企画での実用例と派生ツール

画像生成といえば広告クリエイティブを連想しがちだが、製造業のプロダクトデザインやアパレルの新商品企画でこそ真価を発揮する。例えば、既存の製品スケッチをAutomatic1111などのWebUIに読み込ませ、素材感やカラーバリエーションを無限に生成させる使い方である。Leonardo AIのような派生サービスを使えば、環境構築の手間すら省ける。だが、現場の落とし穴はここにある。生成されたデザインは物理法則や製造工程を一切考慮していない。重力に逆らった構造の家具や、縫製不可能な衣服のパターンが平気で出力される。これをそのまま工場に投げれば大惨事になる。あくまでアイデアの壁打ち相手として割り切れるかどうかが、導入の成否を分ける。

自社導入の限界と追加学習のリアル

自社専用のモデルを作るならLoRAという追加学習手法を使うことになる。自社製品の画像を数十枚読み込ませれば、その製品が様々な背景に置かれた画像を生成できるようになる。カタログ制作のコストを劇的に下げるポテンシャルはある。しかし、計算資源の壁は厚い。NVIDIAのハイエンドGPUが必須である。VRAMが24GB以上あるグラフィックボードを何枚も積んだワークステーションを用意しなければ、学習は遅々として進まない。ハードウェアへの初期投資をケチってクラウドの安価なインスタンスで妥協すると、今度は転送量と従量課金で首が回らなくなる。オンプレミスで組むかクラウドで回すか、インフラ担当者の判断が分かれるところである。

企業が導入を判断するための評価基準と著作権

最終的に企業がこれを業務に組み込む際、最大のネックになるのは著作権である。学習データに著作物が含まれているという批判は絶えず、生成された画像が既存の作品に酷似してしまうリスクはゼロではない。法務部門のチェックは通るのか。API経由で商用利用が保証されたエンタープライズ向けサービスを選ぶのも一つの手である。しかし、それではオープンソースの恩恵を半分捨てることになる。自社で生成した画像をどこまで外部に公開するのか、あるいは社内の企画書止まりにするのか。技術の進化スピードに対して法整備が追いついていない現状では、どこで線を引くか各社のスタンスが問われている。

当社の見解

当社はツール選定において実用性を第一方針にしている。カタログスペックやベンチマークスコアではなく、実務で1週間使い倒して初めて判断する。フレームワークを増やすほど管理コストが増える経験もした。フックを増やしすぎてAIが情報過多でパニックになったこともある。足し算だけでなく、引き算の判断が選定の質を決める。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する