画像生成
読み: 画像生成
画像生成AIとは仕組みと活用法
テキストの指示を受け取りAIがピクセル単位で画像を構築する技術。Text-to-Imageとも呼ばれプロンプトと呼ばれる文字列を解釈して存在しないビジュアルをゼロから描き出す。
かんたんに言うと
優秀だが極めて文字通りの解釈しかしない外国人のアシスタントに電話で絵を描かせるようなものである。言葉の選び方ひとつで傑作にもゴミにもなる。
ノイズから画像を復元する拡散モデルの生成原理
ディープラーニングの進化により画像生成の裏側は拡散モデルという技術が主流になった。ノイズだらけの画像から少しずつノイズを取り除き意味のある絵を復元していくアプローチ。プロンプトと呼ばれるテキスト指示がこのノイズ除去の方向性を決める。
ただこの仕組みは直感に反する部分がある。
例えば指の数を正確に描かせるのが異常に難しい。人間なら骨格を意識して描くがAIはピクセルの統計的な確率分布を再現しているに過ぎないからである。物理法則を理解しているわけではないのである。
現場でプロンプトの調整に何時間も溶かす人間を見るが本当にその作業に価値があるのか判断が分かれる。
現場での活用事例と代表的なツール群
マーケティング部門のバナー制作の話は聞き飽きただろう。
私が最近面白いと感じたのは製造業でのプロダクトデザインと人事部門での採用資料作成である。製造の現場ではStable Diffusionを使って新製品のモックアップ画像を大量に生成し営業が顧客の反応を見るテストに使っている。Midjourneyの出力は芸術的すぎて工業製品には向かないことが多い。
DALL-E 3はChatGPT経由で使えるため人事担当者が採用ピッチ資料の挿絵を作るのに重宝している。
ただAdobe Fireflyの登場で状況は少し変わった。
既存のPhotoshopなどのツール群と統合されているためデザイナー以外の職種でも手軽に扱える。どのツールを選ぶべきか。用途によって正解が変わるため非常に悩ましい。
導入におけるメリットと把握すべき技術的限界
画像生成を業務に組み込む最大の理由はリードタイムの短縮である。写真素材サイトを何時間も検索する手間が消える。
だが著作権と商用利用の壁が立ちはだかる。
学習データに著作物が含まれているリスクをどう評価するか。法務部門と協議すると大抵はここで話が止まる。コンプライアンスを盾に一切の利用を禁じる企業も少なくない。出力された画像に実在のロゴが混じるような意図しない出力も日常茶飯事である。
生成された画像をそのまま外部に出すのは自殺行為に近い。
必ず人間の目でチェックするフローを挟む必要があるがその工数を計算に入れるのを忘れるケースが散見される。
評価基準と選定ポイント
自社環境にどう組み込むか。API連携を前提とするならクラウドベースのDALL-E 3やMidjourneyが候補になる。
しかし機密性の高い未発表製品の設計図をプロンプトに含める場合クラウドにデータを投げるのは論外である。
オンプレミス環境でStable Diffusionを動かす選択肢が浮上する。
GPUサーバーの調達コストと運用保守の手間を誰が担うのか。情報システム部門に丸投げすれば確実に頓挫する。セキュリティ要件と利便性のバランスをどこで取るか。現場の要望をすべて叶える魔法のツールは存在しない。妥協点を探る泥臭い調整だけが残る。
当社の見解
当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
