Text-to-Image

TEXT TO IMAGE
読み: テキスト・トゥ・イメージ

読み: テキスト・トゥ・イメージ

画像生成AIとは文章から絵を作る

入力されたテキストプロンプトの意図をAIが解析し、条件に合致する画像を生成する技術。自然言語処理画像生成モデルを組み合わせ、ピクセル単位で新たなビジュアルを構築する。

かんたんに言うと

言葉で注文書を書くと、その指示を読み解いて数秒で絵を描き上げる専属のイラストレーター。ただし、指示が曖昧だと全く見当違いの作品を平気で納品してくる。

ノイズから画像を削り出すText-to-Imageの拡散モデル

Text-to-Imageの裏側で動いているのは、主に拡散モデルと呼ばれる技術。元の画像にノイズを足して完全に砂嵐状態にした後、今度はノイズを除去しながら新しい画像を復元していく。
まるで大理石のブロックから彫刻を削り出すような作業といえる。
DALL-E 3やStable Diffusionもこのアプローチを採用している。ディープラーニングによって膨大な画像とテキストのペアを学習しており、プロンプトに含まれる単語の並びから、どのようなピクセル配置が適切かを確率的に推論する。
ただ、この推論は完璧ではない。人間の手や文字の描写が崩れる現象に直面したことはないだろうか。AIは指は5本という構造を理解しているわけではなく、単にピクセルのパターンを再現しているに過ぎないからである。現場でそのまま使えるクオリティになるかは、プロンプトの精度と運に左右されるのが悩ましい。

営業資料や採用ピッチにおける生成ツールの実力

クリエイティブ部門の専売特許のように語られがちだが、営業や人事の現場でもText-to-Imageは使われ始めている。
例えば営業の提案書。フリー素材サイトで他社と被る握手の画像を探す時間は無駄である。Midjourneyに自社のターゲット層に合わせた具体的なシチュエーションを入力すれば、オリジナルの挿絵が手に入る。
人事部門なら、採用ピッチ資料に載せる未来のオフィス風景や、抽象的な企業理念を視覚化する用途でAdobe Fireflyを使うケースがある。Fireflyは学習データがクリーンであることを売りにしているため、企業が公式な資料に使う際の心理的ハードルは低い。
しかし、思い通りの構図を出すためにプロンプトをこねくり回す時間は本当に削れているのか。画像生成に1時間かけるなら、テキストだけで伝えた方が早い場面もある。どこまでこだわるかは判断が分かれるところである。

著作権リスクと法務部門が直面するグレーゾーン

生成された画像の権利関係は、実務において最も厄介な問題である。
既存の著作物を無断で学習したモデルを使って生成した画像が、他人の権利を侵害していないと誰が保証できるのか。Stable Diffusionをローカル環境で動かして生成した画像を自社製品のパッケージに使うと言い出した営業部長を、法務担当者が必死で止める光景を何度も見てきた。
商用利用の可否はツールごとに異なる。API経由なら安全という単純な話でもない。
生成AIの出力結果に対する法的責任は、最終的にそれを利用した企業が負う。ガイドラインを整備したところで、現場の人間がこっそり生成した画像をプレゼン資料に忍び込ませるのを完全に防ぐ手立てはない。

経理が睨むコスト対効果と運用ルールの着地点

ツールを導入する際、経理部門が気にするのは当然コストである。サブスクリプションの月額費用だけでなく、APIを叩くたびに発生する従量課金も馬鹿にならない。
全社員にアカウントを付与するのか、特定の担当者だけに絞るのか。
現場はとりあえず全員に使わせてほしいと要求する。だが、月に数回しか使わない社員のためにライセンスを維持するのは無駄遣い以外の何物でもない。
結局のところ、Text-to-Imageは魔法の杖ではない。テキストを画像に変換するだけの道具である。その道具を使って生み出されたビジュアルが、本当に自社の売上や採用力向上に直結しているのか。効果測定の指標をどう設定するかは、導入を決めた責任者の肩に重くのしかかる。明確な答えを出すのは難しい。

当社の見解

当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する