U-Net

U NET
読み: ユーネット

読み: ユーネット

U-Netとは画像AIの中核構造

U-Netは画像の各ピクセルにラベルを付けるセマンティックセグメンテーション向けに設計されたCNNの一種。元々は医療画像の細胞境界検出のために開発されたが、現在は画像生成AIの中核部品としてStable Diffusionなどの拡散モデルにも組み込まれている。

かんたんに言うと

画像を一度ギュッと圧縮して全体の特徴をつかみ、そこから元の解像度に戻しながら細部を復元する。圧縮と復元をU字型につないだ構造である。

少量データで細胞境界を切り出すために生まれたU-Netの設計

2015年にドイツのフライブルク大学の研究チームが発表した。当時、細胞の顕微鏡画像から個々の細胞の輪郭を自動で切り出すニーズがあり、ごく少量の学習データでも高精度なセグメンテーションを実現する構造として考案された。
従来のニューラルネットワークは画像全体を1つのラベルに分類するのが得意だったが、ピクセル単位でラベルを振る作業には向いていなかった。U-Netはこの問題を、エンコーダーとデコーダーの対称構造で解決している。

エンコーダーとデコーダーをスキップ接続でつなぐ仕組み

構造はシンプルで、左半分のエンコーダーが画像を段階的に縮小して特徴を抽出し、右半分のデコーダーが段階的に拡大して元の解像度に戻す。この左右対称の形がアルファベットのUに見えることが名前の由来である。
ここで重要なのがスキップ接続と呼ばれる仕組みになる。エンコーダーの各段階で得られた高解像度の特徴マップを、デコーダーの対応する段階にそのまま渡す。圧縮の過程で失われがちな細部の情報をデコーダーに直接届けるため、輪郭がぼやけにくい。
この構造のおかげで、学習データが数十枚しかなくても実用的な精度が出る。医療画像の世界ではアノテーション済みデータを大量に用意すること自体が高コストなので、この特性は大きな利点となる。

拡散モデルのノイズ除去エンジンとして再注目されている背景

Stable Diffusionに代表される拡散モデルは、ノイズだらけの画像から段階的にノイズを取り除いて最終的な画像を生成する。このノイズ除去の各ステップで、どのピクセルにどれだけノイズが乗っているかを推定する必要がある。ピクセル単位の推定はまさにU-Netの得意分野である。
Stable Diffusion 1.xから2.xまではU-Netがノイズ推定の本体を担っていた。最近はTransformerベースのDiTに置き換える動きもあるが、U-Net系の構造は計算効率とメモリ消費のバランスが良く、エッジデバイスやスマートフォン向けの軽量モデルでは依然として採用されるケースが多い。

医療、衛星画像、自動運転での活用と今後の方向性

医療分野ではCT画像の臓器セグメンテーション、病理画像のがん細胞検出、眼底写真の血管抽出など、診断補助の基盤技術として定着している。衛星画像では建物や農地の自動識別、自動運転では道路と歩道の境界検出に使われている。
3D版のU-Netも開発されており、CTやMRIのボリュームデータをスライスごとではなく立体のまま処理できる。ただし3Dになると計算量が桁違いに増えるため、GPUメモリとの相談になる。
今後は、画像生成領域でTransformerとの棲み分けが進む見込みで、大規模モデルはTransformerベース、軽量モデルはU-Netベースという使い分けが定着しつつある。

当社の見解

当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する