CV
読み: シーブイ
CVとはAI画像解析の基礎
CVはコンピュータに人間の視覚と同等以上の画像理解能力を持たせ画像や動画からビジネスに有用な情報を抽出するAI技術である。ピクセルデータの羅列から意味を読み取る。
かんたんに言うと
熟練の検品作業員の目を無数にコピーし、24時間まばたきせずに監視し続けるシステム。ただし、教えられたこと以外は一切見えない極端な専門家である。
カメラの延長ではないCVが実現するピクセルからの意味抽出
CVは単なるカメラの延長ではない。レンズが捉えたRGBの数値データから、AIや機械学習を用いてパターン認識を行い、そこに何が写っているかを特定する技術。
物流倉庫で段ボールの傷を見つける。経理部門で領収書の印影を判別する。人間の目なら一瞬で終わる作業を計算機にやらせるには、膨大な演算が要る。
ただの画像データが、意味を持つ情報に変わる。
だが、現場の光の加減一つで精度が急落する。人間の目の適応力には到底及ばないのが現実である。
CNNがもたらした特徴抽出のブレイクスルー
かつての画像認識は、人間が手作業で特徴を定義していた。丸い、赤い、線が何本あるか。これでは限界がある。
状況を一変させたのがディープラーニングである。特にCNNと呼ばれる畳み込みニューラルネットワークの登場で、画像から局所的な特徴を階層的に抽出できるようになった。
エッジの検出から始まり、徐々に複雑な形状を捉える。
理屈は美しい。しかし、これを現場で動かすには大量の計算資源を食う。GPUの調達コストに頭を抱えることになるのは目に見えている。
製造や物流の現場を回すクラウドAPI
自前でモデルを組むのは趣味の世界である。実務ではGoogle Cloud Vision APIやAmazon Rekognition、Azure AI Visionを叩くのが定石になる。
製造ラインの不良品検知や、物流拠点でのトラックのナンバープレート読み取り。これらはAPIに画像を投げるだけで、ある程度の正解が返ってくる。
本当にこれで十分か。
実はそうでもない。標準APIは汎用品である。自社特有の特殊なネジのサビを判定させようとすると、途端に使い物にならなくなる。結局は追加学習が必要になるケースが多く、判断が分かれるところである。
アノテーションの泥沼とエッジAIの台頭
CVの精度はデータで決まる。何万枚もの画像に正解ラベルを貼るアノテーション作業を誰がやるのか。
外注すればコストが跳ね上がり、社内でやれば現場から悲鳴が上がる。
クラウドコンピューティングに画像を送り続けると、今度は通信帯域がパンクする。だからカメラ側で処理を完結させるエッジAIへの移行が進んでいる。NVIDIAのJetsonなどを現場に置くわけである。
熱暴走やホコリによる故障。ソフトウェアのアップデートをどう配るか。現場の環境は過酷であり、机上の計算通りにはいかない。悩ましい問題である。
精度99パーセントの罠と運用設計
PoCで精度99パーセントが出たと喜ぶ経営陣は多い。だが、実環境では照明のフリッカーやカメラのレンズの汚れで簡単に80パーセント台に落ち込む。
ROIを計算する際、この精度低下による手戻りコストを見落とす。
既存の基幹システムとAPIでどう繋ぐか。エラーが出た時のフェールセーフはどうするのか。
CVは魔法の箱ではない。ただの確率的な出力装置である。現場の運用フローをどう変えるかという泥臭い設計こそが問われる。
当社の見解
AIプロダクトの導入で最も時間を食うのは技術の実装ではない。自社の業務プロセスを言語化する作業だ。ここを省略すると、どんなに優秀なツールを入れても使い物にならない。当社は企画から開発・運用まで全工程を自社で完結させることで、仕様伝達のロスをゼロにしている。理想は阿吽の呼吸で仕事ができるAIパートナーだ。間違った判断をしようとしたときは、忖度なく意見をくれる。それが信頼できる仕事の相棒だ。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
