Data Labeling

DATA LABELING
読み: データ・ラベリング

読み: データ・ラベリング

データラベリングとはAI学習の土台

Data Labelingは、機械学習モデルに学習させるテキストや画像、音声などの生データに対して、正解となるタグやメタデータを付与する作業といえる。自社専用の高精度なAIを開発する上で土台となるプロセスであり、アノテーションとも呼ばれる。

かんたんに言うと

新入社員に過去の契約書を読ませる際、重要な条項にマーカーを引き「ここが損害賠償の免責事項だ」と付箋を貼って教え込む地道な作業に似ている。

AIの精度を根本から左右するData Labelingのタグ付けの仕組み

法務部門で契約書リスク判定AIを導入するとしよう。単に過去の契約書PDFを数万件読み込ませても、AIはただの文字の羅列としか認識しない。そこで人間が「この段落は秘密保持条項」「ここは競業避止義務」と一つずつタグを付けていく。これが教師あり学習におけるData Labelingの基本。
気が遠くなるだろうか。
だが、このアノテーション作業をサボれば、機械学習モデルは使い物にならない。現場ではよく「AIが賢くない」と文句が出るが、大抵は食わせたデータにラベルが貼られていないか、間違っているかのどちらかに懸かっている。正解データを与えずにテストの点数を上げろと要求するのは無理がある。

製造ラインの不良品検知とデータ作成を支えるプラットフォーム

製造業の検品プロセスでは、カメラで撮影した製品画像に「傷」「打痕」「塗装ムラ」といったバウンディングボックスを引く作業が待っている。数万枚の画像を手作業で処理するのは現実的ではないため、LabelboxやScale AIといった専用プラットフォームを使うのが定石である。
AWS環境がメインならAmazon SageMaker Ground Truthを選ぶのも手である。
ただ、ツールを入れたからといって魔法のように作業が終わるわけではない。結局のところ、傷の定義を現場の職人とすり合わせる泥臭い工程が待っている。ツールはあくまで作業画面を使いやすくするだけで、正解を決めるのは人間である。ここを勘違いしているマネージャーは驚くほど多い。

品質管理のジレンマと作業コストのトレードオフ

AIの予測精度はラベルの品質に直結する。しかし、品質管理を徹底して精緻なデータを作ろうとすればするほど、膨大な手作業による時間と金銭のコストが跳ね上がる。
どこまで精度を追い求めるべきか。これは常に悩ましい。
例えば、経理部門の領収書読み取りAIで、かすれた文字をどうラベリングするか。オペレーターによって「読めない」とするか推測して入力するかで判断が分かれる。ここで無理に完全な無人化を狙うのではなく、自信度スコアが低いものは人間が確認するヒューマンインザループの仕組みを組み込むのが現実解である。ただし、この言葉を免罪符にして中途半端なAIを納品してくるベンダーには警戒したほうがいい。

自社で内製するか外部委託するかの判断基準

大量のラベリング作業を誰がやるのか。クラウドソーシングで安くばらまくか、BPO事業者に丸投げするか、それとも社内で抱え込むか。
機密情報を扱う法務や人事のデータなら、NDAを結んだとしても外部に出すのはリスクが高い。一方で、一般的な風景画像や公開情報の分類なら外注一択である。
厄介なのは、専門知識が必要だが外部に出せないデータである。医療画像や特殊な設計図面などが該当する。結局、社内のエース級人材が通常業務の合間にラベルをポチポチ貼る羽目になる。高い給料を払って単純作業をさせる矛盾に直面したとき、プロジェクトを継続するかどうか、担当者の覚悟が試される。

当社の見解

技術の選定で最も避けるべきは「流行っているから」という理由で導入することだ。当社は複数のAIツール・フレームワークを実際に検証した上で、自社の用途に合うものだけを採用している。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。実装指示した人間側が実装したことも忘れて、気が付けば動いていない機能があった、ということも起きる。さらに、MCPやフックやルールを増やしすぎてAIが情報過多で機能しなくなった経験もある。どんなにルールや機能を付け足しても機能しなければ意味がない。足し算より引き算。1週間の検証期間が、3か月の手戻りを防ぐ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する