アノテーション
読み: アノテーション
アノテーションとはAI学習データ作成
アノテーションはAIモデルの予測精度を決定づける学習データに対して意味や属性を付与するプロセス。画像内の物体を枠で囲んだりテキストの感情を分類したりする作業を指し、モデルが世界を認識するための正解データを作り出す。
かんたんに言うと
新入社員に業務マニュアルを渡す際、重要な箇所にマーカーを引き、欄外に具体的な対応手順を赤ペンで書き込んでいく作業に近い。
AIモデルの精度を左右するアノテーションの役割と仕組み
機械学習のプロジェクトにおいて、アルゴリズムの選定ばかりに目を奪われるエンジニアは多い。だが現場の成否を分けるのはデータである。
特に教師あり学習では、入力データと正解ラベルのペアが大量に要求される。ディープラーニングが特徴量を自ら抽出できるようになったとはいえ、最初の正解を教えるのは人間の役目である。画像に写っているのが不良品なのか正常品なのか、モデルはタグ付けされたデータからしか学べない。
ここで手を抜くとどうなるか。
ゴミを入れればゴミが出てくる。どれほど高度なニューラルネットワークを組んでも、ラベル付けがデタラメなら使い物にならないモデルが完成するだけである。
現場での実用例と主要プラットフォーム
製造業の外観検査や法務部門の契約書審査など、実運用を見据えたプロジェクトでは専用のプラットフォームを使うのが一般的である。
Amazon SageMaker Ground TruthはAWS環境との親和性が高く、既存のインフラに組み込みやすい。Labelboxは画像や動画だけでなくテキストや医療用画像まで幅広く対応し、UIのレスポンスが良い。国内ベンダーならFastLabelがサポートの面で使い勝手が良い。
どのツールを選ぶべきか。
機能面での差は縮まりつつあるため、既存のクラウド環境や扱うデータの種類によって決めることになる。ただ、ツールを導入したからといって作業そのものが消滅するわけではない。
品質と作業負荷のトレードオフ
AIの精度を上げるには高品質なデータが大量に要る。しかし、手作業によるタグ付けは途方もない労力を伴う。
ヒューマンインザループという言葉を聞くと、スマートに連携しているように響くかもしれない。だが実際の現場はもっと泥臭い。アノテーターの解釈のブレをどう防ぐか。品質管理のルールをどこまで厳密に定めるか。
このあたりの線引きは非常に悩ましい。
ルールを細かくしすぎれば作業スピードが落ち、コストが跳ね上がる。かといって緩めれば品質のばらつきが直撃する。どこで妥協点を見出すかは、プロジェクトごとに判断が分かれるところである。
内製か外部委託かの評価基準
膨大な作業を自社リソースだけでまかなうのは現実的ではない。そこでBPOやクラウドソーシングの活用が選択肢に入る。
クラウドソーシングは安価に大量のワーカーを集められるが、品質の担保が難しい。一方、専門のBPO事業者に依頼すれば品質は安定するが、単価は上がる。さらに法務や経理のデータなど機密性の高い情報を扱う場合、ISMS認証を取得している事業者でなければ社内のセキュリティ審査を通らない。
結局のところ、自社のデータにどれだけの機密性があり、どの程度のドメイン知識が要求されるのか。
誰にでもできる単純作業なら外部に出せばいい。だが、熟練の検査員にしか判別できない微細な傷の判定を外注するのは無謀である。自社のコアコンピタンスに関わるデータは、血を流してでも社内でタグ付けする覚悟が要る。
当社の見解
当社は機密情報のマスキング処理を全てローカルAIで行っている。これにより機密情報を外部に送信せずにAI処理できるようになった。だが、AIが嘘をつくハルシネーションの問題は依然としてある。確認していないのに「確認しました」と言う。当社はこの前提で運用を設計している。事実と推測の強制分離、ファクトチェック機能、3つのAIと人間の同士の三重検証を行っている。どこまでいっても、AIは完璧ではない。理論上100%安全設計をしていても、AIも人間も想定しないことは起こるものだ。その万が一に備えておくことが、AIを使う上では前提になっている。だろうではなく、かもしれない運用がAIを使う上での安全基盤となっている。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
