F1
読み: エフワン
F1スコアとは誤検知と見逃しを測定
F1スコアはAIがデータを分類する際の予測精度を測る指標であり誤検知の少なさと見逃しの少なさという相反する2つの要素をバランスよく評価するための調和平均である。
かんたんに言うと
網の目が細かすぎるとゴミばかり拾い、粗すぎると魚を取り逃がす。その網の最適なバランスを示す点数である。
正解率だけでは見抜けない不均衡データの罠とF1スコア
製造業の検品ラインや経理の不正経費チェックを想像してほしい。AIに不良品や不正を見つけさせるとき、単なる正解率だけを見ていると痛い目を見る。正常なデータが99%を占める環境では、AIがすべて正常と判定するだけで正解率99%を叩き出してしまうからである。
これでは使い物にならない。
そこでF1スコアの出番となる。これは適合率と再現率の調和平均をとった分類モデルの評価指標である。適合率はAIが不正と判定したもののうち本当に不正だった割合。再現率は実際の不正のうちAIが見つけ出せた割合を指す。この2つを組み合わせて初めて、現場で使えるモデルかどうかが浮き彫りになる。
適合率と再現率のトレードオフを解消する計算の仕組み
適合率Precisionと再現率Recallは、常にシーソーの関係にある。
見逃しを恐れて少しでも怪しいものをすべて検知しようとすれば、偽陽性つまり誤検知が増えて適合率が下がる。逆に、絶対に間違えないよう確実なものだけを検知しようとすれば、偽陰性つまり見逃しが増えて再現率が落ちる。
どちらを優先すべきかは悩ましい。
だからこそ単純平均ではなく調和平均を使う。片方が極端に低いとスコア全体が大きく引きずり下ろされる計算式になっているため、両方のバランスが取れていないと高い数値が出ない。混同行列を睨みながら、このトレードオフの最適解を探るのが実務家の日常である。
ビジネス現場での活用シーンと代表的なAIツール
物流拠点で破損パッケージを画像認識で弾くシステムを構築したときの話である。破損品という不均衡データを扱うため、正解率ではなくF1スコアを評価の軸に据えた。
scikit-learnを使ってベースラインのモデルを組み、DataRobotにデータを放り込んで複数のアルゴリズムを競わせる。最終的にAmazon SageMaker上でチューニングを追い込んである。
ツールがどれだけ進化しても、評価指標の設定を誤ればゴミしか生まれない。特に正例が極端に少ないデータセットでは、F1スコアを見ながら閾値を調整する泥臭い作業が続く。現場の運用に耐えうる閾値はどこか、常に判断が分かれるところである。
F1スコアを評価指標に採用する利点と注意すべき限界
正例が少ない環境において、F1スコアはモデルの実力を測る強力な武器になる。
ただ、万能ではない。
最大の落とし穴は、真陰性を計算に含めないこと。つまり正常なものを正常と正しく判定した数がスコアに反映されない。負例の判定精度も等しく重要になるケースでは、F1スコアだけを見ていると足元をすくわれる。
そのような場合はマシューズ相関係数やROC-AUCといった別の指標を併用する。F1スコアが高いからといって手放しで喜ぶのは素人だけである。データの性質とビジネス要件を照らし合わせ、どの指標を信じるべきか見極める必要がある。
自社のAIプロジェクトでF1スコアを重視すべきかの判断基準
結局のところ、見逃しリスクと誤検知リスクのどちらが致命傷になるかというビジネス上の問いに行き着く。
法務部門の契約書レビューでリスク条項を見逃せば会社が傾くかもしれない。この場合は再現率を極限まで高めたい。一方、営業のスパムメールフィルタで重要な顧客からのメールを誤って弾けば大問題になる。こちらは適合率が優先される。
F1スコアはあくまでバランスの指標である。自社のビジネスにおいて、そのバランスの中央値が本当に正解なのか。あえてバランスを崩してでも守るべきラインがあるのではないか。数字の裏にある現場の痛みを想像できない人間に、AIの評価は任せられない。
当社の見解
技術の選定で最も避けるべきは「流行っているから」という理由で導入することだ。当社は複数のAIツール・フレームワークを実際に検証した上で、自社の用途に合うものだけを採用している。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。実装指示した人間側が実装したことも忘れて、気が付けば動いていない機能があった、ということも起きる。さらに、MCPやフックやルールを増やしすぎてAIが情報過多で機能しなくなった経験もある。どんなにルールや機能を付け足しても機能しなければ意味がない。足し算より引き算。1週間の検証期間が、3か月の手戻りを防ぐ。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
