F値

F SCORE
読み: エフチ / エフスコア

読み: エフチ / エフスコア

F値とは分類精度をバランス評価

F値は適合率と再現率の調和平均で、機械学習モデルの分類性能を1つの数値で評価する指標である。「正しいものを正しいと判定する力」と「漏れなく拾い上げる力」のバランスを測る。特にF1スコアと呼ばれるバリエーションが広く使われ、モデル比較やコンペティションの評価基準として定着している。

かんたんに言うと

迷惑メールフィルターで考えると分かりやすい。正常なメールを迷惑メールと誤判定する頻度と、本物の迷惑メールを見逃す頻度。F値はこの2つの失敗をバランスよく評価する指標である。

正しく判定する力と漏れなく拾う力のトレードオフを測るF値

F値を理解するには、まず適合率と再現率を押さえる必要がある。
適合率は「陽性と判定したもののうち、実際に陽性だった割合」を指す。迷惑メールフィルターなら「迷惑メールだと判定したメールのうち、本当に迷惑メールだった割合」になる。適合率が低いと、正常なメールがゴミ箱に入る。
再現率は「実際に陽性であるもののうち、正しく陽性と判定できた割合」を指す。迷惑メールフィルターなら「全迷惑メールのうち、きちんとブロックできた割合」になる。再現率が低いと、迷惑メールが受信トレイに届く。
この2つはトレードオフの関係にある。フィルターの判定基準を厳しくすれば適合率は上がるが、再現率は下がる。緩くすれば逆になる。どちらか一方だけを見ていると、もう一方が悪化していることに気づかない。

F1スコアの計算と意味

F値の中で最もよく使われるのがF1スコアで、適合率と再現率に等しい重みを置いた調和平均である。算術平均ではなく調和平均を使うのは、一方が極端に低い場合にそれを反映させるためにある。
たとえば適合率が0.9、再現率が0.1の場合、算術平均は0.5になり「まあまあ」に見えるが、調和平均は約0.18になる。実態に近い評価が出る。
F1スコアが0.85を超えれば実用的なモデルとされる場面が多いが、この閾値はタスク次第で変わる。がんの検出のように見逃しが致命的な場面では、再現率を重視したF2スコアが使われることもある。F2スコアは再現率に2倍の重みを置く。

不均衡データでのF値の重要性

F値が真価を発揮するのは、データの偏りが大きい場面である。
クレジットカードの不正検知では、正常な取引が99.9%、不正な取引が0.1%という極端な分布になる。このとき「全部正常」と判定するだけで正解率99.9%が出てしまう。正解率だけを見ていると、不正を1件も検出できないモデルを「優秀」と誤認する。
F値はこの罠を避けられる。「全部正常」と判定するモデルの再現率は0%になるため、F1スコアも0になる。モデルの実力が正しく反映される。
実務では、マルチクラス分類においてクラスごとのF1スコアを計算し、それをマクロ平均やマイクロ平均で集約する。マクロ平均は全クラスを等しく扱い、マイクロ平均はサンプル数で重み付けする。どちらを使うかはビジネス上の判断になる。

F値だけでは分からないこと

F値は万能ではない。
まず、閾値の設定によってF値は大きく変動する。分類確率が0.5以上なら陽性とするか、0.3以上なら陽性とするかで、同じモデルでもF値は変わる。モデル間の比較をする場合は、PR曲線の下の面積を見るほうが公平な評価になることもある。
次に、F値はランキングの質を評価できない。検索エンジンやレコメンドシステムのように「上位に良い結果が来ているか」が重要な場面では、MAP(Mean Average Precision)やnDCGのほうが適切である。
また、生成AIの出力品質をF値で測るのは難しい。文章の要約翻訳は「正解か不正解か」の二値で割り切れない。こうしたタスクではルーブリックによる評価やBLEUスコアなど、別の指標が使われる。

当社の見解

技術の選定で最も避けるべきは「流行っているから」という理由で導入することだ。当社は複数のAIツール・フレームワークを実際に検証した上で、自社の用途に合うものだけを採用している。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。実装指示した人間側が実装したことも忘れて、気が付けば動いていない機能があった、ということも起きる。さらに、MCPやフックやルールを増やしすぎてAIが情報過多で機能しなくなった経験もある。どんなにルールや機能を付け足しても機能しなければ意味がない。足し算より引き算。1週間の検証期間が、3か月の手戻りを防ぐ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する