Better than Averageとは
Better than Averageとは、単なる平均値ではなく過去の最高精度や成功事例を基準として動的に更新
読み: ベターザンアベレージ
Better than Averageとは、単なる平均値ではなく過去の最高精度や成功事例を基準として動的に更新し、常に「平均以上」を目指す品質基準の設計思想。異常検知や品質評価の閾値設定に活用される。
かんたんに言うと
「普通」で満足せず、過去の最高記録を基準にしてそれを超えることを目指す考え方。テストの平均点ではなく、過去最高点を目標にするようなもの。
平均値ではなく最高値を基準にする理由
平均値を基準にすると、「平均を下回っても許容範囲」という緩い基準になる。過去の最高精度や成功事例を基準にすれば、常にそれを超えることを目指す。この考え方は、AIの出力品質管理だけでなく、人間の仕事の品質管理にも当てはまる。
異常検知と品質評価への応用
AIの出力が過去の最高品質を下回ったときに「異常」と判定する。単なる平均との比較では見落とす品質低下を、過去最高値との比較で検出できる。強化学習の報酬設計や、エージェントの出力比較にも使える。
動的な基準更新の設計
基準値は固定ではなく、新しい成功が出るたびに更新される。これにより、時間が経っても基準が陳腐化しない。ただし、過去の最高値が偶然の結果である場合、非現実的な基準になるリスクがある。このバランスを取るために、上位10%の平均を基準にする等の工夫がある。
当社の見解
技術の選定で最も避けるべきは「流行っているから」という理由で導入することだ。当社は複数のAIツール・フレームワークを実際に検証した上で、自社の用途に合うものだけを採用している。検証せずに導入したツールは、ほぼ例外なく3か月以内に使わなくなった。実装指示した人間側が実装したことも忘れて、気が付けば動いていない機能があった、ということも起きる。さらに、MCPやフックやルールを増やしすぎてAIが情報過多で機能しなくなった経験もある。どんなにルールや機能を付け足しても機能しなければ意味がない。足し算より引き算。1週間の検証期間が、3か月の手戻りを防ぐ。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
