Human Preference Evalとは
Human Preference Evalとは、AIモデルの出力を人間の評価者が比較・判定し、どちらの回答が優れているかを評価する手法
読み: ヒューマンプリファレンスイーバル
自動評価メトリクスでは捉えきれない「自然さ」「有用さ」「安全性」を人間の判断で測定する。
かんたんに言うと
2つのAIの回答を並べて「どっちがいい?」と人間に聞く評価方法。テストの点数では測れない「この回答の方が役に立つ」という判断を人間の感覚で下す。Human Preference Evalのデータは、RLHFの訓練にも使われている。
自動評価との違い
BLEUやROUGEなどの自動メトリクスは正解テキストとの一致度を測る。正解が1つに決まらない対話や要約のタスクでは自動評価の限界がある。Human Preference Evalは「どちらがより有用か」を人間が判断するため、実際のユーザー体験に近い評価ができる。ただし評価者間のばらつきの管理が必要で、評価コストも高い。
Chatbot Arenaの仕組み
LMSYSが運営するChatbot Arenaは、匿名の2モデルの回答をユーザーにHuman Preference Evalさせるプラットフォーム。Eloレーティングでモデルをランク付けする。自動ベンチマークのスコアが高くてもArenaでの評価が低いモデルがあり、ユーザーの体感と自動評価のギャップを可視化した。
導入時の判断基準
自社のAI導入でモデル選定を行う場合、自動ベンチマークだけでなく社内ユーザーによるHuman Preference Evalを併用すると判断の精度が上がる。評価には最低50件の比較が必要。評価基準を事前に定義し、評価者にすり合わせておくことが前提になる。
当社の見解
当社はAI長期記憶システムを自社開発・運用している。開発のきっかけは、AIと経営戦略の壁打ちで出した結論がセッション切れで消えたことで絶望を感じた。1日かけて議論してきたことを振り返り、では事業計画書に落とし込むように指示を出したところ、「そのような記録はありません」と言われたことで、強烈な危機感を覚えこれは何としても解決しなければならない問題だと感じた。記憶がないAIは毎朝記憶喪失になる新入社員と同じだ。記憶があるAIは、前提条件を理解した上で本題に入れる。短いプロンプトで済むようになり、「前に言ったように実行して」と曖昧で短いプロンプトでも業務を遂行してくれる。同じことを繰り返し伝える回数も減り、開発業務でも同じミスを繰り返しにくくなり、人間の手戻りが減り、ストレスも減る。AIで本当に業務の質を上げるならば、記憶はマストである。
