コンテキストクレームとは
コンテキストクレームとは、AIが出力した回答の根拠を検証・追跡する技術
読み: コンテキストクレーム
かんたんに言うと
「AIがこの答えを出した根拠は何か」を自動で検証する技術。AIが回答するたびに、その回答がどの情報に基づいているかを突き合わせる。根拠がない回答はブロックする。
ハルシネーションを動的に検知する仕組み
AIが事実でないことを断定的に回答する現象は、ハルシネーションと呼ばれる。コンテキストクレームは、AIの回答を「クレーム」単位に分解し、各クレームの根拠をコンテキスト(入力された資料や記憶)と照合する。根拠が見つからないクレームは「検証不能」としてフラグを立てる。
記憶管理との統合
長期記憶システムやナレッジグラフと組み合わせることで、過去の判断や教訓を根拠として参照できる。「3か月前にこの方針に決めた」という記憶があれば、それを根拠に回答できる。記憶がなければ「確証がない」と正直に言える。
監視パイプラインへの組み込み
ファクトチェック機能や二重検証体制の一部として組み込むことで、AIの出力が本番環境に届く前に根拠の有無を自動検証できる。「確認しました」と言って実際には確認していないという作話の問題を、仕組みで防ぐ。
当社の見解
当社はAIの安全運用のために3層防御を設計・実装している。万が一インシデントが発生しても数分以内に復旧できるバックアップ体制を持つ。実際にAIが暴走してテスト環境を停止させた経験があり、その教訓から「失敗を防ぐ」だけでなく「失敗しても戻せる」設計が本質だと確信している。加えて、AIは事実でないことを断定する。この前提で事実/推測の強制分離とファクトチェックを実装した。安全性は仕組みで担保するものだ。
