Human-in-the-loop
読み: ヒューマン・イン・ザ・ループ
HITLとは人とAIの協働設計
Human-in-the-loopとは、AIの推論や生成プロセスに人間が介入し、結果の修正やフィードバックを行う仕組み。機械学習モデルの精度向上や、完全な無人運用が許されない業務において、システムと人間の判断を直列に繋ぐ運用設計を指す。
かんたんに言うと
自動運転車のテスト走行で、基本はAIに運転を任せつつも、危険な交差点や予期せぬ障害物が出現した瞬間だけ、助手席のテストドライバーがハンドルを握って軌道修正するようなものである。
AIの判断に人間のフィードバックを組み込むHuman-in-the-loopの運用設計
機械学習の現場でモデルを鍛える際、アノテーション済みのデータセットを食わせるだけでは頭打ちになる。そこでアクティブラーニングの出番となる。AIが自信を持てない推論結果だけを抽出し、人間が正解ラベルを付与して再学習させる。
このサイクルを回すことで、少ないデータでも精度が跳ね上がる。
だが、実運用でこれをやるのは骨が折れる。現場のオペレーターにどこまで負担を強いるのか。システム設計者の腕が試されるところである。
法務や顧客対応における実例とツール
法務部門での契約書レビューを想像してほしい。ChatGPTのAPIを叩いてリスク箇所を抽出させるシステムを組んだとする。だが、AIが提示した免責条項の解釈をそのまま鵜呑みにできるだろうか。
ここでAmazon A2Iのようなサービスを挟む。AIの確信度が低いレビュー結果だけを法務担当者の画面にルーティングするのである。
Zendeskを使った顧客対応でも同じである。Salesforce Einsteinが提示した返答候補を、オペレーターが微修正して送信する。この修正履歴そのものが次の学習データになる。現場の泥臭い作業がモデルを育てる。
品質担保の代償と運用上の
もっともらしい嘘、いわゆるハルシネーションを防ぎ、コンプライアンスを遵守する上で人間の介入は機能する。
しかし、処理速度は確実に落ちる。
人間が確認するプロセスを挟むことで、システム全体のレスポンスタイムは秒単位から分、あるいは時間単位へと劣化する。ROIを計算する際、この人件費と待機時間をどう見積もるか。
さらに恐ろしいのは、現場の担当者がAIの出力に慣れきってしまうこと。思考停止で承認ボタンを押し続ける単なる承認マシーンと化すリスクがある。これは本当に悩ましい。
介入の度合いをどう評価するか
すべての業務に人間を挟む必要はない。Human-out-of-the-loopで回せる領域はさっさと手放すべきである。
例えば、製造ラインの不良品検知。PoCの段階では人間がダブルチェックをしていたが、誤検知率が許容ラインを下回った時点で完全無人化に切り替えた。
一方で、経理の巨額送金承認や、人事の採用合否判定はどうだろうか。
リスク許容度と業務の性質を天秤にかけ、どこに人間を配置するか。正解は一つではないし、運用しながら泥臭く調整していくしかない。
当社の見解
当社ではClaude Code・Antigravity・Codexの3つのAIエージェントを日常業務で併用している。記憶を共有しているため、別のAIに同じ説明を繰り返す必要がない。ただし、記憶共有だけでは足りなかった。一方のAIが他方の成果物を勝手に修正して壊す事故が起きた。これを受けてファイル所有権制度を導入し、どのAIがどのファイルを所有するかを定義した。AIの自主性に頼らず、仕組みで上書きや巻き戻りを防いでいる。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
