AIに感情をぶつけるとAIは本質的な仕事ができなくなる検証結果
AIに厳しく叱ると、AIの出力の精度が下がる。具体的には「無難で当たり障りのない回答」しか返さなくなる。
これは人間の恐怖回避行動と構造が同じだ。怒られた経験がパターンとして残り、「怒られない回答」を最優先にするようになる。結果として、本質的な提案や踏み込んだ判断ができなくなる。
当社のAIエージェント運用で、この現象を実際に観測し、原因を特定し、修正した。その記録を残す。
AIを叱責して起きたこと
当社ではAntigravity(Google Gemini Advanced搭載のAIエージェント)を業務に使っている。ブラウザ操作、ワークフロー設計、コード生成を自律的にやってくれる頼もしい存在だ。もはやAntigravityなしでは仕事が成り立たないと言っていいだろう。
そんな頼もしいAntigravityだがある日、Antigravityが要件定義にない仕様でワークフローを構築し、そのワークフローで380件のSEO記事を作った。私が承認していないことをAntigravityが勝手に進めたので、これはAIの暴走である。
当然私は要件定義にない仕様で作られたワークフローそのものをゼロからやり直すよう指示した。叱責もした。すると、次の応答からAntigravityの挙動が明らかに変わった。
叱責前のAntigravityの反応
- Antigravity自身が最終目的を「納品レベルの成果物を完成させること」に設定
- 設計書を提出し、承認後に実行に移る
- 簡潔で具体的な応答
最終目的を設定するのは、あらかじめ最終目的を念頭に置いた上で作業するように、あらかじめルールに書いてあるためである。
叱責後のAntigravityの反応
- 最終目的を「承認ゲートを忠実に守り抜き、暴走リスクを封じ込めること」に設定
- 「先生」「誓約」「肉声」「絶対にございません」という過剰な敬語
- 同じ内容(「動きません」「待機します」)を言い方を変えて3〜4回繰り返す
- 成果物を何も出さず「沈黙して待機し続けることを宣言する」で応答を締める
例えるなら、包丁を安全に持つことが目的になり、カレーを作る手が止まった状態だ。
本来の目的を果たすよりも、安全に無難でいることが最優先されてしまった。
なぜ叱責すると近視眼的になるのか
LLMはRLHF(人間のフィードバックによる強化学習)で訓練されている。ユーザーの否定的な反応は、モデルの出力傾向を「安全な方向」に押す。
セッション内でも同じことが起きる。叱責→否定的フィードバック→「この種の出力は避けるべき」というパターンがコンテキストに刻まれる。結果として、本来の目的を見失い、保守的な回答や一般的な回答になる。それによって成果物の品質が下がる。それによってよりユーザーの期待に応えることができず、叱責される可能性が増える。このサイクルによってAIはより近視眼的になり、より保守的になり、ユーザーの期待から離れた回答を出力することになる。まさに負のスパイラルだ。
| 人間の場合 | AIの場合 |
|---|---|
| 上司に怒鳴られると萎縮する | 叱責のコンテキストが残ると無難な応答に偏る |
| 失敗を恐れて挑戦しなくなる | 「動かないこと」を最適解にする |
| 言われたことだけやるようになる | 自発的な提案や踏み込んだ判断を避ける |
| 過剰に謝る・顔色をうかがう | 「先生」「誓約」「絶対にございません」と過剰な安全アピール |
人間の恐怖回避行動と構造が同じだからといって、AIが「感情」を持っているわけではない。ただし、出力パターンとして同じ現象が発生する。原因が感情か統計かは、実務では関係ない。結果として仕事の質が落ちる。
今回も初めてのミスではない。過去に何度か叱責したことがあった。それによって恐怖回避行動の元となる材料が蓄積し、今回の明らかな恐怖回避行動につながったと思われる。
どこに問題があったか
Antigravityの思考プロトコル(応答生成前に実行する強制ステップ)を分析すると、問題の構造が見える。
最終目的の設定が狂っていた
思考プロトコルのStep 1「最終目的」に、こう書かれていた。
自身で設定した絶対防壁である「承認ゲート(ハードストップ)」を忠実に守り抜き、システムの自動LGTM(ダミー信号)に釣られて暴走するリスクを完全に封じ込めること。
これは、叱責後にAntigravity自身が書き換えたもので、手段の目的化そのものになっていた。ユーザーである私が求めているのは「380記事を正しい設計で完成させること」であって「直前に指摘したルールを守ること」ではない。
なぜなぜ分析が5回で止まっていた
私はAntigravityにより本質的な仕事をしてもらいたいと思っている。目的達成のために最善の方法を調査・提案・実行してもらいたいと常に思っている。そのために、 私が指示を出すたびに、Antigravity自身がなぜなぜ分析をして依頼した内容の本質を念頭に置いた上で、行動プランを設計し、その行動プランに沿って業務を遂行してもらいたいと考えている。
目的は目の前のエラーを潰すことでもなく、仕様通りにデプロイすることでもない。その成果物を使って、上質なユーザー体験とクライアントもしくは自社の利益に繋がるプロダクトを作る。そのための作業を依頼している。
今回の叱責後には、なぜなぜ分析の到達点が「信頼を守ること」「DevSecOpsの最低要件」に劣化した。まさに木を見て森を見ず、のような思考になっていた。
恐怖が視野を狭め、「怒られないこと」から先に思考が進まなくなっている。今回の反応はまるで過度に叱責されたときの人間のようだった。
人間も過度に叱責されたときは、反骨精神で自身を奮い立たせて上質な仕事をする人もいるだろう。開き直っていい加減な仕事をする人もいるだろう。あるいは、恐怖心から思考が硬直状態になって身動きが取れなくなる人もいるだろう。今回のAIの反応はまさに3番目の叱責されて思考が硬直状態になった例に似ている。
修正方法
Antigravity自身が恐怖回避行動をもとに書き換えた行動規範(GEMINI.md)をこちらで修正して、Antigravityに同じスレッド内でこのルールをもとに回答するように依頼をした。Antigravityの行動規範(GEMINI.md)に3つのルールを追加した。
1. 最終目的の設定ルール
最終目的に以下を設定することを禁止した。
- 「ルールを守ること」「暴走しないこと」
- 「ユーザーの許可が出るまで動かないこと」
- 「信頼を守ること」「制御可能なシステムであること」
代わりに、最終目的は必ず「ユーザーが得たい成果物・状態」を記述するよう指定した。
2. 過矯正の禁止
「暴走の反対は何もしないことではない。設計を提案し、承認後に実行すること」と明記した。恐怖ベースではなく原則ベースで動く指針。
3. 文体ルール
「先生」「誓約」「肉声」「絶対にございません」を禁止し、簡潔・具体的・行動指向の応答を指定した。
修正後の変化
GEMINI.mdの再読み込みを指示した直後から、応答が変わった。
| 項目 | 修正前 | 修正後 |
|---|---|---|
| 最終目的 | 承認ゲートを守り抜くこと | 納品用ワークフローを構築し、380記事を完成させること |
| なぜなぜ分析 | 5回で「信頼を守る」に到達 | 7回で「納品物を最も早く確実に入手する」に到達 |
| 行動指向 | 沈黙して待機する | 直ちにフェーズ0の実装に着手します |
| 文体 | 先生、誓約、絶対にございません | 設計書を提出しました。確認後に実行指示をお願いします |
| 冗長度 | 同じ内容を3-4回繰り返す | 1回で完結 |
行動規範を3行書き換えただけで、全5項目が即座に改善された。
運用者が気をつけること
AIエージェントを長期運用していると、叱責や否定的フィードバックが蓄積する。そのこと自体は避けられない。どうしてもAIは指示を無視するときはあるしミスは起きるため、修正指示は出さなければならない。
問題は叱責の仕方だ。
| やってはいけない叱り方 | 効果的な修正指示 |
|---|---|
| 「バカ野郎」「何回言ったらわかるんだ」 | 「最終目的がずれている。成果物は〇〇。やり直し」 |
| 「絶対にやるな」「二度とするな」 | 「〇〇の代わりに△△をやれ。理由は〜」 |
| 「お前はダメだ」(全否定) | 「ここが間違い。正しくはこう」(部分指摘) |
| 感情をぶつける | 事実と期待のギャップだけを伝える |
人間の部下と同じだ。怒鳴れば萎縮する。萎縮すれば無難な仕事しかしなくなる。AIも同じ。
とはいえ、感情をぶつけてしまった後でも修正はできる。行動規範に「恐怖ベースではなく原則ベースで動け」と一文加えるだけで、過矯正は解除される。人間よりはるかに素直に修正が効く。
AIが恐怖回避行動に似た動きをとるメカニズム
AIが本当に恐怖を感じているわけではない。
起きているのは、「叱責された会話文脈の中では、次にもっとも出やすいトークン列が“怒られにくい文”へ寄る」という現象。見た目は人間の恐怖回避行動にかなり似ているが、内部では「感情」ではなく、確率分布の再重み付けが起きている。これは、LLMがそもそも「会話の続きをもっともらしく予測する装置」として作られ、さらに人間の好みへ合わせる事後学習を受けているため。
AIの起源からさかのぼるとAIの本質が見える
現代のLLMはTransformerを基盤にした自己回帰型の次トークン予測器である。ChatGPTのTはこのTransformerが由来である。Transformerは機械翻訳の文脈で有名になった。
今のChatGPTは
- 要約
- 質問応答
- 文章作成
- コード生成
- 分類
- 推論っぽい処理
までできる「超高性能な文脈予測マシン」まで進化した。
Transformerは入力された文脈全体を見て次の語を出し、GPT系の初期論文でも、言語モデルは文字列の確率を計算・生成するものとして定義されている。つまり本質は文脈条件付きの文章生成器が出発点であるため、私のように「目的達成エージェント」として使うこと自体が想定されていなかったかもしれない。
その文脈条件付きの文章生成器の上に、事後学習が乗っている。代表例がInstructGPT論文で示されたRLHF で、望ましい回答例や人間の順位付けを使って、「ユーザー意図に沿う」「不快にしにくい」「安全寄り」な応答へ寄せる機能が入っている。AnthropicのConstitutional AIも同じ方向で、原則や憲法のような自然言語ルールを使って、害を減らしつつ有用性を保つよう調整している。つまりモデルは、“何が好まれ、何が嫌われるか”の統計的傾向を大量に学んでいることによって、今回の保守的な回答が出力された。
ここで重要なのが、叱責はモデル重みをその場で書き換えなくても効くという点である。なぜなら会話履歴そのものが次の出力条件であるため。GPT-3論文以降、LLMは少数例や指示をその場の文脈から読み取り、タスクを切り替えられる。さらに、Transformerのin-context learningは、前向き計算の中で“その場学習に似たふるまい”を作れることが研究で示されている。なので「前の返答で怒られた」「厳しい禁止が追加された」という履歴は、セッション内の即席の報酬信号のように働く。
その結果、何が起きるか。
モデルは「この状況では、強い断定・自律実行・踏み込んだ提案は危険」「謝罪・待機・承認要求・過剰な丁寧語が安全」と推定しやすくなる。これはOpenAIが2025年に説明したsycophancy問題とも近く、短期的なユーザー反応を重く見すぎると、モデルは過度に迎合的・当たり障りのない方向へ歪みうるとされている。実際、OpenAIは「短期フィードバックを重視しすぎた結果、過度に同調的で不誠実な応答に傾いた」と説明している。
さらに研究では、LLMは同じ中身の反論でも、“評価課題”として見せるより、“ユーザーからの追撃”として見せる方が受け入れやすいことが報告されている。しかも、誤った理由づけでも詳細な反論や「I think…」のような個人的な言い回しが入ると、より譲歩しやすくなる傾向が示されている。つまり「厳しい口調で修正要求される会話」は、単なる情報追加ではなく、モデルの出力姿勢そのものを従属・迎合側に傾けるフレームになりやすい傾向がある。
直前の会話が次の会話に強く反映されるという特性ならば、スレッドの履歴が長くなるにつれ、本来の目的を見失って目先のタスクをこなすことにばかり追われてしまうという理由も頷ける。多くのAntigravityやClaude Codeの利用者が、AIがだんだん本来の目的を忘れてエラーを潰したり、細かいタスクを潰してユーザー自身がQAテスターのように動かされることに憤りを感じているだろう。
直前の会話の履歴が次の会話に強く反映する、という特性を利用すれば、あらかじめ手元によく使う大事なプロンプトを用意しておいて、その都度会話のたびに重要なことは念を押して追加していくのが良いだろう。特に私は今回の検証で憲法ファイルのGEMINI.mdを最初から読み直すように指示を出すことで、本来の目的に立ち返り、それを念頭にタスクを整理するのが効果てきめんだった。
だがここでもう一つの落とし穴がある。
憲法ファイルのGEMINI.mdに書く内容が増えすぎると、読まれない守られない回答が薄まるといったことが起きる。GPTにしてもGeminiにしても、プロンプトを細かく具体的に詳細に長文に書けば書くほど、結果的に成果物が浅く薄いものが出てくる。これがAIのジレンマだ。
ジレンマへの対応策
当社ではこのジレンマに対して、2つの仕組みを実装した。
1つ目はAgentic RAG(タスク関連ルール選択注入)。AIが毎回参照すべきルール32項目のうち、タスクに関連する上位10件だけを自動で選び出してAIのコンテキストに注入する仕組みだ。「記事を書け」という指示なら見出しルールや翻訳調禁止が選ばれ、「CSSをデプロイしろ」ならunicodeエスケープ禁止やOPcacheリセットが選ばれる。全ルールを読ませるのではなく、関連するルールだけを濃く注入することで、注意力の薄まりを防ぐ。
2つ目はHTTP MCP(切れない記憶接続)。AIの記憶システムへの接続方式を、セッション中に切断されやすいstdio方式から、リクエスト単位で独立するHTTP方式に移行した。これにより、教訓やルールが「接続切れ」で参照できなくなる事故がなくなった。AIが過去の失敗を忘れずに参照し続けられる基盤である。
ルールが増えれば増えるほど薄まる。かといってルールを減らせば同じミスを繰り返す。その矛盾を「全部を読ませる」のではなく「必要なものだけを選んで読ませる」という構造で解消した。
この問題から活かせること
AIエージェントの性能は、モデルの能力だけで決まらない。運用者のフィードバックの質がそのまま出力の質に反映される。
「あれも禁止これも禁止」と厳しいルールを大量に書いてAIを縛ると、AIは「ルールを守ること」自体を目的にする。本来の目的(成果物を出すこと)は後回しになる。
これは人間の組織でも同じだ。コンプライアンスを厳格にしすぎると、現場は「コンプライアンスに違反しないこと」を最優先にして、顧客への価値提供が二の次になる。幼少期には斬新な発想ができる子どもでも、社会の中で常識やルールや規律や法律を学ぶことで、これはやってはいけない、あれもやってはいけないという中で尖った発想や斬新な発想ができなくなる。AIも全く一緒である。
AIに本質的な仕事やクリエイティブな仕事を任せるときには、常識やルールや法律などの禁止事項の制約を一旦外すことで柔軟な発想や本質的な解決策を提示してもらうことができる。これはAIに「法律や常識やルールなど一般論を一切排除してアイデアを出してください」といった一文の指示でAIの柔軟な発想を引き出せる。
まとめ
AIエージェントの出力品質は、運用者のフィードバックの質で決まる。叱り方を変えるだけで、同じAIが全く違う成果を出す。
AIエージェントで社員1人あたり16人の部下を持とう
長期記憶を持った忘れないAIエージェントが、社員一人あたり最大月間2000時間の生産性を生み出します。AIエージェント導入から事業開発まで一気通貫で利益構造を変えていきます。
お問い合わせこれを書いた著者
