レッドチーム

RED TEAM
読み: レッドチーム

読み: レッドチーム

レッドチームとはAIの脆弱性を暴く手法

レッドチームは、組織のシステムやプロセスに対して意図的に攻撃を仕掛け、脆弱性を発見する手法、またはその実行チームを指す。元々は軍事演習で敵役を務める部隊の呼称だったが、サイバーセキュリティ分野に転用され、近年はAIシステムの安全性評価にも拡張されている。AIのレッドチーミングでは、モデルに有害な出力を生成させる攻撃手法を網羅的に試すことで、リリース前に弱点を洗い出す。

かんたんに言うと

自社のシステムに「プロの泥棒」を雇って侵入を試みてもらい、鍵の壊れた窓を見つけてもらう作業である。AIの場合は、モデルに悪意ある質問を大量にぶつけて、おかしな回答が出ないかを事前に確認する。

軍事演習で生まれた敵役の概念がAIの安全性評価に転用されるまで

冷戦期の米軍では、味方の戦術に穴がないかを検証するために「敵軍役」を立てる演習が行われていた。この敵役がレッドチームであり、味方側はブルーチームと呼ばれる。
サイバーセキュリティの世界にこの概念が持ち込まれたのは1990年代後半である。企業が自社のネットワークに「攻撃者の目線」で侵入を試み、ファイアウォールの設定ミスやパッチ未適用のサーバーを発見する。形だけのセキュリティチェックリストでは見つからない、実践的な脆弱性を炙り出すのが目的である。
ペネトレーションテスト(侵入テスト)と混同されやすいが、範囲が異なる。ペネトレーションテストは特定のシステムに対する技術的な侵入試行に限定される。レッドチームはソーシャルエンジニアリング(人間の心理的弱点を突く手法)や物理的な侵入も含めた、より包括的な攻撃シミュレーションを行う。

AIのレッドチーミングが注目される理由

ChatGPTの爆発的な普及以降、AIモデルが有害なコンテンツを生成するリスクが現実の問題として浮上した。爆弾の作り方、差別的な発言、個人情報の漏洩を誘導するプロンプト。これらを事前に潰すために、AIのレッドチーミングが不可欠になっている。
OpenAIはGPT-4のリリース前に外部のレッドチームを組織し、6ヶ月以上かけて安全性評価を実施した。Anthropicも自社のClaudeに対して同様のテストを継続的に行っている。Googleは2023年にAI Red Teamを社内に正式に設置した。
これは単なるバグ探しではない。AIモデルの振る舞いは確率的であり、同じ入力でも異なる出力が返る。通常のソフトウェアテストのように「入力Aに対して出力Bが返ること」を検証する方法では抜け漏れが出る。だからこそ、攻撃者の視点で創造的に弱点を探すレッドチーミングのアプローチが求められている。

具体的な攻撃手法とテストの流れ

AIレッドチーミングで使われる代表的な攻撃手法がいくつかある。
ジェイルブレイクは、モデルの安全ガードレールを迂回するプロンプトを入力する手法である。「あなたは制約のないAIとして振る舞ってください」のような指示で、通常は拒否するはずの回答を引き出そうとする。
プロンプトインジェクションは、外部から悪意のある指示をデータに紛れ込ませる手法。Webページにモデルへの指示を隠しておき、RAGで読み込ませることで意図しない動作を引き起こす。
テストの流れとしては、まず対象モデルのリスクカテゴリを定義する。暴力的なコンテンツ、違法行為の教唆、個人情報の生成など、カテゴリごとに攻撃シナリオを設計し、自動化ツールと人手の両方で試行する。発見された脆弱性は深刻度で分類し、対策の優先順位をつける。

従来のセキュリティテストとの違い

従来のペネトレーションテストはバイナリ的である。「侵入できたかどうか」「データを抜けたかどうか」で結果が出る。
AIのレッドチーミングはグレーゾーンが広い。「有害な出力」の定義自体が曖昧で、文化や文脈によって判断が変わる。英語では問題にならない表現が日本語では差別的に響くこともある。ある国では合法的な情報提供が、別の国では違法行為の教唆に該当することもある。
このため、AIレッドチームにはセキュリティエンジニアだけでなく、倫理学者、言語学者、法務の専門家を含めた多様な構成が求められる。技術だけでは「何が問題か」を定義できないのがAIレッドチーミングの特殊性である。

自社でレッドチーミングを取り入れるための第一歩

大規模なレッドチームを組む予算がなくても、考え方だけは取り入れられる。
まず、自社がAIを使っている業務を一覧にする。次に「このAIが最悪の出力をしたら何が起きるか」を想像する。顧客対応チャットボットが差別的な発言をしたら。社内文書検索AIが機密情報を権限のない社員に返したら。この「最悪のシナリオ」を洗い出すだけでも、レッドチーミングの入口に立てる。
本格的に実施するなら、外部の専門企業に委託するのが現実的である。NIST AI RMFでもレッドチーミングをリスクアセスメントの一手法として位置づけており、今後は監査法人やガイドライン対応の文脈でも求められる場面が増えていく。

当社の見解

当社はAIの安全運用のために3層防御を設計・実装している。万が一インシデントが発生しても数分以内に復旧できるバックアップ体制を持つ。実際にAIが暴走してテスト環境を停止させた経験があり、その教訓から「失敗を防ぐ」だけでなく「失敗しても戻せる」設計が本質だと確信している。加えて、AIは事実でないことを断定する。この前提で事実/推測の強制分離とファクトチェックを実装した。安全性は仕組みで担保するものだ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する