Indirect Prompt Injectionとは
Indirect Prompt Injectionとは、大規模言語モデル(LLM)の脆弱性を利用した攻撃手法の一つである
読み: インダイレクトprompt-injection”]プロンプトインジェクション
大規模言語モデル(LLM)の脆弱性を利用した攻撃手法の一つである。直接的な指示ではなく、LLMがアクセスする外部データを通じて悪意のあるプロンプトを注入し、意図しない動作を引き起こす。この攻撃は、LLMの安全性と信頼性を脅かす深刻な問題である。
かんたんに言うと
かんたんに言うと、LLMに読ませるデータに悪意のある命令を仕込んで、LLMを操る攻撃のことである。
Indirect Prompt Injectionの仕組み
Indirect Prompt Injectionは、LLMが外部データソース(ウェブサイト、データベース、ファイルなど)から情報を取得する際に発生する。攻撃者は、これらのデータソースに悪意のあるプロンプトを埋め込む。LLMがそのデータを読み込むと、埋め込まれたプロンプトが実行され、LLMの動作が改ざんされる。これにより、LLMは本来の目的とは異なる動作をしたり、機密情報を漏洩したりする可能性がある。
Indirect Prompt Injectionの対策
Indirect Prompt Injectionを防ぐためには、いくつかの対策が考えられる。一つは、LLMがアクセスする外部データソースの信頼性を検証することである。また、LLMに入力されるデータをサニタイズ(無害化)し、悪意のあるプロンプトを除去することも重要である。さらに、LLMの出力結果を監視し、異常な動作を検知する仕組みを導入することも有効である。
Indirect Prompt Injectionのリスク
Indirect Prompt Injectionは、LLMを利用した様々なアプリケーションにリスクをもたらす。例えば、顧客サポートチャットボットが悪意のあるプロンプトによって不適切な回答をしたり、自動翻訳システムが誤った翻訳を生成したりする可能性がある。また、機密情報を扱うLLMが攻撃を受けると、重大な情報漏洩につながる恐れもある。そのため、Indirect Prompt Injectionに対する適切な対策を講じることが重要である。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
