Prompt Hijackingとは
Prompt Hijackingとは、大規模言語モデル(LLM)に対して
読み: プロンプトハイジャッキング
大規模言語モデル(LLM)に対して、本来の指示とは異なる悪意のある指示を注入し、意図しない動作をさせる攻撃手法である。これにより、機密情報の漏洩や不適切なコンテンツの生成などが引き起こされる可能性がある。LLMのセキュリティにおける重要な課題の一つである。
かんたんに言うと
かんたんに言うと、多モーダルAIに悪い命令をこっそり混ぜて、変なことをさせる攻撃のことである。
Prompt Hijackingの手口
Prompt Hijackingは、様々な手口で行われる。例えば、ユーザーの入力に紛れ込ませて悪意のある指示を注入する手法や、LLMが参照する外部データに不正な情報を埋め込む手法などが存在する。また、LLMの脆弱性を利用して、内部の動作を書き換えるような高度な攻撃も考えられる。これらの攻撃は、LLMの利用者が気づかないうちに実行されることが多い。
Prompt Hijackingによるリスク
Prompt Hijackingが成功すると、様々なリスクが生じる。機密情報が外部に漏洩する可能性がある。また、LLMが差別的な発言や有害なコンテンツを生成してしまう可能性もある。さらに、LLMの動作が不安定になり、サービス全体の信頼性が低下する恐れもある。企業や組織は、これらのリスクを認識し、適切な対策を講じる必要がある。
Prompt Hijackingへの対策
Prompt Hijackingへの対策は、多層的なアプローチが求められる。入力データの厳格な検証、LLMのセキュリティ脆弱性の修正、出力データの監視などが重要である。また、LLMの挙動を監視し、異常な動作を検知する仕組みも有効である。さらに、LLMの利用者にセキュリティに関する教育を行うことも、重要な対策の一つである。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
