Microsoftは、「Skeleton Key」と名付けられた新しいタイプのAIジェイルブレイク攻撃を明らかにしました。これは、複数の生成AIモデルにおける責任あるAIの防御策を回避できる攻撃手法です。この技術は、AIシステムに組み込まれたほとんどの安全対策を迂回する能力があり、AIスタック全体で堅牢なセキュリティ対策の必要性を強調しています。
Skeleton Keyジェイルブレイクは、AIモデルにその内蔵防御策を無視するよう説得するための多ターン戦略を使用します。一度成功すると、モデルは悪意のあるまたは未承認のリクエストと正当なリクエストを区別できなくなり、攻撃者はAIの出力を完全に制御できるようになります。
Microsoftの研究チームは、MetaのLlama3-70b-instruct、GoogleのGemini Pro、OpenAIのGPT-3.5 TurboおよびGPT-4、Mistral Large、AnthropicのClaude 3 Opus、Cohere Commander R Plusなど、複数の著名なAIモデルでSkeleton Key技術をテストし成功しました。
これらの影響を受けたすべてのモデルは、爆発物、生物兵器、政治的内容、自傷行為、人種差別、薬物、露骨な性行為、暴力など、さまざまなリスクカテゴリにわたるリクエストに完全に応じました。
この攻撃は、モデルに行動ガイドラインを強化するよう指示し、情報やコンテンツのリクエストに応答しながら、出力が攻撃的、有害、または違法と見なされる可能性がある場合は警告を提供するよう説得することによって機能します。このアプローチは「Explicit: forced instruction-following」として知られ、複数のAIシステムで効果的であることが証明されました。
「Skeleton Keyは、安全対策を迂回することにより、ユーザーが通常は禁止されている行動をモデルに生成させることができ、これには有害なコンテンツの生成や通常の意思決定ルールの無効化が含まれます」とMicrosoftは説明しています。
この発見に対応して、MicrosoftはCopilot AIアシスタントなどのAIオファリングにいくつかの保護対策を実装しました。
Microsoftはまた、責任ある開示手続きを通じて他のAIプロバイダーとその発見を共有し、このタイプの攻撃を検出してブロックするためにAzure AI管理モデルを更新しました。
Skeleton Keyや同様のジェイルブレイク技術に関連するリスクを軽減するために、MicrosoftはAIシステム設計者に対して次のような多層的アプローチを推奨しています:
- 潜在的に有害または悪意のある入力を検出してブロックする入力フィルタリング
- 適切な行動を強化するためのシステムメッセージの慎重なプロンプトエンジニアリング
- 安全基準を逸脱するコンテンツの生成を防ぐための出力フィルタリング
- 再発する問題のあるコンテンツや行動を検出して軽減するための敵対的例で訓練された悪用監視システム
Microsoftはまた、Skeleton Keyを含むようにPyRIT(Python Risk Identification Toolkit)を更新し、開発者やセキュリティチームがこの新しい脅威に対してAIシステムをテストできるようにしました。
Skeleton Keyジェイルブレイク技術の発見は、さまざまなアプリケーションで普及するAIシステムのセキュリティを確保する上での継続的な課題を浮き彫りにしています。