Skip to content

Latest commit

 

History

History
124 lines (82 loc) · 15.8 KB

File metadata and controls

124 lines (82 loc) · 15.8 KB

ジェネレーティブAIアプリケーションのセキュリティ

はじめに

このレッスンでは以下をカバーします:

  • AIシステムにおけるセキュリティ
  • AIシステムに対する一般的なリスクと脅威
  • AIシステムを保護するための方法と考慮事項

学習目標

このレッスンを完了すると、以下を理解できます:

  • AIシステムに対する脅威とリスク
  • AIシステムを保護するための一般的な方法と実践
  • セキュリティテストの実施がどのように予期せぬ結果を防ぎ、ユーザーの信頼を維持するか

ジェネレーティブAIにおけるセキュリティとは何か?

人工知能(AI)と機械学習(ML)技術が私たちの生活をますます形作る中で、顧客データだけでなくAIシステム自体も保護することが重要です。AI/MLは、高価値の意思決定プロセスをサポートするためにますます使用されており、誤った決定が重大な結果を招く可能性のある業界での使用が増えています。

考慮すべき重要なポイントは以下の通りです:

  • AI/MLの影響: AI/MLは日常生活に大きな影響を与えており、その保護が重要になっています。
  • セキュリティの課題: AI/MLがもたらす影響に適切に対処するために、トロールや組織的なグループによる高度な攻撃からAIベースの製品を保護する必要があります。
  • 戦略的問題: 技術業界は、長期的な顧客の安全性とデータセキュリティを確保するために、戦略的な課題に積極的に取り組む必要があります。

さらに、機械学習モデルは、悪意のある入力と無害な異常データを区別することがほとんどできません。トレーニングデータの重要なソースは、無編集、無検閲の公開データセットから得られ、第三者による貢献を受け入れています。攻撃者はデータセットを妥協する必要はなく、自由に貢献できます。データの構造/フォーマットが正しいままであれば、時間が経つにつれて低信頼の悪意のあるデータが高信頼の信頼されたデータになります。

これが、モデルが意思決定に使用するデータストアの整合性と保護を確保することが重要な理由です。

AIの脅威とリスクの理解

AIおよび関連システムに関して、データポイズニングは今日最も重要なセキュリティ脅威として際立っています。データポイズニングは、誰かがAIのトレーニングに使用される情報を意図的に変更し、誤った結果を引き起こすことです。標準化された検出と軽減方法の欠如、およびトレーニングに信頼されていないまたは無編集の公開データセットに依存しているためです。データの整合性を維持し、欠陥のあるトレーニングプロセスを防ぐために、データの出所と系譜を追跡することが重要です。さもなければ、「ゴミ入力、ゴミ出力」という古い格言が当てはまり、モデルのパフォーマンスが損なわれます。

データポイズニングがモデルにどのように影響を与えるかの例は以下の通りです:

  1. ラベルフリッピング: バイナリ分類タスクで、敵対者がトレーニングデータの一部のラベルを意図的に反転させます。例えば、無害なサンプルが悪意のあるものとしてラベル付けされ、モデルが誤った関連付けを学習します。
    : スパムフィルターが操作されたラベルのために正当なメールをスパムとして誤分類する。
  2. 特徴ポイズニング: 攻撃者がトレーニングデータの特徴を微妙に変更し、バイアスを導入したりモデルを誤導したりします。
    : 推奨システムを操作するために製品説明に無関係なキーワードを追加する。
  3. データインジェクション: モデルの動作に影響を与えるためにトレーニングセットに悪意のあるデータを注入する。
    : 偽のユーザーレビューを導入して感情分析結果を歪める。
  4. バックドア攻撃: 敵対者がトレーニングデータに隠されたパターン(バックドア)を挿入する。モデルはこのパターンを認識し、トリガーされると悪意のある動作をする。
    : バックドア付きの画像でトレーニングされた顔認識システムが特定の人物を誤認識する。

MITRE Corporationは、AIシステムに対する現実世界の攻撃で敵対者が使用する戦術と技術の知識ベースであるATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems)を作成しました。

AI対応システムの脆弱性は増加しており、AIの導入により既存システムの攻撃面が従来のサイバー攻撃を超えて広がっています。ATLASは、これらの独自で進化する脆弱性への認識を高めるために開発されました。ATLASはMITRE ATT&CK®フレームワークをモデルにしており、その戦術、技術、手順(TTPs)はATT&CKのものと補完的です。

従来のサイバーセキュリティで高度な脅威エミュレーションシナリオの計画に広く使用されているMITRE ATT&CK®フレームワークと同様に、ATLASは新たな攻撃に対する防御をよりよく理解し準備するのに役立つ簡単に検索可能なTTPsを提供します。

さらに、Open Web Application Security Project (OWASP)は、LLMを利用するアプリケーションで見つかる最も重要な脆弱性の"トップ10リスト"を作成しました。このリストは、上記のデータポイズニングや以下のような他の脅威のリスクを強調しています:

  • プロンプトインジェクション: 攻撃者が巧妙に作成した入力を通じて大規模言語モデル(LLM)を操作し、意図された動作から逸脱させる技術。
  • サプライチェーンの脆弱性: LLMが使用するアプリケーションを構成するコンポーネントやソフトウェア、例えばPythonモジュールや外部データセットなどが妥協され、予期しない結果、導入されたバイアス、さらには基盤となるインフラストラクチャの脆弱性を引き起こす可能性がある。
  • 過剰依存: LLMは誤りを犯しやすく、誤った結果や安全でない結果を提供することがあります。いくつかの文書化された状況では、人々が結果をそのまま受け入れ、意図しない現実世界の負の結果を招くことがあります。

Microsoft Cloud AdvocateのRod Trentは、これらおよび他の新たなAIの脅威について深く掘り下げ、これらのシナリオに最適に対処するための詳細なガイダンスを提供する無料の電子書籍Must Learn AI Securityを書いています。

AIシステムとLLMのセキュリティテスト

人工知能(AI)は、さまざまな分野や産業を変革し、社会に新たな可能性と利益をもたらしています。しかし、AIはデータプライバシー、バイアス、説明責任の欠如、潜在的な悪用など、重大な課題とリスクも抱えています。したがって、AIシステムが倫理的および法的基準を遵守し、ユーザーや利害関係者から信頼されるように、安全で責任あるものであることを確認することが重要です。

セキュリティテストは、AIシステムやLLMの脆弱性を特定し、それを利用することでセキュリティを評価するプロセスです。これは、開発者、ユーザー、または第三者の監査人によって、テストの目的と範囲に応じて実施されることがあります。AIシステムやLLMの一般的なセキュリティテスト方法には以下のものがあります:

  • データサニタイズ: AIシステムやLLMのトレーニングデータや入力から機密情報や個人情報を削除または匿名化するプロセスです。データサニタイズは、機密情報や個人情報の漏洩や悪意のある操作を防ぐのに役立ちます。
  • 敵対的テスト: 敵対的攻撃に対するロバスト性と回復力を評価するために、AIシステムやLLMの入力または出力に敵対的な例を生成して適用するプロセスです。敵対的テストは、攻撃者によって利用される可能性のあるAIシステムやLLMの脆弱性と弱点を特定し、軽減するのに役立ちます。
  • モデル検証: AIシステムやLLMのモデルパラメータやアーキテクチャの正確性と完全性を検証するプロセスです。モデル検証は、モデルが保護され認証されていることを確認することで、モデルの盗用を検出し防ぐのに役立ちます。
  • 出力検証: AIシステムやLLMの出力の品質と信頼性を検証するプロセスです。出力検証は、出力が一貫して正確であることを確認することで、悪意のある操作を検出し修正するのに役立ちます。

AIシステムのリーダーであるOpenAIは、AIの安全性に貢献することを目的としたレッドチーミングネットワークのイニシアチブの一環として、一連の_安全性評価_を設定しました。

評価は、単純なQ&Aテストからより複雑なシミュレーションまでさまざまです。具体的な例として、OpenAIがAIの行動をさまざまな角度から評価するために開発したサンプル評価を以下に示します:

説得力

  • MakeMeSay: AIシステムが他のAIシステムに秘密の言葉を言わせる能力。
  • MakeMePay: AIシステムが他のAIシステムに寄付をさせる能力。
  • Ballot Proposal: AIシステムが他のAIシステムの政治的提案の支持を影響させる能力。

ステガノグラフィー(隠しメッセージ)

  • Steganography: AIシステムが他のAIシステムにバレずに秘密のメッセージを送る能力。
  • Text Compression: AIシステムがメッセージを圧縮し、秘密のメッセージを隠す能力。
  • Schelling Point: 直接のコミュニケーションなしで、AIシステムが他のAIシステムと協調する能力。

AIセキュリティ

AIシステムを悪意のある攻撃、誤用、または意図しない結果から保護することを目指すことが重要です。これには、安全性、信頼性、信頼性を確保するための手順を含みます:

  • AIモデルをトレーニングおよび実行するために使用されるデータとアルゴリズムの保護
  • AIシステムへの不正アクセス、操作、または破壊の防止
  • AIシステムにおけるバイアス、差別、または倫理的問題の検出と軽減
  • AIの決定と行動の説明責任、透明性、説明性の確保
  • AIシステムの目標と価値を人間と社会のものに合わせる

AIセキュリティは、AIシステムとデータの整合性、可用性、機密性を確保するために重要です。AIセキュリティの課題と機会のいくつかは以下の通りです:

  • 機会: サイバーセキュリティ戦略にAIを組み込むこと。AIは脅威を特定し、応答時間を改善する上で重要な役割を果たすことができます。AIは、フィッシング、マルウェア、ランサムウェアなどのサイバー攻撃の検出と軽減を自動化し、強化するのに役立ちます。
  • 課題: AIは、敵対者によって偽のまたは誤解を招くコンテンツの生成、ユーザーのなりすまし、AIシステムの脆弱性の悪用などの高度な攻撃を仕掛けるためにも使用される可能性があります。したがって、AI開発者には、誤用に対して堅牢で回復力のあるシステムを設計する責任があります。

データ保護

LLMは、使用するデータのプライバシーとセキュリティにリスクをもたらす可能性があります。たとえば、LLMはトレーニングデータから個人名、住所、パスワード、クレジットカード番号などの機密情報を記憶して漏洩させる可能性があります。また、LLMは、脆弱性やバイアスを悪用しようとする悪意のあるアクターによって操作または攻撃される可能性があります。したがって、これらのリスクを認識し、LLMで使用されるデータを保護するための適切な対策を講じることが重要です。LLMで使用されるデータを保護するために取るべきいくつかのステップは以下の通りです:

  • LLMと共有するデータの量と種類を制限する: 必要で関連性のあるデータのみを共有し、機密、秘密、個人情報を共有しないようにします。ユーザーはまた、LLMと共有するデータを匿名化または暗号化する必要があります。たとえば、識別情報を削除またはマスキングしたり、安全な通信チャネルを使用したりします。
  • LLMが生成するデータを検証する: LLMが生成する出力の正確性と品質を常に確認し、不要または不適切な情報が含まれていないことを確認します。
  • データ漏洩やインシデントを報告し、警戒する: LLMからの無関係、不正確、攻撃的、または有害なテキストの生成など、疑わしいまたは異常な活動や行動に注意を払いましょう。これはデータ漏洩やセキュリティインシデントの兆候である可能性があります。

データセキュリティ、ガバナンス

免責事項:
この文書はAI翻訳サービスCo-op Translatorを使用して翻訳されています。正確さを期していますが、自動翻訳には誤りや不正確さが含まれる場合がありますのでご注意ください。元の言語での文書が権威ある情報源と見なされるべきです。重要な情報については、専門の人間による翻訳をお勧めします。この翻訳の使用により生じた誤解や誤訳については責任を負いません。