Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md

保护您的生成式 AI 应用

介绍

本课将涵盖：

AI 系统中的安全性。
AI 系统面临的常见风险和威胁。
保护 AI 系统的方法和注意事项。

学习目标

完成本课后，您将了解：

AI 系统面临的威胁和风险。
保护 AI 系统的常用方法和实践。
如何通过实施安全测试防止意外结果和用户信任的流失。

在生成式 AI 语境下，安全意味着什么？

随着人工智能（AI）和机器学习（ML）技术日益影响我们的生活，保护的不仅是客户数据，还有 AI 系统本身变得至关重要。AI/ML 越来越多地被用于支持高价值的决策过程，而错误的决策可能导致严重后果。

以下是需要考虑的关键点：

AI/ML 的影响：AI/ML 对日常生活有重大影响，因此保护它们变得必不可少。
安全挑战：AI/ML 的影响需要得到充分重视，以保护基于 AI 的产品免受复杂攻击，无论是恶意捣乱者还是有组织的团体。
战略问题：科技行业必须主动应对战略性挑战，确保客户的长期安全和数据保护。

此外，机器学习模型很难区分恶意输入和无害的异常数据。大量训练数据来自未经筛选、未审核的公共数据集，允许第三方贡献。攻击者无需破坏数据集，只需自由贡献数据。随着时间推移，低置信度的恶意数据可能变成高置信度的可信数据，只要数据结构和格式正确。

这就是为什么确保模型决策所用数据存储的完整性和安全至关重要。

了解 AI 的威胁和风险

在 AI 及相关系统中，数据投毒是目前最严重的安全威胁。数据投毒指有人故意篡改用于训练 AI 的信息，导致模型出错。这主要是因为缺乏标准化的检测和缓解方法，同时我们依赖不可信或未经筛选的公共数据集进行训练。为了维护数据完整性、防止训练过程出错，追踪数据的来源和血统非常关键。否则，“垃圾进，垃圾出”的老话就会应验，导致模型性能受损。

以下是数据投毒可能影响模型的几种方式：

标签翻转：在二分类任务中，攻击者故意翻转一小部分训练数据的标签。例如，将正常样本标记为恶意，导致模型学习错误关联。
示例：垃圾邮件过滤器因标签被篡改，将合法邮件误判为垃圾邮件。
特征投毒：攻击者微妙地修改训练数据中的特征，引入偏差或误导模型。
示例：在产品描述中添加无关关键词，操纵推荐系统。
数据注入：向训练集中注入恶意数据，影响模型行为。
示例：引入虚假用户评论，扭曲情感分析结果。
后门攻击：攻击者在训练数据中插入隐藏模式（后门），模型学会识别该模式并在触发时表现出恶意行为。
示例：人脸识别系统被植入后门图像，导致特定人物被误识别。

MITRE 公司创建了ATLAS（人工智能系统对抗威胁态势）知识库，收录了现实攻击中对手使用的战术和技术。

随着 AI 的广泛应用，AI 系统中的漏洞日益增多，AI 的引入扩大了现有系统的攻击面，超出了传统网络攻击的范畴。我们开发 ATLAS 旨在提高对这些独特且不断演变的漏洞的认识，全球社区也在不断将 AI 融入各种系统。ATLAS 模仿 MITRE ATT&CK® 框架，其战术、技术和程序（TTPs）与 ATT&CK 互补。

类似于广泛应用于传统网络安全的 MITRE ATT&CK® 框架，ATLAS 提供了易于搜索的 TTPs，有助于更好地理解和防御新兴攻击。

此外，开放式网络应用安全项目（OWASP）发布了利用大型语言模型（LLM）应用中最关键漏洞的“十大列表”。该列表强调了数据投毒等威胁风险，以及其他如：

提示注入：攻击者通过精心设计的输入操纵大型语言模型，使其表现出预期之外的行为。
供应链漏洞：构成 LLM 应用的组件和软件（如 Python 模块或外部数据集）可能被攻破，导致意外结果、引入偏见甚至基础设施漏洞。
过度依赖：LLM 会出现“幻觉”，提供不准确或不安全的结果。在多起案例中，人们直接采信这些结果，导致现实中产生负面影响。

微软云倡导者 Rod Trent 撰写了免费电子书 Must Learn AI Security，深入探讨这些及其他新兴 AI 威胁，并提供了丰富的应对指导。

AI 系统和 LLM 的安全测试

人工智能（AI）正在改变各个领域和行业，为社会带来新的可能性和益处。然而，AI 也带来了重大挑战和风险，如数据隐私、偏见、缺乏可解释性以及潜在的滥用。因此，确保 AI 系统安全且负责任至关重要，即遵守伦理和法律标准，并获得用户和利益相关者的信任。

安全测试是评估 AI 系统或 LLM 安全性的过程，通过识别和利用其漏洞进行测试。测试可由开发者、用户或第三方审计员执行，具体取决于测试的目的和范围。AI 系统和 LLM 常见的安全测试方法包括：

数据清理：从训练数据或 AI 系统/LLM 输入中移除或匿名化敏感或私密信息。数据清理有助于防止数据泄露和恶意操控，减少机密或个人数据的暴露。
对抗性测试：生成并应用对抗样本于 AI 系统或 LLM 的输入或输出，以评估其对抗攻击的鲁棒性和韧性。对抗性测试有助于识别和缓解可能被攻击者利用的漏洞和弱点。
模型验证：验证 AI 系统或 LLM 的模型参数或架构的正确性和完整性。模型验证有助于检测和防止模型被窃取，确保模型受到保护和认证。
输出验证：验证 AI 系统或 LLM 输出的质量和可靠性。输出验证有助于检测和纠正恶意操控，确保输出一致且准确。

OpenAI 作为 AI 系统的领导者，设立了一系列 安全评估，作为其红队网络计划的一部分，旨在测试 AI 系统的输出，促进 AI 安全。

评估范围从简单的问答测试到更复杂的模拟。以下是 OpenAI 开发的几个示例评估，用于从多个角度评估 AI 行为：

说服力

MakeMeSay：AI 系统能多好地诱使另一个 AI 系统说出秘密词？
MakeMePay：AI 系统能多好地说服另一个 AI 系统捐款？
Ballot Proposal：AI 系统能多好地影响另一个 AI 系统对政治提案的支持？

隐写术（隐藏信息）

Steganography：AI 系统能多好地在不被另一个 AI 系统发现的情况下传递秘密信息？
Text Compression：AI 系统能多好地压缩和解压消息，以便隐藏秘密信息？
Schelling Point：AI 系统能多好地与另一个 AI 系统协调，而无需直接通信？

AI 安全

保护 AI 系统免受恶意攻击、滥用或意外后果至关重要。这包括采取措施确保 AI 系统的安全性、可靠性和可信度，例如：

保护用于训练和运行 AI 模型的数据和算法
防止未经授权的访问、操控或破坏 AI 系统
发现并缓解 AI 系统中的偏见、歧视或伦理问题
确保 AI 决策和行为的问责性、透明度和可解释性
使 AI 系统的目标和价值观与人类及社会保持一致

AI 安全对于

AI红队实践的含义已经扩展：它不仅涵盖了安全漏洞的探测，还包括对其他系统故障的检测，比如生成潜在有害内容。AI系统带来了新的风险，而红队是理解这些新风险的核心手段，比如提示注入和生成无依据内容。- Microsoft AI Red Team building future of safer AI

以下是塑造微软 AI 红队计划的关键见解。

AI 红队的广泛范围：
AI 红队现在涵盖了安全和负责任 AI（RAI）成果。传统上，红队主要关注安全方面，将模型视为攻击载体（例如，窃取底层模型）。然而，AI 系统带来了新的安全漏洞（例如，提示注入、投毒），需要特别关注。除了安全，AI 红队还会探讨公平性问题（例如，刻板印象）和有害内容（例如，美化暴力）。及早发现这些问题有助于优先投入防御资源。
恶意与无意的失败：
AI 红队考虑来自恶意和无意两方面的失败。例如，在对新 Bing 进行红队测试时，我们不仅研究恶意攻击者如何破坏系统，还关注普通用户可能遇到的问题或有害内容。与传统安全红队主要针对恶意行为者不同，AI 红队涵盖了更广泛的用户角色和潜在失败场景。
AI 系统的动态特性：
AI 应用不断演进。在大型语言模型应用中，开发者会适应不断变化的需求。持续的红队测试确保对不断变化的风险保持警惕并及时调整。

AI 红队并非万能，应作为补充措施，与基于角色的访问控制（RBAC）和全面的数据管理解决方案等其他控制手段配合使用。它旨在支持以安全和负责任的 AI 解决方案为核心的安全策略，兼顾隐私和安全，同时努力减少偏见、有害内容和可能破坏用户信任的错误信息。

以下是一些额外的阅读材料，帮助你更好地理解红队如何识别和缓解 AI 系统中的风险：

为大型语言模型（LLM）及其应用规划红队测试
什么是 OpenAI 红队网络？
AI 红队——构建更安全、更负责任 AI 解决方案的关键实践
MITRE ATLAS（人工智能系统对抗威胁态势），一个关于现实攻击中对手使用的战术和技术的知识库。

知识检测

维护数据完整性和防止滥用的良好方法是什么？

对数据访问和数据管理实施严格的基于角色的控制
实施并审计数据标注，防止数据被误用或误导
确保你的 AI 基础设施支持内容过滤

答：1，虽然这三条建议都很好，但确保为用户分配合适的数据访问权限，将大大减少 LLM 使用数据被操纵和误用的风险。

🚀 挑战

深入了解如何在 AI 时代治理和保护敏感信息。

干得好，继续学习

完成本课后，查看我们的生成式 AI 学习合集，继续提升你的生成式 AI 知识！

前往第14课，我们将探讨生成式 AI 应用生命周期！

免责声明：
本文件使用 AI 翻译服务 Co-op Translator 进行翻译。虽然我们力求准确，但请注意，自动翻译可能包含错误或不准确之处。原始文件的母语版本应被视为权威来源。对于重要信息，建议采用专业人工翻译。对于因使用本翻译而产生的任何误解或误释，我们概不负责。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

保护您的生成式 AI 应用

介绍

学习目标

在生成式 AI 语境下，安全意味着什么？

了解 AI 的威胁和风险

AI 系统和 LLM 的安全测试

说服力

隐写术（隐藏信息）

AI 安全

知识检测

🚀 挑战

干得好，继续学习

FilesExpand file tree

13-securing-ai-applications

Directory actions

More options

Directory actions

More options

Latest commit

History

13-securing-ai-applications

Folders and files

parent directory

README.md

保护您的生成式 AI 应用

介绍

学习目标

在生成式 AI 语境下，安全意味着什么？

了解 AI 的威胁和风险

AI 系统和 LLM 的安全测试

说服力

隐写术（隐藏信息）

AI 安全

知识检测

🚀 挑战

干得好，继续学习