Model Armor 是一项全托管式 Google Cloud 服务,可增强 AI 应用的安防和安全性。Model Armor 通过筛选 LLM 提示和响应来发现各种安防和安全风险。Model Armor 具有以下功能:
- 与模型和云无关:Model Armor 旨在支持任何云平台上的任何模型。其中包括多云和多模型场景,以根据您的特定需求选择最佳 AI 解决方案。
- 集中管理和强制执行:Model Armor 可实现对安防和安全政策的集中管理和强制执行。
- 公共 REST API:Model Armor 提供了一个公共 REST API,您可以使用该 API 将提示和响应筛选直接集成到您的应用中。这种基于 API 的方法支持各种部署场景。
- 基于角色的访问控制 (RBAC):Model Armor 采用 RBAC 来管理服务中的访问和权限,以便不同的用户角色具有适当级别的控制权和可见性。
- 端点:Model Armor API 提供区域级端点来实现低延迟,并提供多区域端点来实现高可用性。如需了解详情,请参阅Model Armor 端点。
- 与 Security Command Center 集成:Model Armor 与 Security Command Center 集成,这意味着您可以在 Security Command Center 信息中心内查看发现结果,并从源头识别和修复违规行为。
- 安全和安防功能:
- 安全和 Responsible AI 过滤条件:Model Armor 提供内容安全过滤条件,可处理露骨色情或危险内容,以及包含骚扰或仇恨言论的内容。
- 提示注入和越狱检测:Model Armor 包含一些功能,可检测和防范提示注入和越狱攻击。
- 使用 Sensitive Data Protection 进行数据泄露防护 (DLP):Model Armor 包含 Google Cloud 的 Sensitive Data Protection 服务的完整功能,可提供数据泄露防护功能。Model Armor 可发现、分类和保护敏感数据,防止在 LLM 互动中未经授权的泄露。
- 恶意网址检测:Model Armor 能够识别提示和响应中的恶意网址,从而增强 AI 应用的安全状况。
- 文档筛选支持:Model Armor 支持筛选以下文档类型中的文本是否含有恶意内容。
- PDF 文件
- DOCX、DOCM、DOTX、DOTM 文档
- PPTX、PPTM、POTX、POT 演示文稿
- XLSX、XLSM、XLTX、XLTM 电子表格
优势
Model Armor 为组织带来多项优势,包括:
- 增强的 AI 安全和安防:Model Armor 可帮助组织降低使用 LLM 时面临的安防和安全风险。Model Armor 可解决提示注入和越狱尝试、有害内容生成、恶意网址和敏感数据丢失等问题,让 LLM 能够安全可靠地集成到产品和服务中。
- 集中监测和控制:Model Armor 可针对所有 LLM 应用提供集中式管理,使 CISO 和安全架构师能够监控和控制安防和安全政策。
- 灵活的部署选项:Model Armor 支持多云、多模型和多 LLM 场景,并且可以在 LLM 应用架构的不同位置部署,从而让组织能够灵活地将 Model Armor 集成到现有的基础设施和工作流中。
- 自定义和集成:Model Armor 可让您自定义政策以适应特定应用的应用场景,并将其集成到现有的操作工作流中。
架构
此架构图显示了一个使用 Model Armor 来保护 LLM 和用户的应用。以下步骤介绍了数据流。
- 用户向应用提供提示。
- Model Armor 会检查传入的提示中是否存在潜在的敏感内容。
- 提示(或经过清理的提示)会发送到 LLM。
- LLM 会生成响应。
- Model Armor 会检查生成的响应是否存在潜在的敏感内容。
- 响应(或经过清理的响应)会发送给用户。Model Armor 会在响应中发送已触发的和未触发的过滤条件的详细说明。
简而言之,Model Armor 充当过滤条件,检查输入(提示)和输出(回复),以确保 LLM 不会泄露或提供任何恶意或敏感输入或输出。
使用场景
Model Armor 在多个行业中都有多种应用场景:
安全性
- 组织可以降低敏感知识产权 (IP) 和个人身份信息 (PII) 泄露的风险,避免将其包含在 LLM 提示或响应中。
- 组织可以防范提示注入和越狱攻击,防止恶意方操纵 AI 系统执行意外操作。
- 组织可以扫描 PDF 中的文本,以查找敏感内容或恶意内容。
安全和 Responsible AI
- 组织可以阻止聊天机器人推荐竞争对手的解决方案,从而维护品牌声誉和客户忠诚度。
- 组织可以过滤 AI 生成的包含有害信息(例如危险内容或仇恨内容)的社交媒体帖子。
语言支持
Model Armor 过滤条件支持对多种语言的提示和响应进行清理。
- Sensitive Data Protection 过滤条件支持英语和其他语言,具体取决于您选择的 infoTypes。
- Responsible AI 和提示注入和越狱检测过滤条件已针对英语、西班牙语、法语、意大利语、葡萄牙语、德语、中文(普通话)、日语和韩语进行了测试。这些过滤条件可在其他语言中使用,但结果的质量可能会有所不同。
您可以通过以下两种方式启用多语言检测:
针对每项请求启用:如需精细控制,请在对用户提示和模型响应进行清理时,按请求启用多语言检测。如需了解详情,请参阅在启用多语言检测的情况下对用户提示进行清理和在启用多语言检测的情况下对模型响应进行清理。
一次性启用模板:如果您希望设置更简单,可以使用 REST API 在 Model Armor 模板级别将多语言检测作为一次性配置启用。如需了解详情,请参阅创建 Model Armor 模板。
价格
Model Armor 可作为 Security Command Center 的集成部分购买,也可作为独立服务购买。如需了解价格信息,请参阅 Security Command Center 价格。
令牌
生成式 AI 模型会将文本和其他数据分解为多个单元,这些单元称为 token。Model Armor 会使用 AI 提示和响应中的总 token 数来确定价格。Model Armor 会限制每个提示和响应中处理的 token 数量。Model Armor 的词元数量上限因具体过滤条件而异。 如果提示或响应超出过滤器的 token 限制,检测的准确性会降低,但不会返回错误。
过滤 | 词元限制 |
---|---|
提示注入和越狱检测 | 最多 2,000 个 |
使用 Sensitive Data Protection 的数据泄露防护 (DLP) | 最多 13 万 |
Responsible AI | 10000 |
儿童性虐待内容 | 10000 |
注意事项
使用 Model Armor 时,请考虑以下事项:
- 下限设置无法强制执行 Sensitive Data Protection。
- Model Armor 会拒绝扫描大小为 50 字节或更小的 RTF 文件,因为此类文件很可能无效。
后续步骤
- 了解 Model Armor 关键概念。
- 开始使用 Model Armor。
- 了解 Model Armor 模板。
- 了解 Model Armor 下限设置。
- 对提示和响应进行清理。
- 了解 Model Armor 审核日志记录。
- 排查 Model Armor 问题。