Amazon Bedrock 防护机制
实施根据您的应用程序要求和负责任的人工智能政策定制的保障措施使用防护机制构建负责任的人工智能应用程序
Amazon Bedrock 防护机制提供可配置的安全保障措施,帮助您安全地大规模构建生成式人工智能应用程序。防护机制对所有支持的基础模型(FM)采用一致的标准方法,提供行业领先的安全保护:
- 利用自动推理帮助防止幻觉造成的事实错误,这是第一个也是唯一一个使用这种方法的生成式人工智能防护措施
- 最多可阻隔 85% 的不良和有害内容
- 从用于检索增强生成(RAG)和汇总使用案例的模型中过滤 75% 以上的幻觉响应
为生成式人工智能应用程序提供一致的安全级别
防护机制是主要云提供商提供的唯一负责任的人工智能功能,可帮助您在单一解决方案中为生成式人工智能应用构建和自定义安全、隐私和真实性保障措施。防护机制可根据特定使用案例的策略,帮助评估用户输入和模型响应,并在 FM 本身提供的保障措施之外提供额外的保障措施。防护机制适用于多种模型,包括 Amazon Bedrock 支持的 FM、经过微调的模型以及 Amazon Bedrock 之外的自托管模型。 可以使用 ApplyGuardrail API 独立评估第三方和自托管模型的用户输入和模型输出。 防护机制还可以与 Amazon Bedrock 代理和 Amazon Bedrock 知识库集成,进而构建符合负责任的人工智能策略的更为安全的生成式人工智能应用程序。
使用情境化基础检查检测模型响应中的幻觉
客户需要部署真实可信的生成式人工智能应用程序,以保持和增加用户的信任。但是由于幻觉(即偏离源信息、混淆多条信息或编造新信息),FM 可能会生成不正确的信息。Amazon Bedrock 防护机制支持情境化基础检查,如果源信息中的响应不合理(例如事实上不准确或新信息)以及与用户查询或指令无关,则可以帮助检测和筛除幻觉。情境化基础检查有助于检测 RAG、摘要和对话应用程序的幻觉,其中源信息可用作验证模型响应的参考。
自动推理检查有助于防止幻觉造成的事实错误,并提供可验证的准确性
Amazon Bedrock 防护机制中的自动推理检查(预览版)是第一个也是唯一一个生成式人工智能保护措施,可使用逻辑上准确且可验证的推理来解释响应正确的原因,帮助防止幻觉导致的事实错误。自动推理使用合理的数学技术来验证、纠正和逻辑性解释生成的信息,确保输出结果与已知事实一致,而不是基于虚构或不一致的数据,从而帮助减少幻觉。开发人员可以通过上传定义正确解决方案空间的现有文档(例如人力资源指南或操作手册)来创建自动推理策略。然后,Amazon Bedrock 会生成独特的自动推理策略,并指导用户对其进行测试和完善。要根据自动推理策略验证生成的内容,用户需要在防护机制中启用该策略,并使用唯一的 Amazon 资源名称(ARN)列表对其进行配置。这种基于逻辑的算法验证过程可确保模型生成的信息与已知事实一致,而不是基于虚构或不一致的数据。这些检查通过生成式人工智能模型提供可证明的真实响应,让软件供应商能够提高其应用软件在人力资源、财务、法律、合规性等使用案例中的可靠性。
在生成式人工智能应用程序中屏蔽不良话题
组织领导者认识到需要管理生成式人工智能应用程序中的交互,以提供有相关性及安全的用户体验。他们希望进一步自定义交互,继续关注与业务相关的话题,并与公司政策保持一致。防护机制有助于通过简短的自然语言描述在应用程序的上下文中定义一组要避免的主题。防护机制有助于检测和屏蔽属于受限主题的用户输入和 FM 响应。例如,银行助理可以设计成避开与投资建议相关的话题。
根据您负责任的人工智能策略筛除有害的多模态内容
Bedrock 防护机制为有毒文本和图像内容提供了带可配置阈值的内容过滤器。该保护措施有助于筛除包含仇恨言论、侮辱字眼、性、暴力和不当行为(包括犯罪活动)等主题的有害内容,并有助于防范提示攻击(提示注入和越狱)。目前,预览版中提供了可检测和筛除不良内容及潜在有害图像内容的功能,用于筛除仇恨、侮辱、性和暴力类别,且 Amazon Bedrock 中所有支持图像的 FM(包括微调 FM)均支持此功能。内容过滤器会自动评估用户输入和模型响应,以检测并帮助防止不良和潜在有害的内容。例如,电子商务网站可以设计其在线助手,以避免使用仇恨言论或侮辱等不当语言。
编辑 PII 等敏感信息以保护隐私
防护机制帮助您检测用户输入和 FM 响应中的敏感内容,比如个人身份信息(PII)。您可以从预定义的 PII 列表中进行选择,也可以使用正则表达式(RegEx)定义敏感信息类型。根据使用案例,您可以选择性地拒绝包含敏感信息的输入或编辑 FM 响应中的敏感信息。例如,在呼叫中心根据客户和座席的对话记录生成摘要时,您可以编辑用户的个人信息。
后续步骤
找到今天要查找的内容了吗?
请提供您的意见,以便帮助我们提高网站内容的质量。