Amazon SageMaker Feature Store

适用于机器学习特征的完全托管的服务

Amazon SageMaker Feature Store 的工作原理是什么?

存储、共享和管理用于训练和推理的机器学习模型功能

工作原理

工作原理:Amazon SageMaker Feature Store

SageMaker Feature Store 的优势

将数据转换为 ML 功能,构建支持 MLOP 实践并加快模型部署速度的特征管道
存储、共享和管理用于训练和推理的 ML 模型特征,以促进跨 ML 应用的特征复用
从任意数据来源提取特征,包括来自应用程序日志、服务日志、点击流、传感器等来源的流和批处理数据和来自 AWS 或第三方数据来源的表格数据

特征管理

特征处理和提取

您可以将各种来源的数据摄取到 SageMaker Feature Store 中,例如来自应用程序和服务日志、点击流、传感器的数据以及来自 Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格数据。使用特征处理,您可以指定批量数据来源和特征转换函数(例如,产品视图数或时间窗聚合),SageMaker Feature Store 会在摄取数据时将其转换为 ML 特征。使用 Amazon SageMaker Data Wrangler,您可以将特征直接发布到 SageMaker Feature Store。使用 Apache Spark 连接器,您可以使用一行代码批量摄取大量数据。

屏幕截图

特征存储、目录、搜索和复用

SageMaker Feature Store 为特征组添加标签和索引,以便用户通过 Amazon SageMaker Studio 的可视化界面轻松发现这些标签和索引。通过浏览特征目录,团队可以发现他们可以放心复用的现有特征,并避免管道重复。SageMaker Feature Store 默认使用 AWS Glue Data Catalog,但如果需要,您可以使用其他目录。您还可以使用熟悉的 SQL 配合 Amazon Athena 或您选择的其他查询工具来查询特征。

该图像描绘了特征组目录

特征一致性

SageMaker Feature Store 支持用于训练的离线存储和用于实时推理的在线存储。训练和推理是截然不同的使用案例,各自的存储要求也不同。在训练期间,模型通常使用完整的数据集,可能需要数小时才能完成,而推理需要在几毫秒内完成,并且通常使用数据的子集。当一起使用时,SageMaker Feature Store 可确保离线和在线数据集保持同步,这一点至关重要,因为如果它们出现分歧,则会对模型准确性产生负面影响。

该图像描绘了特征组的创建

时间旅行

数据科学家可能需要使用过去特定时间的精确特征值集来训练模型,还要避免包含超过该时间的数据(也称为特征泄露)的风险,例如诊断前的患者医疗数据。SageMaker Feature Store 离线 API 支持时间点查询,可以检索每个特征在特定历史时间的状态。 

该图显示了 Feature Store 离线 API 查询的流程,用于检索每个特征在特定历史时间点的状态

安全和监管

沿袭追踪

为了满怀信心地启用特征复用,数据科学家需要了解特征是如何构建的,以及哪些模型和端点正在使用它们。SageMaker Feature Store 允许数据科学家使用 SageMaker Lineage 在 Amazon SageMaker Studio 中追踪其特征。SageMaker Lineage 允许您跟踪预定的管道执行、可视化上游谱系以将特征追溯回其数据来源,以及查看特征处理代码,这些都可以在一个环境中完成。

该图显示了 SageMaker Studio 中特征组的谱系

ML 运维

特征存储是 MLOps 生命周期中的关键组成部分。他们管理数据集和特征管道,加快数据科学任务并消除要多次创建相同特征的重复工作。SageMaker Feature Store 可以在整个 MLOps 生命周期中作为独立服务或以集成方式与其他 SageMaker 服务一起使用。

安全性与合规性

为了支持安全性和合规性需求,您可能需要对共享 ML 特征的访问方式进行精细控制。这些需求通常超出了表和列级别的访问控制,而是单独的行级别的访问控制。例如,您可能希望让客户代表仅查看销售表中他们客户的行,并屏蔽信用卡号等敏感数据的前缀。SageMaker Feature Store 可与 AWS Lake Formation 结合用于实施精细的访问控制,以保护特征存储数据并根据角色授予访问权限。

该图显示了如何使用 SageMaker Feature Store 和 AWS Lake Formation 来实施精细的访问控制

最新资讯

  • 日期(最新到最老)
未找到任何结果
1