Amazon SageMaker Feature Store 的工作原理是什么?
工作原理
SageMaker Feature Store 的优势
特征管理
特征处理和提取
您可以将各种来源的数据摄取到 SageMaker Feature Store 中,例如来自应用程序和服务日志、点击流、传感器的数据以及来自 Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格数据。使用特征处理,您可以指定批量数据来源和特征转换函数(例如,产品视图数或时间窗聚合),SageMaker Feature Store 会在摄取数据时将其转换为 ML 特征。使用 Amazon SageMaker Data Wrangler,您可以将特征直接发布到 SageMaker Feature Store。使用 Apache Spark 连接器,您可以使用一行代码批量摄取大量数据。
特征存储、目录、搜索和复用
SageMaker Feature Store 为特征组添加标签和索引,以便用户通过 Amazon SageMaker Studio 的可视化界面轻松发现这些标签和索引。通过浏览特征目录,团队可以发现他们可以放心复用的现有特征,并避免管道重复。SageMaker Feature Store 默认使用 AWS Glue Data Catalog,但如果需要,您可以使用其他目录。您还可以使用熟悉的 SQL 配合 Amazon Athena 或您选择的其他查询工具来查询特征。
特征一致性
SageMaker Feature Store 支持用于训练的离线存储和用于实时推理的在线存储。训练和推理是截然不同的使用案例,各自的存储要求也不同。在训练期间,模型通常使用完整的数据集,可能需要数小时才能完成,而推理需要在几毫秒内完成,并且通常使用数据的子集。当一起使用时,SageMaker Feature Store 可确保离线和在线数据集保持同步,这一点至关重要,因为如果它们出现分歧,则会对模型准确性产生负面影响。
时间旅行
数据科学家可能需要使用过去特定时间的精确特征值集来训练模型,还要避免包含超过该时间的数据(也称为特征泄露)的风险,例如诊断前的患者医疗数据。SageMaker Feature Store 离线 API 支持时间点查询,可以检索每个特征在特定历史时间的状态。
安全和监管
沿袭追踪
为了满怀信心地启用特征复用,数据科学家需要了解特征是如何构建的,以及哪些模型和端点正在使用它们。SageMaker Feature Store 允许数据科学家使用 SageMaker Lineage 在 Amazon SageMaker Studio 中追踪其特征。SageMaker Lineage 允许您跟踪预定的管道执行、可视化上游谱系以将特征追溯回其数据来源,以及查看特征处理代码,这些都可以在一个环境中完成。
ML 运维
特征存储是 MLOps 生命周期中的关键组成部分。他们管理数据集和特征管道,加快数据科学任务并消除要多次创建相同特征的重复工作。SageMaker Feature Store 可以在整个 MLOps 生命周期中作为独立服务或以集成方式与其他 SageMaker 服务一起使用。
安全性与合规性
为了支持安全性和合规性需求,您可能需要对共享 ML 特征的访问方式进行精细控制。这些需求通常超出了表和列级别的访问控制,而是单独的行级别的访问控制。例如,您可能希望让客户代表仅查看销售表中他们客户的行,并屏蔽信用卡号等敏感数据的前缀。SageMaker Feature Store 可与 AWS Lake Formation 结合用于实施精细的访问控制,以保护特征存储数据并根据角色授予访问权限。