Amazon SageMaker Lakehouse

使用统一、开放和安全的数据湖仓简化分析和人工智能

什么是 Amazon SageMaker Lakehouse?

Amazon SageMaker Lakehouse 可统一您在 Amazon Simple Storage Service(Amazon S3)数据湖和 Amazon Redshift 数据仓库中的所有数据,帮助您在单个数据副本上构建强大的分析和 AI/ML 应用程序。SageMaker Lakehouse 让您可以灵活地使用所有与 Apache Iceberg 兼容的工具和引擎就地访问和查询数据。通过定义精细权限保护湖仓中的数据,这些权限在所有分析和机器学习(ML)工具和引擎中强制执行。通过零 ETL 集成,将运营数据库和应用程序中的数据近实时地导入湖仓。此外,通过跨第三方数据来源的联合查询功能访问和查询数据。

优势

使用 SageMaker Lakehouse 统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的所有数据。通过零 ETL 集成,将运营数据库和应用程序中的数据近实时地导入湖仓。您可以使用数百个连接器,以整合不同来源的数据。此外,您也可以通过跨第三方数据来源的联合查询功能访问和查询数据。
使用所有与 Apache Iceberg 兼容的工具,在单个数据副本上灵活地就地访问和查询数据。您可以使用自己选择的分析工具和引擎,例如 SQL、Apache Spark、商业智能(BI)和人工智能/机器学习工具,并与存储在 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据进行协作。使用 SageMaker Lakehouse 搭配现有的数据架构,可以让您使用与 Apache Iceberg 兼容的首选存储格式和查询引擎。
使用集成的精细访问控制以保护您的数据,这些控制在所有分析工具和引擎中对所有数据强制执行。定义一次权限,即可在组织内放心共享数据。

使用案例

使用单个数据副本整合 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的所有数据,用于分析和人工智能计划。借助集成的访问控制,SageMaker Lakehouse 确保您能够定义精细权限,并在整个组织中安全共享单个数据副本。
通过零 ETL 集成,访问 SageMaker Lakehouse 中运营数据库和应用程序的近实时数据。通过各种 AWS 服务以及支持 Apache Iceberg 的开源和第三方工具和引擎,就地访问和查询数据。
将多个 Amazon Redshift 数据仓库中的现有数据导入 SageMaker Lakehouse,以查询和连接存储在 Redshift 集群和工作组中的数据。无需管理多个数据共享,即可扩展工作负载,以进行提取、转换、加载(ETL)流程、商业智能报告和按需分析。