SageMaker 数据处理利用 Amazon Athena、Amazon EMR、AWS Glue 和 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)的处理功能,以分析、准备、集成和协调您的数据。您可以利用 Apache Spark 等开源数据处理框架,通过 Trino 大规模分析数据,并使用 Apache Flink 和 Apache Spark 无缝构建实时分析。
SageMaker 数据处理汇集了 Amazon EMR、Athena、AWS Glue 和 Amazon MWAA 等服务。
SageMaker 数据处理可帮助您探索数据、构建数据转换任务、编排和大规模部署数据管道。相比传统开源系统,它使用经济高效且兼容开源 API 的 Apache Spark、Apache Airflow、Apache Flink、Trino 等版本,以提高性能,并更快速地获得见解。SageMaker 数据处理可通过零 ETL 集成、联合查询功能和连接器,访问您在 Amazon SageMaker Lakehouse 中的数据来源。
不,不需要迁移到 SageMaker。您可以继续像现在一样使用 Amazon EMR、Athena、AWS Glue 和 Amazon MWAA。但是,我们建议您从 SageMaker 开始使用统一的工具、内置的数据治理和简化的 SageMaker Lakehouse 架构。
您已经通过 Amazon EMR、Athena 或 AWS Glue 创建并使用的当前代码、查询、作业和其他资源不会受到任何影响。如果您愿意,可以继续将这些服务用于新的工作负载。在这些服务中创建的资源 [如 Amazon Elastic Compute Cloud(Amazon EC2)集群上的 Amazon EMR] 在 SageMaker 中可见,以简化分析和人工智能应用程序的开发。除 SageMaker 中的新开发体验以外,在 Amazon EMR、AWS Glue 和 Athena 中构建的现有开发体验将继续存在。
AWS Glue 的最新版本 AWS Glue 5.0 已在 SageMaker 中上线。AWS Glue 5.0 可加速数据处理工作负载,并提供最新的性能优化型 Apache Spark 3.5.2 运行时,助您进行开发、运行和扩展,以更快地获得见解。要了解更多信息,请访问 AWS Glue。
您通过 SageMaker 使用的每项 AWS 服务均受其各自的定价限制。如需了解更多信息,请查阅 Athena、Amazon EMR、AWS Glue 和 Amazon MWAA 的 AWS 定价页面。