什么是 SageMaker HyperPod?
Amazon SageMaker HyperPod 可省去构建生成式人工智能模型所涉及的千篇一律的繁重工作。它有助于快速扩展模型开发任务,例如在数百个或数千个人工智能加速器的集群中训练、微调或推理。SageMaker HyperPod 支持对所有模型开发任务进行集中治理,让您可以全面了解和控制不同任务的优先级以及如何为每项任务分配计算资源,从而帮助您最大限度地提高集群的 GPU 和 AWS Trainium 利用率,并加速创新。
借助 SageMaker HyperPod,您可以高效地在所有加速器上分配和并行执行您的训练工作负载。SageMaker HyperPod 会自动为常用的公开模型应用最佳训练配置,以助您快速实现最佳性能。它还会持续监控您的集群中是否存在任何基础设施故障、自动修复问题,并且无需人工干预即可恢复工作负载,所有这些都可助您节省多达 40% 的训练时间。
SageMaker HyperPod 的优势
在 SageMaker HyperPod 中推出任务治理
最大限度地提高利用率并全面了解计算资源,与此同时还能降低成本。