AWS Trainium

以较低的成本获得深度学习和生成式人工智能训练所需的高性能

为什么选择 Trainium?

AWS Trainium 芯片是 AWS 专门为人工智能训练和推理打造的人工智能芯片系列,可在降低成本的同时提供高性能。

第一代 AWS Trainium 芯片为 Amazon Elastic Compute Cloud(Amazon EC2)Trn1 实例提供支持,该实例的训练成本比同类 Amazon EC2 实例低 50%。包括 Databricks、Ricoh、NinjaTech AI 和 Arcee AI 在内的许多客户都已通过 Trn1 实例实现性能和成本优势。

AWS Trainium2 芯片的性能是第一代 Trainium 的 4 倍。基于 Trainium2 的 Amazon EC2 Trn2 实例专为生成式人工智能而构建,是用于训练和部署具有数千亿至数万亿参数的模型的功能强大的 EC2 实例。与当前一代基于 GPU 的 EC2 P5e 和 P5en 实例相比,Trn2 实例的性价比高出 30-40%。Trn2 实例采用 16 个 Trainium2 芯片,这些芯片使用我们专有的芯片间互连技术 NeuronLink 进行连接。您可以使用 Trn2 实例训练和部署要求极为严苛的模型,包括大型语言模型(LLM)、多模态模型和扩散转换器,以构建广泛的下一代生成式人工智能应用程序集。Trn2 UltraServers 是一款全新的 EC2 产品(现已上线预览版),非常适合需要比独立 EC2 实例更多的内存和内存带宽的大型模型。UltraServer 设计使用 NeuronLink 将四个 Trn2 实例中的 64 个 Trainium2 芯片连接到一个节点,从而解锁新功能。在推理方面,UltraServers 有助于提供业界领先的响应时间,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。

借助对 PyTorch 和 JAX 等常用机器学习(ML)框架的原生支持,您可以开始在 Trn2 和 Trn1 实例上训练和部署模型。

优势

Trn2 UltraServers 和实例在 Amazon EC2 中为生成式人工智能训练和推理提供突破性的性能。每台 Trn2 UltraServer 都有 64 个 Trainium2 芯片,通过我们专有的芯片间互连技术 NeuronLink 进行互连,可提供高达每秒 83.2 千亿次浮点运算的 FP8 计算能力、6 TB 的 HBM3 和每秒 185 TB(TBps)的内存带宽以及每秒 12.8 TB(Tbps)的 Elastic Fabric Adapter(EFA)网络连接。每个 Trn2 实例有 16 个通过 NeuronLink 连接的 Trainium2 芯片,可提供高达每秒 20.8 千亿次浮点运算的 FP8 计算能力、1.5 TB 的 HBM3 和 46 TBps 的内存带宽以及 3.2 Tbps 的 EFA 网络连接。Trn1 实例采用多达 16 个 Trainium 芯片,提供高达每秒 3 千亿次浮点运算的 FP8 计算能力、512 GB HBM 和 9.8 TBps 的内存带宽以及高达 1.6 Tbps 的 EFA 网络连接。

AWS Neuron SDK 可帮助您从 Trn2 和 Trn1 实例中提取全部性能,以便您可以专注于构建和部署模型,加快产品上市时间。AWS Neuron 与 JAX、PyTorch 以及 Hugging Face、PyTorch Lightning 和 NeMo 等基本库原生集成。AWS Neuron 支持 Hugging Face 模型中心的 10 万多个模型,包括 Meta 的 Llama 系列模型和 Stable Diffusion XL 等常用模型。它能为分布式训练和推理优化开箱即用的模型,同时为分析和调试提供深入的见解。AWS Neuron 与 Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)、AWS ParallelCluster 和 AWS Batch 等服务以及 Ray(Anyscale)、Domino Data Lab 和 Datadog 等第三方服务集成。

为了在实现精度目标的同时提供高性能,Trainium 芯片针对 FP32、TF32、BF16、FP16 和新的可配置 FP8(cFP8)数据类型进行了优化。为支持生成式人工智能的快速创新,Trainium2 对 4 倍稀疏性(16:4)、微缩放、随机舍入和专用集体引擎进行了硬件优化。

Neuron Kernel 接口(NKI)使用基于 Python 的环境和类似于 Triton 的界面,可直接访问指令集架构(ISA),让您能够创新性能优于现有技术的新模型架构和高度优化的计算内核。

Trn2 实例可实现的能效比 Trn1 实例高三倍。Trn1 实例的能效比同类加速计算 EC2 实例高出 25%。此类实例可帮助您在训练超大型模型时实现可持续发展目标。

视频

探秘 Amazon 的生成式人工智能基础设施
使用 AWS Trainium 加速推进深度学习并加快创新速度
介绍由 AWS Trainium 提供支持的 Amazon EC2 Trn1 实例