为什么选择 Trainium?
AWS Trainium 芯片是 AWS 专门为人工智能训练和推理打造的人工智能芯片系列,可在降低成本的同时提供高性能。
第一代 AWS Trainium 芯片为 Amazon Elastic Compute Cloud(Amazon EC2)Trn1 实例提供支持,该实例的训练成本比同类 Amazon EC2 实例低 50%。包括 Databricks、Ricoh、NinjaTech AI 和 Arcee AI 在内的许多客户都已通过 Trn1 实例实现性能和成本优势。
AWS Trainium2 芯片的性能是第一代 Trainium 的 4 倍。基于 Trainium2 的 Amazon EC2 Trn2 实例专为生成式人工智能而构建,是用于训练和部署具有数千亿至数万亿参数的模型的功能强大的 EC2 实例。与当前一代基于 GPU 的 EC2 P5e 和 P5en 实例相比,Trn2 实例的性价比高出 30-40%。Trn2 实例采用 16 个 Trainium2 芯片,这些芯片使用我们专有的芯片间互连技术 NeuronLink 进行连接。您可以使用 Trn2 实例训练和部署要求极为严苛的模型,包括大型语言模型(LLM)、多模态模型和扩散转换器,以构建广泛的下一代生成式人工智能应用程序集。Trn2 UltraServers 是一款全新的 EC2 产品(现已上线预览版),非常适合需要比独立 EC2 实例更多的内存和内存带宽的大型模型。UltraServer 设计使用 NeuronLink 将四个 Trn2 实例中的 64 个 Trainium2 芯片连接到一个节点,从而解锁新功能。在推理方面,UltraServers 有助于提供业界领先的响应时间,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。
借助对 PyTorch 和 JAX 等常用机器学习(ML)框架的原生支持,您可以开始在 Trn2 和 Trn1 实例上训练和部署模型。