AWS Trainium 客户

了解客户如何使用 AWS Trainium 构建、训练和微调深度学习模型。

Anthropic

Anthropic 每天都有数百万人依靠 Claude 完成工作。我们宣布与 AWS 合作取得两项重大进展：首先是 Claude 3.5 Haiku 的新“延迟优化模式”，通过 Amazon Bedrock 在 Trainium2 上的运行速度提高了 60%。其次是 Rainier 项目，这是由数十万个 Trainium2 芯片组成的新集群，可提供数百个百亿亿次运算，是我们以前集群规模的五倍多。Rainier 项目将帮助推动我们的研究和下一代规模扩展。对于我们的客户而言，这意味着更智能、更低价和更快速。我们不仅要构建更快的人工智能，还要构建可扩展的可信赖人工智能。

Anthropic 首席计算官 Tom Brown
Databricks

借助 Databricks 的 Mosaic AI，组织能够构建和部署高质量的代理系统。它原生建立在数据湖仓之上，让客户能够轻松安全地使用企业数据自定义模型，并提供更准确的输出和特定领域的输出。得益于 Trainium 的高性能和经济高效，客户能够以低成本在 Mosaic AI 上扩展模型训练。随着全球所有客户群对 Mosaic AI 的需求不断扩大，Trainium2 的可用性将为 Databricks 及其客户带来重大益处。Databricks 是全球最大的数据和人工智能公司之一，其计划使用 TRN2 为其客户交付更好的结果，并将总拥有成本降低多达 30%。

Databricks 生成式人工智能副总裁 Naveen Rao
poolside

在 poolside，我们将建立由人工智能推动大多数具有经济价值的工作和科学进步的世界。我们相信，软件开发将是神经网络中第一个达到人类级智能的主要能力，因为在这个领域，我们可以完美结合搜索和学习方法。为实现这一点，我们正在构建基础模型、API 和助手，助力开发人员手动（或通过键盘）释放生成式人工智能的强大力量。启用这项技术的主要关键是我们用于构建和运行产品的基础设施。借助 AWS Trainium2，我们的客户将能够以与其他人工智能加速器不同的性价比扩展 poolside 的使用。此外，我们计划使用 Trainium2 UltraServers 训练未来的模型，与 EC2 P5 实例相比，预计可节省 40％的成本。

poolside 首席技术官兼联合创始人 Eiso Kant
Itaú Unibanco

Itaü Unibanco 的目的是改善人与金钱的关系，对人们的生活产生积极影响，同时扩大转型机会。Itaü Unibanco 相信每位客户都是独一无二的，我们力争通过直观的数字化旅程满足客户的需求，利用人工智能的强大力量不断适应消费者习惯。

我们已在各种任务中测试过 AWS Trainium 和 Inferentia，从标准推理到微调应用程序，不一而足。借助这些人工智能芯片的性能，我们得以在研发中实现重要的里程碑。对于批量和在线推理任务，与 GPU 相比，我们的吞吐量提高了 7 倍。性能的提升推动了更多使用案例在整个组织中的扩展。最新一代的 Trainium2 芯片为 GenAI 带来突破性的功能，为 Itau 的创新打开了大门。

Itaü Unibanco 数据科学主管 Vitor Azeka
NinjaTech AI

Ninja 是一款一体化人工智能代理，可提供无限的生产力：只需一次订阅，即可无限访问全世界优质的人工智能模型以及顶级人工智能技能，如写作、编码、头脑风暴、图像生成、在线研究。Ninja 是代理平台，提供“SuperAgent”服务，该服务使用代理混合，具有世界一流的准确性，可与前沿基础模型相媲美（在某些类别中甚至更胜一筹）。Ninja 的代理技术需要最高性能的加速器，以提供客户期望的独特实时体验。

AWS TRN2 的推出让我们兴奋不已，因为我们相信，它将为基于 Llama 3.1 405B 的核心模型 Ninja LLM 提供最佳的单位令牌成本性能和目前可能的最快速度。Trn2 的低延迟、极具竞争力的价格和按需可用性令人惊叹；我们对 Trn2 的到来感到无比兴奋！

NinjaTech AI 创始人兼首席执行官 Babak Pahlavan
Ricoh

RICOH 机器学习团队开发工作场所解决方案和数字化转型服务，旨在管理和优化企业解决方案中的信息流。

迁移到 Trn1 实例简单又快捷。我们利用由 4096 个 Trainium 芯片组成的集群，仅用 8 天时间就可完成 130 亿参数 LLM 的预训练！在我们的小型模型取得成功后，我们基于 Llama-3-Swallow-70B 对更大的新 LLM 进行微调，与使用 AWS 中最新的 GPU 计算机相比，利用 Trainium，我们的训练成本得以降低 50%，能效提高 25%。我们很高兴能利用最新一代 AWS AI 芯片 Trainium2，继续以最低成本为客户提供最佳性能。

Ricoh 数字技术开发中心主任 Yoshiaki Umetsu
PyTorch

我最喜欢 AWS Neuron NxD Inference 库的一点是它与 PyTorch 模型的无缝集成。NxD 的方法简单快捷，且对用户友好。我们的团队能够在很短的时间内以最小的代码改动上线 HuggingFace PyTorch 模型。启用连续批处理和推测解码等高级功能非常简单。这种易用性可提高开发人员的工作效率，让团队能够将更多精力放在创新上，减少对集成挑战的关注。

Meta PyTorch 合作伙伴工程主管 Hamid Shojanazeri
Refact.ai

Refact.ai 提供全面的人工智能工具，例如由检索增强生成（RAG）驱动的代码自动完成，以提供更准确的建议，以及使用专有和开源模型的上下文感知聊天。

与 EC2 G5 实例相比，客户发现 EC2 Inf2 实例的性能可提高多达 20%，每美元令牌数可提升 1.5 倍。Refact.ai 的微调功能可进一步增强客户了解和适应组织独特代码库和环境的能力。我们也很高兴提供 Trainium2 的功能，这将为我们的工作流程带来更快、更高效的处理能力。这项先进的技术将帮助我们的客户提高开发人员的工作效率，同时保持代码库的严格安全标准，从而加快软件开发流程。

Refact.ai 首席执行官兼创始人 Oleg Klimov
Karakuri Inc.

KARAKURI 构建人工智能工具，以提高基于 Web 的客户支持效率并简化客户体验。这些工具包括配备生成式人工智能功能的人工智能聊天机器人、常见问题解答集中工具和电子邮件回复工具，所有这些都可以提高客户支持的效率和质量。利用 AWS Trainium，我们成功地训练了 KARAKURI LM 8x7B Chat v0.1。对我们这样的初创企业而言，我们需要优化构建时间以及训练 LLM 所需的成本。在 AWS Trainium 和 AWS 团队的支持下，我们能够在短时间内开发出实用级 LLM。此外，通过采用 AWS Inferentia，我们得以构建快速且经济高效的推理服务。我们对 Trainium2 充满信心，因为它将彻底改变我们的训练流程，将我们的训练时间缩短 2 倍，并将效率提升到新的高度！

Karakuri Inc 联合创始人 Tomofumi Nakayama
Stockmark Inc.

Stockmark 以“重塑价值创造机制，推动人类进步”为使命，通过提供前沿的自然语言处理技术，帮助众多企业创建和打造创新业务。Stockmark 的新数据分析和收集服务 Anews and SAT 是一项数据结构服务，通过组织存储在组织中的各种形式的信息，显著提高生成式人工智能的使用，它要求我们重新思考如何构建和部署模型，以支持这些产品。借助 256 个 Trainium 加速器，我们开发并发布了 stockmark-13b，这是一个具有 130 亿个参数的大型语言模型，在包含 2200 亿个令牌的日语语料库数据集上从头开始进行了预训练。Trn1 实例帮助我们将训练成本降低了 20%。利用 Trainium，我们成功开发出了一款 LLM，能够以前所未有的准确性和速度为专业人士解答关键业务问题。鉴于各公司在确保模型开发所需的充足计算资源方面普遍面临挑战，这一成就尤其值得一提。在见识过 Trn1 实例的惊人速度和成本降低后，我们很期待看到 Trainium2 将为我们的工作流程和客户带来的更多益处。

Stockmark Inc. 首席技术官兼联合创始人 Kosuke Arima
Brave

Brave 是一款独立的浏览器和搜索引擎，致力于将用户隐私和安全置于优先地位。我们拥有 7000 多万用户，提供行业领先的保护措施，让 Web 更安全、更方便用户使用。与其他放弃以用户为中心的平台不同，Brave 始终致力于将隐私、安全和便利性放在首位。主要功能包括拦截有害脚本和跟踪器、由 LLM 提供支持的人工智能辅助页面摘要、内置 VPN 服务等。我们不断努力提高搜索服务和人工智能模型的速度和成本效益。为了支持这一点，我们很高兴能够利用包括 Trainium2 在内的 AWS AI 芯片的最新功能以改善用户体验，因为我们可以扩展到每月处理数十亿个搜索查询。

Brave Software 工程副总裁 Subu Sathyanarayana
Anyscale

Anyscale 是研发 Ray 的公司，Ray 是一款人工智能计算引擎，可为企业的机器学习和生成式人工智能计划提供动力。借助由 RayTurbo 驱动的 Anyscale 统一人工智能平台，通过优化资源利用率，客户可将数据处理速度提高多达 4.5 倍，使用 LLM 进行批量推理的成本降低 10 倍，扩展速度加快 5 倍，迭代速度加快 12 倍，在线模型推理可节省 50% 的成本。

Anyscale 致力于为企业提供最佳工具，使其能够高效、低成本地扩展人工智能工作负载。我们的 RayTurbo 运行时原生支持 AWS Trainium 和 Inferentia 芯片，因此我们的客户可以获得高性能、低成本的模型训练和服务选择。现在，我们很高兴能与 AWS 合作开发 Trainium2，为我们的客户带来快速创新的新机遇，并大规模提供高性能的变革性人工智能体验。

Anyscale 联合创始人 Robert Nishihara
Datadog

Datadog 是云应用程序的可观测性和安全平台，为客户提供 AWS Trainium 和 Inferentia 监控，以优化模型性能、提高效率和降低成本。Datadog 的集成提供对机器学习操作和底层芯片性能的全面可见性，从而能够主动解决问题和无缝扩展基础设施。我们很高兴能扩展与 AWS 的合作关系，推出 AWS Trainium2，帮助用户削减高达 50% 的人工智能基础设施成本，并提高模型训练和部署性能。

Datadog 公司产品副总裁 Yrieix Garnier
Hugging Face

Hugging Face 是面向人工智能构建者的领先开放平台，在 500 多万研究人员、数据科学家、机器学习工程师和软件开发人员组成的社区中共享 200 多万个模型、数据集和人工智能应用程序。在过去几年中，我们一直与 AWS 合作，通过 Optimum Neuron 开源库让开发人员更轻松地体验 AWS Inferentia 和 Trainium 在性能和成本效益方面的优势，这些开源库集成在 Hugging Face 推理端点中，现在又在我们新的 HUGS 自部署服务中进行了优化，可在 AWS Marketplace 上使用。随着 Trainium2 的推出，我们的用户将获得更高的性能，从而更快地开发和部署模型。

Hugging Face 产品主管 Jeff Boudier
Lightning AI

作为 PyTorch Lightning 和 Lightning Studios 的创建者，Lightning AI 为企业级人工智能提供最直观的一体化人工智能开发平台。Lightning 提供全代码、低代码和无代码工具，用于快速构建代理、人工智能应用程序和生成式人工智能解决方案，犹如闪电一般。该平台设计灵活，可利用超过 300 万开发人员社区的专业知识和支持，在您的云端或我们的云端无缝运行。

Lightning 现在原生支持 AWS 人工智能芯片、Trainium 和 Inferentia，这些都集成在 Lightning Studios 以及 PyTorch Lightning、Fabric 和 LitServe 等开源工具中。这让用户能够无缝进行大规模预训练、微调和部署，以零切换开销优化成本、可用性和性能，并提高 AWS AI 芯片（包括最新一代 Trainium2 芯片）的性能和成本优势，从而以更低的成本提供更高的性能。

Lightning AI 首席技术官 Luca Antiga
Domino Data Lab

Domino 可跨环境协调处理所有数据科学项目，包括 AWS 上的基础设施、数据和服务，为 Amazon SageMaker 提供管理和协作功能，为企业的数据科学团队提供支持。Domino 可通过 AWS Marketplace 以 SaaS 或自主管理的形式提供。“领先企业必须在技术复杂性、成本和治理之间取得平衡，掌握广泛的人工智能选择，以获得竞争优势。Domino 致力于为客户提供尖端技术。由于计算是许多突破性创新的瓶颈，我们很荣幸能够为客户提供 Trainium2，以便他们训练和部署具有更高性能、更低成本和更高能效的模型。

Nick Elprin，Domino 数据实验室首席执行官兼联合创始人
Scale.ai

Scale 正在加速人工智能应用程序的开发步伐。借助 Scale 生成式人工智能解决方案，我们通过生成高质量的数据并提供技术解决方案，帮助企业加快采用生成式人工智能并提高投资回报率，使客户能够构建、部署和评测最佳的人工智能工具和应用程序。今年早些时候，Scale 与 AWS 合作，成为其首个模型自定义与评测合作伙伴。在帮助客户加快构建生成式人工智能解决方案的人工智能路线图时，我们将提供 AWS Trainium 和 Inferentia，以降低其开源模型的培训和部署成本。我们很高兴看到 AWS Trainium 2 节省更多成本。

Vijay Kaunamurthy，现场首席技术官
Money Forward, Inc.

Money Forward, Inc. 为企业和个人提供开放和公平的金融平台。

我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务，与基于 GPU 的同类实例相比，我们的推理延迟降低了 97%，同时还降低了成本。由于我们会定期对定制的 NLP 模型进行微调，因此减少模型训练时间和成本也很重要。根据我们在 Inf1 实例上成功迁移推理工作负载的经验以及我们在基于 AWS Trainium 的 EC2 Trn1 实例上的初步工作，我们预计 Trn1 实例将在提高端到端 ML 性能和成本方面提供额外价值。

Money Forward, Inc. 首席技术官 Takuya Nakade
Mimecast

Magic 是一家综合产品和研究公司，开发如同事一般的 AI，让世界变得更有效率。

Mimecast 每天要处理约 14 亿封电子邮件并分析这些邮件的潜在风险。这是一项至关重要的任务，我们必须及时、无风险地发送安全的电子邮件。我们的客户遍布 100 多个国家，通常情况下每个组织都在使用 4.9 Mimecast 服务。平台采用以人为本的方法，包括高级电子邮件安全、协作安全、电子邮件存档、DMARC、内部风险保护和安全意识。我们不想牺牲准确性，因此我们在内部构建了模型，保证精准度和召回率远高于 90%。根据这些要求，Inferentia 2 实例是最合适的选择方向。Inferentia 2 的卓越效率使我们能够显著降低延迟，为客户提供实时体验。AWS 人工智能芯片与 SageMaker 相结合，能够非常轻松地进行横向扩展，以满足我们的实时需求；同时，我们利用自定义的计划扩展策略，在高峰时段将实例扩展到最多 100 个，延迟开销几乎为零。

Felix Laumann，数据科学总监
Jax (Google)

CACTUS 为研究人员和组织提供了一套产品和解决方案，以改善研究的资助、出版、交流和发现方式。

AWS Neuron 旨在简化在 Trainium 中使用 JAX 等流行框架的流程，同时最大限度地减少代码更改，并与供应商特定的解决方案相结合。谷歌正在与 AWS 合作，使客户能够通过其原生 OpenXLA 集成，使用 JAX 快速启用 Trn2 实例，进行大规模训练和推理。通过广泛的合作以及目前 Trainium2 的上线，谷歌预计 JAX 的采用率将有所提高，这是整个 ML 社区的重要里程碑。

Bill Jia，谷歌工程副总裁
Watashiha

Watashiha 提供了一种创新的交互式 AI 聊天机器人服务 “OGIRI AI”，它融入了幽默感，可以当场为问题提供有趣的答案。

我们使用大语言模型来增添幽默感，并在我们的 AI 服务上为客户提供更具相关性的对话式体验。这要求我们经常对这些模型进行预先训练和微调。我们利用张量和数据并行性在 EC2 Trn1.32xlarge 实例上预先训练了基于 GPT 的日语模型。训练在 28 天内完成，与之前基于 GPU 的基础设施相比，成本降低了 33%。随着我们模型的复杂性不断快速增长，我们期待使用网络带宽是 Trn1 两倍的 Trn1n 实例来加快较大模型的训练速度。

Yohei Kobashi，Watashiha, K.K. 首席技术官
Amazon

Amazon 的产品搜索引擎为数十亿种产品编制了索引，每天处理数十亿次客户查询，是世界上使用最频繁的服务之一。

我们正在训练多模式（文本 + 图像）、多语言、多语言环境、针对多个任务进行预训练并跨越多个实体（产品、查询、品牌、评论等）的大型语言模型（LLM），以改善客户的购物体验。与其他加速机器学习解决方案相比，Trn1 实例提供了一种更可持续的方式来训练 LLM，它提供了最佳的性能功耗比，并以最低的成本为我们提供了高性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入，以进一步提高我们的训练效率和开发速度。

Trishul Chilimbi，Amazon Search 副总裁
Meta

我最喜欢 AWS Neuron NxD Inference 库的一点是它与 PyTorch 模型的无缝集成。NxD 的方法简单快捷，且对用户友好。我们的团队能够在很短的时间内以最小的代码改动上线 HuggingFace PyTorch 模型。启用连续批处理和推测解码等高级功能非常简单。这种易用性可提高开发人员的工作效率，让团队能够将更多精力放在创新上，减少对集成挑战的关注。

Hamid Shojanazeri，Meta PyTorch 合作伙伴工程主管