AWS Trainium

비용을 절감하면서 딥 러닝 및 생성형 AI 훈련을 위한 고성능 제공

Trainium을 선택해야 하는 이유

AWS Trainium은 1,000억 개가 넘는 파라미터 모델의 딥 러닝(DL) 훈련을 위해 AWS에서 특별히 제작한 기계 학습(ML) 칩입니다. 각 Amazon Elastic Compute Cloud(Amazon EC2) Trn1 인스턴스는 최대 16개의 Trainium 액셀러레이터를 배포하여 클라우드에서 DL 훈련을 위한 고성능 솔루션을 저렴한 비용으로 제공합니다. DL 및 생성형 AI의 사용이 가속화되고 있지만 많은 개발 팀에는 예산이 한정되어 있어 모델 및 애플리케이션을 개선하는 데 필요한 훈련 범위와 빈도가 제한되어 있습니다. Trainium 기반 Amazon EC2 Trn1 인스턴스는 동급 EC2 인스턴스 대비 훈련 비용을 최대 50% 절감하고 훈련 시간을 단축하여 이 당면 과제를 해결합니다. Trainium은 텍스트 요약, 코드 생성, 질문 답변, 이미지 및 비디오 생성, 권장 사항, 사기 탐지 등의 광범위한 애플리케이션에 사용되는 자연어 처리, 컴퓨터 비전 및 추천자 모델을 훈련하도록 최적화되었습니다.

AWS Neuron SDK는 Trainium 액셀러레이터에 모델을 훈련하고 AWS Inferentia 액셀러레이터에서 모델을 배포하는 데 도움이 됩니다. PyTorch 및 TensorFlow 같은 널리 사용되는 프레임워크와 기본적으로 통합되므로 Trainium 액셀러레이터에서 훈련하고 기존 코드와 워크플로를 계속 사용할 수 있습니다.

Trainium의 장점

Trainium 기반 Trn1 인스턴스는 다른 유사한 Amazon EC2 인스턴스에 비해 훈련 비용을 최대 50% 절감하는 동시에 고성능을 제공합니다. 각 Trainium 액셀러레이터에는 DL 알고리즘용으로 구축된 2세대 NeuronCore 2개가 포함되어 있습니다. 효율적인 데이터 및 모델 병렬 처리를 지원하기 위해 각 Trainium 액셀러레이터에는 32GB의 고대역폭 메모리가 탑재되어 있고 최대 190TFLOPS의 FP16/BF16 컴퓨팅 파워를 제공하며 인스턴스 내 초고속 비차단 인터커넥트 기술인 NeuronLink를 제공합니다.

Trainium을 지원하는 AWS Neuron SDK는 PyTorch 및 TensorFlow와 기본적으로 통합됩니다. 따라서 이 유명한 프레임워크에서 기존 워크플로를 계속해서 사용할 수 있고 코드 몇 줄만 변경하여 Trainium을 시작할 수 있습니다. 분산 모델 훈련의 경우 Neuron SDK는 Megatron-LM 및 PyTorch Fully Sharded Data Parallel(FSDP)과 같은 라이브러리를 지원합니다. Trainium 기반 Amazon EC2 Trn1 인스턴스를 빠르게 시작하려면 Neuron 설명서의 인기 모델 예시를 참조하세요.

정확도 목표를 달성하면서 고성능을 제공하기 위해, Trainium은 FP32, TF32, BF16, FP16, UINT8, FP8 및 새로운 구성 가능한 FP8 (cFP8) 데이터 유형에 최적화되어 있습니다.
DL의 빠른 혁신 속도와 생성형 AI를 지원하기 위해 Trainium에는 지속적으로 진화하는 DL 모델을 훈련할 수 있도록 유연하고 확장 가능한 몇 가지 혁신 기능을 제공합니다. Trainium은 동적 입력 셰이프에 대한 하드웨어 최적화 및 소프트웨어 지원을 제공합니다. 향후 새로운 연산자를 지원할 수 있도록 C++로 작성된 사용자 지정 연산자를 지원합니다. 레거시 반올림 모드보다 높은 성능과 정확성을 실현하는 확률적 반올림 방식인 확률 반올림도 지원합니다.
Trainium을 기반으로 하는 Trn1 인스턴스는 동급의 가속 컴퓨팅 EC2 인스턴스에 비해 DL 훈련에 대한 에너지 효율성이 최대 25% 더 높습니다. Trn1 인스턴스는 초대형 모델을 훈련할 때 지속 가능성 목표를 달성하는 데 도움이 됩니다.

동영상

Behind the scenes look at generative AI infrastructure at Amazon(Amazon의 생성형 AI 인프라에 대한 비하인드 스토리)
Accelerate DL and innovate faster with AWS Trainium(AWS Trainium으로 딥 러닝을 가속화하고 더 빠르게 혁신)
Introducing Amazon EC2 Trn1 instances powered by AWS Trainium(AWS Trainium으로 구동되는 Amazon EC2 Trn1 인스턴스 소개)