Amazon EC2 Trn1 인스턴스

비용 효율적인 고성능 생성형 AI 모델 훈련

Amazon EC2 Trn1 인스턴스를 사용해야 하는 이유

AWS Trainium 칩으로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) Trn1 인스턴스는 대규모 언어 모델(LLM) 및 잠재 확산 모델을 비롯한 생성형 AI 모델의 고성능 딥 러닝(DL) 훈련을 지원하는 목적별 서비스입니다. Trn1 인스턴스는 다른 유사한 Amazon EC2 인스턴스 대비 최대 50% 저렴한 훈련 비용을 제공합니다. Trn1 인스턴스를 사용하여 텍스트 요약, 코드 생성, 질문 답하기, 이미지 및 비디오 생성, 추천, 사기 탐지 등 다양한 애플리케이션 세트에서 1천억 개 이상의 파라미터 DL 및 생성형 AI 모델을 훈련할 수 있습니다.

AWS Neuron SDK는 개발자가 AWS Trainium에서 모델을 훈련하고 AWS Inferentia 칩에 모델을 배포하는 데 도움이 됩니다. PyTorch 및 TensorFlow 같은 프레임워크와 기본적으로 통합되므로 기존 코드 및 워크플로를 계속 사용하여 Trn1 인스턴스에서 모델을 훈련할 수 있습니다. Neuron의 기계 학습(ML) 프레임워크 및 라이브러리 지원, 모델 아키텍처 및 하드웨어 최적화에 대한 최신 정보는 Neuron 설명서를 참조하세요.

Introducing Amazon EC2 Trn1 instances powered by AWS Trainium(AWS Trainium으로 구동되는 Amazon EC2 Trn1 인스턴스 소개)

이점

Trn1 인스턴스는 고성능 DL을 지원하는 목적별 솔루션으로, 훈련 시간을 몇 개월에서 몇 주 또는 심지어 며칠로 줄여줍니다. 훈련 시간이 단축되면 더 빠르게 반복하고 더 혁신적인 모델을 구축하며 생산성을 개선할 수 있습니다. Trn1n 인스턴스는 향상된 네트워크 대역폭의 이점을 바탕으로 Trn1 인스턴스보다 최대 20% 더 빠른 모델 훈련 시간을 제공합니다.

Trn1 인스턴스는 다른 유사한 Amazon EC2 인스턴스 대비 최대 50% 저렴한 훈련 비용으로 높은 성능을 제공합니다.

AWS Neuron SDK를 사용하여 Trn1 인스턴스의 전체 성능을 활용하세요. Neuron에서는 PyTorch와 TensorFlow 같은 인기 있는 ML 프레임워크를 사용하고 기존 코드 및 워크플로를 계속 사용하여 Trn1 인스턴스에서 모델을 훈련할 수 있습니다. Trn1 인스턴스를 빠르게 시작하려면 Neuron 설명서의 인기 모델 예제를 참조하세요.

Trn1 인스턴스는 최대 800Gbps의 2세대 Elastic Fabric Adapter(EFAv2) 네트워크 대역폭을 지원합니다. Trn1n 인스턴스는 최대 1,600Gbps의 EFAv2 네트워크 대역폭을 지원하여 네트워크 집약적 모델에 더 높은 성능을 제공합니다. 두 인스턴스는 모두 최대 3만 개의 Trainium 칩으로 스케일 업할 수 있는 EC2 UltraClusters에 배포됩니다. 액셀러레이터는 비차단 페타비트급 네트워크로 상호 연결되어 6엑사플롭의 컴퓨팅 성능을 제공합니다.

기능

Trn1 인스턴스는 DL 훈련을 가속화하고 최대 3페타플롭의 FP16/BF16 컴퓨팅 파워를 제공하도록 특별히 구축된 최대 16개의 AWS Trainium 칩으로 구동됩니다. 각 칩에는 2세대 NeuronCore 2개가 포함됩니다.

효율적인 데이터 및 모델 병렬 처리를 지원하기 위해 각 Trn1 인스턴스에는 총 메모리 대역폭이 9.8Tb/s인 512GB의 공유 엑셀러레이터 메모리(HBM)가 있습니다.

전문가 혼합(MoE) 및 생성형 사전 훈련 변환기(GPT)와 같은 네트워크 집약적 모델의 훈련을 지원하기 위해 각 Trn1n 인스턴스는 최대 1,600Gbps의 EFAv2 네트워크 대역폭을 제공합니다. 각 Trn1 인스턴스는 최대 800Gbps의 EFAv2 대역폭을 지원합니다. EFAv2는 1세대 EFA보다 집합 커뮤니케이션 성능을 최대 50% 개선하여 분산 훈련을 가속화합니다. 또한 이들 인스턴스는 최대 80Gbps의 Amazon Elastic Block Store(EBS) 대역폭과 최대 8TB의 로컬 NVMe Solid State Drive(SSD) 스토리지를 지원하여 대규모 데이터 세트에 대한 빠른 워크로드 액세스를 보장합니다.

Trainium 칩 간의 빠른 연결과 간소화된 집단 통신을 위해 Trn1 인스턴스는 최대 768Gb/s의 고속 비차단 상호 연결인 NeuronLink를 지원합니다.

정확도 목표를 달성하면서 고성능을 제공하기 위해, Trn1 인스턴스는 FP32, TF32, BF16, FP16, UINT8 및 새로운 구성 가능한 FP8(cFP8) 데이터 유형에 최적화되어 있습니다. DL의 빠른 혁신 속도와 생성형 AI를 지원하기 위해 Trn1 인스턴스에는 지속적으로 진화하는 DL 모델을 훈련할 수 있도록 유연하고 확장 가능한 몇 가지 혁신 기능을 제공합니다. Trn1 인스턴스는 동적 입력 셰이프에 대한 하드웨어 최적화 및 소프트웨어 지원을 제공합니다. 향후 새로운 연산자를 지원할 수 있도록 C++로 작성된 사용자 지정 연산자를 지원합니다. 레거시 반올림 모드보다 높은 성능과 정확성을 실현하는 확률적 반올림 방식인 확률 반올림도 지원합니다.

고객 및 파트너 추천사

고객과 파트너가 Amazon EC2 Trn1 인스턴스를 사용하여 비즈니스 목표를 달성한 몇 가지 사례를 소개합니다.

  • Databricks

    Comcast, Condé Nast 및 Fortune 500대 기업의 50% 이상을 포함하여 전 세계 1만 개 이상의 조직이 데이터, 분석 및 AI의 통합에 Databricks를 활용합니다.

    수천 개의 고객사가 AWS에 Databricks를 구현했습니다. 이 고객들은 MosaicML을 사용하여 다양한 사용 사례에 맞게 파운데이션 모델을 사전 훈련하고, 미세 조정하고 제공할 수 있습니다. AWS Trainium은 Mosaic MPT 모델을 훈련하는 데 필요한 규모와 고성능을 저렴한 비용으로 제공합니다. 차세대 Mosaic MPT 모델을 훈련할 때 Trainium2를 사용하면 모델을 훨씬 더 빠르게 구축할 수 있게 될 것이고, 고객들은 전례 없는 규모와 성능으로 자체 생성형 AI 애플리케이션을 더 빠르게 출시할 수 있을 것입니다.

    Naveen Rao, Databricks Generative AI VP
  • Stockmark Co., Ltd

    Stockmark는 ‘가치 창출의 메커니즘을 재창조하고 인류를 발전시킨다’는 사명 아래 최첨단 자연어 처리 기술을 제공함으로써 혁신적인 비즈니스를 만드는 많은 기업을 돕습니다.

    AWS Trainium 칩으로 구동되는 Amazon EC2 Trn1 인스턴스의 16개 노드를 사용하여 2,200억 개의 일본어 토큰 코퍼스에서 처음부터 사전 훈련된 130억 개의 파라미터가 포함된 대규모 언어 모델인 stockmark-13b를 개발하고 출시했습니다. 이 코퍼스에는 2023년 9월까지의 최신 비즈니스 도메인 텍스트가 포함되어 있습니다. 이 모델은 JGLUE(일본어 일반 언어 이해 평가) 벤치마크에서 다른 동급 모델에 비해 가장 높은 JSQuAD 점수(0.813)를 달성했습니다. Hugging Face Hub에서 제공되며 MIT 라이선스를 통해 상업적으로 사용할 수 있습니다. Trn1 인스턴스는 동급의 GPU 인스턴스에 비해 훈련 비용을 20% 절감하는 데 도움이 되었습니다.

    Kosuke Arima, Stockmark Co., Ltd. CTO
  • RICOH

    RICOH는 비즈니스 전반의 정보 흐름을 관리하고 최적화하도록 설계된 업무 공간 솔루션 및 디지털 트랜스포메이션 서비스를 제공합니다.

    Trn1 인스턴스로의 마이그레이션은 매우 간단했습니다. 130억 파라미터 모델의 훈련을 단 8일 만에 완료할 수 있었습니다. 이러한 성공을 바탕으로 Trainium에서 700억 파라미터 모델을 개발하고 훈련할 수 있기를 기대하고 있으며, 모델을 더 빠르고 비용 효율적으로 훈련하는 데 이러한 인스턴스가 가진 잠재력이 기대됩니다.

    Yoshiaki Umetsu, RICOH Digital Technology Development Center Director
  • HeliXon

    HeliXon은 단백질 기반 치료법에 대한 차세대 AI 솔루션을 구축합니다. 당사의 목표는 단백질 기능과 상호 작용의 비밀을 풀고 대규모 유전체 데이터 세트를 조사하여 대상을 식별하며 항체 및 세포 치료와 같은 치료법을 설계할 수 있는 AI 도구를 개발하는 것입니다. 현재 당사는 FSDP와 같은 훈련 배포 라이브러리를 사용하여 여러 GPU 기반 서버에서 모델 훈련을 병렬 처리하고 있지만 아직도 모델 하나를 훈련하는 데 몇 주가 걸립니다. AWS에서 사용할 수 있는 것 중에서 가장 높은 수준의 네트워크 대역폭(800Gbps)을 제공하는 Amazon EC2 Trn1 인스턴스를 활용하면 분산 훈련 작업의 성능을 개선하고 모델 훈련 시간을 단축하는 동시에 훈련 비용을 절감할 수 있을 것입니다.

    Jian Peng, Helixon CEO
  • Money Forward, Inc.

    Money Forward, Inc.는 개인 및 기업 고객을 위한 개방형의 공정한 금융 플랫폼을 제공합니다.

    당사는 대규모 AI 챗봇 서비스를 Amazon EC2 Inf1 인스턴스에서 출시하여 추론 지연 시간을 비교 가능한 GPU 기반 인스턴스 대비 97% 단축하는 동시에 비용도 절감했습니다. 맞춤형 NLP 모델을 주기적으로 세부 조정하려면 모델 훈련 시간과 비용을 줄이는 것도 중요합니다. Inf1 인스턴스의 추론 워크로드를 성공적으로 마이그레이션한 경험과 AWS Trainium 기반 EC2 Trn1 인스턴스의 초기 작업을 비추어 볼 때 Trn1 인스턴스는 엔드 투 엔드 ML 성능과 비용을 개선하는 데 있어서 추가적인 가치를 제공해 줄 것으로 기대됩니다.

    Takuya Nakade, Money Forward, Inc. CTO
  • Magic

    Magic은 생산성을 개선해주는 동료와 같은 느낌의 AI를 개발하는 통합 제품 및 연구 회사입니다.

    당사의 필수적인 업무 중 하나는 대규모 자동 회귀 트랜스포머 기반 모델을 훈련하는 것입니다. AWS Trainium 기반 Trn1 인스턴스는 이러한 워크로드를 위해 특별히 설계되었으며 거의 무한한 확장성, 노드 간 고속 네트워킹, 16비트 및 8비트 데이터 유형에 대한 고급 지원을 제공합니다. Trn1 인스턴스는 대규모 모델을 더 빠르게 더 저렴한 비용으로 훈련하는 데 도움이 될 것입니다. 특히 Trainium은 BF16 확률 반올림을 지원하므로 성능을 개선하는 동시에 완벽한 정밀도에 가까운 숫자 정확성을 달성할 수 있을 것으로 기대합니다.

    Eric Steinberger, Magic 공동 창립자 겸 CEO
  • Cactus Communications

    CACTUS는 연구 자금 확보, 연구 내용 발표, 홍보 및 검색 기능을 개선하고자 하는 연구 조직을 위한 제품 및 솔루션을 제공합니다.

    Cactus Labs는 자연어 처리, 순위 지정 및 추천, 대화형 AI, 대규모 언어 모델, 컴퓨터 비전, AR/VR 및 XAI에 중점을 둔 연구를 바탕으로 AI 기능을 제공합니다. 기계 학습 모델의 더 빠른 훈련을 지원하고 인프라 비용을 관리하면서 더 많은 실험을 실행할 수 있는 연구 환경을 지원하기 위한 탐구 과정에서 AWS Trainium을 평가할 수 있게 되어 기뻤습니다. AWS Trainium의 XLA 최적화, 다중 작업자 데이터 병렬 훈련, 그래프 캐싱과 같은 즉시 사용 가능한 기능은 훈련 시간을 줄이는 데 실로 유용하며 더 많은 실험을 더 저렴한 비용으로 더 빠르게 실행하는 데 도움이 됩니다.

    Nishchay Shah - Cactus Communication CTO 겸 신흥 제품 책임자
  • Watashiha

    Watashiha는 혁신적인 대화형 AI 챗봇 서비스인 ‘OGIRI AI’를 제공합니다. 이 서비스는 유머를 결합하여 질문에 대해 재미있는 답변을 즉시 제공합니다.

    저희는 대규모 언어 모델을 사용하여 유머를 통합하고 AI 서비스를 기반으로 고객에게 보다 연관성이 높은 대화형 경험을 제공합니다. 이를 위해서는 이러한 모델을 자주 사전 훈련하고 미세 조정해야 합니다. 텐서와 데이터 병렬 처리 기능을 활용하여 EC2 Trn1.32xlarge 인스턴스에서 GPT 기반 일본어 모델을 사전 훈련했습니다. 이전 GPU 기반 인프라에 비해 33% 절감된 비용으로 28일 내에 훈련이 완료되었습니다. 모델이 빠르게 복잡해지는 상황에서, Trn1보다 두 배 더 큰 네트워크 대역폭을 갖춘 Trn1n 인스턴스가 더 규모가 큰 모델의 훈련 속도를 높여줄 것으로 기대하고 있습니다.

    Yohei Kobashi, Watashiha, K.K. CTO
  • PyTorch

    PyTorch는 연구용 프로토타입 기계 학습을 고객이 사용할 수 있는 프로덕션급 기계 학습으로 빠르게 전환합니다. 당사는 AWS 팀과 협력하여 딥 러닝 모델 훈련을 위해 특별히 구축된 새로운 AWS Trainium 기반 Amazon EC2 Trn1 인스턴스에 대한 기본적인 PyTorch 지원을 제공했습니다. PyTorch 모델을 구축하는 개발자는 최소한의 코드 변경으로 Trn1 인스턴스에서 훈련을 시작할 수 있습니다. 또한 당사는 OpenXLA 커뮤니티와 협력하여 PyTorch 분산 라이브러리를 지원함으로써 GPU 기반 인스턴스에서 Trn1 인스턴스로 손쉽게 모델을 마이그레이션할 수 있도록 했습니다. Trn1 인스턴스는 PyTorch 커뮤니티에 더 효율적인 데이터 유형, 동적 셰이프, 사용자 지정 연산자, 하드웨어 최적화 확률 반올림, eager 디버그 모드 등 많은 혁신을 가져다 주었습니다. 이 모든 혁신을 볼 때 Trn1은 PyTorch 개발자의 광범위한 개발 분야에 적합합니다. 앞으로 PyTorch에 대한 공동 기고로 훈련 성능이 추가로 최적화될 것으로 기대합니다.

    Geeta Chauhan, PyTorch 응용 AI 부문 엔지니어링 관리자
  • Hugging Face

    Hugging Face는 우수한 ML을 대중화하여 전 세계 ML 개발자들이 실제 문제를 해결할 수 있도록 돕는 것을 사명으로 합니다. 그 핵심은 최고의 최신 모델을 클라우드를 기반으로 한 최고의 ML 칩에서 최대한 효율적으로 빠르게 실행하는 것입니다. Inferentia2가 생성형 AI 모델을 대규모로 배포하는 새로운 표준 방식이 될 수 있다는 것을 매우 기쁘게 생각합니다. Inf1 덕분에 기존 GPU 기반 인스턴스보다 비용을 최대 70% 절감했으며 Inf2를 사용하면서 BERT와 유사한 변환기의 지연 시간이 Inferentia1을 사용할 때에 비해 최대 8배 더 짧아졌습니다. Inferentia2를 통해 저희 커뮤니티는 이 성능을 1천억 개 이상의 파라미터 규모로, 그리고 LLM과 최신 확산 및 컴퓨터 비전 모델로 손쉽게 확장할 수 있을 것입니다.

  • Amazon

    당사에서 훈련하는 대규모 언어 모델(LLM)은 다중 모달(텍스트 + 이미지), 다중 언어, 다중 로캘로, 여러 태스크에서 미리 훈련을 받으며 여러 엔터티(제품, 쿼리, 브랜드, 후기 등)에 걸쳐 고객의 쇼핑 경험을 개선합니다. Trn1 인스턴스는 다른 가속화된 기계 학습 솔루션에 비해 최고의 성능/와트를 제공하여 저렴한 비용으로 높은 성능을 활용할 수 있도록 함으로써 LLM을 훈련할 수 있는 보다 지속 가능한 방법을 제공합니다. 당사는 구성 가능한 새로운 FP8 데이터 유형과 하드웨어 가속 확률 반올림을 활용하여 훈련 효율성을 추가로 개선하고 개발 속도를 높일 계획입니다.

    Trishul Chilimbi, Amazon Search VP

시작하기

Amazon SageMaker를 사용하여 Trn1 인스턴스에서 모델을 손쉽게 훈련할 수 있습니다. 인프라를 관리할 필요가 없으므로 ML 모델을 훈련하고 튜닝하는 데 필요한 시간과 비용이 대폭 줄어듭니다. SageMaker를 사용하면 기본적으로 포함된 도구를 사용하여 훈련 실험을 관리 및 추적하고 최적의 하이퍼파라미터를 자동으로 선택하며 훈련 작업을 디버깅하고 시스템 리소스 사용을 모니터링할 수 있습니다.

AWS Deep Learning AMI(DLAMI)는 딥 러닝(DL) 실무자 및 연구원에게 규모와 관계없이 AWS에서 DL을 가속화할 수 있는 인프라 및 도구를 제공합니다. DLAMI에는 사전 구성된 AWS Neuron 드라이버가 포함되므로 Trn1 인스턴스에서 DL 모델의 훈련을 최적화할 수 있습니다.

이제 완전관리형 Kubernetes 서비스인 Amazon Elastic Kubernetes Service(Amazon EKS)와 완전관리형 컨테이너 오케스트레이션 서비스인 Amazon Elastic Container Service(Amazon ECS)에 Trn1 인스턴스를 배포할 수 있습니다. Neuron도 AWS Deep Learning Containers에 미리 설치되어 제공됩니다. Trn1 인스턴스에서 컨테이너를 실행하는 방법에 대해 자세히 알아보려면 Neuron 컨테이너 자습서를 참조하세요.

제품 세부 정보

인스턴스 크기 Trainium 칩
액셀러레이터
메모리
(GB)
vCPU 인스턴스
메모리
(GiB)
로컬
NVMe
스토리지
(TB)
네트워크
대역폭
(Gbps)
EFA 및
RDMA
지원
EBS
대역폭
(Gbps)
온디맨드
시간당 요금
1년
예약형
인스턴스
유효
시간당*
3년
예약형
인스턴스
유효
시간당*
trn1.2xlarge 1 32 8 32 0.5 최대 12.5 아니요 최대 20 1.34 USD 0.79 USD 0.4744 USD
trn1.32xlarge 16 512 128 512 8 800 80 21.50 USD 12.60 USD 7.59 USD

trn1n.32xlarge

16 512 128 512 8 1600 80 24.78 USD 14.52 USD 8.59 USD