Amazon EC2 Trn1 인스턴스를 사용해야 하는 이유
AWS Trainium 칩으로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) Trn1 인스턴스는 대규모 언어 모델(LLM) 및 잠재 확산 모델을 비롯한 생성형 AI 모델의 고성능 딥 러닝(DL) 훈련을 지원하는 목적별 서비스입니다. Trn1 인스턴스는 다른 유사한 Amazon EC2 인스턴스 대비 최대 50% 저렴한 훈련 비용을 제공합니다. Trn1 인스턴스를 사용하여 텍스트 요약, 코드 생성, 질문 답하기, 이미지 및 비디오 생성, 추천, 사기 탐지 등 다양한 애플리케이션 세트에서 1천억 개 이상의 파라미터 DL 및 생성형 AI 모델을 훈련할 수 있습니다.
AWS Neuron SDK는 개발자가 AWS Trainium에서 모델을 훈련하고 AWS Inferentia 칩에 모델을 배포하는 데 도움이 됩니다. PyTorch 및 TensorFlow 같은 프레임워크와 기본적으로 통합되므로 기존 코드 및 워크플로를 계속 사용하여 Trn1 인스턴스에서 모델을 훈련할 수 있습니다. Neuron의 기계 학습(ML) 프레임워크 및 라이브러리 지원, 모델 아키텍처 및 하드웨어 최적화에 대한 최신 정보는 Neuron 설명서를 참조하세요.
Introducing Amazon EC2 Trn1 instances powered by AWS Trainium(AWS Trainium으로 구동되는 Amazon EC2 Trn1 인스턴스 소개)
이점
기능
고객 및 파트너 추천사
고객과 파트너가 Amazon EC2 Trn1 인스턴스를 사용하여 비즈니스 목표를 달성한 몇 가지 사례를 소개합니다.
-
Databricks
Comcast, Condé Nast 및 Fortune 500대 기업의 50% 이상을 포함하여 전 세계 1만 개 이상의 조직이 데이터, 분석 및 AI의 통합에 Databricks를 활용합니다.
수천 개의 고객사가 AWS에 Databricks를 구현했습니다. 이 고객들은 MosaicML을 사용하여 다양한 사용 사례에 맞게 파운데이션 모델을 사전 훈련하고, 미세 조정하고 제공할 수 있습니다. AWS Trainium은 Mosaic MPT 모델을 훈련하는 데 필요한 규모와 고성능을 저렴한 비용으로 제공합니다. 차세대 Mosaic MPT 모델을 훈련할 때 Trainium2를 사용하면 모델을 훨씬 더 빠르게 구축할 수 있게 될 것이고, 고객들은 전례 없는 규모와 성능으로 자체 생성형 AI 애플리케이션을 더 빠르게 출시할 수 있을 것입니다.
Naveen Rao, Databricks Generative AI VP -
Stockmark Co., Ltd
Stockmark는 ‘가치 창출의 메커니즘을 재창조하고 인류를 발전시킨다’는 사명 아래 최첨단 자연어 처리 기술을 제공함으로써 혁신적인 비즈니스를 만드는 많은 기업을 돕습니다.
AWS Trainium 칩으로 구동되는 Amazon EC2 Trn1 인스턴스의 16개 노드를 사용하여 2,200억 개의 일본어 토큰 코퍼스에서 처음부터 사전 훈련된 130억 개의 파라미터가 포함된 대규모 언어 모델인 stockmark-13b를 개발하고 출시했습니다. 이 코퍼스에는 2023년 9월까지의 최신 비즈니스 도메인 텍스트가 포함되어 있습니다. 이 모델은 JGLUE(일본어 일반 언어 이해 평가) 벤치마크에서 다른 동급 모델에 비해 가장 높은 JSQuAD 점수(0.813)를 달성했습니다. Hugging Face Hub에서 제공되며 MIT 라이선스를 통해 상업적으로 사용할 수 있습니다. Trn1 인스턴스는 동급의 GPU 인스턴스에 비해 훈련 비용을 20% 절감하는 데 도움이 되었습니다.
Kosuke Arima, Stockmark Co., Ltd. CTO -
RICOH
RICOH는 비즈니스 전반의 정보 흐름을 관리하고 최적화하도록 설계된 업무 공간 솔루션 및 디지털 트랜스포메이션 서비스를 제공합니다.
Trn1 인스턴스로의 마이그레이션은 매우 간단했습니다. 130억 파라미터 모델의 훈련을 단 8일 만에 완료할 수 있었습니다. 이러한 성공을 바탕으로 Trainium에서 700억 파라미터 모델을 개발하고 훈련할 수 있기를 기대하고 있으며, 모델을 더 빠르고 비용 효율적으로 훈련하는 데 이러한 인스턴스가 가진 잠재력이 기대됩니다.
Yoshiaki Umetsu, RICOH Digital Technology Development Center Director -
HeliXon
HeliXon은 단백질 기반 치료법에 대한 차세대 AI 솔루션을 구축합니다. 당사의 목표는 단백질 기능과 상호 작용의 비밀을 풀고 대규모 유전체 데이터 세트를 조사하여 대상을 식별하며 항체 및 세포 치료와 같은 치료법을 설계할 수 있는 AI 도구를 개발하는 것입니다. 현재 당사는 FSDP와 같은 훈련 배포 라이브러리를 사용하여 여러 GPU 기반 서버에서 모델 훈련을 병렬 처리하고 있지만 아직도 모델 하나를 훈련하는 데 몇 주가 걸립니다. AWS에서 사용할 수 있는 것 중에서 가장 높은 수준의 네트워크 대역폭(800Gbps)을 제공하는 Amazon EC2 Trn1 인스턴스를 활용하면 분산 훈련 작업의 성능을 개선하고 모델 훈련 시간을 단축하는 동시에 훈련 비용을 절감할 수 있을 것입니다.
Jian Peng, Helixon CEO -
Money Forward, Inc.
Money Forward, Inc.는 개인 및 기업 고객을 위한 개방형의 공정한 금융 플랫폼을 제공합니다.
당사는 대규모 AI 챗봇 서비스를 Amazon EC2 Inf1 인스턴스에서 출시하여 추론 지연 시간을 비교 가능한 GPU 기반 인스턴스 대비 97% 단축하는 동시에 비용도 절감했습니다. 맞춤형 NLP 모델을 주기적으로 세부 조정하려면 모델 훈련 시간과 비용을 줄이는 것도 중요합니다. Inf1 인스턴스의 추론 워크로드를 성공적으로 마이그레이션한 경험과 AWS Trainium 기반 EC2 Trn1 인스턴스의 초기 작업을 비추어 볼 때 Trn1 인스턴스는 엔드 투 엔드 ML 성능과 비용을 개선하는 데 있어서 추가적인 가치를 제공해 줄 것으로 기대됩니다.
Takuya Nakade, Money Forward, Inc. CTO -
Magic
Magic은 생산성을 개선해주는 동료와 같은 느낌의 AI를 개발하는 통합 제품 및 연구 회사입니다.
당사의 필수적인 업무 중 하나는 대규모 자동 회귀 트랜스포머 기반 모델을 훈련하는 것입니다. AWS Trainium 기반 Trn1 인스턴스는 이러한 워크로드를 위해 특별히 설계되었으며 거의 무한한 확장성, 노드 간 고속 네트워킹, 16비트 및 8비트 데이터 유형에 대한 고급 지원을 제공합니다. Trn1 인스턴스는 대규모 모델을 더 빠르게 더 저렴한 비용으로 훈련하는 데 도움이 될 것입니다. 특히 Trainium은 BF16 확률 반올림을 지원하므로 성능을 개선하는 동시에 완벽한 정밀도에 가까운 숫자 정확성을 달성할 수 있을 것으로 기대합니다.
Eric Steinberger, Magic 공동 창립자 겸 CEO -
Cactus Communications
CACTUS는 연구 자금 확보, 연구 내용 발표, 홍보 및 검색 기능을 개선하고자 하는 연구 조직을 위한 제품 및 솔루션을 제공합니다.
Cactus Labs는 자연어 처리, 순위 지정 및 추천, 대화형 AI, 대규모 언어 모델, 컴퓨터 비전, AR/VR 및 XAI에 중점을 둔 연구를 바탕으로 AI 기능을 제공합니다. 기계 학습 모델의 더 빠른 훈련을 지원하고 인프라 비용을 관리하면서 더 많은 실험을 실행할 수 있는 연구 환경을 지원하기 위한 탐구 과정에서 AWS Trainium을 평가할 수 있게 되어 기뻤습니다. AWS Trainium의 XLA 최적화, 다중 작업자 데이터 병렬 훈련, 그래프 캐싱과 같은 즉시 사용 가능한 기능은 훈련 시간을 줄이는 데 실로 유용하며 더 많은 실험을 더 저렴한 비용으로 더 빠르게 실행하는 데 도움이 됩니다.
Nishchay Shah - Cactus Communication CTO 겸 신흥 제품 책임자 -
Watashiha
Watashiha는 혁신적인 대화형 AI 챗봇 서비스인 ‘OGIRI AI’를 제공합니다. 이 서비스는 유머를 결합하여 질문에 대해 재미있는 답변을 즉시 제공합니다.
저희는 대규모 언어 모델을 사용하여 유머를 통합하고 AI 서비스를 기반으로 고객에게 보다 연관성이 높은 대화형 경험을 제공합니다. 이를 위해서는 이러한 모델을 자주 사전 훈련하고 미세 조정해야 합니다. 텐서와 데이터 병렬 처리 기능을 활용하여 EC2 Trn1.32xlarge 인스턴스에서 GPT 기반 일본어 모델을 사전 훈련했습니다. 이전 GPU 기반 인프라에 비해 33% 절감된 비용으로 28일 내에 훈련이 완료되었습니다. 모델이 빠르게 복잡해지는 상황에서, Trn1보다 두 배 더 큰 네트워크 대역폭을 갖춘 Trn1n 인스턴스가 더 규모가 큰 모델의 훈련 속도를 높여줄 것으로 기대하고 있습니다.
Yohei Kobashi, Watashiha, K.K. CTO
-
PyTorch
PyTorch는 연구용 프로토타입 기계 학습을 고객이 사용할 수 있는 프로덕션급 기계 학습으로 빠르게 전환합니다. 당사는 AWS 팀과 협력하여 딥 러닝 모델 훈련을 위해 특별히 구축된 새로운 AWS Trainium 기반 Amazon EC2 Trn1 인스턴스에 대한 기본적인 PyTorch 지원을 제공했습니다. PyTorch 모델을 구축하는 개발자는 최소한의 코드 변경으로 Trn1 인스턴스에서 훈련을 시작할 수 있습니다. 또한 당사는 OpenXLA 커뮤니티와 협력하여 PyTorch 분산 라이브러리를 지원함으로써 GPU 기반 인스턴스에서 Trn1 인스턴스로 손쉽게 모델을 마이그레이션할 수 있도록 했습니다. Trn1 인스턴스는 PyTorch 커뮤니티에 더 효율적인 데이터 유형, 동적 셰이프, 사용자 지정 연산자, 하드웨어 최적화 확률 반올림, eager 디버그 모드 등 많은 혁신을 가져다 주었습니다. 이 모든 혁신을 볼 때 Trn1은 PyTorch 개발자의 광범위한 개발 분야에 적합합니다. 앞으로 PyTorch에 대한 공동 기고로 훈련 성능이 추가로 최적화될 것으로 기대합니다.
Geeta Chauhan, PyTorch 응용 AI 부문 엔지니어링 관리자 -
Hugging Face
Hugging Face는 우수한 ML을 대중화하여 전 세계 ML 개발자들이 실제 문제를 해결할 수 있도록 돕는 것을 사명으로 합니다. 그 핵심은 최고의 최신 모델을 클라우드를 기반으로 한 최고의 ML 칩에서 최대한 효율적으로 빠르게 실행하는 것입니다. Inferentia2가 생성형 AI 모델을 대규모로 배포하는 새로운 표준 방식이 될 수 있다는 것을 매우 기쁘게 생각합니다. Inf1 덕분에 기존 GPU 기반 인스턴스보다 비용을 최대 70% 절감했으며 Inf2를 사용하면서 BERT와 유사한 변환기의 지연 시간이 Inferentia1을 사용할 때에 비해 최대 8배 더 짧아졌습니다. Inferentia2를 통해 저희 커뮤니티는 이 성능을 1천억 개 이상의 파라미터 규모로, 그리고 LLM과 최신 확산 및 컴퓨터 비전 모델로 손쉽게 확장할 수 있을 것입니다.
-
Amazon
당사에서 훈련하는 대규모 언어 모델(LLM)은 다중 모달(텍스트 + 이미지), 다중 언어, 다중 로캘로, 여러 태스크에서 미리 훈련을 받으며 여러 엔터티(제품, 쿼리, 브랜드, 후기 등)에 걸쳐 고객의 쇼핑 경험을 개선합니다. Trn1 인스턴스는 다른 가속화된 기계 학습 솔루션에 비해 최고의 성능/와트를 제공하여 저렴한 비용으로 높은 성능을 활용할 수 있도록 함으로써 LLM을 훈련할 수 있는 보다 지속 가능한 방법을 제공합니다. 당사는 구성 가능한 새로운 FP8 데이터 유형과 하드웨어 가속 확률 반올림을 활용하여 훈련 효율성을 추가로 개선하고 개발 속도를 높일 계획입니다.
Trishul Chilimbi, Amazon Search VP
시작하기
제품 세부 정보
인스턴스 크기 | Trainium 칩 |
액셀러레이터 메모리 (GB) |
vCPU | 인스턴스 메모리 (GiB) |
로컬 NVMe 스토리지 (TB) |
네트워크 대역폭 (Gbps) |
EFA 및 RDMA 지원 |
EBS 대역폭 (Gbps) |
온디맨드 시간당 요금 |
1년 예약형 인스턴스 유효 시간당* |
3년 예약형 인스턴스 유효 시간당* |
trn1.2xlarge | 1 | 32 | 8 | 32 | 0.5 | 최대 12.5 | 아니요 | 최대 20 | 1.34 USD | 0.79 USD | 0.4744 USD |
trn1.32xlarge | 16 | 512 | 128 | 512 | 8 | 800 | 예 | 80 | 21.50 USD | 12.60 USD | 7.59 USD |
trn1n.32xlarge |
16 | 512 | 128 | 512 | 8 | 1600 | 예 | 80 | 24.78 USD | 14.52 USD | 8.59 USD |