Amazon EC2 UltraClusters

대규모 HPC 및 ML 애플리케이션 실행

Amazon EC2 UltraClusters를 선택해야 하는 이유

Amazon Elastic Compute Cloud(Amazon EC2) UltraClusters를 사용하면 수천 개의 GPU 또는 AWS Trainium 등 특별히 구축된 ML 액셀러레이터로 확장하여 슈퍼컴퓨터에 온디맨드로 액세스할 수 있습니다. 설정 또는 유지 관리 비용 없는 간단한 종량 과금제 사용량 모델을 통해 기계 학습(ML), 생성형 AI, 고성능 컴퓨팅(HPC) 개발자 누구나 슈퍼컴퓨터급 성능을 이용할 수 있습니다. Amazon EC2 P5 인스턴스, Amazon EC2 P4d 인스턴스, Amazon EC2 Trn1 인스턴스는 모두 Amazon EC2 UltraClusters에 배포됩니다.

EC2 UltraClusters는 지정된 AWS 가용 영역에 콜로케이션되고 페타비트 규모의 비차단 네트워크에서 Elastic Fabric Adapter(EFA) 네트워킹을 사용하여 상호 연결된 수천 개의 가속화된 EC2 인스턴스로 구성됩니다. EC2 UltraClusters는 가장 널리 사용되는 고성능 병렬 파일 시스템을 기반으로 구축된 완전관리형 공유 스토리지인 Amazon FSx for Lustre에 대한 액세스를 제공하여 방대한 데이터세트를 밀리초 미만의 지연 시간으로 신속하게 온디맨드 방식으로 대규모로 처리합니다. EC2 UltraClusters는 분산형 ML 훈련 및 긴밀하게 결합된 HPC 워크로드를 위한 스케일 아웃 기능을 제공합니다.

Amazon EC2 P5 인스턴스와 Trn1 인스턴스는 클러스터에서 홉 수와 지연 시간을 줄이고 확장성을 높일 수 있는 네트워크 패브릭을 제공하는 2세대 EC2 UltraClusters 아키텍처를 사용합니다.

이점

EC2 UltraClusters는 훈련 시간과 솔루션 구현 시간을 몇 주에서 단 며칠로 단축할 수 있습니다. 이를 통해 더 빠른 속도로 반복하고 딥 러닝(DL), 생성형 AI, HPC 애플리케이션을 더 빠르게 시장에 출시할 수 있습니다.

P5 인스턴스는 최대 20,000개의 H100 GPU를 갖춘 EC2 UltraClusters에 배포되어 20엑사플롭스 이상의 집계 컴퓨팅 기능을 제공합니다. 마찬가지로 Trn1 인스턴스는 30,000개의 Trainium 액셀러레이터로 확장할 수 있고, P4 인스턴스는 10,000개의 A100 GPU로 확장하여 엑사스케일 컴퓨팅을 온디맨드로 제공할 수 있습니다.

지원하는 EC2 인스턴스가 늘어나고 있는 EC2 UltraClusters는 워크로드 비용을 제어하면서 성능을 극대화하기에 적합한 컴퓨팅 옵션을 선택할 수 있는 유연성을 제공합니다.

기능

고성능 네트워킹

EC2 UltraClusters에 배포되는 EC2 인스턴스는 EFA 네트워킹과 상호 연결되어 분산 훈련 워크로드 및 긴밀하게 결합된 HPC 워크로드의 성능을 개선합니다. P5 인스턴스는 최대 3,200Gbps, Trn1 인스턴스는 최대 1,600Gbps, P4d 인스턴스는 최대 400Gbps의 EFA 네트워킹을 제공합니다. EFA는 NVIDIA GPUDirect RDMA(P5, P4d) 및 NeuronLink(Trn1)와도 결합되어 운영 체제 우회를 통해 서버 사이에서 지연 시간이 짧은 액셀러레이터 간 통신이 가능합니다.

고성능 스토리지

EC2 UltraClusters는 가장 널리 사용되는 고성능 병렬 파일 시스템을 기반으로 구축된 완전관리형 공유 스토리지인 FSx for Lustre를 사용합니다. FSx for Lustre를 사용하면 방대한 데이터세트를 온디맨드로 신속하게 대규모로 처리하고 1밀리초 미만의 지연 시간을 제공할 수 있습니다. FSx for Lustre의 짧은 지연 시간과 높은 처리량 특성은 EC2 UltraClusters의 DL, 생성형 AI, HPC 워크로드에 최적화되어 있습니다. FSx for Lustre는 EC2 UltraClusters의 GPU와 ML 액셀러레이터에 데이터를 공급하여 가장 까다로운 워크로드를 가속화합니다. 이러한 워크로드에는 대규모 언어 모델(LLM) 훈련, 생성형 AI 추론, DL, 유전체학, 재무 위험 모델링이 포함됩니다. Amazon Simple Storage Service(S3)를 통해 비용 효율적인 스토리지에 거의 무제한으로 액세스할 수도 있습니다.

인스턴스 지원

NVIDIA H100 Tensor Core GPU로 구동되는 P5 인스턴스는 Amazon EC2 최고의 ML 훈련 및 HPC 애플리케이션 성능을 제공합니다.

자세히 알아보기

NVIDIA A100 Tensor Core GPU로 구동되는 P4d 인스턴스는 ML 훈련 및 HPC 애플리케이션을 위한 고성능을 제공합니다.

자세히 알아보기

AWS Trainium 액셀러레이터로 구동되는 Trn1 인스턴스는 고성능 ML 훈련용으로 특별히 구축되었습니다. 동급 EC2 인스턴스보다 최대 50% 저렴한 훈련 비용을 제공합니다.

자세히 알아보기