Amazon EC2 Inf2 인스턴스

Amazon EC2에서 생성형 AI를 위한 고성능 기능을 최저 비용으로 제공

Amazon Elastic Compute Cloud(Amazon EC2) Inf2 인스턴스는 딥 러닝(DL) 추론을 위해 특별히 제작되었으며, Amazon EC2에서 최저 비용으로 대규모 언어 모델(LLM) 및 비전 변환기를 비롯한 생성형 인공 지능 모델을 위한 고성능을 제공합니다. Inf2 인스턴스를 사용하면 텍스트 요약, 코드 생성, 비디오 및 이미지 생성, 음성 인식, 개인화, 사기 탐지 등을 위한 추론 애플리케이션을 실행할 수 있습니다.

Inf2 인스턴스는 2세대 AWS Inferentia 칩인 AWS Inferentia2로 구동됩니다. Inf2 인스턴스는 Inf1보다 3배 더 뛰어난 컴퓨팅 성능, 4배 더 많은 총 액셀러레이터 메모리, 최대 4배 더 높은 처리량, 최대 10배 짧은 지연 시간으로 향상된 성능을 제공합니다. Inf2 인스턴스는 Amazon EC2 최초의 추론 최적화 인스턴스로, Inferentia 칩 간의 초고속 연결을 통한 스케일 아웃 분산 추론을 지원합니다. 이제 Inf2 인스턴스에서 여러 칩에 수천억 개의 파라미터가 포함된 모델을 효율적이고 경제적으로 배포할 수 있습니다.

AWS Neuron SDK는 AWS Inferentia 칩에 모델을 배포하고 AWS Trainium 칩에서 모델을 훈련하는 데 도움이 됩니다. 이 SDK는 PyTorch 및 TensorFlow 같은 프레임워크와 기본적으로 통합되므로 기존 워크플로와 애플리케이션 코드를 계속 사용하고 Inf2 인스턴스에서 실행할 수 있습니다.

작동 방식

  • AWS DLAMI 사용하기
  • AWS Deep Learning AMI (DLAMI)를 사용하여 Amazon EC2 Inf2 인스턴스를 배포하는 워크플로를 보여주는 다이어그램
  • Amazon EKS 사용하기
  • Kubernetes 클러스터를 생성하고, 클러스터의 Amazon EC2 Inf2 인스턴스를 배포하고, Kubernetes에서 추론 애플리케이션을 실행하는 워크플로를 보여주는 다이어그램
  • Amazon ECS 사용하기
  • Amazon ECS와 함께 AWS Deep Learning Containers를 사용하여 Amazon EC2 Inf2 인스턴스를 배포하는 워크플로를 보여주는 다이어그램
  • Amazon SageMaker 사용하기
  • Amazon S3 버킷에 저장된 모델 아티팩트와 Amazon SageMaker의 Amazon ECR 컨테이너 이미지를 사용하여 Inf2 인스턴스에 추론을 배포하는 워크플로를 보여주는 다이어그램

이점

1,000억 개 이상의 파라미터, 생성형 AI 모델을 대규모로 배포

Inf2 인스턴스는 Amazon EC2에서 대규모 분산 추론을 지원하는 최초의 추론 최적화 인스턴스입니다. 이제 칩 간의 초고속 연결을 사용하여 Inf2 인스턴스의 여러 Inferentia 칩에 수천억 개의 파라미터가 있는 모델을 효율적으로 배포할 수 있습니다.

추론 비용을 크게 낮추면서 성능 향상

Inf2 인스턴스는 DL 배포를 위해 Amazon EC2에서 최저 비용으로 고성능을 제공하도록 설계되었습니다. 또한 Amazon EC2 Inf1 인스턴스보다 최대 4배 더 높은 처리량과 최대 10배 더 짧은 지연 시간을 제공합니다. Inf2 인스턴스는 동급의 다른 Amazon EC2 인스턴스보다 최대 40% 더 높은 와트당 가격 대비 성능을 제공합니다.

기존 ML 프레임워크 및 라이브러리 사용


AWS Neuron SDK를 사용하여 Inf2 인스턴스의 전체 성능을 활용하세요. Neuron을 사용하면 PyTorch와 TensorFlow와 같은 기존 프레임워크를 사용하고, Hugging Face와 같은 인기 있는 리포지토리의 모델을 처리할 수 있는 최적화된 성능을 바로 얻을 수 있습니다. Neuron은 TorchServe 및 TensorFlow Serving과 같은 지원 도구와의 런타임 통합을 지원합니다. 또한 Neuron-Top과 같은 내장 프로필 및 디버깅 도구를 사용하여 성능을 최적화하도록 지원하며, TensorBoard와 같은 인기 있는 시각화 도구에 통합됩니다.

에너지 효율적인 솔루션으로 지속 가능성 목표 달성

Inf2 인스턴스는 동급의 다른 Amazon EC2 인스턴스보다 최대 50% 더 나은 와트당 성능을 제공합니다. 이러한 인스턴스와 기본 Inferentia2 칩은 고급 실리콘 프로세스와 하드웨어 및 소프트웨어 최적화 기능을 사용하여 DL 모델을 대규모로 실행할 때 높은 에너지 효율성을 제공합니다. Inf2 인스턴스를 사용하여 초대형 모델을 배포할 때 지속 가능성 목표를 달성하세요.

기능

최대 2.3페타플롭의 컴퓨팅 성능을 제공하는 AWS Inferentia2

Inf2 인스턴스는 간소화된 집단 통신을 위해 초고속 NeuronLink와 연결된 최대 12개의 AWS Inferentia2 칩으로 구동됩니다. 또한 Inf1 인스턴스보다 최대 4배 더 높은 처리량 및 10배 더 짧은 지연 시간과 최대 2.3페타플롭의 컴퓨팅 성능을 제공합니다.

최대 384GB의 고대역폭 액셀러레이터 메모리

대규모 DL 모델을 수용할 수 있도록 Inf2 인스턴스는 최대 384GB의 공유 액셀러레이터 메모리(모든 Inferentia2 칩에서 1세대 Inferentia보다 4배 더 큰 32GB HBM 제공)를 제공하며 총 메모리 대역폭은 9.8TB/s입니다(1세대 Inferentia보다 10배 빠름).

Inferentia2 칩 간의 빠른 통신을 위해 Inf2 인스턴스는 초고속 비차단 상호 연결인 초당 192GB NeuronLink를 지원합니다. Inf2는 이 상호 연결을 제공하는 유일한 추론 최적화 인스턴스이며, 이 기능은 가격이 높은 훈련 인스턴스에서만 제공됩니다. 단일 칩에 맞지 않는 초대형 모델의 경우 데이터가 NeuronLink를 사용하여 칩 간에 직접 흐르며 CPU를 완전히 우회합니다. Inf2는 NeuronLink를 사용하여 더 빠른 분산 추론을 지원하고 처리량과 지연 시간을 개선합니다.

자동 캐스팅으로 새로운 데이터 유형에 최적화됨

Inferentia2는 FP32, TF32, BF16, FP16, UINT8 및 새로운 구성 가능한 FP8(cFP8) 데이터 유형을 지원합니다. AWS Neuron은 높은 정밀도의 FP32 및 FP16 모델을 낮은 정밀도의 데이터 유형으로 자동 캐스팅하여 정확성과 성능을 최적화할 수 있습니다. 자동 캐스팅은 정확도가 낮은 재학습의 필요성을 해소하고, 더 작은 데이터 유형으로 더 높은 성능의 추론을 가능하게 하여 출시 소요 시간을 단축합니다.

첨단 DL 최적화 기능

DL의 빠른 혁신 속도를 지원하기 위해 Inf2 인스턴스에는 지속적으로 진화하는 DL 모델을 배포할 수 있도록 유연하고 확장 가능한 몇 가지 혁신 기능을 제공합니다. Inf2 인스턴스는 동적 입력 셰이프에 대한 하드웨어 최적화 및 소프트웨어 지원을 제공합니다. 향후 새로운 연산자를 지원할 수 있도록 C++로 작성된 사용자 지정 연산자를 지원합니다. 레거시 반올림 모드보다 높은 성능과 정확성을 실현하는 확률적 반올림 방식인 확률 반올림도 지원합니다. 

제품 세부 정보

인스턴스 크기 Inferentia2 칩 액셀러레이터
메모리
(GB)
vCPU 메모리
(GiB)
로컬
스토리지
칩 내
상호 연결
네트워크
대역폭
(Gbps)
EBS
대역폭
(Gbps)
온디맨드 요금 1년 예약 인스턴스 3년 예약 인스턴스
inf2.xlarge 1 32 4 16 EBS 전용 해당 사항 없음 최대 15 최대 10 0.76 USD 0.45 USD 0.30 USD
inf2.8xlarge 1 32 32 128 EBS 전용 해당 사항 없음 최대 25 10 1.97 USD 1.81 USD 0.79 USD
inf2.24xlarge 6 192 96 384 EBS 전용 50 30 6.49 USD 3.89 USD 2.60 USD
inf2.48xlarge 12 384 192 768 EBS 전용 100 60 12.98 USD 7.79 USD 5.19 USD

고객 추천사

“Leonardo 팀은 생성형 AI를 활용하여 타의 추종을 불허하는 품질, 속도 및 스타일 일관성을 갖춘 시각적 자산을 제작할 수 있도록 합니다. AWS Inf2의 가격 대비 성능인 AWS Inf2를 활용하면 성능 저하 없이 비용을 80% 절감하여 보다 저렴한 가격대에서 최첨단 기능을 제공함으로써 고객에게 근본적으로 다른 가치를 제안할 수 있습니다. 또한 성장 및 확장에 따라 점점 더 중요해지는 보조 AI 서비스의 비용과 용량 가용성에 대한 우려를 줄여줍니다. 이것은 생성형 AI에 대한 가능성의 한계를 계속해서 넓혀 사용자에게 창의성과 표현력의 새로운 시대를 열어줄 수 있는 핵심 기술입니다.”

Pete Werner, Leonardo.ai AI Head
Runway 로고
“저희 Runway의 AI Magic Tools 제품군을 사용하면 사용자가 이전과는 전혀 다른 방식으로 콘텐츠를 생성하고 편집할 수 있습니다. 저희는 AI 기반 콘텐츠 제작을 활용하여 가능성의 한계를 끊임없이 극복하고 있으며, 저희의 AI 모델이 갈수록 복잡해지면서 이러한 모델을 대규모로 실행하는 데 필요한 기반 인프라 비용이 높아질 수 있습니다. AWS Inferentia를 기반으로 하는 Amazon EC2 Inf2 인스턴스를 활용하면서, 저희는 일부 모델을 유사한 GPU 기반 인스턴스보다 최대 2배 더 높은 처리량으로 실행할 수 있게 되었습니다. 이 고성능 저비용 추론 기능 서비스 덕분에 더 많은 기능을 도입하고, 더 복잡한 모델을 배포하며, 궁극적으로 Runway를 사용하는 수백만 명의 제작자에게 더 나은 경험을 제공할 수 있게 되었습니다.”

Cristóbal Valenzuela, Runway 공동 설립자 겸 CEO
Qualtrics

Qualtrics는 경험 관리 소프트웨어를 설계하고 개발합니다.

"Qualtrics는 고객, 직원, 브랜드 및 제품의 경험 격차를 메우는 기술을 구축하는 데 초점을 둡니다. 이를 달성하기 위해 당사는 복잡한 멀티 태스크, 멀티 모드의 DL 모델을 개발하여 텍스트 분류, 시퀀스 태깅, 담론 분석, 핵심 문구 추출, 주제 추출, 클러스터링 및 전체적인 대화 이해와 같은 새로운 기능을 출시하고 있습니다. 이와 같이 더 복잡한 모델을 더 많은 애플리케이션에서 활용하려면 비정형 데이터의 양이 증가하기 때문에 추론에 최적화된 더 높은 성능의 솔루션이 필요합니다. 예를 들어 Inf2 인스턴스처럼 요구 사항을 충족하면서 최상의 고객 경험을 제공할 수 있어야 합니다. 새로운 Inf2 인스턴스에 대한 기대가 큰데, 처리량을 높여주고 지연 시간을 극적으로 줄여줄 뿐만 아니라 분산 추론 및 향상된 동적 입력 형태 지원과 같은 새로운 기능을 통해 더 크고 복잡한 대규모 모델을 배포할 때의 요구 사항을 충족할 수 있기 때문입니다."

Aaron Colak, Qualtrics Head of Core Machine Learning
Finch Computing

Finch Computing은 정부, 금융 서비스 및 데이터 통합 사업자 고객을 위한 인공 지능 애플리케이션을 제공하는 자연어 기술 회사입니다.

"당사는 실시간 자연어 처리에 대한 고객의 요구 사항을 충족하기 위해 대규모 프로덕션 워크로드로 확장되는 최첨단 DL 모델을 개발합니다. 글로벌 데이터 피드를 처리하려면 트랜잭션의 지연 시간을 줄이고 처리량을 높여야 합니다. 이미 많은 프로덕션 워크로드를 Inf1 인스턴스로 마이그레이션하여 GPU 대비 80%의 비용을 절감했습니다. 지금은 기록된 텍스트에서 더 심층적이고 유용한 의미를 추출하는 더 크고 복잡한 모델을 개발하고 있습니다. 많은 고객이 이러한 인사이트에 실시간으로 액세스해야 하는데, Inf2 인스턴스의 성능은 Inf1 인스턴스보다 지연 시간을 줄이고 처리량을 높이는 데 큰 도움이 될 것으로 보입니다. Inf2의 개선된 성능과 동적 입력 크기 지원과 같은 새로운 Inf2 기능은 회사의 비용 효율성을 개선하고 실시간 고객 경험을 향상시키며 데이터에서 새로운 인사이트를 얻는 데 도움이 됩니다.”

Franz Weckesser, Finch Computing Chief Architect
Money Forward 로고

Money Forward Inc.는 개인 및 기업 고객을 위한 개방형의 공정한 금융 플랫폼을 제공합니다. Money Forward 그룹의 자회사인 HiTTO Inc.는 이 플랫폼의 일부로 AI 챗봇 서비스를 제공하는데, 이 서비스는 맞춤형 자연어 처리(NLP) 모델을 사용하여 기업 고객의 다양한 요구 사항을 해결합니다.

“당사는 대규모 AI 챗봇 서비스를 Amazon EC2 Inf1 인스턴스에서 출시하여 추론 지연 시간을 비교 가능한 GPU 기반 인스턴스 대비 97% 단축하는 동시에 비용도 절감했습니다. Amazon EC2 Inf2 인스턴스에 대한 초기 테스트 결과에서 추가 성능 개선 효과를 확인하게 되어 매우 기뻤습니다. AWS Inf2에서는 동일한 사용자 지정 NLP 모델을 사용하여 Inf1에 비해 지연 시간을 10배 더 줄일 수 있었습니다. 더 규모가 큰 수십억 개의 파라미터 모델로 전환하는 데 있어, Inf2는 고객에게 우수한 엔드 투 엔드 사용자 경험을 지속적으로 제공할 수 있다는 확신을 줍니다.”

Takuya Nakade, Money Forward Inc. CTO
Fileread.ai 로고
“Fileread.ai에서는 질문을 통해 손쉽게 문서와 상호 작용할 수 있는 솔루션을 구축하고 있습니다. 이 솔루션을 통해 사용자는 모든 문서에서 원하는 내용을 찾고 올바른 정보를 더 빠르게 얻을 수 있습니다. 새로운 Inf2 EC2 인스턴스로 전환한 이후, 저희의 NLP 추론 능력이 크게 개선되었습니다. 비용 절감만으로도 품질 저하 없이 리소스를 더 효율적으로 할당할 수 있게 되면서 시장의 판도를 바꿀 만한 요인이 되었습니다. 저희는 추론 지연 시간을 33% 줄이고 처리량을 50% 늘려 고객의 만족도를 높였습니다. 저희 팀은 이전 G5 인스턴스와 비교하여 향상된 Inf2의 속도와 성능에 깜짝 놀랐고, Inf2가 미래의 NLP 모델 배포 솔루션이 될 것이라는 것을 확신하게 되었습니다.”

Daniel Hu, Fileread CEO
Yaraku 로고
“Yaraku의 사명은 사람들이 언어 장벽을 넘어 소통할 수 있도록 돕는 인프라를 구축하는 것입니다. 저희의 주력 제품인 YarakuZen을 사용하면 전문 번역가부터 단일 언어를 구사하는 개인에 이르기까지, 누구나 텍스트와 문서를 자신 있게 번역하고 사후 편집할 수 있습니다. 이 프로세스를 지원하기 위해 저희는 번역, 텍스트 간 단어 정렬, 문장 분할, 언어 모델링 등의 작업을 포함하는 DL 모델을 기반으로 한 다양하고 정교한 도구를 제공합니다. Inf1 인스턴스를 사용한 덕분에 GPU 기반 인스턴스에 비해 추론 비용을 50% 이상 줄이면서 늘어나는 수요를 충족하도록 서비스 속도를 높일 수 있었습니다. 이제 저희는 지연 시간을 줄이면서 수요를 충족하기 위해 Inf2 인스턴스의 향상된 기능을 필요로 하는 차세대 대형 모델의 개발에 착수하고 있습니다. Inf2를 활용하여 비슷한 처리량을 유지하면서 모델을 10배 스케일 업하여 고객에게 더 높은 수준의 품질을 제공할 수 있게 되었습니다.”

Giovanni Giacomo, Yaraku NLP Lead

AWS 파트너 추천사

Hugging Face 로고
"Hugging Face는 우수한 ML을 대중화하여 전 세계 ML 개발자들이 실제 문제를 해결할 수 있도록 돕는 것을 사명으로 합니다. 그 핵심은 최고의 최신 모델을 클라우드를 기반으로 한 최고의 ML 칩에서 최대한 효율적으로 빠르게 실행하는 것입니다. Inferentia2가 생성형 AI 모델을 대규모로 배포하는 새로운 표준 방식이 될 수 있다는 것을 매우 기쁘게 생각합니다. Inf1 덕분에 기존 GPU 기반 인스턴스보다 비용을 최대 70% 절감했으며 Inf2를 사용하면서 BERT와 유사한 변환기의 지연 시간이 Inferentia1을 사용할 때에 비해 최대 8배 더 짧아졌습니다. Inferentia2를 통해 저희 커뮤니티는 이 성능을 1천억 개 이상의 파라미터 규모로, 그리고 LLM과 최신 확산 및 컴퓨터 비전 모델로 손쉽게 확장할 수 있을 것입니다.”  
PyTorch 로고
“PyTorch는 ML 개발자를 위한 연구 프로토타이핑 단계부터 프로덕션 배포 단계까지의 경로를 가속화합니다. 저희는 새로운 AWS Inferentia2 기반 Amazon EC2 Inf2 인스턴스에 대한 네이티브 PyTorch를 지원을 제공하기 위해 AWS 팀과 협력했습니다. 대규모 생성형 AI 모델을 배포하려는 커뮤니티 멤버가 늘어나는 상황에서, AWS 팀과의 협력을 통해 칩 간의 고속 NeuronLink 연결을 사용하여 Inf2 인스턴스에 대한 분산 추론을 최적화하게 되어 기쁩니다. Inf2 덕분에 PyTorch를 사용하는 개발자들이 이제 초대형 LLM 및 비전 트랜스포머 모델을 손쉽게 배포할 수 있게 되었습니다. 또한 Inf2 인스턴스는 효율적인 데이터 유형, 동적 셰이프, 사용자 지정 연산자 및 하드웨어에 최적화된 확률 반올림을 비롯한 다른 혁신적인 기능을 PyTorch 개발자에게 제공하므로 PyTorch 커뮤니티에서 폭넓게 도입하기에 적합합니다.” 
Weight & Biases 로고
“Weights & Biases(W&B)는 ML 엔지니어와 데이터 사이언티스트가 더 나은 모델을 더 빠르게 구축할 수 있는 개발자 도구를 제공합니다. W&B 플랫폼은 ML 실무자에게 기반 컴퓨팅 인프라의 활용 방법을 비롯하여, 모델의 성능을 개선하는 것과 관련한 다양한 인사이트를 제공합니다. 저희는 AWS 팀과 협력하여 Amazon Trainium 및 Inferentia2에 대한 지원을 시스템 지표 대시보드에 추가하여 모델 실험 및 훈련 중에 많이 필요한 중요한 데이터를 제공합니다. 이를 통해 ML 실무자는 모델을 최적화하여 AWS의 목적별 하드웨어를 최대한 활용함으로써 모델을 더 저렴한 비용으로 더 빠르게 훈련할 수 있습니다.”

Phil Gurbacki, Weights & Biases, VP of Product
OctoML 로고
“OctoML은 개발자가 고성능 하드웨어에서 실행되도록 DL 모델을 패키징하여 비용을 절감하고 확장 가능한 AI 애플리케이션을 구축하도록 지원합니다. 저희는 지난 몇 년간 최고의 소프트웨어 및 하드웨어 솔루션에 대한 전문성을 확보하고 이를 플랫폼에 반영했습니다. 칩 설계자와 시스템 해커가 설립했다는 저희 회사의 뿌리를 감안할 때 AWS Trainium과 Inferentia는 저희에게 더욱 흥미로운 것이었습니다. 저희는 이러한 칩이 클라우드에서 AI 혁신의 미래를 실현할 핵심 원동력이 될 것으로 보고 있습니다. 인기 있는 LLM이 차세대 AI 애플리케이션의 핵심 구성 요소로 부상하고 있다는 점에서 Inf2 인스턴스의 GA 출시는 특히 시의적절하다고 하겠습니다. 저희 플랫폼에서 이 인스턴스를 사용함으로써 개발자들이 고성능과 비용 절감이라는 이점을 손쉽게 활용할 수 있게 되어 매우 기쁩니다.”
 
Jared Roesch, OctoML CTO 겸 공동 설립자
OctoML 로고
“LLM, 더 넓게는 엔터프라이즈급 생성형 AI 애플리케이션의 역사적 과제는 고성능 DL 모델 교육 및 실행 관련 비용입니다. AWS Trainium과 함께 AWS Inferentia2는 고성능 교육이 필요한 경우 고객의 비용 부담을 줄입니다. 이제 교육 및 추론에서 이점을 찾고 있는 고객은 더 적은 비용으로 더 나은 결과를 얻을 수 있습니다. Trainium과 Inferentia는 조정을 가속화하여 오늘날 가장 큰 기업의 가장 까다로운 DL 요구 사항도 충족합니다. 대규모 AI 워크로드를 실행하는 많은 Nextira 고객은 이러한 새로운 칩셋을 직접 활용하여 비용 절감 및 성능의 효율성을 높이고 시장에서 더 빠른 결과를 얻을 수 있습니다.”

Jason Cutrer, Nextira 설립자 겸 CEO

Amazon EC2 Inf2 인스턴스를 사용하는 Amazon 서비스

Amazon 로고

Amazon CodeWhisperer는 통합 개발 환경(IDE)에서 한 줄 코드 또는 완전한 기능을 갖춘 코드의 권장 사항을 실시간으로 생성하여 소프트웨어를 신속하게 구축하는 데 도움을 주는 AI 코딩 도우미입니다.

“저희는 CodeWhisperer에서 생성형 AI 모델을 사용하여 코드 권장 사항을 제공함으로써 소프트웨어 개발자의 생산성을 개선하고 있습니다. 매우 효과적인 코드 권장 사항을 개발하기 위해 DL 네트워크를 수십억 개의 파라미터로 확장했습니다. 고객이 입력할 때 실시간으로 코드 권장 사항을 제시해야 하므로, 짧은 응답 지연 시간이 매우 중요합니다. 대규모 생성형 AI 모델에는 1초도 미만의 응답 시간을 제공할 수 있는 고성능 컴퓨팅이 필요합니다. Inf2를 사용하면 대규모 입력 및 출력 시퀀스에 최적화된 GPU 인스턴스를 훈련할 때 CodeWhisperer를 실행하는 것과 동일한 지연 시간을 제공할 수 있습니다. 따라서 Inf2 인스턴스는 개발자에게 최상의 경험을 제공하는 동시에 비용과 전력을 절약하는 데 도움이 됩니다.”  

Doug Seven, Amazon CodeWhisperer 총 관리자

Amazon 로고

매일 수십억 개의 제품을 검색하고 수십억 건의 고객 쿼리를 처리하는 Amazon의 제품 검색 엔진은 세계에서 가장 많이 사용되는 서비스 중 하나입니다.

“Inf2 GA 출시가 정말 기대됩니다. Inf2의 뛰어난 성능과 수십억 개의 파라미터가 있는 대규모 모델을 처리할 수 있는 기능은 저희 서비스를 위한 완벽한 솔루션이며, 모델 복잡성과 정확성 측면에서 새로운 가능성을 열어줍니다. Inf2가 제공하는 상당한 속도 향상 효과와 비용 효율성을 생각할 때, 이 서비스를 Amazon Search 서비스 인프라에 통합하면 갈수록 높아지는 고객의 요구를 충족하는 데 도움이 될 수 있습니다. 저희는 Inf2를 사용하는 생성형 LLM을 사용하여 새로운 쇼핑 경험을 지원할 계획입니다.” 

Trishul Chilimbi, Amazon Search VP

시작하기

Amazon SageMaker 사용하기

Amazon SageMaker를 사용하여 Inf2 인스턴스에 모델을 더 쉽게 배포하고 인프라를 관리할 필요 없이 ML 모델 배포 비용을 크게 줄이고 성능을 높일 수 있습니다. SageMaker는 완전관리형 서비스이며 MLOps 도구와 통합됩니다. 따라서 모델 배포를 확장하고 프로덕션 환경에서 모델을 보다 효과적으로 관리하며 운영 부담을 줄일 수 있습니다.

AWS Deep Learning AMI 사용하기

AWS Deep Learning AMI(DLAMI)는 DL 실무자 및 연구원에게 규모와 관계없이 클라우드에서 DL을 가속화할 수 있는 인프라 및 도구를 제공합니다. DLAMI에는 사전 구성된 AWS Neuron 드라이버가 포함되므로 Inf2 인스턴스에서 DL 모델의 배포를 최적화할 수 있습니다.

AWS Deep Learning Containers 사용하기

이제 완전관리형 Kubernetes 서비스인 Amazon Elastic Kubernetes Service(Amazon EKS)와 완전관리형 컨테이너 오케스트레이션 서비스인 Amazon Elastic Container Service(Amazon ECS)에 Inf2 인스턴스를 배포할 수 있습니다. Neuron도 AWS Deep Learning Containers에 미리 설치되어 제공됩니다. Inf2 인스턴스에서 컨테이너를 실행하는 방법에 대해 자세히 알아보려면 Neuron 컨테이너 자습서를 참조하세요.

AWS 계정 가입

AWS 계정 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

간단한 자습서로 학습

10분 자습서로 알아보기

간단한 자습서를 통해 자세히 알아보십시오.

콘솔에서 EC2 구축 시작

콘솔에서 구축 시작

AWS 프로젝트를 시작하는 데 도움이 되는 단계별 안내서를 통해 구축을 시작하십시오.