Inferentia를 사용해야 하는 이유는 무엇인가요?
AWS Inferentia 액셀러레이터는 딥 러닝(DL) 및 생성형 AI 추론 애플리케이션을 위해 Amazon EC2에서 최저 비용으로 고성능을 제공하도록 설계되었습니다.
1세대 AWS Inferentia 액셀러레이터로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) Inf1 인스턴스는 비교 가능한 Amazon EC2 인스턴스에 비해 추론당 최대 70% 저렴한 비용으로 최대 2.3배 더 많은 처리량을 제공합니다. Finch AI, Sprinklr, Money Forward, Amazon Alexa를 비롯한 많은 고객이 Inf1 인스턴스를 채택하여 성능 및 비용 이점을 실현했습니다.
AWS Inferentia2 액셀러레이터는 Inferentia 대비 최대 4배 더 많은 처리량과 최대 10배 더 짧은 지연 시간을 제공합니다. Inferentia2 기반 Amazon EC2 Inf2 인스턴스는 대규모 언어 모델(LLM) 및 잠재 확산 모델과 같이 나날이 복잡해지는 모델을 대규모로 배포하도록 최적화되었습니다. Inf2 인스턴스는 Amazon EC2 최초의 추론 최적화 인스턴스로, 엑셀러레이터 간의 초고속 연결을 통한 스케일 아웃 분산 추론을 지원합니다. Leonardo.ai, Deutsche Telekom, Qualtrics를 비롯한 많은 고객이 DL 및 생성형 AI 애플리케이션에 Inf2 인스턴스를 채택했습니다.
AWS Neuron SDK는 AWS Inferentia 액셀러레이터에 모델을 배포하고 AWS Trainium 액셀러레이터에서 모델을 훈련하는 데 도움이 됩니다. PyTorch 및 TensorFlow 같은 널리 사용되는 프레임워크와 기본적으로 통합되므로 기존 코드와 워크플로를 계속 사용하고 Inferentia 액셀러레이터에서 실행할 수 있습니다.