Warum Inferentia?
AWS Inferentia-Beschleuniger wurden von AWS entwickelt, um für Ihre Deep Learning- (DL) und generativen KI-Inferenzanwendungen eine hohe Leistung bei niedrigsten Kosten in Amazon EC2 bereitzustellen.
Der AWS-Inferentia-Beschleuniger der ersten Generation treibt Amazon Elastic Compute Cloud (Amazon EC2)-Inf1-Instances an, die einen bis zu 2,3-fach höheren Durchsatz und bis zu 70 % niedrigere Kosten pro Inferenz als vergleichbare Amazon-EC2-Instances bieten. Viele Kunden, darunter Finch AI, Sprinklr, Money Forward und Amazon Alexa, haben Inf1-Instances eingeführt und die Leistungs- und Kostenvorteile erkannt.
AWS Inferentia2-Beschleuniger bieten einen bis zu 4-mal höheren Durchsatz und eine bis zu 10-mal niedrigere Latenzzeit im Vergleich zu Inferentia. Inferentia2-basierte Amazon-EC2-Inf2-Instances sind für die skalierbare Bereitstellung zunehmend komplexer Modelle wie große Sprachmodelle (LLM) und latenter Diffusionsmodelle optimiert. Inf2-Instances sind die ersten für Inferenzen optimierten Instances in Amazon EC2, die skalierbare verteilte Inferenzen mit Ultra-High-Speed-Konnektivität zwischen Beschleunigern unterstützen. Viele Kunden, darunter Leonardo.ai, die Deutsche Telekom und Qualtrics, haben Inf2-Instances für ihre DL- und generativen KI-Anwendungen eingeführt.
AWS Neuron SDK hilft Entwicklern, Modelle auf den AWS-Inferentia-Beschleunigern bereitzustellen (und sie auf AWS-Trainium-Beschleunigern zu trainieren). Es lässt sich nativ in gängige Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie Ihren bestehenden Code und Workflows weiter nutzen und auf Inferentia-Beschleunigern ausführen können.