Was ist Amazon SageMaker HyperPod?
Mit Amazon SageMaker HyperPod entfällt die undifferenzierte Schwerstarbeit, die mit der Entwicklung und Optimierung der Machine Learning (ML)-Infrastruktur verbunden ist. Der Service ist mit den verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, die es Ihnen ermöglichen, Trainings-Workloads automatisch auf über Tausend KI-Beschleunigern aufzuteilen, so dass Workloads für eine verbesserte Modellleistung parallel verarbeitet werden können. SageMaker HyperPod sorgt dafür, dass Ihr FM-Training nicht unterbrochen wird, indem es regelmäßig Checkpoints speichert. Es erkennt automatisch einen Hardwarefehler, wenn dieser auftritt, repariert oder ersetzt die fehlerhafte Instance und setzt das Training ab dem zuletzt gespeicherten Checkpoint fort, sodass Sie diesen Vorgang nicht mehr manuell verwalten müssen. Die robuste Umgebung ermöglicht es Ihnen, Modelle wochen- oder monatelang in einer verteilten Umgebung ohne Unterbrechung zu trainieren und so die Trainingszeit um bis zu 40 % zu reduzieren. SageMaker HyperPod ist außerdem hochgradig anpassbar, sodass Sie FM-Workloads effizient ausführen und skalieren und Rechenkapazität problemlos zwischen verschiedenen Workloads teilen können, von groß angelegten Trainings bis hin zur Inferenz.
Vorteile von SageMaker HyperPod
Automatische Zustandsprüfung und Reparatur von Clustern
Wenn Instances während eines Trainings-Workloads defekt werden, erkennt SageMaker HyperPod automatisch fehlerhafte Knoten und tauscht sie gegen gesunde aus. Um fehlerhafte Hardware zu erkennen, führt SageMaker HyperPod regelmäßig eine Reihe von Zustandsprüfungen für GPU- und Netzwerkintegrität durch.
Erweiterte Beobachtbarkeit für verbesserte Leistung
Sie können die integrierten ML-Tools in SageMaker HyperPod verwenden, um die Modellleistung zu verbessern. Amazon SageMaker mit TensorBoard hilft Ihnen beispielsweise, Entwicklungszeit zu sparen, indem die Modellarchitektur visualisiert wird, um Konvergenzprobleme zu identifizieren und zu beheben. Amazon SageMaker Debugger erfasst Metriken und profiliert Trainingsaufträge in Echtzeit. Die Integration mit Amazon CloudWatch Container Insights bietet tiefere Einblicke in die Leistung, den Zustand und die Auslastung von Clustern.
Leistungsstarke verteilte Trainingsbibliotheken
Mit den verteilten Trainingsbibliotheken von SageMaker können Sie hoch skalierbare und kostengünstige benutzerdefinierte Daten parallel ausführen und parallele Deep-Learning-Trainingsaufträge modellieren. SageMaker HyperPod ist mit verteilten SageMaker-Bibliotheken vorkonfiguriert. Mit nur wenigen Codezeilen können Sie Datenparallelität in Ihren Trainingsskripten aktivieren. Mit SageMaker HyperPod können Sie verteilte Trainings schneller durchführen, indem Sie Ihre Modelle und Trainingsdatensätze automatisch auf AWS-GPU-Instances aufteilen.
Skalierbarkeit und optimierte Ressourcennutzung
Sie können SageMaker-HyperPod-Cluster mit einem konsistenten, Kubernetes-basierten Administratorerlebnis verwalten und betreiben. Auf diese Weise können Sie FM-Workloads effizient ausführen und skalieren, vom Training über die Feinabstimmung, das Experimentieren bis hin zur Inferenz. Sie können Rechenkapazität problemlos gemeinsam nutzen und für verschiedene Arten von Workloads zwischen Slurm und EKS wechseln.
Workload-Planung und -Orchestrierung
Die Benutzeroberfläche von SageMaker HyperPod ist mithilfe von Slurm oder Amazon EKS in hohem Maße anpassbar. Sie können alle benötigten Frameworks und Tools auswählen und installieren. Alle Cluster werden mit dem von Ihnen gewählten Instance-Typ und der von Ihnen gewählten Anzahl bereitgestellt und bleiben für Ihre Verwendung bei verschiedenen Workloads erhalten.