Amazon SageMaker HyperPod

Réduisez le temps nécessaire à l'entraînement des modèles de base jusqu'à 40 % grâce à une infrastructure spécialement conçue pour l'entraînement distribué à grande échelle

Démarrez avec SageMaker HyperPod

Qu'est-ce qu'Amazon SageMaker HyperPod ?

AmazonSageMaker HyperPod élimine les tâches fastidieuses liées à la création et à l'optimisation d'une infrastructure de machine learning (ML) pour l'entraînement des systèmes d'IA à usage général (FM), réduisant la durée de l'entraînement jusqu'à 40 %. SageMaker HyperPod est préconfiguré avec les bibliothèques de formation distribuées de SageMaker qui permettent aux clients de répartir automatiquement les charges de travail de formation entre des milliers d'accélérateurs, afin que les charges de travail puissent être traitées en parallèle pour améliorer les performances du modèle. SageMaker HyperPod permet également aux clients de poursuivre l'entraînement des FM sans interruption en enregistrant périodiquement les points de contrôle. Lorsqu'une panne matérielle survient pendant la formation, SageMaker HyperPod détecte automatiquement la panne, répare ou remplace l'instance défectueuse et reprend la formation à partir du dernier point de contrôle enregistré, évitant ainsi aux clients de gérer manuellement ce processus et les aidant à s'entraîner pendant des semaines ou des mois dans un environnement distribué sans interruption.

Avantages de SageMaker HyperPod

Formation distribuée rationalisée pour les grands clusters d'entraînement

Amazon SageMaker HyperPod est préconfiguré avec les bibliothèques d'entraînement distribuées Amazon SageMaker, ce qui vous permet de répartir automatiquement vos modèles et jeux de données d'entraînement entre les instances de cluster AWS afin de vous aider à mettre à l'échelle efficacement les charges de travail de formation.

Utilisation optimisée des ressources de calcul, de mémoire et de réseau du cluster

Les bibliothèques d'entraînement distribué Amazon SageMaker optimisent votre travail de formation sur l'infrastructure réseau AWS et la topologie des clusters grâce à deux techniques : le parallélisme des données et le parallélisme des modèles. Le parallélisme des modèles divise les modèles trop grands pour tenir sur un seul GPU en plusieurs parties plus petites avant de les répartir sur plusieurs GPU à entraîner. Le parallélisme des données divise les jeux de données volumineux pour s'entraîner simultanément afin d'améliorer la vitesse d'entraînement.

Environnement de formation résilient qui élimine les interruptions

SageMaker HyperPod crée un environnement d'entraînement plus résilient en détectant, diagnostiquant et corrigeant automatiquement les défaillances, ce qui vous permet d'entraîner des FM en continu pendant des mois sans interruption.

Bibliothèques d'entraînement distribué optimisées

SageMaker HyperPod est préconfiguré avec les bibliothèques distribuées SageMaker. Avec seulement quelques lignes de code, vous pouvez activer le parallélisme des données dans vos scripts d'entraînement. SageMaker HyperPod accélère l'exécution d'entraînements distribués en répartissant automatiquement vos modèles et vos jeux de données d'entraînement entre les instances GPU AWS.

En savoir plus »

Planification et orchestration des charges de travail

L'interface utilisateur de SageMaker HyperPod est hautement personnalisable à l'aide de Slurm. Vous pouvez sélectionner et installer tous les cadres ou outils nécessaires. Tous les clusters sont provisionnés avec le type et le nombre d'instances que vous choisissez, et ils sont conservés pour votre utilisation sur toutes les charges de travail.

Déboguer et améliorer les performances du modèle

Vous pouvez utiliser des outils de ML spécialement conçus dans SageMaker HyperPod pour améliorer les performances d'entraînement. Amazon SageMaker avec TensorBoard vous aide à gagner du temps de développement en visualisant l'architecture du modèle afin d'identifier et de résoudre les problèmes de convergence, tels que la perte de validation, l'absence de convergence ou la disparition de gradients.

Surveillance de l'état et réparation du cluster automatiques

Si des instances deviennent défectueuses pendant une charge de travail d'entraînement, SageMaker HyperPod détecte automatiquement les nœuds défectueux et les remplace par des nœuds sains. Pour détecter le matériel défectueux, SageMaker HyperPod effectue régulièrement une série de surveillances de l'état du GPU et du réseau.