Amazon SageMaker 및 Kubernetes를 사용한 ML Ops
Amazon SageMaker를 사용한 Kubernetes 기반 기계 학습 단순화
Kubernetes는 컨테이너식 애플리케이션의 배포, 확장 및 관리를 자동화하기 위한 오픈 소스 시스템입니다. Kubeflow Pipelines는 Kubernetes 클러스터에서 ML(기계 학습) 워크플로를 관리하고 예약하는 인터페이스를 제공하는 워크플로 관리자입니다. 오픈 소스 도구를 사용하면 유연성과 표준화를 얻을 수 있지만, 인프라를 설정하고 데이터 사이언티스트를 위한 노트북 환경을 프로비저닝하고 최신 딥 러닝 프레임워크 버전으로 최신 상태를 유지하려면 시간과 노력이 필요합니다.
Amazon SageMaker Operators for Kubernetes 및 Components for Kubeflow Pipelines를 사용하면 Kubernetes 또는 Kubeflow의 기본적인 ML 워크플로 전반에서 완전 관리형 SageMaker 기계 학습 도구를 사용할 수 있습니다. 그러면 오케스트레이션 및 유연성에 대한 제어 능력을 유지하면서 Kubernetes 기반 ML 인프라를 수동으로 관리하고 최적화할 필요가 없어집니다.
장점
인프라 설정 단순화
Amazon SageMaker Operators 및 Components는 원하는 Amazon EC2 인스턴스 유형을 기반으로 자동 크기 조정으로 완료되는 필수 리소스를 자동으로 프로비저닝하여 기계 학습을 위한 사용자 고유의 Kubernetes 환경을 설정할 필요를 없애줍니다.
혁신에 집중
Amazon SageMaker Operators 및 Components를 활용하면 지속적인 업데이트와 설치를 방지할 수 있어, 팀이 최신 딥 러닝 프레임워크 버전, 하이퍼파라미터 튜닝 도구, 기타 유틸리티(예: 재사용 가능한 알고리즘 및 AutoML)를 사용할 수 있습니다.
신속한 프로비저닝
Amazon SageMaker Studio 및 SageMaker Notebooks을 사용하면 Kubernetes 기반 ML 플랫폼에서 작업하는 데이터 사이언스 팀을 위한 Jupyter Notebooks, 작업 관리 도구, Python 라이브러리 등 개발 환경을 빠르게 프로비저닝할 수 있습니다.
작동 방식
-
Amazon SageMaker Operators for Kubernetes
-
Amazon SageMaker Components for Kubeflow Pipelines
-
Amazon SageMaker Operators for Kubernetes
-
-
Amazon SageMaker Components for Kubeflow Pipelines
-
사용 사례
하이브리드 ML 워크플로
때때로 ML 워크플로의 일부는 로컬 데이터 요구 사항 등의 제약 조건을 수용하기 위해 온프레미스에서 수행되어야 하지만, 추론 등 워크플로의 다른 부분은 클라우드에서 수행될 수 있습니다. Amazon SageMaker Operators 및 Components는 온프레미스 인프라를 클라우드에 연결하여 ML 워크플로 내에서 가능한 경우 완전 관리형 ML 서비스를 활용합니다.
오픈 소스 ML 플랫폼
많은 팀이 환경 전반의 유연성과 이동성을 위해 오픈 소스에 ML 플랫폼을 구축하는 것을 선택합니다. 그러나 오픈 소스 플랫폼을 실행하려면 Kubernetes 설정을 구성해야 합니다. Amazon SageMaker Operators 및 Components를 사용하면 오픈 소스 ML 플랫폼을 유지관리할 수 있으며, 비즈니스 요구에 맞는 ML 워크플로의 일부에 대해 클라우드를 사용할 수 있습니다.
비즈니스 연속성
비즈니스 요구 사항을 충족하기 위해 Kubernetes 환경을 신중하게 구성하는 데는 상당한 시간과 노력이 필요합니다. Amazon SageMaker Operators 및 Components는 Kubernetes 또는 Kubeflow를 사용하여 구성된 기존 ML 플랫폼을 계속 활용하면서 완전 관리형 클라우드 서비스를 사용할 수 있게 해줍니다.
고객 사례
Cisco의 AI 팀은 로컬 데이터 요구 사항을 준수할 수 있도록 Kubeflow Pipelines를 사용하여 하이브리드 클라우드 구현을 구축했습니다. Cisco는 자체 하드웨어를 사용하여 온프레미스에서 모델을 훈련시킨 후, AWS에 모델을 제공하고 Amazon SageMaker를 사용하여 추론을 수행하여 ML 수명 주기 TCO를 50% 줄였습니다.
Bayer Crop Science는 ML을 적용하여 잠재적인 신제품의 성능을 평가하기 위해 테스트 플롯을 모니터링하지만, 사용되는 분석 모델을 올바르게 훈련하고 사용하려면 힘이 들 수 있습니다. Bayer는 Kubeflow Pipelines와 함께 Amazon SageMaker를 사용하여 조직 전체의 데이터 사이언스를 개선하도록 도와주는 분석 모델 훈련용의 재현 가능한 템플릿을 만들었습니다.
“iRobot에서는 기계 학습을 사용하여 고객이 집에서 생활하고 일하는 동안 매일매일의 청소에서 해방될 수 있는 환경을 구축합니다. 우리 솔루션은 기업 규모를 달성하기 위해 AWS에서 Kubeflow를 사용하여 개발되었습니다. 우리는 기계 학습 데이터 처리, 훈련, 검증 파이프라인을 프로덕션 등급 보안 및 확장 기능으로 실행할 수 있는 방식을 선호합니다. iRobot이 iRobot Genius Home Intelligence 플랫폼처럼 고객에게 즐거운 경험을 제공할 수 있도록 Amazon SageMaker가 AWS에서 Kubeflow를 더욱 원활하게 실행하게 된 점이 정말 마음에 듭니다.
- Danielle Dean, PhD, 기계 학습 부문 기술 이사