Amazon SageMaker 특성 저장소

기계 학습 특성을 위한 완전 관리형 서비스

훈련 및 추론을 위한 ML 모델 특성을 저장, 공유 및 관리하여 ML 애플리케이션 전체에서 특성 재사용을 촉진합니다.

스트리밍 및 배치를 포함한 모든 데이터 소스(예: AWS 또는 서드 파티 데이터 소스의 애플리케이션 로그, 서비스 로그, 클릭스트림, 센서 및 표 형식 데이터)에서 특성을 수집합니다.

데이터를 ML 특성으로 변환하고 특성 파이프라인을 구축하여 MLOps 사례를 지원하고 모델 배포를 가속화합니다.

Amazon SageMaker 특성 저장소는 기계 학습(ML) 모델 특성의 저장, 공유 및 관리를 위한 목적별 완전관리형 리포지토리입니다. 특성은 ML 모델의 훈련 및 추론 중에 사용되는 입력입니다. 예를 들어 음악 재생 목록을 추천하는 애플리케이션에서 특성에는 노래 등급, 청취 기간 및 청취자 인구 통계학이 포함될 수 있습니다. 특성은 여러 팀에 의해 반복적으로 사용되며 특성 품질은 고도로 정확한 모델을 보장하는 데 중요합니다. 또한 오프라인에서 배치로 모델을 훈련하는 데 사용된 특성을 실시간 추론에 제공하는 경우에는 두 특성을 동기화된 상태로 저장하기가 어렵습니다. SageMaker 특성 저장소는 ML 수명 주기 전체에서 대규모로 특성을 처리하고 표준화하며 사용할 수 있도록 안전하게 통합된 저장소를 제공합니다.

SageMaker 특성 저장소 개요 및 데모(21:54)

작동 방식

작동 방식: Amazon SageMaker 특성 저장소

주요 기능

특성 처리 및 수집

다양한 소스의 데이터를 SageMaker 특성 저장소로 수집할 수 있습니다. 예를 들어 Amazon Simple Storage Service(S3), Amazon Redshift, AWS Lake Formation, Snowflake 및 Databricks Delta Lake에서 애플리케이션 및 서비스 로그, 클릭스트림, 센서 및 표 형식 데이터를 수집할 수 있습니다 특성 처리를 사용할 때는 배치 데이터 소스 및 특성 변환 함수(예: 제품 뷰 수 또는 기간 집계)를 지정할 수 있으며 SageMaker 특성 저장소에서 데이터는 수집 시에 ML 특성으로 변환됩니다. Amazon SageMaker Data Wrangler를 사용하면 SageMaker 특성 저장소에 직접 특성을 게시할 수 있습니다. Apache Spark 커넥터를 사용하면 코드 한 줄로 많은 양의 데이터를 배치 수집할 수 있습니다.

특성 저장, 카탈로그 작성, 검색 및 재사용

SageMaker 특성 저장소는 특성 그룹을 태깅하고 인덱싱합니다. 따라서 Amazon SageMaker Studio의 시각적 인터페이스를 통해 쉽게 검색할 수 있습니다. 특성 카탈로그를 찾아보면 확실하게 재사용할 수 있는 기존 특성을 검색하고 파이프라인의 중복을 방지할 수 있습니다. SageMaker 특성 저장소는 AWS Glue Data Catalog를 기본적으로 사용하지만 원하는 경우 다른 카탈로그를 사용해도 됩니다. 또한 Amazon Athena 또는 다른 쿼리 도구에서 익숙한 SQL을 사용하여 특성을 쿼리할 수 있습니다.

특성 일관성 보장

SageMaker 특성 저장소는 훈련의 경우 오프라인 저장을, 실시간 추론의 경우 온라인 저장을 지원합니다. 훈련과 추론은 서로 매우 다른 사용 사례이며 스토리지 요구 사항이 각각 다릅니다. 훈련 중에 모델은 완료까지 몇 시간이 걸리는 전체 데이터 세트를 사용하는 반면, 추론은 밀리초 단위로 발생해야 하며 일반적으로 데이터의 하위 집합을 사용합니다. 함께 사용할 경우 SageMaker 특성 저장소를 사용하면 오프라인 및 온라인 데이터 세트가 동기화 상태로 유지됩니다. 둘이 나뉠 경우 모델 정확도에 부정적인 영향을 미칠 수 있으므로 이 동기화 상태가 중요합니다.

계보 추적

특성을 확실하게 재사용하려면 특성이 구축된 방식과 해당 특성을 사용 중인 모델 및 엔드포인트를 알아야 합니다. 데이터 사이언티스트는 SageMaker 특성 저장소를 사용할 때 SageMaker Lineage를 통해 Amazon SageMaker Studio에서 특성을 추적할 수 있습니다. SageMaker Lineage를 사용하면 예약된 파이프라인 실행을 추적하고, 업스트림 계보를 시각화하여 데이터 소스 수준까지 특성을 추적하며, 특성 처리 코드를 볼 수 있습니다. 이 모든 작업을 단일 환경에서 수행할 수 있습니다.

시간 여행

데이터 사이언티스트는 과거의 특정 시간에 해당 시간 외의 데이터를 포함할 위험 없이(특성 누출 없이) 정확한 세트의 특성 값으로 모델을 훈련해야 할 수 있습니다(예: 진단 전의 환자 의료 데이터). SageMaker 특성 저장소 오프라인 API는 기간별 관심 시간에 각 특성의 상태를 검색할 수 있는 특정 시점 쿼리를 지원합니다.  

ML 운영

특성 저장소는 MLOps 수명 주기의 핵심 구성 요소입니다. 데이터 세트 및 특성 파이프라인을 관리하여 데이터 과학 태스크의 속도를 높이고 동일한 특성을 여러 번 만드는 중복 작업을 없애 줍니다. SageMaker 특성 저장소를 독립 실행형 서비스로 사용하거나 MLOps 수명 주기 전체에서 통합된 방식으로 다른 SageMaker 서비스와 함께 사용할 수 있습니다.

보안 및 규정 준수

보안 및 규정 준수 요구 사항을 지원하려면 공유 ML 특성의 액세스를 세분화하여 제어해야 할 수 있습니다. 이 요구 사항은 테이블 및 열 수준 액세스 제어를 넘어 개별 행 수준 액세스 제어로 이동합니다. 예를 들어 계정 담당자는 자신이 담당하는 계정에 대한 매출 테이블의 행만 볼 수 있어야 하고 신용카드 번호와 같은 민감한 데이터의 접두사는 마스킹되어야 합니다. SageMaker 특성 저장소를 AWS Lake Formation과 함께 사용하면 세분화된 액세스 제어를 구현하여 특성 저장소의 데이터를 보호하고 역할에 따라 액세스 권한을 부여할 수 있습니다.

고객

The Climate Corporation
“Climate에서는 전 세계 농부들에게 정확한 정보를 제공하여 데이터에 기반한 결정을 내리게 하고 면적당 수익을 최대화하는 것이 옳다고 생각합니다. 이를 위해 우리는 기계 학습 도구 등의 기술에 투자하여 피처라고 하는 측정 가능한 객체를 사용하여 모델을 구축했습니다(예: 재배자 농장의 수확량). Amazon SageMaker Feature Store를 사용하면 중앙 피처 저장소를 통해 ML 모델 개발을 가속화하여 여러 팀이 피처에 쉽게 액세스하고 재사용할 수 있습니다. SageMaker Feature Store는 온라인 스토어를 사용하여 실시간으로 피처에 쉽게 액세스할 수 있게 해주거나 다양한 사용 사례에 대해 오프라인 스토어를 사용하여 일정에 따라 피처를 실행할 수 있게 해줍니다. SageMaker Feature Store를 사용하면 ML 모델을 더 빠르게 개발할 수 있습니다.”

Daniel McCaffrey, Climate의 데이터 및 분석 담당 부사장

Intuit
“우리는 2017년에 AWS에 Intuit의 새로운 기계 학습 플랫폼을 구축하기로 했습니다. Amazon SageMaker의 강력한 모델 개발, 훈련 및 호스팅 기능과 Intuit의 오케스트레이션 및 피처 엔지니어링 기능을 결합하는 것이었습니다. 그 결과, 모델 개발 수명 주기가 획기적으로 단축되었습니다. 6개월이 걸리던 작업이 이제 일주일도 되지 않아, TurboTax, QuickBooks, Mint 제품에 AI 기능을 훨씬 더 빠른 속도로 적용할 수 있게 되었습니다. 우리는 Amazon SageMaker Feature Store 출시를 앞두고 AWS와 긴밀히 협력했으며, 더 이상 조직 전반에서 여러 피처 리포지토리를 유지관리할 필요가 없도록 완전 관리형 피처 저장소를 기대하며 기뻐하고 있습니다. 우리 데이터 사이언티스트는 중앙 저장소의 기존 피처를 사용하고 팀과 모델 전반에서 피처의 표준화와 재사용을 모두 진행할 수 있을 것입니다.”

Mammad Zadeh, Intuit의 엔지니어링, 데이터 플랫폼 담당 부사장

Experian
“Experian에서는 소비자가 금융 생활에서 신용을 이해하고 사용할 수 있도록 역량을 강화하고 대출 기관이 신용 위험을 관리하도록 지원하는 것이 우리 책무라고 생각합니다. 우리는 재무 모델을 구축하기 위한 모범 사례를 계속 구현해 가면서, 기계 학습을 활용하는 제품 프로덕션을 가속화할 솔루션을 찾고 있습니다. Amazon SageMaker Feature Store는 ML 애플리케이션을 위한 피처를 안전하게 저장하고 재사용할 수 있는 방법을 제공합니다. 여러 계정에 걸쳐 실시간 및 일괄 애플리케이션에 대해 일관성을 유지하는 능력은 우리 비즈니스의 핵심 요구 사항입니다. Amazon SageMaker Feature Store의 새로운 기능을 사용하면 고객이 자신의 신용을 관리하고 신경제에서 비용을 절감하도록 역량을 강화해 줄 수 있습니다.”

Geoff Dzhafarov, Experian Consumer Services 수석 엔터프라이즈 아키텍트

DeNA
“DeNA의 사명은 인터넷과 AI/ML을 사용하여 영향력을 발휘하고 즐거움을 제공하는 것입니다. 우리 회사의 기본적인 목표는 가치 기반 서비스를 제공하는 것이며 이 목표를 달성할 수 있도록 회사의 비즈니스와 서비스를 준비하고 싶습니다. 조직 전체에서 특성을 검색하고 재사용할 의향이 있는데, Amazon SageMaker 특성 저장소는 여러 애플리케이션에서 쉽고 효율적으로 특성을 재사용하는 데 도움이 됩니다. 또한 Amazon SageMaker 특성 저장소는 표준 특성 정의를 유지하도록 도와주고 모델을 훈련하여 프로덕션에 배포할 때 일관된 방법론을 제공합니다. 우리는 Amazon SageMaker의 이러한 새로운 기능을 사용하여 ML 모델을 더 빠르게 훈련하고 배포할 수 있어, 최상의 서비스로 계속 고객을 만족시킬 수 있습니다.”

Kenshin Yamada, DeNA의 AI 시스템 부서 시스템 유닛 총책임자

Care.com
“공급이 수요와 일치하는 탄탄한 의료 산업은 개인의 가정에서 국가 GDP까지의 경제 성장에서 꼭 필요합니다. 우리는 Amazon SageMaker Feature Store에 흥분을 감추지 못하고 있습니다. 큐레이팅된 일관된 데이터 세트를 사용하여 우리 데이터 사이언스 팀과 개발 팀 전체에서 확장성을 높여줄 것으로 생각하기 때문입니다. 우리는 새로 발표된 Amazon SageMaker 기능을 사용하여 다양한 애플리케이션에 대한 ML 모델의 개발 및 배포를 가속화할 수 있어, 고객이 더 빠른 실시간 권장 사항을 통해 더 현명한 결정을 내리도록 도울 수 있습니다.”

Clemens Tummeltshammer, Care.com 데이터 사이언스 관리자

3M
“ML을 사용하면서, 3M은 사포와 같이 검증된 제품을 개발하고자 노력하고 있으며, 의료 분야를 포함해 기타 여러 분야에서 혁신을 주도하고 있습니다. 기계 학습을 3M의 더 많은 영역으로 확장하려는 계획을 세우면서 데이터와 모델의 양이 매년 2배씩 매우 빠르게 증가한다는 사실을 확인했습니다. 새로운 SageMaker 피처는 확장을 지원해줄 수 있다는 점에서 매우 반가울 소식이 아닐 수 없습니다. Amazon SageMaker Data Wrangler를 사용하면 모델 훈련을 위해 더욱 간편하게 데이터를 준비할 수 있고, Amazon SageMaker Feature Store를 통해 동일한 모델 피처를 반복해서 만들지 않아도 됩니다. 마지막으로, Amazon SageMaker Pipeline은 포괄적인 워크플로 단계로 데이터 준비, 모델 구축 및 모델 배포를 자동화해주므로, 모델의 시장 출시 기간을 단축할 수 있습니다. 저희 3M에서는 이러한 보다 빠른 속도의 과학을 활용할 수 있기를 더욱 기대하고 있습니다."

David Frazee, 3M 기업 시스템 연구소 기술 책임자

리소스

블로그

특정 시점 쿼리를 사용하여 정확한 ML 훈련 데이터 세트 구축

블로그

특성 추출 파이프라인 자동화

블로그

여러 계정과 팀의 특성 재사용 지원

블로그

SageMaker 특성 저장소의 주요 기능 이해

블로그

SageMaker 특성 저장소의 스트리밍 수집

블로그

ML 특성 저장, 검색 및 공유

블로그

SageMaker 특성 저장소의 스트리밍 수집

블로그

ML 특성 저장, 검색 및 공유

동영상

Amazon SageMaker 특성 저장소 심층 분석(21:54)

새로운 소식

  • 날짜(최신순)
결과를 찾을 수 없음
1