Amazon DataZone: 데이터 검색 자동화

개요

잠재적인 오류를 유발하는 데이터 카탈로그의 데이터 속성을 수동으로 입력하는 시간을 제거할 수 있습니다. 비즈니스 컨텍스트를 생성하고 데이터 세트에 대한 분석을 추천하여 데이터 검색 결과를 향상할 수 있습니다. 데이터의 출처와 변경의 영향을 받는 소스를 파악할 수 있습니다. 비즈니스 데이터 카탈로그의 데이터가 더 많고 풍부해지면 검색 경험도 향상됩니다. 데이터의 검색과 사용에 소요되는 시간이 몇 주에서 며칠로 줄어듭니다.

Page Topics

주요 기능

주요 기능

Amazon DataZone 비즈니스 데이터 카탈로그는 기술 메타데이터를 자산으로 게시할 수 있고 풍부한 비즈니스 컨텍스트를 추가할 수 있는 연합 조직 레지스트리 역할을 합니다. 모든 사용자가 빠르고 쉽게 데이터를 찾고, 이해하고, 신뢰할 수 있도록 비즈니스 컨텍스트로 데이터를 가시화할 수 있습니다.

데이터에 비즈니스 설명과 이름을 자동으로 추가하면 문맥을 쉽게 파악할 수 있고 어려운 기술 명칭을 사용하지 않아도 됩니다. 이 자동화는 대규모 언어 모델(LLM)을 기반으로 하여 정확성과 일관성을 향상합니다. 

패싯 검색은 비즈니스 데이터 카탈로그를 기반으로 작동하여 데이터 소비자와 생산자가 테이블 및 열 이름, 비즈니스 용어 등 친숙한 구조 정보를 사용해 데이터 자산을 찾을 수 있도록 도와줍니다.

각 데이터 세트에 대해 가장 가치 있는 열과 분석에 사용될 가능성이 높은 열 목록을 생성할 수 있습니다. 

Amazon DataZone의 데이터 품질 통계는 데이터 소비자에게 AWS Glue Data Quality 또는 서드 파티 시스템의 데이터 품질 지표를 보여줍니다. 데이터 소비자는 의사 결정에 사용하는 데이터 소스를 신뢰할 수 있고 자산을 검색할 때 데이터 품질 컨텍스트를 파악할 수 있습니다. 생산자와 IT 팀은 API를 사용하여 서드 파티 시스템의 데이터 품질 통계를 콘솔 외부의 통합 포털에 통합할 수도 있습니다. 일정에 따라 AWS Glue Data Quality 결과를 가져오도록 하면 데이터가 계속해서 변경되더라도 점수를 최신 상태로 유지할 수 있습니다.

시간 경과에 따른 데이터 이동을 이해합니다. 데이터 계보는 데이터 소비자가 데이터의 출처, 변경 사항, 사용을 파악하는 데 도움을 주어 조직의 데이터 리터러시를 향상시키고 신뢰를 높일 수 있습니다. 데이터 자산과 자산 관계 매핑, 파이프라인 문제 해결 및 개발, 데이터 거버넌스 사례 적용에 소요되는 시간을 줄일 수 있습니다.

데이터 자산을 특정 비즈니스 사용 사례에 맞춰진 정의된 패키지(데이터 제품)로 그룹화하여 카탈로그 작성을 간소화하고 데이터 소비자가 데이터를 쉽게 검색하고 구독할 수 있도록 합니다. 데이터 생산자는 관련 자산 컬렉션을 큐레이팅하고, 비즈니스 컨텍스트를 추가하고, 이를 데이터 제품 단위로 게시할 수 있습니다. 이를 통해 데이터 소비자가 특정 사용 사례에 필요한 모든 데이터 자산을 찾는 프로세스가 간소화됩니다. 소비자는 단일 승인 워크플로를 통해 데이터 제품 내의 모든 자산을 구독할 수 있습니다. 데이터 생산자는 자산 컬렉션 편집, 게시 취소, 삭제, 구독 유지 관리를 포함하여 제품의 수명 주기를 관리할 수 있습니다. Amazon DataZone은 또한 데이터 제품 워크플로에 대한 API 지원을 제공하여 통합 및 자동화를 촉진합니다.

사용 사례

올바른 상황에서 올바른 데이터를 찾아 인사이트를 도출하는 시간을 단축합니다. 데이터는 일관되고, 정확하며, 완전하고, 시기적절하고, 추적 가능하고, 데이터 품질 점수가 투명한 경우에만 신뢰할 수 있습니다. 분산된 소유권을 통해 각 부서 또는 분석 팀은 자산의 충실도를 유지하여 데이터 소비자가 올바른 데이터를 사용하고 있음을 알 수 있도록 합니다.

자산을 크롤링하고 기술 메타데이터(실제 데이터가 아닌)를 가져와 비즈니스 컨텍스트를 풍부하게 하여 비즈니스 데이터 카탈로그를 구축합니다. 표준화된 용어집 및 용어로 비즈니스 컨텍스트를 풍부하게 만들 수 있습니다. 메타데이터 양식을 사용하여 추가 메타데이터를 사용자 지정할 수도 있습니다.

올바른 데이터를 사용하려면 데이터 컨텍스트를 이해해야 합니다. Amazon DataZone은 용어집 및 메타데이터 양식으로 카탈로그화된 모든 데이터에 대한 컨텍스트를 구축하는 데 도움이 됩니다. 이제 데이터 소유자는 최대한 많은 정보를 공유하여 데이터 소비자가 데이터를 찾고 이해한 다음 구독할 수 있도록 데이터 컨텍스트를 설정할 수 있습니다. 데이터 품질 점수는 데이터 소비자가 데이터 자산이 목적에 적합한지 이해하는 데 도움이 됩니다.

데이터 자산과 자산 관계 매핑, 파이프라인 문제 해결 및 개발, 데이터 거버넌스 관행 적용에 소요되는 시간을 줄입니다. 데이터 소비자는 그래픽 경험을 통해 자산의 출처를 이해합니다. 데이터 생산자는 어떤 시스템 또는 데이터 소비자가 데이터를 사용하는지 이해함으로써 변경이 테이블 또는 열에 미치는 영향을 평가할 수 있습니다(영향 분석). 데이터 생산자는 데이터 자산 계보의 스냅샷을 검토하여 오류의 원인을 찾아냄으로써 데이터 문제를 해결할 수도 있습니다. Amazon DataZone은 계보 수집을 위한 공개 표준인 OpenLineage 이벤트에서 캡처한 데이터 계보를 시각화하지만 사용자 지정 계보 매핑도 캡처할 수 있습니다. 계보는 데이터 생산자가 데이터를 공유할 때 데이터 계보를 포함할 수 있도록 지원하여 데이터 소스에 대한 신뢰를 높입니다.

동영상

AWS re:Invent 2023 - How to build a business catalog with Amazon DataZone(21:37)
AWS re:Invent 2023 - Understand your data with business context(55:40)

FAQ

Amazon DataZone 비즈니스 데이터 카탈로그에는 어떤 종류의 정보가 있나요?

Amazon DataZone 비즈니스 데이터 카탈로그의 비즈니스 메타데이터는 비즈니스 담당자가 작성하거나 사용하는 정보를 제공하고 조직 데이터에 컨텍스트를 제공합니다. 여기에는 다음 정보가 포함될 수 있습니다.

  • 소유권: 현대적인 데이터 중심 조직에서는 각 사업 분야(Line of Business, LOB)가 자체 데이터를 관리하는 분산 데이터 관리 프로세스를 사용합니다. 카탈로그는 이 소유권을 추적합니다. 따라서 이해 관계자가 비즈니스 업무의 일환으로 데이터를 찾고 데이터에 대한 액세스를 요청할 수 있습니다.
  • 분류: 데이터 검색은 비즈니스 메타데이터로 지원할 수 있는 주요 태스크 중 하나입니다. 데이터 검색은 중앙에서 정의한 회사의 온톨로지 및 분류법을 사용하여 데이터 소스를 분류하고 관련된 데이터 객체를 찾을 수 있도록 돕습니다.
  • 관계: Amazon DataZone 비즈니스 데이터 카탈로그를 사용하면 관계 정보를 메타데이터로 추가할 수 있습니다. 기술 데이터 세트 스키마와 마찬가지로 비즈니스 데이터 카탈로그에는 데이터베이스, 데이터 세트 및 데이터 세트 열 간의 관계 등 카탈로그 내 객체 간의 관계가 표시됩니다.
  • 스키마: 설명에 대한 AI 추천은 기술 및 비즈니스 스키마를 사용하여 데이터에 대한 추천 설명과 사용법을 생성할 수 있습니다.
  • 출처 및 사용: 데이터 계보와 영향 분석뿐 아니라 OpenLineage의 사용자 지정 매핑이 비즈니스 데이터 카탈로그에 연결됩니다.

Amazon DataZone을 사용하여 무엇을 카탈로그화할 수 있나요?

Amazon DataZone은 AWS Glue 데이터 카탈로그 및 Amazon Redshift에서 직접 게시된 데이터 자산을 지원합니다. 이 두 소스는 다음 위치의 데이터를 카탈로그화하는 데 사용할 수 있습니다.