AWS Glue를 사용해야 하는 이유는 무엇인가요?
분석 또는 ML 프로젝트의 첫 번째 단계는 품질 좋은 결과가 나오도록 데이터를 준비하는 것입니다. AWS Glue는 더 저렴한 비용으로 더 간편하고 빠르게 데이터를 준비할 수 있는 서버리스 데이터 통합 서비스입니다. 70개 이상의 다양한 데이터 소스를 찾아서 연결하고, 중앙 집중식 데이터 카탈로그에서 데이터를 관리하며 데이터를 데이터 레이크에 로드하는 ETL 파이프라인을 시각적으로 생성, 실행 및 모니터링할 수 있습니다.
AWS Glue 소개(01:54)

AWS Glue의 이점

단일 서버리스 서비스에서 포괄적인 데이터 통합 기능 제공
페타바이트 규모, 사용한 만큼 지불하는 결제 방식, 모든 데이터 크기
개발자부터 비즈니스 사용자까지 모든 데이터 사용자 지원
공급업체 종속 없이 ETL, ELT, 배치, 스트리밍 등을 유연하게 지원합니다.

작동 방식

AWS Glue는 분석, 기계 학습(ML) 및 애플리케이션 개발을 위해 여러 소스에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한 서버리스 데이터 통합 서비스입니다.

  • 데이터 통합 엔진 옵션
  • AWS Glue에서 사용자 및 워크로드를 지원하기에 적합한 데이터 통합 엔진을 선택하세요.

    AWS Glue의 여러 데이터 처리 엔진 옵션을 보여주는 다이어그램
  • 이벤트 기반 ETL
  • AWS Glue를 사용하면 새 데이터가 도착하는 대로 추출, 전환, 적재(ETL) 작업을 실행할 수 있습니다. 예를 들어 Amazon Simple Storage Service(S3)에서 새 데이터를 사용할 수 있게 되는 즉시 실행할 ETL 작업을 시작하도록 AWS Glue를 구성할 수 있습니다.

    새 데이터가 도착할 때 AWS Glue를 통해 ETL 작업을 실행하는 방법을 보여주는 다이어그램입니다.
  • AWS Glue 데이터 카탈로그
  • 데이터 카탈로그를 사용하면 데이터를 이동하지 않고도 여러 AWS 데이터 세트 전체에서 신속하게 데이터를 검색할 수 있습니다. 일단 데이터가 카탈로그에 저장되면 Amazon Athena, Amazon EMR 및 Amazon Redshift Spectrum에서 즉시 검색 및 쿼리에 데이터를 사용할 수 있습니다.

    데이터 이동 없이 데이터 세트를 찾고 검색하는 데이터 카탈로그를 보여주는 다이어그램
  • 노 코드 ETL 작업
  • AWS Glue Studio를 사용하면 AWS Glue ETL 작업을 시각적으로 간편하게 생성, 실행 및 모니터링할 수 있습니다. 드래그 앤 드롭 방식의 편집기를 사용하여 데이터를 이동 및 변환하는 ETL 작업을 구축할 수 있으며 AWS Glue가 자동으로 코드를 생성합니다.

    드래그 앤 드롭 방식의 편집기를 사용하여 데이터를 이동 및 변환하는 ETL 작업을 구성하는 방법을 보여주는 다이어그램
  • 데이터 품질 관리 및 모니터링
  • AWS Glue Data Quality는 데이터 품질 규칙 생성, 관리 및 모니터링을 자동화하여 데이터 레이크 및 파이프라인 전체의 데이터 품질을 높게 유지할 수 있도록 합니다.

    AWS Glue Data Quality로 데이터 레이크와 데이터 파이프라인에서 데이터 품질을 자동으로 측정하고 모니터링하고 관리하는 방법을 보여주는 다이어그램
  • 데이터 준비
  • AWS Glue DataBrew를 사용하면 Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora 및 Amazon Relational Database Service(RDS)를 비롯한 데이터 레이크, 데이터 웨어하우스 및 데이터베이스에서 직접 데이터를 탐색하고 데이터로 실험할 수 있습니다. DataBrew의 사전 구축된 250여 개의 변환 중에서 선택하여 이상 항목 필터링, 형식 표준화, 잘못된 값 수정 등의 데이터 준비 작업을 자동화할 수 있습니다.

    DataBrew로 사용자의 데이터 준비 태스크를 자동화하는 방법을 보여주는 다이어그램

사용 사례

대화식으로 데이터 탐색, 실험 및 처리

데이터 엔지니어는 AWS Glue 대화형 세션을 사용하여 원하는 통합 개발 환경(IDE) 또는 노트북을 통해 대화형으로 데이터를 탐색하고 준비할 수 있습니다.

효율적인 데이터 검색

AWS, 온프레미스 및 기타 클라우드 전반에서 데이터를 신속하게 식별한 다음 쿼리 및 변환에 즉시 사용할 수 있도록 합니다.

ETL 파이프라인 개발 간소화

자동 프로비저닝 및 작업자 관리를 통해 인프라 관리 필요성을 제거하고 모든 데이터 통합 요구 사항을 단일 서비스로 통합합니다.

다양한 처리 프레임워크 및 워크로드 지원

ETL, ELT 등 다양한 데이터 처리 프레임워크와, 배치, 마이크로 배치, 스트리밍 등 다양한 워크로드를 보다 쉽게 지원합니다.

새로운 소식

  • 날짜(최신순)
결과를 찾을 수 없음
1

AWS 자세히 살펴보기