AWS Glue 데이터 통합 엔진

사용자의 기술과 분석 워크로드에 맞는 올바른 데이터 통합 엔진 선택

AWS Glue는 사용자와 워크로드를 지원하기 위한 여러 데이터 통합 엔진을 제공하는 서버리스 데이터 통합 서비스입니다. AWS Glue를 통해 워크로드의 특성과 개발자 및 애널리스트의 선호도를 기준으로 모든 워크로드에 맞는 적절한 엔진을 사용할 수 있습니다.

AWS Glue for Ray 소개

주요 기능

AWS Glue for Apache Spark

AWS Glue는 데이터 통합 및 추출, 전환, 적재(ETL) 작업을 위해 Apache Spark를 실행할 수 있는 성능 최적화, 서버리스 인프라를 제공합니다. AWS Glue for Apache Spark는 배치 및 스트림 처리를 지원하고, 데이터 모으기, 처리 및 통합 속도를 높입니다. 그런 다음 데이터 레이크 및 데이터 웨어하우스를 생성 및 업데이트하고 데이터의 인사이트를 더 빠르게 추출할 수 있습니다.

AWS Glue for Ray

AWS Glue for Ray를 통해 데이터 엔지니어 및 개발자는 Python 및 주요 Python 라이브러리를 사용하여 대규모 데이터 세트를 처리할 수 있습니다. AWS Glue는 Python 워크로드를 확장하는 데 사용하는 오픈 소스 통합 컴퓨팅 프레임워크인 Ray(Ray.io)를 사용합니다. AWS Glue for Ray에는 주요 Python 데이터 처리 라이브러리가 포함되어 있어 자체 라이브러리를 사용해 데이터 통합 작업을 사용자 지정할 수 있습니다.

AWS Glue for Python Shell

AWS Glue for Python Shell을 통해 Python 셸 작업을 사용하여 AWS Glue에서 Python 스크립트를 실행할 수 있습니다. 이러한 작업을 활용하면 복잡한 데이터 통합 및 분석 작업을 Python으로 작성할 수 있습니다. 이제 AWS Glue for Python Shell 작업에서 Pandas, NumPy 및 Amazon SageMaker Data Wrangler를 포함하여 즉시 사용할 수 있는 일반 분석 라이브러리를 제공합니다. 번들 형태로 제공된 기능을 사용하여 다양한 데이터베이스, 데이터 웨어하우스 및 AWS 서비스에 연결할 수 있습니다.