AWS Glue는 사용자와 워크로드를 지원하기 위한 여러 데이터 통합 엔진을 제공하는 서버리스 데이터 통합 서비스입니다. AWS Glue를 통해 워크로드의 특성과 개발자 및 애널리스트의 선호도를 기준으로 모든 워크로드에 맞는 적절한 엔진을 사용할 수 있습니다.
주요 기능
AWS Glue for Apache Spark
AWS Glue는 데이터 통합 및 추출, 전환, 적재(ETL) 작업을 위해 Apache Spark를 실행할 수 있는 성능 최적화, 서버리스 인프라를 제공합니다. AWS Glue for Apache Spark는 배치 및 스트림 처리를 지원하고, 데이터 모으기, 처리 및 통합 속도를 높입니다. 그런 다음 데이터 레이크 및 데이터 웨어하우스를 생성 및 업데이트하고 데이터의 인사이트를 더 빠르게 추출할 수 있습니다.
AWS Glue for Ray
AWS Glue for Ray를 통해 데이터 엔지니어 및 개발자는 Python 및 주요 Python 라이브러리를 사용하여 대규모 데이터 세트를 처리할 수 있습니다. AWS Glue는 Python 워크로드를 확장하는 데 사용하는 오픈 소스 통합 컴퓨팅 프레임워크인 Ray(Ray.io)를 사용합니다. AWS Glue for Ray에는 주요 Python 데이터 처리 라이브러리가 포함되어 있어 자체 라이브러리를 사용해 데이터 통합 작업을 사용자 지정할 수 있습니다.
AWS Glue for Python Shell
AWS Glue for Python Shell을 통해 Python 셸 작업을 사용하여 AWS Glue에서 Python 스크립트를 실행할 수 있습니다. 이러한 작업을 활용하면 복잡한 데이터 통합 및 분석 작업을 Python으로 작성할 수 있습니다. 이제 AWS Glue for Python Shell 작업에서 Pandas, NumPy 및 Amazon SageMaker Data Wrangler를 포함하여 즉시 사용할 수 있는 일반 분석 라이브러리를 제공합니다. 번들 형태로 제공된 기능을 사용하여 다양한 데이터베이스, 데이터 웨어하우스 및 AWS 서비스에 연결할 수 있습니다.