노트북을 사용해 작업을 제출할 수 있도록 EMR Studio가 통합 개발 환경(IDE)을 제공하므로 데이터 사이언티스트와 데이터 엔지니어는 R, Python, Scala 및 PySpark에서 작성한 데이터 엔지니어링 및 데이터 사이언스 애플리케이션을 쉽게 개발, 시각화 및 디버깅할 수 있습니다.

EMR Studio는 완전관리형 Jupyter 노트북과 Spark UI 및 YARN Timeline Service 같은 도구를 제공하여 디버깅을 간소화합니다. 데이터 사이언티스트와 분석가들은 사용자 지정 커널 및 라이브러리를 설치하고, GitHub 및 BitBucket과 같은 코드 리포지토리를 사용하여 동료와 협업하거나 Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 오케스트레이션 서비스를 사용하여 파라미터 노트북을 예약된 워크플로의 일부로 실행할 수 있습니다.

EMR Studio 커널 및 애플리케이션은 EMR 클러스터에서 실행되므로 성능을 최적화한 Amazon EMR Runtime for Apache Spark를 사용하는 분산 데이터 처리의 이점을 누릴 수 있습니다. 관리자가 EMR Studio를 설정함으로써 분석가는 기존 EMR 클러스터에서 애플리케이션을 실행하거나 EMR용으로 사전 정의된 AWS Cloud Formation 템플릿을 사용하여 새 클러스터를 생성할 수 있습니다.

Amazon EMR을 사용한 새로운 노트북 우선 IDE 경험 소개(26:46)

기능 및 장점

간편한 사용

EMR Studio를 사용하면 EMR 클러스터에서 애플리케이션과 간편하게 상호 작용할 수 있습니다. EMR Studio에는 AWS Console에서 AWS IAM 인증을 사용하여 액세스하거나 사용하는 ID 제공업체(IdP)에서 AWS IAM Identity Center(AWS SSO의 후속 서비스)를 통해 페더레이션 액세스를 사용하도록 설정하여 AWS Console에 로그인하지 않고 액세스할 수 있습니다. EMR 클러스터에 로그인하지 않고도 노트북을 사용하여 대화식으로 데이터를 탐색, 처리 및 시각화하고 파이프라인을 구축 및 예약하고 애플리케이션을 디버깅할 수 있습니다.

완전관리형 Jupyter 노트북

EMR Studio를 사용하면 몇 초 만에 노트북을 시작하고 샘플 노트북에 온보딩하고 데이터 탐색을 수행할 수 있습니다. 내장된 실시간 협업을 통해 동료와 협업하고 Git 리포지토리를 통해 노트북 버전 전반에 걸쳐 변경 사항을 추적할 수 있습니다. 또한, 노트북에서 사용자 지정 커널 및 Python 라이브러리를 로드해 환경을 사용자 지정할 수 있습니다.

손쉬운 애플리케이션 구축

EMR Studio를 사용하면 프로토타입 제작에서 프로덕션으로 손쉽게 이동할 수 있습니다. 코드 리포지토리에서 파이프라인을 트리거하거나 Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 오케스트레이션 도구를 사용하여 파이프라인으로 노트북을 실행하거나 클릭 한 번으로 더 큰 클러스터에 노트북을 연결할 수 있습니다.

간소화된 디버깅

EMR Studio를 사용하면 활성 및 종료된 클러스터 모두에 대해 클러스터에 로그인하지 않고도 작업을 디버깅하고 로그에 액세스할 수 있습니다. Spark UI 및 YARN 타임라인 서비스와 같은 네이티브 애플리케이션 인터페이스를 EMR Studio에서 직접 사용할 수 있습니다. 또한 EMR Studio를 사용하면 클러스터 상태, 생성 시간 및 클러스터 ID와 같은 필터를 사용하여 디버깅할 클러스터 또는 작업을 빠르게 찾을 수 있습니다.

실시간 협업 노트북

EMR Studio를 사용하면 데이터 사이언티스트, 엔지니어 및 분석가가 실시간으로 팀 간에 협업할 수 있습니다. 동료를 초대하여 노트북을 보고 편집할 수 있습니다. 이를 통해 Jupyter 노트북의 실시간 공동 작성, 코드 디버깅 및 코드 검토가 가능합니다.

Amazon EMR Studio - 실시간 협업

SQL Explorer

EMR Studio는 데이터 카탈로그를 탐색하고 EMR Studio에서 직접 EMR 클러스터에 대한 SQL 쿼리를 실행할 수 있는 WorkSpace의 기능인 SQL Explorer와 함께 제공됩니다. SQL Explorer에서는 Presto를 EC2 클러스터의 Amazon EMR에 연결하여 데이터 카탈로그를 표시하고 찾아볼 수 있습니다. 또한 SQL Explorer는 SQL 쿼리를 실행하고, 테이블에서 조회 결과를 보고, 조회 결과를 csv 형식으로 다운로드할 수 있는 편집기를 제공합니다.

Amazon EMR Studio - SQL Explorer

다중 언어 노트북

EMR Studio를 통해 단일 Jupyter 노트북 내에서 다중 언어를 사용할 수 있습니다. 동일한 Jupyter 노트북 내에서 Python, Scala, SparkSQL 및 R 사이를 전환하고 임시 테이블을 통해 셀 사이에서 데이터를 공유할 수 있습니다. 이 기능을 사용하면 워크플로의 다양한 구성 요소에 가장 적합한 언어로 코드를 작성할 수 있습니다.

사용 사례

데이터 과학 및 엔지니어링 애플리케이션 구축

EMR Studio를 사용하면 몇 초 만에 노트북을 시작하고 샘플 노트북에 온보딩하고 데이터 탐색을 수행할 수 있습니다. 내장된 실시간 협업을 통해 동료와 협업하고 Git 리포지토리를 통해 노트북 버전 전반에 걸쳐 변경 사항을 추적할 수 있습니다. 또한, 노트북에서 사용자 지정 커널 및 Python 라이브러리를 로드해 환경을 사용자 지정할 수 있습니다.

프로덕션 파이프라인 배포

EMR Studio에서는 코드 리포지토리를 사용하여 파이프라인을 트리거할 수 있습니다. 또한 노트북을 파라미터화하고 연결하여 파이프라인을 구축할 수 있습니다. Apache Airflow 또는 Amazon Managed Workflows for Apache Airflow와 같은 워크플로 오케스트레이션 서비스를 사용하여 예약된 워크플로에 노트북을 통합할 수 있습니다. 또한 EMR Studio를 사용하면 작업을 실행하기 위해 더 큰 클러스터에 노트북을 다시 연결할 수 있습니다.

디버깅 애플리케이션 간소화

EMR Studio에서는 노트북 UI에서 노트북 애플리케이션을 디버깅할 수 있습니다. 먼저 클러스터 상태와 같은 필터를 사용하여 클러스터의 범위를 좁혀 파이프라인을 디버깅할 수도 있으며, 클릭 몇 번만으로 활성 및 종료된 클러스터 모두에서 작업을 진단하여 Spark UI, Tez UI 및 Yarn Timeline Service와 같은 네이티브 디버깅 UI를 열 수 있습니다.

리소스

설명서

Amazon EMR Studio 관리 가이드

자세히 알아보기 »

블로그

Amazon EMR Studio(평가판): Amazon EMR을 사용한 새로운 노트북 우선 IDE 경험
2020년 12월 9일

자세히 알아보기 »

블로그

Amazon MWAA를 사용하여 Amazon EMR Notebooks에서 분석 작업 오케스트레이션
2021년 1월 27일

자세히 알아보기 »

Read the documentation
마이그레이션 안내서 읽기

온프레미스에서 AWS로 빅 데이터를 마이그레이션하는 방법을 알아보십시오.

자세히 알아보기 
무료 AWS 계정에 가입
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 EMR 구축 시작
콘솔에서 구축 시작

AWS 콘솔에서 Amazon EMR 구축을 시작하십시오.

로그인