Amazon EMR 사용 방법
- 데이터 처리 애플리케이션을 개발합니다. Java, Hive(유사 SQL 언어), Pig(데이터 처리 언어), Cascading, Ruby, Perl, Python, R, PHP, C++ 또는 Node.js를 사용할 수 있습니다. Amazon EMR은 사용자가 빠르게 시작 및 실행할 수 있도록 코드 샘플과 자습서를 제공합니다.
- Amazon S3에 애플리케이션과 데이터를 업로드합니다. 업로드할 데이터가 많은 경우 AWS Import/Export Snowball(물리적 스토리지 디바이스를 사용해 데이터 업로드) 또는 AWS Direct Connect(데이터 센터에서 AWS로 연결되는 전용 네트워크 연결 구성)를 사용할 수 있습니다. 원하는 경우 실행 중인 클러스터에 직접 데이터를 쓸 수도 있습니다.
- 클러스터를 구성하고 시작합니다. AWS Management Console, AWS CLI, SDK 또는 API를 사용하여 클러스터에서 프로비저닝할 Amazon EC2 인스턴스의 수, 사용할 인스턴스의 유형(표준, 고용량 메모리, 고성능 CPU, 고성능 I/O 등), 설치할 애플리케이션(Apache Spark, Apache Hive, Apache HBase, Presto 등), 애플리케이션 및 데이터의 위치를 지정합니다. 부트스트랩 작업을 사용하여 추가 소프트웨어를 설치하거나 기본 설정을 변경할 수 있습니다.
- 클러스터를 모니터링합니다. Management Console, 명령줄 인터페이스, SDK 또는 API를 사용하여 클러스터의 상태와 진행 상태를 모니터링할 수 있습니다. EMR을 Amazon CloudWatch와 통합하여 모니터링하거나 경보를 실행하고 Ganglia와 같은 주요 모니터링 도구를 지원합니다. 언제든지 클러스터에 용량을 추가하거나 제거하여 더 많은 데이터 또는 더 적은 데이터를 처리할 수 있습니다. 문제 해결을 위해 콘솔의 간단한 디버깅 GUI를 사용할 수 있습니다.
- 출력을 가져옵니다. 클러스터의 Amazon S3 또는 HDFS에서 출력을 가져옵니다. Amazon QuickSight, Tableau 및 MicroStrategy와 같은 도구를 사용해 데이터를 시각화합니다. 처리가 완료되면 Amazon EMR이 자동으로 클러스터를 종료합니다. 또는 클러스터를 계속 실행하여 더 많은 작업을 처리하게 할 수 있습니다.
첫 번째 클러스터를 실행할 준비가 되었습니까?
Amazon EMR Management Console을 사용하여 클러스터를 시작하려면 여기를 클릭하십시오. 샘플 데이터가 있는 샘플 애플리케이션을 실행하려면, Create Cluster 페이지에서 Advanced cluster configuration으로 이동하여 오른쪽 위에 있는 회색 "Configure Sample Application" 버튼을 클릭하십시오.
자습서
Spark
AWS 기반 Apache Spark Streaming 및 Apache Kafka를 사용한 실시간 스트림 처리
EC2에서 Apache Kafka를 설정하고, EMR 기반 Spark Streaming을 사용하여 Apache Kafka 주제로 수신되는 데이터를 처리하며, EMR 기반 Spark SQL을 사용하여 스트리밍 데이터를 쿼리하는 방법을 알아보십시오.
Amazon EMR에서 Spark를 사용한 대규모 기계 학습
Spark 및 Amazon EMR을 모델링 워크플로에 사용한 Intent Media의 사례를 확인하십시오.
HBase
Phoenix와 HBase를 통한 지연 시간이 짧은 SQL과 보조 인덱스
JDBC를 사용해 Phoenix에 연결하고, 기존 HBase 테이블에 대한 보기를 생성하고, 보조 인덱스를 생성해 읽기 성능을 강화하는 방법을 알아보십시오.
NoSQL 및 분석 워크로드에 HBase 및 Hive 사용
HBase를 사용하여 EMR 클러스터를 시작하고 Amazon S3의 스냅샷에서 테이블을 복원하는 방법을 알아보십시오.
Presto
Presto와 Airpal을 사용해 Amazon EMR 클러스터 시작
Presto 클러스터를 설정하고 Airpal을 사용해 S3에 저장된 데이터를 처리하는 방법을 알아보십시오.
Hive
NoSQL 및 분석 워크로드에 HBase 및 Hive 사용
HBase를 사용하여 EMR 클러스터를 시작하고 Amazon S3의 스냅샷에서 테이블을 복원하는 방법을 알아보십시오.
Amazon EMR 및 MicroStrategy Suite 기반 Hive를 사용한 빅 데이터 처리 및 분석
Amazon Elastic MapReduce에서 실행되는 Hive 작업 흐름에 연결하여 안전하고 확장 가능한 보고 및 분석 플랫폼을 생성하는 방법을 알아보십시오.
Flink
AWS 기반 Apache Flink를 통한 실시간 스트림 처리 파이프라인 구축
이 자습서에서는 Apache Flink에서 Amazon EMR, Amazon Kinesis 및 Amazon Elasticsearch Service를 사용하는 일관적이고, 확장 가능하며, 안정적인 스트림 처리 파이프라인의 참조 아키텍처를 개괄적으로 설명합니다.
다른 자습서를 사용해 자신의 속도에 맞춰 학습할 수 있습니다.
교육 및 도움말
단기 서비스
EMR 애플리케이션의 개념 증명 구축과 튜닝을 원하십니까? AWS에는 EMR에 특화된 글로벌 지원 팀이 있습니다. 단기(2~6주) 유료 지원 서비스에 대한 자세한 내용을 원하시면 AWS에 문의해 주십시오.
AWS 빅 데이터 교육
AWS 기반 빅 데이터 과정은 빅 데이터 워크로드에 Amazon Web Services를 어떻게 사용하는지 실습 활동을 통해 교육을 진행하도록 고안되어 있습니다. AWS에서는 Pig와 Hive 같은 하둡 도구의 광범위한 에코시스템을 사용하여 데이터를 처리할 수 있도록 Amazon EMR 작업을 실행하는 방법을 보여 드립니다. 또한, Amazon DynamoDB와 Amazon Redshift로 작업하여 클라우드에서 빅 데이터 환경을 구축하는 방법, Amazon Kinesis의 장점, 분석/보안/비용 효과적인 빅 데이터 환경을 설계하도록 모범 사례를 활용하는 방법을 알려 줍니다. 빅 데이터 과정에 대한 자세한 내용을 보려면 여기를 클릭하십시오.
추가 교육
Scale Unlimited는 EMR을 비롯한 빅 데이터 기술 사용법을 빠르게 익혀야 하는 회사를 대상으로 맞춤식 현장 교육을 제공합니다. 자세한 내용을 보려면 여기를 클릭하십시오.
추가 리소스
더 많은 Amazon EMR 리소스 검색