Amazon EMR 기반 Apache Spark
Apache Spark on EMR을 선택해야 하는 이유
Amazon EMR은 Apache Spark를 실행하기에 가장 적합한 서비스입니다. AWS Management Console, AWS CLI 또는 Amazon EMR API에서 관리형 Spark 클러스터를 쉽고 빠르게 생성할 수 있습니다. 그 밖에도 Amazon EMR 파일 시스템(EMRFS)을 사용한 빠른 Amazon S3 연결, Amazon EC2 스팟 시장 및 AWS Glue Data Catalog와의 통합, EMR 관리 스케일링으로 클러스터에서 인스턴스를 추가 또는 제거 등 추가적인 Amazon EMR 기능을 활용할 수 있습니다. AWS Lake Formation은 세분화된 액세스 제어 기능을 제공하며 AWS Step Functions와 통합하면 데이터 파이프라인과 오케스트레이션하는 데 도움이 됩니다. EMR Studio(평가판)가 통합 개발 환경(IDE)을 제공하므로 데이터 사이언티스트와 데이터 엔지니어는 R, Python, Scala 및 PySpark에서 작성한 데이터 엔지니어링 및 데이터 과학 애플리케이션을 쉽게 개발, 시각화 및 디버그할 수 있습니다. EMR Studio는 완전 관리형 Jupyter 노트북과 Spark UI 및 YARN Timeline Service와 같은 도구를 제공하여 디버깅을 간소화했습니다. 또한 EMR Notebooks를 활용하면 Spark를 통한 애플리케이션의 실험 및 구축이 더 쉬워집니다. 원하는 경우 Spark를 통해 데이터를 탐색할 수 있도록 Apache Zeppelin을 사용하여 대화형 협업 노트북을 생성할 수 있습니다.
기능 및 이점
사용 사례
고객 성공 사례
-
Yelp
Yelp의 광고 타겟팅 팀은 사용자가 광고와 상호 작용할 가능성을 확인할 수 있는 예측 모델을 만듭니다. Amazon EMR 기반 Apache Spark를 사용하여 기계 학습 모델을 교육하는 데 사용할 대량의 데이터를 처리함으로써 Yelp는 매출과 광고 클릭률을 높였습니다.
-
The Washington Post
The Washington Post는 독자의 참여와 만족도를 높이기 위해 Amazon EMR 기반 Apache Spark를 사용하여 웹 사이트의 추천 엔진을 지원하는 모델을 구축합니다. Amazon EMR이 Amazon S3와 강력하게 연결된다는 점을 활용하여 모델을 거의 실시간으로 업데이트합니다.
-
Krux
Krux는 고객 통찰력을 위한 데이터 관리 플랫폼의 한 부분으로 Apache Spark를 사용하여 많은 기계 학습 및 일반 처리 워크로드를 실행합니다. Krux는 휘발성 Amazon EMR 클러스터를 Amazon EC2 스팟 용량과 함께 사용하여 비용을 절감하고, EMRFS를 통해 Amazon S3를 Apache Spark용 데이터 계층으로 사용합니다.
-
GumGum
인 이미지 및 인 스크린 광고 플랫폼인 GumGum은 Amazon EMR 기반 Spark를 사용하여 인벤토리 예측, 클릭스트림 로그의 처리, 그리고 Amazon S3에 있는 비정형 데이터의 임시 분석을 수행합니다. Spark를 통한 성능 향상으로 GumGum은 이러한 워크로드에 드는 시간과 비용을 절감했습니다.
-
Hearst Corporation
다각화된 대형 미디어 및 정보 회사인 Hearst Corporation은 고객에게 200개가 넘는 웹 자산의 콘텐츠를 제공합니다. Hearst의 편집진은 Amazon EMR 기반 Apache Spark Streaming을 사용하여 어떤 기사가 반응이 좋고 어떤 주제가 요즘 추세인지 실시간으로 확인할 수 있습니다.
-
CrowdStrike
CrowdStrike는 침해 방지를 위한 엔드포인트 보안을 제공합니다. Amazon EMR을 Spark와 함께 사용하여 수백 테라바이트 규모의 이벤트 데이터를 처리하고, 호스트에 대해 더 높은 수준의 행동 설명을 도출합니다. CrowdStrike는 해당 데이터에서 이벤트 데이터를 함께 가져와서 악의적 행동이 존재하는지 확인할 수 있습니다.