Amazon EMR 上的 Apache Spark
為什麼選擇 EMR 上的 Apache Spark?
Amazon EMR 是執行 Apache Spark 的首選之地。您可以從 AWS 管理主控台、AWS CLI 或 Amazon EMR API 輕鬆快速地建立受管 Spark 叢集。不僅如此,您也可以利用其他的 Amazon EMR 功能,包括使用 Amazon EMR 檔案系統 (EMRFS) 快速連接 Amazon S3、與 Amazon EC2 Spot 市場和 AWS Glue Data Catalog 整合,以及使用 EMR Managed Scaling 在叢集新增或移除執行個體。 AWS Lake Formation 提供精細的存取控制,同時與 AWS Step Functions 整合,有助於協調資料管道。 EMR Studio (預覽版) 是一種整合式開發環境 (IDE),可讓資料科學家和資料工程師開發、視覺化和除錯以 R、Python、Scala 和 PySpark 編寫的資料工程和資料科學應用程式。EMR Studio 提供全受管 Jupyter Notebooks,以及 Spark UI 和 YARN Timeline Service 等工具來簡化偵錯程序。 EMR Notebooks 讓您可以輕鬆利用 Spark 進行實驗以及建立應用程式。如果您喜歡,也可以使用 Apache Zeppelin 建立互動和協作式筆記本,以便使用 Spark 進行資料探索。
功能與優勢
使用案例
客戶成功案例
-
Yelp
Yelp 廣告定位團隊制訂一個預測模式來判斷使用者與廣告互動的可能性。Yelp 利用在 Amazon EMR 上使用 Apache Spark 處理大量資料以訓練機器學習模型,提高了收益和廣告點擊率。
-
The Washington Post
華盛頓郵報 (The Washington Post) 在 Amazon EMR 上使用 Apache Spark 建置支援網站推薦引擎的模型,以促進讀者互動和提升滿意度。他們利用 Amazon EMR 與 Amazon S3 的效能連線,以近乎即時的速度更新模型。
-
Krux
作為針對客戶深入剖析的資料管理平台的一部分,Krux 使用 Apache Spark 來執行許多機器學習和一般處理工作負載。Krux 利用暫時性 Amazon EMR 叢集搭配 Amazon EC2 競價型容量來節省成本,並使用 Amazon S3 搭配 EMRFS 作為 Apache Spark 的資料層。
-
GumGum
GumGum 是一個圖像內置和螢幕內置廣告平台,在 Amazon EMR 上使用 Spark 進行庫存預測、處理點擊流記錄及臨機操作分析 Amazon S3 中的未結構化資料。Spark 的效能增強節省了 GumGum 在這些工作流程上的時間和金錢。
-
Hearst Corporation
Hearst Corporation 是大型的多元化媒體和資訊公司,擁有超過 200 個 Web 內容上客戶檢視的內容。Hearst 的編輯人員在 Amazon EMR 上使用 Apache Spark Streaming,可掌握高點閱率文章和引領趨勢主題的即時脈動。
-
CrowdStrike
CrowdStrike 提供端點保護以阻止違規。他們使用 Amazon EMR 搭配 Spark 來處理數百 TB 的事件資料,將它們彙整成主機上更高層級的行為描述。CrowdStrike 可從該資料有效的利用事件資料,並識別是否存在惡意活動。