Amazon EMR 上的 Apache Spark
为什么选择 EMR 上的 Apache Spark?
Amazon EMR 非常适合运行 Apache Spark。您可以快速且轻松地从 AWS 管理控制台、AWS CLI 或 Amazon EMR API 中创建托管的 Spark 集群。此外,您还可以利用其他 Amazon EMR 功能,包括使用 Amazon EMR 文件系统(EMRFS)快速连接 Amazon S3、与 Amazon EC2 Spot 市场和 AWS Glue 数据目录集成,以及使用 EMR Managed Scaling 在集群中添加或移除实例。 AWS Lake Formation 提供精细粒度的访问控制,同时与 AWS Step Functions 集成有助于编排数据管道。 EMR Studio(预览版)是一个集成式开发环境(IDE),使数据科学家和数据工程师能够轻松地开发、可视化和调试用 R、Python、Scala 和 PySpark 编写的数据工程和数据科学应用程序。EMR Studio 提供完全托管的 Jupyter 笔记本电脑,以及 Spark UI 和 YARN Timeline Service 等工具,可简化调试。 EMR Notebooks 可便于您使用 Spark 进行试验和构建应用。如果您有需要,则可以借助 Spark,您还可以使用 Apache Zeppelin 创建交互式和协作式 notebooks 以进行数据探索。
功能和益处
使用案例
客户成功案例
-
Yelp
Yelp 的广告定位团队设计了一些预测模型来确定用户与广告互动的几率。通过使用 Amazon EMR 上的 Apache Spark 处理大量数据来改进机器学习模型,Yelp 提高了收入和广告点击率。
-
The Washington Post
《华盛顿邮报》使用 Amazon EMR 上的 Apache Spark 构建模型,为其网站的推荐引擎提供强大支持,从而提高读者的参与度和满意度。他们利用 Amazon EMR 与 Amazon S3 的完美连接,以近乎实时的方式更新模型。
-
Krux
作为用于管理客户信息的数据管理平台的一部分,Krux 使用 Apache Spark 运行许多机器学习和常规处理工作负载。Krux 结合使用临时 Amazon EMR 集群和 Amazon EC2 Spot 容量来节约成本,并将 Amazon S3 与 EMRFS 用作 Apache Spark 的数据层。
-
GumGum
图像内和屏幕内广告平台 GumGum 使用 Amazon EMR 上的 Spark 预测库存、处理点击流日志以及临时分析 Amazon S3 中的非结构化数据。Spark 的增强性能为 GumGum 节省了处理这些工作流程的时间和资金。
-
Hearst Corporation
Hearst Corporation 是一家大型多元化媒体信息公司,客户可查看 200 多个网站上的内容。利用 Amazon EMR 上的 Apache Spark 流传输,Hearst 的编辑人员可以实时了解哪些文章反响良好以及哪些主题是热门话题。
-
CrowdStrike
CrowdStrike 提供终端节点防护以防止出现违例。它们结合使用 Amazon EMR 和 Spark 来处理数百 TB 的事件数据,并将其汇总到主机上更高级别的行为描述中。通过这些数据,CrowdStrike 可以将事件数据汇集在一起并确定是否存在恶意活动。