Apache Spark für Amazon EMR
Warum Apache Spark auf EMR?
Amazon EMR ist die beste Lösung für die Ausführung von Apache Spark. Sie können verwaltete Spark-Cluster schnell und einfach von der AWS-Managementkonsole, AWS-CLI oder der Amazon-EMR-API aus erstellen. Außerdem können Sie zusätzliche Amazon EMR-Funktionen nutzen, wie etwa eine schnelle Amazon-S3-Konnektivität mittels Amazon EMR File System (EMRFS), die Integration in den Amazon-EC2-Spot-Markt und den AWS-Glue-Datenkatalog sowie EMR Managed Scaling, um Ihrem Cluster auf einfache Weise Instances hinzuzufügen bzw. sie daraus zu entfernen. AWS Lake Formation bietet eine detaillierte Zugriffskontrolle, während die Integration mit AWS Step Functions bei der Orchestrierung Ihrer Daten-Pipelines hilft. EMR Studio (Vorschau) ist eine integrierte Entwicklungsumgebung (IDE), mit der Datenwissenschaftler und Dateningenieure auf einfache Weise in R, Python, Scala und PySpark geschriebene Data-Engineering- und Data-Science-Anwendungen entwickeln, visualisieren und debuggen können. EMR Studio bietet vollständig verwaltete Jupyter Notebooks und Tools wie Spark UI und YARN Timeline Service, um das Debugging zu vereinfachen. EMR-Notebooks machen es Ihnen leicht, mit Spark zu experimentieren und Anwendungen zu erstellen. Sie können auch Apache Zeppelin zum Erstellen interaktiver und kollaborativer Notebooks für die Datenexploration mit Spark nutzen.
Features und Vorteile
Anwendungsfälle
Kundenerfolgsgeschichten
-
Yelp
Das Team für gezielte Werbung von Yelp erstellt Prognosemodelle, um die Wahrscheinlichkeit zu ermitteln, mit der ein Benutzer auf eine Werbung reagiert. Durch die Verwendung von Apache Spark zusammen mit Amazon EMR zum Verarbeiten großer Datenmengen, um Modelle für maschinelles Lernen zu trainieren, konnte Yelp den Umsatz steigern und die Klickraten bei Anzeigen verbessern.
-
The Washington Post
Die Washington Post verwendet Apache Spark zusammen mit Amazon EMR, um Modelle zu erstellen, die die Empfehlungs-Engine der Website unterstützen, um die Verbundenheit und Zufriedenheit der Leser zu verbessern. Die Zeitung verwendet die performante Konnektivität von Amazon EMR mit Amazon S3 zum Aktualisieren von Modellen nahezu in Echtzeit.
-
Krux
Krux verwendet Apache Spark als Teil der eigenen Datenverwaltungsplattform für Kundeneinblicke, um zahlreiche Workloads für Machine Learning und allgemeine Verarbeitung auszuführen. Krux verwendet kurzlebige Amazon-EMR-Cluster mit Amazon EC2 Spot Capacity, um Kosten zu sparen, und verwendet Amazon S3 mit EMRFS als Daten-Layer für Apache Spark.
-
GumGum
GumGum, eine Plattform für bild- und bildschirmintegrierte Werbung, verwendet Spark zusammen mit Amazon EMR zur Prognose des Inventars, der Verarbeitung von Click-Stream-Protokollen und der Ad-hoc-Analyse unstrukturierter Daten in Amazon S3. Die Performance-Verbesserungen durch Spark ermöglichten es GumGum, bei diesen Workflows Zeit und Geld zu sparen.
-
Hearst Corporation
Hearst Corporation, ein großes, breit aufgestelltes Medien- und Informationsunternehmen, hat Kunden, die Inhalte auf über 200 Internetpräsenzen ansehen. Mithilfe von Apache Spark Streaming zusammen mit Amazon EMR kann das Redaktionsteam von Hearst in Echtzeit verfolgen, welche Artikel gut ankommen und welche Themen im Trend liegen.
-
CrowdStrike
CrowdStrike bietet Schutz für Endgeräte, um Übergriffe zu vermeiden. Das Unternehmen verwendet Amazon EMR zusammen mit Spark, um mehrere Hundert Terabytes an Ereignisdaten zu verarbeiten und diese in Verhaltensbeschreibungen auf höherer Ebene auf den Hosts bereitzustellen. Anhand dieser Daten kann CrowdStrike Ereignisdaten zusammenfassen und bösartige Aktivitäten ermitteln.