Apache Spark en Amazon EMR
¿Por qué Apache Spark en EMR?
Amazon EMR es el mejor lugar para ejecutar Apache Spark. Puede crear rápida y fácilmente clústeres de Spark administrados con la consola de administración de AWS, la CLI de AWS o la API de Amazon EMR. Además, puede usar las características adicionales de Amazon EMR, que incluyen la conectividad rápida con Amazon S3 mediante el sistema de archivos de Amazon EMR (EMRFS), la integración con el mercado de spot de Amazon EC2, el catálogo de datos de AWS Glue y el escalado administrado por EMR para agregar instancias al clúster o eliminarlas de él. AWS Lake Formation ofrece un control pormenorizado del acceso, mientras que la integración con AWS Step Functions ayuda a organizar las canalizaciones de datos. EMR Studio (versión preliminar) es un entorno de desarrollo integrado (IDE) que facilita a los científicos e ingenieros de datos el desarrollo, la visualización y la corrección de aplicaciones de ingeniería y de ciencia de datos escritas en R, Python, Scala y PySpark. EMR Studio proporciona Jupyter Notebooks completamente administrado y herramientas como Spark UI y YARN Timeline Service para simplificar la depuración. Los cuadernos de EMR facilitan la realización de pruebas y la creación de aplicaciones con Spark. Si así lo prefiere, puede utilizar Apache Zeppelin para crear cuadernos interactivos y colaborativos a fin de analizar los datos con Spark.
Características y beneficios
Casos de uso
Historias de éxito de los clientes
-
Yelp
El equipo de publicidad de Yelp realiza modelos de predicción para determinar las probabilidades de que un usuario interactúe con un anuncio. Al usar Apache Spark en Amazon EMR para procesar grandes cantidades de datos y perfilar los modelos de aprendizaje automático, Yelp incrementó sus ingresos y la tasa de clics en los anuncios.
-
The Washington Post
The Washington Post usa Apache Spark en Amazon EMR para crear modelos que potencian el motor de recomendaciones de su sitio web para incrementar la participación y satisfacción de los lectores. Utilizan la conectividad de alto rendimiento de Amazon EMR con Amazon S3 para actualizar los modelos casi en tiempo real.
-
Krux
Como parte de su plataforma de administración de datos de información de los clientes, Krux ejecuta cargas de trabajo de aprendizaje automático y procesamiento general con Apache Spark. Krux utiliza clústeres de Amazon EMR de corta duración con la capacidad de spot de Amazon EC2 para ahorrar costos, además de Amazon S3 con EMRFS como capa de datos de Apache Spark.
-
GumGum
GumGum, una plataforma de publicidad en pantalla y en imagen, usa Spark en Amazon EMR para predecir inventarios, procesar los registros de secuencias de clics y realizar análisis específicos de datos no estructurados en Amazon S3. Las mejoras en el desempeño que facilita Spark han permitido a GumGum ahorrar tiempo y dinero en estas cargas de trabajo.
-
Hearst Corporation
Hearst Corporation, una compañía diversificada de medios e información de gran tamaño, cuenta con clientes que ven contenido de más de 200 propiedades en la web. Gracias a Apache Spark Streaming en Amazon EMR, el personal editorial de Hearst puede observar en tiempo real los artículos que tienen buena aceptación y los temas que son tendencia.
-
CrowdStrike
CrowdStrike proporciona protección de puntos de enlace para evitar el acceso no autorizado. Utiliza Amazon EMR con Spark para procesar cientos de terabytes de datos de eventos y convertirlos en descripciones de comportamiento de alto nivel en los hosts. A partir de esos datos, CrowdStrike puede reunir datos de eventos y detectar la presencia de actividad maliciosa.