Presto en Amazon EMR
Características y beneficios
Historias de éxito de los clientes
Historia de éxito de Netflix
Netflix eligió a Presto como su motor de consultas interactivas compatibles con ANSI-SQL para big data. Presto se escala correctamente, es de código abierto y se integra con Hive Metastore y Amazon S3, la estructura base del entorno de almacenamiento de big data de Netflix. Netflix ejecuta Presto en clústeres de Amazon EMR persistentes para realizar consultas de manera rápida y flexible en un almacenamiento de datos de Amazon S3 de ~25 PB. Netflix es un contribuyente activo de Presto, y Amazon EMR le ofrece a Netflix la flexibilidad necesaria para ejecutar su propia compilación de Presto en clústeres de Amazon EMR. En promedio, Netflix ejecuta ~3 500 consultas diarias en sus clústeres de Presto.
Historia de éxito de Jammp
Jampp es una plataforma de marketing para aplicaciones móviles que usa técnicas avanzadas de refocalización de publicidades para atraer usuarios activos a las aplicaciones. Jampp lo logra mediante la compra de inventario de medios móviles a través de su propio motor de pujas en tiempo real (RTB) basado en conversión, que puja de manera dinámica en inventario de 18 intercambios de RTB y más de 150 redes de publicidad móviles. Jampp utiliza Presto en ejecución en Amazon EMR para hacer análisis ad hoc avanzados, combinaciones de datos de varias fuentes y refocalizaciones complejas de cálculos de segmentos. Así como la base de usuarios de Jampp creció un 600 %, también lo hizo la demanda de consultas de análisis complejas. Jampp pasó de ejecutar un aplicación Python compleja de varios núcleos en MySQL a ejecutar Presto, lo que dio como resultado un rendimiento 12 veces superior. En la actualidad, Jampp usa Presto en Amazon EMR para procesar 40 TB de datos por día.
Historia de éxito de Cogo Labs
Como incubadora de empresas emergentes, Cogo Labs usa una plataforma para inteligencia empresarial y análisis de marketing que utilizan compañías de su cartera y equipos internos. Para poder admitir un entorno OLAP con un alto índice de innovación, estandarizaron a SQL para poder interactuar con datos. Cogo Labs eligió Presto para obtener rendimiento de consultas en tiempo real, compatibilidad con ANSI-SQL y capacidad para procesar datos directamente desde Amazon S3. Presto en ejecución en Amazon EMR permite a más de 100 desarrolladores y analistas ejecutar consultas SQL en más de 500 TB almacenados en Amazon S3 para hacer exploraciones de datos, análisis ad hoc e informes. Cogo Labs usa una combinación de clústeres de duración limitada y permanentes y confía en la integración de Amazon EMR con instancias de subasta para reducir los costos.
Historia de éxito de OpenSpan
OpenSpan ofrece soluciones de automatización e inteligencia que ayudan a conectar personas, procesos y tecnología para obtener información acerca de la productividad de los empleados, simplificar las transacciones y atraer a empleados y clientes. OpenSpan migró de HBase a Presto en Amazon EMR con datos en Amazon S3. OpenSpan eligió Presto debido a su interfaz SQL y a la capacidad para realizar consultas en datos en tiempo real directamente desde Amazon S3. Les permitió explorar grandes volúmenes de datos e iterar rápidamente en próximos productos de datos. OpenSpan utiliza el formato de archivo PARQUET y también usa PrestogreSQL para conectarse a Presto. OpenSpan eligió Amazon EMR y Amazon S3 para procesar de manera rentable los gigabytes de datos que reciben diariamente de sus clientes.
Historia de éxito de Kanmu
Kanmu es una empresa emergente japonesa del sector de servicios financieros que brinda ofertas asociadas con tarjetas basadas en el uso que los consumidores hacen de sus tarjetas de crédito. Kanmu migró de Hive a Presto en Amazon EMR debido a la capacidad de Presto para ejecutar análisis exploratorios e iterativos a velocidad interactiva, su buen rendimiento con Amazon S3 y su escalabilidad para realizar consultas en grandes conjuntos de datos. Kanmu usa Fluentd-plugin-s3 para enviar datos a Amazon S3, el formato optimizado fila columnas (ORC) para almacenar datos y utilizar shib, un cliente web basado en node.js para ejecutar consultas SQL.