Presto en Amazon EMR

Características y beneficios

Presto usa un motor de ejecución de consultas personalizadas con operadores diseñados para admitir la semántica de SQL. A diferencia de Hive/MapReduce, Presto ejecuta consultas en memoria, canalizadas a través de la red entre fases, evitando así las operaciones de E/S innecesarias. El modelo de ejecución canalizada ejecuta varias fases paralelamente y transmite datos de una fase a la siguiente a medida que se vuelven disponibles.
Puede lanzar un clúster de Amazon EMR con Presto en cuestión de minutos. No hay que preocuparse por el aprovisionamiento de nodos, la disposición del clúster, la configuración ni el ajuste del clúster. Amazon EMR se encarga de estas tareas para que usted pueda centrarse en los análisis. También puede usar herramientas como Airpal, una herramienta de ejecución de consultas basada en la Web que Airbnb suministra con código abierto. La interfaz de usuario de Airpal simplifica la exploración de datos y el análisis ad hoc y admite características como el resaltado de sintaxis, la capacidad para exportar resultados a formato CSV, guardar consultas para uso posterior y la capacidad para explorar tablas con el fin de visualizar esquemas.
Ejecute consultas interactivas que accedan de manera directa a los datos de Amazon S3, ahorre costos con la capacidad de instancias de spot de Amazon EC2, use escalado administrado por EMR para agregar y eliminar capacidad de manera dinámica y lance clústeres de ejecución prolongados o transitorios que se adapten a su carga de trabajo. También puede añadir otras aplicaciones del ecosistema Hadoop en su clúster.
Presto es compatible con el estándar ANSI SQL, que les facilita a los desarrolladores y analistas de datos realizar consultas tanto en datos estructurados como no estructurados a escala. En la actualidad, Presto es compatible con una amplia variedad de funcionalidades de SQL, incluidas consultas complejas, agregaciones, uniones y funciones de ventana.

Historias de éxito de los clientes

Historia de éxito de Netflix

Netflix eligió a Presto como su motor de consultas interactivas compatibles con ANSI-SQL para big data. Presto se escala correctamente, es de código abierto y se integra con Hive Metastore y Amazon S3, la estructura base del entorno de almacenamiento de big data de Netflix. Netflix ejecuta Presto en clústeres de Amazon EMR persistentes para realizar consultas de manera rápida y flexible en un almacenamiento de datos de Amazon S3 de ~25 PB. Netflix es un contribuyente activo de Presto, y Amazon EMR le ofrece a Netflix la flexibilidad necesaria para ejecutar su propia compilación de Presto en clústeres de Amazon EMR. En promedio, Netflix ejecuta ~3 500 consultas diarias en sus clústeres de Presto.

Logotipo de Netflix

Historia de éxito de Jammp

Jampp es una plataforma de marketing para aplicaciones móviles que usa técnicas avanzadas de refocalización de publicidades para atraer usuarios activos a las aplicaciones. Jampp lo logra mediante la compra de inventario de medios móviles a través de su propio motor de pujas en tiempo real (RTB) basado en conversión, que puja de manera dinámica en inventario de 18 intercambios de RTB y más de 150 redes de publicidad móviles. Jampp utiliza Presto en ejecución en Amazon EMR para hacer análisis ad hoc avanzados, combinaciones de datos de varias fuentes y refocalizaciones complejas de cálculos de segmentos. Así como la base de usuarios de Jampp creció un 600 %, también lo hizo la demanda de consultas de análisis complejas. Jampp pasó de ejecutar un aplicación Python compleja de varios núcleos en MySQL a ejecutar Presto, lo que dio como resultado un rendimiento 12 veces superior. En la actualidad, Jampp usa Presto en Amazon EMR para procesar 40 TB de datos por día.

Logotipo de Jammp

Historia de éxito de Cogo Labs

Como incubadora de empresas emergentes, Cogo Labs usa una plataforma para inteligencia empresarial y análisis de marketing que utilizan compañías de su cartera y equipos internos. Para poder admitir un entorno OLAP con un alto índice de innovación, estandarizaron a SQL para poder interactuar con datos. Cogo Labs eligió Presto para obtener rendimiento de consultas en tiempo real, compatibilidad con ANSI-SQL y capacidad para procesar datos directamente desde Amazon S3. Presto en ejecución en Amazon EMR permite a más de 100 desarrolladores y analistas ejecutar consultas SQL en más de 500 TB almacenados en Amazon S3 para hacer exploraciones de datos, análisis ad hoc e informes. Cogo Labs usa una combinación de clústeres de duración limitada y permanentes y confía en la integración de Amazon EMR con instancias de subasta para reducir los costos.

Logotipo de Cogo Labs

Historia de éxito de OpenSpan

OpenSpan ofrece soluciones de automatización e inteligencia que ayudan a conectar personas, procesos y tecnología para obtener información acerca de la productividad de los empleados, simplificar las transacciones y atraer a empleados y clientes. OpenSpan migró de HBase a Presto en Amazon EMR con datos en Amazon S3. OpenSpan eligió Presto debido a su interfaz SQL y a la capacidad para realizar consultas en datos en tiempo real directamente desde Amazon S3. Les permitió explorar grandes volúmenes de datos e iterar rápidamente en próximos productos de datos. OpenSpan utiliza el formato de archivo PARQUET y también usa PrestogreSQL para conectarse a Presto. OpenSpan eligió Amazon EMR y Amazon S3 para procesar de manera rentable los gigabytes de datos que reciben diariamente de sus clientes.

Logotipo de OpenSpan

Historia de éxito de Kanmu

Kanmu es una empresa emergente japonesa del sector de servicios financieros que brinda ofertas asociadas con tarjetas basadas en el uso que los consumidores hacen de sus tarjetas de crédito. Kanmu migró de Hive a Presto en Amazon EMR debido a la capacidad de Presto para ejecutar análisis exploratorios e iterativos a velocidad interactiva, su buen rendimiento con Amazon S3 y su escalabilidad para realizar consultas en grandes conjuntos de datos. Kanmu usa Fluentd-plugin-s3 para enviar datos a Amazon S3, el formato optimizado fila columnas (ORC) para almacenar datos y utilizar shib, un cliente web basado en node.js para ejecutar consultas SQL.

Logotipo de Kanmu