Presto in Amazon EMR
Caratteristiche e vantaggi
Storie di successo
Testimonianza del cliente Netflix
Netflix ha scelto Presto come motore di query interattivo conforme allo standard SQL ANSI per i Big data. Presto offre una scalabilità ottimale, è open source e si integra con Hive Metastore e Amazon S3, i mattoni fondamentali dell'ambiente di data warehousing per i Big Data di Netflix. Presto viene eseguito su cluster persistenti di Amazon EMR, in modo da garantire query rapide e flessibili su un datastore in Amazon S3 delle dimensioni di quasi 25 PB. Netflix contribuisce attivamente a Presto, e Amazon EMR offre a Netflix la flessibilità necessaria per eseguire le proprie build di Presto in cluster Amazon EMR. In media, Netflix esegue circa 3.500 query al giorno su cluster Presto.
Testimonianze dei clienti di AWS
Jampp è una piattaforma di marketing per applicazioni per dispositivi mobili che impiega tecniche di retargeting pubblicitario avanzate per fidelizzare gli utenti alle applicazioni. Per farlo, acquista supporti per dispositivi mobili tramite il proprio motore di inoltro di offerte in tempo reale o RTB (Real-Time Bidding) basato sulle conversioni, che acquisisce automaticamente l'inventario necessario tramite 18 RTB e oltre 150 reti pubblicitarie per dispositivi mobili. Jampp esegue Presto in Amazon EMR per ottenere analisi avanzata di log ad hoc, aggregando dati da diverse origini e complessi calcoli per i segmenti di retargeting. La domanda di query analitiche complesse è aumentata del 600%, di pari passo con l'aumento di utenti. Jampp ha quindi abbandonato il precedente approccio, ovvero un'applicazione multi-core complessa in Python su MySQL, migliorando di 12 volte le proprie prestazioni passando a Presto. Al momento, Jampp impiega Presto in Amazon EMR per elaborare 40 TB di dati al giorno.
Testimonianze dei clienti di Cogo Labs
In qualità di incubatore d'impresa, Cogo Labs esegue una piattaforma di analisi di marketing e business intelligence utilizzata da clienti e team interni. Per supportare un ambiente OLAP che consenta una rapida innovazione, è stato deciso che l'interazione standard con i dati doveva essere eseguita in SQL. Cogo Labs ha così scelto Presto per le prestazioni delle query in tempo reale, il supporto per lo standard SQL ANSI e la possibilità di elaborare dati direttamente in Amazon S3. L'esecuzione di Presto in Amazon EMR consente agli oltre 100 sviluppatori e analisti di eseguire query SQL sugli oltre 500 TB di dati memorizzati in Amazon S3 per visualizzazione dei dati, analisi ad hoc e reportistica. Cogo Labs impiega una combinazione di cluster a breve e a lungo termine e riduce i costi operativi grazie all'integrazione di Amazon EMR con istanze Spot.
Testimonianze dei clienti di OpenSpan
OpenSpan fornisce soluzioni per automazione e intelligence che facilitano la creazione di ponti tra persone, processi e tecnologie per analizzare la produttività dei dipendenti, semplificare le transazioni e fidelizzare dipendenti e clienti. OpenSpan ha eseguito la migrazione da HBase a Presto in Amazon EMR memorizzando i dati in Amazon S3. Ha scelto Presto per la sua interfaccia SQL e la possibilità di eseguire query sui dati in tempo reale direttamente da Amazon S3; in questo modo può esplorare rapidamente grandi volumi di dati ed eseguire le stesse operazioni su nuovi dati. OpenSpan impiega il formato di file parquet e usa PrestogreSQL per connettersi a Presto. Ha scelto Amazon EMR ed Amazon S3 per elaborare i gigabyte di dati che riceve ogni giorno dai propri clienti tenendo sotto controllo i costi.
Testimonianze dei clienti di Kanmu
Kanmu è una start-up giapponese che opera nel settore dei servizi finanziari e fornisce offerte basate sull'utilizzo delle carte di credito. Ha eseguito la migrazione da Hive utilizzando Presto in Amazon EMR per l'abilità di Presto di eseguire analisi esplorative e iterative in modo interattivo, per le prestazioni ottimali con Amazon S3 e per la scalabilità che permette di eseguire query su set di dati di grandi dimensioni. Kanmu usa Fluentd-plugin-s3 per il push dei dati in Amazon S3, il formato ORC (Optimized Row Columnar) per memorizzare i dati e shib, un client Web basato su node.js per l'esecuzione di query SQL.