Presto in Amazon EMR

Caratteristiche e vantaggi

Presto si avvale di un motore di esecuzione di query personalizzato, con operatori progettati per supportare la semantica SQL. A differenza di Hive/MapReduce, Presto esegue le query in memoria, in una pipeline che attraversa la rete tra le diverse fasi, evitando traffico I/O superfluo. Il modello di esecuzione in pipeline permette di eseguire diverse fasi in parallelo, inviando flussi di dati da una fase all'altra non appena sono disponibili.
Un cluster EMR con Presto può essere avviato in pochi minuti. Non è più necessario preoccuparsi di allocare nodi né configurare, impostare o ottimizzare i cluster. Di tutto questo si occupa Amazon EMR. Sarà anche possibile avvalersi di strumenti quali Airpal, un'applicazione open source di esecuzione di query basata sul Web creata da Airbnb. L'interfaccia utente di Airpal semplifica la consultazione e l'analisi ad hoc dei dati e supporta caratteristiche quali evidenziazione della sintassi, esportazione dei risultati in CSV, memorizzazione delle query per utilizzo futuro ed esplorazione delle tabelle per la visualizzazione degli schemi.
Esegui query interattive che accedono direttamente ai dati in Amazon S3, risparmia utilizzando istanze spot di Amazon EC2, impiega la scalabilità gestita di EMR per aggiungere e rimuovere capacità in modo dinamico e avvia cluster a lungo o breve termine in base al carico di lavoro. Potrai anche aggiungere altre applicazioni dell'ecosistema Hadoop nel cluster.
Presto supporta lo standard SQL ANSI, che facilita il lavoro di data analyst e sviluppatori nella creazione di query per dati sia strutturati sia non strutturati su vasta scala. Al momento, Presto supporta un'ampia gamma di funzionalità SQL, incluse query complesse, aggregazioni, join e funzioni finestra.

Storie di successo

Testimonianza del cliente Netflix

Netflix ha scelto Presto come motore di query interattivo conforme allo standard SQL ANSI per i Big data. Presto offre una scalabilità ottimale, è open source e si integra con Hive Metastore e Amazon S3, i mattoni fondamentali dell'ambiente di data warehousing per i Big Data di Netflix. Presto viene eseguito su cluster persistenti di Amazon EMR, in modo da garantire query rapide e flessibili su un datastore in Amazon S3 delle dimensioni di quasi 25 PB. Netflix contribuisce attivamente a Presto, e Amazon EMR offre a Netflix la flessibilità necessaria per eseguire le proprie build di Presto in cluster Amazon EMR. In media, Netflix esegue circa 3.500 query al giorno su cluster Presto.

Logo Netflix

Testimonianze dei clienti di AWS

Jampp è una piattaforma di marketing per applicazioni per dispositivi mobili che impiega tecniche di retargeting pubblicitario avanzate per fidelizzare gli utenti alle applicazioni. Per farlo, acquista supporti per dispositivi mobili tramite il proprio motore di inoltro di offerte in tempo reale o RTB (Real-Time Bidding) basato sulle conversioni, che acquisisce automaticamente l'inventario necessario tramite 18 RTB e oltre 150 reti pubblicitarie per dispositivi mobili. Jampp esegue Presto in Amazon EMR per ottenere analisi avanzata di log ad hoc, aggregando dati da diverse origini e complessi calcoli per i segmenti di retargeting. La domanda di query analitiche complesse è aumentata del 600%, di pari passo con l'aumento di utenti. Jampp ha quindi abbandonato il precedente approccio, ovvero un'applicazione multi-core complessa in Python su MySQL, migliorando di 12 volte le proprie prestazioni passando a Presto. Al momento, Jampp impiega Presto in Amazon EMR per elaborare 40 TB di dati al giorno.

Logo Jammp

Testimonianze dei clienti di Cogo Labs

In qualità di incubatore d'impresa, Cogo Labs esegue una piattaforma di analisi di marketing e business intelligence utilizzata da clienti e team interni. Per supportare un ambiente OLAP che consenta una rapida innovazione, è stato deciso che l'interazione standard con i dati doveva essere eseguita in SQL. Cogo Labs ha così scelto Presto per le prestazioni delle query in tempo reale, il supporto per lo standard SQL ANSI e la possibilità di elaborare dati direttamente in Amazon S3. L'esecuzione di Presto in Amazon EMR consente agli oltre 100 sviluppatori e analisti di eseguire query SQL sugli oltre 500 TB di dati memorizzati in Amazon S3 per visualizzazione dei dati, analisi ad hoc e reportistica. Cogo Labs impiega una combinazione di cluster a breve e a lungo termine e riduce i costi operativi grazie all'integrazione di Amazon EMR con istanze Spot.

Logo Cogo Labs

Testimonianze dei clienti di OpenSpan

OpenSpan fornisce soluzioni per automazione e intelligence che facilitano la creazione di ponti tra persone, processi e tecnologie per analizzare la produttività dei dipendenti, semplificare le transazioni e fidelizzare dipendenti e clienti. OpenSpan ha eseguito la migrazione da HBase a Presto in Amazon EMR memorizzando i dati in Amazon S3. Ha scelto Presto per la sua interfaccia SQL e la possibilità di eseguire query sui dati in tempo reale direttamente da Amazon S3; in questo modo può esplorare rapidamente grandi volumi di dati ed eseguire le stesse operazioni su nuovi dati. OpenSpan impiega il formato di file parquet e usa PrestogreSQL per connettersi a Presto. Ha scelto Amazon EMR ed Amazon S3 per elaborare i gigabyte di dati che riceve ogni giorno dai propri clienti tenendo sotto controllo i costi.

Logo OpenSpan

Testimonianze dei clienti di Kanmu

Kanmu è una start-up giapponese che opera nel settore dei servizi finanziari e fornisce offerte basate sull'utilizzo delle carte di credito. Ha eseguito la migrazione da Hive utilizzando Presto in Amazon EMR per l'abilità di Presto di eseguire analisi esplorative e iterative in modo interattivo, per le prestazioni ottimali con Amazon S3 e per la scalabilità che permette di eseguire query su set di dati di grandi dimensioni. Kanmu usa Fluentd-plugin-s3 per il push dei dati in Amazon S3, il formato ORC (Optimized Row Columnar) per memorizzare i dati e shib, un client Web basato su node.js per l'esecuzione di query SQL.

Logo Kanmu