Nozioni di base su Amazon EMR

Come usare EMR

1

Sviluppa la tua applicazione di elaborazione dei dati

I linguaggi disponibili sono Java, Hive (un linguaggio simile a SQL), Pig (un linguaggio creato per l'elaborazione dei dati), Cascading, Ruby, Perl, Python, R, PHP, C++ o Node.js. Amazon EMR fornisce esempi di codice e tutorial per garantire la massima operatività il più rapidamente possibile.

2

Carica la tua applicazione e i dati in Amazon S3

Se devi caricare grandi quantità di dati, puoi valutare se usare AWS Import/Export Snowball, per caricare i dati tramite dispositivi di archiviazione fisici, oppure AWS Direct Connect, per stabilire una connessione di rete dedicata dal data center ad AWS. Se preferisci, puoi anche scrivere i tuoi dati direttamente in un cluster in esecuzione.

3

Configura e avvia il cluster

Usando la Console di gestione AWS, la CLI di AWS, gli SDK o le API, specifica il numero di istanze Amazon EC2 di cui effettuare il provisioning nel cluster, i tipi di istanze da utilizzare (standard, memoria elevata, CPU elevata, I/O elevato e così via), le applicazioni da installare (Apache Spark, Apache Hive, Apache HBase, Presto e così via) e la posizione della tua applicazione e dei dati. Per installare altri prodotti software o modificare le impostazioni predefinite, puoi usare Azioni bootstrap.

4

Monitora il cluster

Puoi monitorare lo stato e l'avanzamento del cluster tramite la Console di gestione, l'interfaccia a riga di comando, gli SDK o le API. Amazon EMR si integra con Amazon CloudWatch per sfruttarne le funzionalità di monitoraggio e di generazione di allarmi; inoltre supporta molte utility di monitoraggio come, ad esempio, Ganglia. Puoi aumentare o diminuire la capacità del cluster in qualsiasi momento per gestire più o meno dati. Per risolvere i problemi, utilizza la semplice GUI di debug presente nella console.

5

Recupera l'output

Puoi recuperare l'output generato da Amazon S3 o HDFS nel cluster. Visualizza i dati con strumenti quali Amazon QuickSight, Tableau e MicroStrategy. Amazon EMR terminerà automaticamente il cluster a elaborazione conclusa. In alternativa, puoi mantenere il cluster in esecuzione e assegnargli altre attività.

Sei pronto per avviare il tuo primo cluster?

Fai clic qui per avviare un cluster tramite la console di gestione di Amazon EMR. Nella pagina Create Cluster passa ad Advanced cluster configuration e fai clic sul pulsante grigio "Configure Sample Application" in alto a destra se desideri eseguire un'applicazione di esempio con dati di esempio.

Video

Rimani aggiornato con i webinar di AWS

Video

Introduzione tecnica ad Amazon EMR (50:44)

Guarda il video

Video

Approfondimento e best practice di Amazon EMR (49:12)

Guarda il video

Tutorial

Impara seguendo il tuo ritmo con altri tutorial

Spark

Elaborazione di flussi in tempo reale con Apache Spark Streaming e Apache Kafka in AWS

Scopri come configurare Apache Kafka in EC2, utilizzare Spark Streaming in EMR per elaborare i dati in entrata negli argomenti Apache Kafka e interrogare i flussi di dati mediante Spark SQL in EMR.

Leggi il blog

Spark

Machine Learning su larga scala con Spark su Amazon EMR

Scopri come Intent Media ha utilizzato Spark e Amazon EMR per i flussi di lavoro di modellizzazione.

Leggi il blog

HBase

SQL a bassa latenza e indici secondari con Phoenix e HBase

Scopri come connetterti a Phoenix utilizzando JDBC, creare una visualizzazione su una tabella HBase esistente e un indice secondario per prestazioni di lettura migliorate.

Leggi il blog

HBase

Utilizzo di HBase con Hive per carichi di lavoro NoSQL e analisi

Scopri come avviare un cluster EMR con HBase e ripristinare una tabella da uno snapshot in Amazon S3.

Leggi il blog

Presto

Avvia un cluster Amazon EMR con Presto e Airpal

Scopri come impostare un cluster Presto e utilizzare Airpal per elaborare i dati archiviati in S3.

Leggi il blog

Hive

Utilizzo di HBase con Hive per carichi di lavoro NoSQL e analisi

Scopri come avviare un cluster EMR con HBase e ripristinare una tabella da uno snapshot in Amazon S3.

Leggi il blog

Hive

Elaborazione e analisi dei Big Data con Hive su Amazon EMR e la suite MicroStrategy

Scopri come connetterti a un flusso di lavoro Hive in esecuzione su Amazon Elastic MapReduce per creare una piattaforma sicura e dinamica per report e analisi.

Leggi l'articolo

Flink

Crea una pipeline di elaborazione di flussi in tempo reale con Apache Flink su AWS

Questo tutorial delinea un'architettura di riferimento per una pipeline di elaborazione di flussi consistente, dinamica e affidabile basata su Apache Flink utilizzando Amazon EMR, Amazon Kinesis e Amazon Elasticsearch Service.

Leggi il blog

Formazione e assistenza

Impegni a breve termine

Hai bisogno di aiuto per la creazione di un proof of concept o per il tuning delle tue applicazioni EMR? AWS ha a disposizione un team di supporto globale specializzato in EMR. Se vuoi saperne di più riguardo agli impegni a breve termine (2-6 settimane) per il supporto a pagamento, contattaci.

Formazione di AWS sui Big Data

Il corso Big Data su AWS è stato creato per spiegare, attraverso attività pratiche, come utilizzare Amazon Web Services con i carichi di lavoro di big data. AWS ti mostrerà come eseguire processi Amazon EMR per elaborare i dati tramite il vasto ecosistema di strumenti Hadoop come Pig e Hive. Sarà inoltre illustrato come creare ambienti per i Big Data nel cloud impiegando Amazon DynamoDB e Amazon Redshift, saranno elencati i vantaggi di Amazon Kinesis e sarà spiegato come sfruttare le best practice di progettazione degli ambienti per i Big Data per ottenere analisi ottimali, sicurezza e costi ridotti. Per ulteriori informazioni sul corso Big Data, fai clic qui.

Formazione aggiuntiva

Scale Unlimited offre formazione in loco personalizzata per le società che devono imparare rapidamente a usare EMR e altre tecnologie per Big Data. Per saperne di più, fai clic qui.

Altre risorse

Stay connected with AWS

Fasi successive

Nozioni di base

Tutorial sulle nozioni di base

Ulteriori informazioni

Resources

Scopri altre risorse per Amazon EMR

Visita la pagina delle risorse

Free Tier

Registrati per creare un account gratuito

Registrati

Console

Ti senti pronto?

Inizia a usare Amazon EMR

Nozioni di base su Amazon EMR

Come usare EMR

1

Sviluppa la tua applicazione di elaborazione dei dati

2

Carica la tua applicazione e i dati in Amazon S3

3

Configura e avvia il cluster

4

Monitora il cluster

5

Recupera l'output

Sei pronto per avviare il tuo primo cluster?

Video

Introduzione tecnica ad Amazon EMR (50:44)

Approfondimento e best practice di Amazon EMR (49:12)

Tutorial

Elaborazione di flussi in tempo reale con Apache Spark Streaming e Apache Kafka in AWS

Machine Learning su larga scala con Spark su Amazon EMR

SQL a bassa latenza e indici secondari con Phoenix e HBase

Utilizzo di HBase con Hive per carichi di lavoro NoSQL e analisi

Avvia un cluster Amazon EMR con Presto e Airpal

Utilizzo di HBase con Hive per carichi di lavoro NoSQL e analisi

Elaborazione e analisi dei Big Data con Hive su Amazon EMR e la suite MicroStrategy

Crea una pipeline di elaborazione di flussi in tempo reale con Apache Flink su AWS

Formazione e assistenza

Impegni a breve termine

Formazione di AWS sui Big Data

Formazione aggiuntiva

Altre risorse

Blog sui big data

Blog sul machine learning

Documentazione

Domande frequenti

Articoli e tutorial

Centro economico del cloud AWS

Calcolatore prezzi AWS

AWS Trusted Advisor

Piani di AWS Support

Fasi successive

Tutorial sulle nozioni di base

Scopri altre risorse per Amazon EMR

Registrati per creare un account gratuito

Ti senti pronto?

Fine del supporto per Internet Explorer