Nozioni di base su Amazon EMR
Come usare EMR
Sviluppa la tua applicazione di elaborazione dei dati
I linguaggi disponibili sono Java, Hive (un linguaggio simile a SQL), Pig (un linguaggio creato per l'elaborazione dei dati), Cascading, Ruby, Perl, Python, R, PHP, C++ o Node.js. Amazon EMR fornisce esempi di codice e tutorial per garantire la massima operatività il più rapidamente possibile.
Carica la tua applicazione e i dati in Amazon S3
Se devi caricare grandi quantità di dati, puoi valutare se usare AWS Import/Export Snowball, per caricare i dati tramite dispositivi di archiviazione fisici, oppure AWS Direct Connect, per stabilire una connessione di rete dedicata dal data center ad AWS. Se preferisci, puoi anche scrivere i tuoi dati direttamente in un cluster in esecuzione.
Configura e avvia il cluster
Usando la Console di gestione AWS, la CLI di AWS, gli SDK o le API, specifica il numero di istanze Amazon EC2 di cui effettuare il provisioning nel cluster, i tipi di istanze da utilizzare (standard, memoria elevata, CPU elevata, I/O elevato e così via), le applicazioni da installare (Apache Spark, Apache Hive, Apache HBase, Presto e così via) e la posizione della tua applicazione e dei dati. Per installare altri prodotti software o modificare le impostazioni predefinite, puoi usare Azioni bootstrap.
Monitora il cluster
Puoi monitorare lo stato e l'avanzamento del cluster tramite la Console di gestione, l'interfaccia a riga di comando, gli SDK o le API. Amazon EMR si integra con Amazon CloudWatch per sfruttarne le funzionalità di monitoraggio e di generazione di allarmi; inoltre supporta molte utility di monitoraggio come, ad esempio, Ganglia. Puoi aumentare o diminuire la capacità del cluster in qualsiasi momento per gestire più o meno dati. Per risolvere i problemi, utilizza la semplice GUI di debug presente nella console.
Recupera l'output
Puoi recuperare l'output generato da Amazon S3 o HDFS nel cluster. Visualizza i dati con strumenti quali Amazon QuickSight, Tableau e MicroStrategy. Amazon EMR terminerà automaticamente il cluster a elaborazione conclusa. In alternativa, puoi mantenere il cluster in esecuzione e assegnargli altre attività.
Sei pronto per avviare il tuo primo cluster?
Fai clic qui per avviare un cluster tramite la console di gestione di Amazon EMR. Nella pagina Create Cluster passa ad Advanced cluster configuration e fai clic sul pulsante grigio "Configure Sample Application" in alto a destra se desideri eseguire un'applicazione di esempio con dati di esempio.