Apache Hadoop en Amazon EMR
¿Por qué Apache Hadoop en EMR?
Apache™ Hadoop® es un proyecto de software de código abierto que se puede utilizar para procesar de forma eficaz conjuntos de datos de gran tamaño. En lugar de utilizar un equipo grande para procesar y almacenar los datos, Hadoop facilita la creación de clústeres de hardware de consumo para analizar conjuntos de datos masivos en paralelo.
El ecosistema de Hadoop contiene numerosas aplicaciones y motores de ejecución, lo que aporta una variedad de herramientas para satisfacer las necesidades de sus cargas de trabajo de análisis. Amazon EMR facilita la creación y administración de clústeres elásticos y completamente configurados de instancias de Amazon EC2 con Hadoop y otras aplicaciones ejecutadas en el ecosistema de Hadoop.
¿Cómo se relacionan Hadoop y los big data?
Dada su enorme escalabilidad, Hadoop se utiliza con frecuencia para procesar cargas de trabajo de big data. Para incrementar la potencia de procesamiento de su clúster de Hadoop, puede añadir más servidores con los recursos de CPU y memoria idóneos para satisfacer sus necesidades.
Hadoop proporciona un nivel elevado de durabilidad y disponibilidad, a la vez que permite procesar cargas de trabajo de análisis informático en paralelo. La combinación de disponibilidad, durabilidad y escalabilidad de procesamiento convierte a Hadoop en la opción ideal para cargas de trabajo de big data. Puede usar Amazon EMR para crear y configurar un clúster de instancias de Amazon EC2 que ejecuten Hadoop en cuestión de minutos, y comenzar a extraer valor de sus datos.