Apache Hadoop sur Amazon EMR
Pourquoi choisir Apache Hadoop sur EMR ?
Apache™ Hadoop® est un projet de logiciel open source qui peut être utilisé pour traiter efficacement de grands ensembles de données. Au lieu d'utiliser un vaste système informatique pour traiter ou stocker les données, Hadoop regroupe du matériel universel pour analyser des ensembles de données volumineux en parallèle.
L'écosystème Hadoop comprend de nombreux moteurs d'exécution et applications, et fournit différents outils afin de répondre aux besoins de vos charges de travail d'analyse. Amazon EMR facilite la création et la gestion de clusters élastiques et entièrement configurés d’instances Amazon EC2 exécutant Hadoop et d’autres applications dans l’écosystème Hadoop.
Comment Hadoop et le Big Data sont-ils liés ?
Hadoop est couramment utilisé pour traiter des charges de travail de big data en raison de sa haute évolutivité. Pour augmenter la puissance de traitement de votre cluster Hadoop, ajoutez davantage de serveurs disposant des ressources de CPU et de mémoire nécessaires pour répondre à vos besoins.
Hadoop offre un haut niveau de durabilité et de disponibilité, tout en traitant des charges de travail d'analyse et de calcul en parallèle. La combinaison de disponibilité, de durabilité et d'évolutivité du traitement fait d'Hadoop le choix idéal pour les charges de travail de Big Data. Vous pouvez utiliser Amazon EMR pour créer et configurer un cluster d’instances Amazon EC2 exécutant Hadoop en quelques minutes, et commencer à exploiter vos données.