Apache Hadoop di Amazon EMR
Mengapa harus Apache Hadoop on EMR?
Apache™ Hadoop® adalah proyek perangkat lunak sumber terbuka yang dapat digunakan untuk memproses dataset besar secara efisien. Daripada menggunakan satu komputer besar untuk memproses dan menyimpan data, Hadoop memungkinkan pengklasteran perangkat keras komoditas bersama-sama menganalisis dataset masif secara paralel.
Ada banyak aplikasi dan mesin eksekusi dalam ekosistem Hadoop, yang memberikan beragam peralatan untuk menyesuaikan dengan kebutuhan beban kerja analisis Anda. Amazon EMR memudahkan untuk membuat dan mengelola klaster elastis instans Amazon EC2 yang dikonfigurasi sepenuhnya, yang menjalankan Hadoop dan aplikasi lain dalam ekosistem Hadoop.
Apa keterkaitan antara Hadoop dan big data?
Hadoop biasanya digunakan untuk memproses beban kerja big data karena sangat mudah diskalakan. Untuk meningkatkan daya pemrosesan klaster Hadoop Anda, tambahkan lebih banyak server dengan CPU dan sumber daya yang diperlukan untuk memenuhi kebutuhan Anda.
Hadoop memberikan ketahanan dan ketersediaan yang tinggi sementara masih mampu memproses beban kerja analisis komputasional secara paralel. Kombinasi antara ketersediaan, ketahanan, dan skalabilitas pemrosesan membuat Hadoop sangat cocok untuk beban kerja big data. Anda dapat menggunakan Amazon EMR untuk membuat dan mengonfigurasi klaster instans Amazon EC2 yang menjalankan Hadoop dalam hitungan menit, dan mulai memperoleh nilai dari data Anda.