Amazon EMR の Apache Hadoop
EMR での Apache Hadoop を使用すべき理由
Apache™ Hadoop® は、大規模データセットの効率的な処理に使用できるオープンソースのソフトウェアプロジェクトです。データの処理と保存を単独の大型コンピュータで行う代わりに、Hadoop では商用ハードウェアをクラスター化して、巨大なデータセットの分析を並列実行できます。
Hadoop エコシステムには多数のアプリケーションと実行エンジンが存在し、分析ワークロードのニーズに合わせてさまざまなツールが提供されています。 Amazon EMR では、完全に設定済みかつ伸縮自在な Amazon EC2 インスタンスクラスターを簡単に作成および管理できます。これらのクラスターでは、Hadoop と、Hadoop エコシステム内の他のアプリケーションを実行します。
Hadoop とビッグデータの関係
Hadoop は非常にスケーラブルであるため、ビッグデータワークロードの処理に広く使用されています。Hadoop クラスターの処理能力を向上させるには、ニーズに対応するために必要な CPU とメモリを有するサーバーを追加します。
Hadoop では高いレベルの耐久性と可用性が実現されており、コンピューティング分析ワークロードを並列処理することも可能です。処理の可用性、耐久性、スケーラビリティによって、Hadoop はビッグデータワークロードに適したものとなっています。Amazon EMR を使用することで、数分で Hadoop が動作する Amazon EC2 インスタンスのクラスターを作成および設定でき、データから価値を引き出せるようになります。