Amazon EMR の開始方法
EMR の使用方法
データ処理アプリケーションを開発
Java、Hive (SQL に類似した言語)、Pig (データ処理言語)、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.js を使用できます。Amazon EMR は、すぐに使用を開始できるよう、コードサンプルとチュートリアルを提供します。
アプリケーションとデータを Amazon S3 にアップロード
大量のデータをアップロードする場合は、AWS Import/Export Snowball (物理ストレージデバイスを使用してデータをアップロードするため) または AWS Direct Connect (データセンターから AWS への専用ネットワーク接続を確立するため) の使用をご検討ください。ご希望であれば、実行中のクラスターへ直接データを書き込むこともできます。
クラスターを設定および起動
AWS マネジメントコンソール、AWS CLI、SDK、または API を使用して、クラスターにプロビジョニングする Amazon EC2 インスタンスの数、使用するインスタンスタイプ (スタンダード、ハイメモリ、ハイ CPU、ハイ I/O など)、インストールするアプリケーション (Apache Spark、Apache Hive、Apache HBase、Presto など)、およびアプリケーションとデータの場所を指定します。ブートストラップアクションを使用して、追加のソフトウェアをインストールしたり、デフォルト設定を変更したりできます。
クラスターをモニタリング
マネジメントコンソール、コマンドラインインターフェイス、SDK、または API を使用して、クラスターの健全性と進行状況をモニタリングできます。EMR は、モニタリング/警告のために Amazon CloudWatch と統合し、Ganglia などの一般的なモニタリングツールをサポートします。処理するデータの量に応じて、クラスターのキャパシティの追加と削除をいつでも行うことができます。トラブルシューティングには、コンソールのシンプルなデバッグ GUI を使用できます。
出力を取得
クラスターの Amazon S3 または HDFS から出力を取得します。Amazon QuickSight、Tableau、MicroStrategy などのツールを使用してデータを視覚化します。Amazon EMR は処理完了後に自動的にクラスターを停止します。または、クラスターをそのままにしてさらに作業することもできます。
サンプルクラスターを起動してみましょう。
Amazon EMR マネジメントコンソールを使用してクラスターを起動するには、こちらをクリックしてください。サンプルデータでサンプルアプリケーションを実行する場合、[Create Cluster] ページで、[Advanced cluster configuration] に移動し、右上にある灰色の [Configure Sample Application] ボタンをクリックします。