Amazon EMR の開始方法

EMR の使用方法

1

データ処理アプリケーションを開発

Java、Hive (SQL に類似した言語)、Pig (データ処理言語)、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.js を使用できます。Amazon EMR は、すぐに使用を開始できるよう、コードサンプルとチュートリアルを提供します。

2

アプリケーションとデータを Amazon S3 にアップロード

大量のデータをアップロードする場合は、AWS Import/Export Snowball (物理ストレージデバイスを使用してデータをアップロードするため) または AWS Direct Connect (データセンターから AWS への専用ネットワーク接続を確立するため) の使用をご検討ください。ご希望であれば、実行中のクラスターへ直接データを書き込むこともできます。

3

クラスターを設定および起動

AWS マネジメントコンソールAWS CLISDK、または API を使用して、クラスターにプロビジョニングする Amazon EC2 インスタンスの数、使用するインスタンスタイプ (スタンダード、ハイメモリ、ハイ CPU、ハイ I/O など)、インストールするアプリケーション (Apache Spark、Apache Hive、Apache HBase、Presto など)、およびアプリケーションとデータの場所を指定します。ブートストラップアクションを使用して、追加のソフトウェアをインストールしたり、デフォルト設定を変更したりできます。

4

クラスターをモニタリング

マネジメントコンソール、コマンドラインインターフェイス、SDK、または API を使用して、クラスターの健全性と進行状況をモニタリングできます。EMR は、モニタリング/警告のために Amazon CloudWatch と統合し、Ganglia などの一般的なモニタリングツールをサポートします。処理するデータの量に応じて、クラスターのキャパシティの追加と削除をいつでも行うことができます。トラブルシューティングには、コンソールのシンプルなデバッグ GUI を使用できます。

5

出力を取得

クラスターの Amazon S3 または HDFS から出力を取得します。Amazon QuickSight、Tableau、MicroStrategy などのツールを使用してデータを視覚化します。Amazon EMR は処理完了後に自動的にクラスターを停止します。または、クラスターをそのままにしてさらに作業することもできます。

サンプルクラスターを起動してみましょう。

Amazon EMR マネジメントコンソールを使用してクラスターを起動するには、こちらをクリックしてください。サンプルデータでサンプルアプリケーションを実行する場合、[Create Cluster] ページで、[Advanced cluster configuration] に移動し、右上にある灰色の [Configure Sample Application] ボタンをクリックします。

トレーニングとヘルプ

概念実証の構築や EMR アプリケーションのチューニングでお困りですか? AWS には、EMR 専門のグローバルサポートチームがあります。短期 (2~6 週間) 有料サポート契約の詳細については、お問い合わせください

Big Data on AWS コースは、ビッグデータワークロードのために Amazon Web Services を利用する方法をハンズオンエクスペリエンスで学習できるように計画されています。AWS では、Amazon EMR ジョブを実行し、Pig や Hive のような Hadoop ツールの広範なエコシステムを利用してデータを処理する方法を紹介します。また、Amazon DynamoDB と Amazon Redshift を利用してクラウドにビッグデータ環境を作成し、Amazon Kinesis の利点を理解し、分析、セキュリティ、費用対効果のためにビッグデータ環境を設計できるようにベストプラクティスを活用する方法を紹介します。ビッグデータコースの詳細については、こちらをクリックしてください。

Scale Unlimited では、EMR などのビッグデータ技術の使い方を短期間で習得したいお客様に合わせてカスタマイズした、企業向けオンサイトトレーニングを提供しています。詳細については、こちらをクリックしてください