Amazon EMR 入門

如何使用 EMR

1

開發資料處理應用程式

您可以使用 Java、Hive (類似 SQL 語言)、Pig (資料處理語言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或者 Node.js。Amazon EMR 提供程式碼範例和教學,幫助您快速上手。

2

上傳您的應用程式和資料到 Amazon S3

如果要上傳大量的資料,您可以考慮使用 AWS Import/Export Snowball,透過實體儲存裝置來上傳資料;或是使用 AWS Direct Connect 來建立從資料中心到 AWS 的專用網路連線。如果您願意,還可以直接將資料寫入正在執行的叢集。

3

設定和啟動您的叢集

使用 AWS 管理主控台AWS CLISDK 或者 API,指定要在叢集中佈建的 Amazon EC2 執行個體數目、要使用的執行個體類型 (標準、記憶體增強型、CPU 增強型、高 I/O 等等)、要安裝的應用程式 (Apache Spark、Apache Hive、Apache HBase、Presto 等等) 以及應用程式與資料的位置。您可以使用引導動作安裝其他軟體或者變更預設設定。

4

監控叢集

您可以使用管理主控台、命令列界面、軟體開發套件或者 API 監控叢集的運行狀況和進度。EMR 與 Amazon CloudWatch 整合,可用於監控/發出警示,並支援熱門的監控工具,例如 Ganglia。您可以隨時根據資料的多寡在叢集新增/移除容量。對於疑難排解,您可以使用主控台的簡易偵錯 GUI

5

擷取輸出

在叢集上擷取 Amazon S3 或 HDFS 的輸出。使用工具 (如 Amazon QuickSight,Tableau 和 MicroStrategy) 以視覺化方式顯示資料。Amazon EMR 會在處理完成時自動終止叢集。另一種方法是,讓叢集持續執行並給予更多的工作量。

準備好啟動第一個叢集嗎?

按一下此處,使用 Amazon EMR 管理主控台啟動叢集。如果您想以範例資料執行範例應用程式,前往 Create Cluster 頁面上的進階叢集組態,按一下右上角的灰色 "Configure Sample Application" 按鈕。

培訓和協助

您需要建構概念驗證或調校 EMR 應用程式這方面的協助嗎? AWS 有專門的 EMR 全球支援團隊。如果您想要深入了解短期 (2-6 週) 付費支援服務,請聯絡我們

Big Data on AWS 課程旨在透過實作經驗,教導您如何使用 Amazon Web Services 處理大數據工作負載。AWS 將說明如何執行 Amazon EMR 工作,透過 Pig 和 Hive 這類 Hadoop 工具的廣泛生態系統處理資料。同時,AWS 還會教您如何使用 Amazon DynamoDB 和 Amazon Redshift 在雲端建立大數據環境,了解 Amazon Kinesis 的好處,以及利用最佳實務設計出適用於分析、安全且經濟實惠的大數據環境。若要進一步了解大數據課程,按一下此處

Scale Unlimited 為需要快速學習如何使用 EMR 和其他大數據技術的公司提供自訂現場培訓。如需進一步了解,請按一下這裡