Amazon EMR 入門
如何使用 EMR
1
開發資料處理應用程式
您可以使用 Java、Hive (類似 SQL 語言)、Pig (資料處理語言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或者 Node.js。Amazon EMR 提供程式碼範例和教學,幫助您快速上手。
2
上傳您的應用程式和資料到 Amazon S3
如果要上傳大量的資料,您可以考慮使用 AWS Import/Export Snowball,透過實體儲存裝置來上傳資料;或是使用 AWS Direct Connect 來建立從資料中心到 AWS 的專用網路連線。如果您願意,還可以直接將資料寫入正在執行的叢集。
3
4
監控叢集
您可以使用管理主控台、命令列界面、軟體開發套件或者 API 監控叢集的運行狀況和進度。EMR 與 Amazon CloudWatch 整合,可用於監控/發出警示,並支援熱門的監控工具,例如 Ganglia。您可以隨時根據資料的多寡在叢集新增/移除容量。對於疑難排解,您可以使用主控台的簡易偵錯 GUI。
5
擷取輸出
在叢集上擷取 Amazon S3 或 HDFS 的輸出。使用工具 (如 Amazon QuickSight,Tableau 和 MicroStrategy) 以視覺化方式顯示資料。Amazon EMR 會在處理完成時自動終止叢集。另一種方法是,讓叢集持續執行並給予更多的工作量。
準備好啟動第一個叢集嗎?
按一下此處,使用 Amazon EMR 管理主控台啟動叢集。如果您想以範例資料執行範例應用程式,前往 Create Cluster 頁面上的進階叢集組態,按一下右上角的灰色 "Configure Sample Application" 按鈕。