Amazon EMR 入門

如何使用 EMR

1

開發資料處理應用程式

您可以使用 Java、Hive (類似 SQL 語言)、Pig (資料處理語言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或者 Node.js。Amazon EMR 提供程式碼範例和教學，幫助您快速上手。

2

上傳您的應用程式和資料到 Amazon S3

如果要上傳大量的資料，您可以考慮使用 AWS Import/Export Snowball，透過實體儲存裝置來上傳資料；或是使用 AWS Direct Connect 來建立從資料中心到 AWS 的專用網路連線。如果您願意，還可以直接將資料寫入正在執行的叢集。

3

設定和啟動您的叢集

使用 AWS 管理主控台、AWS CLI、SDK 或者 API，指定要在叢集中佈建的 Amazon EC2 執行個體數目、要使用的執行個體類型 (標準、記憶體增強型、CPU 增強型、高 I/O 等等)、要安裝的應用程式 (Apache Spark、Apache Hive、Apache HBase、Presto 等等) 以及應用程式與資料的位置。您可以使用引導動作安裝其他軟體或者變更預設設定。

4

監控叢集

您可以使用管理主控台、命令列界面、軟體開發套件或者 API 監控叢集的運行狀況和進度。EMR 與 Amazon CloudWatch 整合，可用於監控/發出警示，並支援熱門的監控工具，例如 Ganglia。您可以隨時根據資料的多寡在叢集新增/移除容量。對於疑難排解，您可以使用主控台的簡易偵錯 GUI。

5

擷取輸出

在叢集上擷取 Amazon S3 或 HDFS 的輸出。使用工具 (如 Amazon QuickSight，Tableau 和 MicroStrategy) 以視覺化方式顯示資料。Amazon EMR 會在處理完成時自動終止叢集。另一種方法是，讓叢集持續執行並給予更多的工作量。

準備好啟動第一個叢集嗎？

按一下此處，使用 Amazon EMR 管理主控台啟動叢集。如果您想以範例資料執行範例應用程式，前往 Create Cluster 頁面上的進階叢集組態，按一下右上角的灰色 "Configure Sample Application" 按鈕。

影片

透過 AWS 網路研討會取得最新資訊

Video

Amazon EMR 技術簡介 (50:44)

觀賞影片

Video

Amazon EMR 深入了解和最佳實務 (49:12)

觀賞影片

教學

使用其他教學按照您自己的步調學習。

Spark

使用 AWS 上的 Apache Spark Streaming 和 Apache Kafka 進行即時串流處理

了解如何在 EC2 設定 Apache Kafka、使用 EMR 的 Spark Streaming 處理傳入 Apache Kafka 主題的資料，以及使用 EMR 的 Spark SQL 查詢串流資料。

閱讀部落格

Spark

在 Amazon EMR 上使用 Spark 進行大規模機器學習

了解 Intent Media 如何使用 Spark 和 Amazon EMR 進行建模工作流程。

閱讀部落格

HBase

使用 Phoenix 和 HBase 進行低延遲 SQL 和次要索引

了解如何使用 JDBC 連線至 Phoenix，透過現有的 HBase 資料表建立視圖，並建立次要索引以提升讀取效能。

閱讀部落格

HBase

針對 NoSQL 和分析工作負載使用 HBase 搭配 Hive

了解如何使用 HBase 啟動 EMR 叢集並在 Amazon S3 中透過快照還原表格。

閱讀部落格

Presto

使用 Presto 和 Airpal 啟動 Amazon EMR 叢集

了解如何設定 Presto 叢集並使用 Airpal 處理 S3 中存放的資料。

閱讀部落格

Hive

針對 NoSQL 和分析工作負載使用 HBase 搭配 Hive

了解如何使用 HBase 啟動 EMR 叢集並在 Amazon S3 中透過快照還原表格。

閱讀部落格

Hive

在 Amazon EMR 和 MicroStrategy 套件上使用 Hive 處理和分析大數據

了解如何連接至 Amazon Elastic MapReduce 上執行的 Hive 任務流程以為報告和分析建立安全且可擴展的平台。

閱讀文章

Flink

在 AWS 上使用 Apache Flink 建立即時串流處理管道

本教學概述一致的、可擴展的且可靠的串流處理管道的參考架構，此管道基於 Apache Flink 且使用 Amazon EMR、Amazon Kinesis 和 Amazon Elasticsearch Service。

閱讀部落格

培訓和協助

短期支援

您需要建構概念驗證或調校 EMR 應用程式這方面的協助嗎？ AWS 有專門的 EMR 全球支援團隊。如果您想要深入了解短期 (2-6 週) 付費支援服務，請聯絡我們。

AWS 大數據培訓

Big Data on AWS 課程旨在透過實作經驗，教導您如何使用 Amazon Web Services 處理大數據工作負載。AWS 將說明如何執行 Amazon EMR 工作，透過 Pig 和 Hive 這類 Hadoop 工具的廣泛生態系統處理資料。同時，AWS 還會教您如何使用 Amazon DynamoDB 和 Amazon Redshift 在雲端建立大數據環境，了解 Amazon Kinesis 的好處，以及利用最佳實務設計出適用於分析、安全且經濟實惠的大數據環境。若要進一步了解大數據課程，按一下此處。

其他培訓

Scale Unlimited 為需要快速學習如何使用 EMR 和其他大數據技術的公司提供自訂現場培訓。如需進一步了解，請按一下這裡。

其他資源

Stay connected with AWS

後續步驟

入門

入門教學

進一步了解

Resources

探索更多 Amazon EMR 資源

瀏覽資源頁面

Free Tier

註冊免費帳戶

註冊

Console

準備好開始建立？

開始使用 Amazon EMR

Amazon EMR 入門

如何使用 EMR

1

開發資料處理應用程式

2

上傳您的應用程式和資料到 Amazon S3

3

設定和啟動您的叢集

4

監控叢集

5

擷取輸出

準備好啟動第一個叢集嗎？

影片

Amazon EMR 技術簡介 (50:44)

Amazon EMR 深入了解和最佳實務 (49:12)

教學

使用 AWS 上的 Apache Spark Streaming 和 Apache Kafka 進行即時串流處理

在 Amazon EMR 上使用 Spark 進行大規模機器學習

使用 Phoenix 和 HBase 進行低延遲 SQL 和次要索引

針對 NoSQL 和分析工作負載使用 HBase 搭配 Hive

使用 Presto 和 Airpal 啟動 Amazon EMR 叢集

針對 NoSQL 和分析工作負載使用 HBase 搭配 Hive

在 Amazon EMR 和 MicroStrategy 套件上使用 Hive 處理和分析大數據

在 AWS 上使用 Apache Flink 建立即時串流處理管道

培訓和協助

短期支援

AWS 大數據培訓

其他培訓

其他資源

大數據部落格

機器學習部落格

文件

常見問答集

文章和教學

AWS 雲端成本中心

AWS 定價計算器

AWS Trusted Advisor

AWS Support 計劃

後續步驟

入門教學

探索更多 Amazon EMR 資源

註冊免費帳戶

準備好開始建立？

結束對 Internet Explorer 的支援