Amazon EMR 上的 Apache HBase

為什麼選擇 EMR 上的 Apache HBase?

Amazon EMR 原生支援 Apache HBase,讓您能夠即時存取可擴展至數十億資料列和數百萬資料欄的資料表。Amazon EMR 將開放原始碼 Apache HBase (分散式系統上以資料欄為導向資料儲存) 的優勢與 Amazon EMR 的耐久性、效能、整合和工具功能相結合。您可以獲得高度一致的寫入和讀取,並且在幾毫秒內即可查詢 PB 級資料的結果,以使用時間序列資料來為金融服務、廣告技術、Web 分析和應用程式的任務關鍵型工作負載提供支援。您現有的 Apache HBase 應用程式會在 Amazon EMR 上運作,而無需任何程式碼變更。進一步了解 Amazon EMR 上的 Apache HBase

功能與優勢

Amazon EMR 可讓您透過 EMR 檔案系統,使用 Amazon S3 做為 Apache HBase 的資料存放區。 使用 Amazon S3 做為資料儲存可將您的運算與儲存分離,相較於 Apache Hadoop 叢集上的 Hadoop 分散式檔案系統 (HDFS) 可提供多種優勢。您可以根據運算需求,而不是 HDFS 資料儲存需求來調整叢集大小,同時您的資料儲存可獲得 Amazon S3 的可用性和耐久性,進而節省成本。您可以擴展運算節點,而不影響基礎儲存,在工作完成後終止叢集以節省成本,並在需要時快速還原叢集。您還可以在主要叢集所駐留的 Amazon EC2 可用區域中建立和設定讀取複本叢集,以取得對相同資料的唯讀存取權,並確保主要叢集無法使用的情況下,也能不間斷地存取您的資料。Amazon EMR 還將 Apache HBase 資料檔案 (HFiles) 保存至 Amazon S3。

Apache HBase 的設計目的是在擴展到數百個節點的同時又能保持效能,並支援隨機存取數十億資料列和數百萬資料欄。它利用 Amazon S3 (搭配 EMRFS) 或 Hadoop 分散式檔案系統 (HDFS) 做為容錯資料儲存。Amazon EMR 支援各式各樣的執行個體類型和 Amazon EBS 磁碟區,因此您可以自訂叢集的硬體以最佳化成本和效能。

您可在短時間內輕鬆地啟動執行 Apache HBase 及其他 Apache Hadoop 和 Apache Spark 生態系統應用程式且完全設定好的 Amazon EMR 叢集。Amazon EMR 會自動置換效能不佳的節點,而您可以輕鬆地調整叢集大小來符合自己的需求。使用 Hue UI 可管理 Apache HBase 中的資料表和瀏覽其中的資料,使用 EMRFS 和 Hadoop MapReduce 可輕鬆地備份和恢復資料表到 Amazon S3。此外,Apache HBase on Amazon EMR 可利用 Amazon EMR 的授權、Kerberos 身分驗證和加密功能集。 按一下此處,了解有關 Amazon EMR 功能的詳細資訊。

Amazon EMR 可讓您透過 EMR 檔案系統,使用 Amazon S3 做為 Apache HBase 的資料存放區。使用 Amazon S3 做為資料存放區來區隔您的叢集儲存和運算節點,可透過叢集上的 HDFS 提供多種好處。您可以針對運算需求而不是 HDFS 資料儲存體調整叢集大小以節省費用、獲得 S3 儲存的可用性和耐久性、在不影響基本儲存的情況下擴展運算節點,還可以終止叢集以節省成本並快速恢復。您也可以在另一個 Amazon EC2 可用區域建立並設定僅供讀取複本叢集,以提供和主叢集一樣的資料唯讀存取權,確保即使在主叢集無法使用的情況下也能不中斷地存取資料。

使用 HBase 與 EMR 的客戶成功案例

FINRA 客戶成功案例

FINRA 使用 Amazon EMR 執行 Apache HBase on Amazon S3,以快速存取數萬億交易記錄,並節省超過 60% 的成本。

Finra 標誌

Monster 客戶成功案例

Monster 使用 Amazon EMR 上的 Apache HBase 來存放點擊流和廣告行銷活動資料,並使用 Apache Hive 執行 SQL 查詢。

Monster 標誌