Amazon SageMaker Lakehouse は、Amazon Simple Storage Service (Amazon S3) データレイクと Amazon Redshift データウェアハウスにわたるすべてのデータを統合します。これは、データの 1 つのコピーで強力な分析と AI/ML アプリケーションを構築するのに役立ちます。SageMaker Lakehouse では、Apache Iceberg と互換性のあるすべてのツールとエンジンを使用して、データに柔軟にアクセスしてクエリを実行できます。すべての分析および機械学習 (ML) ツールとエンジンに適用されるアクセス許可を定義して、レイクハウス内のデータを保護します。ゼロ ETL 統合により、運用データベースやアプリケーションからのデータをほぼリアルタイムでレイクハウスに取り込むことができます。さらに、サードパーティーのデータソース全体にわたるフェデレーテッドクエリ機能を使用して、インプレースでデータにアクセスし、クエリを実行できます。
SageMaker Lakehouse:
a) Amazon S3 データレイクと Amazon Redshift データウェアハウスにわたるデータへの統合アクセスを提供することで、データサイロを削減します。運用データベースやアプリケーションからのデータをほぼリアルタイムでレイクハウスに取り込み、ノーコードまたはローコードの抽出、変換、ロード (ETL) パイプラインを使用して分析や ML を実行できます。また、数百のコネクタと 13 のフェデレーテッドクエリ機能を使用して、AWS のデータや AWS 外のソースにアクセスできます。
b) Apache Iceberg と互換性のある、さまざまな AWS サービス、オープンソース、サードパーティーのツールやエンジンから、すべてのデータにインプレースで柔軟にアクセスおよびクエリできます。SQL、Apache Spark、ビジネスインテリジェンス (BI)、AI/ML ツールなど、お好みの分析ツールとエンジンを使用し、Amazon S3 または Amazon Redshift に保存されているデータの 1 つのコピーを使用して共同作業を行うことができます。
c) Amazon Redshift、Amazon Athena、Amazon EMR などの統合された AWS サービスや、サードパーティーの Apache Iceberg 互換エンジンからアクセスしたときにデータを保護する組み込みアクセスコントロールメカニズムにより、エンタープライズセキュリティを向上させます。
SageMaker Lakehouse には Amazon SageMaker Unified Studio (プレビュー) から直接アクセスできます。さまざまなソースからのデータは、SageMaker Lakehouse のカタログと呼ばれる論理的なコンテナにまとめられています。各カタログは、Amazon Redshift データウェアハウス、データレイク、データベースなどの既存のデータソースからのデータを表します。新しいカタログはレイクハウスに直接作成して、Amazon S3 または Amazon Redshift マネージドストレージ (RMS) にデータを保存できます。SageMaker Lakehouse のデータには、Apache Spark、Athena、Amazon EMR などの Apache Iceberg 互換エンジンからアクセスできます。さらに、これらのカタログは Amazon Redshift データウェアハウスのデータベースとして検出できるため、SQL ツールを使用してレイクハウスのデータを分析できます。
SageMaker Lakehouse は、データへのアクセスコントロールを次の 2 つの機能によって統合します。1) SageMaker Lakehouse では、きめ細かなアクセス許可を定義できます。この許可は、Amazon EMR、Athena、Amazon Redshift などのクエリエンジンによって強制適用されます。2) SageMaker Lakehouse では、データへのインプレースアクセスが可能になり、データのコピーを作成する必要がなくなります。SageMaker Lakehouse では、データのコピーを 1 つとアクセスコントロールポリシーを 1 つだけ管理できるため、統一されたきめ細かなアクセスコントロールのメリットを享受できます。
SageMaker Lakehouse は、AWS Glue データカタログ、Lake Formation、Amazon Redshift の複数のテクニカルカタログに基づいて構築されており、データレイクとデータウェアハウス全体にわたる統一されたデータアクセスを提供します。SageMaker Lakehouse は AWS Glue データカタログと Lake Formation を使用してテーブル定義とアクセス許可を保存します。SageMaker Lakehouse で定義されたテーブルでは、Lake Formation のきめ細かなアクセス許可を使用できます。AWS Glue データカタログでテーブル定義を管理し、テーブルレベル、列レベル、セルレベルのアクセス許可などのきめ細かなアクセス許可を定義してデータを保護できます。さらに、クロスアカウントデータ共有機能を使用すると、コピーなしのデータ共有を有効にして、データを安全なコラボレーションに利用できるようになります。
はい。SageMaker Lakehouse にアクセスするには、オープンソースの Apache Iceberg クライアントライブラリが必要です。Apache Spark や Trino などのサードパーティー製またはセルフマネージド型のオープンソースエンジンを使用しているお客様は、SageMaker Lakehouse にアクセスするために、クエリエンジンに Apache Iceberg クライアントライブラリを組み込む必要があります。
はい。Apache Iceberg クライアントライブラリを使用すると、Amazon EMR、AWS Glue、Athena、Amazon SageMaker などの AWS サービスやサードパーティーの Apache Spark 上の Apache Spark エンジンから既存の Amazon Redshift に対してデータの読み取りと書き込みを実行できます。ただし、テーブルにデータを書き込むには、テーブルに対する適切な書き込み許可が必要です。
はい。Apache Spark などの好みのエンジンを使用して、Amazon S3 のデータレイクテーブルを複数のデータベースにわたる Amazon Redshift データウェアハウス内のテーブルと結合できます。
いいえ。SageMaker Lakehouse を使用するためにデータを移行する必要はありません。SageMaker Lakehouse では、Apache Iceberg のオープンスタンダードを利用して、インプレースでデータにアクセスしてクエリを実行できます。Amazon S3 データレイクと Amazon Redshift データウェアハウスのデータに直接アクセスできます。運用データベースやアプリケーションからのデータは、利用可能なゼロ ETL 統合を通じて、インフラストラクチャや複雑なパイプラインを維持することなく、ほぼリアルタイムでレイクハウスに取り込むことができます。フェデレーテッドクエリ機能を使用してインプレースデータにアクセスすることもできます。これらに加えて、数百の AWS Glue コネクタを使用して既存のデータソースと統合できます。
既に Amazon Redshift のユーザーである場合は、データを移行しなくても、いくつかの簡単な手順で Amazon Redshift データウェアハウスを SageMaker Lakehouse に登録できます。デベロッパーガイドの手順に従ってください。
AWS Glue データカタログを使用して Amazon S3 データレイクを設定した場合は、何も変更する必要はありません。
SageMaker Lakehouse は、Amazon DynamoDB、Amazon Aurora、Amazon RDS for MySQL の他、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、Instagram 広告、Zendesk、SAP の 8 つのアプリケーションとのゼロ ETL 統合をサポートしています。
AWS Glue で Amazon SageMaker Data Processing 内の AWS Glue コンソールを使用して、ゼロ ETL 統合を設定および監視できます。データが取り込まれると、Apache Iceberg 互換のクエリエンジンからデータにアクセスしてクエリを実行できます。詳細については、ゼロ ETL 統合にアクセスしてください。
料金の詳細については、SageMaker Lakehouse と AWS Glue の料金ページをご覧ください。
詳細については、SageMaker Lakehouse の料金をご覧ください。
SageMaker Lakehouse は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック (香港)、アジアパシフィック (ソウル)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、欧州 (ストックホルム)、南米 (サンパウロ) でご利用いただけます。
はい。SageMaker Lakehouse はメタデータを AWS Glue データカタログに保存し、Amazon Glue と同じ SLA を提供します。
使用を開始するには、SageMaker Unified Studio で企業 (Okta など) の認証情報を使用して SageMaker ドメインにログインできます。SageMaker Unified Studio のいくつかの簡単なステップで、管理者は特定のプロジェクトプロファイルを選択してプロジェクトを作成できます。その後、SageMaker Lakehouse で作業するプロジェクトを選択できます。プロジェクトを選択すると、データ、クエリエンジン、デベロッパーツールが 1 か所にまとめられます。その後、データエンジニアやデータアナリストなどのユーザーは、お好みのツールを使用してデータをクエリできます。例えば、データエンジニアがノートブックを使用し、Spark コマンドを実行してテーブルを一覧表示すると、アクセスできるすべてのデータウェアハウステーブルとデータレイクテーブルが検出されます。その後、コマンドを実行して、Amazon S3 データレイクまたは Amazon Redshift データウェアハウスに物理的に保存されているテーブルにデータの読み取りと書き込みを行えます。同様に、データアナリストが SQL エディタから Amazon Redshift SQL コマンドを実行すると、データの同じ統合ビューが表示され、これらのテーブルに対してデータの読み取りと書き込みを実行できます。お好みのツール (SQL エディタまたはノートブック) から、Amazon S3 または Amazon Redshift で新しいテーブルを作成できます。Amazon Redshift マテリアライズドビューをクエリすると、データレイクテーブルのパフォーマンスが向上します。SageMaker Unified Studio に加えて、SageMaker Lakehouse には AWS マネジメントコンソール、AWS Glue API、AWS コマンドラインインターフェイス (AWS CLI)、または AWS SDK からもアクセスできます。詳細については、「ドキュメント」ページをご覧ください。