Amazon SageMaker Lakehouse の料金

Amazon SageMaker Lakehouse は、Amazon Simple Storage Service (Amazon S3) データレイクと Amazon Redshift データウェアハウスにわたるすべてのデータを統合します。これは、データの 1 つのコピーで強力な分析と AI/ML アプリケーションを構築するのに役立ちます。SageMaker Lakehouse では、Apache Iceberg と互換性のあるすべてのツールとエンジンを使用して、データに柔軟にアクセスしてクエリを実行できます。すべての分析および機械学習 (ML) ツールとエンジンに一貫して適用される権限をきめ細かく定義することで、レイクハウス内のデータを保護できます。これらの利点に加えて、ゼロ ETL 統合を通じて運用データベースやアプリケーションのデータにアクセスしたり、レイクハウスのフェデレーテッドクエリ機能を通じてサードパーティーソースのデータにアクセスしたりできます。

SageMaker Lakehouse には Amazon SageMaker Unified Studio (プレビュー) から直接アクセスできます。さまざまなソースからのデータは、SageMaker Lakehouse のカタログと呼ばれる論理的なコンテナにまとめられています。各カタログは、データウェアハウスやサードパーティーデータベースなどの既存のデータソースからのデータか、Amazon S3 や Amazon Redshift マネージドストレージ (RMS) にデータを保存するためにレイクハウスで直接作成されたデータを表します。クエリエンジンはこれらのカタログに接続し、Apache Iceberg API を使用してインプレースでデータにアクセスできます。Apache Spark、Trino、Amazon Athena、Amazon EMR などの任意の Apache Iceberg 互換エンジンを使用して、Apache Iceberg テーブルとしてデータにアクセスし、ファーストパーティーおよびサードパーティーのクエリエンジンからデータをクエリできます。同様に、カタログは Amazon Redshift クラスターやワークグループなどのファーストパーティーのクエリエンジンにデータベースとしてマウントされます。Java Database Connectivity (JDBC) または Amazon Redshift Query Editor V2 を介してクエリツールからデータベースに接続し、SQL を使用してクエリを実行します。

SageMaker Lakehouse の料金

SageMaker Lakehouse には、以下の基本コンポーネントがあります。レイクハウスで使用するコンポーネントの料金を支払います。

SageMaker Lakehouse メタデータ: データ定義は、AWS Glue データカタログを使用してカタログ、データベース、およびテーブルの論理的な階層にまとめられています。

  • カタログ: Amazon Redshift のスキーマ、テーブル、ビュー、マテリアライズドビューなど、データストアのオブジェクトを保存する論理コンテナです。レイクハウスに持ち込むデータソースの階層レベルに合わせて、カタログをカタログの下にネストできます。
  • データベース: データベースを使用して、レイクハウス内のテーブルやビューなどのデータオブジェクトを整理できます。
  • テーブルとビュー: テーブルとビューはデータベース内のデータオブジェクトで、データにアクセスするためのスキーマ、パーティション、格納場所、格納形式、SQL クエリなどの基になるデータにアクセスする方法を記述します。

SageMaker Lakehouse メタデータには AWS Glue API からアクセスできます。メタデータストレージと API リクエストには、AWS Glue データカタログのメタデータ料金が適用され、AWS 無料利用枠もご利用いただけます。詳細については、AWS Glue の料金をご覧ください。

データストレージとアクセス: SageMaker Lakehouse を使用すると、Amazon S3 や RMS にデータを読み書きできます。レイクハウスにデータを保存するために選択したストレージタイプによっては、基盤となるストレージにアクセスするための追加のストレージコストとコンピューティングコストが発生します。ストレージタイプ別のストレージ料金とコンピューティング料金の詳細については、AWS Glue 料金をご覧ください。

統計と Apache Iceberg テーブルのメンテナンス: SageMaker Lakehouse では、Amazon S3 のデータレイクテーブルの統計収集を自動化してクエリの実行を高速化できます。また、圧縮などの Apache Iceberg テーブルのメンテナンスを自動化して、Apache Iceberg テーブルのストレージレイアウトを最適化できます。これらの機能を有効にすると、追加料金が発生します。詳細については、AWS Glue の料金をご覧ください。

アクセス許可: SageMaker Lakehouse のきめ細かいアクセス許可は AWS Lake Formation によって強化されています。SageMaker Lakehouse のアクセス許可は無料です。詳細については、Lake Formation の料金をご覧ください。

ゼロ ETL 統合のコスト

SageMaker はアプリケーションとのゼロ ETL 統合が行えるため、抽出、変換、ロード (ETL) パイプラインを構築および管理する必要がなくなります。サポートされているアプリケーションには、Salesforce、ServiceNow、Zendesk などがあります。

これらの統合により柔軟性が高まり、アプリケーション内の特定のデータテーブルを選択して Amazon Redshift に自動的にレプリケートできます。この柔軟性により、複数のアプリケーションとデータソースにわたって統合分析を実行できます。AWS は、ゼロ ETL 統合について追加料金を請求しません。ゼロ ETL 統合の一環として作成された変更データの作成と処理に使用された既存のリソースについての料金はお支払いいただきます。これには、レプリケートされたデータを保存するための追加の Amazon Redshift ストレージ、データレプリケーションを処理するためのコンピューティングリソース (または Amazon Redshift Serverless の RPU)、ソースからターゲットにデータを移動するための AZ 間のデータ転送コストが含まれます。ゼロ ETL 統合によるデータ変更の継続的な処理は、追加料金なしで利用いただけます。詳細については、Amazon Aurora の料金Amazon Relational Database (Amazon RDS) for MySQL の料金Amazon DynamoDB の料金、および AWS Glue の料金をご覧ください。