什么是 SageMaker Lakehouse?

Amazon SageMaker 智能湖仓可统一您在 Amazon Simple Storage Service (Amazon S3) 数据湖,包括 Amazon S3 表类数据存储服务,以及 Amazon Redshift 数据仓库中的所有数据,帮助您在单个数据副本上构建强大的分析和人工智能/机器学习应用程序。SageMaker Lakehouse 让您可以灵活地使用所有与 Apache Iceberg 兼容的工具和引擎就地访问和查询数据。通过定义精细权限保护湖仓中的数据,这些权限在所有分析和机器学习(ML)工具和引擎中强制执行。通过零 ETL 集成,将运营数据库和应用程序中的数据近实时地导入湖仓。此外,通过跨第三方数据来源的联合查询功能访问和查询数据。

查看实际效果

看看如何在 SageMaker 智能湖仓中访问来自 S3 数据湖、S3 表类数据存储服务和 Redshift 数据仓库的统一数据。

SageMaker 智能湖仓缩略图

优势

使用 SageMaker 智能湖仓统一包含 S3 表类数据存储服务的 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的所有数据。通过零 ETL 集成,将运营数据库和应用程序中的数据近实时地导入湖仓。您可以使用数百个连接器,以整合不同来源的数据。此外,您也可以通过跨第三方数据来源的联合查询功能访问和查询数据。
使用与 Apache Iceberg 开放标准兼容的首选工具和引擎。使用所有与 Apache Iceberg 兼容的工具,在单个数据副本上灵活地就地访问和查询数据。借助兼容 Iceberg REST 目录规范的 SageMaker Lakehouse,您可以使用自己选择的分析工具和引擎,例如 SQL、Apache Spark、商业智能(BI)和人工智能/机器学习工具,并与存储在 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据进行协作。SageMaker 智能湖仓可与您现有的数据架构协同工作,使您能够使用自己偏好的存储格式和查询引擎,且与 Apache Iceberg 兼容。
使用集成的精细访问控制以保护您的数据,这些控制在所有分析工具和引擎中对所有数据强制执行。定义一次权限,即可在组织内放心共享数据。

使用案例

使用单个数据副本整合 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的所有数据,用于分析和人工智能计划。借助集成的访问控制,SageMaker 智能湖仓确保您能够定义精细权限,并在整个组织中安全共享单个数据副本。
通过零 ETL 集成,访问 SageMaker Lakehouse 中运营数据库和应用程序的近实时数据。通过各种 AWS 服务以及支持 Apache Iceberg 的开源和第三方工具和引擎,就地访问和查询数据。
将多个 Amazon Redshift 数据仓库中的现有数据导入 SageMaker 智能湖仓,以查询和连接存储在 Amazon Redshift 集群和工作组中的数据。无需管理多个数据共享,即可扩展工作负载,以进行提取、转换、加载(ETL)流程、商业智能报告和按需分析。

客户

Lennar

“过去 18 个月里,我们一直在与 AWS 合作,将我们的数据基础转变为使用经济高效的一流解决方案。随着 Amazon SageMaker 融通式合作开发工作室和 Amazon SageMaker 智能湖仓等高级功能的推出,我们希望通过无缝访问数据和服务来加快交付速度,从而让我们的工程师、分析师和科学家能够发现为业务提供物质价值的见解。”

Lee Slezak,Lennar 数据和分析高级副总裁

Roche

Roche 是全球领先的制药和诊断公司,专注于改善人类生命的科学。

“我们一直在使用 Amazon Redshift,以从所有数据存储库的结构化和半结构化数据中获取洞察。借助 Amazon Redshift、AWS Glue Data Catalog 和 AWS Lake Formation 等服务,新的 Amazon SageMaker Lakehouse 能够增强和统一对数据湖或其他数据来源的访问,这令我兴奋不已。借助这项创新,我们的数据和工程团队能够简化数据访问,以促进数据、分析和应用程序工作负载之间的互操作性。我预计这项功能可以通过减少数据复制显著减少数据错误、缩短 40% 的处理时间,加快将分析数据写回事务处理系统的速度以改进决策,让我们的团队能够专注于创造业务价值。”

Yannick Misteli,Roche 全球产品战略工程主管

Roche

Idealista

Idealista 可提供在线房地产分类平台,以支持南欧地区的房地产经纪人和个人。

“我们的目标是简化对 Salesforce 数据的访问,以增强数据湖中的分析。通过利用新的 Amazon SageMaker 智能湖仓对应用程序零 ETL 集成的支持,我们可以简化数据提取和摄取流程,以便无需多个 ETL 即可直接访问 Salesforce。这种集中式方法可以降低复杂性,并显著提高我们的数据管理效率。我们预计在数据提取和摄取开发方面将节省大量时间,让我们的团队能够专注于从数据中获取切实可行的洞察,而不是管理数据的收集。”

Javier Monterrubio,Idealista 数据平台工程师经理

Idealista

Carrier

“在 Carrier,下一代 Amazon SageMaker 正在简化我们构建和扩展数据产品的方式,从而改变我们的企业数据战略。SageMaker 融通式合作开发工作室采用数据发现、处理和模型开发方法,显著加速了我们的湖仓实施。最令人印象深刻的是,它与我们现有的数据目录和内置治理控制措施无缝集成,这样一来,我们就能够在维持安全标准的同时普及数据访问,从而帮助我们的团队在整个企业中快速提供高级分析和人工智能解决方案。”

Carrier

合作伙伴

Tableau

Tableau 可以帮助个人和组织更加以数据为导向。

“Amazon 和 Salesforce Tableau 之间的合作伙伴关系代表着对创新和客户成功的共同承诺。通过 Amazon 全新的零 ETL 集成,我们将 Tableau 的人工智能驱动的数据和分析与 Amazon 强大的数据基础设施相结合,以改变组织从数据中获取见解的方式。这种无缝集成让我们的客户能够利用 Amazon SageMaker Lakehouse 和 Amazon Redshift 的强大功能,从其所有结构化和非结构化数据中获取见解,从而大幅降低工程复杂性并缩短部署时间。Tableau 和 Amazon 正在共同帮助客户加速数字化转型,并大规模提升业务价值。”

Ali Tore,Tableau 高级分析高级副总裁

Tableau

dbt 实验室

dbt Labs 的使命是帮助分析人员创建和传播组织知识。

“长期以来,我们一直采用基于 Amazon Redshift 的转换标准,这项服务提供了灵活性、协作和信任。借助全新的 Amazon SageMaker Lakehouse,我们很高兴能够将这一价值扩展到更多客户和 AWS 环境中的更多数据。现在,客户可以通过 AWS 系统访问其所有数据,包括数据仓库和数据湖。我们很高兴将我们的功能与全新的 Amazon SageMaker 结合使用,从而为我们的共同客户提供治理、编目和数据优化。”

Shawn Toldo,dbt Labs 合作伙伴关系副总裁

dbt 实验室

Informatica

Informatica 是企业人工智能驱动的云数据管理领域的领导者,通过帮助企业实现其最关键资产的变革能力,将数据和人工智能变为现实。

“我们的智能数据管理云(IDMC)平台和 Amazon SageMaker 相辅相成,可以帮助各个组织释放数据潜力、推动创新和提高效率。作为 Amazon SageMaker Lakehouse 的启动合作伙伴,我们很荣幸能提供符合现代化数据驱动型组织高标准的企业级解决方案。再加上 AWS 的基础设施,我们可以更快地做出更明智的决策,从而在各行各业取得有影响力的成果。”

Pratik Parekh,Informatica 产品管理高级副总裁

Informatica