¿Qué es SageMaker Lakehouse?

Almacén de lago de Amazon SageMaker unifica todos los datos en los lagos de datos de Amazon Simple Storage Service (Amazon S3), incluidas las tablas de S3, y los almacenes de datos de Amazon Redshift, lo que ayuda a crear potentes aplicaciones de análisis e IA/ML en una sola copia de los datos. SageMaker Lakehouse brinda la flexibilidad de acceder a los datos y consultarlos in situ con todas las herramientas y los motores compatibles con Apache Iceberg. Proteja sus datos en un depósito mediante la definición de permisos detallados que se aplican en todas las herramientas y los motores de análisis y machine learning (ML). Lleve los datos de las bases de datos y aplicaciones operativas a lakehouse casi en tiempo real mediante integraciones sin ETL. Además, acceda y consulte los datos en el lugar con capacidades de consulta federadas en orígenes de datos de terceros.

Vea en acción

Descubra cómo puede acceder a los datos unificados desde los lagos de datos de S3, las tablas de S3 y los almacenes de datos de Redshift en Almacén de lago de SageMaker.

pequeña imagen de almacén de lago sagemaker

Beneficios

Unifique todos sus datos en los lagos de datos de Amazon S3, inclusive S3 Tables, y los almacenes de datos de Amazon Redshift con Almacén de lago de SageMaker. Reúna sus datos de bases de datos y aplicaciones operativas en el lakehouse casi en tiempo real mediante integraciones sin ETL. Puede usar cientos de conectores para integrar datos de varias fuentes. Además, puede acceder a los datos y consultarlos en el lugar con las capacidades de consulta federadas en los orígenes de datos de terceros.
Use sus herramientas y motores preferidos, compatibles con el estándar abierto de Apache Iceberg. Obtenga la flexibilidad de acceder a sus datos y consultarlos en el lugar con todas las herramientas compatibles con Apache Iceberg en una sola copia de los datos. Compatible con la especificación del catálogo de REST de Iceberg, SageMaker Lakehouse le permite utilizar las herramientas y los motores de análisis que prefiera, como SQL, Apache Spark, inteligencia empresarial (BI) y herramientas de IA y ML, y colaborar con los datos guardados en el almacenamiento de datos de Amazon Redshift y los lagos de datos de Amazon S3. SageMaker Lakehouse trabaja con su arquitectura de datos existente, permitiéndole usar sus formatos de almacenamiento y motores de consulta preferidos, compatibles con Apache Iceberg.
Proteja sus datos con controles de acceso detallados e integrados que se aplican a todos sus datos en todas las herramientas y motores de análisis. Defina los permisos una vez y comparta datos con confianza en toda su organización.

Casos de uso

Unifique todos sus datos en los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift para sus iniciativas de análisis e IA con una sola copia de los datos. Con los controles de acceso integrados, Almacén de lago de SageMaker permite definir permisos detallados y compartir de forma segura una única copia de los datos en toda la organización.
Acceda a datos casi en tiempo real en las bases de datos y aplicaciones operativas de SageMaker Lakehouse mediante integraciones sin ETL. Acceda a sus datos y consúltelos en el lugar, desde una amplia gama de servicios de AWS y herramientas y motores de código abierto y de terceros compatibles con Apache Iceberg.
Reúna los datos existentes de varios almacenes de datos de Amazon Redshift en Almacén de lago de SageMaker para consultar y unir los datos almacenados en grupos de trabajo y clústeres de Amazon Redshift. Amplíe sus cargas de trabajo para los procesos de extracción, transformación y carga (ETL), los informes de BI y el análisis según sea necesario sin administrar varios recursos compartidos de datos.

Clientes

Lennar

“Hemos pasado los últimos 18 meses trabajando con AWS para transformar nuestra base de datos y utilizar las mejores soluciones de su clase, que además son rentables. Con avances como Amazon SageMaker Unified Studio y Almacén de lago de Amazon SageMaker, esperamos acelerar nuestra velocidad de entrega mediante un acceso sin interrupciones a los datos y los servicios, lo que permitirá a nuestros ingenieros, analistas y científicos obtener información que aporte un valor importante a nuestro negocio”.

Lee Slezak, vicepresidente sénior de datos y análisis en Lennar

Roche

Roche es un pionero global en productos farmacéuticos y diagnósticos que se enfoca en hacer avanzar la ciencia para mejorar las vidas de las personas.

“Hemos estado usando Amazon Redshift para obtener información sobre los datos estructurados y semiestructurados de todos nuestros repositorios de datos. El nuevo Amazon SageMaker Lakehouse me entusiasma por su potencial para mejorar y unificar el acceso a los lagos de datos y a otros orígenes de datos con servicios como Amazon Redshift, AWS Glue Data Catalog y AWS Lake Formation. Esta innovación permitirá a nuestros equipos de datos e ingeniería simplificar el acceso a los datos, lo que promoverá la interoperabilidad entre las cargas de trabajo de datos, análisis y aplicaciones. Preveo una reducción notable de los errores de datos mediante una menor copia de datos, una disminución del 40 % en el tiempo de procesamiento, una reescritura más rápida del análisis de los datos en los sistemas transaccionales para mejorar la toma de decisiones, y la posibilidad de que nuestros equipos se centren en crear valor empresarial”.

Yannick Misteli, jefe de ingeniería de estrategia global de productos de Roche

Roche

Idealista

Idealista apoya a agentes inmobiliarios y particulares en todo el sur de Europa al proporcionar una plataforma de anuncios clasificados inmobiliarios en línea.

“Nuestro objetivo es agilizar el acceso a los datos de Salesforce para mejorar el análisis en nuestro lago de datos. Al aprovechar la nueva característica de compatibilidad del Almacén de lago de Amazon SageMaker para integraciones sin ETL desde las aplicaciones, podemos simplificar los procesos de extracción e ingesta de datos, eliminando la necesidad de varios ETL para acceder directamente a Salesforce. Este enfoque centralizado reduce la complejidad y mejora significativamente la eficiencia de la administración de datos. Prevemos un ahorro de tiempo significativo en el desarrollo de la extracción e ingesta de datos, lo que permitirá a nuestro equipo enfocarse en obtener información útil a partir de nuestros datos en lugar de administrar la recopilación”.

Javier Monterrubio, gerente de ingeniería de plataformas de datos, Idealista

Idealista

Carrier

“En Carrier, la próxima generación de Amazon SageMaker transforma nuestra estrategia de datos empresariales al simplificar la forma en que creamos y escalamos los productos de datos. El enfoque de SageMaker Unified Studio para la detección, el procesamiento y el desarrollo de modelos de datos ha acelerado de forma considerable nuestra implementación de almacenes de lagos. Lo más impresionante es que su integración perfecta con nuestro catálogo de datos existente y los controles de gobernanza integrados nos permite democratizar el acceso a los datos, al mismo tiempo que mantenemos los estándares de seguridad, lo que ayuda a nuestros equipos a ofrecer rápidamente soluciones avanzadas de análisis e IA en toda la empresa”.

Carrier

Socios

Tableau

Tableau ayuda a las personas y las organizaciones a centrarse más en los datos.

“La asociación entre Amazon y Salesforce Tableau representa un compromiso compartido con la innovación y el éxito de los clientes. A través de la nueva integración sin ETL de Amazon, combinamos los datos y el análisis basados en la inteligencia artificial de Tableau con la potente infraestructura de datos de Amazon para transformar la forma en que las organizaciones obtienen información de sus datos. Esta integración perfecta permite a nuestros clientes obtener información de todos sus datos estructurados y no estructurados utilizando la potencia de Amazon SageMaker Lakehouse y Amazon Redshift, lo que reduce drásticamente la complejidad de la ingeniería y el tiempo de implementación. Juntos, Tableau y Amazon ayudan a los clientes a acelerar la transformación digital e impulsar el valor empresarial a escala”.

Ali Tore, vicepresidente sénior de análisis avanzados de Tableau

Tableau

dbt Labs

dbt Labs tiene la misión de ayudar a los analistas a crear y difundir el conocimiento organizacional.

“Durante mucho tiempo, hemos sido el estándar de transformación además de Amazon Redshift, ya que ofrecemos flexibilidad, colaboración y confianza. Con el nuevo Amazon SageMaker Lakehouse, nos complace extender este valor a más clientes e incluso a más datos en el entorno de AWS. Ahora, los clientes pueden acceder a todos sus datos en el sistema de AWS, incluidos los almacenes de datos y los lagos de datos. Nos entusiasma unir nuestras capacidades con el nuevo Amazon SageMaker para ofrecer optimización de datos, catalogación y gobernanza a nuestros clientes en común”.

Shawn Toldo, vicepresidente de asociaciones, dbt Labs

dbt Labs

Informatica

Informatica, líder en la gestión de datos en la nube basada en la IA empresarial, da vida a los datos y la IA al permitir a las empresas aprovechar el poder transformador de sus activos más críticos.

“Nuestra plataforma Intelligent Data Management Cloud (IDMC) y Amazon SageMaker ayudan a las organizaciones a aprovechar el potencial de los datos e impulsar la innovación y la eficiencia. Como socio de lanzamiento de Amazon SageMaker Lakehouse, nos enorgullece ofrecer una solución de nivel empresarial que cumple con los altos estándares de las organizaciones modernas basadas en datos. Junto con la infraestructura de AWS, logramos tomas de decisiones más rápidas e informadas para obtener resultados impactantes en todos los sectores”.

Pratik Parekh, vicepresidente sénior de gestión de productos de Informatica

Informatica