Amazon SageMaker Feature Store

Un service entièrement géré pour les fonctionnalités de machine learning

Qu'est-ce que l'Amazon SageMaker Feature Store ?

Amazon SageMaker Feature Store est un référentiel entièrement géré et spécialement conçu pour stocker, partager et gérer les caractéristiques de modèle de machine learning (ML). Les caractéristiques sont les entrées des modèles ML utilisées pendant l'entraînement et l'inférence. Par exemple, dans une application qui recommande une liste de lecture musicale, les caractéristiques pourraient inclure le classement des chansons, les chansons qui ont été écoutées précédemment et leur durée d'écoute. Les caractéristiques sont utilisées de manière répétée par plusieurs équipes et la qualité des caractéristiques est essentielle pour garantir un modèle très précis. De plus, lorsque les caractéristiques utilisées pour former des modèles hors ligne par lots sont mises à disposition pour l'inférence en temps réel, il est difficile de garder les deux magasins de caractéristiques synchronisés. SageMaker Feature Store fournit un magasin sécurisé et unifié pour traiter, normaliser et utiliser les fonctionnalités à l'échelle tout au long du cycle de vie du machine learning.

Fonctionnement

Fonctionnement : Amazon SageMaker Feature Store

Les avantages du magasin de fonctionnalités de SageMaker

Stockez, partagez et gérez les caractéristiques des modèles de ML pour l'entraînement et l'inférence afin de promouvoir la réutilisation des caractéristiques dans les applications de ML
Ingérez des caractéristiques à partir de n'importe quelle source de données, y compris les flux et les lots, tels que les journaux d'applications, les journaux de services, les flux de clics, les capteurs et les données tabulaires provenant d'AWS ou de sources de données tierces
Transformez les données en fonctionnalités de machine learning et créez des pipelines de fonctionnalités qui soutiennent les pratiques MLOps et accélèrent le déploiement des modèles

Gestion des fonctionnalités

Traitement et ingestion des fonctionnalités

Vous pouvez ingérer des données dans SageMaker Feature Store provenant de différentes sources, telles que les journaux d’applications et de services, les flux de clics, les capteurs, et des données tabulaires provenant d’Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake et Databricks Delta Lake. À l'aide du traitement des fonctionnalités, vous pouvez spécifier votre source de données par lots et votre fonction de transformation des fonctionnalités (par exemple, le nombre de vues de produits ou les agrégats de fenêtres temporelles) et SageMaker Feature Store transforme les données au moment de leur ingestion en fonctionnalités ML. Avec Amazon SageMaker Data Wrangler, vous pouvez publier des fonctionnalités directement dans SageMaker Feature Store. Avec le connecteur Apache Spark, vous pouvez ingérer par lots un grand volume de données avec une seule ligne de code.

Capture d’écran de

Stockage, catalogue, recherche et réutilisation des fonctions

SageMaker Feature Store identifie et indexe les groupes de fonctionnalités afin qu’ils soient faciles à découvrir via l’interface visuelle d’Amazon SageMaker Studio. La navigation dans le catalogue de caractéristiques permet aux équipes de découvrir des caractéristiques existantes qu'elles peuvent réutiliser en toute confiance et d'éviter la duplication des pipelines. SageMaker Feature Store utilise le catalogue de données AWS Glue par défaut, mais vous permet d’utiliser un autre catalogue si vous le souhaitez. Vous pouvez également interroger les fonctionnalités à l’aide de SQL familier avec Amazon Athena ou un autre outil d’interrogation de votre choix.

L’image représente le catalogue des groupes de fonctionnalités

Cohérence des fonctionnalités

SageMaker Feature Store prend en charge le stockage hors ligne pour l'entraînement et le stockage en ligne pour l'inférence en temps réel. L'entraînement et l'inférence sont des cas d'utilisation très différents et les exigences de stockage sont différentes pour chacun. Pendant l'entraînement, les modèles utilisent souvent le jeu de données complet et peuvent prendre des heures, tandis que l'inférence doit se faire en quelques millisecondes et utilise généralement un sous-ensemble des données. Utilisé conjointement, SageMaker Feature Store garantit que les jeux de données hors ligne et en ligne restent synchronisés, ce qui est essentiel car s'ils divergent, cela peut avoir un impact négatif sur la précision du modèle.

L’image illustre la création d’un groupe de fonctionnalités

Voyage dans le temps

Les scientifiques des données peuvent avoir besoin de former des modèles avec l'ensemble exact des valeurs des fonctionnalités d'un moment précis dans le passé sans risquer d'inclure des données créées après ce moment (également appelé fuite de données), comme les données médicales d'un patient avant un diagnostic. L’API hors ligne SageMaker Feature Store prend en charge les requêtes ponctuelles pour récupérer l’état de chaque fonctionnalité au moment historique qui nous intéresse.  

L’image montre le flux des requêtes de l’API hors ligne Feature Store pour récupérer l’état de chaque fonctionnalité au moment historique qui vous intéresse

Sécurité et gouvernance

Suivi du lignage

Pour permettre la réutilisation des caractéristiques en toute confiance, les scientifiques des données doivent savoir comment les caractéristiques ont été créées et quels modèles et points de terminaison les utilisent. SageMaker Feature Store permet aux scientifiques des données de suivre leurs fonctionnalités dans Amazon SageMaker Studio avec SageMaker Lineage. SageMaker Lineage vous permet de suivre les exécutions planifiées du pipeline, de visualiser le lignage en amont pour retracer les fonctionnalités jusqu'à leurs sources de données et de visualiser le code de traitement des fonctionnalités, le tout dans un seul environnement.

L’image montre la généalogie d’un groupe de fonctionnalités dans SageMaker Studio

Opérations de ML

Les magasins de caractéristiques sont un élément clé du cycle de vie des MLOps. Ils gèrent les jeux de données et les pipelines de caractéristiques, accélèrent les tâches de science des données et éliminent le travail en double qui consiste en la création des mêmes caractéristiques plusieurs fois. SageMaker Feature Store peut être utilisé comme un service autonome ou avec d'autres services SageMaker de manière intégrée tout au long du cycle de vie des MLOps.

Sécurité et conformité

Pour prendre en charge les besoins en matière de sécurité et de conformité, vous pouvez avoir besoin d'un contrôle granulaire sur la façon dont les caractéristiques de ML partagées sont accessibles. Ces besoins vont souvent au-delà du contrôle d'accès au niveau des tables et des colonnes pour atteindre un contrôle d'accès au niveau des lignes individuelles. Par exemple, vous pouvez vouloir laisser les représentants de compte afficher les lignes d'une table de ventes pour leurs comptes uniquement et masquer le préfixe des données sensibles comme les numéros de carte de crédit. SageMaker Feature Store, associé à AWS Lake Formation, peut être utilisé pour implémenter des contrôles d’accès précis afin de protéger les données du magasin de fonctions et d’accorder l’accès en fonction du rôle.

L’image montre comment SageMaker Feature Store et AWS Lake Formation peuvent être utilisés pour mettre en œuvre des contrôles d’accès précis

Nouveautés

  • Date (de la plus récente à la plus ancienne)
Aucun résultat correspondant
1