Qu'est-ce que l'Amazon SageMaker Feature Store ?
Fonctionnement
Les avantages du magasin de fonctionnalités de SageMaker
Gestion des fonctionnalités
Traitement et ingestion des fonctionnalités
Vous pouvez ingérer des données dans SageMaker Feature Store provenant de différentes sources, telles que les journaux d’applications et de services, les flux de clics, les capteurs, et des données tabulaires provenant d’Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake et Databricks Delta Lake. À l'aide du traitement des fonctionnalités, vous pouvez spécifier votre source de données par lots et votre fonction de transformation des fonctionnalités (par exemple, le nombre de vues de produits ou les agrégats de fenêtres temporelles) et SageMaker Feature Store transforme les données au moment de leur ingestion en fonctionnalités ML. Avec Amazon SageMaker Data Wrangler, vous pouvez publier des fonctionnalités directement dans SageMaker Feature Store. Avec le connecteur Apache Spark, vous pouvez ingérer par lots un grand volume de données avec une seule ligne de code.
Stockage, catalogue, recherche et réutilisation des fonctions
SageMaker Feature Store identifie et indexe les groupes de fonctionnalités afin qu’ils soient faciles à découvrir via l’interface visuelle d’Amazon SageMaker Studio. La navigation dans le catalogue de caractéristiques permet aux équipes de découvrir des caractéristiques existantes qu'elles peuvent réutiliser en toute confiance et d'éviter la duplication des pipelines. SageMaker Feature Store utilise le catalogue de données AWS Glue par défaut, mais vous permet d’utiliser un autre catalogue si vous le souhaitez. Vous pouvez également interroger les fonctionnalités à l’aide de SQL familier avec Amazon Athena ou un autre outil d’interrogation de votre choix.
Cohérence des fonctionnalités
SageMaker Feature Store prend en charge le stockage hors ligne pour l'entraînement et le stockage en ligne pour l'inférence en temps réel. L'entraînement et l'inférence sont des cas d'utilisation très différents et les exigences de stockage sont différentes pour chacun. Pendant l'entraînement, les modèles utilisent souvent le jeu de données complet et peuvent prendre des heures, tandis que l'inférence doit se faire en quelques millisecondes et utilise généralement un sous-ensemble des données. Utilisé conjointement, SageMaker Feature Store garantit que les jeux de données hors ligne et en ligne restent synchronisés, ce qui est essentiel car s'ils divergent, cela peut avoir un impact négatif sur la précision du modèle.
Voyage dans le temps
Les scientifiques des données peuvent avoir besoin de former des modèles avec l'ensemble exact des valeurs des fonctionnalités d'un moment précis dans le passé sans risquer d'inclure des données créées après ce moment (également appelé fuite de données), comme les données médicales d'un patient avant un diagnostic. L’API hors ligne SageMaker Feature Store prend en charge les requêtes ponctuelles pour récupérer l’état de chaque fonctionnalité au moment historique qui nous intéresse.
Sécurité et gouvernance
Suivi du lignage
Pour permettre la réutilisation des caractéristiques en toute confiance, les scientifiques des données doivent savoir comment les caractéristiques ont été créées et quels modèles et points de terminaison les utilisent. SageMaker Feature Store permet aux scientifiques des données de suivre leurs fonctionnalités dans Amazon SageMaker Studio avec SageMaker Lineage. SageMaker Lineage vous permet de suivre les exécutions planifiées du pipeline, de visualiser le lignage en amont pour retracer les fonctionnalités jusqu'à leurs sources de données et de visualiser le code de traitement des fonctionnalités, le tout dans un seul environnement.
Opérations de ML
Les magasins de caractéristiques sont un élément clé du cycle de vie des MLOps. Ils gèrent les jeux de données et les pipelines de caractéristiques, accélèrent les tâches de science des données et éliminent le travail en double qui consiste en la création des mêmes caractéristiques plusieurs fois. SageMaker Feature Store peut être utilisé comme un service autonome ou avec d'autres services SageMaker de manière intégrée tout au long du cycle de vie des MLOps.
Sécurité et conformité
Pour prendre en charge les besoins en matière de sécurité et de conformité, vous pouvez avoir besoin d'un contrôle granulaire sur la façon dont les caractéristiques de ML partagées sont accessibles. Ces besoins vont souvent au-delà du contrôle d'accès au niveau des tables et des colonnes pour atteindre un contrôle d'accès au niveau des lignes individuelles. Par exemple, vous pouvez vouloir laisser les représentants de compte afficher les lignes d'une table de ventes pour leurs comptes uniquement et masquer le préfixe des données sensibles comme les numéros de carte de crédit. SageMaker Feature Store, associé à AWS Lake Formation, peut être utilisé pour implémenter des contrôles d’accès précis afin de protéger les données du magasin de fonctions et d’accorder l’accès en fonction du rôle.
Ressources pour SageMaker Feature Store
Nouveautés
- Date (de la plus récente à la plus ancienne)