- Analytique›
- AWS Glue›
- Fonctionnalités
Fonctionnalités d'AWS Glue
Pourquoi choisir Glue ?
AWS Glue est un service évolutif d’intégration des données sans serveur qui facilite la découverte, la préparation, le déplacement et l’intégration des données depuis des sources multiples pour l’analytique, le machine learning et le développement des applications. Grâce à l'assistance de l'IA générative, AWS Glue fournit toutes les fonctionnalités nécessaires à l'intégration des données, afin que vous puissiez obtenir des informations et exploiter vos données en quelques minutes au lieu de plusieurs mois. Avec AWS Glue, vous n'avez aucune infrastructure à configurer ou à gérer. Vous payez uniquement pour les ressources consommées pendant l'exécution de vos tâches.
Discover
Faire de la recherche et de la découverte dans tous vos jeux de données AWS
Le catalogue de données AWS Glue est votre entrepôt de métadonnées persistant pour toutes vos données, où qu'elles se trouvent. Le catalogue de données contient des définitions de table, des définitions de tâches, des schémas et d'autres informations de contrôle pour vous aider à gérer votre environnement AWS Glue. Il calcule automatiquement les statistiques et enregistre des partitions pour rendre les requêtes dans vos données efficaces et peu coûteuses. Il conserve également un historique complet des versions des schémas pour que vous compreniez comment vos données ont été modifiés dans le temps.
Découverte automatique des schémas
Les crawlers AWS Glue se connectent à votre entrepôt de données sources ou cibles, progressent dans une liste hiérarchique de classificateurs pour déterminer le schéma pour vos données, puis créent les métadonnées dans votre catalogue de données AWS Glue. Les métadonnées sont stockées dans des tables de votre catalogue de données et utilisées dans le processus de création de vos travaux d'extraction, de transformation et de chargement (ETL). Vous pouvez exécuter les crawlers selon un calendrier ou à la demande, ou les déclencher en fonction d'un événement pour vous assurer que vos métadonnées sont à jour.
Gérer et appliquer des schémas pour les flux de données
AWS Glue Schema Registry est une fonctionnalité sans serveur d’AWS Glue qui vous permet de valider et de contrôler l’évolution des streamings de données à l’aide de schémas Apache Avro enregistrés, et ce sans frais supplémentaires. Grâce à des sérialiseurs et des désérialiseurs sous licence Apache, AWS Glue Schema Registry s’intègre aux applications Java développées pour Apache Kafka, Amazon Managed Streaming for Apache Kafka (Amazon MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink et AWS Lambda. Lorsque les applications de données en streaming sont intégrées à AWS Glue Schema Registry, vous pouvez améliorer la qualité des données et vous protéger des modifications inattendues en utilisant les tests de compatibilité qui régissent l'évolution des schémas. De plus, vous pouvez créer ou mettre à jour les tables et les partitions AWS Glue à l'aide des schémas stockés dans le registre.
Mise à l’échelle automatique en fonction de la charge de travail
La fonctionnalité Autoscaling dans AWS Glue, une fonctionnalité sans serveur d'AWS Glue, met à l'échelle dynamiquement les ressources vers le haut et vers le bas en fonction de la charge de travail. Avec Autoscaling, votre travail est affecté à des employés seulement lorsque c'est nécessaire. À mesure que la tâche progresse et qu'il passe par des transformations avancées, AWS Glue ajoute ou supprime des ressources en fonction de sa capacité à répartir la charge de travail. Vous n'avez plus besoin de vous soucier du sur-approvisionnement des ressources, de passer du temps à optimiser le nombre d'employés ou de payer pour des ressources inactives.
Préparation
Dédoubler et nettoyer les données avec le machine learning intégré (ML)
AWS Glue permet de nettoyer et de préparer vos données pour analyse sans que vous deviez devenir un expert en machine learning. Sa fonctionnalité FindMatches déduplique et trouve les enregistrements qui ne correspondent pas entre eux. Par exemple, utilisez l'outil FindMatches pour trouver des archives dupliquées dans votre base de données de restaurants, avec une archive indiquant « Joe's Pizza » au « 121 Main St. » et une autre indiquant « Joseph's Pizzeria » au « 121 Main ». FindMatches vous demandera uniquement de marquer des paires d'archives comme « correspondante » ou « non correspondante ». Le système apprendra alors vos critères pour qualifier une paire d'archives de « correspondante » et créera une tâche ETL que vous pourrez utiliser pour trouver des archives dupliquées dans une base de données ou des archives correspondantes sur deux bases de données.
Modifiez, déboguez et testez le code ETL avec Interactive Sessions
Si vous choisissez de développer interactivement votre code d'extraction, de transport et de chargement (ETL), AWS Glue vous fournit les points de terminaison de développement à modifier, déboguer et tester le code généré pour vous. Vous pouvez utiliser votre environnement de développement intégré (IDE) ou votre ordinateur portable préféré. Vous pouvez développer des lecteurs, enregistreurs ou transformations personnalisés et les importer dans vos tâches AWS Glue ETL sous la forme de bibliothèques personnalisées. Vous pouvez également utiliser et partager du code avec d'autres développeurs dans notre référentiel GitHub. Les sessions interactives d'AWS Glue, une fonctionnalité sans serveur de développement de tâches, permettent de simplifier le développement des tâches d’intégration des données. Les ingénieurs peuvent explorer, expérimenter et traiter les données de manière interactive avec l’IDE ou le bloc-notes de leur choix.
Normaliser les données sans code à l'aide d'une interface visuelle
AWS Glue DataBrew fournit une interface visuelle interactive de type « pointer-cliquer » aux utilisateurs tels que les analystes de données et les scientifiques des données pour nettoyer et normaliser les données sans écrire de code. Vous pouvez facilement visualiser, nettoyer et normaliser des données directement à partir de votre lac de données, de vos entrepôts des données et de vos bases de données, y compris Amazon S3, Amazon Redshift, Amazon Aurora, et Amazon Relational Database Service (Amazon RDS). Vous pouvez choisir parmi plus de 250 transformations intégrées pour combiner, faire pivoter et transposer les données, et automatiser les tâches de préparation des données en appliquant les transformations enregistrées directement aux nouvelles données entrantes.
Définir, détecter et corriger les données sensibles
La détection des données sensibles d'AWS Glue vous permet de définir, identifier et traiter les données sensibles dans votre pipeline de données et votre lac de données. Une fois identifiées les données sensibles, vous pouvez les corriger en supprimant, en remplaçant ou en signalant les données d’identification personnelle (PII) et d’autres types de données jugées sensibles. La détection des données sensibles d'AWS Glue simplifie l’identification et la dissimulation des données sensibles, notamment les données d’identification personnelle telles que le nom, le SSN, l’adresse, l’e-mail et le permis de conduire.
Mettre à l'échelle le code Python existant avec Ray
Les développeurs apprécient Python pour sa facilité d’utilisation et la richesse de sa collection de bibliothèques de traitement de données intégrées. Ils désirent utiliser une structure Python familière pour traiter de larges jeux de données. AWS Glue pour Ray aide les ingénieurs de données à traiter de larges jeux de données avec Python et aux bibliothèques Python populaires. AWS Glue pour Ray exploite Ray.io, un cadre de calcul unifié open source qui permet de mettre à l’échelle les charges de travail Python à partir d’un seul nœud jusqu’à des centaines de nœuds. AWS Glue pour Ray fonctionne sans serveur. Il n'y a donc aucune infrastructure à gérer.
Créer des visuels de transformation personnalisée
AWS Glue vous aide à créer des visuels de transformation personnalisée afin que vous puissiez définir, réutiliser et partager la logique d’ETL. Grâce à AWS Glue Custom Visual Transforms, les ingénieurs de données peuvent rédiger et partager des logiques Apache Spark spécifiques à l’entreprise, ce qui réduit la dépendance en développeurs Spark et simplifie la conservation des tâches d’ETL à jour. Ces transformations sont disponibles pour toutes les tâches de votre compte AWS, visuelles ou codées.
Modernisez les tâches Apache Spark grâce aux mises à niveau GenAI (version préliminaire)
AWS Glue fournit des fonctionnalités d'IA génératives pour analyser automatiquement vos tâches Spark et générer des plans de mise à niveau vers les nouvelles versions. Cela réduit le temps et les efforts nécessaires pour maintenir la modernité, la sécurité et les performances de vos tâches Spark en automatisant l'identification et la mise à jour des scripts et des configurations.
Accélérez le débogage grâce au dépannage de GenAI (version préliminaire)
AWS Glue utilise l'IA générative pour identifier et résoudre rapidement les problèmes liés aux tâches Spark. Il analyse les métadonnées des tâches, les journaux d'exécution et les configurations pour fournir une analyse des causes profondes et des recommandations exploitables, réduisant ainsi le temps de dépannage de plusieurs jours à quelques minutes.
Intégrer
Simplifier le développement des tâches d’intégration des données
Les sessions interactives d'AWS Glue, une fonctionnalité sans serveur de développement de tâches, permettent de simplifier le développement des tâches d’intégration des données. Les sessions interactives d'AWS Glue permettent aux ingénieurs de données d'explorer et préparer les données de manière interactive. Les ingénieurs peuvent explorer, expérimenter et traiter les données de manière interactive avec l’IDE ou le bloc-notes de leur choix.
Blocs-notes de travail intégrés
AWS Glue Studio Job Notebooks fournit des blocs-notes sans serveur avec configuration minimale dans AWS Glue Studio, afin d’aider les développeurs à démarrer rapidement. Avec les carnets de travail AWS Glue Studio, vous avez accès à une interface intégrée pour les sessions interactives AWS Glue dans laquelle vous pouvez enregistrer et planifier le code de votre bloc-notes sous forme de tâches AWS Glue.
Concevoir des canaux ETL complexes avec une planification des tâches simples
Les tâches AWS Glue peuvent être invoquées de manière planifiée, à la demande, ou en fonction d'un événement. Vous pouvez démarrer plusieurs tâches parallèlement ou spécifier des dépendances sur plusieurs tâches pour créer des pipelines ETL complexes. AWS Glue traitera toutes les dépendances inter-tâches, filtrera les données incorrectes et relancera les tâches si elles échouent. Tous les journaux et les notifications sont envoyés vers Amazon CloudWatch pour que vous puissiez surveiller et recevoir des alertes depuis un service central. Amazon Managed Workflows for Apache Airflow (MWAA) est un service géré pour Apache Airflow qui vous permet d’utiliser votre plateforme Apache Airflow actuelle et familière pour orchestrer vos flux de travail. Grâce à MWAA, vous pouvez orchestrer plusieurs processus ETL utilisant diverses technologies dans le cadre d’un flux de travail ETL complexe.
Application et déploiement des bonnes pratiques DevOps avec intégration de Git
AWS Glue s'intègre à Git, un système de contrôle de version open source très répandu. Vous pouvez utiliser GitHub et AWS CodeCommit pour conserver un historique des modifications apportées à vos tâches AWS Glue et appliquer les pratiques DevOps existantes pour les déployer. L'intégration de Git dans AWS Glue fonctionne pour tous les types de tâches AWS Glue, qu'elles soient visuelles ou sous forme de code. Elle comprend une intégration préinstallée avec GitHub et AWS CodeCommit et simplifie également le recours à des outils d’automatisation comme Jenkins et AWS CodeDeploy pour déployer les tâches AWS Glue.
Réduction des coûts pour les charges de travail non urgentes
AWS Glue Flex est une catégorie de tâches d'exécution flexibles qui vous permet de réduire jusqu'à 35 % le coût d'intégration des données de vos charges de travail non urgentes (ex : tâches de pré-production, test, chargement de données, etc.). AWS Glue a deux catégories de tâches d'exécution : standard et flexible. La catégorie d'exécution standard est idéale pour les charges de travail urgentes qui nécessitent un lancement rapide des tâches ainsi que des ressources dédiées. AWS Glue Flex est approprié pour les tâches sans exigences de durée de complétion dont la durée de lancement et d'achèvement peut varier.
Lire, ajouter, mettre à jour et supprimer des fichiers dans votre lac de données
AWS Glue prend nativement en charge trois cadres, dont Apache Hudi, Apache Iceberg et Linux Foundation Delta Lake. Ces cadres vous aident à gérer des données à l’aide de méthodes transactionnelles cohérentes à utiliser dans votre lac de données basé sur Amazon S3.
Fournissez des données de haute qualité au sein de vos lacs de données et pipelines
La qualité des données d’AWS Glue vous aide à améliorer la qualité et la fiabilité de vos données. Elle mesure, surveille et gère automatiquement la qualité des données dans vos lacs de données et vos pipelines. Il calcule aussi automatiquement des statistiques, recommande des règles de qualité, surveille et vous alerte lorsque la qualité se détériore, ce qui facilite l'identification des données manquantes, périmées ou mauvaises avant qu'elles n'aient un impact sur votre activité.
Contrôler finement l’accès à votre lac de données
AWS Glue 5.0 et versions ultérieures simplifient la sécurité et la gouvernance des lacs de données transactionnels en fournissant des contrôles d’accès au niveau des tables, des colonnes et des lignes avec vos tâches Apache Spark accédant aux tables Apache Iceberg, Apache Hudi et Delta.
Transformation
Transformer visuellement les données avec une interface glisser-déposer
AWS Glue Studio vous permet de créer des tâches ETL hautement scalables dédiées au traitement distribué sans que vous n'ayez besoin de devenir un expert Apache Spark. Définissez votre processus ETL dans l'éditeur de tâches glisser-déposer et AWS Glue génère automatiquement le code pour extraire, transformer et charger vos données. Le code est généré en langage Scala ou Python et écrit pour l'environnement Apache Spark.
Générer du code ETL avec Amazon Q Data Integration
Créez des tâches ETL en langage naturel avec Amazon Q Data Integration dans AWS Glue. Décrivez simplement vos besoins en matière de transformation des données et obtenez du code Apache Spark généré automatiquement que vous pouvez personnaliser, tester et déployer en tant que tâches de production.
Nettoyer et transformer les données en streaming en vol
Les tâches ETL de streaming sans serveur dans AWS Glue consomment en continu des données provenant des sources de données de streaming, dont Amazon Kinesis et Amazon MSK, nettoient et transforment ces données en transit et les rendent disponibles à l'analyse en quelques secondes dans votre banque de données cible. Utilisez cette fonctionnalité pour traiter les données d'événements comme les flux d'événements IoT, les parcours de navigation et les journaux de réseau. Les tâches ETL de streaming AWS Glue peuvent enrichir et regrouper des données, associer un lot et des sources de streaming, et exécuter diverses opérations analytiques et d’apprentissages automatiques complexes.
Optimize
Optimisation des tables Apache Iceberg
Le Catalogue de données AWS Glue prend en charge l’optimisation des tables Apache Iceberg.
Compactage
Le Catalogue de données AWS Glue prend en charge le compactage des données, qui permet de compacter de petits fichiers de données afin de réduire l’utilisation du stockage et d’améliorer les performances de lecture.
Conservation des instantanés
Le Catalogue de données AWS Glue prend en charge un optimiseur de conservation des instantanés qui peut aider à gérer les frais de stockage en ne conservant que les instantanés nécessaires et en supprimant les anciens instantanés inutiles et les fichiers sous-jacents associés.
Suppression de fichiers non référencés
Le Catalogue de données AWS Glue permet d’identifier et de supprimer périodiquement les fichiers non référencés inutiles, libérant ainsi de l’espace de stockage.
Statistiques d’Apache Iceberg
Le Catalogue de données AWS Glue prend en charge le calcul et la mise à jour du nombre de valeurs distinctes (NDVs) pour chaque colonne des tables Iceberg, ce qui améliore l’optimisation des requêtes, la gestion des données et l’efficacité des performances pour les ingénieurs des données et les scientifiques travaillant avec des jeux de données à grande échelle.
Optimisation des performances des requêtes pour les tables du Catalogue de données Glue
Le Catalogue de données AWS Glue prend en charge les statistiques au niveau des colonnes dans des formats de données tels que Parquet, ORC, JSON, ION, CSV et XML. Les services analytiques AWS tels qu’Amazon Redshift et Amazon Athena peuvent utiliser ces colonnes statistiques pour générer des plans d’exécution des requêtes et choisir le plan optimal qui améliore les performances des requêtes.