Amazon EMR Studio

Pourquoi choisir EMR Studio ?

EMR Studio est un environnement de développement intégré (IDE) qui permet aux scientifiques et ingénieurs des données de facilement développer, visualiser et déboguer les applications d'ingénierie et de science des données écrites en R, Python, Scala et PySpark.

EMR Studio fournit des Blocs-notes Jupyter entièrement gérés et des outils tels que Spark UI et YARN Timeline Service pour simplifier le débogage. Les scientifiques des données et les analystes peuvent installer des noyaux et des bibliothèques personnalisés, collaborer avec des pairs à l'aide de répertoires de code tels que GitHub et BitBucket, ou exécuter des blocs-notes paramétrés dans le cadre de flux de travail planifiés à l'aide de services d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow.

Les noyaux et applications EMR Studio s’exécutent sur des clusters EMR. Vous bénéficiez ainsi du traitement de données distribué en utilisant l’environnement d’exécution Amazon EMR pour Apache Spark aux performances optimisées. Les administrateurs peuvent configurer EMR Studio pour que les analystes puissent exécuter leurs applications dans les clusters EMR existants ou créer des clusters à l'aide de modèles AWS Cloud Formation prédéfinis pour EMR.

Simple à utiliser

EMR Studio facilite l'interaction avec les applications sur un cluster EMR. Vous pouvez accéder à EMR Studio soit à partir de la console AWS en utilisant l'Authentification AWS IAM, soit sans vous connecter à la console AWS en activant l'accès fédéré à partir de votre fournisseur d'identité (IdP) par le biais d'AWS IAM Identity Center (successeur d'AWS SSO). Vous pouvez explorer, traiter et visualiser les données de manière interactive à l'aide de blocs-notes, créer et planifier des pipelines et déboguer des applications sans vous connecter aux clusters EMR.

Blocs-notes Jupyter entièrement gérés

Blocs-notes Jupyter entièrement gérés

Avec EMR Studio, vous pouvez démarrer des blocs-notes en quelques secondes, vous familiariser avec des blocs-notes types et effectuer votre exploration des données. Vous pouvez collaborer avec vos pairs via la collaboration en temps réel intégrée et suivre les changements sur les versions de bloc-note via les répertoires Git. Vous pouvez également personnaliser votre environnement en chargeant des noyaux et des bibliothèques Python personnalisés à partir des blocs-notes.

Blocs-notes Jupyter entièrement gérés

Applications faciles à créer

EMR Studio vous permet de passer facilement du prototypage à la production. Vous pouvez déclencher des pipelines à partir de répertoires de code, simplement exécuter des Blocs-notes en tant que pipelines à l'aide d'outils d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow, ou attacher des blocs-notes à un cluster plus grand en un seul clic.

Applications faciles à créer

Débogage simplifié

Avec EMR Studio, vous pouvez déboguer des travaux et accéder aux journaux sans vous connecter au cluster pour les clusters actifs et résiliés. Vous pouvez utiliser des interfaces d'application natives telles que Spark UI et YARN Timeline Service directement depuis EMR Studio. EMR Studio vous permet également de localiser rapidement le cluster ou la tâche à déboguer en utilisant des filtres tels que l'état du cluster, le temps de création et l'ID du cluster.

Blocs-notes Jupyter entièrement gérés

Blocs-notes collaboratifs en temps réel

Avec EMR Studio, les scientifiques des données, les ingénieurs et les analystes peuvent collaborer entre équipes, en temps réel. Vous pouvez inviter vos collègues à consulter et à modifier les blocs-notes. Cela permet la co-création en temps réel, le débogage de code et les revues de code des blocs-notes Jupyter.

SQL Explorer

SQL Explorer est une fonction de votre espace de travail EMR Studio qui vous permet de parcourir le catalogue de données et d’exécuter des requêtes SQL sur les clusters EMR depuis EMR Studio. Dans SQL Explorer, vous pouvez vous connecter à Amazon EMR sur les clusters EC2 avec Presto pour voir et parcourir le catalogue de données. SQL Explorer vous fournit également un éditeur pour exécuter des requêtes SQL, visualiser les résultats de la recherche dans un tableau et les télécharger au format csv.

Blocs-notes multilingues

EMR Studio vous permet d'utiliser plusieurs langues dans un seul bloc-notes Jupyter. Vous pouvez basculer entre Python, Scala, SparkSQL et R dans le même bloc-notes Jupyter et partager des données entre les cellules via des tables temporaires. Avec cette fonction, vous pouvez écrire du code dans les langues les mieux adaptées aux différents composants de votre flux de travail.

Blocs-notes Jupyter entièrement gérés

Cas d'utilisation

Avec EMR Studio, vous pouvez démarrer des blocs-notes en quelques secondes, vous familiariser avec des blocs-notes types et effectuer votre exploration des données. Vous pouvez collaborer avec vos pairs via la collaboration en temps réel intégrée et suivre les changements sur les versions de blocs-notes via les référentiels Git. Vous pouvez également personnaliser votre environnement en chargeant des noyaux et des bibliothèques Python personnalisés à partir des blocs-notes.

Dans EMR Studio, vous pouvez utiliser le répertoire de code pour déclencher des pipelines. Vous pouvez également paramétrer et chaîner des blocs-notes pour créer des pipelines. Vous pouvez intégrer des blocs-notes dans des flux de travail planifiés à l'aide de services d'orchestration de flux de travail tels qu'Apache Airflow ou Amazon Managed Workflows for Apache Airflow. EMR Studio vous permet également de rattacher des blocs-notes à un cluster plus grand pour exécuter une tâche.

Dans EMR Studio, vous pouvez déboguer des applications de bloc-notes à partir de l'interface utilisateur du bloc-notes. Vous pouvez également déboguer des pipelines en réduisant d'abord les clusters à l'aide de filtres tels que l'état des clusters, et diagnostiquer les travaux sur les clusters actifs et résiliés avec le moins de clics possible pour ouvrir les interfaces utilisateur de débogage natives telles que Spark UI, Tez UI et Yarn Timeline Service.