Amazon EMR Studio
Pourquoi choisir EMR Studio ?
EMR Studio est un environnement de développement intégré (IDE) qui permet aux scientifiques et ingénieurs des données de facilement développer, visualiser et déboguer les applications d'ingénierie et de science des données écrites en R, Python, Scala et PySpark.
EMR Studio fournit des Blocs-notes Jupyter entièrement gérés et des outils tels que Spark UI et YARN Timeline Service pour simplifier le débogage. Les scientifiques des données et les analystes peuvent installer des noyaux et des bibliothèques personnalisés, collaborer avec des pairs à l'aide de répertoires de code tels que GitHub et BitBucket, ou exécuter des blocs-notes paramétrés dans le cadre de flux de travail planifiés à l'aide de services d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow.
Les noyaux et applications EMR Studio s’exécutent sur des clusters EMR. Vous bénéficiez ainsi du traitement de données distribué en utilisant l’environnement d’exécution Amazon EMR pour Apache Spark aux performances optimisées. Les administrateurs peuvent configurer EMR Studio pour que les analystes puissent exécuter leurs applications dans les clusters EMR existants ou créer des clusters à l'aide de modèles AWS Cloud Formation prédéfinis pour EMR.
Simple à utiliser
EMR Studio facilite l'interaction avec les applications sur un cluster EMR. Vous pouvez accéder à EMR Studio soit à partir de la console AWS en utilisant l'Authentification AWS IAM, soit sans vous connecter à la console AWS en activant l'accès fédéré à partir de votre fournisseur d'identité (IdP) par le biais d'AWS IAM Identity Center (successeur d'AWS SSO). Vous pouvez explorer, traiter et visualiser les données de manière interactive à l'aide de blocs-notes, créer et planifier des pipelines et déboguer des applications sans vous connecter aux clusters EMR.
Blocs-notes Jupyter entièrement gérés
Avec EMR Studio, vous pouvez démarrer des blocs-notes en quelques secondes, vous familiariser avec des blocs-notes types et effectuer votre exploration des données. Vous pouvez collaborer avec vos pairs via la collaboration en temps réel intégrée et suivre les changements sur les versions de bloc-note via les répertoires Git. Vous pouvez également personnaliser votre environnement en chargeant des noyaux et des bibliothèques Python personnalisés à partir des blocs-notes.
Applications faciles à créer
EMR Studio vous permet de passer facilement du prototypage à la production. Vous pouvez déclencher des pipelines à partir de répertoires de code, simplement exécuter des Blocs-notes en tant que pipelines à l'aide d'outils d'orchestration comme Apache Airflow ou Amazon Managed Workflows for Apache Airflow, ou attacher des blocs-notes à un cluster plus grand en un seul clic.
Débogage simplifié
Avec EMR Studio, vous pouvez déboguer des travaux et accéder aux journaux sans vous connecter au cluster pour les clusters actifs et résiliés. Vous pouvez utiliser des interfaces d'application natives telles que Spark UI et YARN Timeline Service directement depuis EMR Studio. EMR Studio vous permet également de localiser rapidement le cluster ou la tâche à déboguer en utilisant des filtres tels que l'état du cluster, le temps de création et l'ID du cluster.
Blocs-notes collaboratifs en temps réel
Avec EMR Studio, les scientifiques des données, les ingénieurs et les analystes peuvent collaborer entre équipes, en temps réel. Vous pouvez inviter vos collègues à consulter et à modifier les blocs-notes. Cela permet la co-création en temps réel, le débogage de code et les revues de code des blocs-notes Jupyter.
SQL Explorer
SQL Explorer est une fonction de votre espace de travail EMR Studio qui vous permet de parcourir le catalogue de données et d’exécuter des requêtes SQL sur les clusters EMR depuis EMR Studio. Dans SQL Explorer, vous pouvez vous connecter à Amazon EMR sur les clusters EC2 avec Presto pour voir et parcourir le catalogue de données. SQL Explorer vous fournit également un éditeur pour exécuter des requêtes SQL, visualiser les résultats de la recherche dans un tableau et les télécharger au format csv.
Blocs-notes multilingues
EMR Studio vous permet d'utiliser plusieurs langues dans un seul bloc-notes Jupyter. Vous pouvez basculer entre Python, Scala, SparkSQL et R dans le même bloc-notes Jupyter et partager des données entre les cellules via des tables temporaires. Avec cette fonction, vous pouvez écrire du code dans les langues les mieux adaptées aux différents composants de votre flux de travail.