Apache Spark no Amazon EMR
Por que usar o Apache Spark no EMR?
O Amazon EMR é o melhor local para executar o Apache Spark. É possível criar clusters gerenciados do Spark com rapidez e facilidade no Console de gerenciamento da AWS, na AWS CLI ou com a API do Amazon EMR. Além disso, você pode utilizar recursos adicionais do Amazon EMR, incluindo a conectividade rápida do Amazon S3 usando o Amazon EMR File System (EMRFS), a integração com o mercado spot do Amazon EC2, o Catálogo de Dados do AWS Glue e o Ajuste de Escala Gerenciado do EMR para adicionar ou remover instâncias do seu cluster. O AWS Lake Formation oferece controle de acesso refinado, enquanto a integração com o AWS Step Functions ajuda a orquestrar pipelines de dados. O EMR Studio (demonstração) é um ambiente de desenvolvimento integrado (IDE) que torna fácil para cientistas e engenheiros de dados desenvolverem, visualizarem e depurarem aplicações de engenharia de dados e ciência de dados escritas em R, Python, Scala e PySpark. O EMR Studio oferece Notebooks Jupyter totalmente gerenciados e ferramentas como Spark UI e YARN Timeline Service para simplificar a depuração. Usando Cadernos do EMR, é fácil experimentar e criar aplicações com o Spark. Se preferir, você pode usar o Apache Zeppelin para criar cadernos interativos e colaborativos para explorar dados usando o Spark.
Atributos e benefícios
Casos de uso
Histórias de sucesso de clientes
-
Yelp
A equipe de direcionamento de anúncios da Yelp cria modelos de previsão para determinar a probabilidade de um usuário interagir com o anúncio. Ao usar o Apache Spark no Amazon EMR para processar grandes volumes de dados para o treinamento de modelos de Machine Learning, a Yelp aumenta a receita e a taxa de cliques de anúncios.
-
The Washington Post
O Washington Post usa o Apache Spark no Amazon EMR para criar modelos que alimentem seu mecanismo de recomendação de sites para aumentar o engajamento e a satisfação do leitor. Eles utilizam a conectividade de boa performance do Amazon EMR com o Amazon S3 para atualizar modelos praticamente em tempo real.
-
Krux
Como parte da sua plataforma de gerenciamento de dados para obter insights do cliente, a Krux executa muitas cargas de trabalho de machine learning e processamento geral usando o Apache Spark. A Krux usa clusters temporários do Amazon EMR com capacidade spot do Amazon EC2 para economizar custos, além de utilizar o Amazon S3 com o EMRFS como uma camada de dados para o Apache Spark.
-
GumGum
A GumGum, uma plataforma de anúncios em imagens e telas, usa o Spark no Amazon EMR para previsão de inventário, processamento de logs de clickstreams e análise ad hoc de dados não estruturados no Amazon S3. As melhorias no desempenho do Spark economizaram para a GumGum tempo e dinheiro que seriam gastos nessas cargas de trabalho.
-
Hearst Corporation
A Corporação Hearst, uma grande empresa de mídia e informações diversificadas, tem clientes visualizando conteúdo em mais de 200 propriedades da web. Ao usar o Apache Spark Streaming no Amazon EMR, a equipe editorial da Hearst consegue controlar em tempo real quais artigos estão apresentando bom desempenho e quais temas são os assuntos do momento.
-
CrowdStrike
A CrowdStrike disponibiliza proteção de endpoint para eliminar violações. Eles usam o Amazon EMR com Spark para processar centenas de terabytes de dados de evento, que são compilados em descrições comportamentais de nível superior nos hosts. Por meio desses dados, a CrowdStrike pode extrair dados de evento em conjunto e identificar a presença de atividades maliciosas.