O AWS Glue está acessível na próxima geração do Amazon SageMaker

AWS Glue

Descubra, prepare e integre todos os seus dados em qualquer escala

Comece a usar o AWS Glue

Saiba mais sobre a integração de dados da AWS

O que é o AWS Glue?

Preparar seus dados para obter resultados de qualidade é a primeira etapa de um projeto de análise ou ML. O AWS Glue é um serviço de integração de dados com tecnologia sem servidor que torna a preparação de dados mais simples, rápida e barata. Você pode descobrir e se conectar a mais de cem fontes de dados diversas, gerenciar seus dados em um catálogo de dados centralizado e criar, executar e monitorar visualmente pipelines ETL para carregar dados em seus data lakes. Com recursos integrados de IA generativa, você pode modernizar as tarefas do Spark e desenvolver mais rapidamente com assistência inteligente para criação de ETL e solução de problemas do Spark.

Introduction to AWS Glue (01:54)

Benefícios do AWS Glue

Suporta todas as workloads

Suporte flexível para ETL, ELT, batch, streaming e muito mais, sem bloqueio

Escale sob demanda

Escala de petabytes, cobrança conforme o uso, qualquer tamanho de dados

Ferramentas personalizadas

Ofereça suporte a todos os usuários de dados, de desenvolvedores a usuários corporativos

Assistência com IA generativa

Obtenha ajuda com IA em toda a sua jornada de integração de dados, desde a geração automática de código ETL até a modernização dos trabalhos no Spark. O AWS Glue fornece geração inteligente de código, atualizações do Spark assistidas por IA (versão de demonstração) e solução de problemas integrada do Spark (versão de demonstração).

Tudo em um

Recursos completos de integração de dados em um serviço sem servidor

Como funciona

O AWS Glue é um serviço de integração de dados com tecnologia sem servidor que facilita a descoberta, preparação, movimentação e integração de dados de várias fontes para análise, machine learning (ML) e desenvolvimento de aplicações.

Opções de mecanismo de integração de dados
ETL orientado por eventos
Catálogo de Dados do AWS Glue
Trabalhos de ETL sem código
Gerencie e monitore a qualidade dos dados
Preparação dos dados

Opções de mecanismo de integração de dados
Escolha seu mecanismo de integração de dados preferido no AWS Glue para atender aos seus usuários e workloads.

O diagrama mostra como os usuários do AWS Glue podem escolher as opções na interface para criar workloads de trabalhos usando vários mecanismos de integração de dados. Tela com quatro seções: uma à esquerda, duas no meio e uma à direita.

A primeira seção à esquerda é chamada “Data sources” (Fontes de dados). Ela inclui as seguintes fontes de dados: “Amazon S3”, “Amazon DynamoDB”, “bancos de dados executados no Amazon EC2”, “bancos de dados” e “SaaS.”

Na primeira seção, aparece uma seta que aponta para a seção do meio na parte superior do diagrama chamada "Choice of interfaces" (Opções de interfaces). Há três itens nessa segunda seção: “AWS Glue Studio”, “notebooks do Amazon SageMaker” e “notebooks e IDEs”.

Abaixo dessa segunda seção, há o seguinte texto: “Open interfaces support interactive and job workloads.” (Interfaces abertas oferecem suporte a workloads interativas e de trabalhos.) Esse texto mostra uma seta apontada para a segunda seção descrita antes, acima dele, e uma seta apontada para a terceira seção, abaixo dele.

Essa terceira seção é chamada “Data integration engines” (Mecanismos de integração de dados). O texto é: “Choose a preferred serverless, scalable data processing engine with automatic scaling and pay-as-you-go pricing.” (Escolha um mecanismo de processamento de dados escalável com tecnologia sem servidor de sua preferência com escalabilidade e automática e preço conforme o uso.) Essa seção inclui três nomes de mecanismos: “AWS Glue para Ray”, “AWS Glue para Python Shell” e “AWS Glue para Apache Spark”.

A quarta seção aparece à direita da segunda seção, com uma seta apontada da segunda para a quarta seção. A quarta seção tem este texto: “Create and load data into data lakes and data warehouses.” (Crie e carregue dados nos data lakes e data warehouses.) Essa seção também inclui três itens: “Amazon Redshift”, “data lakes” e “data warehouses”.

Clique para aumentar
ETL orientado por eventos
O AWS Glue pode executar seus trabalhos de extração, transformação e carregamento (ETL) à medida que chegam novos dados. Por exemplo, é possível configurar o AWS Glue para iniciar trabalhos de ETL a serem executados assim que novos dados estão disponíveis no Amazon Simple Storage Service (S3).
Catálogo de Dados do AWS Glue
Você pode usar o catálogo de dados para descobrir e pesquisar rapidamente diversos conjuntos de dados da AWS sem mover os dados. Quando são catalogados, os dados são disponibilizados imediatamente para pesquisa e consulta por meio do Amazon Athena, do Amazon EMR e do Amazon Redshift Spectrum.
Trabalhos de ETL sem código
O AWS Glue Studio torna mais fácil criar, executar e monitorar visualmente os trabalhos ETL do AWS Glue. Você pode criar trabalhos ETL que migram e transformam os dados usando um editor do tipo arrastar e soltar, e o AWS Glue gera automaticamente o código.
Gerencie e monitore a qualidade dos dados
A Qualidade de dados do AWS Glue automatiza a criação, o gerenciamento e o monitoramento de regras de qualidade de dados para ajudar a garantir dados de alta qualidade nos data lakes e pipelines.

O diagrama mostra como é possível usar a Qualidade de dados do AWS Glue para criar recomendações de regras, monitorar a qualidade dos dados e enviar alertas quando há deterioração na qualidade. Três seções são exibidas, da esquerda para a direita.

A primeira seção tem uma ilustração do Catálogo de Dados do AWS Glue e do ETL do AWS Glue. No Catálogo de Dados do AWS Glue, aparece: “Catalog all datasets in your data lakes.” (Catalogue todos os conjuntos de dados em seus data lakes.) No ETL do AWS Glue, aparece: “Integrate and transform data from disparate data sources.” (Integre e transforme dados de fontes diferentes.)

O título da segunda seção é: “AWS Glue Data Quality” (Qualidade de dados do AWS Glue). Há três ícones nessa seção. O primeiro é uma lista de verificação. Abaixo dele está escrito: “Data quality rule recommendations. Get started quickly with automatic data quality rule recommendations.” (Recomendações de regras de qualidade de dados. Comece a usar rapidamente as recomendações de regras de qualidade de dados.) O segundo ícone é um lápis. Abaixo dele está escrito: “Preconfigured data quality rules. Edit or augment recommendations with preconfigured data quality rules.” (Regras de qualidade de dados pré-configuradas. Edite ou incremente as recomendações com regras de qualidade de dados pré-configuradas.) O terceiro ícone é um sino. Abaixo dele está escrito: “Alerts and actions. Add alerts and actions to perform when data quality deteriorates.” (Alertas e ações. Adicione alertas e ações para serem executadas quando houver deterioração na qualidade dos dados.)

A terceira seção tem dois ícones empilhados. O primeiro ícone é um gráfico de barras. Abaixo dele está escrito: “Metrics. Use data quality metrics to make confident business decisions.” (Métricas. Use as métricas de qualidade de dados para tomar decisões de negócios confiantes.) O segundo ícone é um sinal de aviso. Abaixo dele está escrito: “Alerts. Use alerts to get notified when quality deteriorates, and take actions to fix the data.” (Alertas. Use os alertas para receber notificações quando houver deterioração na qualidade e executar ações para corrigir os dados.)

Clique para aumentar
Preparação dos dados
Com o AWS Glue DataBrew, é possível explorar e fazer experimentos dos dados diretamente de seu data lake, data warehouses e bancos de dados, incluindo o Amazon S3, o Amazon Redshift, o AWS Lake Formation, o Amazon Aurora e o Amazon Relacional Database Service (RDS). Escolha entre mais de 250 transformações predefinidas no DataBrew para automatizar tarefas de preparação de dados, como filtragem de anomalias, padronização de formatos e correção de valores inválidos.

Além disso, o AWS Glue oferece uma ferramenta de preparação de dados visual que permite preparar dados usando uma interface visual interativa estilo apontar e clicar que dispensa a criação de código.

Casos de uso

Explore, experimente e processe dados de forma interativa

Ao usar sessões interativas do AWS Glue, os engenheiros de dados podem explorar e preparar dados de forma interativa usando o ambiente de desenvolvimento integrado (IDE) ou o caderno de sua escolha.

Saiba mais sobre as sessões interativas do AWS Glue

Descubra dados de forma eficiente

Identifique rapidamente os dados na AWS, no local e em outras nuvens e, em seguida, disponibilize-os instantaneamente para consulta e transformação.

Saiba mais sobre o Catálogo de Dados do AWS Glue

Simplificação do gerenciamento do pipeline de ETL

Remova o gerenciamento de infraestrutura com provisionamento automático e gerenciamento de funcionários e consolide todas as suas necessidades de integração de dados em um único serviço.

Saiba mais sobre o ajuste automático de escala do AWS Glue

Suporte a várias estruturas de processamento e workloads

Suporte mais fácil a várias estruturas de processamento de dados, como ETL e ELT, e várias workloads, incluindo batch, microbatch e streaming.

Saiba mais sobre streaming de jobs de ETL

Novidades

Nenhum resultado encontrado

1 …

…

Comece a usar o Glue

Experimente o AWS Glue gratuitamente

Criar com o AWS Glue

Integre seus dados

Explore o guia do desenvolvedor

Você encontrou o que estava procurando hoje?

Informe-nos para que possamos melhorar a qualidade do conteúdo em nossas páginas.

Conheça mais a AWS