Amazon DataZone: automatize a descoberta de dados

Visão geral

Elimine o tempo da entrada manual de atributos de dados no catálogo de dados, o que também introduz possíveis erros. Gere contexto corporativo e recomende análises para conjuntos de dados, o que aumenta os resultados da descoberta de dados. Entenda de onde seus dados vieram e quais fontes serão afetadas por alterações. Dados mais robustos no catálogo de dados corporativos também melhoram a experiência de pesquisa. Reduza de semanas para dias o tempo de pesquisa e uso dos dados.

Page Topics

Principais recursos

Principais recursos

O catálogo de dados comerciais do Amazon DataZone atua como um registro organizacional federado onde os metadados técnicos podem ser publicados como ativos e você pode adicionar um contexto comercial aprimorado. Você pode tornar os dados visíveis no contexto comercial para que todos os seus usuários encontrem, entendam e confiem nos dados com rapidez e facilidade.

Automatize a adição de descrições e nomes empresariais aos dados, o que ajuda a entender facilmente o contexto e a evitar lidar com nomes técnicos enigmáticos. Essa automação é alimentada por grandes modelos de linguagem (LLMs) para aumentar a precisão e a consistência. 

A pesquisa facetada funciona com o catálogo de dados corporativos para ajudar consumidores e produtores de dados a encontrar ativos de dados usando informações estruturais familiares, como nomes de tabelas e colunas, bem como termos comerciais.

Para cada conjunto de dados, gere uma lista das colunas mais importantes e dos prováveis usos da análise. 

Com estatísticas de qualidade de dados no Amazon DataZone, os consumidores de dados podem ver métricas do AWS Glue Data Quality ou de sistemas de terceiros. Os consumidores de dados podem confiar nas fontes de dados que utilizam para tomar decisões e ter um contexto de qualidade de dados enquanto pesquisam ativos. Produtores e equipes de TI também podem usar APIs para incorporar as estatísticas de qualidade de dados de sistemas de terceiros em um portal unificado e fora do console. Os produtores de dados podem apresentar resultados do AWS Glue Data Quality em um cronograma para garantir que as pontuações estejam atualizadas, mesmo que os dados continuem mudando.

Entenda a movimentação dos dados ao longo do tempo. A linhagem de dados pode aumentar a confiança e a alfabetização em dados, ajudando você a entender de onde vieram os dados, como eles mudaram e como é seu consumo. Você pode reduzir o tempo gasto no mapeamento de um ativo de dados e seus relacionamentos, na solução de problemas e no desenvolvimento de pipelines e na afirmação de práticas de governança de dados.

Agrupe ativos de dados em pacotes definidos (produtos de dados) personalizados para casos de uso de negócios específicos para agilizar a catalogação e permitir que os consumidores de dados descubram e assinem os dados com facilidade. Os produtores de dados podem organizar uma coleção de ativos relevantes, adicionar contexto de negócios e publicá-la como uma unidade de produto de dados. Isso simplifica o processo para que os consumidores de dados localizem todos os ativos de dados necessários para casos de uso específicos. Os consumidores podem assinar todos os ativos de um produto de dados por meio de um único fluxo de trabalho de aprovação. Os produtores de dados podem gerenciar o ciclo de vida do produto, incluindo editar a coleção de ativos, cancelar a publicação, excluí-la e manter assinaturas. O Amazon DataZone também oferece suporte de API para fluxos de trabalho de produtos de dados, facilitando a integração e a automação.

Casos de uso

Reduza o tempo para a obtenção de insights descobrindo os dados certos, no contexto certo. Os dados só podem ser confiáveis quando são consistentes, precisos, completos, oportunos, rastreáveis e têm um índice de qualidade de dados transparente. Com a propriedade distribuída, cada departamento ou equipe de análise mantém a fidelidade dos ativos para que os consumidores de dados saibam que estão usando os dados certos.

Crie um catálogo de dados corporativos rastreando seus ativos e trazendo os metadados técnicos (não os dados reais) para aprimorar o contexto comercial. O contexto comercial pode ser aprimorado com glossários e termos padronizados. Você também pode personalizar metadados adicionais com formulários de metadados.

Usar os dados certos requer a compreensão do contexto dos dados. O Amazon DataZone ajuda a criar esse contexto para todos os dados que são catalogados com glossários e formulários de metadados. Agora, o proprietário dos dados pode compartilhar o máximo de informações possível para definir o contexto de dados para que o consumidor de dados encontre, compreenda e assine os dados. O índice de qualidade dos dados ajuda os consumidores de dados a entender se um ativo de dados é adequado para sua finalidade.

Reduza o tempo gasto mapeando ativos de dados e seus relacionamentos, solucionando problemas e desenvolvendo pipelines e afirmando práticas de governança de dados. Por meio de uma experiência gráfica, os consumidores de dados entendem a origem dos ativos. Os produtores de dados podem avaliar o efeito das mudanças em uma tabela ou coluna entendendo quais sistemas ou consumidores de dados usam os dados (análise de impacto). Eles também podem solucionar problemas de dados analisando instantâneos da linhagem de um ativo de dados para identificar a origem do erro. O Amazon DataZone visualiza a linhagem de dados capturada a partir de eventos do OpenLineage, um padrão aberto para coleta de linhagens, mas também pode capturar mapeamentos de linhagem personalizados. A linhagem ajuda os produtores de dados a incluir a linhagem de dados ao compartilhar os dados, o que aumenta a confiança nas fontes de dados.

Vídeos

AWS re:Invent 2023 — Como criar um catálogo de negócios com o Amazon DataZone (21:37)
AWS re:Invent 2023 — Entenda seus dados com o contexto de negócios (55:40)

Perguntas frequentes

Que tipos de informação são usadas no catálogo de dados comerciais do Amazon DataZone?

No catálogo de dados comerciais do Amazon DataZone, os metadados comerciais fornecem informações criadas ou usadas por profissionais de empresas e contextualizam os dados organizacionais. Isso pode incluir as seguintes informações:

  • Propriedade: as organizações modernas centradas em dados empregam um processo de administração de dados distribuídos em que as linhas de negócios (LOBs) são responsáveis por gerenciar os próprios dados. Um catálogo acompanha essa propriedade para que as partes interessadas possam localizar e solicitar acesso aos dados como parte de suas tarefas de negócios.
  • Classificação: a descoberta de dados é uma tarefa fundamental que os metadados de negócios podem oferecer. A descoberta de dados usa ontologias e taxonomias empresariais definidas centralmente para classificar as fontes de dados e ajuda a encontrar objetos de dados relevantes.
  • Relacionamentos: você pode usar o catálogo de dados comerciais do Amazon DataZone para adicionar informações de relacionamento como metadados. Assim como em um esquema de conjunto de dados técnicos, o catálogo de metadados de negócios mostra relações entre objetos no catálogo, como aquelas entre bancos de dados, conjuntos de dados e suas colunas.
  • Esquema: as recomendações de IA para descrições podem usar o esquema técnico e comercial para gerar descrições recomendadas e o uso dos dados.
  • Origem e consumo: a linhagem de dados e a análise de impacto, bem como os mapeamentos personalizados do OpenLineage, estão vinculados ao catálogo de dados corporativos.

O que posso catalogar com o Amazon DataZone?

O Amazon DataZone oferece suporte a ativos de dados publicados diretamente do Catálogo de Dados do AWS Glue e do Amazon Redshift. Essas duas fontes podem ser usadas para catalogar dados nos seguintes locais:

  • Data lakes do Amazon Simple Storage Service (Amazon S3)
  • Muitos dos bancos de dados com propósito específico da AWS, como o Amazon Relational Database Service (Amazon RDS), por meio de um crawler do AWS Glue
  • Mais de 100 conectores Amazon AppFlow, para trazer dados de aplicações de terceiros, como Snowflake, Salesforce e Google Analytics