Amazon DataZone: Datenerkennung automatisieren

Übersicht

Entfernen Sie die Zeit für die manuelle Eingabe von Datenattributen in den Datenkatalog, was ebenfalls zu potenziellen Fehlern führen kann. Generieren Sie den Geschäftskontext und empfehlen Sie Analysen für Datensätze, wodurch die Ergebnisse der Datenerfassung verbessert werden. Erfahren Sie, woher Ihre Daten stammen und welche Quellen von Änderungen betroffen sein werden. Mehr, umfangreichere Daten im Geschäftsdatenkatalog verbessern auch das Sucherlebnis. Reduzieren Sie Ihre Zeit für die Suche und Nutzung von Daten von Wochen auf Tage.

Page Topics

Wichtigste Funktionen

Wichtigste Funktionen

Der Amazon-DataZone-Geschäftsdatenkatalog fungiert als föderiertes Organisationsregister, in dem technische Metadaten als Ressourcen veröffentlicht werden können und Sie einen erweiterten Geschäftskontext hinzufügen können. Sie können Daten mit Geschäftskontext für alle Ihre Benutzer sichtbar machen, damit sie Daten schnell und einfach finden, verstehen und ihnen vertrauen können.

Automatisieren Sie das Hinzufügen von Geschäftsbeschreibungen und Namen zu Daten, sodass Sie den Kontext leichter verstehen und sich nicht mit kryptischen technischen Namen herumschlagen müssen. Diese Automatisierung basiert auf großen Sprachmodellen (LLMs), um die Genauigkeit und Konsistenz zu erhöhen. 

Die facettierte Suche unterstützt den Geschäftsdatenkatalog und hilft Datenkonsumenten und -produzenten dabei, Datenbestände anhand vertrauter Strukturinformationen wie Tabellen- und Spaltennamen sowie Geschäftsbegriffen zu finden.

Generieren Sie für jeden Datensatz eine Liste der wertvollsten Spalten und der wahrscheinlichen Analyseanwendungen. 

Mit den Datenqualitätsstatistiken in Amazon DataZone können Datenkonsumenten Datenqualitätsmetriken aus AWS Glue Data Quality oder Systemen von Drittanbietern sehen. Datenkonsumenten können den Datenquellen, die sie für ihre Entscheidungen nutzen, vertrauen und haben einen Qualitätskontext, wenn sie nach Assets suchen. Produzenten und IT-Teams können auch APIs verwenden, um die Datenqualitätsstatistiken von Drittanbietersystemen in ein einheitliches Portal außerhalb der Konsole einzubinden. Datenproduzenten können die Ergebnisse von AWS Glue Data Quality nach einem bestimmten Zeitplan einbringen, um sicherzustellen, dass die Bewertungen aktuell sind, auch wenn sich die Daten ständig ändern.

Verstehen Sie die Bewegung von Daten im Laufe der Zeit. Die Datenherkunft kann Vertrauen und Datenkompetenz eines Unternehmens stärken, indem sie Datenkonsumenten hilft, zu verstehen, woher Daten stammen, wie sie sich verändert haben und wie sie genutzt werden. Sie können den Zeitaufwand für die Abbildung eines Datenbestands und seiner Beziehungen, die Problembehandlung und Entwicklung von Pipelines sowie die Durchsetzung von Data-Governance-Praktiken reduzieren.

Gruppieren Sie Datenbestände in definierten Paketen (Datenprodukten), die auf bestimmte geschäftliche Anwendungsfälle zugeschnitten sind, um die Katalogisierung zu optimieren und es Datenkonsumenten zu ermöglichen, die Daten einfach zu finden und zu abonnieren. Datenproduzenten können eine Sammlung relevanter Ressourcen kuratieren, Geschäftskontext hinzufügen und sie als Datenprodukteinheit veröffentlichen. Dies vereinfacht den Prozess für Datenkonsumenten, alle für bestimmte Anwendungsfälle erforderlichen Datenbestände zu finden. Konsumenten können alle Ressourcen innerhalb eines Datenprodukts über einen einzigen Genehmigungs-Workflow abonnieren. Datenproduzenten können den Lebenszyklus des Produkts verwalten, einschließlich der Bearbeitung der Asset-Sammlung, der Rückgängigmachung der Veröffentlichung, des Löschens und der Verwaltung von Abonnements. Amazon DataZone bietet auch API-Unterstützung für Datenprodukt-Workflows, was die Integration und Automatisierung erleichtert.

Anwendungsfälle

Reduzieren Sie Ihre Zeit, um Erkenntnisse zu gewinnen, indem Sie die richtigen Daten im richtigen Kontext finden. Daten können nur dann vertrauenswürdig sein, wenn sie konsistent, genau, vollständig, aktuell und rückverfolgbar sind und eine transparente Datenqualitäts-Bewertung aufweisen. Bei verteilter Eigentümerschaft sorgt jede Abteilung oder das Analyseteam dafür, dass die Daten originalgetreu sind, sodass Datennutzer wissen, dass sie die richtigen Daten verwenden.

Erstellen Sie einen Geschäftsdatenkatalog, indem Sie Ihre Ressourcen crawlen und die technischen Metadaten (nicht die eigentlichen Daten) hinzufügen, um sie mit dem Geschäftskontext anzureichern. Der Geschäftskontext kann mit standardisierten Glossaren und Begriffen bereichert werden. Sie können auch zusätzliche Metadaten mit Metadatenformularen anpassen.

Die Verwendung der richtigen Daten erfordert das Verständnis des Datenkontextes. Amazon DataZone hilft dabei, diesen Kontext für alle Daten zu erstellen, die mit Glossaren und Metadatenformularen katalogisiert sind. Jetzt kann der Dateneigentümer so viele Informationen wie möglich teilen, um den Datenkontext festzulegen, in dem der Datenkonsument Daten finden, verstehen und dann abonnieren kann. Die Datenqualitäts-Bewertung hilft Datenverbrauchern zu verstehen, ob ein Datenbestand für den jeweiligen Zweck geeignet ist.

Reduzieren Sie den Zeitaufwand für die Kartierung von Datenbeständen und ihren Beziehungen, die Problembehandlung und Entwicklung von Pipelines sowie die Durchsetzung von Data-Governance-Praktiken. Durch ein grafisches Erlebnis verstehen Datenkonsumenten den Ursprung des Assets. Datenproduzenten können die Auswirkungen von Änderungen an einer Tabelle oder Spalte beurteilen, indem sie verstehen, welche Systeme oder Datenkonsumenten die Daten verwenden (Auswirkungsanalyse). Datenproduzenten können Datenprobleme auch beheben, indem sie Schnappschüsse der Herkunft eines Datenbestands überprüfen, um die Fehlerquelle zu ermitteln. Amazon DataZone visualisiert Datenherkunft, die aus OpenLineage-Ereignissen, einem offenen Standard für die Erfassung von Abstammungsdaten, erfasst wurde, kann aber auch benutzerdefinierte Abstammungszuordnungen erfassen. Die Herkunft hilft Datenproduzenten dabei, die Datenherkunft beim Teilen der Daten mit einzubeziehen, was das Vertrauen in die Datenquellen erhöht.

Videos

AWS re:Invent 2023 – Erstellen eines Geschäftskatalogs mit Amazon DataZone (21:37)
AWS re:Invent 2023 – Verständnis Ihrer Daten im Geschäftskontext (55:40)

Häufig gestellte Fragen

Welche Art Informationen befinden sich im Geschäftsdatenkatalog von Amazon DataZone?

Im Amazon DataZone Katalog für Geschäftsdaten liefern Geschäftsmetadaten Informationen, die von Geschäftsleuten verfasst oder verwendet werden, und geben den Unternehmensdaten einen Kontext. Dies könnte die folgenden Informationen beinhalten:

  • Eigenverantwortung: Moderne datenorientierte Organisationen verwenden einen verteilten Datenverwaltungsprozess, bei dem die Geschäftsbereiche (LOBs) für die Verwaltung ihrer eigenen Daten verantwortlich sind. In einem Katalog werden die Eigentumsverhältnisse erfasst, sodass interessierte Parteien im Rahmen ihrer Geschäftsaufgaben nach Daten suchen und Zugriff darauf beantragen können.
  • Klassifizierung: Die Datenermittlung ist eine wichtige Aufgabe, die Geschäftsmetadaten unterstützen können. Datenerkennung verwendet zentral definierte Unternehmens-Ontologien und Taxonomien, um Datenquellen zu klassifizieren, und hilft Ihnen, relevante Datenobjekte zu finden.
  • Beziehungen: Sie können den Amazon-DataZone-Geschäftsdatenkatalog verwenden, um Beziehungsinformationen als Metadaten hinzuzufügen. Wie bei einem technischen Datensatzschema zeigt der Geschäftsdatenkatalog Beziehungen zwischen Objekten im Katalog, z. B. zwischen Datenbanken, Datensätzen und ihren Spalten.
  • Schema: KI-Empfehlungen für Beschreibungen können das technische und geschäftliche Schema verwenden, um empfohlene Beschreibungen und Verwendungen für Daten zu generieren.
  • Herkunft und Verbrauch: Im Geschäftsdatenkatalog besteht eine Verknüpfung mit Analysen von Datenherkunft und -wirkung sowie mit benutzerdefinierten Mappings von OpenLineage.

Was kann ich mit Amazon DataZone katalogisieren?

Amazon DataZone unterstützt Datenbestände, die direkt aus dem AWS-Glue-Datenkatalog und Amazon Redshift veröffentlicht wurden. Diese beiden Quellen können verwendet werden, um Daten an den folgenden Orten zu katalogisieren:

  • Amazon-Simple-Storage-Service-Data-Lakes (Amazon S3)
  • Viele der speziell von AWS entwickelten Datenbanken, wie Amazon Relational Database Service (Amazon RDS), werden über einen AWS-Glue-Crawler bereitgestellt
  • Über 100 Amazon-AppFlow-Konnektoren zur Einbindung von Daten aus Drittanbieteranwendungen wie Snowflake, Salesforce und Google Analytics