Allgemeines
F: Was ist AWS Glue?
AWS Glue ist ein serverloser Datenintegrationsdienst, der das Auffinden, Aufbereiten und Kombinieren von Daten für Analysen, Machine Learning und die Anwendungsentwicklung vereinfacht. AWS Glue bietet alle nötigen Funktionen für die Datenintegration, durch die Sie Daten in Minuten statt Monaten analysieren und verwerten können. AWS Glue bietet sowohl visuelle als auch codebasierte Schnittstellen, um die Datenintegration zu erleichtern. Benutzer können Daten mit dem AWS Glue-Datenkatalog einfach auffinden und aufrufen. Dateningenieure und ETL-Entwickler (Extract, Transform, Load = extrahieren, übertragen, laden) können AWS Glue Studio verwenden, um ETL-Workflows mit wenigen Klicks visuell zu erstellen, auszuführen und zu überwachen. Datenanalytiker und Daten-Wissenschaftler können AWS Glue DataBrew verwenden, um Daten visuell anzureichern, zu bereinigen und zu normalisieren, ohne Code zu schreiben.
F: Was sind die ersten Schritte mit AWS Glue?
Für die ersten Schritte mit AWS Glue melden Sie sich einfach an der AWS-Managementkonsole an und navigieren Sie unter der Kategorie „Analytics“ zu „Glue“. Sie können einem der geführten Lernprogramme folgen, die Schritt für Schritt durch ein Beispiel eines Anwendungsfalls für AWS Glue führen. Zudem steht der ETL-Beispielcode in unseremGitHub-Repository unter den AWS-Übungen zur Verfügung.
F. Was sind die wichtigsten Komponenten von AWS Glue?
AWS Glue umfasst: einen Datenkatalog, also ein zentrales Metadaten-Repository, eine ETL-Engine, die automatisch Scala- oder Python-Code generiert, einen flexiblen Zeitplaner, der die Auflösung von Abhängigkeiten, Aufgabenüberwachung und Neuversuche übernimmt, AWS Glue DataBrew zur Bereinigung und Normalisierung von Daten über eine visuelle Oberfläche. Gemeinsam automatisieren diese Komponenten einen großen Anteil der undifferenzierten Schwerlastarbeit, die im Zusammenhang mit der Entdeckung, Kategorisierung, Säuberung, Anreicherung und Verschiebung von Daten anfällt, so dass Sie mehr Zeit für die Datenanalyse zur Verfügung haben.
F: Wann sollte ich AWS Glue einsetzen?
Sie sollten AWS Glue verwenden, wenn Sie Eigenschaften der in Ihrem Besitz befindlichen Daten entdecken, transformieren und für die Analyse vorbereiten möchten. Glue kann automatisch strukturierte und halb-strukturierte Daten entdecken, die in Ihrem Data Lake auf Amazon S3, Ihrem Data-Warehouse in Amazon Redshift und verschiedenen Datenbanken, die auf AWS laufen, gespeichert sind. Glue bietet über den Glue Datenkatalog eine einheitliche Ansicht Ihrer Daten, die für ETL, Anfrage- und Berichterstellung mit Diensten wie Amazon Athena, Amazon EMRund Amazon Redshift Spectrum zur Verfügung stehen. Glue generiert automatisch Scala- oder Python-Code für Ihre ETL-Jobs, den Sie mit den Ihnen bekannten Tools weiter anpassen können. Sie können AWS Glue DataBrew verwenden, um Daten visuell zu bereinigen und zu normalisieren, ohne Code zu schreiben.
F: Welche Datenquellen unterstützt AWS Glue?
AWS Glue unterstützt standardmäßig in Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift , DynamoDB und Amazon S3 sowie in MySQL, Oracle, Microsoft SQL Server und PostgreSQL-Datenbanken in Virtual Private Cloud (Amazon VPC) gespeicherte Daten, die über Amazon EC2 ausgeführt werden. AWS Glue unterstützt auch Datenströme von Amazon MSK, Amazon Kinesis Data Streams und Apache Kafka.
Sie können auch benutzerdefinierten Scala- oder Python-Code schreiben und benutzerdefinierte Bibliotheken und JAR-Dateien in Ihre AWS Glue-ETL-Jobs importieren und so auf Datenquellen zugreifen, die ursprünglich nicht von AWS Glue unterstützt werden. Weitere Einzelheiten zum Importieren von benutzerdefinierten Bibliotheken finden Sie in unserer Dokumentation.
F: Wie hängen AWS Glue und AWS Lake Formation zusammen?
A: Lake Formation nutzt eine gemeinsame Infrastruktur mit AWS Glue, inklusive Konsolenbefehle, ETCL-Codeerstellung und Auftragsüberwachung, einen gemeinsamen Datenkatalog und eine serverlose Architektur. Während AWS Glue sich auf diese Arten von Funktionen konzentriert, umfasst Lake Formation alle AWS Glue-Funktionen UND liefert zusätzliche Funktionen, die bei der Erstellung, Sicherung und Verwaltung eines Data Lake helfen. Mehr Informationen finden Sie auf der Seite AWS Lake Formation.
AWS Glue-Datenkatalog
F: Was ist der AWS Glue Datenkatalog?
Der AWS Glue Datenkatalog ist ein zentrales Repository für die Speicherung struktureller und operativer Metadaten für alle Ihre Datenkomponenten. Sie können für einen gegebenen Datensatz die Tabellendefinition und den physischen Ort speichern, geschäftsrelevante Attribute hinzufügen sowie nachverfolgen, wie diese Daten sich mit der Zeit verändert haben.
Der AWS Glue Datenkatalog ist mit dem Apache Hive Metastore kompatibel und ein Drop-in-Ersatz für den Apache Hive Metastore für Big-Data-Anwendungen, die auf Amazon EMR laufen. Weitere Informationen zum Einrichten Ihres EMR-Clusters für die Verwendung des AWS Glue Datenkatalogs als Apache Hive Metastore finden Sie hier.
Der AWS Glue Datenkatalog bietet auch eine Out-of-box-Integration mit Amazon Athena, Amazon EMR und Amazon Redshift Spectrum. Sobald Sie Ihre Tabellendefinitionen zum Glue Datenkatalog hinzugefügt haben, stehen sie für ETL zur Verfügung und sind auch leicht verfügbar für Amazon Athena, Amazon EMR und Amazon Redshift Spectrum, so dass Sie einen gemeinsamen Blick auf Ihren Daten zwischen diesen Services haben.
F: Wie bekomme ich meine Metadaten in den AWS Glue Datenkatalog?
AWS Glue bietet verschiedene Möglichkeiten, den AWS Glue Datenkatalog mit Metadaten zu füllen. Glue-Datenausleseprogramme (Crawler) scannen verschiedene in Ihrem Besitz befindliche Datenspeicher, schließen daraus automatisch auf Schemata und die Partitionsstruktur und füllen den Glue Datenkatalog mit entsprechenden Tabellendefinitionen und Statistiken. Sie können auch die regelmäßige Durchführung von Crawlern planen, so dass Ihre Metadaten immer aktuell sind und mit den zugrundeliegenden Daten synchronisiert sind. Alternativ können Sie manuell Tabellendetails hinzufügen und aktualisieren, indem Sie die AWS Glue Console verwenden oder den API aufrufen. Sie können auch Hive DDL-Statements über die Amazon Athena Console oder einen Hive-Client auf einem Amazon EMR-Cluster durchführen. Und schließlich können Sie mithilfe unserer Import-Skripts einen Massenimport dieser Daten in den AWS Glue Datenkatalog durchführen, wenn Sie bereits einen dauerhaften Apache Hive Metastore haben.
F: Was sind AWS Glue-Crawler?
AWS Glue-Crawler werden mit einem Datenspeicher verbunden und durchsuchen eine priorisierte Liste mit Klassifizierungen, um das Schema für Ihre Daten sowie weitere Statistiken zu extrahieren. Diese Metadaten werden anschließend in den Glue-Datenkatalog übertragen. Crawler können regelmäßig ausgeführt werden, um neu verfügbare Daten sowie Änderungen an bestehenden Daten einschließlich Änderungen an Tabellendefinitionen zu ermitteln. Mit Crawlern werden automatisch neue Tabellen sowie Partitionen zu bestehenden Tabellen und neue Versionen von Tabellendefinitionen hinzugefügt. Sie können AWS Glue-Crawler auch anpassen, um Ihre eigenen Dateintypen zu klassifizieren.
F: Wie importiere ich Daten aus meinem bestehenden Apache Hive Metastore in den AWS Glue Datenkatalog?
Sie führen einfach einen ETL-Job durch, der Ihren Apache Hive Metastore ausliest, die Daten in einem Zwischenformat an Amazon S3 überträgt und dann diese Daten in den AWS Glue Datenkatalog importiert.
F: Muss ich meinen Apache Hive Metastore behalten, wenn ich meine Metadaten im AWS Glue Datenkatalog speichere?
Nein. Der AWS Glue Datenkatalog ist mit dem Apache Hive Metastore kompatibel. Sie können auf den Glue Datenkatalog-Endpunkt verweisen und ihn als Ersatz für den Apache Hive Metastore verwenden. Weitere Informationen zum Einrichten Ihres Clusters für die Verwendung des AWS Glue Datenkatalogs als Apache Hive Metastore finden Sie hier in unserer Dokumentation.
F: Wenn ich bereits Amazon Athena oder Amazon Redshift Spectrum verwende und Tabellen im Datenkatalog von Amazon Athena habe, wie kann ich damit beginnen, den AWS Glue Datenkatalog als Standard-Repository für Metadaten zu verwenden?
Bevor Sie beginnen können, den AWS Glue Datenkatalog als Standard-Repository für Metadaten zwischen Amazon Athena, Amazon Redshift Spectrum und AWS Glue zu verwenden, müssen Sie Ihren Amazon Athena-Datenkatalog auf den AWS Glue Datenkatalog upgraden. Die für das Upgrade erforderlichen Schritte sind hier ausführlich erläutert.
F: Welche Analyse-Services verwenden den AWS Glue Datenkatalog?
Auf die im AWS Glue-Datenkatalog gespeicherten Metadaten kann leicht von Glue ETL, Amazon Athena, Amazon EMR, Amazon Redshift Spectrum und Services von Drittanbietern zugegriffen werden.
AWS Glue Schema Registry
F: Was ist AWS Glue Schema Registry?
Mit AWS Glue Schema Registry, einer serverlosen Funktion von AWS Glue, können Sie die Entwicklung von Streaming-Daten mithilfe von Schemas, die in Apache-Avro- und JSON-Schema-Datenformaten registriert sind, ohne zusätzliche Kosten validieren und steuern. Durch Apache-lizensierte Serializer und Deserializer ist Schema Registry in Java-Anwendungen integriert, die für Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink und AWS Lambda entwickelt wurden. Wenn Daten-Streaming-Anwendungen in die Schema-Registry integriert werden, können Sie die Datenqualität verbessern und sich gegen unerwartete Änderungen schützen, indem Sie Kompatibilitätsprüfungen verwenden, die die Schemaentwicklung steuern. Des Weiteren können Sie AWS Glue-Tabellen und -Partitionen mit Apache Avro-Schemata erstellen oder aktualisieren, die im Registry gespeichert sind.
F: Warum sollte ich AWS Glue Schema Registry verwenden?
Die AWS Glue Schema Registry bietet folgende Funktionen:
- Validieren von Schemata. Wenn Daten-Streaming-Anwendungen in das AWS Glue Schema Registry integriert sind, werden die Schemas, die für die Datenproduktion verwendet werden, für Schemas innerhalb eines zentralen Registry validiert, was Ihnen ermöglicht, die Datenqualität zentral zu kontrollieren.
- Schützen der Schemaentwicklung. Mit einem der acht Kompatibilitätsmodi können Sie Regeln festlegen, wie Schemas entwickelt werden können.
- Verbessern der Datenqualität. Serialisierer validieren von Datenerzeugern verwendete Schemata anhand von Kopien in der Registry, verbessern die Datenqualität am Ursprungspunkt und reduzieren Probleme im weiteren Verlauf aufgrund von unerwarteter Schemaabweichung.
- Senken von Kosten. Serialisierer konvertieren Daten in das Binärformat und komprimieren sie vor der Bereitstellung, was die Kosten für die Datenübertragung und -speicherung senkt.
- Steigern der Prozesseffizienz. In vielen Fällen enthalten Daten-Streams Datensätze unterschiedlicher Schemata. Die Schema Registry ermöglicht es Anwendungen, die Daten-Streams auslesen, jeden Datensatz selektiv auf Grundlage des Schemas zu verarbeiten, ohne dessen Inhalt parsen zu müssen, wodurch die Effizienz gesteigert wird.
F: Welche Datenformate, Client-Sprachen und Integrationen unterstützt AWS Glue Schema Registry?
Schema Registry unterstützt Apache Avro und JSON Datenformate sowie Java Client-Anwendungen. Wir planen die Erweiterung für andere Datenformate und nicht auf Java basierte Clients. Schema Registry lässt sich in Anwendungen integrieren, die für Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink und AWS Lambda entwickelt wurden.
F: Welche Entwicklungsregeln unterstützt AWS Glue Schema Registry?
Mit folgenden Kompatibilitätsmodi können Sie die Schemaentwicklung verwalten: Backward, Backward All, Forward, Forward All, Full, Full All, None und Disabled. In der Benutzerdokumentation der Schema Registry erfahren Sie mehr über Kompatibilitätsprobleme.
F: Wie sorgt die AWS Glue Schema Registry für eine hohe Verfügbarkeit meiner Anwendungen?
Die Speicher- und Kontrollebene der Schema Registry ist auf Hochverfügbarkeit ausgelegt und beruht auf der AWS Glue SLA. Die Serialisierer und Deserialisierer nutzen bewährte Caching-Techniken zur Optimierung der Schemaverfügbarkeit in Clients.
F: Ist die AWS Glue Schema Registry Open-Source-basiert?
Der AWS Glue Schema Registry-Speicher ist ein AWS-Service, die Serialisierer und Deserialisierer sind hingegen Apache-lizenzierte Open-Source-Komponenten.
F: Bietet die AWS Glue Schema Registry Datenverschlüsselung im Ruhezustand und bei der Übertragung?
Ja, die Kommunikation von Clients mit der Schema Registry erfolgt über API-Aufrufe, die Daten bei der Übertragung per TLS-Verschlüsselung über HTTPS verschlüsseln. In der Schema Registry gespeicherte Schemata werden im Ruhezustand stets mit einem vom Service verwalteten KMS-Schlüssel verschlüsselt.
F: Wie kann ich eine private Verbindung zur AWS Glue Schema Registry herstellen?
Mit AWS PrivateLink können Sie die VPC Ihres Datenerzeugers mit AWS Glue verbinden, indem Sie einen VPC-Endpunkt als Schnittstelle für AWS Glue definieren. Bei der Nutzung eines VPC-Schnittstellenendpunkts wird die Verbindung zwischen Ihrer VPC und AWS Glue ausschließlich und innerhalb des AWS-Netzwerks hergestellt. Weitere Informationen finden Sie in der Benutzerdokumentation.
F: Wie kann ich die Nutzung der AWS Glue Schema Registry überwachen?
Im Rahmen des kostenlosen Kontingents von CloudWatch sind AWS CloudWatch Metrics verfügbar. Diese Metriken können Sie in der CloudWatch-Konsole aufrufen. Weitere Informationen finden Sie in der Benutzerdokumentation zur AWS Glue Schema Registry.
F: Bietet die AWS Glue Schema Registry Tools zur Verwaltung der Benutzerautorisierung?
Ja, die Schema Registry unterstützt sowohl Berechtigungen auf Ressourcenebene als auch identitätsbasierte IAM-Richtlinien.
F: Wie kann ich von einer vorhandenen Schema-Registry auf die AWS Glue Schema Registry umsteigen?
Die Schritte zur Migration von der Schema-Registry eines Drittanbieters zur AWS Glue Schema Registry finden Sie in der Benutzerdokumentation.
Extract, Transform und Load (ETL)
F: Verfügt AWS Glue über eine Schnittstelle ohne Code für visuelles ETL?
Ja. AWS Glue Studio bietet eine grafische Schnittstelle für die Erstellung von Glue-Aufgaben zur Verarbeitung Ihrer Daten. Nachdem Sie den Fluss Ihrer Datenquellen, Transformationen und Ziele in der visuellen Oberfläche definiert haben, generiert AWS Glue Studio Apache-Spark-Code für Sie.
F: Welche Programmiersprache kann ich für das Schreiben meines ETL-Codes für AWS Glue verwenden?
Sie können entweder Scala oder Python verwenden.
F: Wie kann ich den von AWS Glue generierten ETL-Code anpassen?
Das ETL-Skriptempfehlungssystem von AWS Glue generiert Scala- oder Python-Code. Es verwendet die benutzerdefinierte ETL-Bibliothek von Glue, um den Zugriff auf Datenquellen zu vereinfachen und die Jobausführung zu verwalten. Weitere Einzelheiten zur Bibliothek finden Sie in unser Dokumentation. Mithilfe der benutzerdefinierten Bibliothek von AWS Glue können Sie ETL-Code schreiben oder beliebigen Code in Scala oder Python schreiben, indem Sie die Inline-Editierfunktion mithilfe des AWS Glue Console-Skripteditors verwenden, den selbstgenerierten Code herunterladen und ihn in Ihrer eigenen IDE editieren. Sie können auch mit einem der vielen Beispiele beginnen, die in unserem GitHub-Repository gehostet werden und diesen Code anpassen.
F: Kann ich benutzerdefinierte Bibliotheken als Teil meines ETL-Skripts importieren?
Ja. Sie können benutzerdefinierte Python-Bibliotheken und JAR-Dateien in Ihren AWS Glue-ETL-Job importieren. Weitere Einzelheiten finden Sie hier in unserer Dokumentation.
F: Kann ich meinen eigenen Code mitbringen?
Ja. Sie können Ihren eigenen Code mithilfe der ETL-Bibliothek von AWS Glue schreiben oder Ihren eigenen Scala- oder Python-Code schreiben und ihn in einen Glue-ETL-Job hochladen. Weitere Einzelheiten finden Sie hier in unserer Dokumentation.
F: Wie kann ich meinen ETL-Code mithilfe meiner eigenen IDE entwickeln?
Sie können Entwicklungsendpunkte erstellen, die Ihnen Möglichkeiten bieten, Ihre Notebooks und IDEs zu verbinden, und sich mit diesen verbinden.
F: Wie kann ich mithilfe von mehreren Jobs in AWS Glue einen durchgehenden ETL-Workflow generieren?
Zusätzlich zur ETL-Bibliothek und der Code-Erstellung bietet AWS Glue einen stabilen Satz von Orchestrierungs-Funktionen, die Ihnen ermöglichen, Abhängigkeiten zwischen mehreren Jobs zu verwalten, um durchgehende ETL-Workflows zu erstellen. AWS Glue ETL-Jobs können entweder nach einem Zeitplan oder durch ein Ereignis eines abgeschlossene Jobs ausgelöst werden. Wenn ein Ereignis eines abgeschlossenen Jobs der Auslöser ist, können mehrere Jobs parallel oder nacheinander ausgelöst werden. Sie können auch einen oder mehrere Glue-Jobs von einer externen Quelle (z. B. eine AWS Lambda-Funktion) auslösen.
F: Wie kontrolliert AWS Glue Abhängigkeiten?
AWS Glue verwaltet Abhängigkeiten zwischen zwei oder mehr Jobs oder Abhängigkeiten von externen Ereignissen durch die Verwendung von Triggern. Trigger können einen oder mehrere Jobs beobachten sowie einen oder mehrere Jobs aktivieren. Sie können entweder einen geplanten Trigger einsetzen, der Jobs regelmäßig aktiviert, oder einen On-Demand-Trigger oder einen Trigger bei Job-Abschluss.
F: Wie kontrolliert AWS Glue ETL-Fehler?
AWS Glue kontrolliert die Jobereignis-Messgrößen und Fehler und überträgt alle Meldungen an Amazon CloudWatch. Mit Amazon CloudWatch können Sie zahlreiche Aktionen konfigurieren, die auf Basis spezifischer Meldungen von AWS Glue ausgelöst werden. Wenn Sie zum Beispiel eine Fehler- oder Erfolgsmeldung von Glue erhalten, können Sie eine AWS Lambda-Funktion auslösen. Glue verfügt auch über ein Standardverhalten für Neuversuche, das bei Fehlern immer drei Neuversuche startet, bevor eine Fehlermeldung ausgesendet wird.
F: Kann ich meine bestehenden ETL-Jobs mit AWS Glue durchführen?
Ja. Sie können Ihren bestehenden Scala- oder Python-Code in AWS Glue ausführen. Laden Sie einfach den Code in Amazon S3 und erstellen Sie einen oder mehrere Jobs, die diesen Code verwenden. Sie können denselben Code für mehrere Jobs verwenden, in dem Sie diese auf den gleichen Code-Speicherort auf Amazon S3 verweisen.
F: Wie kann ich AWS Glue für ETL-Streaming-Daten verwenden?
AWS Glue unterstützt ETL auf Streams von Amazon Kinesis Data Streams, Apache Kafka und Amazon MSK. Fügen Sie den Stream zum Glue Datenkatalog hinzu und wählen Sie ihn dann beim Einrichten Ihres AWS Glue-Jobs als Datenquelle aus.
F: Muss ich sowohl den AWS Glue Datenkatalog als auch Glue ETL anwenden, um den Service zu nutzen?
Nein. Wir glauben zwar, dass die Anwendung des AWS Glue Datenkatalogs zusammen mit ETL eine durchgehende ETL-Erfahrung bietet, sie können aber auch nur eine der beiden Komponenten unabhängig von der Anwendung der anderen Komponenten verwenden.
F: Wann sollte ich AWS Glue Streaming und wann Amazon Kinesis Data Analytics verwenden?
Sowohl AWS Glue als auch Amazon Kinesis Data Analytics können zur Verarbeitung von Streaming-Daten verwendet werden. AWS Glue ist besonders geeignet, wenn die Anwendungsfälle primär auf ETL beruhen und wenn Sie Aufträge auf einer serverlosen Plattform ausführen möchten, die auf Apache Spark basiert. Amazon Kinesis Data Analytics wird empfohlen, wenn die Anwendungsfälle primär auf Analysen beruhen und wenn Sie Aufträge auf einer serverlosen Plattform ausführen möchten, die auf Apache Flink basiert.
Streaming ETL in AWS Glue ermöglicht fortgeschrittenes ETL für das Streaming von Daten unter Verwendung derselben serverlosen, verbrauchsbasierten Plattform, die Sie bereits für Ihre Batch-Jobs verwenden. AWS Glue generiert anpassbaren ETL-Code zur Vorbereitung von Daten im laufenden Betrieb und verfügt über integrierte Funktionen zur Verarbeitung von Streaming-Daten, die halbstrukturiert sind oder ein sich wandelndes Schema aufweisen. Verwenden Sie Glue, um die integrierten und Spark-eigenen Transformationen auf Datenströme anzuwenden und laden Sie diese in einen Data Lake oder ein Data Warehouse.
Mit Amazon Kinesis Data Analytics können Sie anspruchsvolle Streaming-Anwendungen erstellen, um Streaming-Daten in Echtzeit zu analysieren. Es ermöglicht eine serverlose Apache-Flink-Laufzeit, die automatisch ohne Server skaliert und den Anwendungsstatus dauerhaft speichert. Verwenden Sie Amazon Kinesis Data Analytics für Echtzeit-Analysen und für die allgemeinere Verarbeitung von Stream-Daten.
F: Wann sollte ich AWS Glue und wann Amazon Kinesis Data Firehose verwenden?
Sowohl AWS Glue als auch Amazon Kinesis Data Firehose können für ETL-Streaming verwendet werden. AWS Glue wird für komplexes ETL empfohlen, einschließlich des Zusammenfügens von Streams und der Partitionierung der Ausgabe in Amazon S3 auf Basis des Dateninhalts. Amazon Kinesis Data Firehose wird empfohlen, wenn sich Ihre Anwendungsfälle auf die Bereitstellung von Daten und die Vorbereitung von Daten für die Verarbeitung nach der Bereitstellung konzentrieren.
Streaming ETL in AWS Glue ermöglicht fortgeschrittenes ETL für das Streaming von Daten unter Verwendung derselben serverlosen, verbrauchsbasierten Plattform, die Sie bereits für Ihre Batch-Jobs verwenden. AWS Glue generiert anpassbaren ETL-Code zur Vorbereitung von Daten im laufenden Betrieb und verfügt über integrierte Funktionen zur Verarbeitung von Streaming-Daten, die halbstrukturiert sind oder ein sich wandelndes Schema aufweisen. Verwenden Sie Glue, um komplexe Transformationen auf Datenströme anzuwenden, Datensätze mit Informationen aus anderen Streams und beständigen Datenspeichern anzureichern und die Datensätze anschließend in den Data Lake oder das Data Warehouse zu übertragen.
Streaming ETL in Amazon Kinesis Data Firehose ermöglicht Ihnen die einfache Erfassung, Umwandlung und Bereitstellung von Streaming-Daten. Amazon Kinesis Data Firehose bietet ETL-Funktionalitäten einschließlich der serverlosen Datentransformation durch AWS Lambda und der Formatkonvertierung von JSON zu Parquet. Es umfasst ETL-Funktionalitäten zur einfacheren Verarbeitung von Daten nach der Bereitstellung, nicht jedoch die fortgeschrittenen ETL-Funktionalitäten, die AWS Glue unterstützt.
Deduplizierte Daten
F: Welche Art von Problemen wird mit FindMatches ML Transform gelöst?
FindMatches löst in der Regel Probleme mit Datensatzverknüpfungen und Datendeduplikation. Eine Deduplikation muss dann durchgeführt werden, wenn Sie Datensätze in einer Datenbank ermitteln möchten, die konzeptuell „gleich“ sind, aber für die separate Datensätze vorliegen. Das Problem ist trivial, wenn doppelte Datensätze durch einen eindeutigen Schlüssel identifiziert werden können (etwa, wenn Produkte eindeutig durch einen UPC-Code identifiziert werden können), wird jedoch herausfordernd, wenn keine exakte Übereinstimmung vorliegt, ein sogenanntes „Fuzzy Match“.
Die Datensatzverknüpfung ist im Grunde das gleiche Problem wie die Datendeduplikation. Dieser Begriff bezeichnet in der Regel jedoch eine Verknüpfung von zwei Datenbanken, die keinen eindeutigen Schlüssel gemeinsam haben, statt die Deduplikation einer einzelnen Datenbank - ein sogenannter „Fuzzy Join“. Erwägen Sie beispielsweise das Problem, eine große Datenbank mit Kunden mit einer kleinen Datenbank bekannter Betrüger abzugleichen. FindMatches kann sowohl für Datensatzverknüpfungs- als auch Deduplikationsprobleme verwendet werden.
FindMatches ML Transform von AWS Glue hilft Ihnen beispielsweise bei folgenden Problemen:
Verknüpfung von Patientendatensätzen zwischen Krankenhäusern, sodass Ärzte mehr Hintergrundinformationen zur Verfügung haben und Patienten besser behandeln können. Dies kann durch die Verwendung von FindMatches auf separaten Datenbanken ermöglicht werden, die gemeinsame Felder wie Name, Geburtsdatum, Anschrift, Telefonnummer usw. enthalten.
Deduplikation einer Filmdatenbank mit Spalten wie „Titel“, „Handlung“, „Erscheinungsjahr“, „Laufzeit“ und „Besetzung“. Zum Beispiel könnte der gleiche Film jeweils unterschiedlich als „Star Wars“, „Star Wars: Eine neue Hoffnung“ und „Star Wars: Episode IV — Eine neue Hoffnung (Special Edition)“ identifiziert werden.
Automatische Gruppierung aller verwandten Produkte in Ihrem Shop durch Ermitteln gleichwertiger Artikel in einem Kleiderproduktkatalog, wobei „gleichwertig“ so definiert werden soll, dass Größen- und Farbunterschiede bei gleichen Kleidungsstücken vernachlässigt werden. Daher wäre „Levi 501 Blue Jeans, Größe 34x34“ dasselbe wie „Levi 501 Jeans -- schwarz, Größe 32x31”.
F: Wie dedupliziert AWS Glue meine Daten?
FindMatches ML Transform von AWS Glue macht es leicht, Datensätze zu finden und zu verknüpfen, die sich auf dieselbe Entität beziehen, aber keinen zuverlässigen Identifikator gemeinsam haben. Vor FindMatchesmussten Entwickler Datenabgleichungsprobleme deterministisch durch eine große Anzahl von Hand abgestimmter Regeln lösen. FindMatches nutzt Machine-Learning-Algorithmen hinter den Kulissen, um nach den eigenen Geschäftskriterien jedes Entwicklers zu lernen, wie Datensätze abgeglichen werden sollen. FindMatches ermittelt zunächst Datensätze, die vom Kunden als übereinstimmend oder nicht übereinstimmend gekennzeichnet werden müssen, und nutzt dann Machine Learning zur Erstellung eines ML Transform. Kunden können diesen Transform dann auf ihre Datenbank anwenden, um übereinstimmende Datensätze zu finden, oder können FindMatches auffordern, zusätzliche Datensätze zur Kennzeichnung bereitzustellen, um die Genauigkeit des ML Transform zu steigern.
F: Was sind ML Transforms?
ML Transforms bieten eine Möglichkeit zur Erstellung und Verwaltung von Machine-Learning-Transforms. Nach der Erstellung und dem Training können diese ML Transforms in handelsüblichen AWS Glue-Skripten ausgeführt werden. Kunden wählen einen bestimmten Algorithmus (zum Beispiel den FindMatches ML Transform) und geben Datensätze, Trainingsbeispiele sowie die vom Algorithmus benötigten Abstimmungsparameter ein. AWS Glue nutzt diese Eingaben zur Erstellung eines ML Transform, das in einen regulären ETL-Aufgaben-Workflow eingebettet werden kann.
F: Wie funktionieren ML Transforms?
AWS Glue enthält spezialisierte, ML-basierte Datensatz-Transformationsalgorithmen, die Kunden zur Erstellung eigener ML Transforms verwenden können. Dazu gehören die Datensatzdeduplikation und das Ermitteln von Übereinstimmungen.
Kunden beginnen durch Navigieren zur Registerkarte „ML Transforms“ in der Konsole (oder durch Verwenden der ML Transforms-Service-Endpunkte bzw. durch den Zugriff auf das ML Transforms-Training über die Befehlszeilenschnittstelle), um ihr erstes ML Transform-Modell zu erstellen. Die Registerkarte „ML Transforms“ bietet eine benutzerfreundliche Ansicht zur Verwaltung von benutzerdefinierten Transforms. ML Transforms haben im Vergleich zu anderen Transforms ihre eigenen Workflow-Anforderungen, darunter separate Trainings-, Parameterabstimmungs- und Ausführungs-Workflows, die Schätzung der Qualitätswerte generierter Transformationen, sowie die Anforderung, zusätzliche Truth-Kennzeichnungen für Training und aktives Lernen zu verwalten und zu sammeln.
Um einen ML Transform über die Konsole zu erstellen, wählen Kunden zunächst den Transform-Typ (wie etwa Datensatz-Deduplikation oder Datensatzabgleichung) und geben die geeigneten Datenquellen an, die zuvor im Data Catalog ermitttelt wurden. Abhängig vom Transform können Kunden dann aufgefordert werden, Truth-Label-Basisdaten für das Training oder zusätzliche Parameter anzugeben. Kunden können den Status ihrer Trainings-Jobs und die Qualitätswerte für jeden Transform überwachen. (Qualitätswerte werden mit einem Holdout-Satz der vom Kunden bereitgestellten Kennzeichnungsdaten bereitgestellt.)
Bei zufriedenstellender Leistung können Kunden ML Transform-Modelle zur Nutzung in der Produktion übernehmen. ML Transforms können dann in ETL-Workflows sowohl im vom Service automatisch generierten Code sowie in benutzerdefinierten, mit anderen Jobs übermittelten Skripten genutzt werden, ähnlich wie die vorerstellten Transforms, die in anderen AWS Glue-Bibliotheken angeboten werden.
F: Kann ich mir eine Präsentation zur Verwendung von AWS Glue (und AWS Lake Formation) zum Finden von Übereinstimmungen und Deduplizieren von Datensätzen ansehen?
A: Ja, die volle Aufzeichnung des AWS Online Tech Talks „Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation“ ist hier verfügbar.
AWS Glue DataBrew
F: Was ist AWS Glue DataBrew?
AWS Glue DataBrew ist ein visuelles Datenvorbereitungstool, das es Datenanalysten und Daten-Wissenschaftlern erleichtert, Daten mit einer interaktiven, visuellen Point-and-Click-Oberfläche vorzubereiten, ohne Code schreiben zu müssen. Mit Glue DataBrew können Sie Terabytes und sogar Petabytes von Daten direkt aus Ihrem Data Lake, Data Warehouses und Datenbanken, einschließlich Amazon S3, Amazon Redshift, Amazon Aurora und Amazon RDS, einfach visualisieren, bereinigen und normalisieren. AWS Glue DataBrew ist heute in den Regionen USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), EU (Irland), EU (Frankfurt), Asien-Pazifik (Sydney) und Asien-Pazifik (Tokio) allgemein verfügbar.
F: Wer kann AWS Glue DataBrew verwenden?
AWS Glue DataBrew wurde für Benutzer entwickelt, die Daten für Analysen und Machine Learning bereinigen und normalisieren müssen. Datenanalytiker und Daten-Wissenschaftler sind die Hauptnutzer. Bei Datenanalytikern sind beispielsweise Business Intelligence-Analytiker, Betriebsanalytiker, Marktintelligenzanalytiker, Rechtsanalytiker, Finanzanalytiker, Wirtschaftswissenschaftler, Quants oder Buchhalter tätig. Für Daten-Wissenschaftler sind beispielsweise Materialwissenschaftler, bioanalytische Wissenschaftler und wissenschaftliche Forscher tätig.
F: Welche Arten von Transformationen werden in AWS Glue DataBrew unterstützt?
Sie können aus über 250 eingebauten Transformationen wählen, um die Daten zu kombinieren, zu drehen und zu transponieren, ohne Code zu schreiben. AWS Glue DataBrew empfiehlt auch automatisch Transformationen wie das Filtern von Anomalien, das Korrigieren ungültiger, falsch klassifizierter oder doppelter Daten, das Normalisieren von Daten auf Standarddatums- und -zeitwerte oder das Generieren von Aggregaten für Analysen. Für komplexe Transformationen, wie z. B. die Konvertierung von Wörtern in eine gemeinsame Basis oder einen Wortstamm, bietet Glue DataBrew Transformationen, die fortgeschrittene Techniken des Machine Learning wie Natural Language Processing (NLP) verwenden. Sie können mehrere Transformationen zusammenfassen, als Rezepte speichern und die Rezepte direkt auf die neuen eingehenden Daten anwenden.
F: Welche Dateiformate unterstützt AWS Glue DataBrew?
Für Eingabedaten unterstützt AWS Glue DataBrew gängige Dateiformate, wie kommagetrennte Werte (.csv), JSON und verschachteltes JSON, Apache Parkett und verschachteltes Apache Parkett sowie Excel-Tabellen. Für Ausgabedaten unterstützt AWS Glue DataBrew kommagetrennte Werte (.csv), JSON, Apache Parquet, Apache Avro, Apache ORC und XML.
F: Kann ich AWS Glue DataBrew kostenlos ausprobieren?
Ja. Melden Sie sich für ein Konto mit kostenlosem AWS-Kontingent an, besuchen Sie dann die AWS Glue DataBrew-Managementkonsole und fangen Sie sofort kostenlos an. Wenn Sie zum ersten Mal Glue DataBrew verwenden, sind die ersten 40 interaktiven Sitzungen kostenlos. Besuchen Sie die Seite Preise für AWS Glue, um mehr zu erfahren.
F: Muss ich AWS Glue Data Catalog oder AWS Lake Formation verwenden, um AWS Glue DataBrew zu benutzen?
Nein. Sie können AWS Glue DataBrew verwenden, ohne den AWS Glue Data Catalog oder AWS Lake Formation zu verwenden. Wenn Sie jedoch entweder den AWS Glue Data Catalog oder AWS Lake Formation verwenden, können DataBrew-Benutzer die ihnen zur Verfügung stehenden Datensätze aus ihrem zentralisierten Datenkatalog auswählen.
F: Kann ich Aufzeichnungen über alle an meinen Daten vorgenommenen Änderungen aufbewahren?
Ja. Sie können alle an Ihren Daten vorgenommenen Änderungen in der AWS Glue DataBrew-Managementkonsole visuell verfolgen. In der visuellen Ansicht lassen sich die Änderungen und Beziehungen, die an den Datensätzen, Projekten und Rezepten sowie an allen anderen damit verbundenen Aufgaben vorgenommen wurden, leicht nachvollziehen. Darüber hinaus führt AWS Glue DataBrew alle Kontoaktivitäten als Protokolle im AWS CloudTrail.
AWS Glue Flex – Aufträge
F: Was ist Glue Flex?
AWS Glue Flex ist eine flexible Auftragsklasse, mit der Sie die Kosten Ihrer nicht dringenden Datenintegrationsarbeitslasten (z. B. Vorproduktionsaufträge, Tests, Datenlasten usw.) um bis zu 35 % senken können. Glue hat zwei Auftragsausführungsklassen: Standard und Flexibel. Die Standardausführungsklasse ist ideal für zeitkritische Workloads, die einen schnellen Auftragsstart und dedizierte Ressourcen erfordern. Die flexible Ausführungsklasse ist für nicht dringende Aufträge geeignet, deren Start- und Fertigstellungszeiten variieren können. AWS Glue Flex kann die Kosten für Ihre nicht zeitabhängigen Arbeitslasten (z. B. nächtliche Batch-ETL-Aufträge, Wochenendaufträge, einmalige Massendateneingabeaufträge usw.) senken.
F: Wie unterscheiden sich die Standard- und die flexiblen Ausführungsklassen von AWS Glue?
Die Standard- und flexiblen Ausführungsklassen von AWS Glue haben unterschiedliche Ausführungseigenschaften. Mit der Standardausführungsklasse werden Aufträge sofort gestartet und haben während der Ausführung eigene Ressourcen. Aufträge der flexiblen Ausführungsklasse werden auf nicht zweckgebundenen Rechenressourcen in AWS ausgeführt, die während der Ausführung eines Auftrags wieder in Anspruch genommen werden können, und ihre Start- und Abschlusszeiten variieren. Daher sind die beiden Ausführungsklassen für unterschiedliche Workloads geeignet. Die Standardausführungsklasse ist ideal für zeitkritische Workloads, die einen schnellen Auftragsstart und dedizierte Ressourcen erfordern. Die flexible Ausführungsklasse ist kostengünstiger und eignet sich für nicht dringende Aufträge, bei denen eine Abweichung der Start- und Fertigstellungszeiten akzeptabel ist.
F: Wie kann ich mit AWS Glue Flex Aufträge der flexiblen Ausführungsklasse beginnen?
Die flexible Ausführungsklasse ist für Glue-Spark-Aufträge verfügbar. Um die flexible Ausführungsklasse zu verwenden, ändern Sie einfach die Standardeinstellung des Parameters Ausführungsklasse von „STANDARD“ auf „FLEX“. Sie können dies über Glue Studio oder CLI tun. Weitere Informationen finden Sie in der AWS GLUE_Benutzerdokumentation.
F: Welche Arten von Datenintegrations- und ETL-Workloads sind für die flexible Ausführungsklasse von AWS Glue Flex nicht geeignet?
Die flexible Ausführungsklasse von AWS Glue Flex ist nicht für zeitkritische Arbeitslasten geeignet, die konsistente Start- und Ausführungszeiten für Aufträge erfordern, oder für Aufträge, die zu einer bestimmten Zeit ausgeführt werden müssen. AWS Glue Flex wird auch nicht für lang laufende Datenintegrations-Workloads empfohlen, da diese eher unterbrochen werden, was zu häufigen Abbrüchen führt.
F: Wie oft muss ich damit rechnen, dass Aufträge, die mit der flexiblen Ausführungsklasse AWS Glue Flex ausgeführt werden, unterbrochen werden?
Die Verfügbarkeit und Unterbrechungshäufigkeit von AWS Glue Flex hängt von mehreren Faktoren ab, darunter die Region und Availability Zone (AZ), die Tageszeit und der Wochentag. Die Ressourcenverfügbarkeit bestimmt, ob Glue-Flex-Aufträge überhaupt gestartet werden. Während die Unterbrechungsrate in Spitzenzeiten zwischen 5-10 % liegen kann, erwarten wir, dass die Unterbrechungsrate von Glue Flex-Aufträgen etwa 5 % beträgt oder die Ausfallrate von Glue-Flex-Aufträgen aufgrund von Unterbrechungen unter 5 % liegt.
F: Ist die flexible Ausführungsklasse immer verfügbar?
Ja, Sie können immer die flexible Ausführungsklasse wählen, um Ihre Glue-Aufträge auszuführen. Die Fähigkeit von AWS Glue, diese Aufträge auszuführen, hängt jedoch von der Verfügbarkeit nicht dedizierter AWS-Kapazität und der Anzahl der für Ihren Auftrag ausgewählten Arbeiter ab. Es ist möglich, dass Glue zu Spitzenzeiten keine ausreichende Kapazität für Ihren Auftrag hat. In diesem Fall wird Ihr Auftrag nicht gestartet. Sie können einen Timeout-Wert angeben, nach dem Glue den Auftrag abbricht. Je länger der Timeout-Wert ist, desto größer ist die Wahrscheinlichkeit, dass Ihr Auftrag ausgeführt wird.
F: Was passiert, wenn ein AWS-Glue-Flex-Auftrag während der Ausführung unterbrochen wird?
Wenn ein Glue-Flex-Auftrag unterbrochen wird, weil nicht mehr genügend Arbeiter zur Verfügung stehen, um den Auftrag entsprechend der angegebenen Anzahl von Arbeitern abzuschließen, wird der Auftrag fehlschlagen. Glue wiederholt fehlgeschlagene Aufträge bis zu der in der Auftragsdefinition angegebenen maximalen Anzahl von Wiederholungsversuchen, bevor der Auftrag abgebrochen wird. Sie sollten die flexible Ausführungsklasse nicht für einen Auftrag verwenden, der von anderen Systemen oder Prozessen abhängig ist.
F: Welche Arten von AWS-Glue-Aufträgen werden von der flexiblen Ausführungsklasse unterstützt?
Die flexible Ausführungsklasse unterstützt nur Glue-Spark-Aufträge. Pythonshell und Streaming werden nicht unterstützt. AWS Glue Flex wird von Glue Version 3.0 und höher unterstützt. Die flexible Ausführungsklasse unterstützt derzeit keine Streaming-Workloads.
AWS-Produktintegrationen
F: Wann sollte ich AWS Glue einsetzen und wann AWS Data Pipeline?
AWS Glue bietet einen verwalteten ETL-Service, der in einer serverlosen Apache Spark-Umgebung läuft. Dies macht es möglich, dass Sie sich auf Ihren ETL-Job konzentrieren können und sich keine Gedanken über die Konfiguration und Verwaltung der zugrundeliegenden Rechenressourcen machen müssen. AWS Glue hat einen "Daten-zuerst"-Ansatz und ermöglicht Ihnen, sich auf die Dateneigenschaften und Datenmanipulation zu konzentrieren, um die Daten in eine Form zu bringen, mithilfe derer Sie Geschäftseinblicke erhalten. AWS Glue verfügt über einen integrierten Datenkatalog, der die Metadaten für ETL sowie Abfragen über Amazon Athena und Amazon Redshift Spectrum verfügbar macht.
AWS Data Pipeline bietet einen verwalteten Orchestrierungs-Service, der Ihnen größere Flexibilität in Bezug auf die Ausführungsumgebung, Zugriff und Kontrolle über die Rechenressourcen, mit denen Ihr Code läuft, sowie den eigentlichen Code für die Datenverarbeitung bietet. AWS Data Pipeline startet Rechenressourcen in Ihrem Konto, die Ihnen den direkten Zugriff auf die Amazon EC2-Instanzen oder Amazon EMR-Cluster ermöglichen.
Außerdem basieren die ETL-Jobs von AWS Glue auf Scala oder Python. Wenn Ihr Anwendungsfall erfordert, dass Sie eine andere Engine als Apache Spark verwenden oder wenn Sie einen heterogenen Satz von Jobs durchführen möchten, der auf verschiedenen Engines wie Hive, Pig usw. läuft, dann wäre AWS Data Pipeline die bessere Wahl.
F: Wann sollte ich AWS Glue einsetzen und wann Amazon EMR?
AWS Glue funktioniert auf der Apache Spark-Umgebung und bietet eine skalierbare Ausführungsumgebung für Ihre Datentransformationsjobs. AWS Glue zieht Schlüsse aus Ihren ETL-Jobs, entwickelt und überprüft sie und vereinfacht den Prozess des Erstellens und der Pflege von Jobs stark. Amazon EMR bietet Ihnen direkten Zugriff auf Ihre Hadoop-Umgebung, gewährt Ihnen Zugriff auf einem niedrigerem Zugriffslevel und größere Flexibilität bei der Anwendung von anderen Tools als Spark.
F: Wann sollte ich AWS Glue einsetzen und wann den AWS Database Migration Service?
AWS Database Migration Service (DMS) hilft Ihnen, Datenbanken einfach und sicher zu AWS zu migrieren. Für Anwendungsfälle, die eine Migration lokaler Datenbanken zu AWS oder eine Datenbankreplizierung zwischen Quellen vor Ort und Quellen auf AWS erfordern, empfehlen wir die Anwendung von AWS DMS. Sobald sich Ihre Daten in AWS befinden, können Sie AWS Glue verwenden, um Ihre Daten von Ihrer Datenquelle in eine andere Datenbank oder ein Data Warehouse wie Amazon Redshift zu verschieben, zu kombinieren, zu replizieren und zu transformieren.
F: Wann sollte ich AWS Glue und wann AWS Batch verwenden?
AWS Batch ermöglicht Ihnen, alle Batch-Verarbeitungsjobs auf AWS unabhängig von der Art des Jobs leicht und effizient durchzuführen. AWS Batch erstellt und verwaltet die Rechenressourcen in Ihrem AWS-Konto und gibt Ihnen volle Kontrolle und Einsicht in die verwendeten Ressourcen. AWS Glue ist ein vollständig verwalteter ETL-Service, der eine serverlose Apache Spark-Umgebung bereitstellt, um Ihre ETL-Jobs durchzuführen. Für Ihre ETL-Anwendungsfälle empfehlen wir, dass Sie die Anwendung AWS Glue ausprobieren. Für anderer Batch-orientierte Anwendungsfälle, einschließlich einiger ETL-Anwendungsfälle, könnte AWS Batch eine bessere Lösung sein.
Preise und Abrechnung
F: Wie zahle ich für AWS Glue?
Oberhalb der freien Stufe des AWS Glue Datenkatalogs zahlen Sie einfache Monatsgebühr für die Speicherung und den Zugriff auf die Metadaten im AWS Glue Datenkatalog. Sie zahlen einen sekundenweise abgerechneten Stundensatz für den Crawler-Lauf mit einer Mindestzeit von 10 Minuten. Wenn Sie sich entscheiden, einen Entwicklungsendpunkt zu verwenden, um interaktiv Ihren ETL-Code zu entwickeln, zahlen Sie für die Zeit, in der Ihr Entwicklungsendpunkt bereitgestellt wird, einen sekundenweise abgerechneten Stundensatz mit einer Mindestzeit von 10 Minuten. Darüber hinaus zahlen Sie einen sekundenweise abgerechneten Stundensatz für die ETL-Aufgabe mit einer Mindestzeit von 1 oder 10 Minuten, abhängig von der gewählten Glue-Version. Weitere Einzelheiten finden Sie auf unserer Seite Preise.
F: Wann beginnt und endet die Rechnungsstellung für meine AWS Glue-Jobs?
Die Rechnungsstellung beginnt, sobald der Job für die Ausführung geplant ist und läuft solange, bis der gesamte Job abgeschlossen ist. Bei AWS Glue zahlen Sie nur für die Zeit, in der Ihr Job läuft, und nicht für die Bereitstellung der Umgebung oder die Stillstandszeit.
Sicherheit und Verfügbarkeit
F: Wie schützt AWS Glue meine Daten?
Wir bieten serverseitige Verschlüsselung für ruhende Daten und SSL für Daten in Bewegung.
F: Welche Servicebeschränkungen sind mit AWS Glue verbunden?
Bitte lesen Sie die Dokumentation, um mehr über Service-Limits zu erfahren.
F: In welchen Regionen ist AWS Glue verfügbar?
Weitere Informationen über die Verfügbarkeit von AWS Glue Services nach Regionen finden Sie in der AWS-Regionstabelle.
F: Wie viele DPUs (Data Processing Units) sind dem Entwicklungsendpunkt zugewiesen?
Ein Entwicklungsendpunkt ist standardmäßig mit 5 DPUs ausgestattet. Sie können einen Entwicklungsendpunkt mit mindestens 2 DPUs und maximal 5 DPUs konfigurieren.
F: Wie skaliere ich die Größe und Leistung meiner AWS Glue ETL-Jobs?
Sie können einfach die Anzahl an DPUs (Data Processing Units) angeben, die Sie Ihrem ETL-Job zuweisen wollen. Ein Glue ETL-Job erfordert mindestens 2 DPUs. Standardmäßig weist AWS Glue jedem ETL-Job 10 DPUs zu.
F: Wie kontrolliere ich die Ausführung meiner AWS Glue-Jobs?
AWS Glue liefert den Status jedes Jobs und überträgt alle Meldungen an Amazon CloudWatch. Sie können über CloudWatch-Aktionen SNS-Benachrichtigungen einrichten, um über fehlgeschlagene oder abgeschlossene Jobs informiert zu werden.
Service Level Agreement
F: Welche Garantien enthält das SLA von AWS Glue?
Unser AWS Glue-SLA garantiert für AWS Glue eine monatliche Betriebszeit von mindestens 99,9 %.
F: Wie erfahre ich, ob ich zu einer Gutschrift aus dem SLA berechtigt bin?
Sie sind im Rahmen des AWS Glue-SLA zu einer SLA-Gutschrift für AWS Glue berechtigt, wenn mehr als eine Availability Zone, in der Sie eine Aufgabe ausführen, in ein und derselben Region und in einem monatlichen Abrechnungszyklus eine monatliche Betriebszeit von weniger als 99,9 % aufweist.
Ausführliche Informationen zu allen Bestimmungen des SLA sowie Einzelheiten zur Geltendmachung eines Anspruchs finden Sie auf der AWS Glue-SLA-Detailseite.
Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.
Beginnen Sie mit dem Erstellen von AWS Glue auf der AWS Management Console.