Amazon Textract- und .NET-Workloads

ANLEITUNG ZUR VORBEREITUNG

Modul 1: Vorbereitungsleitfaden

 LERNMODUL

Übersicht

Das Amazon-Textract- und .NET-Workloads-Badge zeigt, dass Sie mit dem Amazon-Textract-Service und den .NET-Workloads vertraut sind. Dieser Vorbereitungsleitfaden erklärt Thema für Thema, was Sie wissen müssen, um die Prüfung zu bestehen, und enthält relevante Ressourcen. Sie sollten auch praktische Erfahrung mit dem Service haben, die Sie entweder mit Ihren eigenen Anwendungen oder in einem AWS-Tutorial gesammelt haben.

Wenn Sie sich vorbereitet haben, fahren Sie mit Modul 2 fort, um die Feststellungsprüfung abzulegen.

Zweck

Textract ist ein Machine Learning (ML)-Service, der automatisch Text, Handschrift und Daten aus gescannten Dokumenten wie PDFs und Images extrahiert. Dies geht über die einfache optische Zeichenerkennung (OCR) hinaus, um Daten aus Formularen und Tabellen zu identifizieren, zu verstehen und zu extrahieren. Textract nutzt Machine Learning, um jede Art von Dokument zu lesen und zu verarbeiten. Dabei werden Text, Handschrift, Tabellen und andere Daten ohne manuellen Aufwand genau extrahiert.

Video: Was ist Amazon Textract?

Vorteile

Mit Textract können Sie diese Vorteile nutzen:

  • Geschäftseffizienz steigern und die Entscheidungsfindung bei gleichzeitiger Senkung der Kosten beschleunigen
  • Wichtige Erkenntnisse mit hoher Genauigkeit aus praktisch jedem Dokument extrahieren
  • Dokumentenverarbeitungspipeline nach oben oder unten skalieren, um sich schnell an die Marktanforderungen anzupassen
  • Datenverarbeitung auf sichere Weise mit Datenschutz-, Verschlüsselungs- und Compliance-Standards automatisieren

Amazon-Textract-Produktdetailseite

Fähigkeiten

Zu den Funktionen von Textract gehören:

  • Integration der Erkennung von Dokumententexten in Ihre Apps. Textract vereinfacht die Integration von Texterkennungsfunktionen in Ihre Anwendungen, indem eine leistungsfähige und genaue Analyse mit einer einfachen API zur Verfügung bereitgestellt wird.
  • Skalierbare Dokumentenanalyse: Mit Textract können Sie Daten aus Millionen von Dokumenten schnell analysieren und extrahieren, was die Entscheidungsfindung beschleunigen kann.
  • Mehrere Sprachen. Textract unterstützt Englisch, Spanisch, Deutsch, Italienisch, Französisch und Portugiesisch.
  • Mehrere Dokumentformate. Textract kann PDF-, TIFF-, JPEG- und PNG-Dokumente verarbeiten.

Entwicklerhandbuch – Was ist Amazon Textract?

Preise

Sie sollten mit dem Preismodell und dem kostenlosen Kontingent von Amazon Textract vertraut sein. Mit Textract zahlen Sie nur für das, was Sie tatsächlich nutzen. Es fallen weder Mindestgebühren noch Vorausleistungen an. Textract berechnet nur die verarbeiteten Seiten, unabhängig davon, ob Sie Text, Text mit Tabellen, Formulardaten, Abfragen oder Rechnungen und Ausweisdokumente verarbeiten.

  • Variierende Tarife je nach API. Textract enthält 5 APIs (Detect Document Text, Analyze Document, Analyze Expense, Analyze ID, Analyze Lending), für die jeweils bestimmte Tarife pro 1.000 Seiten berechnet werden.
  • Die Tarife können zwischen den AWS-Regionen variieren.
  • Sie zahlen einen reduzierten Tarif, wenn Sie einen monatlichen Schwellenwert erreicht haben. Sobald Sie den monatlichen Schwellenwert einer API erreicht haben, zahlen Sie für den Rest des Monats einen niedrigeren Tarif. Beispielsweise berechnet die Detect Document API nach Ihren ersten Millionen Dokumenten in einem Monat weniger Gebühren. Die Schwellenwerte und Raten sind für jede API unterschiedlich.
  • Das kostenlose Kontingent für AWS dauert 3 Monate und bietet Ihnen eine unterschiedliche Anzahl kostenloser Seiten pro API. Beispielsweise erhalten Sie 1 000 Seiten pro Monat kostenlos für die Detect Document Text API und 100 Seiten pro Monat für die Analyze Expense API.
  • Sie können den AWS Pricing Calculator auf der Preisseite verwenden, um Ihre Kosten zu schätzen.

Preise zu Amazon Textract

Anwendungsfälle

Im Folgenden sind häufige Anwendungsfälle für die Verwendung von Amazon Textract aufgeführt:

  • Erstellen eines intelligenten Suchindex. Mit Textract können Sie Bibliotheken mit Text erstellen, der in Bild- und PDF-Dateien erkannt wurde.
  • Verwendung intelligenter Textextraktion für die Verarbeitung natürlicher Sprache (NLP). Textract bietet Ihnen die Kontrolle darüber, wie Text als Eingabe für NLP-Anwendungen gruppiert wird. Es kann Text als Wörter und Zeilen extrahieren. Außerdem gruppiert es Text nach Tabellenzellen, wenn die Dokumenttabellenanalyse aktiviert ist.
  • Beschleunigte Erfassung und Normalisierung von Daten aus verschiedenen Quellen. Textract ermöglicht die Extraktion von Text- und Tabellendaten aus einer Vielzahl von Dokumenten, z. B. Finanzdokumenten, Forschungsberichten und medizinischen Notizen.
  • Automatisieren der Datenerfassung aus Formularen. Textract ermöglicht das Extrahieren strukturierter Daten aus Formularen. Mit den APIs können Sie Extraktionsfunktionen in bestehende Geschäftsabläufe integrieren, sodass Benutzerdaten, die über Formulare übermittelt werden, in ein verwendbares Format extrahiert werden können.
  • Automatisieren der Klassifizierung und Extraktion von Dokumenten. Mit der Analyze Lending Document Processing API von Textract können Sie die Klassifizierung von Kreditdokumenten in verschiedene Dokumentenklassen automatisieren und die klassifizierten Seiten dann automatisch zur weiteren Verarbeitung an den richtigen Analysevorgang weiterleiten.

Zu den Anwendungsfällen von Textract in der Branche gehören die folgenden.

  • Finanzdienstleistungen: Präzise Extraktion wichtiger Geschäftsdaten wie Hypothekenzinsen, Namen von Antragstellern und Rechnungssummen aus einer Vielfalt von Finanzformularen, zur Bearbeitung von Kredit- und Hypothekenanträgen in Minutenschnelle.
  • Gesundheitswesen und Biowissenschaften : Betreuen Sie Ihre Patienten und Versicherungsnehmer besser, indem Sie wichtige Patientendaten aus Gesundheits-Aufnahmeformularen, Versicherungsansprüchen und Vorgenehmigungsformularen extrahieren. Behalten Sie die Daten geordnet und ihrem ursprünglichen Kontext bei und vermeiden Sie eine manuelle Überprüfung des Outputs.
  • Öffentlicher Sektor : Extrahieren Sie mühelos relevante Daten aus behördlichen Formularen, wie Kredite für Kleinunternehmen, Steuerformulare und Unternehmensanträgen mit einem hohen Maß an Genauigkeit.

Entwicklerhandbuch – Was ist Amazon Textract?s

Amazon-Textract-Produktdetailseite – Anwendungsfälle

Funktionen

Sie sollten diese Funktionen verstehen:

Wie Amazon Textract funktioniert

        1. Optische Zeichenerkennung. Textract nutzt die optische Zeichenerkennung (OCR), um gedruckten Text, Handschrift und Zahlen beim Scannen oder beim Rendering von Dokumenten, wie z. B. juristischen Dokumenten, oder beim Scannen von Büchern, automatisch zu erkennen.

    Entwicklerhandbuch – Text erkennen

        2.Kreditvergabe analysieren. Analyze Lending API von Textract ist eine verwaltete, vorkonfigurierte API für die intelligente Dokumentenverarbeitung, mit der die Extraktion von Informationen aus Kreditpaketen vollständig automatisiert wird. Sie laden einfach Darlehensunterlagen in die API von Analyze Lending hoch und die vorgefertigten Machine-Learning-Modelle klassifizieren und teilen das Dokumentenpaket nach Dokumententyp auf.

        Entwicklerhandbuch – Kreditvergabe analysieren

        3. Formularextraktion. Sie können Schlüssel-Wert-Paare in Dokumentenbildern automatisch erkennen und den Kontext ohne manuellen Eingriff beibehalten. Ein Schlüssel-Wert-Paar ist ein Satz von verknüpften Datenelementen. In einem Dokument ist zum Beispiel das Feld „Vorname“ der Schlüssel und „Jane“ ist der Wert. So lassen sich die extrahierten Daten leicht in eine Datenbank importieren oder als Variable in einer Anwendung bereitstellen.

        Entwicklerhandbuch – Dokumente analysieren – Formularextraktion

        4. Tabellenextraktion. Textract behält die Zusammensetzung der in den Tabellen gespeicherten Daten während der Extraktion bei. Dies ist hilfreich für Dokumente, die größtenteils aus strukturierten Daten bestehen, z. B. Finanzberichte oder medizinische Unterlagen mit Tabellen in Spalten und Zeilen. Sie können die extrahierten Daten in eine Datenbank mit einem vordefinierten Schema laden. Beispielsweise wird bei Zeilen mit Artikelnummern und Mengen in einem Bestandsbericht die Zuordnung beibehalten, so dass eine Anwendung für die Bestandsverwaltung die Artikelsummen leicht erhöhen kann.

        Entwicklerhandbuch – Tabellen

        5. Unterschriftenerkennung. Textract erkennt Unterschriften auf jedem Dokument oder Bild. Dadurch werden Unterschriften auf Dokumenten wie Schecks, Kreditanträgen und Antragsformularen ganz einfach automatisch erkannt. Die API-Antwort umfasst die Position der Unterschriften und die zugehörigen Zuverlässigkeitswerte

        Entwicklerhandbuch – Dokumente analysieren – Signaturen

        6. Abfragebasierte Extraktion. Textract bietet Ihnen die Flexibilität, die aus Dokumenten zu extrahierenden Daten mithilfe von Abfragen anzugeben. Sie können die benötigten Informationen in Form von Fragen in natürlicher Sprache angeben (z. B. „Wie lautet der Name des Kunden“) und erhalten die genauen Informationen (z. B. „John Doe“) als Teil der API-Antwort. Sie brauchen die Datenstruktur im Dokument (Tabelle, Formular, implizites Feld, verschachtelte Daten) nicht zu kennen und müssen sich keine Gedanken über Abweichungen zwischen verschiedenen Dokumentversionen und -formaten machen. Textract Queries sind auf eine Vielzahl von Dokumenten trainiert, darunter Gehaltsabrechnungen, Kontoauszüge, W-2-Steuerformulare, Kreditanträge, Hypothekenbriefe, Schadensunterlagen und Versicherungskarten. Dank der Flexibilität von Textract Queries reduziert sich der Bedarf nach Implementierung einer Nachbearbeitung, die Abhängigkeit von manuellen Überprüfungen der extrahierten Daten oder die Notwendigkeit, ML-Modelle zu trainieren. Die Abfrageextraktion ist nur in der englischen Dokumentenerkennung verfügbar.

        Entwicklerhandbuch – Dokumente analysieren – Abfragen

        7. Handschrifterkennung: Viele Dokumente, wie z. B. medizinische Aufnahmeformulare und Bewerbungen, enthalten sowohl handschriftlichen als auch gedruckten Text. Amazon Textract kann beides aus englischsprachigen Dokumenten mit hoher Konfidenz extrahieren, unabhängig davon, ob der Text frei formuliert oder in Tabellen eingebettet ist. Dokumente können auch eine Mischung aus Drucktext und handgeschriebenem Text enthalten.

        Entwicklerhandbuch – Was ist Amazon Textract?

        8. Rechnungen und Belege Rechnungen und Belege können eine große Vielfalt an Layouts aufweisen, was die manuelle Extraktion von Daten in großem Umfang schwierig und zeitaufwändig macht. Amazon Textract nutzt Machine Learning (ML), um den Kontext von Rechnungen und Belegen zu verstehen und extrahiert automatisch relevante Daten wie den Namen des Lieferanten, die Rechnungsnummer, die Artikelpreise, den Gesamtbetrag und die Zahlungsbedingungen. Wenn Sie eine Rechnung oder eine Quittung an die AnalyzeExpense-API senden, wird eine Reihe von ExpenseDocument-Objekten zurückgegeben. Jedes ExpenseDocument ist weiter in LineItemGroups und SummaryFields unterteilt.

        Entwicklerhandbuch – Rechnungen und Quittungen analysieren

        Rechnungs- und Empfangsbeantwortungsobjekte

        9. Ausweisdokumente. ATextract nutzt Machine Learning (ML), um den Kontext von Identitätsdokumenten wie US-Pässen und Führerscheinen zu verstehen, ohne dass Vorlagen oder Konfigurationen erforderlich sind. Sie können automatisch spezifische Informationen wie das Ablaufdatum, das Geburtsdatum extrahieren und darin enthaltene Informationen wie Name und Adresse identifizieren lassen. Mit Analyze ID können Unternehmen, die Dienstleistungen zur Identitätsüberprüfung anbieten, sowie Unternehmen aus dem Finanz-, Gesundheits- und Versicherungswesen auf einfache Weise die Erstellung von Konten, Terminvereinbarungen, Bewerbungen und vieles mehr automatisieren, indem sie ihren Kunden die Möglichkeit geben, ein Bild oder einen Scan ihres Ausweises einzureichen.

        Entwicklerhandbuch – Ausweisdokumenten analysieren

        10. Integrierter Arbeitsablauf für die Überprüfung durch Menschen. Textract ist direkt in Amazon Augmented AI (A2I) integriert, sodass Sie für gedruckte und handschriftliche Texte, die aus Dokumenten extrahiert werden, problemlos die Überprüfung durch Menschen implementieren können. Wählen Sie einen Konfidenzschwellenwert für Ihre Anwendung und alle Vorhersagen mit einer Konfidenz unter dem Schwellenwert werden automatisch an menschliche Prüfer zur Validierung weitergeleitet. Sie können zudem festlegen, welche Schlüssel-Wert-Paare zur Überprüfung durch einen Menschen gesendet werden sollen, und A2I so konfigurieren, dass auch zufällig ausgewählte Dokumente zur Überprüfung gesendet werden.

        Entwicklerhandbuch – Kernkonzepte von Amazon A2I

AWS SDK für .NET

Verwenden Sie das AWS SDK für .NET, um mit Textract aus .NET-Code zu interagieren. Sie sollten die primären SDK-Klassen und -Methoden kennen, die zur Unterstützung der oben unter Funktionen aufgeführten Funktionen verwendet werden.

  1. Um das SDK zu verwenden, fügen Sie Ihrem C#-Projekt das NuGet-Paket AWSSDK.Textract hinzu.
  2. Um mit Textract zu arbeiten, instanziieren Sie eine Instance von AmazonTextractClient und rufen Sie die zugehörigen Methoden auf.
  3. Einige SDK-Methoden, deren Namen auf Async enden, werden asynchron mit dem C#-Schlüsselwort await aufgerufen.
  4. Verwenden Sie das Standard-SDK-Muster zum Erstellen von Anforderungsobjekten, um es an Methoden zu übergeben und die zurückgegebenen Antwortobjekte zu verarbeiten. Die SDK-Dokumentation für eine Methode beschreibt ihre Anfrage- und Antwortobjekte. Anfrage- und Antwortobjekt haben denselben Stammnamen wie die Methode, die sie unterstützen. Die Anforderungs- und Antwortobjekte für die DetectDocumentTextAsync-Methode heißen beispielsweise DetectDocumentTextRequest und DetectDocumentTextResponse.
using (var textractClient = new AmazonTextractClient(RegionEndpoint.USEast1))
{
    var bytes = File.ReadAllBytes("example.png");

    Console.WriteLine("Detect Document Text");
    var detectResponse = await textractClient.DetectDocumentTextAsync(new DetectDocumentTextRequest
    {
        Document = new Document
        {
            Bytes = new MemoryStream(bytes)
        }
    });

    foreach (var block in detectResponse.Blocks)
    {
        Console.WriteLine($"Type {block.BlockType}, Text: {block.Text}");
    }
}

Synchrone und asynchrone Operationen

Textract-Operationen werden in „synchrone“ und „asynchrone“ Typen gruppiert. Dies hat keine Beziehung zu asynchronen C#-Methoden.

  1. „Synchrone“ Operationen liefern Ergebnisse nahezu in Echtzeit. Sie dienen zur Erkennung und Analyse von Text in einseitigen Dokumenten.
  2. „Asynchrone“ Operationen laufen im Hintergrund. Sie sind für die Verarbeitung mehrseitiger Dokumente vorgesehen. Beispielsweise nimmt die Verarbeitung einer PDF-Datei mit über 1.000 Seiten viel Zeit in Anspruch, aber die asynchrone Verarbeitung der PDF-Datei ermöglicht es Ihrer Anwendung, andere Aufgaben zu erledigen, während der Vorgang abgeschlossen ist. Diese Methodennamen beginnen mit dem Wort „Start“, z. B. StartDocumentAnalysis.

Entwicklerhandbuch – Dokumente mit synchronen Vorgängen verarbeiten

Entwicklerhandbuch – Dokumente mit asynchronen Vorgängen verarbeiten

Textzeilen und Wörter

Textract-Operationen geben erkannten Text in einer Liste von Blockobjekten zurück. Diese Objekte stellen Textzeilen oder Textwörter dar, die auf einer Dokumentseite erkannt werden. Eine Liste von PAGE-, LINE.- und WORD-Objekten wird mit Eltern-Kind-Beziehungen zurückgegeben.

Entwicklerhandbuch – Textzeilen und -wörter

Begrenzungsrahmen

Textract-Operationen geben die Position und Geometrie von Elementen zurück, die auf einer Dokumentseite gefunden wurden. Alle extrahierten Daten werden mit Begrenzungsrahmen-Koordinaten zurückgegeben. Hierbei handelt es sich um Polygonrahmen, welche die einzelnen identifizierten Daten umfassen, wie z. B. ein Wort, eine Zeile, eine Tabelle oder einzelne Zellen innerhalb einer Tabelle. Auf diese Weise können Sie überprüfen, woher ein Wort oder eine Zahl im Quelldokument stammt, und Sie können sich orientieren, wenn die Suchergebnisse Scans von Originaldokumenten enthalten. Bei der Suche in Krankenakten nach Details zur Patientengeschichte können Sie beispielsweise das Quelldokument leicht finden und für künftige Suchvorgänge notieren.

Entwicklerhandbuch – Position des Elements auf einer Dokumentseite

Einstellbare Konfidenzschwellenwerte

Bei der Extraktion von Informationen aus Dokumenten gibt Textract einen Konfidenzwert für alle identifizierten Informationen zurück, damit Sie fundierte Entscheidungen über die Art und Weise der Verwendung dieser Ergebnisse treffen können. Wenn Sie beispielsweise Informationen aus Steuerunterlagen extrahieren und eine hohe Genauigkeit sicherstellen möchten, können Sie jedes Element mit einem Konfidenzwert unter 95 % zur Überprüfung durch einen Menschen kennzeichnen. Für andere Dokumente, bei denen Fehler weniger negative Folgen haben, können Sie einen niedrigeren Schwellenwert festlegen, z. B. bei der Bearbeitung von Lebensläufen oder der Digitalisierung von archivierten Datensätzen.

Entwicklerhandbuch – Bewährte Methoden für Amazon Textract – Vertrauenswerte verwenden

Umgang mit gedrosselten Anrufen und unterbrochenen Verbindungen

 Ein Textract-Vorgang kann fehlschlagen, wenn Sie die maximale Anzahl von Transaktionen pro Sekunde (TPS) überschreiten, wodurch der Dienst Ihre Anwendung drosselt, oder wenn Ihre Verbindung unterbrochen wird. Sie können Drosselung und unterbrochene Verbindungen verwalten, indem Sie den Vorgang automatisch wiederholen. Geben Sie die Anzahl der Wiederholungsversuche an, indem Sie den Config-Parameter angeben, wenn Sie den Amazon Textract-Client erstellen. AWS empfiehlt eine Anzahl von Wiederholungen von 5. Das AWS-SDK wiederholt einen Vorgang so oft wie angegeben, bevor er fehlschlägt und eine Ausnahme auslöst.

Entwicklerhandbuch – Umgang mit gedrosselten Anrufen und unterbrochenen Verbindungen
Amazon-Textract-Endpunkte und Kontingente

Kontingente

Ihre Nutzung von Amazon Textract unterliegt Kontingenten. Es gibt zwei Arten von Quoten:

  1. Festgelegte Kontingente können nicht geändert werden. Dazu gehören akzeptierte Dateiformate, Beschränkungen für Dateigröße und Seitenzahl, PDF-spezifische Grenzwerte, Bildgröße und -rotation, Zeichengröße, Zeichensatz und ID-Typen.

             Kontingente in Amazon Textract festlegen

  1. Standardkontingente können über die Konsole für Servicekontingente angezeigt oder geändert werden. TPS-Kontingente bestimmen, wie oft Sie Textract auffordern können, ein neues Dokument zu verarbeiten. Das Limit für gleichzeitige Jobs definiert, wie viele Jobs gleichzeitig ausgeführt werden können. 

             Standardkontingente

Mit dem Service Quotas Calculator können Sie Ihren Kontingentbedarf abschätzen.

Bewährte Methoden

Sie sollten mit den folgenden Best Practices für Textract vertraut sein:

  1. Stellen Sie ein optimales Eingabedokument bereit: Ein qualitativ hochwertiges Bild mit mindestens 150 DPI in einer Sprache und einem Format, das Textract unterstützt.
  2. Vertrauensbewertungen verwenden. Berücksichtigen Sie die von Textract-API-Operationen zurückgegebenen Konfidenzwerte und die Sensibilität ihres Anwendungsfalls. Der optimale Schwellenwert ist abhängig von der Anwendung. Erzwingen Sie in Anwendungen, die empfindlich auf Erkennungsfehler (falsch positive Ergebnisse) reagieren, einen Mindestwert für die Konfidenzbewertung.
  3. Erwägen Sie die Verwendung einer menschlichen Überprüfung. Sie können die Überprüfung durch Menschen in Ihre Arbeitsabläufe integrieren. Dies ist besonders wichtig für sensible Anwendungen wie Geschäftsprozesse, die finanzielle Entscheidungen beinhalten.
    Entwicklerhandbuch – Bewährte Methoden für Amazon Textract

Praktische Erfahrung

Sie sollten Erfahrung mit Textract haben, um Text, Handschrift und Daten aus Dokumenten zu extrahieren. Sie können die folgenden Tutorials und Demos verwenden, wenn Sie keine Anwendung haben, mit der Sie arbeiten können.

Tutorials

Extrahieren von Text und strukturierten Daten (AWS-Konsolen-Tutorial)

Hallo, Textract! (Anleitung zur Codierung)

Beispielanwendungen

AWS-KI-Services

AWS-Assistent für Text-zu-Sprache

Videos aus der Gemeinschaft

Einführung in Textract und .NET 6 – EP01 von Tom Moore

Einführung in Textract und .NET 6 – EP02 von Tom Moore 

 Erfahrung mit AWS

Anfänger oder Fortgeschrittene

 .NET-Erfahrung

Fortgeschrittene

 Veranschlagte Zeit

Bis zu 3 Stunden, je nach Vorerfahrung

 Verwendete Services

Amazon Textract

 Letzte Aktualisierung

7. Juli 2022

War diese Seite hilfreich?

Module

Dieses Tutorial ist in die folgenden Module unterteilt. Je nach Erfahrung und Bereitschaft können Sie die Module vollständig durchgehen oder sie überfliegen und überprüfen.

  1. Leitfaden zur Vorbereitung (3 Stunden).
  2. Bewertung der Fähigkeiten: Bewerten Sie Amazon Textract- und .NET-Workloads

Bewertung der Fähigkeiten