Azure AI Document Intelligence zur KI-basierten Texterkennung nutzen

Microsoft bietet mit Azure AI Document Intelligence eine ausgereifte Lösung zum automatisierten Scannen und Analysieren von Dokumenten aller Dateiformate. Wir geben einen praktischen Hands-on Einstieg in die kostensparende KI-Technologie.

Key Facts:

  • Worum gehts: Azure AI Document Intelligence ist eine KI-basierte Texterkennungs-Lösung in der Microsoft Azure Cloud. Die Lösung kann Informationen aus PDFs, Fotos, Grafiken oder Handschrift extrahieren und strukturiert aufbereiten. 
  • Vorteile: Dadurch lassen sich Prozesse vereinfachen, unliebsame Tätigkeiten automatisieren und Kosten einsparen. Anwendungsbeispiele sind z.B. Kundenservice (Anträge, Beschwerden), Rechnungswesen (Belege scannen), Gesundheitswesen (Rezepte), Labortechnik (Laborberichte), Archivwesen (Dokumentarchive) und viele weitere.
  • Nutzung: Einbindung per API
  • Kosten: ca. 1.50$ pro 1.000 Seiten

Das leistet Azure AI Document Intelligence

Azure AI Document Intelligence (siehe Microsoft-Produktseite) ist ein Teil der Azure AI-Plattform und nutzt Machine-Learning-Methoden, um Dokumente zu scannen, zu erkennen und zu klassifizieren. Es kann eine Vielzahl von Dokumententypen verarbeiten, darunter Rechnungen, Quittungen, Formulare und sogar handschriftliche Notizen sowie auch eigene Dokumenttypen. 

Im Gegensatz zu Standalone-Lösungen wie OmniPage oder Adobe Acrobat Pro DC wird die Azure-basierte Lösung per API in eigene Anwendungen eingebunden. Durch diese direkte Integrierbarkeit kann man sich eine genau zu seinen Anforderungen und Prozessen passende Anwendung erstellen. Zur API-Integration ist etwas IT-Entwicklung notwendig, jedoch ist die Lösung denkbar einfach konfigurierbar und schnell nutzbar. Zudem liefert Microsoft alle Code-Beispiele, wodurch Entwickler wertvolle Zeit sparen. 

Vorteile von Azure AI Document Intelligence

  • Text und Tabellen in Dokumenten aller Formate wie PDF, Grafik, Handschrift erkennen (OCR) 
  • Schnelle Dokumentenverarbeitung im Unternehmen einführen (Effizienz)
  • Kosten reduzieren (Automatisierung statt Handarbeit)
  • Fehler minimieren (z.B. Tippfehler beim manuellen Eingeben vermeiden)

Kosten

Es fallen die bei Azure üblichen, nutzungsbasierten Kosten an. Der Vorteil der Cloud-Lösung ist, dass man nach Nutzungsvolumen bezahlt. Es muss also keine Lösung mit teuren Lizenzkosten angeschafft werden, sondern man kann flexibel nach verbrauchten Seiten bzw. Dokumenten zahlen (“Pay as you go”-Modell) 

  • 0-500 Seiten/Monat: kostenlos
  • 1.000 Seiten/Monat: 1,50 $ (günstiger bei > 1 Mio Seiten/Monat)
  • siehe Kostenkalkulator auf der Microsoft Azure Website

 

Texterkennung : Typische Use-Cases und Business-Vorteile

Azure AI Document Intelligence macht Kosten- und Effizienzvorteile für zahlreiche Branchen möglich. Kurz gesagt: Überall wo regelmäßig viele Dokumente verarbeitet werden, kann die Lösung helfen. Hier einige Beispiele. 

Rechnungsbearbeitung: Azure AI Document Intelligence kann helfen, eingehende Rechnungen automatisch zu scannen, die relevanten Daten wie Betrag, Datum und Rechnungsnummer zu extrahieren und in das Buchhaltungssystem übertragen. Dies reduziert manuelle, aufwändige Tätigkeiten und beschleunigt den gesamten Buchhaltungsprozess.

In der Kundenbetreuung können Anfragen effizienter bearbeitet werden, indem eingehende Dokumente wie Antragsformulare oder Beschwerdeschreiben automatisch analysiert und klassifiziert werden. Dies führt zu einer schnelleren Zuordnung der Anfragen an die zuständigen Mitarbeiter und verbessert somit den Kundenservice.

Im Gesundheitswesen ermöglicht Azure AI Document Intelligence eine effizientere Verarbeitung von Patientenakten, indem sie relevante Informationen wie Diagnosen oder Behandlungspläne automatisch erfasst. Dies trägt zu einer verbesserten Patientenversorgung und effizienteren Verwaltungsabläufen bei.

In der Logistik kann die automatische Verarbeitung von Lieferscheinen und Frachtbriefen zu einer schnelleren Abwicklung der Lieferkettenprozesse führen, indem relevante Informationen wie Lieferadressen oder Produktlisten unmittelbar extrahiert und verarbeitet werden.

Im Bereich der Digital Humanities unterstützt Azure AI Document Intelligence den Aufbau digitaler Archive, indem es historische Dokumente und Manuskripte digitalisiert und analysiert. Prominente Beispiele solcher Dokumentbibliotheken wären z.B. das Project Gutenberg (tausende digitalisierte gemeinfreie Bücher kostenlos verfügbar machen), Internet Archive (digitale Inhalte von Websites bis hin zu Büchern und Musik). Diese Anwendungen ermöglichen einen breiten Zugang zu kulturellem und historischem Material, fördern die Forschung und Bildung und erleichtern die Erstellung interaktiver Lernmaterialien.

 

Tutorial: Azure AI Document Intelligence in 5 Schritten

In kürzester Zeit kann man sich in Azure eine neue Instanz der Lösung aufsetzen, diese im Studio interaktiv ausprobieren und anschließend per API in eigene Prozesse einbinden.

Über dieses Kurz-Tutorial:

  • Ziel: Document Intelligence in Azure einsetzen und lernen wie es per API einbindet
  • Geeignet für: Azure-Einsteiger und Profis, Developer, Data Analysts
  • Zeitaufwand: 15 Minuten
  • Kosten: kostenlos bis sehr gering

Die Schritte im Überblick:

  • Schritt 1: Azure-Account einrichten
  • Schritt 2: Document Intelligence-Ressource anlegen
  • Schritt 3: Document Intelligence Studio aufrufen
  • Schritt 4: Document Intelligence Studio nutzen
  • Schritt 5: Integration per API

Schritt 1: Azure-Account einrichten

Wenn noch kein Azure-Account vorhanden ist, kann man Azure 30 Tage lang kostenlos testen und bekommt dafür 200 $ Startguthaben, was für viele Daten und Tests mehr als ausreichend ist. 

Schritt 2: Document Intelligence-Ressource anlegen

Jetzt richten wir uns eine kostenlose Cloud-Instanz von Document Intelligence ein (zuvor: “Form Recognizer”). Wechselt dafür in Azure zum Service “Azure AI Services” und legt dann mit dem Button "Create" eine neue Document-Intelligence-Ressource an. Ihr findet diesen Bereich dann immer auf dieser Übersichtsseite "Azure AI Services" links im Menü unter “Azure AI Document Intelligence” (oder unter diesem direkten Link). 

Einstellungen:

  • Subscription: Wählt eure Azure Subscription
  • Ressourcengruppe: Erstellt eine neue Ressourcen-Gruppe (diese bündelt mehrere Azure-Dienste zusammen und man kann sie leicht finden und später wieder löschen)
  • Name: DocumentIntelligence-RS1 (Vorschlag: Produktname + euer Namenskürzel + Nummer eures Tests, hier eine 1) 
  • Server-Region: Germany West Central (oder andern Standort in Europa)
  • Kostenplan: Free F0 (bis 500 Seiten kostenlos)
  • Klick auf “Create” und wartet 1-2 Minuten, bis eure Instanz erstellt wurde

Schritt 3: Document Intelligence Studio aufrufen

Im nächsten Schritt navigieren wir in Azure zum Document Intelligence Studio. 

Schritt 4: Document Intelligence Studio nutzen

In der Azure Cloud gibt es zu vielen Azure-Tools jeweils eine interaktive “Studio”-Anwendung, mit der man das Tool einfach testen kann.

Wir wollen nun testweise eine Tabelle eines Geschäftsberichts auslesen - einmal als PDF und einmal als gescannte Grafik. Dafür stehen im Studio bereits Vorlagen zur Verfügung. 

Einstellungen:

  • Anwendung: Klick auf “Layout” (wir wollen Tabellen extrahieren, also Dokumente die ein “Layout” besitzen)
  • Dokument-Typ auswählen. Zur Wahl stehen: Invoice, Receipt, Identity, Health Insurance card, Business card, Contract, Tax Forms. Die Stärke der Lösung ist jedoch, dass man sich ganz eigene Dokumenttypen anlegen und trainieren kann. Man wählt einen passenden Dokument-Typ aus, damit die Daten in die richtige Struktur einlaufen. 
  • Dokument auswählen: Ladet eigene Dokumente hoch oder wählt links aus den Vorlagen den Geschäftsbericht aus.
  • Klick auf ”Analyze options”: Hier könnt ihr noch ein paar Einstellungen vornehmen, wie z.B. die zu scannende Seite falls ihr ein mehrseitiges PDF scannen wollt.
  • Klick auf “Run analysis”: Damit startet ihr die Textanalyse. Das Tool markiert nun alle erkannten Texte farbig.  

Ergebnis:

Bei Klick auf einen extrahierten Bereich zeigt Document Intelligence rechts daneben die extrahierten Daten an, hier z.B. eine komplette Tabelle aus der Geschäftsbericht-Grafikdatei, bei der alle Zellen und Header automatisch richtig erkannt wurden. Diese liegt nun in strukturiertem Format vor, kann also maschinell einfach weiterverarbeitet werden. 

Schritt 5: Integration per API

Azure AI Document Intelligence lässt sich leicht in bestehende Anwendungen integrieren. Es werden folgende Programmiersprachen unterstützt: C#, Java, Python, JavaScript oder per REST-API. 

Zur Anleitung: Integration Azure AI Document Intellligence per API 

 

Alternativen: Weitere Texterkennungs-Lösungen

Es gibt mehrere alternative Software-Lösungen auf dem Markt, die ähnliche Funktionen wie Azure AI Document Intelligence bieten, insbesondere im Bereich der Dokumentenanalyse und -verarbeitung mithilfe von Künstlicher Intelligenz und maschinellem Lernen. Einige dieser Lösungen sind:

Standalone-Lösungen (“On Premise”):

  • Adobe Acrobat Pro DC: Bietet fortschrittliche PDF-Bearbeitungsfunktionen, einschließlich Texterkennung und -umwandlung, Dokumentenvergleich und einfacher Integration in andere Dienste.
  • OmniPage von Kofax: Ein leistungsstarkes OCR-Tool, das für die Umwandlung und Digitalisierung von Dokumenten verwendet wird und eine hohe Genauigkeit bei der Texterkennung bietet.
  • BBYY FineReader: Eine OCR- und PDF-Softwarelösung, die es ermöglicht, gescannte Dokumente und PDFs in bearbeitbare und durchsuchbare Formate umzuwandeln.
  • Readiris: Eine OCR-Software, die Texterkennung in gescannten Dokumenten, PDFs und Bildern ermöglicht und die konvertierten Dateien in verschiedenen Formaten speichert.
  • ScanSoft PaperPort: Bietet Dokumentenmanagement- und Digitalisierungsfunktionen und ermöglicht es, digitale Dokumente zu organisieren und zu teilen.

Cloud-Lösungen:

  • Google Cloud Vision API: Diese Lösung von Google bietet fortschrittliche Bildanalysefunktionen und kann Texte in Dokumenten erkennen und extrahieren, ähnlich wie Azure AI Document Intelligence.
  • Amazon Textract: Ein Service von Amazon Web Services, der es ermöglicht, Text und Daten aus Dokumenten automatisch zu extrahieren, zu verarbeiten und zu analysieren.
  • IBM Watson Discovery: Dieses Tool von IBM nutzt KI, um komplexe Daten zu verstehen, zu analysieren und daraus wertvolle Erkenntnisse zu gewinnen. Es kann auch für die Verarbeitung von Dokumenten eingesetzt werden.
  • ABBYY FlexiCapture: Eine fortschrittliche Lösung für die Datenerfassung und Dokumentenverarbeitung, die maschinelles Lernen nutzt, um Dokumente zu analysieren und Informationen zu extrahieren. (Cloud und Standalone möglich)
  • Kofax Capture: Bietet automatisierte Erfassung, Verarbeitung und Integration von Dokumenten und Daten in Geschäftsprozesse und Systeme. (Cloud und Standalone möglich)
  • Ephesoft Transact: Eine Plattform für die intelligente Dokumentenverarbeitung, die maschinelles Lernen und KI nutzt, um Daten aus Dokumenten zu extrahieren und zu klassifizieren. (Cloud und Standalone möglich)

 

Fazit: Microsoft Azure AI Document Intelligence

Microsofts Texterkennungs-Dienst “Azure AI Document Intelligence” bietet eine flexible und leistungsstarke, KI-basierte Lösung für die automatisierte Verarbeitung von vielen Dokumenten in Unternehmen. 

Da als Cloud-Standort z.B. Deutschland oder jeder andere Standort in Europa und weltweit gewählt werden kann, lassen sich DSGVO-konforme Lösungen erstellen. Zudem sind die Kosten der Azure-Cloud-Lösung als günstig einzustufen. Wer bereits die Azure Cloud einsetzt, kann diesen Dienst schnell produktiv nutzen. 

Durch Einbindung der Lösung in eigene Prozesse lassen sich Aufwände und Zeit sparen sowie neuartige, hilfreiche Anwendungen in Unternehmen schaffen.