Microsoft bietet mit Azure AI Document Intelligence eine ausgereifte Lösung zum automatisierten Scannen und Analysieren von Dokumenten aller Dateiformate. Wir geben einen praktischen Hands-on Einstieg in die kostensparende KI-Technologie.
Key Facts:
- Worum gehts: Azure AI Document Intelligence ist eine KI-basierte Texterkennungs-Lösung in der Microsoft Azure Cloud. Die Lösung kann Informationen aus PDFs, Fotos, Grafiken oder Handschrift extrahieren und strukturiert aufbereiten.
- Vorteile: Dadurch lassen sich Prozesse vereinfachen, unliebsame Tätigkeiten automatisieren und Kosten einsparen. Anwendungsbeispiele sind z.B. Kundenservice (Anträge, Beschwerden), Rechnungswesen (Belege scannen), Gesundheitswesen (Rezepte), Labortechnik (Laborberichte), Archivwesen (Dokumentarchive) und viele weitere.
- Nutzung: Einbindung per API
- Kosten: ca. 1.50$ pro 1.000 Seiten
Das leistet Azure AI Document Intelligence
Azure AI Document Intelligence (siehe Microsoft-Produktseite) ist ein Teil der Azure AI-Plattform und nutzt Machine-Learning-Methoden, um Dokumente zu scannen, zu erkennen und zu klassifizieren. Es kann eine Vielzahl von Dokumententypen verarbeiten, darunter Rechnungen, Quittungen, Formulare und sogar handschriftliche Notizen sowie auch eigene Dokumenttypen.
Im Gegensatz zu Standalone-Lösungen wie OmniPage oder Adobe Acrobat Pro DC wird die Azure-basierte Lösung per API in eigene Anwendungen eingebunden. Durch diese direkte Integrierbarkeit kann man sich eine genau zu seinen Anforderungen und Prozessen passende Anwendung erstellen. Zur API-Integration ist etwas IT-Entwicklung notwendig, jedoch ist die Lösung denkbar einfach konfigurierbar und schnell nutzbar. Zudem liefert Microsoft alle Code-Beispiele, wodurch Entwickler wertvolle Zeit sparen.
Vorteile von Azure AI Document Intelligence
|
Kosten
Es fallen die bei Azure üblichen, nutzungsbasierten Kosten an. Der Vorteil der Cloud-Lösung ist, dass man nach Nutzungsvolumen bezahlt. Es muss also keine Lösung mit teuren Lizenzkosten angeschafft werden, sondern man kann flexibel nach verbrauchten Seiten bzw. Dokumenten zahlen (“Pay as you go”-Modell)
- 0-500 Seiten/Monat: kostenlos
- 1.000 Seiten/Monat: 1,50 $ (günstiger bei > 1 Mio Seiten/Monat)
- siehe Kostenkalkulator auf der Microsoft Azure Website
Texterkennung : Typische Use-Cases und Business-Vorteile
Azure AI Document Intelligence macht Kosten- und Effizienzvorteile für zahlreiche Branchen möglich. Kurz gesagt: Überall wo regelmäßig viele Dokumente verarbeitet werden, kann die Lösung helfen. Hier einige Beispiele.
Rechnungsbearbeitung: Azure AI Document Intelligence kann helfen, eingehende Rechnungen automatisch zu scannen, die relevanten Daten wie Betrag, Datum und Rechnungsnummer zu extrahieren und in das Buchhaltungssystem übertragen. Dies reduziert manuelle, aufwändige Tätigkeiten und beschleunigt den gesamten Buchhaltungsprozess.
In der Kundenbetreuung können Anfragen effizienter bearbeitet werden, indem eingehende Dokumente wie Antragsformulare oder Beschwerdeschreiben automatisch analysiert und klassifiziert werden. Dies führt zu einer schnelleren Zuordnung der Anfragen an die zuständigen Mitarbeiter und verbessert somit den Kundenservice.
Im Gesundheitswesen ermöglicht Azure AI Document Intelligence eine effizientere Verarbeitung von Patientenakten, indem sie relevante Informationen wie Diagnosen oder Behandlungspläne automatisch erfasst. Dies trägt zu einer verbesserten Patientenversorgung und effizienteren Verwaltungsabläufen bei.
In der Logistik kann die automatische Verarbeitung von Lieferscheinen und Frachtbriefen zu einer schnelleren Abwicklung der Lieferkettenprozesse führen, indem relevante Informationen wie Lieferadressen oder Produktlisten unmittelbar extrahiert und verarbeitet werden.
Im Bereich der Digital Humanities unterstützt Azure AI Document Intelligence den Aufbau digitaler Archive, indem es historische Dokumente und Manuskripte digitalisiert und analysiert. Prominente Beispiele solcher Dokumentbibliotheken wären z.B. das Project Gutenberg (tausende digitalisierte gemeinfreie Bücher kostenlos verfügbar machen), Internet Archive (digitale Inhalte von Websites bis hin zu Büchern und Musik). Diese Anwendungen ermöglichen einen breiten Zugang zu kulturellem und historischem Material, fördern die Forschung und Bildung und erleichtern die Erstellung interaktiver Lernmaterialien.
Tutorial: Azure AI Document Intelligence in 5 Schritten
In kürzester Zeit kann man sich in Azure eine neue Instanz der Lösung aufsetzen, diese im Studio interaktiv ausprobieren und anschließend per API in eigene Prozesse einbinden.
Über dieses Kurz-Tutorial:
- Ziel: Document Intelligence in Azure einsetzen und lernen wie es per API einbindet
- Geeignet für: Azure-Einsteiger und Profis, Developer, Data Analysts
- Zeitaufwand: 15 Minuten
- Kosten: kostenlos bis sehr gering
Die Schritte im Überblick:
- Schritt 1: Azure-Account einrichten
- Schritt 2: Document Intelligence-Ressource anlegen
- Schritt 3: Document Intelligence Studio aufrufen
- Schritt 4: Document Intelligence Studio nutzen
- Schritt 5: Integration per API
Schritt 1: Azure-Account einrichten
Wenn noch kein Azure-Account vorhanden ist, kann man Azure 30 Tage lang kostenlos testen und bekommt dafür 200 $ Startguthaben, was für viele Daten und Tests mehr als ausreichend ist.
- Richtet einen Azure-Account ein: Azure-Account erstellen
- Loggt euch anschließend in Azure ein: https://azure.microsoft.com
- Optional: Azure lernen - Der Online-Lernpfad "Azure Fundamentals - Architecture and Services" gibt eine gründliche Einführung in Azure (ca. 4h)
Schritt 2: Document Intelligence-Ressource anlegen
Jetzt richten wir uns eine kostenlose Cloud-Instanz von Document Intelligence ein (zuvor: “Form Recognizer”). Wechselt dafür in Azure zum Service “Azure AI Services” und legt dann mit dem Button "Create" eine neue Document-Intelligence-Ressource an. Ihr findet diesen Bereich dann immer auf dieser Übersichtsseite "Azure AI Services" links im Menü unter “Azure AI Document Intelligence” (oder unter diesem direkten Link).
Einstellungen:
- Subscription: Wählt eure Azure Subscription
- Ressourcengruppe: Erstellt eine neue Ressourcen-Gruppe (diese bündelt mehrere Azure-Dienste zusammen und man kann sie leicht finden und später wieder löschen)
- Name: DocumentIntelligence-RS1 (Vorschlag: Produktname + euer Namenskürzel + Nummer eures Tests, hier eine 1)
- Server-Region: Germany West Central (oder andern Standort in Europa)
- Kostenplan: Free F0 (bis 500 Seiten kostenlos)
- Klick auf “Create” und wartet 1-2 Minuten, bis eure Instanz erstellt wurde
Schritt 3: Document Intelligence Studio aufrufen
Im nächsten Schritt navigieren wir in Azure zum Document Intelligence Studio.
- Klickt auf “Go to Resource”
- Klickt auf Document Intelligence Studio > Try it
- oder direkt per URL: https://formrecognizer.appliedai.azure.com/studio?source=azureportal
Schritt 4: Document Intelligence Studio nutzen
In der Azure Cloud gibt es zu vielen Azure-Tools jeweils eine interaktive “Studio”-Anwendung, mit der man das Tool einfach testen kann.
Wir wollen nun testweise eine Tabelle eines Geschäftsberichts auslesen - einmal als PDF und einmal als gescannte Grafik. Dafür stehen im Studio bereits Vorlagen zur Verfügung.
Einstellungen:
- Anwendung: Klick auf “Layout” (wir wollen Tabellen extrahieren, also Dokumente die ein “Layout” besitzen)
- Dokument-Typ auswählen. Zur Wahl stehen: Invoice, Receipt, Identity, Health Insurance card, Business card, Contract, Tax Forms. Die Stärke der Lösung ist jedoch, dass man sich ganz eigene Dokumenttypen anlegen und trainieren kann. Man wählt einen passenden Dokument-Typ aus, damit die Daten in die richtige Struktur einlaufen.
- Dokument auswählen: Ladet eigene Dokumente hoch oder wählt links aus den Vorlagen den Geschäftsbericht aus.
- Klick auf ”Analyze options”: Hier könnt ihr noch ein paar Einstellungen vornehmen, wie z.B. die zu scannende Seite falls ihr ein mehrseitiges PDF scannen wollt.
- Klick auf “Run analysis”: Damit startet ihr die Textanalyse. Das Tool markiert nun alle erkannten Texte farbig.
Ergebnis:
Bei Klick auf einen extrahierten Bereich zeigt Document Intelligence rechts daneben die extrahierten Daten an, hier z.B. eine komplette Tabelle aus der Geschäftsbericht-Grafikdatei, bei der alle Zellen und Header automatisch richtig erkannt wurden. Diese liegt nun in strukturiertem Format vor, kann also maschinell einfach weiterverarbeitet werden.
Schritt 5: Integration per API
Azure AI Document Intelligence lässt sich leicht in bestehende Anwendungen integrieren. Es werden folgende Programmiersprachen unterstützt: C#, Java, Python, JavaScript oder per REST-API.
Zur Anleitung: Integration Azure AI Document Intellligence per API
Alternativen: Weitere Texterkennungs-Lösungen
Es gibt mehrere alternative Software-Lösungen auf dem Markt, die ähnliche Funktionen wie Azure AI Document Intelligence bieten, insbesondere im Bereich der Dokumentenanalyse und -verarbeitung mithilfe von Künstlicher Intelligenz und maschinellem Lernen. Einige dieser Lösungen sind:
Standalone-Lösungen (“On Premise”):
- Adobe Acrobat Pro DC: Bietet fortschrittliche PDF-Bearbeitungsfunktionen, einschließlich Texterkennung und -umwandlung, Dokumentenvergleich und einfacher Integration in andere Dienste.
- OmniPage von Kofax: Ein leistungsstarkes OCR-Tool, das für die Umwandlung und Digitalisierung von Dokumenten verwendet wird und eine hohe Genauigkeit bei der Texterkennung bietet.
- BBYY FineReader: Eine OCR- und PDF-Softwarelösung, die es ermöglicht, gescannte Dokumente und PDFs in bearbeitbare und durchsuchbare Formate umzuwandeln.
- Readiris: Eine OCR-Software, die Texterkennung in gescannten Dokumenten, PDFs und Bildern ermöglicht und die konvertierten Dateien in verschiedenen Formaten speichert.
- ScanSoft PaperPort: Bietet Dokumentenmanagement- und Digitalisierungsfunktionen und ermöglicht es, digitale Dokumente zu organisieren und zu teilen.
Cloud-Lösungen:
- Google Cloud Vision API: Diese Lösung von Google bietet fortschrittliche Bildanalysefunktionen und kann Texte in Dokumenten erkennen und extrahieren, ähnlich wie Azure AI Document Intelligence.
- Amazon Textract: Ein Service von Amazon Web Services, der es ermöglicht, Text und Daten aus Dokumenten automatisch zu extrahieren, zu verarbeiten und zu analysieren.
- IBM Watson Discovery: Dieses Tool von IBM nutzt KI, um komplexe Daten zu verstehen, zu analysieren und daraus wertvolle Erkenntnisse zu gewinnen. Es kann auch für die Verarbeitung von Dokumenten eingesetzt werden.
- ABBYY FlexiCapture: Eine fortschrittliche Lösung für die Datenerfassung und Dokumentenverarbeitung, die maschinelles Lernen nutzt, um Dokumente zu analysieren und Informationen zu extrahieren. (Cloud und Standalone möglich)
- Kofax Capture: Bietet automatisierte Erfassung, Verarbeitung und Integration von Dokumenten und Daten in Geschäftsprozesse und Systeme. (Cloud und Standalone möglich)
- Ephesoft Transact: Eine Plattform für die intelligente Dokumentenverarbeitung, die maschinelles Lernen und KI nutzt, um Daten aus Dokumenten zu extrahieren und zu klassifizieren. (Cloud und Standalone möglich)
Fazit: Microsoft Azure AI Document Intelligence
Microsofts Texterkennungs-Dienst “Azure AI Document Intelligence” bietet eine flexible und leistungsstarke, KI-basierte Lösung für die automatisierte Verarbeitung von vielen Dokumenten in Unternehmen.
Da als Cloud-Standort z.B. Deutschland oder jeder andere Standort in Europa und weltweit gewählt werden kann, lassen sich DSGVO-konforme Lösungen erstellen. Zudem sind die Kosten der Azure-Cloud-Lösung als günstig einzustufen. Wer bereits die Azure Cloud einsetzt, kann diesen Dienst schnell produktiv nutzen.
Durch Einbindung der Lösung in eigene Prozesse lassen sich Aufwände und Zeit sparen sowie neuartige, hilfreiche Anwendungen in Unternehmen schaffen.
Ralf Schukay liebt Analytics, Python & alles mit Daten. In seiner Freizeit spielt er Synthesizer (Nord, Novation), joggt und fährt Gravel Bike. Er arbeitet als Teamlead Analytics & Conversion mit einem fitten und netten Team in der Berliner Digitalagentur >MAI mediaworx<