KI-gestützte Dokumentenverarbeitungs-Pipeline
Extrahiert Daten aus eingehenden Geschäftsdokumenten per KI, prüft gegen ERP-Stammdaten mit Drei-Wege-Abgleich und erstellt die Buchung nach manueller Freigabe.
Teil eines grösseren Automatisierungsportals für standortübergreifende ERP-Operationen eines multinationalen Herstellers
Das Problem
Das Unternehmen verarbeitet Geschäftsdokumente — Lieferantenrechnungen, Kundenbestellungen, Lieferscheine, Gutschriften — über mehrere Standorte und Sprachen hinweg. Jedes Dokument erforderte, dass Mitarbeitende die E-Mail öffnen, das PDF lesen, jedes Feld erfassen — Dokumentnummer, Daten, Positionen mit Mengen und Preisen, MWST, Zahlungsdetails — dann alles gegen vorhandene Daten im ERP abgleichen und manuell eintippen. Ein einzelnes Dokument dauerte 5–15 Minuten, je nach Komplexität. Bei täglich eingehenden Dokumenten über mehrere Standorte — jeweils mit unterschiedlichen Partnern, Sprachen, Dokumentformaten und Geschäftslogik — verschlang der Prozess Stunden an Adminzeit pro Woche, blieb fehleranfällig bei Tippfehlern, übersehenen Preisabweichungen und verspäteten Buchungen, die zu Zahlungsverzug und Audit-Beanstandungen führten.
Laden Sie ein PDF hoch und sehen Sie KI-gestützte Datenextraktion in Aktion.
Extraktions-Demo testenDer Ansatz
Dokumenteneingang
- PDF-Erfassung
- Shared Mailboxes werden via Microsoft Graph API Webhooks überwacht oder in festen Intervallen über SMTP abgerufen, mit absenderbasiertem Routing an die richtige Gesellschaft und automatischer PDF-Extraktion aus Anhängen. Dokumente können auch per Drag-and-Drop-Upload oder durch Einfügen einer URL zu einer Datei im Shared Storage eingereicht werden. Alle erfassten PDFs werden zentral mit Metadaten zu Quelle, Gesellschaft und Dokumenttyp gespeichert.
Extraktion
- PDF-Parsing und KI-Extraktion
- Zuerst wird nach eingebetteten Strukturdaten gesucht (ZUGFeRD/XRechnung-XML). Falls keine vorhanden, übernimmt ein vision-fähiges Sprachmodell das visuelle Parsing und die Feldextraktion in einem Durchgang. Funktioniert sowohl mit gescannten Papierdokumenten als auch mit digital erstellten PDFs — ohne separate Vorverarbeitung oder partnerspezifische Template-Konfiguration.
- Strukturierte Extraktion mit Konfidenz-Scoring
- Ein spezialisierter Extraktions-Prompt liefert ~30 typisierte Felder als JSON: Dokumentmetadaten (Typ, Nummer, Datum, Währung), Lieferanten- und Kundendaten, Positionen mit Artikelnummern, Mengen, Einzelpreisen, Zolltarifnummern, Ursprungsland und weiteren zollrelevanten Informationen sowie referenzierte Dokumente, dazu Beträge mit MWST-Aufschlüsselung und Zahlungsinformationen (IBAN, QR-Referenz). Jedes Feld erhält einen Konfidenzwert, der die nachfolgende Validierungsschwelle steuert.
Validierung und Abgleich
- Partnerabgleich
- Extrahierte Lieferanten- und Kundennamen werden per Fuzzy-Matching gegen die ERP-Kreditoren- und Debitorenstammdaten abgeglichen — über Namensähnlichkeit und exakte Nummernsuche. Mehrere Kandidaten werden gereiht und dem Prüfer zur Bestätigung angezeigt.
- Artikelverifikation
- Jede Position wird gegen den ERP-Artikelstamm geprüft — zuerst exakte Übereinstimmung, dann Fuzzy-Fallback für Teilnummern. Gefundene Artikel zeigen die ERP-Bezeichnung, Zolltarifnummer, Ursprungsland und Präferenzhandelsberechtigung zur automatischen Gegenprüfung mit den PDF-Werten.
- Drei-Wege-Abgleich über die Dokumentkette
- Bei eingehenden Rechnungen verfolgt das System die Bestellreferenzen pro Position ins ERP, löst die zugehörigen Bestellpositionen auf und folgt der Vorgängerkette bis zu den Wareneingängen. So wird ein positionsgenauer Drei-Wege-Abgleich möglich — Mengen und Preise werden sowohl gegen die Bestellung als auch gegen den Wareneingang geprüft, Abweichungen einzeln markiert.
ERP-Integration
- Dokumenterstellung via REST API
- Freigegebene Dokumente werden im ERP über dessen REST API erstellt — unter Nutzung der bestehenden Transfer-Engine des Portals. Eingehende Lieferantenrechnungen werden zu Einkaufsrechnungen, Kundenbestellungen zu Verkaufsaufträgen. Das System befüllt alle Kopf- und Positionsfelder, verknüpft Vorgängerdokumente und hängt das Quell-PDF als Journaleintrag am erstellten Datensatz an.
Prüfung
- Interaktive Prüfansicht
- Eine geteilte Ansicht zeigt das Original-PDF neben jedem extrahierten Feld mit Konfidenzbalken und Inline-Bearbeitung. Jede Korrektur wird erfasst und hervorgehoben. Nicht zugeordnete Artikel bieten eine Sofortsuche gegen die ERP-Stammdaten. Ein Status-Banner fasst Konfidenz, Trefferquoten, Wareneingangsabdeckung und Preisabweichungen zusammen — bereit zur Buchung, oder Nachbearbeitung nötig.
Architektur
Das Ergebnis
Verarbeitungszeit
Unter 15 Sekunden vom PDF bis zum prüfbaren Ergebnis — statt 5–15 Minuten manueller Datenerfassung pro Dokument
Extraktionsumfang
Kopfdaten, Positionen mit Zolldetails, Zahlungsinformationen und Bestellreferenzen — ~30 Felder pro Dokument, keine manuelle Eingabe
Verifikation
Automatisierter Drei-Wege-Abgleich auf Positionsebene: Rechnung ↔ Bestellung ↔ Wareneingang, Abweichungen vor der Buchung markiert
Abdeckung
Alle Standorte und Sprachen in einer Pipeline — eingehende Lieferantenrechnungen und Kundenbestellungen