Den Sellerie entwurzeln ? Celery / Trainingsdaten

Guten Morgen zusammen,

Nein hier geht’s nicht wirklich um Gemüse :wink:

Ich muss mich künftig auch im den digitalen und noch analogen Papierkram mener Eltern kümmern und die Automatik/KI = Celery/Sellerie liefert plötzlich nur Müll als Ergebnisse bei der Erkennung der Dokumente.

Grundproblem:
Die erkennung und Trennung der verschiedenen Konten auf Basis der Kontonummer im Dateinamen.
Sowie die Erkennung und Trennung zwischen zweier VR Banken.

Zu meinen vorhanden 1500 Dokumenten kommen dazu nun knapp 400 „Kontoauszüge“ deshalb hinzu.

Nachdem Ich dann deswegen mit Workflows diesbezüglich nachhelfen konnte in vielen Versuchen klappt es nun wenigstens so.

Mir stellt sich nun die Frage ob ich einfach zu ungeduldig bin und die KI einfach mit den neuen Daten „noch“ nicht klar kommt und mehr Training benötigt, oder ob man nicht nochmals von neu beginnen sollte und ob es möglich ist die Daten zu löschen.

Die offizielle Dokumentation und Google war leider nicht ergiebig in der Suche.

Hattet Ihr ähnliche Probleme und wie war die Lösung ?

Ich bin mir nicht sicher, ob das überhaupt eine sinnvolle Aufgabe für die KI ist.
Ohne, dass die KI weiß, woran sie genau die beiden VR-Banken unterscheiden soll, wird das ein munteres Raten sein, weil die Dokumente an sich ja sehr sehr ähnlich aufgebaut sind.
Wenn dann noch teilweise die Kontonummern falsch erkannt werden in der OCR, wird es sehr schnell sehr schlecht fürchte ich.

Was ich schon bei Kunden von mir gemacht habe: RegEx und zwar so:

  • In die OCR von ca. 10-20 Dokumenten schauen und prüfen, ob das Unterscheidungsmerkmal sauber erkannt wird (bei dir: Kontonummer)
  • Wenn ja: Workflow aufsetzen, der basierend auf diesem String eine Klassifizierung vornimmt.
  • Wenn nein: Prüfen, ob evt. ein Teil dieser Zeichenkette zuverlässig erkannt wird. Dann einen RegEx für diesen Teil bauen.

Bisher ist mir noch keine bessere Lösung bekannt, vielleicht melden sich aber noch Profi-Anwender :wink:

1 „Gefällt mir“

Hallo zusammen,

ich hätte ähnliche Herausforderung, wobei es um Arbeitgeberunterlagen und Steuerunterlagen von mir und meiner Frau ging.

In beiden Fällen war die Funktion „Arbeitsabläufe“ wirklich sehr hilfreich und auch für die Zukunft lies sich darüber alles vollständig automatisieren, sogar die korrekte Dateibenennung nach Trigger z.B. in Lohnabrechnung 08/2020 mit individuellen Speicherpfaden in die richtige Benutzerstruktur ist kein Problem.

Im Prinzip recht einfach - schau dir ganz genau die Dokumente an und such dir einen ersten Trigger, um das Dokument zu identifizieren. Somit schafft man die Basis für weitere Trigger und kann diese immer weiter verfeinern und so ablegen wie man es benötigt. Jedoch so wie Stefan sagt muss die OCR diesen Trigger einwandfrei erkennen können. Bei sehr alten Dokumenten habe ich vereinzelt die Trigger digital hinzugefügt.

Ich könnte mir in deinem Beispiel vorstellen als erstes die Bank zu triggern, danach die Person oder Kontonummer. In diesem Zuge kannst du direkt automatisiert die Dateibenennung vornehmen und Tags, Benutzer sowie Speicherpfade definieren. So sollte auch in Zukunft alles reibungslos laufen.

Ansonsten gab es hier einen Beitrag, wo sich jemand sehr akribisch mit dem Thema Banken beschäftigt hatte.

VG

OCR braucht es dazu nicht , da es eigentlich nur darum geht durch die Kontonummer am Anfang im Dateinamen zu Sortieren und markieren.

Die Daten sind alle schon im Digitalen Ursprung direkt von der Bank.

Optisch und Inhaltlich sind Unterschiedliche Layouts da die eine fruher PSD Bank war und dann zur RV-Bank N-O würde und nicht das typische VR Logo hat.
Diesen Unterschied könnte dann nur via OCR erkannt werden wenn man keine eindeutigen Dateinamen hätte.

Das Problem an den Workflows ist das zumindest im Log sichtbar jedes Dokument alle Workflows passieren muss.

Mein Auslöser war Datei Aktualisierung und Inbox und hab immer den Inbox tag kurz entfernt und wieder neu gesetzt für nen neuen Testlauf.

Im letzten Gang spät nachts sah es dann gut aus obwohl nicht viel geändert wurde.

Bisher lief es ohne Probleme und die letzten Monate fast voll automatisch wo ich nur noch den Inbox Tag entfernen musste.

Update:
Die Worklows Laufen nun besser seit ich schlafen ging.
Aktuelle dauert es ziemlich lange bis er die 700 Dokumente im Posteingang abgearbeitet hat.
Vielleicht muss ich noch etwas nachhelfen… Aber ist ja keine alltägliche Situation.

Ich habe auch kurz überlegt und geguckt wegen den Markerm via OCR aber da kommen die Zahlen zu oft in anderen Dokumenten vor.

Freut mich, wenn es anscheinend nun geklappt hat!

Habe auch jetzt erst gesehen, dass du deine Zuordnung ausgehend vom Dateinamen organisiert hast. Ich glaube, dass es dennoch einfacher über die "Arbeitsabläufe "anhand der inhaltlichen OCR Erkennung gewesen wäre.

Deine Aussage, dass die Dokumente sichtlich alle Workflows passieren, klingt als wäre das ein Problem - warum? Die Arbeitsabläufe prüfen nur definierte Merkmale. Sollte das Merkmal nicht gegeben sein hört er doch sofort auf oder?

Wie oben bereits beschrieben sortiere ich auch anhand gleicher und unterschiedlicher Nummern den gleichen Korrespondenten ausgehend von der OCR Erkennung dieser Nummern und im weiteren anhand von definierten Schlagwörtern und das Fehlerfrei. Zuletzt habe ich auch einige hundert Dokumente reingeschoben und diese wurden innerhalb einer Stunde Fehlerfrei sortiert. Daher bin ich über deinen zeitlichen Aufwand etwas irritiert.

Auch wenn die Nummern in anderen Dokumenten vorkommen kannst du diese Dokumente über die Abläufe rausfiltern. Auch könntest du anhand des Datums den veränderten Korrespondenten beim abspeichern abbilden, wenn nur ein Logo gegeben ist. Natürlich hat man dann bis zu ein dutzend Abläufe aber diese sind schnell eingetragen.

Es ist dennoch spannend wie jeder seinen Weg mit paperless findet und jeder kreativ in der Bearbeitung wird - finde ich wirklich klasse!

Naja der Dateiname ist Fix und liefert alle Anhaltspunkte die es braucht.

Ich glaube dazu sollten aber auch die entsprechenden Tags vom Erkennungstyp „Auto“ (KI) auf „Keine“ gestellt werden da mir wohl die KI ggf. immer mit reingespielt hat. So zumindest meine neuesten Gedanken dazu.

Zum Thema OCR ist mir allgemein folgendes aufgefallen…
Wenn z.B. Kontoauszüge ausgelesen werden sind „Kontonummer 123123131“ zwar positionstechnisch auf der gleichen Linie… werden aber OCR Technisch gefühlt als Tabelle betrachtet und somit bringt ein Suchmuster „Kontonummer 123123131“ leider nichts da der teil mit der Nummer zumindest mit nem Tabulator oder ähnlichem getrennt ist.
Das habe ich übrigens auch auf anderen Dokumenten beobachten müssen wo ich mir dachte ich nehm einfach „Konto/Kundennummer 121312313“ her und hab mich dann gewundert wieso es nicht funktioniert hat.

Muss mir da noch was überlegen.

Naja wenn jedes Dokument erst 20 Workflows und dann noch zig andere dinge durchlaufen muss verzögert das den ganzen Prozess bei mehreren Dokumenten.

Mein Zeitlicher Aufwand war dem Troubleshooting geschuldet weil dann alle im Posteingang den Inbox Tag erneut bekamen damit diese erneut verarbeitet werden… um zu sehen obs nun klappt. :smiley:

Genau das bringt mich zu der Möglichkeit ob mein Workflow vielleicht in einer Falschen Reihenfolge ist oder deswegen ein Teil übersprungen wird.

@Stefan Ist die Reihenfolge in der Dokumente durch die diversen Instanzen ( Arbeitsabläufe, TAGs usw. ) eigentlich irgendwie vorgegeben oder gibt es eine fixe Reihenfolge ?
Ich würde wenn dann gerne meinen Workflow dahingehend optimieren nicht das Station B und C überflogen werden weil die anfrage schon am besten bei A hätte abgefragt werden müssen…
Hoffe du verstehst worauf ich hinaus will.

Naja jeder machts wie er es am besten weiß.
Ich musste anfangs vor über nem Jahr mal ordentlich Zeit investieren bis es weitgehend automatisch lief.

Soweit es möglich ist es zu verstehen such ich mir meinen Weg, ansonsten solange Probieren bis man es verstanden hat.
Oder mal was im Forum posten oder Google oder Chat-GPT fragen :smiley:

Nach über nem Jahr gibt es immer noch vieles zu lernen.