Texterkennung vebessern mit Wortlisten?

Ich muß ein bisschen ausholen:

Seit längerem entwickle und nutze ich ein Tool auf Basis OCRmyPDF. Das Tool hat eine längere Gescichte und soll Schlagworte (speziell Namen, vesicherungsnummern) in texten erkennen und einer DB zuordnen.

Also so eine Art paperless aber nicht nur zum Kateorisieren und Archivieren von Dokuemnetn, sondern mit Anbindung an eine Datenbindung.

Was macht mein Tool? in erster Linie OCRmyPDF.

Danach Abgleich des erkannten textes mit Datensätzen aus einer 3rd-party-DB. ursprünglich war das eine Datenbank mit Gutachtenaufträgen, mittlerweile ist es eine Praxis-verwaltung.

Das problem ist aber immer dasselbe: Finde Namen, gebutrsdaten und Verwaltungsnummern (Aktenzeichen, versicherungsnummern) wieder und ordne die Dokumente zu.

Leider ist die Texterkennung von ocrmypdf und sekundär auch paperless nicht immer gut.

Mein Problem sind z.B. exotische Namen (und ich spreche nicht von Umlauten), aber auch Datumsangaben.

So werden gerne in eingehenden Faxen die Punkte im Datum vergessen/unterschlagen, also 29 05 1980 anstatt 29.05.1980.

Da würde ich genre ansetzen.

Mir fiele ein, aus der Patiententabelle eine Wortliste zu erstellen und diese an ocrmypdf (über paperless) zu füttern.

Hat jemadn mit sowas Erfahrungen? Bringt das überhaupt was? Und wie würde man eine solche Liste an Paperless übergeben?

Ich antworte mir mal selber:

Ich nutze das Feature “Wortlisten” jetzt nur wenige Tage. Ohne ein eindeutiges Ergebnis nennen zu können, würde ich diese Massnahme ale verbesserung bezeichnen. Ich habe die Tage keine einzige Fehlzurodnung gehabt.

Mit “SELECT DISTINCT NACHNAME …. UNION SELECT DISTINCT VORNAME ….”

erzeuge ich eine Liste mit Namen (aktuell ca. 49000 Zeilen) und speichere die in einer Datei.

Innerhalb paperless /Konfiguration/OCR-Einstellungen übergebe ich diese Datei

{"user_words": "/opt/scripts/words.txt"}

Das verzeichnis muss über die docker.yml erreichbar gemacht werden.

Paperless nutzt ocrmypDF nutzt Tessseract