EPSON ES580W - eher schlechtere Scan/OCR-Ergebnisse

Vor kurzem wurde ein neuer Scanner vom Typ EPSON ES580W angeschafft

Nun stelle ich fest/habe ich den Eindruck, dass die Qualität der OCR für paperless schlechter geworden ist.

  1. vorgedruckter Text enthält wesentlich mehr Erkennungsfehler
  2. Wir drucken immer noch mit einem Nadeldrucker Personalien in Formulare. Das Farbband ist sicher nicht das aller-neueste, aber auch nicht innerhalb der letzten 2 Wochen kaputt gegangen. Dieser Text fehlt oft VÖLLIG im erkannten Text.

Daher die Frage/Bitte ob man im Zusammenspiel Scanner/Paperless etwas verbessern kann. Ich scanne mit 300dpi/Grau

Hallo @drnicolas

mit welchem Scanner und welchen settings has Du denn vorher gescannt?

Scan verbessern: Dein Ziel könnte es sein die Buchstabenpunkte (Nadeldrucker) zu verschmelzen.

  1. Probiere mal aus in B/W zu scannen. Die einzelnen Punkte in Grau Deines Nadeldruckers dürften eine Herausforderung für Tesseract sein.
  2. Hintergrund entfernen ausprobieren?
  3. Textverbesserung (Text Enhancement) anstellen?

Ziel sollte sein eine scan hinzubekommen wo alle Buchstaben schwarz auf weissem Hintergrund zu sehen sind, ausprobieren hilft da. Settings dann als Vorlage im Scanner speichern.

OCR Optimierung

PAPERLESS_OCR_CLEAN: clean könnte mittels unpaper den Scan weiter optimieren ( Tells paperless to use unpaper to clean any input document before sending it to tesseract. This uses more resources, but generally results in better OCR results.)

Im Internet findet man Hinweise die mittels direkter tesseract Argumenten verbessere OCR Ergebnisse erzielt haben, das habe ich aber noch nie benötigt…

PAPERLESS_OCR_USER_ARGS='{"thresholding": "sauvola", "dpi": 300}'

Am besten mal Parameter für Parameter ausprobieren. Wichtig sollte aber sicher sein den Scan erstmal zu optimieren da gute OCR Ergebnisse bei Nadeldruck nicht zu erwarten sind.

LG
Jürgen

Hallo @drnicolas,

wie schon im Beitrag „Paperless OCR verbessern: best practise?“ beschrieben, laufen bei mir die Scans durch einen „scan_input“-Ordner, werden dort veredelt (Auflösung, Helligkeit, Kontrast usw.) und durchlaufen dann einen KI-Server. Dieser kann, im Gegensatz zu Tesseract, nicht nur die einzelnen Zeichen deuten, sondern die Zeichenketten in einen Kontext setzen und daraus sinnvollen Text generieren.

(Bild: einer der Endgegner für Paperless-NGX, man beachte die kleine graue Schrift)

PS: Die Archiv-Datei enthält einen kompletten positionsgetreuen neuen OCR-Layer

Grüße Heiko

Danke für die Tips.

Ich habe momentan nur die Umstellung auf B/W umgesetzt und das scheint schon vieles verbessert zu haben.