Welcher OCR Modus ist der Beste?

baja · 11. Januar 2025 um 12:27

Und hier zu meiner dritten Frage.

Welcher OCR Modus ist der Beste/sinnvollste um die Dokumente am besten auszulesen.
Standard ist glaube ich skip.

Ich habe folgende Herausforderung. Ich scanne das Dokument mit einem Epson WF-3820 ein. Dies als Text mit 300dpi. Bisher scheint Paperless auch alles gut zu erkennen. Bei den ersten Seiten ist mir jetzt aber etwas aufgefallen.

Ich habe folgende Dokumente die diesen Text haben:

Dies wird im Inhalt dann so dargestellt:
:vaii@ilii:::::]:]]:]:]: : : : : i: : : : :]: : :r: : : : :mmm:: : m1.ä•iti:: : "1t•im:i~m:: : :M11~~1r:1~µ1?:~ ~~t.l :l§~1::I: :
Habe ich die Möglichkeit es hinzubekommen, das er trotzdem die Wörter wie z.b. Verbrauch erkennt?

Sollte ich einen anderen OCR Modus verwenden?

Gruß

Jake · 11. Januar 2025 um 13:29

Hi,

Na ja, was bei dem einem am Besten funktioniert muss beim anderen nicht wirklich gut funktionieren.

Bei der Einstellung Skip werden die Seiten übersprungen wo der Text schon vorhanden ist.
Ist in deinem Dokumente schon ein Texte vorhanden, egal ob falsch oder korrekt wird das Dokument bzw. die Seite von der OCR Prüfung ausgenommen.

Also, Dokument überprüfen ob schon OCR Text vorhanden ist, wenn nicht die beiden anderen Modi in Paperless mit dem selben Dokument testen und vergleichen welcher OCR Modus am besten funktioniert.

VG

baja · 11. Januar 2025 um 14:28

Danke,

werde/habe ich gemacht. beim Modus Redo bekomme ich leider einen Fehler:
WP_Abrechnung_2015.pdf: Error occurred while consuming document
WP_Abrechnung_2015.pdf: SubprocessOutputError: Ghostscript PDF/A rendering failed. See logs for more information.

Wo finde ich die Logs?

Probiere jetzt noch Force, mal sehen was dann passiert.

Jake · 11. Januar 2025 um 15:20

Da wurde ein Fehler ausgespuckt.

Die Logs findest du unten links = Protokolle

Oder oben rechts wo dein Anmeldename steht > Einstellungen > Django Adminprofil öffnen > Logeinträge

baja · 13. Januar 2025 um 16:07

OK. Danke. Schaue ich mir an.