Welcher OCR Modus ist der Beste/sinnvollste um die Dokumente am besten auszulesen.
Standard ist glaube ich skip.
Ich habe folgende Herausforderung. Ich scanne das Dokument mit einem Epson WF-3820 ein. Dies als Text mit 300dpi. Bisher scheint Paperless auch alles gut zu erkennen. Bei den ersten Seiten ist mir jetzt aber etwas aufgefallen.
Ich habe folgende Dokumente die diesen Text haben:
Dies wird im Inhalt dann so dargestellt:
:vaii@ilii:::::]:]]:]:]: : : : : i: : : : :]: : :r: : : : :mmm:: : m1.ä•iti:: : "1t•im:i~m:: : :M11~~1r:1~µ1?:~ ~~t.l :l§~1::I: :
Habe ich die Möglichkeit es hinzubekommen, das er trotzdem die Wörter wie z.b. Verbrauch erkennt?
Na ja, was bei dem einem am Besten funktioniert muss beim anderen nicht wirklich gut funktionieren.
Bei der Einstellung Skip werden die Seiten übersprungen wo der Text schon vorhanden ist.
Ist in deinem Dokumente schon ein Texte vorhanden, egal ob falsch oder korrekt wird das Dokument bzw. die Seite von der OCR Prüfung ausgenommen.
Also, Dokument überprüfen ob schon OCR Text vorhanden ist, wenn nicht die beiden anderen Modi in Paperless mit dem selben Dokument testen und vergleichen welcher OCR Modus am besten funktioniert.
werde/habe ich gemacht. beim Modus Redo bekomme ich leider einen Fehler:
WP_Abrechnung_2015.pdf: Error occurred while consuming document
WP_Abrechnung_2015.pdf: SubprocessOutputError: Ghostscript PDF/A rendering failed. See logs for more information.
Wo finde ich die Logs?
Probiere jetzt noch Force, mal sehen was dann passiert.