OCR Fragen und Probleme

Guten Abend,

  1. lässt sich OCR für Dokumente, die bereits durchsuchbar sind abschalten?

  2. was kann ich an den Scaneinstellungen (habe den Epson 580W) ändern, damit die Texterkennung besser wird. Hab mir die Inhaltsdaten mal angeschaut und festgestellt, dass die Texterkennung in manchen Dokumente grauenhaft ist und ganze Textteile fehlen oder nur Salat ergeben.

Besten Dank,
Thomas

Hallo Thomas,

Ja, dafür gibt es entsprechende Umgebungsvariablen, die gesetzt werden müssen.
Sie sind hier dokumentiert:
https://docs.paperless-ngx.com/configuration/#ocr

In deinem Fall würde ich prüfen:

Ist die OCR-Sprache auf Deutsch?

PAPERLESS_OCR_LANGUAGE=deu

Werden durchsuchbare PDFs NICHT erneut durch OCR verarbeitet?

PAPERLESS_OCR_MODE=skip

(wenn diese Variable nicht gesetzt ist, ist automatisch skip konfiguriert).

Wenn du möchtest, kannst du auch mal ein Beispiel (Original aus dem Scanner + verarbeitet von paperless + deine docker-compose.env mit uns teilen (Keys, etc. vorher unkenntlich machen)