OCR Fragen und Probleme

Guten Abend,

  1. lässt sich OCR für Dokumente, die bereits durchsuchbar sind abschalten?

  2. was kann ich an den Scaneinstellungen (habe den Epson 580W) ändern, damit die Texterkennung besser wird. Hab mir die Inhaltsdaten mal angeschaut und festgestellt, dass die Texterkennung in manchen Dokumente grauenhaft ist und ganze Textteile fehlen oder nur Salat ergeben.

Besten Dank,
Thomas

Hallo Thomas,

Ja, dafür gibt es entsprechende Umgebungsvariablen, die gesetzt werden müssen.
Sie sind hier dokumentiert:
https://docs.paperless-ngx.com/configuration/#ocr

In deinem Fall würde ich prüfen:

Ist die OCR-Sprache auf Deutsch?

PAPERLESS_OCR_LANGUAGE=deu

Werden durchsuchbare PDFs NICHT erneut durch OCR verarbeitet?

PAPERLESS_OCR_MODE=skip

(wenn diese Variable nicht gesetzt ist, ist automatisch skip konfiguriert).

Wenn du möchtest, kannst du auch mal ein Beispiel (Original aus dem Scanner + verarbeitet von paperless + deine docker-compose.env mit uns teilen (Keys, etc. vorher unkenntlich machen)

Warum werden diese Einstellungen über die .env konfiguriert, wenn das doch in der Oberfläche einstellbar ist?

Oder ist das unter Konfiguration → OCR-Einstellungen was anderes?

Diese Möglichkeit ist erst neu hinzugekommen in den letzten Wochen.
Wenn in den Release Notes der letzten Wochen dazu nix dokumentiert wurde heißt es nur Try and Error…

Seh die env einfach als Grundgerüst und diese Option als Feintuning.

Sehr cool, danke für die Info.