OCR Fragen und Probleme

tommyro · 5. Dezember 2023 um 22:32

Guten Abend,

lässt sich OCR für Dokumente, die bereits durchsuchbar sind abschalten?
was kann ich an den Scaneinstellungen (habe den Epson 580W) ändern, damit die Texterkennung besser wird. Hab mir die Inhaltsdaten mal angeschaut und festgestellt, dass die Texterkennung in manchen Dokumente grauenhaft ist und ganze Textteile fehlen oder nur Salat ergeben.

Besten Dank,
Thomas

Stefan · 6. Dezember 2023 um 06:31

Hallo Thomas,

Ja, dafür gibt es entsprechende Umgebungsvariablen, die gesetzt werden müssen.
Sie sind hier dokumentiert:
https://docs.paperless-ngx.com/configuration/#ocr

In deinem Fall würde ich prüfen:

Ist die OCR-Sprache auf Deutsch?

PAPERLESS_OCR_LANGUAGE=deu

Werden durchsuchbare PDFs NICHT erneut durch OCR verarbeitet?

PAPERLESS_OCR_MODE=skip

(wenn diese Variable nicht gesetzt ist, ist automatisch skip konfiguriert).

Wenn du möchtest, kannst du auch mal ein Beispiel (Original aus dem Scanner + verarbeitet von paperless + deine docker-compose.env mit uns teilen (Keys, etc. vorher unkenntlich machen)

Siggi · 2. März 2024 um 16:16

Warum werden diese Einstellungen über die .env konfiguriert, wenn das doch in der Oberfläche einstellbar ist?

Oder ist das unter Konfiguration → OCR-Einstellungen was anderes?

anon58924890 · 2. März 2024 um 17:33

Diese Möglichkeit ist erst neu hinzugekommen in den letzten Wochen.
Wenn in den Release Notes der letzten Wochen dazu nix dokumentiert wurde heißt es nur Try and Error…

Seh die env einfach als Grundgerüst und diese Option als Feintuning.

Siggi · 3. März 2024 um 13:01

Sehr cool, danke für die Info.