lässt sich OCR für Dokumente, die bereits durchsuchbar sind abschalten?
was kann ich an den Scaneinstellungen (habe den Epson 580W) ändern, damit die Texterkennung besser wird. Hab mir die Inhaltsdaten mal angeschaut und festgestellt, dass die Texterkennung in manchen Dokumente grauenhaft ist und ganze Textteile fehlen oder nur Salat ergeben.
Werden durchsuchbare PDFs NICHT erneut durch OCR verarbeitet?
PAPERLESS_OCR_MODE=skip
(wenn diese Variable nicht gesetzt ist, ist automatisch skip konfiguriert).
Wenn du möchtest, kannst du auch mal ein Beispiel (Original aus dem Scanner + verarbeitet von paperless + deine docker-compose.env mit uns teilen (Keys, etc. vorher unkenntlich machen)
Diese Möglichkeit ist erst neu hinzugekommen in den letzten Wochen.
Wenn in den Release Notes der letzten Wochen dazu nix dokumentiert wurde heißt es nur Try and Error…
Seh die env einfach als Grundgerüst und diese Option als Feintuning.