Unterschiedliche Anzahl von Dokumenten im Archive und Originals

RKuehne · 16. September 2024 um 08:35

Hallo
Ich habe nun angefangen meine Dokumente von Elooffice nach paperless-ngx zu verschieben.
Dabei ist mir aufgefallen das ich Rechnungen von Strato zwar ablegen kann, die Rechnungen auch angezeigt werden in paperless-ngx aber diese nur unter Originals zu finden sind. Im Ordner Archive werden diese nicht angezeigt.
Wie kann ich grundsätzlich sicherstellen das alle Dokumente auch im Archive vorhanden sind.

Stefan · 17. September 2024 um 05:28

Das kann an einer Einstellung liegen, die in der docker-compose.env hinterlegt ist (es steht auch als Kommentar dabei). Diese hat, soweit ich es verfolgt habe, ihren Effekt bei einem Update von paperless etwas verändert.

Es geht um diese Zeile:

PAPERLESS_OCR_MODE=skip

Früher (ich habe gerade nicht im Kopf, wann das umgestellt wurde) hat das bewirkt, dass Dokumente, die bereits ein Textlayer haben (also z.B. bereits digital vorliegende Rechnungen) nicht erneut durch die OCR geschickt werden und auch kein Archiv-Dokument erzeugt wird.

Mittlerweile hat sich das geändert. Es wird zwar kein OCR auf Seite mit Textlayer durchgeführt, eine Archivversion wird aber dennoch erstellt.

Welche Version von paperless-ngx nutzt du? Versuche einmal ein Update auf die neueste Version und importiere eine solche Rechnung nochmal.

Hier der Auszug aus der aktuellen Dokumentation:

`PAPERLESS_OCR_MODE=<mode>`

Tell paperless when and how to perform ocr on your documents. Three modes are available:

skip: Paperless skips all pages and will perform ocr only on pages where no text is present. This is the safest option.
redo: Paperless will OCR all pages of your documents and attempt to replace any existing text layers with new text. This will be useful for documents from scanners that already performed OCR with insufficient results. It will also perform OCR on purely digital documents.This option may fail on some documents that have features that cannot be removed, such as forms. In this case, the text from the document is used instead.
force: Paperless rasterizes your documents, converting any text into images and puts the OCRed text on top. This works for all documents, however, the resulting document may be significantly larger and text won’t appear as sharp when zoomed in.

The default is skip, which only performs OCR when necessary and always creates archived documents.

Read more about this in the OCRmyPDF documentation.

RKuehne · 17. September 2024 um 08:13

Vielen Dank für die Antwort. Habe den OCR_MODE in allen Varianten ausprobiert sogar die Zeile auskommentiert. Kein Erfolg das Dokument will nicht ins Archive. Ich weiß nicht wo das Problem an diesem Dokument liegt. Habe auch schon im Elooffice bei der Indexerstellung Probleme gehabt. Das Problem ist das man nicht mitbekommt das es ein Problem mit dem Dokument gab und es nicht ins Archiv abgelegt wurde.
Vielleicht habe ich in der docker-compose.env etwas falsch eingestellt ?
Version: 2.12.1 installiert

# Zeitzone: Berlin
PAPERLESS_TIME_ZONE=Europe/Berlin

# Falls weitere Sprachen installiert werden sollen, einfach das # vor der n  chsten Zeile entfernen (und Sprachen e>
#PAPERLESS_OCR_LANGUAGES=tur ces
PAPERLESS_OCR_LANGUAGE=deu


# Ausgabeformat: Jahr/Dokumententitel (kann man ändern)
PAPERLESS_FILENAME_FORMAT={owner_username}/{created_year}/{title}
#PAPERLESS_FILENAME_FORMAT={correspondent}/{created_year}/{document_type}-{created_month_name_short}

# OCR-Modus: Dokumente, die bereits OCR eingebettet haben, werden nicht erneut OCRed. Archiv wird übersprungen.
PAPERLESS_OCR_MODE=skip
#PAPERLESS_OCR_MODE=force
# Rekursives Konsumieren aktiviert:
PAPERLESS_CONSUMER_RECURSIVE=true

# Tags aus Unterordnern im Scaninput-Ordner generieren:
PAPERLESS_CONSUMER_SUBDIRS_AS_TAGS=true


# Barcode Aufkleber lesen
PAPERLESS_CONSUMER_BARCODE_SCANNER=ZXING 
PAPERLESS_CONSUMER_ENABLE_ASN_BARCODE=true


# Dokumente mit e-Signatur
PAPERLESS_OCR_USER_ARGS= '{"invalidate_digital_signatures": true}'

#PAPERLESS_OCR_SKIP_ARCHIVE_FILE=never


#PAPERLESS_TASK_WORKERS=2
#PAPERLESS_THREADS_PER_WORKER=2

#PAPERLESS_ADMIN_USER: admin
#PAPERLESS_ADMIN_PASSWORD: 123456
#PAPERLESS_OCR_LANGUAGE: deu+eng
PAPERLESS_CONSUMER_DELETE_DUPLICATES= true

#Wartezeit fuer abarbeitung gescannter Dokumente
PAPERLESS_CONSUMER_INOTIFY_DELAY=30

#Alternative  sucht alle 30 sekunden nach neuen Dokumenten im scaninput
#PAPERLESS_CONSUMER_POLLING=30

# Bezeichnung anstelle Paperless
PAPERLESS_APP_TITLE=Test Elooffice

# Abfrageinterval fuer Emails
PAPERLESS_EMAIL_TASK_CRON=*/5 * * * *