Gibt es eine Dateigrößen Limitierung in Paperless?

vtpau · 24. April 2024 um 05:19

Hallo ans Forum.

Ich überführe gerade sämtliche meiner Dokumente in Paperless-ngx. Bei einem Dokument will das aber nicht klappen. Es ist ein PDF mit über 100 Seiten (44 MB). Die Verarbeitung der Datei wird immer abgebrochen und es erscheint die Fehlermeldung:
Traceback (most recent call last):
File „/usr/local/lib/python3.11/site-packages/billiard/pool.py“, line 683, in on_hard_timeout
raise TimeLimitExceeded(job._timeout)
billiard.exceptions.TimeLimitExceeded: TimeLimitExceeded(1800,)
Woran kann das liegen? Die Datei lässt sich problemlos öffnen, ist also nicht defekt.

anon58924890 · 24. April 2024 um 06:04

Hierzu gab es schon ne Testlauf von mir mit nem 144 MB Pdf von ich glaub @prh

Welche Hardware nutzt du ?

Stefan · 24. April 2024 um 06:16

Was ich schon einmal in der Praxis bei einem Kunden hatte: Der Reverse-Proxy hatte eine Dateigrößen-Limitierung, beim Upload über das Webinterface ist daher immer eine leere Datei angekommen.

Nutzt du einen Reverse Proxy (HTTPS) und lädst du über das Webinterface hoch?

vtpau · 24. April 2024 um 06:25

Hallo Michael und Stefan,

Ich habe keine Reverse Proxi Verbindung, wie in der Masterclass beschrieben eingerichtet. Wenn ich mal von unterwegs an die Dokumente muss, nutze ich eine einfache VPN Verbindung über die FRITZ!Box.
Die besagte Datei liegt auf einer Synology DS 218+ mit 10GB RAM @Michael). Und die Datei habe ich mehrfach über das Feld zum Hochladen von Dateien auf der Startseite versucht in die Datenbank zu bekommen…

Stefan · 24. April 2024 um 06:38

Das in Verbindung mit dem Timeout klingt dann für mich danach, dass die CPU so schwach ist, dass sie mit dem OCR-Job nicht rechtzeitig fertig wird, bevor das Timeout abläuft (das wären wohl ca. 30 min). Kommt mir zwar sehr langsam vor, aber zumindest aufgrund der Fehlermeldung ist das meine Vermutung.

Du kannst aus Interesse das PDF einmal in der Mitte teilen und nur die 50 Seiten konsumieren lassen. Wenn das über 15 Minuten braucht, wäre das das Problem.

anon58924890 · 24. April 2024 um 10:06

Wenn ich mich richtig erinnere hatte Peter an seiner 224+ den Container Manager deinstalliert und neu installiert.
Er bekam aber keine timeout Meldung.

Ist das PDF schon durchsuchbar ?
Wenn ja gibt es ne Funktion wenn ich mich nicht irre die an solchen PDFs den OCR Part überspringt.

https://docs.paperless-ngx.com/configuration/#PAPERLESS_OCR_MODE

prh · 24. April 2024 um 13:25

Das ist richtig. Ich hatte mit Michaels Hilfe so einiges ausprobiert, was aber letztlich nicht half.

Erst eine Neuinstallation von paperless führte dann dazu, dass dann alles wieder sehr gut funktionierte.

Das war aber zu diesem Zeitpunkt nur deshalb möglich, weil ich noch nicht so sehr viele Dokumente erfasst/abgelegt hatte. Heute möchte ich mir diesen Schritt nicht mehr unbedingt antun…

Hast Du denn hier schon mal Deine Konfigurationsdatei „docker-compose.yml“ gezeigt?

Peter