700 Seiten - Abbruch

Hallo zusammen,

ich habe eine Datei mit ca. 700 Seiten.

Leider kommt eine Fehlermeldung nach einer gewissen Zeit beim verarbeiten.

Siehe Screenshot.

Was kann ich hier machen?

Danke euch

Grüße

Schau einmal hier
https://docs.paperless-ngx.com/configuration/#PAPERLESS_THREADS_PER_WORKER

das wäre ein erster Ansatz. Du kannst auch den timeout Wert erhöhen

https://docs.paperless-ngx.com/configuration/#PAPERLESS_WORKER_TIMEOUT

Danke dir. Kann ich diesen Wert auch auf 12h setzen oder fange ich mir dann Probleme ein bzw. weshalb ist der als Default so niedrig ?

12 Stunden ist ein bisschen sehr sehr hoch.
Der Wert ist so niedrig weil normalerweise der Prozess innerhalb einer halben Stunde fertig ist meistens. Und Du hast ja nicht nur einen Prozess im normal Fall sondern mehrere. Irgendwann ist Dein System Ressourcentechnisch an den Grenzen und Prozesse können sich auch festhängen. Daher der Wert.
Schau mal ob Du nicht mehr Threads pro Worker geben kannst. Kommt halt drauf an wie viele CPUs Du hast.

Wenn Du das Timeout festlegen willst nimm erstmal eine Stunde

Wichtiger wäre zuerst zu wissen auf welcher Hardware du das machen willst und wie viel Speicher ( RAM ) installiert ist.

Wenn du kein performantes NAS hast wirst du da viel basteln müssen bis es vielleicht doch läuft… oder auch nicht.

Zu dem Thema gab es schon etliche Beiträge die dir einen Überblick verschaffen könnten.

Im schlimmsten Fall musst du auf solche Bücher verzichten.

Habe eine Synology 723 Plus mit 32GB RAM.

Dann sollte es zumindest nicht am RAM liegen, bleibt nur noch der flaschenhals CPU

Du kannst es mal versuchen die Workers auf 1 zu setzen und die Threads auf 2-4 setzen
Beschreibung dazu im Zitierten Text den @CoolTux ja schon gepostet hat.

Ich fürchte n “NAS” ist für sowas der Falsche Weg → Docker unter Windows/Linux laufen lassen und aufm PC mal testen.

Die CPU hat 2 Cores und 4 Threads…

PAPERLESS_TASK_WORKERS=
Paperless does multiple things in the background: Maintain the search index, maintain the automatic matching algorithm, check emails, consume documents, etc. This variable specifies how many things it will do in parallel.

Defaults to 1

PAPERLESS_THREADS_PER_WORKER=
Furthermore, paperless uses multiple threads when consuming documents to speed up OCR. This variable specifies how many pages paperless will process in parallel on a single document.

Warning

Ensure that the product

PAPERLESS_TASK_WORKERS * PAPERLESS_THREADS_PER_WORKER

does not exceed your CPU core count or else paperless will be extremely slow. If you want paperless to process many documents in parallel, choose a high worker count. If you want paperless to process very large documents faster, use a higher thread per worker count.

If unset, paperless uses max(floor(cpu_count / PAPERLESS_TASK_WORKERS), 1) threads per worker. The idea behind this is that as long as there are enough cores, the total number of threads should less than or equal to the total number of (logical) CPU cores.

PAPERLESS_WORKER_TIMEOUT=
Machines with few cores or weak ones might not be able to finish OCR on large documents within the default 1800 seconds. So extending this timeout may prove to be useful on weak hardware setups.