Hi, ich habe paperless ngx jetzt seit ein paar Tagen am Laufen, aber stolpere immer mal wieder über den gleichen Fehler:
Häufig bricht das Einlesen ab, unter „Dateiaufgaben“ landet das Dokument der Begierde dann unter „Fehlgeschlagen“. Die Fehlermeldung lautet
Traceback (most recent call last):
File "/usr/local/lib/python3.12/site-packages/billiard/pool.py", line 1265, in mark_as_worker_lost
raise WorkerLostError(
billiard.exceptions.WorkerLostError: Worker exited prematurely: signal 9 (SIGKILL) Job: 4.
Der log sieht aber unproblematisch aus:
[2025-01-14 19:38:11,997] [INFO] [paperless.management.consumer] Adding /usr/src/paperless/consume/Latzug kssl020 Anleitung.pdf to the task queue.
[2025-01-14 19:38:12,086] [DEBUG] [paperless.tasks] Skipping plugin CollatePlugin
[2025-01-14 19:38:12,086] [DEBUG] [paperless.tasks] Skipping plugin BarcodePlugin
[2025-01-14 19:38:12,086] [DEBUG] [paperless.tasks] Executing plugin WorkflowTriggerPlugin
[2025-01-14 19:38:12,090] [INFO] [paperless.tasks] WorkflowTriggerPlugin completed with:
[2025-01-14 19:38:12,091] [DEBUG] [paperless.tasks] Executing plugin ConsumeTaskPlugin
[2025-01-14 19:38:12,109] [INFO] [paperless.consumer] Consuming Latzug kssl020 Anleitung.pdf
[2025-01-14 19:38:12,115] [DEBUG] [paperless.consumer] Detected mime type: application/pdf
[2025-01-14 19:38:12,120] [DEBUG] [paperless.consumer] Parser: RasterisedDocumentParser
[2025-01-14 19:38:12,122] [DEBUG] [paperless.consumer] Parsing Latzug kssl020 Anleitung.pdf...
[2025-01-14 19:38:12,602] [INFO] [paperless.parsing.tesseract] pdftotext exited 0
[2025-01-14 19:38:12,694] [DEBUG] [paperless.parsing.tesseract] Calling OCRmyPDF with args: {'input_file': PosixPath('/tmp/paperless/paperless-ngxzot2kiv2/Latzug kssl020 Anleitung.pdf'), 'output_file': PosixPath('/tmp/paperless/paperless-_lyeuj3l/archive.pdf'), 'use_threads': True, 'jobs': 4, 'language': 'deu', 'output_type': 'pdfa', 'progress_bar': False, 'color_conversion_strategy': 'RGB', 'skip_text': True, 'clean': True, 'deskew': True, 'rotate_pages': True, 'rotate_pages_threshold': 12.0, 'sidecar': PosixPath('/tmp/paperless/paperless-_lyeuj3l/sidecar.txt')}
[2025-01-14 19:38:20,704] [INFO] [ocrmypdf._pipelines.ocr] Start processing 4 pages concurrently
[2025-01-14 19:38:20,711] [INFO] [ocrmypdf._pipeline] skipping all processing on this page
[2025-01-14 19:38:20,711] [INFO] [ocrmypdf._pipeline] skipping all processing on this page
[2025-01-14 19:38:20,711] [INFO] [ocrmypdf._pipeline] skipping all processing on this page
[2025-01-14 19:38:20,711] [INFO] [ocrmypdf._pipeline] skipping all processing on this page
[2025-01-14 19:38:20,712] [INFO] [ocrmypdf._pipeline] skipping all processing on this page
[2025-01-14 19:38:20,712] [INFO] [ocrmypdf._pipeline] skipping all processing on this page
[2025-01-14 19:38:20,712] [INFO] [ocrmypdf._pipeline] skipping all processing on this page
[2025-01-14 19:38:20,788] [INFO] [ocrmypdf._pipelines.ocr] Postprocessing...
Das „Postprocessing“ lässt mich zwar glauben es würde noch etwas passieren, tut es aber nicht. Obige Fehlermeldung, „worker_lost“ lässt mich an einen timeout glauben.
Wenn ich das mit derselben Datei versuche klappt es manchmal beim 4. oder 5. Versuch.
Aber nicht immer…
Hat einer von euch einen Tip, wo ich noch nach aussagekräftigeren Meldungen suchen kann?