Consume Versuch nicht vorhandener Dateien

drmaniac · 30. Dezember 2024 um 19:45

Seit meinem Versuch digital signierte PDF´s zu scannen habe ich es das Problem, das ich immer hintereinander weg immer in der Weboberfläche die Meldung bekomme, das Datei xy nicht verarbeitet werden kann.
Die digital signierten Dateien habe ich bereits gestern aus dem Scaninput Ordner gelöscht und Paperless bestimmt zwischenzeitlich fünf Mal neu gestartet. Trotzdem kommen immer noch die Meldungen.
Auch der Log läuft immer noch weiter, obwohl die Dateinen nicht mehr im Scaninput Ordner liegen.
Papierkorb (der aktiv war) habe ich auch deaktiviert und den Ordner mit den Dateien drin gelöscht, damit er nicht auf dem Papierkorb Ordner weiter consumieren will.

Hier mal ein Auszug aus dem Log:

"Traceback (most recent call last):

File „/usr/src/paperless/src/documents/tasks.py“, line 148, in consume_file

msg = plugin.run()

      ^^^^^^^^^^^^

File „/usr/src/paperless/src/documents/consumer.py“, line 368, in run

self.pre_check_file_exists()

File „/usr/src/paperless/src/documents/consumer.py“, line 158, in pre_check_file_exists

self._fail(

File „/usr/src/paperless/src/documents/consumer.py“, line 151, in _fail

raise ConsumerError(f"{self.filename}: {log_message or message}") from exception

documents.consumer.ConsumerError: invoice.pdf: Cannot consume /usr/src/paperless/consume/Rechnungen/Amazon/invoice.pdf: File not found.

[2024-12-30 20:29:41,514] [DEBUG] [paperless.tasks] Skipping plugin CollatePlugin

[2024-12-30 20:29:41,514] [DEBUG] [paperless.tasks] Executing plugin BarcodePlugin

[2024-12-30 20:29:41,515] [DEBUG] [paperless.barcodes] Scanning for barcodes using PYZBAR

[2024-12-30 20:29:41,515] [WARNING] [paperless.barcodes] Exception during barcode scanning: [Errno 2] No such file or directory: ‚/usr/src/paperless/consume/286D190238CC6A25E06402082038FEC9_Abrechnung_20241204.pdf‘

[2024-12-30 20:29:41,515] [INFO] [paperless.tasks] BarcodePlugin completed with no message

[2024-12-30 20:29:41,516] [DEBUG] [paperless.tasks] Executing plugin WorkflowTriggerPlugin

[2024-12-30 20:29:41,523] [INFO] [paperless.tasks] WorkflowTriggerPlugin completed with:

[2024-12-30 20:29:41,524] [DEBUG] [paperless.tasks] Executing plugin ConsumeTaskPlugin

[2024-12-30 20:29:41,535] [ERROR] [paperless.consumer] Cannot consume /usr/src/paperless/consume/286D190238CC6A25E06402082038FEC9_Abrechnung_20241204.pdf: File not found.

[2024-12-30 20:29:41,536] [ERROR] [paperless.tasks] ConsumeTaskPlugin failed: 286D190238CC6A25E06402082038FEC9_Abrechnung_20241204.pdf: Cannot consume /usr/src/paperless/consume/286D190238CC6A25E06402082038FEC9_Abrechnung_20241204.pdf: File not found."

Wie gesagt, die Dateien liegen seit gestern nicht mehr im Scaninput Ordner und die Meldungen kommen immer noch. Habe auch noch alle Arbeitsabläufe gestoppt, aber das brachte auch nichts.

Habt Ihr ne Idee??

Vielen Dank.

huebi · 30. Dezember 2024 um 20:11

Plural-S wird nicht mit Apostroph/accent aigu/accent grave abgetrennt
Logs formatiert man im Forum zwecks besserer Lesbarkeit als Code
Was sagen die Dateiaufgaben? Ist da noch was in der Queue? Das wird durch restart nicht gelöscht.

drmaniac · 30. Dezember 2024 um 21:53

Mal wieder Danke für Deine Antwort huebi.

Log hätte ich gerne formatiert, hatte aber nichts passendes oben in der Auswahl gefunden.

Dateiaufgaben hatte ich bereits mehrmals leer gemacht und war auch schon seit gestern Abend leer.
Hatte jetzt noch mal das NAS und Paperless neu gestartet und nach weiteren Meldungen scheint der jetzt endlich durch zu sein. Keine Meldungen mehr und die Aufgaben bleiben jetzt auch leer. Habe jetzt mal zum Test drei neue PDF Dateien in den Scaninput Ordner gelegt. Die laufen auch ohne Fehler durch. Log sieht auch gut aus. Ist das normal das solche Fehlermeldungen dann als Endlosschleife kommen? Muss ich wohl nächstes Mal mehr Geduld haben. 24 Stunden reichen da wohl nicht.

Trotzdem Dank.

huebi · 31. Dezember 2024 um 07:27

Nein normal ist das nicht. Einen Restart überleben nur eine Handvoll Workerprozesse. Redis dürften die wenigsten persistiert haben womit die meisten Tasks dann weg sind. Und wenn das nicht gerade Anleitungen sind mit mehreren Dutzend Seiten brauchen die dann auch nicht Stundenlang. ×) Und wenn du das ganze auf einer Synology macht hat eh nicht viele Möglichkeiren sein Sytem zu pimpen. Einen Speicherriegel sollte man eh schon drin haben wenn man PLNGX auf der Synology nutzt sonst wird man nicht so richtig glücklich.

Man kann natürlich versuchen einen issue auf Github aufzumachen aber da das nicht nachvollziehbar ist ist der schneller zu als man ihn aufgemacht hat. Und die zwei drei Discussions die es zu sowas gibt sind alle ohne Ergebnis.

×) Ich hab aus diesem Grund die OCR Erennung auf die ersten 7 Seiten beschränkt. Dann werden zumindest große PDF Dateien etwas schneller abgearbeitet. Hilft jetzt aber auch nicht zu erklären wieso nicht vorhandene Dateien PLNGX so ins schleudern bringen.

drmaniac · 31. Dezember 2024 um 11:26

Na ja ein Ticket aufzumachen denke macht wirklich keinen Sinn. Ich vermute, das es vielleicht an der Papierkorb Geschichte liegt, da ich ja die PAPERLESS_CONSUMER_RECURSIVE=true Funktion eingeschaltet hatte und nach dem Scan die Datei ja gelöscht wird und damit im Papierkorb landet, den dann PLNGX wieder als Ordner ausliest und die selbe Datei dann wieder neu konsumieren will. Und so habe ich die Endlosschleife wahrscheinlich verursacht. Immer wieder neue Ausgaben. Das würde auch erklären, warum ich bei einer neuen Datei nach dem ersten konsumieren gleich weitere Aufgaben in der Warteschlange bekommen habe. Dort muss sich das dann irgendwie hochgeschaukelt haben.

system · 2. Januar 2025 um 11:27

Dieses Thema wurde automatisch 2 Tage nach der letzten Antwort geschlossen. Es sind keine neuen Antworten mehr erlaubt.