Dateiaufgaben - Fehlgeschlagen

antoni105 · 22. Januar 2024 um 10:58

Hallo zusammen!

Beim import meiner Scans erhalte ich bei einigen Dateien folgende Fehlermeldung:

Der Papierkorb ist nicht aktiviert, auch habe ich überprüft, ob dort noch ein Recycle-File vorhanden ist, ebenfalls nicht der Fall. Woran kann das liegen? Wie gesagt, es tritt nicht bei allen Scanns auf. Von 144 Scans ist dieser Fehler bei 59 aufgetreten.

Beste Grüße
antoni105

anon58924890 · 22. Januar 2024 um 13:03

Das hatte ich auch schon und die Datei war dann doch vorhanden.
Guck mal ins Protokoll da bekommst du noch merh Infos.

Raspinho · 24. Januar 2024 um 13:28

Ich habe ebenfalls den Fehler, wenn ich über den Scaninput Folder gehe der außerhalb des Docker Verzeichnis liegt.

Lade ich die Dokumente über die Gui hoch, gibt’s kein Fehler.

Generell scheint es mir, als würde der Paperless versuchen, die mehrfach sich in die Warteschlange zu ziehen. Sobald nämlich der erste Durchlauf erfolgreich durchgelaufen ist , wird die Datei natürlich verschoben / gelöscht aus dem dem ScanInput Folder. Entsprechend gibt es dann im zweiten Durchlauf ein Fehler, dass die Datei nicht mehr gefunden werden kann :-/

Irgendeine Idee, was man noch prüfen könnte?

Als Anhang mal ein Beispiel von einer Datei die ich in den ScanInput Folder gezogen habe… (3x in der Warteschlange)

edit: Ich glaube ich habe die Lösung für mein Problem gefunden, habe die docker-compose Datei erweitert um folgenden Befehl
PAPERLESS_CONSUMER_INOTIFY_DELAY=30, welcher dafür sorgt, das die Verarbeitung nicht sofort startet. Scheinbar war Paperless einfach ein bisschen zu schnell mit der Verarbeitung.
30 sek ist sicherlich etwas übertrieben, aber hat ja keine Eile.

anon58924890 · 24. Januar 2024 um 16:51

5 Sekunden müssten doch auch reichen für andere Dateien ähnlicher Größe.
Default ist wohl 0.5 Sekunden wenn ich richtig gelesen habe.

Aber das ist ein Punkt wo ich mir jetzt auch mal die Config angucken werde und diese wohl etwas anpassen werde.

Danke

antoni105 · 24. Januar 2024 um 20:41

Hallo zusammen!

im Folgenden der Auszug aus dem Protokoll, interessanterweise ist die Datei konsumiert worden und findet sich in der Datenbank. Werde das jetzt noch sicherheitshalber für alle Dateien prüfen. Schade das gibt nicht wirklich Sicherheit, wenn man viele Dateien hintereinander scannt und Papiere in Richtung Papierkorb legt.

[2024-01-22 00:47:57,318] [INFO] [paperless.consumer] Consuming 20240121_MetallRente Kk.pdf

[2024-01-22 00:47:57,328] [DEBUG] [paperless.consumer] Detected mime type: application/pdf

[2024-01-22 00:47:57,343] [DEBUG] [paperless.consumer] Parser: RasterisedDocumentParser

[2024-01-22 00:47:57,352] [DEBUG] [paperless.consumer] Parsing 20240121_MetallRente Kk.pdf…

[2024-01-22 00:47:58,205] [DEBUG] [paperless.parsing.tesseract] Calling OCRmyPDF with args: {‚input_file‘: PosixPath(‚/tmp/paperless/paperless-ngxtn4ircw4/20240121_MetallRente Kk.pdf‘), ‚output_file‘: PosixPath(‚/tmp/paperless/paperless-ypvc00wt/archive.pdf‘), ‚use_threads‘: True, ‚jobs‘: 4, ‚language‘: ‚deu‘, ‚output_type‘: ‚pdfa‘, ‚progress_bar‘: False, ‚color_conversion_strategy‘: ‚RGB‘, ‚skip_text‘: True, ‚clean‘: True, ‚deskew‘: True, ‚rotate_pages‘: True, ‚rotate_pages_threshold‘: 12.0, ‚sidecar‘: PosixPath(‚/tmp/paperless/paperless-ypvc00wt/sidecar.txt‘)}

[2024-01-22 00:50:48,306] [DEBUG] [paperless.parsing.tesseract] Incomplete sidecar file: discarding.

[2024-01-22 00:50:48,943] [DEBUG] [paperless.consumer] Generating thumbnail for 20240121_MetallRente Kk.pdf…

[2024-01-22 00:50:48,954] [DEBUG] [paperless.parsing] Execute: convert -density 300 -scale 500x5000> -alpha remove -strip -auto-orient /tmp/paperless/paperless-ypvc00wt/archive.pdf[0] /tmp/paperless/paperless-ypvc00wt/convert.webp

[2024-01-22 00:51:02,396] [DEBUG] [paperless.classifier] Document classification model does not exist (yet), not performing automatic matching.

[2024-01-22 00:51:02,405] [DEBUG] [paperless.consumer] Saving record to database

[2024-01-22 00:51:02,406] [DEBUG] [paperless.consumer] Creation date from parse_date: 2023-05-01 00:00:00+02:00

[2024-01-22 00:51:02,884] [DEBUG] [paperless.consumer] Deleting file /tmp/paperless/paperless-ngxtn4ircw4/20240121_MetallRente Kk.pdf

[2024-01-22 00:51:02,950] [DEBUG] [paperless.parsing.tesseract] Deleting directory /tmp/paperless/paperless-ypvc00wt

[2024-01-22 00:51:02,954] [INFO] [paperless.consumer] Document 2023-05-01 20240121_MetallRente Kk consumption finished

[2024-01-22 00:51:03,646] [DEBUG] [paperless.tasks] Skipping plugin CollatePlugin

[2024-01-22 00:51:03,647] [DEBUG] [paperless.tasks] Executing plugin BarcodePlugin

[2024-01-22 00:51:03,649] [DEBUG] [paperless.barcodes] Scanning for barcodes using PYZBAR

[2024-01-22 00:51:03,669] [WARNING] [paperless.barcodes] File is likely password protected, not checking for barcodes: Unable to get page count.

I/O Error: Couldn’t open file ‚/usr/src/paperless/consume/20240121_MetallRente Kk.pdf‘: No such file or directory.

[2024-01-22 00:51:03,671] [DEBUG] [paperless.barcodes] Scanning for barcodes using PYZBAR

[2024-01-22 00:51:03,691] [WARNING] [paperless.barcodes] File is likely password protected, not checking for barcodes: Unable to get page count.

I/O Error: Couldn’t open file ‚/usr/src/paperless/consume/20240121_MetallRente Kk.pdf‘: No such file or directory.

[2024-01-22 00:51:03,692] [INFO] [paperless.tasks] BarcodePlugin completed with: No pages to split on!

[2024-01-22 00:51:03,694] [DEBUG] [paperless.tasks] Executing plugin WorkflowTriggerPlugin

[2024-01-22 00:51:03,700] [INFO] [paperless.tasks] WorkflowTriggerPlugin completed with no message

[2024-01-22 00:51:03,725] [ERROR] [paperless.consumer] Cannot consume /usr/src/paperless/consume/20240121_MetallRente Kk.pdf: File not found.

anon58924890 · 24. Januar 2024 um 21:46

Probier einfach mal das was der @Raspinho gemacht hat mit der Config-File und stelle es einfach mal auf 1-5 Sekunden.
Komm leider im moment nicht dazu da das DIY-NAS erstmal laufen muss.

antoni105 · 25. Januar 2024 um 15:21

Hallo Raspinho!

Hast du diesen Befehl in der yml. hinzugefügt? Position egal?

Jake · 1. Februar 2024 um 15:54

Hi,

Danke für den Tip, hab bei mir 5 Sekunden eingestellt, bis jetzt keine Probleme.

VG

Damrak2025 · 3. August 2025 um 02:53

Ich habe das gleiche Problem, was ich heute festgestellt habe, nachdem ich nach längerer Zeit mein Paperless mal wieder geöffnet habe.

Sollte ich das bei mir auch in der docker-compose Datei anpassen, oder deuten meine Meldungen auf ein anderes Problem hin?
Wie kann ich diese fehlgeschlagenen Dateiaufgaben erneut durchführen lassen, zumal ich die Orginladateien nicht mehr habe.

Jake · 3. August 2025 um 07:21

Hi,

Die Meldung könnte schon mit der Einstellung zu tun haben wenn die Dokumente vom Scanner kamen, der Dateiname lässt darauf schließen.

Schau mal im consume Ordner ob die Dokumente noch vorhanden sind.
Ich vernichte meine Dokumente erst wenn ich den „Neu“ Tag entfernt habe.

Bin inzwischen bei 20 Sekunden, gibt doch noch die ein oder andere Post die aus mehreren Papier-Seiten besteht.
Nach der Anpassung in der docker-compose Paperless neu starten.

silbaer · 3. August 2025 um 17:07

Ich hatte auch Probleme mit meinem Scanner, vor allem bei größeren Dateien. Bei mir konnten die Dateien nicht geöffnet werden, also ein anderer Fehler. Aber vielleicht hilft ja meine Lösung:

Ich habe bei der Erkennung ob im Consumeordner neue Files liegen die Zeiten ergeblich hoch gesetzt (auf 30 Sekunden). Erst wenn sich 30 Sekunden im Consumeordner nix getan hat, beginnt die Verarbeitung.

Weiterhin habe ich den Retry-Couut für die Verarbeitung auf 10(?) gesetzt und auch da 30 Sekunden wartezeit eingebaut.

Seit dem habe ich keine Probleme mehr mit der Verarbeitung. Die Verzögerung ist mir wurscht. Ob das File ein oder zwei Minuten später im Paperless auftaucht ist mir egal, so lange es überhaupt auftaucht.

Damrak2025 · 8. August 2025 um 04:55

Sorry, das ich jetzt erst antworte, aber ich habe keine Benachrichtigung erhalten. Na egal, was muss ich denn genau anpassen, bzw. wie kann ich die Dateiaufgaben danach neu anstoßen? Einen Ordner der direkt „Consumer“ heißt, habe ich nicht, auch nicht in den Unterordnern

Jake · 8. August 2025 um 06:11

Moin,

Schau mal in die docker-compose welcher Ordner dein consume Ordner ist, der muss nicht unbedingt consume heißen.

Der Pfad vor :/usr ist der Ordner in dem die Dokumente verarbeitet werden, in meinem Fall halt volume4/…

Damrak2025 · 9. August 2025 um 14:34

Bei mir ist das der Ordner „scaninput“, aber da sind nur 3 Dateien drin.

Die Frage ist nun wie ich das mit den unerledigten Dateiaufgaben löse. Kann ich das löschen, oder wie kriege ich das weg. Die Dateien existieren ja augenscheinlich nicht mehr

Jake · 9. August 2025 um 14:50

Hi,

Hast du vor kurzem mal das NAS oder Paperless neu gestartet?
Wenn die Dokumente im scaninput Ordner waren konnte Paperless sie verarbeiten.
Das kannst du selber nachtprüfen, einfach bei den fehlgeschlagenen Dateiaufgaben schaun ob die PDFs doch verarbeitet wurden.

Die Liste der nicht abgeschlossenen PDFs kannte dann markieren und löschen.

Damrak2025 · 10. August 2025 um 07:18

Ja das Nas wurde zwei oder 3 mal neugestartet.In den Dateiaufgaben sehe ich das die Dokumente. nicht verarbeitet wurden, aufgrund der Fehlermeldung . siehe hier

Für mich stellt sich die Frage, wie ich das behoben bekomme, damit es in Zukunft wieder rund läuft. Eben habe ich zwei Dokumente neu eingescannt, welche keine Fehler hervorgerufen haben. Zumindest hat sich die Anzahl bei den Dateiaufgaben nicht erhöht. Allerdings habe ich anscheinend meine Ansicht irgendwie versammelt, denn eigentlich möchte ich ja das mir neue Dokumente angezeigt werden, welche noch nicht von mir bearbeitet wurden, aber irgendwie bekomme ich das nicht mehr hin. Ich sehe bei mir nicht mehr, welche Dokumente neu sind.

Jake · 10. August 2025 um 07:40

Damit es rund läuft als erstes mal den env Eintrag in der docker-compose hinzufügen, oder in der .env:
PAPERLESS_CONSUMER_INOTIFY_DELAY=30 (30 = 30 Sekunden, wenn du mehr oder weniger willst einfach den Wert anpassen.

Für neue Dokumente erstellst du dir einen Tag, Beispiel:

Dann noch eine Ansicht erstellen wo nur die neuen Dokumente anzeigt.
So hast du schnell den Überblick über alle neuen Dokumente die du noch kontrollieren oder umbenennen willst.