Fehlerhafte Dokumentverarbeitung neu durchführen

Hallo Forum,

ich habe eine aktuelle paperless-ngx installation und bin begeistert…

Ich habe nun leider hin und wieder folgendes Problem:

Bei fehlgeschlagenen Dateiaufgaben ( ASN bspw. schon im Papierkorb von Paperless vergeben) komme ich nicht mehr an die eingescannte und verworfene Datei heran, da diese verworfen wurde.

Gibt es einen Weg diese dennoch wieder neu zu verarbeiten?

Im Scaninput finde ich diese Datei auch nicht mehr…

Danke im voraus

Gruß Thomas

keine Möglichkeit die Datei zurückzuholen?

Mmh scheint keiner weiter das gleiche Problem zu haben.

Ich scanne auf Arbeit auf einem großen Scanner mehrere Dokumente gleichzeitig per VPN Direktverbindung zu meinem Synology Nas zu Hause ein. Dann komme ich nach Hause und sehe, dass nicht alle Dokumente richtig eingelesen wurden… also noch mal zur Arbeit; und zweiter Versuch! → Das muss doch anders gehen!

Die unbearbeitete PDF Version aus dem consume-Ordner ist einfach weg… Manchmal auch aus Gründen, die nicht nachvollziehbar sind. Siehe z. B. irgendwelche ASN Nummern, die noch in dem Papierkorb liegen und besetzt sind.

Es muss doch möglich sein, diese unbearbeiteten PDF Rohlinge aus dem Scaninput (Consume-Ordner) wieder zu reaktivieren?

Die Files sind meiner Meinung nach weg. Müssen sie ja auch, damit Paperless nicht in ner Endlos-Consume-Schleife hängt, die dauerhaft zu nem Fehler führt. Irgendwas muss ja vorher passieren (neu scannen, Papierkorb leeren, usw.), bevor sich am Ergebnis was ändern kann.

Was ich aber nicht ganz verstehe: Du schreibst ja, daß Du eh per VPN auf das Synology daheim scannst. Dann musst Du aber doch auch irgendwie von der Arbeit auf die Paperless-Web-GUI schauen können!? Entweder von nem Arbeitsrechner, oder halt vom Handy (dann sogar per App) oder Tablet oder wie auch immer. Sei es durch das eh in der Arbeit vorhandene Home-VPN-Setup (das hast Du ja nicht im Scanner selbst eingerichtet, oder?), oder eben per weiterem VPN-Client-Setup auf eigenem Laptop, Handy, whatever.

Reicht ja ein kurzer Kontrollblick, ob alles sauber durch ging oder Du kurz mal noch den Papierkorb leeren musst oder zumindest ne ASN von nem Papierkorb-File entfernen oder so. Und bei Bedarf halt dann Rescan.

@shakebox Danke für die Antwort

Ja auf die Webgui kann ich schauen und mache ich ja auch…

Ich habe auf dem Scanner (Develop ineo Zielordner auf der Heimnas angelegt und scanne direkt über VPN dorthin. Paperless nimmt die Dateien und verarbeitet sie dann.

Das Problem bei der Kontrolle ist, dass der Vorgang der Abarbeitung (OCR) doch etwas dauert und ich zum Feierabend ganze Ordner einscanne und ewig warten müsste.

Da wäre es wirklich einfacher die fehlerhaften Dateien sich doch noch mal anzuschauen und ggfl. umzubenennen …

Ja, verstehe mit dem “abends lang warten müssen”. Aber wenn Dich das wirklich so stark bzw. häufiger behindert, warum dann nicht ein ganz anderer Ansatz?

Ich würd dann ja eher nicht direkt in den Consume-Ordner scannen, sondern nen anderen Ordner irgendwo parallel (also einfach ein weiteres Share). Und entweder holst (im Sinne von Kopieren!) Du von dort dann daheim die Files in den Consume-Ordner wenn Du mehr Zeit hast zu reagieren. Dauert dann natürlich ne Weile, bis die prozessiert sind, klar. Oder Du schreibst Dir noch ein kleines Script oder machst es per Terminal oder Synology-GUI manuell noch aus der Arbeit, dass Du Files eben vom Scan-Ordner in den Paperless-Consume-Ordner kopierst. Dann hast Du doch zumindest immer noch ne Kopie, wo Du manuell nochmal zugreifen kannst. Musst halt vor dem nächsten Scannen dann diesen Scan-Ordner wieder komplett leeren.

Das werde ich nun machen müssen. Ist also scheinbar nicht anders machbar.

Wäre schön einfach gewesen, wenn man nur die Dokumente aus dem “Papierkorb” hätte zurückholen können und ich nur nicht weiß wo der Papierkorb ist… :wink:

Danke für die Hilfe

Bei fehlgeschlagenenen Verarbeitungen bleiben bei mir die Dateien im consume-Ordner liegen. Ich lösche die von Hand, wenn ich mich davon überzeugt habe, dass die wirklich nicht verarbeitet werden sollen oder können (z.B. wg. Duplikat oder flasche Dokumenttyp). Das ist das Standardverhalten, welches man in der Konfiguration vielleicht ändern kann?. Aber ich nutze Paperless noch nicht lange und weiß vieles noch nicht. Ich kann nur überhaupt nicht nachvollziehen, warum verworfene Dateien gelöscht werden sollten. Hat es vielleicht etwas mit folgender Einstellung zu tun:

PAPERLESS_CONSUMER_DELETE_DUPLICATES=<bool>

”Die Files sind meiner Meinung nach weg. Müssen sie ja auch, damit Paperless nicht in ner Endlos-Consume-Schleife hängt, die dauerhaft zu nem Fehler führt.”

Nein, verworfene Dateien, die im Consumordner liegen, werden nach meiner Kenntnis nur dann erneut zu verarbeiten versucht, wenn Paperless neu gestartet wird oder wenn das Betriebssystem (inotify) meldet, dass sich an den Dateien etwas geändert hat.

Da hat @albiderbaer Recht: paperless-ngx löscht keine Dateien aus dem Consume-Ordner, außer:

  1. sie wurden korrekt verarbeitet (dann sind sie aber in paperless-ngx auffindbar) oder
  2. sie wurden als Duplikate erkannt UND wie erwähnt wurde PAPERLESS_CONSUMER_DELETE_DUPLICATESauf True gesetzt.

Da stimmt also etwas anderes in deinem Setup nicht.

Danke für die Hilfen - ich habe nun den Fehler gefunden:

In der Aufgabenverwaltung (DSM) war folgendes Skript aktiviert und eingetragen:

cd /volume2/scaninput
find -mmin +60 -name „*.pdf“ -delete

Dadurch wurden die Dateien gelöscht…

Danke nochmal!