Probleme beim mehrseitigen Input via Scanner

prh · 25. Februar 2024 um 06:15

Wir setzen in meinem Büro einen professionellen Drucker/Scanner (DEVELOP ineo+ 368) ein, der u.a. sehr schnelle (auch beidseitige) Scans erstellt und optional an einen externen Speicherort weiterleitet.

Im Prinzip arbeitet der Scanner einwandfrei - auch in Verbindung mit Paperless.

Mit einer gravierenden Ausnahme:
Sobald ein PDF aus einem mehrseitigen Dokument erstellt wird, liest dies Paperless zwar so wie gewünscht ein und zeigt dies in seiner Inputliste auch an.

Dabei gibt es jedoch folgendes Phänomen: Es werden dann zusätzliche Dokumente erstellt, deren Anzahl mit der Seitenzahl des Originals übereinstimmt. Da es exakt die gleiche ID erhält, lehnt Paperless dies als redundanten (= bereits vorhandenen) Inhalt ab und wirft entsprechende Fehler.

Die „misslungenen“ Inputs müssen daher anschließend manuell entfernt werden.

Ich habe überprüft, dass tatsächlich nur eine(!) PDF-Datei durch den Scanner im scaninput-Ordner abgelegt wird!

Hoffentlich habe ich das Problem veranschaulichen können. Ich würde mich freuen, wenn mir jemand sagen könnte, an welcher „Stellschraube“ (Einstellung) ich da noch drehen muss, um die überflüssigen Fake-Inputs zu vermeiden.

Noch etwas sollte ich betonen: Sobald ich die selbe gescannte PDF manuell in paperless importiere (drag and drop), wird der Vorgang völlig korrekt mit nur einem Import abgeschlossen. Das Gleiche gilt für alle einseitigen gescannten PDFs.

Ich freue mich auf Eure Antworten!

Peter

Jake · 25. Februar 2024 um 07:31

Hallo,

Laienhaft ausgedrückt würde ich sagen Paperless beginnt sofort mit der Verarbeitung sobald das Dokument im Consume Ordner angelegt wird ob wohl es vom Scanner noch bearbeitet wird.

Stell mal folgenden ENV Parameter auf 10, 20 oder 30 Sekunden:
PAPERLESS_CONSUMER_INOTIFY_DELAY

VG

prh · 25. Februar 2024 um 07:55

Danke, jake, ich hatte diesen Parameter bereits einmal ausprobiert - leider ohne Erfolg.

Nach diesen Tests hatte ich ihn auf 15 gestellt…

anon58924890 · 25. Februar 2024 um 08:07

Ich denke @Jake hat hier völlig recht und das dachte ich nir schon mehrfach wenn ich ahnliche Posts gelesen habe.

Könnt ihr nen Workaround umsetzen und in einen anderen Ordner scannen und per Cron-Job die datei in den Consume Ordner schieben lassen ?

Bei Xerox wird die datei auch erstellt und dann pro seite immer größer…
Hast du dir schon mal im Detail die Scaneinstellungen angesehen und auch mal andere Parameter verwendet und mal auch an PDF/a gedacht ?

prh · 25. Februar 2024 um 09:34

Danke, Michael,

Deine Anregung mit PDF/A ist wirklich bedenkenswert - leider bietet unser DEVELOP diese Option nicht an (müsste ich vielleicht mal nach einer neuen Soft-/Firmware schauen).

Und ein CronJob? Ich weiß nicht so recht…
Kann man denn auf der Synology-NAS auch CronJobs erstellen? Dann wäre es vielleicht einen Versuch wert!

Schade aber, sollte es keine anderen Lösungsmöglichkeiten geben.

Peter

anon58924890 · 25. Februar 2024 um 09:41

Nennt sich Task-Planer oder so in der Verwaltung.
Die „Task“ sind im Prinzip nur befehle die man auch manuell via SSH eingeben könnte.

Habt ihr nen Wartungsvertrag für die Ineo ?
Wenn ja soll der Dienstleister/Händler mal auf die neuste Firmware Updaten und vielleicht kann der mehr über die Möglichkeiten dazu sagen.

Bitte keinesfalls selbst Updaten … im Worst Case wird es Vierstellig von den Kosten.

P.S. Arbeite selbst in dem Sektor…

Jake · 25. Februar 2024 um 10:02

15 Sekunden ist auch nicht grad viel wenn man mehrere Seiten scannt, evtl. noch zwischendurch sortiert und manuell abschließen muss.
Und wie lange der Scanner für die Interne Verarbeitung braucht kommt sicher auch auf die Anzahl der Seiten an.

Stell den Parameter zum Testen mal auf 60 oder 120 Sekunden und schau was passiert.

anon58924890 · 25. Februar 2024 um 10:06

War auch mein Gedanke dazu, leider vergessen es zu schreiben.

Dateiaufgaben - Fehlgeschlagen - #5 von antoni105 hier gab es das Problem schon mal.

Jake · 25. Februar 2024 um 10:23

Alternativ könnte man die Scans auch per Mail verschicken und Paperless holt sich das PDF von der speziell dafür eingerichteten Mailadresse.

Mit mehreren Mail Accounts kann man sich in Paperless entsprechende Arbeitsabläufe anlegen, für Rechnungen, Mahnungen, Angebote, … je nachdem welche Dokumente ihr in euerem Büro verwaltet.

Extern Mails lassen sich so ebenfalls in den Arbeitsprozess einbinden.
Nur mal als Anregung.

anon58924890 · 25. Februar 2024 um 10:54

Ich mag den Gedanken… aber Scan2Mail Intern nutzt zum glück keiner mehr ebenso wenig wie FTP/SFTP (letzteres wäre mit Synology schnell umsetzbar).
Das Postfach/Mailserver muss dann auch wieder jemand pflegen und verursacht vielleicht auch wieder separate Kosten durch nen Provider oder gar der IT-ler der den Kaffee wegstellen muss und genervt das Managen muss ^^ … derjenige der das nun alles an der Maschine Programmieren muss ganz zu schweigen.

Wenn die Internetanbindung gut ist wäre es eine Möglichkeit (Notlösung), wenn es aber jetzt um Datenschutzrechtliche Unterlagen geht wie z.B. Notarielle Urkunden / Steuer-Krams usw. ein NoGo.
Zumal du bei Scan2Mail jedes mal die Adresse aus dem Adressbuch auswählen und einen Betreff eintippen musst… das will sich keiner mehr antun wenn du im Scan2SMB solche Dinge schon Vordefinieren kannst bei allen Herstellern und mehrere Profile auswählen kannst.
Naja man könnte eine kleine Tastatur via USB dazu anschließen

@prh Soll es einfach mal Probieren und wenn es immer noch nicht funktioniert kann man sich näher Gedanken dazu machen wenn er uns mit genug Infos versorgen kann.

RKuehne · 25. Februar 2024 um 12:06

Man kann zum Beispiel in der Synology im Aufgabenplaner eine neue Aufgabe einstellen.
Alle Dokumente werden in dem Beispiel in das Verzeichnis incoming gescannt und alle 60 min werden die neuen Dokumente in das Posteingangsverzeichnis von Paperless-ngx kopiert.

find /volume1/incoming/ -type f -mmin -65 -exec rsync -a --no-relative {} /volume1/docker/paperless-ngx/consume/ ; > /dev/null 2>&1

Wenn nicht eine Synology dann gib es noch ein Video von SemperVideo. Vielleicht hilft das auch weiter.

prh · 25. Februar 2024 um 13:31

Danke, @Jake, ich hatte da verschiedene Werte ausprobiert, ohne positive Änderungen.

Was Du noch zu den Mail-Umleitungen geschrieben hast, würde ich nur implementieren wollen, wenn wirklich alles andere versagt…

Danke für Deine Antworten!

Peter

prh · 25. Februar 2024 um 13:35

@anon58924890
Herzlichen Dank auch an Dich für Dein Engagement für die Lösung meines Problems!

Einen Wartungsvertrag haben wir seit etwa einem Jahr nicht mehr. Aber dass ich die Firmware (falls eine neue verfügbar ist) nicht selbst aktualisieren sollte, ist ein sehr guter Hinweis.

Peter

prh · 25. Februar 2024 um 13:36

Auch hier für Deine Überlegungen vielen Dank!

Peter

prh · 25. Februar 2024 um 13:39

Das klingt erst mal gut, wenn ich auch mit der Syntax Deines Skript-Vorschlags mangels Kenntnissen nichts anfangen kann.

Ist es denn möglich, Deine Zeilen 1:1 als Skript in den Aufgabenplaner des NAS zu übernehmen (klar: die Pfade müssen angepasst werden. Aber sonst?)

Am besten wird es sein, wenn ich mich langsam an das Thema herantaste…
Auch Dir herzlichen Dank!

Peter

RKuehne · 25. Februar 2024 um 13:57

Für das Script gibt es eine gute Beschreibung von SemperVideo. Vielleicht hilft dir das ganze
weiter zu verstehen. habe das in der Synology-Aufgabenplaner eingebunden.

find /volume1/incoming/ -type f -mmin -65 -exec rsync -a --no-relative {} /volume1/docker/paperless-ngx/consume/ ; > /dev/null 2>&1

Schwingsi · 25. Februar 2024 um 19:33

@prh

Hallo Peter, dies habe ich eine lange Zeit erfolgreich eingesetzt im Aufgabenplaner.
find /volume1/incoming/ -type f -mmin -65 -exec rsync -a --no-relative {} /volume1/docker/paperless/consume/ ; > /dev/null 2>&1

Bitte daran denken, dass die Aufgabe als root User ausgeführt werden muss. Ich habe es seinerzeit alle 60 Minuten starten lassen.

prh · 26. Februar 2024 um 06:35

Danke für die vielfältigen Lösungsvorschläge!

Ich habe nun einmal dies hier ausprobiert;

Scanner-Output in: /volume1/_SCANS/prh
Kopier-Ziel: /volume1/scaninput/

Hinweis: der Ordner »/volume1/docker/paperless/consume« existiert hier nicht; bislang habe ich über das o.g. »Kopier-Ziel« Daten vom Scanner erhalten.

Dementsprechend habe ich Eure Vorschläge nun in diesem Script angepasst:

find /volume1/_SCANS/prh/ -type f -mmin -65 -exec rsync -a --no-relative {} /volume1/scaninput/ ; > /dev/null 2>&1

Doch leider wird diese Aufgabe nicht ausgeführt, und ich erhalte stattdessen diesen Fehler: »find: missing argument to ‚-exec‘«

Was mache ich noch falsch?

Peter

prh · 26. Februar 2024 um 10:44

Dank nochmal an alle: Ich habe es hier bereits lösen können.

Peter

anon58924890 · 26. Februar 2024 um 12:26

Es wäre doch schön zu wissen was die Lösung/Problem war.