hook-Skriptezum Einbinden eigener Routinen

drnicolas · 25. März 2024 um 16:26

Ich bin kürzlich auf PP alles gestoßen, nachdem mein Bisheriges DMS immer mehr Probleme macht. Wieso viele habe ich bisher mit ecoDMS gearbeitet.
Schon vor Wochen hat die Back-up Funktion Fehler gemeldet den ich nicht beheben kann. Neuerdings verschwinden gestenteten neue Dokumente aus dem Scan Input Ordner, tauchen dann aber Ausgang im Grunde nicht in der inbox auf.
Grund genug nach etwas neuem zu suchen.

Dabei bin ich auf PP alles gestoßen und bin nach ersten Schwierigkeiten relativ begeistert.
Aktuell überlege ich, ob PPL auch für Dokumente aus meiner Praxis zu verwenden wäre:
Aktuell werden viele Dokumente gescannt oder Treffen per Fax ein. Alle Dokumente erhalten einen ocrmypdf-Durchlauf.
anschließend werden mehrere verschiedene Strategien angewandt um Daten von Patienten im Dokument zu finden, diese mit der Patienten Datenbank abzugleichen und schließlich einen link auf das Dokument in der Patientenakte anzulegen. Das identifizierte Dokument landet in einem Verzeichnis.
Das funktioniert erstaunlich gut, aber nicht 100%. Speziell, wenn es gilt Dokumente zu zu finden, die nicht zugeordnet wurden, dann ist die bisherige Lösung extrem unbequemen.
Daher kamen wir nach den ersten Versuchen mit PP alles die Idee, ob es möglich wäre, irgendwie mein Suchskript einzubinden.
Ich bin mir nicht sicher ob das Pre-consumption oder das post-consumption skript das richtige wäre.
Im Grunde müsste ich nach der Texterkennung mein Skript starten und im Falle der identifizierung den Dokumententitel ändern können, Tags setzen/löschen/ändern und den Speicherpfad beeinflussen.
Der Speicherort muss zwingend als SMB-freigabe lesbar sein, da das PVS unter Windows läuft.

Wäre sowas machbar? Oder ist das post-onsumption-skript schon zu spät dran?

anon58924890 · 25. März 2024 um 16:55

Das sollte kein Problem sein soweit Paperless alleinig Änderungen an der Struktur vornimmt und nix reinpfuscht.

Stefan · 25. März 2024 um 17:04

Wichtiger Hinweis von Michael! Du darfst diesen Ordner nur lesend einbinden, sonst gibt es Probleme.

Prinzipiell bist du mit post-Consumption nicht zu spät dran, denn du kannst Dokumente immer auch nachträglich noch verändern.

Was ganz schön ist: paperless-ngx hat eine API, das heißt, dein Script könnte nach jeder Konsumierung aufgerufen werden (übrigens nutzt paperless-ngx auch unter der Haube tesseract, wie auch OCRmyPDF, wäre also überflüssig) und dann bei Dokumenten, bei denen es „anschlägt“, mithilfe der Dokumenten-ID eine API-Call machen, der dann die entsprechenden Daten ändert.

drnicolas · 26. März 2024 um 10:49

Danke. Habe gerade dieses Python-Modul entdeckt, dass anscheinend API-Calls wrappt.

Lathrop · 2. April 2024 um 13:24

Das habe ich schon des öfteren gelesen. Wie würde man hier vorgehen?

Ich verwende Paperless auf einem Synology DS220+ (Installiert/Eingerichtet mit der Masterclass) und arbeite am MacBook Pro mit macOS 14.4.1.