Hallo Forum,
Ich habe vorgestern paperless-ngx v2.19.6 auf meiner Synology mit Docker installiert. Hat alles prima funktioniert. 2 Test-PDFs manuell über das Web-UI hochgeladen …ok. Prima, Text gut erkannt.
Dann: ein paar Tags, Korrespondenten und Dokumententypen angelegt…. alle mit der Regel “enthält alle Wörter”.
Die 2 Dokumente, die bisher importiert waren, habe ich dann mit “Aktion - Erneut verarbeiten” nochmal verarbeiten lassen - und dann wurden auch die Tags, Korrespondenten und Dokumententypen angezeigt.
(Und ich meine, bei einem dritten Dokument hat er bei nachträglich angezeigtem Tag bei Anzeige des Dokuments sogar ein “Vorschlag: xxx” unter dem Tag-Feld angezeigt - ohne daß man nochmal neu verarbeiten muß)
So, alles gut so. Ich lege dann mehr Klassifikations-Stammdaten an (19 Tags, 19 Korrespondenten, 4 Dokumententypen) …. importiere noch 5 weitere Test-PDFs … alles prima. Alles zugewiesen.
Dann lösche dann die Testdokumente aus paperless (inkl. Papierkorb) … und lade manuell 600 PDFs übers UI hoch.
Während dem Hochladen ist mir schon aufgefallen: hm… da werden gar keine Tags, Korrespondenten, … zugewiesen… hm …. vielleicht macht er das erst am Ende, wenn die Queue alle Dokumente importiert / interpretiert hat?
Nein, hat er nicht gemacht. Keinerlei Zuweisungen nachdem alles importiert war.
Mal runter- und wieder hochgefahren … danach mal ein Dokument, bei dem in “Inhalt” ganze klar die 2 oder 3 Worte aus der Korrepsondenten-Definition vorhanden waren, mit “Aktion - Erneut verarbeiten” behandelt…. nichts. Keine Zuweisung.
In vielen anderen Dokumenten ist übrigens unter “Inhalt” klar erkennbar, daß die geforderten Worte erkannt wurden.
Und: bei diesem 600 PDF-Dateien waren auch die von den ersten Gehversuchen dabei - die er am Anfang ohne Probleme getagt hat!
Dann in Portainer auf die Konsole des PaperlessNGX-Containers … und als root ausgeführt:
document_retagger -c
Läuft ca. 1-2 Minuten …. und der Fortschrittsbalken zählt meine Dokumentenanzahl durch. Keine sonstigen Protokollausgaben. Danach: Nichts. Dokumente nach wie vor ohne Korrespondent. Das gleiche mit Option -T für “Tags” probiert … ebenfalls keine Zuweisungen.
Dann ein weiterer Test mit zusätzlicher Angabe der ‘–use-first” option…. keine Lösung des Problems.
Dann das hier:
document_retagger -c -f
”-f” ist die “Overwrite” Option.
Aha, jetzt tut sich was…. im Konsolenfenster sehe ich dieses Mal nicht nur einen Fortschrittsbalken, der meine 600 Dokumente zählt …. sondern ich bekomme alle meine 600 Dokumente aufgelistet mit mit der Meldung: ”Assigning correspondent None to ”
Ein vorher manuell im paperless-UI gesetzter Korrespondent war danach auch wieder gelöscht (im paperless log sehe ich “Updating index for document 467” - das ist genau dieses eine Dokument) - aber es wurden keine aus meinen Definitionen zugewiesen.
Es steht jetzt also fest:
- OCR erkennt den Text sauber
- In Inhalt stehen genau die Begriffe, die ich in der Tag-/Korrespondent-Definition mit Komma (ohne Leerstellen) eingegeben habe (inkl. gesetzter Option, Groß-/Kleinschreibung zu ignorieren)
- Das System kann durchaus Dokumente updaten - daran liegt es nicht.
Was anscheinend nicht geht: Den Text aus der Tag-/Korrespondent-Definition im “Inhalt” des Dokuments”finden” und das Tag setzen.
Beispiel für eine Korrespondenten-Definion : "Alle Wörter: landshut,84003”. Im erkannten Inhalt des Dokuments stehen sowohl “Landshut” als auch die PLZ 84003.
Ich bin ratlos…. hat jemand eine Idee, was ich falsch mache oder was “defekt” sein könnte?
Viele Grüße,
Michael