DOCX automatische (Datums-)Feldaktualisierung deaktivieren?

Hallo Paperless-User,

ich hab paperless-ngx auf Docker installiert inkl. Tika und Gotenberg. Funktioniert alles Bestens.
Kleine Herausforderung sind MS Word *.docx Dokumente, wenn da Felder drin sind.
Wenn ich eine Datei mit bspw. Datumsfeld nach Paperless-ngx hochlade, dann wird das Datumsfeld vor der Erstellung des Vorschaubilds offenbar aktualisiert. In der Vorschau steht dann im Text beim Datum das Digitalisierungsdatum. Das ist natürlich falsch.
Im Tab ´Inhalt´ und im Datenfeld ´Ausgestellt am´ dagegen das Datum, wie es beim letzten Abspeichern der *.docx Datei gewesen ist. Das ist korrekt.
Im Screenshot unten sieht man das. Der Zeilenumbruch stimmt nicht mehr, aber das ist irrelevant. Man sieht nur, daß hinter ´Ort, den´ jetzt das Aufnahmedatum in Paperless erscheint. Auch, wenn man die Datei aus Paperless wieder herunterlädt.
Die PDfs in /media/documents/archive werden auch mit falschem Datum erzeugt und abgelegt.

Frage: wo im Prozeß wird das Vorschaubild erzeugt und wo kann man diese automatische Feld-Aktualisierung ausschalten?

Grüße aus K
fromCologne

PS: Hab herausgefunden das Problem liegt nicht bei tika.
Mit curl -T test.docx http://<ip>:9998/meta kann man die von Tika geparsten Metadaten sehen. Mit curl -T test.docx http://<ip>:9998/tika den extrahierten Text. Das ist beides okay. Die Word Felder werden dabei nicht aktualisiert.

Wenn ich dich richtig verstehe meinst du die Funktion in Word/Excel die das heutige Datum ausgibt ?

Deine Frage kann ich dir nicht beantworten aber du kannst Pre/Post Consum eingreifen und vielleicht findest du in der Offiziellen Doku etwas dazu.

Wann das genau passiert lässt sich vielleicht wie folgt herausfinden.

Neues Dokument mit Datum und Zeitstempel ( Sekundengenau) erstellen oder modifizieren und dann mal anhand dem Zeitstempel in den Logs gucken.

Hier gerade mal Gesucht …
Leider steht dort nicht viel zu den Optionen.
https://docs.paperless-ngx.com/administration/#thumbnails

Hallo Michael,

Ja genau die macht das Problem. Ich verwende die standardmäßig in Briefvorlagen. Die wird normalerweise dann von Word beim Ausdruck aktualisiert.

Über den detaillierten Ablauf Consume mit Tika habe ich in der Doku noch nichts gefunden. Mit Thumbnails sind nur die kleinen Vorschaubildchen in der „Dokumente“ Ansicht gemeint? Wenn ich die im Browser super vergrößere ist zu sehen, daß hier auch ein falsches Datum steht, d.h. das Datumsfeld vor der Erzeugung aktualisiert worden ist. Also muß ich im Workflow irgendwo vor deren Erzeugung suchen. Mal in den Sources stöbern.

Grüße aus Köln
Ingo

PS:
Der Ablauf ist offenbar: Rohdokument => Tika zur Textparsen => Gotenberg zur PDF-Erstellung => LibreOffice (in Gotenberg Container) => unoconverter (in Gotenberg Container).
Irgendwo in den beiden letzten Prozeßschritten muß die Feldaktualisierung passieren.