Korrespondenten: Fuzzy Funktion gegen Dubletten (mit o. ohne paperless-ai)

Hallo zusammen,

ich bin neu im paperless-ngx Universum, aber habe die letzten Wochenenden und Abende mit LLMs verbracht, um als Laie unter proxmox als LXC paperless-ngx UND -ai zum Laufen zu bringen.

Ich möchte ca. 30 Jahre Dokumente mit zig Quellen digitalisieren und daher investiere ich gerade etwas Hirnschmalz in den “perfekten” Ablauf.

Frage:

Wie kann ich verhindern, dass zu viele leicht verschiedene Korrespondenten angelegt werden?

In der NGX Doku wird ja fuzzy als Option für den Algo genannt - diese Option sehe ich bei mir aber nicht, daher lasse ich auf “autom.”.

Ich nahm an, dass paperless-ai hier helfen kann, aber das ist leider (noch) nicht der Fall. Ich kann die Mandanten auch nicht Whitelisten, dafür sind es zu viele.

Wie macht ihr das? Im Alltag kann ich das bestimmt kontrollieren, aber beim Import von historischen Aktenordnern ist das schnell zu kompliziert.

Claude Code schlägt mir einen n8n Workflow dafür vor, davor schrecke ich nicht zurück, aber ich will es nicht unnötig verkomplizieren, als sowieso schon.

Danke euch für etwaige Tipps.

P.S.

Vor 3 Wochen wurde ja ein AI Feature in den Branch gemerged - wann ist denn etwa mit einem Release in stable zu rechnen. :slight_smile:

Ich denke mal Du hast da drei Möglichkeiten. Entweder Korrespondent Aktualisierung deaktivieren, oder von Hand die Anpassungen immer nachziehen nach jedem Lauf oder Du passt Deinen Prompt entsprechend an.

Hi, vielen Dank. Das sind die drei manuellen Wege. Ich suche aber im Prinzip sowas:

Scan → OCR → Fuzzy-Abgleich Korrespondenten (Threshold XY) → existiert: nutzen // existiert nicht: anlegen

So werden naturgemäß noch Fehler durchkommen, aber AI sollte in der Lage sein, mehr als nur der autom. Algo einen Match zu finden.

Die aktuelle Herausforderung erscheint mir zu sein, dass paperless-ai keine Ahnung hat, welche Korrespondenten aktuell existieren. Im Prompt müsste ich die alle fest verdrahten (auflisten).

Generell - so toll paperless-ai ist - wäre es natürlich super, wenn solche Funktionen zukünftig ohne mein Laien-Gefrickel funktionieren. Im Prinzip habe ich AI auch nur aus 2 Gründen:

a) sinnvolle Titelbenennung

b) bessers OCR

Sicherlich keine Dauerlösung, wenn ich mir die recht rasante Entwicklung bei NGX ansehe. Tolle Community. Aber es passiert gerade zu viel Richtung AI, als das man das alles schnell genug (und sicher!!) implementieren kann. Verstehe schon.

Dann bringe doch Dein Anliegen auf GitHub als Issuer einmal zur Sprache. Vielleicht bist Du nicht alleine damit, nur der Entwickler hatte halt selbst noch nicht den Gedankengang.

Opensource Software lebt durch mitwirken.

1 „Gefällt mir“