Ich habe es endlich mal geschafft und die letzten Tage paperless-ai getestet. Zusammen mit oolama könnte ich wirklich brauchbare Resultate erzielen. Es wurden neue Dokumententypen erstellt die wirklich Sinn machen. Auch würde die Erkennung des Inhaltes verbessert sowie ein vernünftiger Betreff gewählt.
Ich habe für ~1300 Dokumente einen halben Tag gebraucht, aber auch nur weil ich ausschließlich 100 Dokumente auf einmal verarbeiten ließ. Und das alle 30 Minuten.
Das ganze läuft auf einem Hetzer rootServer, dort wurden Kubernetes Node VMs installiert und dann wurde das Oolama und Paperless Setup als Container im Kubernetes Cluster ausgerollt.
Ich probiere da immer noch rum. Habe zu erst kleine Modelle getestet, Mistral zum Beispiel. Da war das Ergebnis OK, aber nicht gut genug für meinen Anwendungsfall.
Zur zweit teste ich etwas größere Modelle, sieht man auch gleich an der Installationsgröße.