Paperless OCR verbessern: best practise?

Lieber Heiko,

ein MEGA Workflow und eine tolle Umsetzung, die Du da geleistet hast!! Finde viele Dinge sehr inspirierend und gut durchdacht!
Bei einigen Beschreibungen des Workflows habe ich noch Fragen:

  • Du beschreibst die drei Modelle. Hast Du sie verschiedentlich in Deinem Workflow zum Einsatz gebracht (und falls ja, bei welcher Gelegenheit), oder stellst Du sie als Alternative für Leistungsschwächere Systeme vor?

  • In einem früheren Posting ( Neues Video: Hands-on: Texterkennung (OCR) durch lokale KI: Endlich Handschrift & Kassenbons erkennen? - #9 von Heiko ) hast Du eine Teil vorgestellt, den ich sehr interessant fand, aber nicht weiß, ob Du ihn hier umgesetzt hast, bzw. ich ihn richtig verstanden habe. Es geht um den Schritt “PDF-Reparatur (Ghostscript)”. War damals gemeint, dass Du das PDF auf Fehler checkst und gegebenenfalls reparieren kannst, bevor Du es dann später an paperless übergibst - es kommt ja immer wieder vor, dass ältere PDF nicht lesbar für paperless sind (z.B. die consume errors) und auf dem “Fehlgeschlagen” Haufen landen.

  • Hast Du einen eigenen Chatbot und ein Zusammenfassungstool programmiert, oder verwendest Du im Hintergrund paperless-ai?

  • Ich habe den Part und den Zusammenhang mit den Sync-Tokens noch nicht ganz verstanden. Was passiert wenn die Sync-Tokens verloren gehen und warum ist das für den privaten Chat relevant? Als Sicherung, damit ich den Bot nicht nochmal fragen muss?

Grüße, Alexander