So endlich geschafft

hnxeast · 29. Januar 2026 um 20:26

Hallo an alle,
es nun endlich mal geschafft, Paperless zu installieren. Ich bin kein Programmierer etc. und auch kein Superadmin was Linux angeht. Habe allerdings mir im Laufe der Jahre seit Anfang der Neunziger Wissen aneignen müssen/wollen, da ich früh gemerkt habe, dass man beim Einkauf von Hard- und Software und Beratungsleistung gnadenlos über den Tisch gezogen wird, wenn man nichts versteht. Ich hatte mich vor Jahren mal mit Linux beschäftigt, war Debian 6. Aus der Zeit habe ich auch noch den Rechner, auf dem jetzt Debian 13 installiert ist. Da ich nun die Assets meiner Eltern verwalten muss, will ich vieles davon digitalisieren, da es speziell im Bereich der Immobilien doch viel Korrespondenz, Verträge etc. gibt.
Das nur zum Hintergrund.

So, jetzt zu meiner Frage:

Was nicht zu funktionieren scheint, ist das Training. Ich hatte am Anfang mal ein paar PDFs hochgeladen und diesen ohne Sinn z. B. Dokumentenarten zugewiesen und sie aber wieder gelöscht, auch aus dem Papierkorb. Nun wird beim Import stumpf jedem Dokument die gleiche Dokumentenart zugewiesen.

Beim Systemstaus kam eine Meldung:
die Plausibilitätsprüfung stand auf Gelb. Beim manuellen Ausführen springt diese auf grün.
Klassifikator steht auf rot und meldet No Training Data. Hier die Details.

{
    "pngx_version": "2.20.5",
    "server_os": "Linux-6.12.63+deb13-amd64-x86_64-with-glibc2.41",
    "install_type": "docker",
    "storage": {
        "total": 3936819662848,
        "available": 3879050809344
    },
    "database": {
        "type": "postgresql",
        "url": "paperless",
        "status": "OK",
        "error": null,
        "migration_status": {
            "latest_migration": "paperless_mail.0001_initial_squashed_0009_mailrule_assign_tags",
            "unapplied_migrations": []
        }
    },
    "tasks": {
        "redis_url": "redis://broker:6379",
        "redis_status": "OK",
        "redis_error": null,
        "celery_status": "OK",
        "celery_url": "celery@3df441708dd3",
        "celery_error": null,
        "index_status": "OK",
        "index_last_modified": "2026-01-29T19:57:09.052557+01:00",
        "index_error": null,
        "classifier_status": "ERROR",
        "classifier_last_trained": "2026-01-29T19:12:35.101548Z",
        "classifier_error": "No training data available.",
        "sanity_check_status": "OK",
        "sanity_check_last_run": "2026-01-29T19:12:28.370904Z",
        "sanity_check_error": null
    },
    "websocket_connected": "OK"
}

Jetzt komme ich gerade nicht weiter. Irgendwelche Vorschläge?
Thx
Edit: Vielleicht ein Denkfehler von mir? Entstehen die Trainingsdaten erst durch die Bearbeitung der Dokumente? Deshalb die Fehlermeldung?

Pfiffikus · 29. Januar 2026 um 22:00

Hallo,

nutze einfach Paperless für die Digitalisierung Deiner Sachen, was auch immer zu archivieren ist. Und wenn Du neue Sachen importierst, dann korrigiere einfach manuell die wichtigen Sachen wie Korrespondent, Dokumentart und Tags.

Seit drei Jahren mache ich das so. Und das System hat offenbar dazu gelernt. Ich muss im Laufe der Zeit immer weniger manuelle Korrekturen durchführen. So wird es bei Dir auch kommen.

Pfiffikus,
der sich trotzdem keinesfalls hundertprozentig auf die korrekte Zuordnung verlassen würde