Meine Startschwierigkeiten mit Paperless ngx

Heiko · 10. März 2026 um 08:21

willkommen in der Paperless-ngx Welt! Das sind absolut verständliche Fragen für den Einstieg. Viele der Dinge, die du ansprichst, sind tatsächlich möglich oder lösbar – teils durch versteckte Einstellungen, teils durch smarte Erweiterungen.

Hier sind Lösungsansätze zu deinen vier Punkten (und wie wir das extrem weit automatisiert haben):

**Zu 1: Die 90-Grad Drehung**

Paperless verfügt von Haus aus über eine Funktion zur automatischen Drehung von Dokumenten anhand der Textausrichtung während der OCR-Phase. Das ist standardmäßig oft deaktiviert, um Ressourcen zu sparen.

Du musst in deiner `docker-compose.env` (bzw. in deinen Container-Umgebungsvariablen) folgenden Wert eintragen:

`PAPERLESS_OCR_ROTATE_PAGES=true`

(Optional auch noch `PAPERLESS_OCR_ROTATE_PAGES_THRESHOLD=1.5`, um die Sensibilität anzupassen). Danach startet der OCR-Prozess bei falsch gedrehten Scans von deinem Brother ADS-4700W automatisch die Korrektur. Wichtig: Wenn du ein Dokument stattdessen manuell im Editor drehst, musst du es danach einmal „Neu verarbeiten“ (über die Dokumentenansicht), damit auch die Vorschau korrekt neu gerendert wird.

**Zu 2: Automatische Benennung (und unser Power-Setup!)**

Hier sollten wir zunächst klären: Meinst du den Dateinamen auf der Festplatte oder den Titel des Dokuments in Paperless? Das sind zwei unterschiedliche Dinge.

Wenn es dir nur um den Dateinamen geht: Das macht Paperless über sogenannte **Speicherpfade** (Storage Paths). Dort kannst du Platzhalter wie `{{ created_year }}/{{ correspondent }}_{{ title }}` hinterlegen, und Paperless benennt die physischen Dateien automatisch passend um.

Was den Titel betrifft: Paperless lernt zwar mit der Zeit über die „Passenden Algorithmen“ (Zuweisungen), aber wirklich den semantischen *Betreff* eines Schreibens aus dem Text zu extrahieren, kann Paperless nativ ohne vorgegebene Regeln nicht.

Um dies zuverlässig zu bewerkstelligen, wirst du meist um eine KI-Lösung nicht herumkommen (wie z.B. Paperless-AI, Paperless-GPT oder mein Setup). **Unsere Lösung:** Wir betreiben eine **Paperless-ngx AI Dual-System Edition**.

Da eine Synology NAS für echte KI-Modelle zu schwach ist, belassen wir das Haupt-Paperless und die Datenbank auf der NAS. Die rechenintensiven Aufgaben (intelligente Zuweisung, OCR von schwer lesbaren Dingen, Dublettenprüfung und Metadaten-Extraktion) haben wir auf einen separaten, leistungsstarken Windows-PC ausgelagert.

Unser Setup:

- **Intel Core i7 Ultra**

- **32 GB DDR5-RAM**

- **Nvidia RTX 5060 Ti (16 GB VRAM)** für GPU-Beschleunigung

- **Windows 11 Pro mit WSL2 (Ubuntu 24.04)**

Über ein Python-Skript (unser `ai_watchdog` und via API/Ollama) schaut eine echte KI (z.B. Qwen2.5-VL) auf das frisch gescannte Dokument in Paperless, *liest* den kompletten Text, extrahiert den perfekten Titel (oft exakt den Betreff des Briefes!), das Datum, den Korrespondenten und sogar passende Tags. Danach schreibt die KI diese Daten vollautomatisch über die REST-API in Paperless zurück. Das reduziert die Nacharbeit nicht um 50%, sondern locker um 95%! Wenn du technikaffin bist, wäre so eine Auslagerung via API/LLM vielleicht der nächste logische Schritt für dich.

**Zu 3: Benutzerdefinierte Felder (Versicherungsnummer)**

Das ständige händische Einblenden musst du nicht machen! Paperless nutzt dafür das Konzept der **Dokumententypen**.

1. Gehe unter *Verwalten* auf *Dokumententypen* und lege z. B. den Typ „Versicherungsschreiben“ an.

2. Gehe in die Bearbeitung dieses Dokumententyps und weise unten im Bereich „Benutzerdefinierte Felder“ dein Feld „Versicherungsnummer“ zu.

*Der Trick:* Sobald nun einem Dokument der Typ „Versicherungsschreiben“ zugewiesen wird (was Paperless über den Auto-Lern-Algorithmus nach ein paar Beispielen auch selbstständig macht), ploppt das Feld „Versicherungsnummer“ automatisch auf. Wenn der Typ nicht zutrifft, bleibt das Feld unsichtbar. So bleibt die Oberfläche immer schön aufgeräumt (KI-Lösungen können dann sogar die Versicherungsnummern automatisch in die benutzerdefinierten Felder eintragen).

**Zu 4: Das Backup via Hyper Backup**

Dein Ansatz, den kompletten `docker`-Ordner wegzusichern, ist gut, da dort dein `media`-Ordner (mit allen deinen echten PDFs und Archiven) liegt. **Aber große Vorsicht bei der Datenbank!**

Du nutzt `postgres:17.9`. Wenn Hyper Backup die rohen Datenbank-Dateien von Postgres sichert, während der Container läuft und Schreibvorgänge stattfinden, ist das Backup zu 90% korrupt und unbrauchbar. Der Container Manager selbst muss auch nicht zwingend gesichert werden, wichtig sind deine Daten.

*Best Practice zur Wiederherstellung:* Lass entweder regelmäßig per Cronjob über die Synology oder den Aufgabenplaner einen sauberen SQL-Dump (Datensicherung) deiner Postgres-Datenbank erstellen (`pg_dump`) und speichere diesen Dump in einem Ordner, den Hyper Backup sichert.

Alternativ kannst du den integrierten Document-Exporter von Paperless-ngx nutzen (`document_exporter`), der alle PFDs *inklusive* einer sauberen manifest.json (in der alle Tags, Metadaten etc. stehen) in einen Export-Ordner schiebt. Wenn du diesen Ordner mit Hyper Backup sicherst, bist du zu 100% auf der sicheren Seite.

*(Falls du auf unser Dual-System-Setup umsteigst: Wir haben dort eine Backup-Funktion direkt ins Dashboard eingebaut. Ein Klick, und das System fährt kurz die Container runter, zieht automatisch einen sauberen Postgres-Dump über SSH von der Synology und packt alles zusammen mit dem `media`-Ordner, der Vektordatenbank und allen Skripten in ein komprimiertes `tar.gz`-Archiv. Das ist die absolute „Rundum-sorglos-Lösung“.)*

Viele Grüße,

Heiko