Ich habe paperless-ai getestet

Hallo zusammen,

ich möchte heute mein aktuelles Setup zur Dokumenten-Digitalisierung teilen. Mein Ziel war es, die herkömmliche OCR-Qualität (Tesseract) massiv zu verbessern, ohne meine Dokumente in die Cloud (OpenAI & Co.) schicken zu müssen.
:laptop: Das Hardware-Setup
Die Basis bildet ein Linux-Subsystem (WSL) unter Windows 11 mit ordentlich Dampf für lokale KI-Modelle:
CPU: Intel i7 Ultra (sorgt für schnelles PDF-Rendering und Reparatur via Ghostscript)
RAM: 32 GB (wichtig für die Pufferung großer PDF-Bilder)
GPU: NVIDIA RTX 5060 Ti (Das Herzstück: Hier laufen die Vision-LLMs über Ollama)

Speicher: Anbindung an ein NAS über /volume1/

:rocket: Der Workflow: KI trifft auf klassisches OCR
Statt mich auf die Standard-OCR-Engine von Paperless-ngx zu verlassen, habe ich ein Python-Skript vorgeschaltet, das als „Veredelungs-Filter“ fungiert.

Was das Skript macht:
PDF-Reparatur: Nutzt Ghostscript und qpdf, um defekte Struktur-Header zu fixen oder Verschlüsselungen (Bearbeitungsschutz) zu entfernen.
KI-Vision-Analyse: Die ersten Seiten werden gerendert und an Ollama (Modell: deepseek-ocr:3b) gesendet. Die KI „liest“ das Bild und korrigiert Rechtschreibfehler sowie semantische OCR-Patzer in Echtzeit lokal auf der RTX 5060 Ti.
Hybrid-Injection: Der korrigierte KI-Text wird mittels ocrmypdf als unsichtbare, durchsuchbare Ebene wieder in das Original-Layout des PDFs eingebettet.
Archivierung: Das Original wird in einen „Fertig“-Ordner verschoben, das optimierte PDF landet im Consumer-Ordner für das Archiv.
:warning: Warum ich mich gegen Paperless-GPT / Paperless-AI in der Standardform entschieden habe
Bei meinen Tests bin ich auf zwei massive Probleme gestoßen, die viele Nutzer von Paperless-Erweiterungen kennen dürften:

  1. Das VRAM-Dilemma (Timeout & Speicher-Crash)
    Tools wie Paperless-GPT versuchen oft, die „großen“ Vision-Modelle (wie Llama 3.2 11B) direkt auf die Dokumente loszulassen. Auf einer Consumer-Karte wie meiner RTX 5060 Ti führt das fast zwangsläufig zum Super-GAU:
    Der Flaschenhals: Das Modell belegt bereits 8-9 GB VRAM. Wenn man dann ein hochauflösendes PDF-Bild (300-400 DPI) zur Analyse hineinlädt, läuft der Speicher über.
    Die Folge: Der Ollama-Server antwortet nicht mehr, Python wirft einen „Server disconnected“ Fehler und das gesamte Linux-System fängt an zu „swappen“ (einzufrieren).
    Meine Lösung: Ich erzwinge im Skript einen keep_alive=0 nach jeder Seite und nutze das spezialisierte deepseek-ocr:3b. Das ist klein genug, um neben dem PDF-Bild noch genügend Puffer im VRAM zu haben, wodurch Timeouts und Abstürze der Vergangenheit angehören.
  2. Das „Dirty OCR“-Problem bei Paperless-AI
    Viele KI-Tools für Paperless arbeiten rein textbasiert. Das heißt, sie nehmen das (oft fehlerhafte) Tesseract-OCR-Ergebnis und versuchen, daraus per KI Metadaten zu extrahieren.
    Das Problem: Wenn das Basis-OCR schlecht ist (z. B. „R€chnung“ statt „Rechnung“), halluziniert die KI bei der Datenextraktion oder findet Termine und Beträge gar nicht erst. Das Dokument selbst bleibt im Archiv zudem „kaputt“.
    Mein Ansatz: Mein Workflow setzt eine Stufe früher an. Ich korrigiere nicht nur die Metadaten, sondern ersetze die fehlerhafte Textebene im PDF selbst durch das KI-Ergebnis.
    Anstatt Tesseract-Fehler zu „reparieren“, wird das PDF-Bild direkt von der KI „gelesen“.
    Der korrigierte Text wird per ocrmypdf im Sandwich-Verfahren neu eingebettet.
    Ergebnis: Paperless-ngx bekommt ein technisch perfektes PDF, bei dem die Suche (STRG+F) und das automatische Tagging sofort funktionieren, weil das Basis-Material bereits veredelt wurde.

:chart_increasing: Meine Erfahrungen
Erkennungsrate: Ein Quantensprung. Besonders bei schlechten Scans oder komplexen deutschen Begriffen erkennt die KI Wörter im Kontext, an denen Tesseract scheitert.
Performance: Auf der RTX 5060 Ti läuft das 3b-Modell extrem flüssig. Durch das Entladen des Modells nach jeder Seite (keep_alive=0) bleibt das System auch bei großen Batches stabil.
Datenschutz: Das für mich wichtigste Argument. 100% der Verarbeitung findet im eigenen „Wohnzimmer“ statt.
:hammer_and_wrench: Tipp für Nachahmer
Wenn ihr eine 8GB oder 12GB Karte nutzt, nehmt kleinere Vision-Modelle wie deepseek-ocr:3b oder qwen2.5-vl. Die großen 11B-Modelle sprengen oft den VRAM (eigene Erfahrung), wenn man gleichzeitig hochauflösende PDF-Seiten rendert.

Beste Grüße,
Heiko