Ich scheitere aktuell PDFs die durch eBill (Schweiz, digitale Rechnung wird bereitgestellt durch das Portal der Bank) in Paperless-NGX ein zu pflegen. Das hinzufügen klappt problemlos, allerdings will die Texterkennung nicht funktionieren und es werden lediglich die folgenden Symbole angezeigt:
[WARNING] [ocrmypdf._metadata] Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF’s XMP metadata.
Wenn ich in der Konfiguration den Modus auf “force” setze, generiert er zwar eine neue Archivdatei, baut hier allerdings Fehler ein und manche Elemente im PDF sind verschoben etc. Das ist also auch keine Lösung. Ich have darüber hinaus noch mit dem Output Typ rumgespielt und auf PDF gesetzt (ohne Erfolg), sowie mit Clean (final, ohne, etc), was ebenfalls nichts geändert hat.
Ich verstehe das Problem nicht so ganz: soweit ich sehe sind die PDFs nicht digital signiert; ich kann sie problemlos editieren. Text selber suchen geht jedoch nicht.
Hat jemand eine Idee? Ein Grossteil meiner digitalen Rechnungen wird mir auf diesem Weg zugestellt (Versicherung, Energie, etc.).
Deine Rechnungen sind im PDF/A Format. Beim Erstellen eines durchsuchbaren Dokumentes schreibt Paperless die OCR als zusätzliche Ebene in das Dokument. Das ist bei PDF/A nicht zulässig.
Mein Workaround : PDF in einen Editor laden, Umwandeln in normales PDF, in den Inputordner von Paperless sichern
Wenn du Buchhaltung nach GODB machen muss, dann unbedingt das Original aufbewahren. Ich speichere meine E-Rechnungen revisionssicher im Buchhaltungsprogramm und lege nur Kopie mit OCR in Paperless ab.
Dann ist doch das mit den ASN eigentlich auch für die Katz und das zugehörige Protokoll das Änderungen verfolgt und alles müsste in einer Datenbank oder so gespeichert werden um Revisionsicher zu sein oder wie ?
Hätte jetzt auch wie @RKuehne gedacht das reicht wenn die unberührten Originale wo rumliegen.
Es geht darum, dass die Dokumente aus dem PDF/A-Format konvertiert werden müssen, um OCR anzuwenden. In diesem Fall wird im Paperless das bearbeitete Dokument hinterlegt.
Grundsätzlich ist Paperless ein großartiges System, aber es ist nicht zur Buchführung geeignet.
In Paperless werden sowohl das Original als auch das bearbeitete Dokument mit OCR gepeichert. PDF/A an sich als Original ist eigentlich kein Problem.
Was revisionssicher angeht: Wenn du das System selber betreibst ist es nicht revisionssicher. Nach dem Gesetz vielleicht, aber praktisch halt nicht.
Danke für deine Antwort. Wie sind denn dein Workflow genau aus? Ich verwende einen MAC und habe das schon mit Preview und JOPDF versucht. Sowohl speichern unter, als auch export oder drucken. Das Ergebnis war in jedem Fall identisch, und paperless konnte kein OCR laufen lassen.
Mit Mac kenne ich mich nicht aus. Unter Win11 verwende ich KofaxPDF. Damit kann ich die Datei als normales, editierbares PDF speichern in meinem Inputordner von Paperless speichern.
Mir hat das Thema keine Ruhe gelassen, und ich habe die letzten Tage viel getestet.
Unter Windows funktioniert es so wie bei dir: entweder als export oder als PDF drucken, und der Import und OCR funktioniert in Paperless-ngx ohne Probleme. Am MAC kriege ich es jedoch auf biegen und brechen nicht hin. Hab sicher 5 verschiede PDF Editoren ausprobiert - ohne Erfolg. Ich denke es liegt irgendwie am „als PDF speichern“ was beim MAC ja nativ vorhanden ist.
Ich hab jedoch eine Lösung gefunden (perplexity sei Dank), die mir noch besser gefällt. Ich lasse jetzt folgendes Skript via PAPERLESS_PRE_CONSUME_SCRIPT im Vorgang laufen.
#!/usr/bin/env bash
set -e
echo "Running pre-consume OCRmyPDF on: $(basename "$DOCUMENT_WORKING_PATH")"
# Use Paperless's OCRmyPDF (correct path)
/usr/local/bin/ocrmypdf --force-ocr -l deu+eng "$DOCUMENT_WORKING_PATH" "$DOCUMENT_WORKING_PATH"
echo " Pre-consume OCR complete: $(basename "$DOCUMENT_WORKING_PATH")"
Klappt super und ich kann so einfach alle PDFs einfach weiter in den consume Ordner schmeissen.
In einer ersten Variante hatte ich das noch über den Task Scheduler auf der Synology und einem zweiten consume Ordner gelöst - das Skript lief dann alle 15 und hat im Anschluss das PDF dann in den normalen consume Ordner verschoben.