OCR nicht möglich in PDFs die durch Dienstleiter bereitgestellt werden

Hallo zusammen,

Ich scheitere aktuell PDFs die durch eBill (Schweiz, digitale Rechnung wird bereitgestellt durch das Portal der Bank) in Paperless-NGX ein zu pflegen. Das hinzufügen klappt problemlos, allerdings will die Texterkennung nicht funktionieren und es werden lediglich die folgenden Symbole angezeigt:

Dazu kommt die Fehlermeldung im LOG:

[WARNING] [ocrmypdf._metadata] Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF’s XMP metadata.

Wenn ich in der Konfiguration den Modus auf “force” setze, generiert er zwar eine neue Archivdatei, baut hier allerdings Fehler ein und manche Elemente im PDF sind verschoben etc. Das ist also auch keine Lösung. Ich have darüber hinaus noch mit dem Output Typ rumgespielt und auf PDF gesetzt (ohne Erfolg), sowie mit Clean (final, ohne, etc), was ebenfalls nichts geändert hat.

Ich verstehe das Problem nicht so ganz: soweit ich sehe sind die PDFs nicht digital signiert; ich kann sie problemlos editieren. Text selber suchen geht jedoch nicht.

Hat jemand eine Idee? Ein Grossteil meiner digitalen Rechnungen wird mir auf diesem Weg zugestellt (Versicherung, Energie, etc.).

Schönen Abend

Deine Rechnungen sind im PDF/A Format. Beim Erstellen eines durchsuchbaren Dokumentes schreibt Paperless die OCR als zusätzliche Ebene in das Dokument. Das ist bei PDF/A nicht zulässig.

Mein Workaround : PDF in einen Editor laden, Umwandeln in normales PDF, in den Inputordner von Paperless sichern

Wenn du Buchhaltung nach GODB machen muss, dann unbedingt das Original aufbewahren. Ich speichere meine E-Rechnungen revisionssicher im Buchhaltungsprogramm und lege nur Kopie mit OCR in Paperless ab.

Die Originale werden doch im Verzeichnis media/documents/originals aufbewahrt.

1 „Gefällt mir“

Das ist nicht revisionssicher, weil die Dokumente ausgetauscht und verändert werden können.

Dann ist doch das mit den ASN eigentlich auch für die Katz und das zugehörige Protokoll das Änderungen verfolgt und alles müsste in einer Datenbank oder so gespeichert werden um Revisionsicher zu sein oder wie ?

Hätte jetzt auch wie @RKuehne gedacht das reicht wenn die unberührten Originale wo rumliegen.

Es geht darum, dass die Dokumente aus dem PDF/A-Format konvertiert werden müssen, um OCR anzuwenden. In diesem Fall wird im Paperless das bearbeitete Dokument hinterlegt.

Grundsätzlich ist Paperless ein großartiges System, aber es ist nicht zur Buchführung geeignet.

Eine gute Zusammenfassung zur GoDB gibt es hier : GoBD: Grundsätze ordnungsmäßiger Buchführung

Welche Software nutzt du?

In Paperless werden sowohl das Original als auch das bearbeitete Dokument mit OCR gepeichert. PDF/A an sich als Original ist eigentlich kein Problem.
Was revisionssicher angeht: Wenn du das System selber betreibst ist es nicht revisionssicher. Nach dem Gesetz vielleicht, aber praktisch halt nicht.

Danke für deine Antwort. Wie sind denn dein Workflow genau aus? Ich verwende einen MAC und habe das schon mit Preview und JOPDF versucht. Sowohl speichern unter, als auch export oder drucken. Das Ergebnis war in jedem Fall identisch, und paperless konnte kein OCR laufen lassen.

Mit Mac kenne ich mich nicht aus. Unter Win11 verwende ich KofaxPDF. Damit kann ich die Datei als normales, editierbares PDF speichern in meinem Inputordner von Paperless speichern.

Das scheint ein realtiv typisches Problem zu sein.

Bei mir sind es die quartalsweise generierten Dokumente der Kassenärztlichen Vereinigung.

Da bekommt man (neben tausend anderen) immer einen “Honorarbescheid” und einen “Kontoauszug”.

Mein STeuerberater will beide zusammen haben. Ich bin bisher gescheitert:

  • Wenn man versucht die zu kombinieren kommt nur Müll bei raus.
  • Wenn man versucht beide DOkumente in DATEV Unternehmen online an die Buchung zu hängen, scheitert das an einer Fehlermeldung
  • Schöne neue Welt ….

Mir hat das Thema keine Ruhe gelassen, und ich habe die letzten Tage viel getestet.

Unter Windows funktioniert es so wie bei dir: entweder als export oder als PDF drucken, und der Import und OCR funktioniert in Paperless-ngx ohne Probleme. Am MAC kriege ich es jedoch auf biegen und brechen nicht hin. Hab sicher 5 verschiede PDF Editoren ausprobiert - ohne Erfolg. Ich denke es liegt irgendwie am „als PDF speichern“ was beim MAC ja nativ vorhanden ist.

Ich hab jedoch eine Lösung gefunden (perplexity sei Dank), die mir noch besser gefällt. Ich lasse jetzt folgendes Skript via PAPERLESS_PRE_CONSUME_SCRIPT im Vorgang laufen.

#!/usr/bin/env bash
set -e

echo "Running pre-consume OCRmyPDF on: $(basename "$DOCUMENT_WORKING_PATH")"

# Use Paperless's OCRmyPDF (correct path)
 /usr/local/bin/ocrmypdf --force-ocr -l deu+eng "$DOCUMENT_WORKING_PATH" "$DOCUMENT_WORKING_PATH"
 

echo " Pre-consume OCR complete: $(basename "$DOCUMENT_WORKING_PATH")"

Klappt super und ich kann so einfach alle PDFs einfach weiter in den consume Ordner schmeissen.
In einer ersten Variante hatte ich das noch über den Task Scheduler auf der Synology und einem zweiten consume Ordner gelöst - das Skript lief dann alle 15 und hat im Anschluss das PDF dann in den normalen consume Ordner verschoben.

Mit der Lösung oben erspare ich mir das jedoch.

Danke für eure Unterstützung