Probleme mit signierten Dokumenten

Hallo, ich habe eine signierte Rechnung erhalten und da steigt paperless dann mit Fehlern aus. Eine Idee?

Hier das Log

[2024-02-07 19:26:45,801] [WARNING] [paperless.parsing.tesseract] Encountered an error while running OCR: Input PDF has a digital signature. OCR would alter the document,
invalidating the signature.
. Attempting force OCR to get the text.
[2024-02-07 19:26:45,802] [DEBUG] [paperless.parsing.tesseract] Fallback: Calling OCRmyPDF with args: {‚input_file‘: PosixPath(‚/tmp/paperless/paperless-ngxckz12k6m/EBI9502287433_00_M_00_N_EB_0195924130.PDF‘), ‚output_file‘: PosixPath(‚/tmp/paperless/paperless-cet6eufw/archive-fallback.pdf‘), ‚use_threads‘: True, ‚jobs‘: 4, ‚language‘: ‚deu‘, ‚output_type‘: ‚pdfa‘, ‚progress_bar‘: False, ‚color_conversion_strategy‘: ‚RGB‘, ‚force_ocr‘: True, ‚clean‘: True, ‚deskew‘: True, ‚rotate_pages‘: True, ‚rotate_pages_threshold‘: 12.0, ‚sidecar‘: PosixPath(‚/tmp/paperless/paperless-cet6eufw/sidecar-fallback.txt‘)}
[2024-02-07 19:26:46,660] [ERROR] [paperless.consumer] Error occurred while consuming document EBI9502287433_00_M_00_N_EB_0195924130.PDF: DigitalSignatureError: Input PDF has a digital signature. OCR would alter the document,
invalidating the signature.
Traceback (most recent call last):
File „/usr/src/paperless/src/paperless_tesseract/parsers.py“, line 353, in parse
ocrmypdf.ocr(**args)
File „/usr/local/lib/python3.11/site-packages/ocrmypdf/api.py“, line 375, in ocr
return run_pipeline(options=options, plugin_manager=plugin_manager)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File „/usr/local/lib/python3.11/site-packages/ocrmypdf/_pipelines/ocr.py“, line 225, in run_pipeline
return _run_pipeline(options, plugin_manager)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File „/usr/local/lib/python3.11/site-packages/ocrmypdf/_pipelines/ocr.py“, line 189, in _run_pipeline
validate_pdfinfo_options(context)
File „/usr/local/lib/python3.11/site-packages/ocrmypdf/_pipeline.py“, line 202, in validate_pdfinfo_options
raise DigitalSignatureError()
ocrmypdf.exceptions.DigitalSignatureError: Input PDF has a digital signature. OCR would alter the document,
invalidating the signature.
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File „/usr/src/paperless/src/paperless_tesseract/parsers.py“, line 404, in parse
ocrmypdf.ocr(**args)
File „/usr/local/lib/python3.11/site-packages/ocrmypdf/api.py“, line 375, in ocr
return run_pipeline(options=options, plugin_manager=plugin_manager)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File „/usr/local/lib/python3.11/site-packages/ocrmypdf/_pipelines/ocr.py“, line 225, in run_pipeline
return _run_pipeline(options, plugin_manager)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File „/usr/local/lib/python3.11/site-packages/ocrmypdf/_pipelines/ocr.py“, line 189, in _run_pipeline
validate_pdfinfo_options(context)
File „/usr/local/lib/python3.11/site-packages/ocrmypdf/_pipeline.py“, line 202, in validate_pdfinfo_options
raise DigitalSignatureError()
ocrmypdf.exceptions.DigitalSignatureError: Input PDF has a digital signature. OCR would alter the document,
invalidating the signature.
The above exception was the direct cause of the following exception:
Traceback (most recent call last):
File „/usr/local/lib/python3.11/site-packages/asgiref/sync.py“, line 349, in main_wrap
raise exc_info[1]
File „/usr/src/paperless/src/documents/consumer.py“, line 516, in try_consume_file
document_parser.parse(self.working_copy, mime_type, self.filename)
File „/usr/src/paperless/src/paperless_tesseract/parsers.py“, line 416, in parse
raise ParseError(f"{e.class.name}: {e!s}") from e
documents.parsers.ParseError: DigitalSignatureError: Input PDF has a digital signature. OCR would alter the document,
invalidating the signature.

Das wurde hier schon einmal besprochen

1 „Gefällt mir“

Danke das hat geholfen

Falls Du hier Dokumente für Dein Unternehmen verarbeitest, solltest Du aber immer auch sicherstellen, dass das Original auch mit abgespeichert wird (kann man mit irgend einer Variable auch abschalten), da die Signatur durch die OCR zerstört wird

Das lese ich zum ersten mal klingt aber interessant…
Bei mir gibt es zumindest den Archive und den Originals Ordner…
Die Originals sollten dann demnach alle modifiziert sein
Der Originals enthält fast exakt die Anzahl der Dokumente die nicht im Posteingang sind.
und einige Hundert sind im Archive gelagert… warum hab ich auch noch nicht ganz verstanden.