Hi,
habe mal mitgelesen und mitgebastelt.
Es scheint echt auf die Kommas anzukommen
nach meiner Änderung der docker-compose.env , war es möglich
meine Problem-PDF zu konsumieren.
Hi,
habe mal mitgelesen und mitgebastelt.
Es scheint echt auf die Kommas anzukommen
nach meiner Änderung der docker-compose.env , war es möglich
meine Problem-PDF zu konsumieren.
Laut GitHub ware folgendes die Lösung dazu.
Aloha. Vielleicht könnt ihr mir weiterhelfen…
Für meinen Workflow hätte ich gern auch die PDFs, welche aufgrund von „Invalid Digital Signature“ zwar importiert werden, aber keine OCR durchlaufen haben, in meinem Archive-Ordner.
Ich verstehe schon, dass die PDFs im Archive-Ordner eigentlich nur die sind, welche Paperless-NGX verarbeitet hat.
Da ich aber diesen Archive Ordner mit Synology Drive synchronisiere, fehlen mir ggf. die ein oder andere PDF in meiner Cloud.
Da wäre es super, überhaupt irgendeine Version der PDF zu haben, auch wenn ich auch wenn diese dann nicht durchsuchbar ist. Besser als wenn sie gar nicht im Ordner auftaucht…
Auf Github und in der Paperless-Doc habe ich dazu nichts gefunden.
Die Option in der Konfiguration der OCR-Einstellungen „Archivedatei überspringen - never“ bzw. das einfügen von PAPERLESS_OCR_SKIP_ARCHIVE_FILE=never in der docker-compose.env hat nicht zum gewünschten Ergebnis geführt.
Beste Grüße
Soweit mir bekannt ist ist der Archive Ordner bur für die verarbeiteten Dokumente und der original für die Dokumente in Reinform.
Findest du dort das Dokument denn ?
Ja, genau. So hatte ich es auch verstanden. Die PDFs tauchen auch im Original-Ordner auf. Da ich aber eben eigentlich nur den Archive-Ordner mit Synology Drive synchronisieren möchte, wäre es halt schön, wenn man Paperless sagen könnte, das eben mindestens das Original in den Archive-Ordner kopiert wird. Falls dann OCR-funzt - umso besser…
Naja, muss ich mal schauen, ob mir da noch ein schlauerer Workflow als manuelles Kopieren in den Archiv-Ordner einfällt…
BG
Hmm keine Ahnung ob das möglich ist.
Ich weiß nur das es sinnvoll ist beide zu sichern da nur beide zusammen alle Dokumente enthalten.
@alexanderk konntest du dein Problem eigentlich lösen ?
Hallo zusammen
Bei mir funktioniert es nicht, obwohl ich glaube alles korrekt zu haben…
Ich habe PAPERLESS_OCR_USER_ARGS=‚{„invalidate_digital_signatures“: true}‘
mit und ohne die Anführungsstriche eingetragen. und dies bei beiden Configs. Es kommt aber immer der gleiche Fehler.
Sieht jmd. den Fehler?
Lg und Danke
Philipp
docker-compose.env
# UID und GID können variieren. Einfach via SSH einloggen und den Befehl "id" ausführen.
# Diese Werte dann hier eintragen:
USERMAP_UID=1030
USERMAP_GID=100
# Falls weitere Sprachen installiert werden sollen, einfach das # vor der nächsten Zeile entfernen (und Sprachen eintragen)
#PAPERLESS_OCR_LANGUAGES=tur ces
# Zeitzone: Berlin
PAPERLESS_TIME_ZONE=Europe/Berlin
# OCR-Sprache: Deutsch
PAPERLESS_OCR_LANGUAGE=deu
# Ausgabeformat: Jahr/Dokumententitel (kann man ändern)
PAPERLESS_FILENAME_FORMAT={created_year}/{title}
# OCR-Modus: Dokumente, die bereits OCR eingebettet haben, werden nicht erneut OCRed. Archiv wird übersprungen.
PAPERLESS_OCR_MODE=skip
# Rekursives Konsumieren aktiviert:
PAPERLESS_CONSUMER_RECURSIVE=true
# Tags aus Unterordnern im Scaninput-Ordner generieren:
PAPERLESS_CONSUMER_SUBDIRS_AS_TAGS=true
# PDF trotz Unterschrift lesen
PAPERLESS_OCR_USER_ARGS=‚{„invalidate_digital_signatures“: true}‘
docker-compose.yml
version: "3.4"
services:
broker:
image: docker.io/library/redis:7.0
restart: unless-stopped
volumes:
- redisdata:/data
db:
image: docker.io/library/postgres:15
restart: unless-stopped
volumes:
- ../pgdata:/var/lib/postgresql/data
environment:
POSTGRES_DB: paperless
POSTGRES_USER: paperless
POSTGRES_PASSWORD: paperless
webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:latest
restart: unless-stopped
depends_on:
- db
- broker
ports:
- 8000:8000
healthcheck:
test: ["CMD", "curl", "-fs", "-S", "--max-time", "2", "http://localhost:8000"]
interval: 30s
timeout: 10s
retries: 5
volumes:
- ../data:/usr/src/paperless/data
- ../media:/usr/src/paperless/media
- ../export:/usr/src/paperless/export
- /volume1/scaninput:/usr/src/paperless/consume
env_file: docker-compose.env
environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBHOST: db
PAPERLESS_TIKA_ENABLED: 1
PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
PAPERLESS_TIKA_ENDPOINT: http://tika:9998
PAPERLESS_OCR_USER_ARGS: ‚{„invalidate_digital_signatures“: true}‘
gotenberg:
image: docker.io/gotenberg/gotenberg:7.10
restart: unless-stopped
# The gotenberg chromium route is used to convert .eml files. We do not
# want to allow external content like tracking pixels or even javascript.
command:
- "gotenberg"
- "--chromium-disable-javascript=true"
- "--chromium-allow-list=file:///tmp/.*"
tika:
image: ghcr.io/paperless-ngx/tika:latest
restart: unless-stopped
volumes:
redisdata:
Bei mir in der *.yml unter Environments:
PAPERLESS_OCR_USER_ARGS: '{"invalidate_digital_signatures": true}'
Nehme doch einmal die einzelnen Striche vor und nach den geschweiften Klammern raus
Ohne die ` funktioniert es auch nicht
Habt ihr weitere Ideen?
Den Link von Michael habe ich mir noch angesehen, verstehe aber nichts so richtig.
Hast du den Befehl in Wort geschrieben und dann einkopiert in die yaml-Datei?
Am Anfang des Befehl hast „ diese unten stehen.meines Wissens müssen die “ vorne und hinten oben sein. Probiere das bitte einmal
Meines Erachtens hast du einen Zeichenfehler in deiner Zeile.
Bei dir sieht diese wie folgt aus:
PAPERLESS_OCR_USER_ARGS: ‚{„invalidate_digital_signatures“: true}‘
Die Zeichen vor der geschweiften Klammer und dahinter sind jedoch nicht korrekt.
Die Zeile müsste wie folgt aussehen.
PAPERLESS_OCR_USER_ARGS: '{"invalidate_digital_signatures": true}'
Es handelt sich hierbei um das Zeichen, was du auf einer QWERTZ-Tastatur bei der # (Raute, Hashtag) findest.
Ich habe diese Zeile bei mir auch nicht in der docker-compose.yml, sondern in der docker-compose.env eingetragen.
Anschließend wird die signierte PDF korrekt importiert.
Hoffe, ich konnte dir damit weiterhelfen.
Liegt am Forum dass in den Beiträgen manche Zeichen nicht richtig dargestellt oder geändert werden.
Wenn das jemand kopiert wird das auch so 1:1 in die yaml Datei importiert, dann muss man sich nicht wundern warum es nicht funktioniert.
CIao Robin
Danke für deinen Input.
Leider scheint auch das nicht zu funktionieren.
Vieleicht kommt @Stefan ja mal noch dazu, das in der Masterclass aufzunehmen… Dann bekomm ichs sicher auch hin
Also in der Offiziellen Doku steht auch nicht wirklich was dazu bis auf…
OCRmyPDF will detect signed PDFs and will not modify them, unless the --invalidate-digital-signatures option is used, which will invalidate any signatures.
https://ocrmypdf.readthedocs.io/en/latest/pdfsecurity.html#digital-signatures
Das mit dem Forum und paste copy is doof… Da sind viele schon drauf reingefallen.
Bin auch grad darüber gefallen, und das ist die einzige Schreibweise, wie es funktioniert.
Man kann es auch in das docker-compose.yml eintragen, bei dem Key „environment:“
Wirklich wichtig: Leerzeichen, einfache Hochkommas, doppelte Hochkommas GENAUSO EXAKT wie @robin es dokumentiert hat. Nichts weglassen, nichts dazu erfinden.
Nach dem Speichern des Konfig-Files mit „docker compose up -d“ anwenden, ein Neustart ist nicht nötig.
Wenn Paperless-NX das Signierte PDF „consumt“ hat, ist in der archivierten Datei die Signatur entfernt worden (das PDF wird durch OCR neu erstellt, sieht aber gleich aus). Man hat in der aktuellen Version der Gui neben dem Knopf „Herunterladen“ noch eine kleine Schaltfläche „Original Herunterladen“ → dabei wird dann wieder das originale, signierte PDF heruntergeladen.
Fazit: Mit der Option geht nichts verloren, eigentlich sollte sie Standard sein.
Hallo snoop,
ich denke, das könnte Dir weiterhelfen:
Paperless ngx archiviert Kontoauszug nicht | Seite 2 | ComputerBase Forum
Viele Grüße und viel Erfolg,
Jochen
Hallo zusammen,
das Thema wird gerade etwas unübersichtlich, daher schließe ich es.
Hier die Zusammenfassung:
Wie @robin bereits korrekt geantwortet hat:
PAPERLESS_OCR_USER_ARGS: '{"invalidate_digital_signatures": true}