Neue Dokumente hochladen paperless gibt Fehler aus

Gonzo008 · 5. Februar 2025 um 19:50

Hallo,

wenn ich *.pdf´s in paperless zum hoch laden ablege kommen z.B. die Fehler Meldungen:

Cannot consume /tmp/paperless/tmp4eryn6j5/LED Laterne Flamme 26.01.2025.pdf: File not found.
oder
Cannot consume /tmp/paperless/tmp5uu8inkr/KFZ Versicherung 01.01.2025.pdf: File not found.
oder
Cannot consume /tmp/paperless/tmpg6o439dn/Philips HUE Runner Spot 26.01.2025.pdf: File not found.

Nach mehreren versuchen werden sie dann doch angenommen.
Das passiert bei vielen *.pdf´s
Wobei es auch *pdf´s gibt die ohne Fehler verarbeitet werden.

Im Protokoll habe ich das gefunden.
[2025-02-05 20:11:23,661] [WARNING] [ocrmypdf._metadata] Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF’s XMP metadata.

[2025-02-05 20:11:15,727] [ERROR] [paperless.consumer] Cannot consume /tmp/paperless/tmpnpz0_dhl/WD 4TB Red RMA 02.02.2018.pdf: File not found.
[2025-02-05 20:11:15,727] [ERROR] [paperless.tasks] ConsumeTaskPlugin failed: WD 4TB Red RMA 02.02.2018.pdf: Cannot consume /tmp/paperless/tmpnpz0_dhl/WD 4TB Red RMA 02.02.2018.pdf: File not found.

Hat jemand eine Idee woran es liegen kann?

Grüsse

Gonzo008

Gonzo008 · 6. Februar 2025 um 18:14

Ich habe heute den Ordner scaninput benutzt. Die pdf‘s werden eingelesen aber merkwürdigerweise gibt paperless eine Menge Fehler aus.

Gonzo008 · 6. Februar 2025 um 21:18

Ich habe mal ein Bildschirmfoto angehängt was Paperless ais 87 pdf´s macht

Gonzo008 · 7. Februar 2025 um 19:44

Keine eine Idee für mein Problem?

mac81 · 7. Februar 2025 um 20:34

Was für eine Config hast du? Synology NAS im Docker Container?

„File not Found“ hört sich komisch an, vor allem wenn es dann irgendwann doch geht.

Deswegen frage ich nach der Config.

„Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF’s XMP metadata.“

=> Es ist ein PDF/A bei dem es nicht erlaubt ist gewisse Teile der Metadaten zu kopieren. Vielleicht ein Urhebergeschütztes Dokument?

Gonzo008 · 8. Februar 2025 um 08:42

Hallo,

ich habe die von Stefan drin.
Alle pdf´s waren schon in paperless.
Ich habe paperless neu Installiert und die pdf´neu eingespielt.

version: „3.4“
services:
broker:
image: Docker Hub Container Image Library | App Containerization
restart: unless-stopped
volumes:
- redisdata:/data

db:
image: Docker Hub Container Image Library | App Containerization
restart: unless-stopped
volumes:
- …/pgdata:/var/lib/postgresql/data
environment:
POSTGRES_DB: paperless
POSTGRES_USER: paperless
POSTGRES_PASSWORD: paperless

webserver:
image: Package paperless-ngx · GitHub
restart: unless-stopped
depends_on:
- db
- broker
- gotenberg
- tika
ports:
- 8000:8000
healthcheck:
test: [„CMD“, „curl“, „-fs“, „-S“, „–max-time“, „2“, „http://localhost:8000“]
interval: 30s
timeout: 10s
retries: 5
volumes:
- …/data:/usr/src/paperless/data
- …/media:/usr/src/paperless/media
- …/export:/usr/src/paperless/export
- /volume1/scaninput:/usr/src/paperless/consume
env_file: docker-compose.env
environment:
PAPERLESS_REDIS: redis://broker:6379
PAPERLESS_DBHOST: db
PAPERLESS_TIKA_ENABLED: 1
PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
PAPERLESS_TIKA_ENDPOINT: http://tika:9998
PAPERLESS_CONSUMER_ENABLE_BARCODES: true

gotenberg:
image: docker.io/gotenberg/gotenberg:8.7
restart: unless-stopped

# The gotenberg chromium route is used to convert .eml files. We do not
# want to allow external content like tracking pixels or even javascript.
command:
  - "gotenberg"
  - "--chromium-disable-javascript=true"
  - "--chromium-allow-list=file:///tmp/.*"

tika:
image: Package tika · GitHub
restart: unless-stopped

volumes:
redisdata:
Wenn man sich mal die pdf Anzahl ansieht und die Fehlermeldungen, ist schon gewaltig.

mac81 · 8. Februar 2025 um 19:55

Hm, ich vermute dass die DB von paperless immer noch Einträge der alten pdfs vorhanden sind, und deswegen diese Probleme verursachen.

Das aber nur meine Laienhafte Vermutung.

Btw. Ich würde solch private Dateibe zeichnungen entweder schwärzen oder nicht veröffentlichen. Man weiss ja nie wer das alles liest…

Bodensee94 · 8. Februar 2025 um 20:19

evtl. Hilft der Tipp aus ein anderen Beitrag

Blockzitat
Probier mal folgende ENV Variable.
PAPERLESS_CONSUMER_INOTIFY_DELAY=5
Paperless wartet dann 5 sekunden bis das Dokument verarbeitet wird.

https://forum.digitalisierung-mit-kopf.de/t/probleme-beim-konsumieren-von-pdfs/1786

Gonzo008 · 8. Februar 2025 um 20:34

Das habe ich schon eingefügt. Hat nix gebracht.

Jake · 8. Februar 2025 um 20:48

Würde mal die Installation neu aufsetzen, kontrollieren dass wirklich alle angelegten Ordner leer sind!
Und nicht alle Dokumente auf einmal in den consume Ordner werfen, erst mal ein Dokument nach dem anderen und die Logs kontrollieren

Hast schon mal gepostet was für ein Gerät du hast? CPU und Speicher?

Gonzo008 · 8. Februar 2025 um 21:01

Das war eine Komplett neu Installation. schon beim ersten hinzufügen einer PDF kam der Fehler.

Bodensee94 · 8. Februar 2025 um 21:59

scaninput-Ordner ist auf Lesen und Schreiben gesetzt? Wenn die Berechtigung nicht passt, gibt Paperless Fehler aus

Gonzo008 · 9. Februar 2025 um 06:57

Fehler gefunden. Ich habe mir noch einmal Stefan sein Masterclass Lehrgang angesehen. Ich habe vergessen meine die id von 1026 auf 1032 zu stellen.

Nun Funktioniert der Import von pdf´s wieder.

system · 11. Februar 2025 um 06:58

Dieses Thema wurde automatisch 2 Tage nach der letzten Antwort geschlossen. Es sind keine neuen Antworten mehr erlaubt.