Der Button "Erneut verarbeiten" enttäuscht

… und macht nicht das was ich mir erwünscht hätte.

Das problem: Die verschiedenen Zurodnungen und Workflows sind inzwischen recht umfangreich und auch unübersichtlich geworden.

Einiges klappt überhaupt nicht wie gewünscht.

Woran es liegt ist aber oft gar nicht so einfach rauszukriegen. bei mir werden derzeit so zwischen 15 und 30 pro TagDokumente erfasst. Die Protokolle sind dadruch sehr umfangrich und evtl. sogar schon übergelaufen.

jedenfalls kriege ich damit nicht raus warum eien Zuordnung nicht funktioniert.

Die Hoffnung war der Button “Erneut verarbeiten”. Leider scheint das trotz der aufpoppenden Warnung nicht das Dokument from scratch neue zu verarbeiten mit allen Zurodenungen, workflows etc.

Falls es einen anderen Weg gibt: ich würde gerne ein fehlerhaftes Dokument einzeln nach Wunsch neu verarbeiten und dann an einem überschaubaren Protokollteil nachvollziehen was wann passiert oder auch nicht.

Kann dich voll verstehen und hatte ähnliches schon.

Glaube aber gelesen zu haben das “erneut verarbeiten” bezieht sich ausschließlich auf OCR.

Kannst du vielleicht näher auf das Problem an sich mit mehr Details eingehen ?

Evtl. Findet sich ne andere Lösung/Workaround.

Das ist das Problem mit Software, die arbeitet nie so wie man es sich “Wünscht” sondern immer nur so wie in der Dokumentation beschrieben.

Superspruch.

Gibt es irgendwo ein Workflow-Diagramm, das genau beschreibt was in welcher Reihenfolge abgearbeitet wird?

Oder ein “Debug”-Setting?

Die Workflows werden der festgelegten Sortierreihenfolge abgearbeitet. Also von 1 bis … Dabei wird geprüft trift der Auslöser zu ja/nein

1 „Gefällt mir“

Du kannst Debug aktivieren. Dazu müsstest Du bitte einmal in die Doku schauen.

Bevorzugt ihr die “Verabeitung gestartet” oder “hinzugefügt”? Wo ist der Unterschied? Was ist bei gestartet noch nicht paasiert?

Nach meiner Einschätzung wird zunächst tags und Korrespondenten abgearbeitet

[2026-02-10 09:07:39,683] [DEBUG] [paperless.tasks] Executing plugin ConsumerPreflightPlugin

[2026-02-10 09:07:39,702] [INFO] [paperless.tasks] ConsumerPreflightPlugin completed with no message

[2026-02-10 09:07:39,703] [DEBUG] [paperless.tasks] Skipping plugin CollatePlugin

[2026-02-10 09:07:39,705] [DEBUG] [paperless.tasks] Skipping plugin BarcodePlugin

[2026-02-10 09:07:39,706] [DEBUG] [paperless.tasks] Executing plugin WorkflowTriggerPlugin

[2026-02-10 09:07:39,715] [INFO] [paperless.tasks] WorkflowTriggerPlugin completed with:

[2026-02-10 09:07:39,715] [DEBUG] [paperless.tasks] Executing plugin ConsumeTaskPlugin

[2026-02-10 09:07:39,715] [INFO] [paperless.consumer] Consuming 20260210_090624_part_1.pdf

[2026-02-10 09:07:39,718] [DEBUG] [paperless.consumer] Detected mime type: application/pdf

[2026-02-10 09:07:39,718] [INFO] [paperless.consumer] Executing pre-consume script /opt/scripts/pre-consumption-script.sh

[2026-02-10 09:07:39,722] [INFO] [paperless.consumer] /opt/scripts/pre-consumption-script.sh exited 0

[2026-02-10 09:07:39,723] [INFO] [paperless.consumer] /opt/scripts/pre-consumption-script.sh stdout:

[2026-02-10 09:07:39,723] [INFO] [paperless.consumer] A document with an id of  will be consumed.  I know the

[2026-02-10 09:07:39,723] [INFO] [paperless.consumer] following additional information about it:

[2026-02-10 09:07:39,723] [INFO] [paperless.consumer]

[2026-02-10 09:07:39,724] [INFO] [paperless.consumer] * Source Path: /usr/src/paperless/consume/DSGVO/20260210_090624_part_1.pdf

[2026-02-10 09:07:39,724] [INFO] [paperless.consumer] Working Path: /tmp/paperless/paperless-ngxo1u58f10/20260210_090624_part_1.pdf

[2026-02-10 09:07:39,724] [INFO] [paperless.consumer] 2ca9c09b-3468-4299-9e40-d038de71a12f

[2026-02-10 09:07:39,724] [INFO] [paperless.consumer] It was consumed with the passphrase

[2026-02-10 09:07:39,732] [DEBUG] [paperless.consumer] Parser: RasterisedDocumentParser

[2026-02-10 09:07:39,736] [DEBUG] [paperless.consumer] Parsing 20260210_090624_part_1.pdf...

[2026-02-10 09:07:39,757] [INFO] [paperless.parsing.tesseract] pdftotext exited 0

[2026-02-10 09:07:40,052] [DEBUG] [paperless.parsing.tesseract] Calling OCRmyPDF with args: {'input_file': PosixPath('/tmp/paperless/paperless-ngxo1u58f10/20260210_090624_part_1.pdf'), 'output_file': PosixPath('/tmp/paperless/paperless-yxf_uk4k/archive.pdf'), 'use_threads': True, 'jobs': 1, 'language': 'deu+eng', 'output_type': 'pdf', 'progress_bar': False, 'skip_text': True, 'clean_final': True, 'deskew': True, 'rotate_pages': True, 'rotate_pages_threshold': 12.0, 'sidecar': PosixPath('/tmp/paperless/paperless-yxf_uk4k/sidecar.txt'), 'user_words': '/opt/scripts/words.txt'}

[2026-02-10 09:07:41,944] [INFO] [ocrmypdf._pipeline] page is facing ⇧, confidence 11.80 - no change

[2026-02-10 09:07:50,697] [INFO] [ocrmypdf._pipelines.ocr] Postprocessing...

[2026-02-10 09:07:51,013] [INFO] [ocrmypdf._pipeline] Image optimization ratio: 1.10 savings: 9.0%

[2026-02-10 09:07:51,013] [INFO] [ocrmypdf._pipeline] Total file size ratio: 1.11 savings: 10.3%

[2026-02-10 09:07:51,042] [DEBUG] [paperless.parsing.tesseract] Using text from sidecar file

[2026-02-10 09:07:51,042] [DEBUG] [paperless.consumer] Generating thumbnail for 20260210_090624_part_1.pdf...

[2026-02-10 09:07:51,046] [DEBUG] [paperless.parsing] Execute: convert -density 300 -scale 500x5000> -alpha remove -strip -auto-orient -define pdf:use-cropbox=true /tmp/paperless/paperless-yxf_uk4k/archive.pdf[0] /tmp/paperless/paperless-yxf_uk4k/convert.webp

[2026-02-10 09:07:52,594] [INFO] [paperless.parsing] convert exited 0

[2026-02-10 09:07:55,338] [DEBUG] [paperless.consumer] Saving record to database

[2026-02-10 09:07:55,338] [DEBUG] [paperless.consumer] Creation date from parse_date: 2023-01-01 00:00:00+01:00

[2026-02-10 09:07:56,416] [INFO] [paperless.handlers] Assigning storage path DSGVO & Behandlungsvertrag to 2023-01-01T00:00:00+01:00 20260210_090624_part_1

[2026-02-10 09:07:56,583] [DEBUG] [paperless.index] Index updated for document 9376.

[2026-02-10 09:07:57,025] [INFO] [paperless.matching] Document did not match Workflow: Behandlungsvertrag

[2026-02-10 09:07:57,025] [DEBUG] [paperless.matching] Document tags [<Tag: DSGVO>, <Tag: inbox>] do not include [<Tag: Behandlungsvertrag>]

[2026-02-10 09:07:57,045] [INFO] [paperless.matching] Document matched WorkflowTrigger 11 from Workflow: DSGVO

[2026-02-10 09:07:57,073] [INFO] [paperless.handlers] Applying WorkflowAction 27 from Workflow: DSGVO

[2026-02-10 09:07:57,075] [INFO] [paperless.handlers] Applying WorkflowAction 28 from Workflow: DSGVO

[2026-02-10 09:07:57,075] [DEBUG] [paperless.templating] Parsing Workflow Jinja template: DSGVO

[2026-02-10 09:07:57,105] [INFO] [paperless.matching] Document did not match Workflow: Rechnungen (ausgang)

[2026-02-10 09:07:57,106] [DEBUG] [paperless.matching] Document content matching settings for algorithm '1' did not match

[2026-02-10 09:07:57,121] [INFO] [paperless.matching] Document did not match Workflow: EC-Zahlungen

[2026-02-10 09:07:57,121] [DEBUG] [paperless.matching] Document content matching settings for algorithm '1' did not match

[2026-02-10 09:07:57,137] [INFO] [paperless.matching] Document did not match Workflow: PVS Dokumentation

[2026-02-10 09:07:57,138] [DEBUG] [paperless.matching] Document content matching settings for algorithm '2' did not match

[2026-02-10 09:07:57,155] [INFO] [paperless.matching] Document did not match Workflow: Mahnungen

[2026-02-10 09:07:57,156] [DEBUG] [paperless.matching] Document tags [<Tag: DSGVO>, <Tag: no-Link>] do not include [<Tag: Mahnung>]

[2026-02-10 09:07:57,170] [INFO] [paperless.matching] Document did not match Workflow: OP-Protokoll

[2026-02-10 09:07:57,171] [DEBUG] [paperless.matching] Document content matching settings for algorithm '3' did not match

[2026-02-10 09:07:57,185] [INFO] [paperless.matching] Document did not match Workflow: ASK-Bilder

[2026-02-10 09:07:57,185] [DEBUG] [paperless.matching] Document content matching settings for algorithm '2' did not match

[2026-02-10 09:07:57,200] [INFO] [paperless.matching] Document did not match Workflow: OP-Aufklärung

[2026-02-10 09:07:57,201] [DEBUG] [paperless.matching] Document content matching settings for algorithm '1' did not match

[2026-02-10 09:07:57,216] [INFO] [paperless.matching] Document did not match Workflow: Pathobefund

[2026-02-10 09:07:57,216] [DEBUG] [paperless.matching] Document content matching settings for algorithm '1' did not match

[2026-02-10 09:07:57,230] [INFO] [paperless.matching] Document did not match Workflow: BG-Korrespondenz

[2026-02-10 09:07:57,230] [DEBUG] [paperless.matching] Document content matching settings for algorithm '1' did not match

[2026-02-10 09:07:57,247] [INFO] [paperless.matching] Document did not match Workflow: Rechnungen Betrieb

[2026-02-10 09:07:57,247] [DEBUG] [paperless.matching] Document content matching settings for algorithm '1' did not match

[2026-02-10 09:08:07,531] [DEBUG] [paperless.consumer] Deleting original file /usr/src/paperless/consume/DSGVO/20260210_090624_part_1.pdf

[2026-02-10 09:08:07,531] [DEBUG] [paperless.consumer] Deleting working copy /tmp/paperless/paperless-ngxo1u58f10/20260210_090624_part_1.pdf

[2026-02-10 09:08:07,534] [DEBUG] [paperless.parsing.tesseract] Deleting directory /tmp/paperless/paperless-yxf_uk4k

[2026-02-10 09:08:07,535] [INFO] [paperless.consumer] Executing post-consume script /opt/scripts/test-consumption-script.sh

[2026-02-10 09:08:34,582] [INFO] [paperless.consumer] /opt/scripts/test-consumption-script.sh exited 0

[2026-02-10 09:08:34,582] [INFO] [paperless.consumer] /opt/scripts/test-consumption-script.sh stdout:

[2026-02-10 09:08:34,583] [INFO] [paperless.consumer] A document with an id of 9376 was just consumed.  I know the

[2026-02-10 09:08:34,583] [INFO] [paperless.consumer] following additional information about it:

[2026-02-10 09:08:34,583] [INFO] [paperless.consumer] * Document ID		: 9376

[2026-02-10 09:08:34,583] [INFO] [paperless.consumer] * Generated File Name	: 2023-01-01 Praxis DSGVO.pdf

[2026-02-10 09:08:34,584] [INFO] [paperless.consumer] * Archive Path:		  /usr/src/paperless/media/documents/archive/DSGVO_Behandlungsvertrag/DSGVO_765.pdf

[2026-02-10 09:08:34,584] [INFO] [paperless.consumer] * Source Path: 		  /usr/src/paperless/media/documents/originals/DSGVO_Behandlungsvertrag/DSGVO_660.pdf

[2026-02-10 09:08:34,584] [INFO] [paperless.consumer] * Created: 		  2023-01-01

[2026-02-10 09:08:34,584] [INFO] [paperless.consumer] * Added: 		  2026-02-10 08:07:55.341605+00:00

[2026-02-10 09:08:34,585] [INFO] [paperless.consumer] * Modified: 		  2026-02-10 08:08:03.017345+00:00

[2026-02-10 09:08:34,585] [INFO] [paperless.consumer] * Thumbnail Path: 	  /usr/src/paperless/media/documents/thumbnails/0009376.webp

[2026-02-10 09:08:34,585] [INFO] [paperless.consumer] * Download URL: 	  /api/documents/9376/download/

[2026-02-10 09:08:34,586] [INFO] [paperless.consumer] * Thumbnail URL: 	  /api/documents/9376/thumb/

[2026-02-10 09:08:34,586] [INFO] [paperless.consumer] * Correspondent: 	  Praxis

[2026-02-10 09:08:34,586] [INFO] [paperless.consumer] * Tags: 		  DSGVO,no-Link

[2026-02-10 09:08:34,586] [INFO] [paperless.consumer]

[2026-02-10 09:08:34,587] [INFO] [paperless.consumer] It was consumed with the passphrase

[2026-02-10 09:08:34,587] [INFO] [paperless.consumer]

[2026-02-10 09:08:34,587] [INFO] [paperless.consumer]

[2026-02-10 09:08:34,619] [INFO] [paperless.consumer] /opt/scripts/test-consumption-script.sh stderr:

[2026-02-10 09:08:34,620] [WARNING] [paperless.consumer] INFO:pikepdf._core:pikepdf C++ to Python logger bridge initialized

[2026-02-10 09:08:34,620] [WARNING] [paperless.consumer] DEBUG:nochntest:Paperless-Objekt erstellt und connected

[2026-02-10 09:08:34,620] [WARNING] [paperless.consumer] DEBUG:root:Settings-Objekt initialisiert

[2026-02-10 09:08:34,620] [WARNING] [paperless.consumer] INFO:setup_logger:===================================================================================================================

[2026-02-10 09:08:34,621] [WARNING] [paperless.consumer] INFO:setup_logger:Start-Message. 10.02.26  09:08

[2026-02-10 09:08:34,621] [WARNING] [paperless.consumer] INFO:setup_logger:Ausgeführt als User: paperless, Prozess-ID: 392540

[2026-02-10 09:08:34,621] [WARNING] [paperless.consumer] INFO:setup_logger:Script-Pfad: /opt/scripts/MEDISTARLINKS/link2MEDISTAR.py

[2026-02-10 09:08:34,621] [WARNING] [paperless.consumer] INFO:setup_logger:-------------------------------------------------------------------------

[2026-02-10 09:08:34,621] [WARNING] [paperless.consumer] DEBUG:root:Settings-Objekt initialisiert

[2026-02-10 09:08:34,622] [WARNING] [paperless.consumer] DEBUG:setup_logger:analysiere Kommandozeile: ['/opt/scripts/MEDISTARLINKS/link2MEDISTAR.py', '--profile=BefundeSMBpaperless', '-i', '/usr/src/paperless/media/documents/archive/DSGVO_Behandlungsvertrag/DSGVO_765.pdf', '--document_id=9376', '--tags=DSGVO,no-Link']

[2026-02-10 09:08:34,622] [WARNING] [paperless.consumer] DEBUG:setup_logger:opt=--profile  arg=BefundeSMBpaperless

[2026-02-10 09:08:34,622] [WARNING] [paperless.consumer] DEBUG:root:Config-File /opt/scripts/MEDISTARLINKS/link2MEDISTAR.ini read successfully

[2026-02-10 09:08:34,622] [WARNING] [paperless.consumer] DEBUG:root:Profile BefundeSMBpaperless found in ini-File

[2026-02-10 09:08:34,622] [WARNING] [paperless.consumer] DEBUG:root:No Sourcefile specified in ini-File

[2026-02-10 09:08:34,623] [WARNING] [paperless.consumer] DEBUG:root:Settings successfully read from profile BefundeSMBpaperless

[2026-02-10 09:08:34,623] [WARNING] [paperless.consumer] INFO:setup_logger:Profil BefundeSMBpaperless geladen

[2026-02-10 09:08:34,623] [WARNING] [paperless.consumer] DEBUG:setup_logger:opt=-i  arg=/usr/src/paperless/media/documents/archive/DSGVO_Behandlungsvertrag/DSGVO_765.pdf

[2026-02-10 09:08:34,623] [WARNING] [paperless.consumer] INFO:setup_logger:params.Sourcefile=/usr/src/paperless/media/documents/archive/DSGVO_Behandlungsvertrag/DSGVO_765.pdf

[2026-02-10 09:08:34,623] [WARNING] [paperless.consumer] DEBUG:setup_logger:opt=--document_id  arg=9376

[2026-02-10 09:08:34,624] [WARNING] [paperless.consumer] DEBUG:setup_logger:opt=--document_id arg=9376 -> Document ID für Paperless: 9376 (settings.Paperless_document_ID)

[2026-02-10 09:08:34,624] [WARNING] [paperless.consumer] DEBUG:setup_logger:opt=--tags  arg=DSGVO,no-Link

[2026-02-10 09:08:34,624] [WARNING] [paperless.consumer] WARNING:setup_logger:opt=--tags arg=DSGVO,no-Link ->  tags= DSGVO,no-Link

[2026-02-10 09:08:34,624] [WARNING] [paperless.consumer] DEBUG:setup_logger:Tags nach trennen:['DSGVO', 'no-Link']

[2026-02-10 09:08:34,625] [WARNING] [paperless.consumer] DEBUG:setup_logger:Kommandozeilenanalyse abgeschlossen

[2026-02-10 09:08:34,625] [WARNING] [paperless.consumer] INFO:setup_logger:Commandline-Parameter eingelesen

[2026-02-10 09:08:34,625] [WARNING] [paperless.consumer] INFO:MEDISTAR:Verbindung zur Medistar-DB wurde erfolgreich geöffnet

[2026-02-10 09:08:34,625] [WARNING] [paperless.consumer] INFO:setup_logger:Vorabtests erfolgreich abgeschlossen. Fortsetzung des Programms

[2026-02-10 09:08:34,626] [WARNING] [paperless.consumer] DEBUG:setup_logger:Kopiere die Quelldatei /usr/src/paperless/media/documents/archive/DSGVO_Behandlungsvertrag/DSGVO_765.pdf nach /tmp/DSGVO_765.pdf

[2026-02-10 09:08:34,626] [WARNING] [paperless.consumer] INFO:setup_logger:Quelldatei wurde erfolgreich nach /tmp/DSGVO_765.pdf kopiert

[2026-02-10 09:08:34,626] [WARNING] [paperless.consumer] INFO:setup_logger:Splitting abgeschlossen. Beginne mit der Verarbeitung der Dateie /usr/src/paperless/media/documents/archive/DSGVO_Behandlungsvertrag/DSGVO_765.pdf

[2026-02-10 09:08:34,626] [WARNING] [paperless.consumer] DEBUG:setup_logger:Anzahl Dateien im temporären Verzeichnis /tmp/pdftrenn_eg2qnlc9: 0

[2026-02-10 09:08:34,627] [WARNING] [paperless.consumer] INFO:setup_logger:Verarbeite Datei /usr/src/paperless/media/documents/archive/DSGVO_Behandlungsvertrag/DSGVO_765.pdf

[2026-02-10 09:08:34,627] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Running: ['unpaper', '--version']

[2026-02-10 09:08:34,627] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Found unpaper 7.0.0

[2026-02-10 09:08:34,627] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Running: ['tesseract', '--version']

[2026-02-10 09:08:34,628] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Found tesseract 5.5.0

[2026-02-10 09:08:34,628] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Running: ['tesseract', '--version']

[2026-02-10 09:08:34,628] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Running: ['tesseract', '--version']

[2026-02-10 09:08:34,628] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Running: ['gs', '--version']

[2026-02-10 09:08:34,629] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Found gs 10.5.1

[2026-02-10 09:08:34,629] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Running: ['gs', '--version']

[2026-02-10 09:08:34,629] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess:Running: ['tesseract', '--list-langs']

[2026-02-10 09:08:34,629] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.subprocess.tesseract:stdout/stderr = List of available languages in "/usr/share/tesseract-ocr/5/tessdata/" (6):

[2026-02-10 09:08:34,630] [WARNING] [paperless.consumer] deu

[2026-02-10 09:08:34,630] [WARNING] [paperless.consumer] eng

[2026-02-10 09:08:34,630] [WARNING] [paperless.consumer] fra

[2026-02-10 09:08:34,630] [WARNING] [paperless.consumer] ita

[2026-02-10 09:08:34,631] [WARNING] [paperless.consumer] osd

[2026-02-10 09:08:34,631] [WARNING] [paperless.consumer] spa

[2026-02-10 09:08:34,631] [WARNING] [paperless.consumer]

[2026-02-10 09:08:34,631] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.helpers:pikepdf mmap enabled

[2026-02-10 09:08:34,632] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.helpers:os.symlink(/usr/src/paperless/media/documents/archive/DSGVO_Behandlungsvertrag/DSGVO_765.pdf, /tmp/ocrmypdf.io.cobtnqnb/origin)

[2026-02-10 09:08:34,632] [WARNING] [paperless.consumer] DEBUG:root:Gathering info with 1 thread workers

[2026-02-10 09:08:34,632] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.helpers:pikepdf mmap enabled

[2026-02-10 09:08:34,632] [WARNING] [paperless.consumer] Scanning contents     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 100% 1/1 0:00:00

[2026-02-10 09:08:34,633] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.builtin_plugins.tesseract_ocr:Using Tesseract OpenMP thread limit 1

[2026-02-10 09:08:34,633] [WARNING] [paperless.consumer] DEBUG:ocrmypdf.helpers:pikepdf mmap enabled

[2026-02-10 09:08:34,633] [WARNING] [paperless.consumer] OCR                                                              0% 0/1 -:--:--

[2026-02-10 09:08:34,633] [WARNING] [paperless.consumer] DEBUG:setup_logger:OCR-Layer bereits vorhanden. Original kopiert nach: /tmp/OCRED_mk8f6y7c.pdf Ergebnis=6

[2026-02-10 09:08:34,634] [WARNING] [paperless.consumer] INFO:setup_logger:Texterkennung erfolgreich abgeschlossen. Ergebnis=6

< weitere Ausgaben des post-consume-script >


[2026-02-10 09:08:34,648] [INFO] [paperless.tasks] ConsumeTaskPlugin completed with: Success. New document id 9376 created

[2026-02-10 10:05:07,268] [DEBUG] [paperless.classifier] Gathering data from database...

[2026-02-10 10:05:18,825] [DEBUG] [paperless.classifier] 7801 documents, 5 tag(s), 2 correspondent(s), 3 document type(s). 6 storage path(s)

[2026-02-10 10:05:18,825] [DEBUG] [paperless.classifier] Vectorizing data...

[2026-02-10 10:05:41,302] [DEBUG] [paperless.classifier] Training tags classifier...

[2026-02-10 10:05:48,678] [DEBUG] [paperless.classifier] Training correspondent classifier...

[2026-02-10 10:05:57,889] [DEBUG] [paperless.classifier] Training document type classifier...

[2026-02-10 10:06:06,644] [DEBUG] [paperless.classifier] Training storage paths classifier...

[2026-02-10 10:06:19,796] [INFO] [paperless.tasks] Saving updated classifier model to /usr/src/paperless/data/classification_model.pickle...

Nutze hinzugefügt wenn neue Dokumente ins Paperless kommen. Dabei werden benutzerdefinierte Felder hinzugefügt.

Verarbeitung gestartet nutze ich bei bestimmten consume ordner (Pfad filtern) dort werden dann gezielt benutzerdefinierte Felder gefüllt.

Habe z.B. Verarbeitung gestartet → Email Regel filtern bestimmt und wenn dann die Email Regel zutrifft dann soll paperless für diese Email ein benutzerdefiniertes feld (Dokumentenverknüpfung) automatisch hinzufügen

nutze aber auch geplant um eine Wiedervorlage auszulösen für Dokumente (Email)

Wenn du keinen Workflow mit Auslöser Verarbeitung hast dann wird trotzdem die Verarbeitung gestartet. Es wird der Korrespondent, Tag, Speicherpfad und Dokumententyp versucht einzutragen. Beim Workflow kannst du gezielt nach Auslöse (filter) Vorgaben setzen.

Hatte zum Beispiel meine gesamten Dokumente aus ELOoffice so eingespielt.

Bei mir hat mein Konstrukt erst funktioniert als auf “Verarbeitung gestartet” wurde…. Ich weiß nicht warum.

Wenn du Änderungen haben willst kannst du temporär auf “Dokument aktualisiert” stellen…

Z.B. gibst du den Ziel-Dokumenten n neuen TAG “retaggen” und die dokumente werden erneut eingelesen.

Hab mich auf diese weise mit meinem Workflow befasst bis es funktioniert hat und hab dann auf “Verarbeitung gestartet” umgestellt.

Wo jetzt im Detail der unterschied liegt kann ich auch nicht sagen.

Also wenn ich es jetzt nicht total verpeilt habe, ist das doch recht einleutend und klar definiert.

  1. Verarbeitung gestartet= Praktisch die erste Instanz, bevor irgendwas passiert, bevor also irgendeine Logik oder erkennung greift. Ich verwende es ausschließlich für dedizierte consume Order oder Mails. So habe ich z.b. Einen Order „Rechnung“ der gar keine Logik von Paperless benötigt, er soll einfach ein Speicherpfad etc bekommen.

  2. Dokument hinzugefügt = Nachdem das Dokument nun gestartet hat (1. Trigger „Verarbeitung gestartet“ ist also schon vorbei) fängt Paperless an die Matching und Autoerkennung für Korrespondenten, Tags, Dokumententyp, Speicherpfade durchzuführen. Also alles was auf Automatisch steht, zu erkennen oder wenn ihr z.B. Filter in den einzelnen Punkten habt. Ich habe z.b. Dokumententyp „Finanzamt“ = Irgendein Wort: Gewerbesteuer, Abgaben, Finanzamt, Erklärung, Voranmeldung

So- JETZT ist das Dokument hinzugefügt. Darauf könnten ihr jetzt Workflows triggern.
Also z.B. wenn Dokumententyp „Finanzamt“ Dann bitte XY.

Habt ihr unter Punkt 2. keine zuordnung, dann schießen die Workflows auch ins leere.
Es sei denn ihr habt wiederum einen Workflow der da heißt. Irgendein Wort: Gewerbesteuer, Abgaben, Finanzamt, Erklärung, Voranmeldung usw.

Man kann also quasi doppelt arbeiten. Da es manchmal Überschneidungen bzw. eine Art Race Condition gibt, habe ich es in Punkt 2 und unter den Workflows doppelt drin. Schadet ja nie.

@drnicolas Ich sehe ich in deinem Log nur dass der Workflow DSGVO zuverlässig ausgelöst wird und dort Aktion 27 und 28 ausgeführt werden.
Dein Problem ist wahrscheinlich dieses komische Script, das einige seltsame Dinge tut.
Dein Paperless Part läuft ordentlich durch:

  • 09:07:40 - 09:07:55: OCR-Texterkennung und Speichern in der Datenbank.
  • 09:07:56: Automatisches Matching (Speicherpfad wird zugewiesen).
  • 09:07:57: Workflows laufen (Trigger „DSGVO“ greift, Aktionen 27 & 28 werden ausgeführt).
    Danach kommt dann erst das Script, macht doppelte OCR, bricht ab und blockiert die Verarbeitung für fast 30 Sekunden.
    Ich würde es also erstmal ohne das Script versuchen.

Das komische Skript greift tatsächlich zum Teil auf bereits vorhandene Mechnaismen von paperless zurück.

Ich habe inzwischen gelernt, dass die Einstellungen für paperless bzgl. Unterordnern und deren tags anscheinend weitere tag-mechanismen (z.b. aufgrund von Schlagworten) aushebeln.

In meinem Falle sind dies “Befund”, “DSGVO” und noch 2 weitere. Ich dachte, das sei eine gute Sache. mittlerweile bin ich da nicht mehr so sicher.

Aktuell ist es so, wenn ein MRT-befund in den ordner DSGVO gerät, dann bekommt der eben das tag DSGVO; eine weitere Ereknnung läuf aber nicht ab.

Korrespondeten sind in diesem Fall niht so wichtig.

Und ja: das komische Skript setzt benutzerdefinierte felder und erzeugt einen Sahre-Link.

Wahrscheinlich ist tatsächlich das Hauptproblem, dass sich möglicherweise Automatiscmen mit meinen semi-automatischen Zurodnungen beissen.

Das ist reine ansichtssache, es könnte theoretisch auch umgekehrt sein und wäre auch Logisch :smiley:

Aber es ist tatsächlich sogar in der Dokumentation definiert.

https://docs.paperless-ngx.com/usage/#workflow-triggers

Ne ansichtssache ist das nicht. Das ist eine klare Abfolge von Logs, die man lesen kann.
Hat nichts mit Theorie zu tun.

Meine Aussage bezog sich rein auf was passiert bei “Verarbeitung gestartet” und was bei “Dokument hinzugefügt” … je nachdem wie man drüber nachdenkt kann es so oder so sein.

Das liegt einfach daran das ein DEV meist völlig anders denkt wie der Ottonormal User…. mehr nicht.

Und Ja man mag das auch aus den Logs interpretieren können wenn man sich die mühe macht… braucht man aber nicht da es zum glück in der Doku beschrieben ist. ( geht vermutlich schneller ) ^^