ich habe zu Testzwecken Paperless in einem LXC Unter Proxmox mit 8GB RAM und 8 CPU Kernen laufen.
Nun habe ich meine ca. 10.000 pdfs hochgeladen was auch sauber funktioniert hat.
Mein Problem ist nun das die Suche vor allem die Erweiterte Suche sehr langsam ist. Suche ich z.b. in all meinen Rechnungen nach einem Lieferant mit Rechnungen aus dem Jahr 2022 also „Lieferant AND *2022“ dauert es ca. 30sek bis ich ein Ergebnis bekomme.
Wenn ich nur nach „Lieferant“ suche geht es sehr schnell.
Ich wollte hier einfach mal fragen ob ihr ähnliche Erfahrungen gemacht habt. Ich weiß 10.000 Dokumente ist schon eine Menge nur wenn ich die gleiche Suchanfrage mit der gleichen Anzahl Dateien in Devonthink mache ist das Ergebnis in einer Sekunde da. Trotzdem würde ich gerne Paperless einsetzen wenn aber das mit der Suchgeschwindigkeit nicht zu lösen ist dann wäre das ein NoGo.
Vor allem wird es ja dann wahrscheinlich immer langsamer je mehr Dokumente dazukommen.
Während der Suche habe ich mal HTOP laufen gelassen aber die CPU Kerne langweilen sich nur. Auslastung liegt bei ca. 15% während der Suche und RAM ist auch noch 6GB frei währenddessen.
Ich verwende die erweiterte Suche eigentlich nie und klicke mich eigentlich immer durch.
Ich hab’s aber mal probiert und mit folgendem Begriff in der erweiterten Suche ging das bei mir ratzfatz:
correspondent:Musterfirma AND created:2018
dabei aber aufpassen, dass man wirklich in der „Erweiterten Suche“ ist, die Volltextsuche braucht da tatsächlich ewig.
Leider habe ich adhoc keine richtige Doku zu den Schlüsselworten bei der erweiterten Suche gefunden, lediglich bei der Rest-API scheint da was zu stehen.
@Stefan : Hab das nicht mehr so im Kopf: Hast Du da irgendwas drüber in der Masterclass?
ja wenn ich so suche geht es bei mir auch schnell. Das Problem ist das ein Großteil der Dateien aus einem alten DMS kommen und das Erstellungsdatum nicht stimmt.
In deiner Suchanfrage sucht Paperless ja nicht per Volltextsuche in den Dokumenten sondern nimmt den Datenbankeintrag wann das Dokument erstellt wurde.
Starte die erweiterte suche mal so wie ich das gemacht habe und schreib mal ob das lange dauert.
Er sucht bei meiner Suche im Dokument nach dem Lieferanten UND dem Datum durch das *2022 filtert er nach allen Rechnungen z.b. die Datum 20.01.2022 usw haben.
Klar besser wäre es wäre richtig in Paperless schon eingetragen das Datum und z.b. der Correspondent aber das ist jetzt leider so nicht.
Ich habe halt wenig Lust 10000 pdfs durchzugehen und das Datum in Paperless richtig zu setzen.
Es liegt anscheinend auch nicht an der Hardware egal wieviel Ressourcen ich dem LXC gebe die Hardware langweilt sich bei der Suche nur.