PaperlessNGX - Datenbankgröße / Postgree oder MariaDB

Hallo zusammen,

ich bin neu in der Paperless Welt, denke aber dass dieses Tool genau das richtige für mich ist.
Ziel ist es zukünftig alles wan an Post rein kommt einzuspannen und den ganzen Papierkram der Vergangenheit zu überlassen - optional werde ich auch die alten Ordner aus meinem Schrank Einscannen wollen.

Bevor ich mich nun daran begebe alles mögliche einzuspannen, möchte ich eine möglichst optimale Installation erstellen, damit ich nicht in ein paar Monaten auf Probleme stoße und nochmal alles neu erstellen muss :smiley:

Zu meiner Umgebung:
Ich habe einen Mini Server (Proxmox) auf welchem ich Paperless-ngx als LXC Container installiert habe. Hierfür habe ich eins der Proxmox Helper Scripts verwendet.
Des Weiteren habe ich einen QNAP Nas, auf welchem alle möglichen Daten liegen - hier sollen entsprechend auch die Paperless Daten abgelegt werden. Auch dies konnte ich erfolgreich einrichten, indem ich die 3 Verzeichnisse „consume“, „data“ und „media“ als Mount von meinem Nas in den Paperless LXC Container eingebettet habe. (und natürlich in der paperless.conf hinterlegt habe)

Als Scanner verwende ich einen Epson ES-580W, welcher via SMB direkt in das consume Verzeichnis auf meinem NAS / Paperless Mount scannt.

Soweit so gut - nun zu meiner eigentlichen Frage:
Im Standard wird mittels des HelperScripts PostgreeSQL mit in dem LXC Container auf Proxmox installiert. Wie groß wird die Datenbank, wenn ich über mehrere Monate alle möglichen Dokumente einscanne? Werden in der Datenbank auch die ganzen indexierten Texte gespeichert, oder lediglich Tags, Verknüpfungen usw?

Da mein Proxmox Server sprich auch der LXC über endliche Ressourcen verfügen, möchte ich alles was zukünftig viel Speicher belegt gerne direkt auf meinem NAS auslagern.
Alternativ hätte ich die Möglichkeit auf meinem NAS eine MariaDB bereit zustellen und Paperless damit zu verbinden, allerdings scheint Paperless mit PostgreeSQL doch besser klar zu kommen.

Was sind hier eure Erfahrungen / bzw. was würdet ihr mir empfehlen?

Liebe Grüße und Vielen Dank schon einmal vorab!

Hallo Sebastian,

beim mir läuft Paperless-ngx ebenfalls als LXC Container auf Proxmox. Da mir MariaDB lieber ist habe ich diese verwendet.

Zu Deinen Fragen:

  • Auch die indexierten Texte landen in der Datenbank. Letztlich sind alle Informationen, die Du in Paperless-ngx in den Reitern Details, Inhalt, Metadaten, … sehen kannst in der Datenbank hinterlegt. Ich bin nun bei über 8.000 Dokumenten. Paperless-ngx läuft immer noch gefühlt „rund“.

  • Die „Nachteile“ von MariaDB beschränken sich auf Groß-/Kleinschreibung und sind auch lösbar (https://docs.paperless-ngx.com/advanced_usage/#mysql-caveats)

  • Letztlich entscheidet die Art Deiner Anbindung des NAS an den Proxmox-Rechner was für Dich geschickter ist. Wenn die Anbindung nur über LAN passiert ist das für einen flüssigen Betrieb vermutlich zu langsam und Du baust Dir einen Flaschenhals. Ich habe das so gelöst, dass Paperless-ngx einschließlich der MariaDB in einem LXC Container läuft. Das data-Verzeichnis syncronisiere ich drei Mal täglich per cron-job mit meiner Nextcloud. Somit speichere ich die Dokumente zwar redundant - Paperless-ngx läuft damit aber flüssig.

  • An Deiner Stelle würde ich mich entscheiden Paperless-ngx einschließlich der Datenbank auf Proxmox-Rechner zu installieren oder wenn möglich beides auf der NAS. Eine SSD oder HDD für Deinen Proxmox-Server kostet zwischenzeitlich nur noch wenig Geld.

Viele Grüße

1 „Gefällt mir“

@tony.blue

ich sehe gerade das du schon 8000 Dokumente in deiner Paperless Installation hast.

Kannst du evtl. für mich mal einen kleinen Test machen? Und zwar habe ich ca.10000 Dokumente in Paperless aber wenn ich die Erweiterte Suche mit folgender Suche bemühe braucht Paperless ca. 1min30sek für die Abfrage.

Die Suche lautet: Lieferant AND *2020 also z.b. alles von Firma Mustermann UND Jahr 2020 und ja ich weiß das ich das Jahr direkt über paperless einschränken kann aber leider sind die 10000 Dateien aus einer anderen Software importiert ohne Datumsangaben.

Leider ist das so nicht zu gebrauchen wenn das so lange dauert daher wollte ich mal hören ob das bei euch auch so ist.
Hardware ist bei mir schnell genug und langweilt sich laut HTOP bei der Abfrage.

Danke

Ich habe ~6000 Dokumente und bei mir dauert diese Suche (über „Erweiterte Suche“) etwa 10 Sekunden.

System:

  • HP Elitedesk 800 mit i7-9700
  • Proxmox-Container mit 2 CPUs und 4GB Ram
  • PostgresSQL-Datenbank
  • NVMe-SSD

@bytec

Hallo,

bei mir dauert diese Suche nur wenige Sekunden.

Basiert Dein System auf einer HDD oder auf einer SDD?

Vielleicht gibt es sonst noch irgendwelche Flaschenhälse.

Schau mal unter

https://docs.paperless-ngx.com/setup/#less-powerful-devices

Viele Grüße und Frohe Ostern

Tony

Also mein System läuft unter Proxmox in einem LXC Container auf einem SSD Pool.

Insgesamt sind 42.000.000 Zeichen im Paperless.

Wenn man HTOP während der Suche beobachtet sieht man das die 2 Gunicorn Prozesse zu knapp 100% ausgelastet sind aber die die 8 CPU Kerne noch viel Luft nach oben haben.