Sind Probleme mit TrueNAS SCALE 25.10 (Goldeye) bekannt?

Ein freundliches Hallo ins Forum!

Ich habe das Ugreen DXP 4800 Plus ziemlich exakt nach dem Kurs “Open-Source NAS mit Proxmox und TrueNAS Scale” aufgebaut: 2x 1TB SSD gespiegelt, Proxmox VE 9.1.6, mehrere LXC und TrueNAS in einer VM mit PCI-Passthrough des Controllers (4x HDD im RAID Z1). Das lief über ein halbes Jahr ohne Probleme. Bisher war TrueNAS SCALE 25.04 (Fangtooth) installiert.

Ich habe mich vor kurzem zu einem Update auf 25.10 (Goldeye) entschieden:

  • Backup der TrueNAS-Konfiguration
  • Vollständiges Backup aller Daten
  • Überprüfung des Pool Status
  • Snapshot der VM angelegt
  • Update

Leider fingen dann die Probleme an. Danach ist in zwei Nächten in Folge innerhalb weniger Minuten nach dem Start der rsync Tasks das Z1 RAID in Fehler gegangen:

E-Mail 01:08 Uhr:
Pool HDD_Pool state is DEGRADED: One or more devices has experienced an error resulting in data corruption. Applications may be affected.
The following devices are not healthy:Disk ST8000VN002-2ZM188 XXXXXXXX is DEGRADED

E-Mail 01:10 Uhr:
Pool HDD_Pool state is SUSPENDED: One or more devices are faulted in response to IO failures.
The following devices are not healthy:Disk ST8000VN002-2ZM188 XXXXXXXX is DEGRADED
The following alert has been cleared:Pool HDD_Pool state is DEGRADED: One or more devices has experienced an error resulting in data corruption. Applications may be affected.
The following devices are not healthy:Disk ST8000VN002-2ZM188 XXXXXXXX is DEGRADED
Current alerts:Pool HDD_Pool state is SUSPENDED: One or more devices are faulted in response to IO failures.
The following devices are not healthy:Disk ST8000VN002-2ZM188 XXXXXXXX is DEGRADED

Über zpool status -v habe ich den Status ausgelesen:

state: SUSPENDED
status: One or more devices are faulted in response to IO failures.
action: Make sure the affected devices are connected, then run ‚zpool clear‘.
   see:
  scan: scrub repaired 0B in 07:47:24 with 0 errors on Sun Mar 15 07:47:26 2026
config:

NAME                                      STATE     READ WRITE CKSUM
        HDD_Pool                                  DEGRADED     0     0     0
          raidz1-0                                DEGRADED 11.6K    42     0
            4fd334b6-6893-4e6c-bf97-b7cfe80a0de5  ONLINE     176    27    38
            911e393f-ffab-40c4-baa2-a219ca1778e7  ONLINE     118    32    38
            5bb306e9-bad6-4cdf-80a6-9e88da1ffc8c  ONLINE   1.37K    27    38
            516494bd-b1c1-4fd4-921c-05336873347b  DEGRADED   919    30    38  too many errors

errors: List of errors unavailable: pool I/O is currently suspended

Das alle Platten den gleichen Checksum Fehler anzeigen (38) ist ungewöhnlich. Kann es der Controller sein? Über sudo dmesg | grep -iE „mpt|sas|lsisas|reset|abort“ habe ich dann den Hardwarefehler ausgelesen. Dabei kamen am Ende diese Zeilen:

ata10: hard resetting link
ata8: hard resetting link
ata7: hard resetting link
ata9: hard resetting link

Es scheint also ein Problem des Controllers zu sein. Weitere Schritte waren dann:

  1. sudo zpool clear HDD_Pool
  2. Reboot → Der Pool ist “nur” noch DEGRADED und nicht mehr SUSPENDED
  3. sudo zpool clear HDD_Pool
  4. Pool ist wieder Online.
  5. Scrub laufen lassen, danach scheinbar wieder alles ok.

Die nächste Nacht ist das selbe wieder passiert!
Ich habe es wieder behoben und dann einen Rollback auf den Snapshot der TrueNAS-VM vor dem Update durchgeführt. Jetzt heißt es abwarten.

Bis dahin die Fragen an das Forum:

  • Hat schon jemand erfolgreich ein Update auf TrueNAS 25.10 auf dem UGreen DXP 4800 Plus durchgeführt?
  • Gab es Probleme oder läuft alles fehlerfrei?

Vielen Dank für eure Antworten im voraus.

Erbse

Zunächst einmal herzlich willkommen, freut mich, dass es grundsätzlich mit dem Kurs problemlos lief.

Wir haben selbst auch 25.04 auf unserem DXP 4800 Plus installiert und keinerlei Fehler festgestellt.
Kann es sein, dass du bei PVE auch etwas geändert hast? Es könnte theoretisch sein, dass der neue Kernel in PVE das PCIe-Passthrough leicht anders handhabt und es dadurch zu einem Problem kommt. Und da bin ich völlig bei dir, es ist eher ein Thema des Passthrough bzw. des Controllers und kein Festplattenproblem.

Kann es sein, dass noch irgendwelche Energiesparmaßnahmen aktiv sind?