Bei meiner Suche nach Informationen zu einem ganz anderen Thema, ist mir ein sehr schöner Beitrag zum Thema Datenkorruption, warum Backups und Raid-Systeme dagegen nicht schützen und wie man das Problem löst, aufgefallen.
Der Beitrag in englischer Sprache.
Die Kernaussage des Artikels ist (unter anderem natürlich), dass ein gekipptes Datenbit von Raid-Controllern im Allgemeinen nicht erkannt wird, da ein Raid-Controller den Ausfall einer Festplatte kompensiert. Wenn ein einzelnes Bit kippt, könnte der Raid-Controller zwar erkennen, dass die Parityinformation nicht mehr stimmt, aber er kann nicht feststellen, durch welche Festplatte der Fehler hervorgerufen wurde. Bei Raid-Systemen ist man also darauf angewiesen, dass eine Festplatte so freundlich ist, die Arbeit komplett einzustellen.
Ein Datenbackup sichert zwar die Daten, und ermöglicht das Wiederherstellen der kaputt gegangenen Dateien, allerdings werden Backups zyklisch durch neuere Sicherungen überschrieben. Solange man also nicht weiß, dass Daten kaputt gegangen ist, überschreibt man die Originaldaten mit den defekten Daten.
Als eine Lösung wird hier u.a. ZFS genannt. Dieses Filesystem erzeugt blockweise Prüfsummen. ZFS erkennt und behebt damit die entstandenen Fehler im laufenden Betrieb, ohne dass der Nutzer etwas davon merkt.
Geprüft, und für gut befunden: Ein auf FreeBSD basiertes FreeNAS mit ZFS als Storagelösung.