Ich habe vor ein paar Tagen bereits kurz darüber berichtet, wir hatten einen schlimmen Serverausfall, weil 2 Festplatten in einem Server mit Raid 5 Verbund auf einmal ausgefallen sind.
Wie die meisten vielleicht wissen, ist dies so ziemlich das schlimmste, was man sich vorstellen kann. Wenn 2 Festplatten beim Raid 5 gleichzeitig ausfallen, dann geht eigentlich gar nichts mehr. So auch bei uns, der Server bootete von alleine neu durch und konnte beim 1. Bootvorgang die Festplatteninhalte nicht mehr korrekt lesen und brach mit einer Fehlermeldung ab, da er bestimmte Bereiche der Windows-Partition nicht mehr lesen konnte.
Nach langen Telefonaten mit dem Hersteller, in diesem Fall Dell, war die Meinung des Technikers, dass alle Daten unwiderruflich verloren sind. Komischerweise waren die 2 Festplatten, die laut Raid Controller Bios ausgefallen sind, optisch nicht als defekt gekennzeichnet. Nur eine der beiden leuchtete „Orange“, was auf einen Defekt hindeutete. Dies haben wir dem Dell Support dann auch so mitgeteilt und diverse Test´s mit dem System gefahren.
Herausgekommen ist letztendlich, dass die Firmware des Dell Raid Perc 5i Controllers zu alt war, dass sinnvolle Logfiles erzeugt wurden. Ok, ich gebe zu, ich habe die Firmware des Raid Controllers in der letzten Zeit nicht upgedatet, aber das war mit bei dem Fileserver einfach zu gefährlich und was soll ich Änderungen an einem System einspielen, was einwandfrei läuft.
Der Dell Support teilte mir ebenfalls mit, dass die Firmware der Festplatten nicht aktuell sind. Das war mir allerdings neu, dass auch die Firmware der Festplatten upzudaten sind. Laut Servicemitarbeiter soll es Timing Probleme bei der 2. Platte gegeben haben, sodass diese ebenfalls aus dem Raid Verbund geflogen ist und es somit zum Datenverlust gekommen ist.
Aber was tun – selbstverständlich hatten wir ein tagesaktuelles Backup und dieses konnte sofort aktiviert werden. Somit war kein Datenverlust entstanden, die Mitarbeiter hatten zwar eine Beeinträchtigung von 2-3 Stunden, aber mehr oder weniger kein größeres Problem. Trotzdem wollte ich mich mit der Aussage, dass die Daten unwiderruflich weg sind, nicht abgeben.
Ein Firmware Update des PERC 5i Controllers sollte ich durchführen. Das habe ich aber nicht gemacht, da die Wahrscheinlichkeit, dass dann hinterher gar nichts mehr funktioniert, sehr hoch war. Somit hab ich versucht, über die Windows Wiederherstellungskonsole an die Daten zu kommen. Aber das war gar nicht so einfach, denn dadurch, dass es ein Raid Controller ist, konnte die normale Windows Server 2003 R2 DVD gar nicht auf die Boot Partition zugreifen, bevor nicht der richtige Raid Controller Treiber geladen wurde. Also beim Bootvorgang F6 gedrückt und dann wollte er den Treiber von Diskette nachladen. Der Treiber ist eigentlich von der Dell Support Homepage herunterzuladen – nur leider dieser nicht. Der Download brach immer wieder mit einem Fehler ab. Danach haben wir den Telefonsupport kontaktiert mit der Bitte, uns den Treiber per E-Mail zuzusenden. Kurz danach kam die Mail, allerdings als .EXE Datei. Diese sperrte natürlich unser Outlook, somit keine Change daran zu kommen.
Ein erneuter Anruf bei Dell, nun leider außerhalb der Geschäftszeiten…. ärgerlich. Aber wir haben dann doch noch jemand ans Telefon bekommen und nach dem 3 oder 4 Telefonat haben wir dann endlich den Treiber erhalten. Das hat allerdings insgesamt ca. 3 Stunden gedauert.
Dann haben wir den Treiber eingebunden und wir konnten dann die Reparaturkonsole mit „R“ aufrufen. Danach kam die Abfrage nach dem lokalen Administrator Kennwort. Aber leider nahm das System das korrekte Kennwort nicht mehr an. Wahrscheinlich war auch die Benutzerdatenbank defekt, somit mussten wir das Kennwort irgendwie zurücksetzen.
Dafür gibt es ja diverse Linux CD´s – wir haben es mal mit “Offline NT Password & Registry Editor” probiert. Wie dies genau funktioniert haben wir ja bereits im Beitrag „Administrator Kennwort zurücksetzen“ genau beschrieben.
Was mich allerdings immer wieder ein wenig wundert ist, dass es allen Linux Derivaten problemlos gelingt, auf die NTFS Partitionen zuzugreifen, ohne das spezielle Treiber wie bei Windows geladen werden müssen. Auch das Zurücksetzen des Administrator Kennwortes war kein Problem. Wir haben dann aber auch noch andere Linux Versionen wie „Knoppix“ und „Ubuntu“ ausprobiert, auch diese konnten zumindest auf einen Teil der Startpartition zugreifen, die Datenpartition war allerdings auch hier nicht einsehbar.
Nachdem wir das Kennwort zurückgesetzt haben konnten wir die Reparaturkonsole aufrufen und haben dann ein „chkdsk /R“ durchgeführt. Durch diesen Befehl mit dem Parameter „/R“ werden fehlerhafte Sektoren gefunden und es werden lesbare Daten wiederhergestellt. Dieser Vorgang dauerte alleine für die Startpartition, die nur eine Größe von 12GB hatte, ca. 25 Minuten.
Nachdem CHKDSK erfolgreich durchgelaufen ist haben wir versucht erneut von der Windows Partition zu booten. Und siehe da, es funktionierte wieder. Keine Fehlermeldung beim Hochfahren, ich konnte mich als lokaler Administrator am System anmelden und alles schien eigentlich wieder einwandfrei zu funktionieren. Nachdem wir „CHKDSK /R“ auch für die Datenpartition D: angewendet haben, welches übrigens gut 1 Stunde benötigte, konnten wir auch wieder auf diese Daten zugreifen.
Es waren zwar nicht mehr alle Dateien verfügbar, aber eine große Anzahl an Dateien konnten so noch gerettet werden. Das zeigt mir mal wieder dass man nicht so schnell aufgeben soll, auch wenn sogenannte „Support Experten“ anderer Meinung sind und die Daten eigentlich „unwiederruflich“ verloren sind.
Viele weitere wertvolle Informationen zu Datenrettungs-Möglichkeiten und dem Arbeiten mit Windows Wiederherstellungspunkten findet Ihr in diesen Beiträgen.
– In der PowerShell mit Wiederherstellungspunkten arbeiten
– Datenrettung – Datenwiederherstellung durch Profis
– Systemwiederherstellungspunkte löschen und Speicherplatz freigeben
– Temporäre Dateien automatisch löschen bei Windows 10
– Systemreparaturdatenträger / Recovery DVD erstellen unter Windows 10
– Gelöschte Dateien unter Windows wiederherstellen
– Datenwiederherstellung beim Raid Defekt
– Raid 6
Hallo Michael,
dafür ist der PERC5i leider bekannt. Die PERC 3 und 4 waren dabei jedoch noch schlimmer. Vermutlich war in dem RAID nur eine Festplatte defekt, und der Raid-Controller konnte die dahinterliegenden nicht als in Ordnung erkennen. Am einfachsten hättest Du händisch alle Festplatten im Controller auf „in Ordnung“ setzten müssen, dann die defekte ziehen und dein System mit Raid 5 wäre fehlerfrei gebootet. Hätte der Techniker von Dell wissen müssen jedoch gibt es da gravierende Know-How unterschiede zwischen Basis und ProSupport.
Grundsätzlich muss ich dem Techniker aber zustimmen regelmäßig Treiber, Firmware und Bios aktuell zu halten. Damit kannst du viele Fehler vorbeugen.
Gruß
Markus
PS: Outlook speert nur den Zugriff auf die EXE-Datei. Per Registy Anpassungen kommst du aber an diese wieder dran.
Hallo Markus,
danke für Deinen Tipp, aber das haben wir probiert. Die beiden Festplatten standen beide auf FOREIGN und es ließ sich der Status der Festplatten nicht verändern. Wir haben auch die gesamte Raid Konfiguration gelöscht und neu eingerichtet ohne das Raid neu zu initialisieren, aber es brachte wie gesagt keine Besserung.
Ich hoffe nicht dass es ein PERC5i Problem ist, denn dann hätte ich hier Probleme mit ca. 25 Servern. Welchen Raid Controller von Dell würdest Du dann eher einsetzen?
VG
Michael
Hi Michael,
der Status hätte sich verändern lassen müssen, konnte jedoch auch an der Firmware hängen aber nun gut… Schnee von gestern…
Naja die PERC5i sind nicht schlecht jedoch haben sie hin und wieder das Problem heile Festplatten, die nach einer defekten liegen, nicht zu erkennen.
Zurzeit würde ich den H700 Empfehlen mit 512MB oder 1GB NV Cache.
VG
Markus