Nach dem Servercrash bin ich nun doch etwas verwundert, dass einzelne Bekannte/Freunde nach Details fragen 🙂 Also…
Am Samstag (30.01.2010) gab es am Morgen Probleme mit dem Dateisystem. Dirk hat den Server daraufhin neu starten muessen und musste sich in der Rettungsconsole anmelden. Hier konnte Dirk die Daten dann zumindest retten, so dass einer anschliessenden Neuinstallation nichts mehr im Wege stand. Wir haben natuerlich Backups aller wichtigen Daten. Aber sicher ist sicher…
Vor der Neuinstallation mussten allerdings knapp 140GB an Daten weggesichert werden. Da sowohl Dirk, als auch ich „nur“ mit knapp 4MBit/s ans Internet angebunden sind, war klar, der Kopiervorgang kann dauern. Einige Minuten spaeter, ich war gerade Holz am hacken, fiel mir aber Ute ein. Hier haben wir (Dirk, Hampa, ich) in letzter Zeit ein wenig bei der Einrichtung des eigenen Servers geholfen. Da der Server im gleichen Netz steht koennen die Daten natuerlich ungleich schneller weg- und wieder hingesichert werden. Ute hat der Loesung zugestimmt, so dass Dirk erst einmal den Kopiervorgang angestossen hat und wir bis Abends Zeit/Ruhe hatten.
Gegen Abend, als die Neuinstallation durch war und die Daten wieder auf unserem Server lagen, haben wir dann langsam mit der Einrichtung angefangen. Erst einmal haben wir die Packetliste des Vortages (dpkg –get-selections) wieder eingelesen und ein Update des Systems durchgefuehrt.
Anschliessend haben wir begonnen die Daten aus dem tagesaktuellen Backup wieder herzustellen. In erster Linie handelt es sich hierbei um Mail, Datenbanken, Webseiten und natuerlich allen Konfigurationen. Waehrend Dirk also die Datenbanken wieder hergestellt hat, habe ich alle Webseiten (um die 20), Homeverzeichnisse und einiges in /var wieder hergestellt. Gegen 00:00 Uhr waren wie so am Ende, dass wir uns entschieden haben am Sonntag weiter zu machen.
Sonntagmorgen, Dirk war schon seit knapp 1.5 Stunden dran, bin ich gegen 8:00 Uhr dazu gestossen. Eine der ersten Aktionen war der Neustart des Servers, da wir am Vorabend ja eine Aktualisierung aller Packete vorgenommen hatten. Der Neustart verlief insofern erfolgreich, als dass man sich anschliessend auch wieder anmelden konnte. Allerdings ist Dirk dann aufgefallen, dass wir Probleme mit den Berechtigungen haben. War was passiert? Nach der Neuinstallation hatten wir eine passwd und group, die zwar von den Eintraegen identisch, aber deren Abfolge unterschiedlich war. Sprich… Der Benutzer postfix, der vor dem Crash die UID 111 hatte, hatte nun z.B. die UID 123. Daraus resultierte, dass die Rechte auf diversen Ordnern falsch waren. So war z.B. fuer /etc/ejabberd auf einmal amavis:clamav (oder so) gesetzt. Meine anfaenglich Idee, die passwd und group anzupassen, war nicht so toll, da wir ja ein Teil neuer und rueckgesicherter Daten hatten. Also haben Dirk und ich uns dann mit beherztem „find /etc /usr /var/[^]\* -group $NAME“ und anschliessenden „find /etc /usr /var/[^]* -group $NAME | xargs -r chgrp $NAME_NEU“ durch das System gekaempft. In diesem Zusammenhang muss auch noch mal auf den Blog-Eintrag Geduld bei Dirk verwiesen werden!
Als alle Rechte korrekt gesetzt waren haben wir den Server neu gestartet und konnten fast Erfolg vermelden. Auf den letzten Metern gab es noch Probleme beim Mailversand aus Apache, die wir aber mit einem „postfix check“ dann doch schnell finden und fixen konnten.
Alles in allem war es eine prima Erfahrung die wir am Wochenende machen mussten. Aufgrund der guten Vorarbeit von Dirk und Hampa waren wir gut geruestet. Aber erst der Notfall hat nun gezeigt, dass es auf jeden Fall noch Bedarf fuer Verbesserungen gibt. Es sind oft die Kleinigkeiten (Wo ist das ISO fuer die Neuinstallation, verdammt!) an die man nicht denkt. Wir sammeln bereits Punkte wie wir moegliche Ausfallzeiten minimieren koennen.
Noch ein paar Ausschnitte aus unserem „Notfalllog“:
22:08 Dirk Deimeke: in Window 0 sehen wir aktuell eine Shell auf YWC
22:08 Dirk Deimeke: in Window 1 laeuft der Rsync des kompletten Backups
22:08 Ramon Kukla: Auf der linken Seite sehen Sie nun den Big Ben. Auf der rechten Seite den Vesuch ywc. wieder zu beleben 😀
22:08 Dirk Deimeke: Und hinter Tor 2 findet sich die Ruecksicherung der naetigen Backups
22:08 Dirk Deimeke: 🙂
22:25 Dirk Deimeke: Ramon: The stage is yours
22:25 Dirk Deimeke: Tippfehler geben Punktabzug
22:25 Ramon Kukla: Ok, dann erst mal ein dezentes „rm -rf“ 😀
22:26 Dirk Deimeke: Kein Problem, ich weiss jetzt was zu tun ist :-)))
22:26 Ramon Kukla: Hihi 😀
22:27 Hans-Peter Bruegger: Und? was waere jetzt er naechste Schritt? die Pakete nachinstallieren?
22:27 Dirk Deimeke: Yip, zeile 52
22:27 Ramon Kukla: Via dpkg –set-selections $DATEINAME (vermutlich)
22:28 Dirk Deimeke: yip, machst Du oder soll ich?
22:28 Ramon Kukla: Mach gerade schon.
22:28 Ramon Kukla: Also ich
22:28 Dirk Deimeke: Seht das Dokument bitte als Wiki, bitte auch eintragen, wenn was fehlt
22:28 Dirk Deimeke: ramon: Ich sehe gar nichts
22:28 Hans-Peter Bruegger: Ich auch nicht…
22:29 Ramon Kukla: Ihr macht micht nervoes ;D
22:29 Dirk Deimeke: Sind wir bald da?
22:29 Hans-Peter Bruegger: ctrl+a, 0 ;o)
22:30 Ramon Kukla: Pft.
22:30 Hans-Peter Bruegger: Ich kaennt’s auch nicht mit Publikum. :oD
22:47 Dirk Deimeke: Hoppala, da sind ja ein paar Serverdienste dazu gekommen
Man sieht, wir hatten auch Spass 😉
Nachtrag: Wer Fragen hat, oder mehr Details wissen moechte kann mich gerne ansprechen.