Press left mouse button to continue.

Wieder Online! – Details

Nach dem Servercrash bin ich nun doch etwas verwundert, dass einzelne Bekannte/Freunde nach Details fragen 🙂 Also…

Am Samstag (30.01.2010) gab es am Morgen Probleme mit dem Dateisystem. Dirk hat den Server daraufhin neu starten muessen und musste sich in der Rettungsconsole anmelden. Hier konnte Dirk die Daten dann zumindest retten, so dass einer anschliessenden Neuinstallation nichts mehr im Wege stand. Wir haben natuerlich Backups aller wichtigen Daten. Aber sicher ist sicher…

Vor der Neuinstallation mussten allerdings knapp 140GB an Daten weggesichert werden. Da sowohl Dirk, als auch ich „nur“ mit knapp 4MBit/s ans Internet angebunden sind, war klar, der Kopiervorgang kann dauern. Einige Minuten spaeter, ich war gerade Holz am hacken, fiel mir aber Ute ein. Hier haben wir (Dirk, Hampa, ich) in letzter Zeit ein wenig bei der Einrichtung des eigenen Servers geholfen. Da der Server im gleichen Netz steht koennen die Daten natuerlich ungleich schneller weg- und wieder hingesichert werden. Ute hat der Loesung zugestimmt, so dass Dirk erst einmal den Kopiervorgang angestossen hat und wir bis Abends Zeit/Ruhe hatten.

Gegen Abend, als die Neuinstallation durch war und die Daten wieder auf unserem Server lagen, haben wir dann langsam mit der Einrichtung angefangen. Erst einmal haben wir die Packetliste des Vortages (dpkg –get-selections) wieder eingelesen und ein Update des Systems durchgefuehrt.

Anschliessend haben wir begonnen die Daten aus dem tagesaktuellen Backup wieder herzustellen. In erster Linie handelt es sich hierbei um Mail, Datenbanken, Webseiten und natuerlich allen Konfigurationen. Waehrend Dirk also die Datenbanken wieder hergestellt hat, habe ich alle Webseiten (um die 20), Homeverzeichnisse und einiges in /var wieder hergestellt. Gegen 00:00 Uhr waren wie so am Ende, dass wir uns entschieden haben am Sonntag weiter zu machen.

Sonntagmorgen, Dirk war schon seit knapp 1.5 Stunden dran, bin ich gegen 8:00 Uhr dazu gestossen. Eine der ersten Aktionen war der Neustart des Servers, da wir am Vorabend ja eine Aktualisierung aller Packete vorgenommen hatten. Der Neustart verlief insofern erfolgreich, als dass man sich anschliessend auch wieder anmelden konnte. Allerdings ist Dirk dann aufgefallen, dass wir Probleme mit den Berechtigungen haben. War was passiert? Nach der Neuinstallation hatten wir eine passwd und group, die zwar von den Eintraegen identisch, aber deren Abfolge unterschiedlich war. Sprich… Der Benutzer postfix, der vor dem Crash die UID 111 hatte, hatte nun z.B. die UID 123. Daraus resultierte, dass die Rechte auf diversen Ordnern falsch waren. So war z.B. fuer /etc/ejabberd auf einmal amavis:clamav (oder so) gesetzt. Meine anfaenglich Idee, die passwd und group anzupassen, war nicht so toll, da wir ja ein Teil neuer und rueckgesicherter Daten hatten. Also haben Dirk und ich uns dann mit beherztem „find /etc /usr /var/[^]\* -group $NAME“ und anschliessenden „find /etc /usr /var/[^]* -group $NAME | xargs -r chgrp $NAME_NEU“ durch das System gekaempft. In diesem Zusammenhang muss auch noch mal auf den Blog-Eintrag Geduld bei Dirk verwiesen werden!

Als alle Rechte korrekt gesetzt waren haben wir den Server neu gestartet und konnten fast Erfolg vermelden. Auf den letzten Metern gab es noch Probleme beim Mailversand aus Apache, die wir aber mit einem „postfix check“ dann doch schnell finden und fixen konnten.

Alles in allem war es eine prima Erfahrung die wir am Wochenende machen mussten. Aufgrund der guten Vorarbeit von Dirk und Hampa waren wir gut geruestet. Aber erst der Notfall hat nun gezeigt, dass es auf jeden Fall noch Bedarf fuer Verbesserungen gibt. Es sind oft die Kleinigkeiten (Wo ist das ISO fuer die Neuinstallation, verdammt!) an die man nicht denkt. Wir sammeln bereits Punkte wie wir moegliche Ausfallzeiten minimieren koennen.

Noch ein paar Ausschnitte aus unserem „Notfalllog“:

22:08 Dirk Deimeke: in Window 0 sehen wir aktuell eine Shell auf YWC
22:08 Dirk Deimeke: in Window 1 laeuft der Rsync des kompletten Backups
22:08 Ramon Kukla: Auf der linken Seite sehen Sie nun den Big Ben. Auf der rechten Seite den Vesuch ywc. wieder zu beleben 😀
22:08 Dirk Deimeke: Und hinter Tor 2 findet sich die Ruecksicherung der naetigen Backups
22:08 Dirk Deimeke: 🙂

22:25 Dirk Deimeke: Ramon: The stage is yours
22:25 Dirk Deimeke: Tippfehler geben Punktabzug
22:25 Ramon Kukla: Ok, dann erst mal ein dezentes „rm -rf“ 😀
22:26 Dirk Deimeke: Kein Problem, ich weiss jetzt was zu tun ist :-)))
22:26 Ramon Kukla: Hihi 😀

22:27 Hans-Peter Bruegger: Und? was waere jetzt er naechste Schritt? die Pakete nachinstallieren?
22:27 Dirk Deimeke: Yip, zeile 52
22:27 Ramon Kukla: Via dpkg –set-selections $DATEINAME (vermutlich)
22:28 Dirk Deimeke: yip, machst Du oder soll ich?
22:28 Ramon Kukla: Mach gerade schon.
22:28 Ramon Kukla: Also ich
22:28 Dirk Deimeke: Seht das Dokument bitte als Wiki, bitte auch eintragen, wenn was fehlt
22:28 Dirk Deimeke: ramon: Ich sehe gar nichts
22:28 Hans-Peter Bruegger: Ich auch nicht…
22:29 Ramon Kukla: Ihr macht micht nervoes ;D
22:29 Dirk Deimeke: Sind wir bald da?
22:29 Hans-Peter Bruegger: ctrl+a, 0 ;o)
22:30 Ramon Kukla: Pft.
22:30 Hans-Peter Bruegger: Ich kaennt’s auch nicht mit Publikum. :oD

22:47 Dirk Deimeke: Hoppala, da sind ja ein paar Serverdienste dazu gekommen

Man sieht, wir hatten auch Spass 😉

Nachtrag: Wer Fragen hat, oder mehr Details wissen moechte kann mich gerne ansprechen.

19 Kommentare

  1. Dirk Deimeke

    Dem moechte ich mich anschliessen. Natuerlich koennt Ihr auch mich fragen oder einfach hier in die Kommentare, ich lese mit.

    Ich bin froh, dass das alles doch noch so gut funktioniert hat.

  2. Ramon Kukla

    Test. You don’t have permissions to access /index.php on this server?

  3. Dirk Deimeke

    Wen oder was unterziehst Du einem Test?

  4. mucknert

    Herzlichen Glueckwunsch zur erfolgreichen Wiederherstellung. Da hofft man immer, dass einem sowas erspart bleibt. 🙂

  5. Patrick

    Vermutlich will er dich testen .. Ihr hattet scheinbar den Fehler? 😀 *gg* Wegen Berechtigungen und so ^^

  6. kay

    Respekt! 😉

    Ich bin froh, dass ich nicht weiter drauf eingegangen bin, als Du mich gefragt hast, ob ich nicht mit dir einen eigenen Server mieten moechte. Nicht, dass ich dich nicht mag und eine Zusammenarbeit mit dir nicht in Frage kaeme…, aber unter den Umstaenden haette ich nichts machen koennen und Du waerst alleine auf einem Haufen Schrott sitzen geblieben! 😉

    Lass uns zusammen AMIGAS pimpen! 😀

  7. Ramon Kukla

    Das ist alles eine Sache der Uebung. Beruflich mache ich leider nicht so viel mit Linux/Unix wie ich moechte. Somit ist Dirk eigentlich der wahre Koenner bei uns 😉 Aber so kompliziert es sich auch anhoeren mag… Letzlich ist es zu schaffen. Wichtig ist nur, wie Dirk in seinem Blog ja schon schrieb, die Ruhe zu bewahren. Es macht keinen Sinn, wenn man alles Hopp-Hopp machen moechte, aber viele Fehler uebersieht und dann tagelang am nacharbeiten ist.

  8. Dirk Deimeke

    Man waechst mit seinen Aufgaben oder andersherum. Wenn Du noch nie die Notwendigkeit hattest, Dich mit einem Thema auseinander zu setzen, dann wirst das Thema auch nie beherrschen lernen.

    Der Crash passiert ja meist nachdem ein Geraet schon jahrelang problemlos seinen Dienst versieht. Das heisst auch, dass Du jahrelang Erfahrungen sammelst.

    Alles ist lernbar!

  9. Dirk Deimeke

    Danke fuer die Blumen!

  10. Unki

    Ich haette Euch gerne ueber die Schulter geschaut … von wegen Lernen

  11. Ramon Kukla

    Beim naechsten mal machen wir ein Screencast 😉 Dann darf jeder schauen und ggf. reinreden 🙂

  12. Dirk Deimeke

    Vielleicht mache ich eine Session auf der naechsten Ubucon zum Thema Backup und Restore eines Server-Systems.

  13. Dirk Deimeke

    screen war ja da, aber Du wolltest es erst nicht nutzen :->

  14. Ramon Kukla

    Das waere auf jeden Fall eine interessante Session! Man moechte ja meinen, dass das Thema in 20 Minuten durch ist. Aber vor allem im Hinblick auf eigene Erfahrungen kannst du da sicher 2 Stunden draus machen.

  15. Dirk Deimeke

    Vielleicht machst Du einfach mit …

  16. Unki

    Das klingt verlockend, zumal ich ein lausiger und fauler Admin bin.

    ICh denke drueber nach.

  17. Dirk Deimeke

    Faul ist eine gute Eigenschaft fuer einen Admin, ich bezog mich aber gerade auf Ramon, der das Drama ja live miterlebt hat.

  18. Ramon Kukla

    Spontan: „Sehr gerne“. Sollten wir uns, wenn es eine Option ist, noch mal drueber unterhalten. Haette sicher auch einen hohen Unterhaltungswert 😉

  19. Dirk Deimeke

    Ich komme darauf zurueck, Du wirst schon sehen … 🙂

© 2025 Software Failure

Theme von Anders NorénHoch ↑