Bester Systemadministrator Unfall [geschlossen]

Ich bin auf der Suche nach amüsanten Geschichten von Systemadministrator Unfälle, die Sie hatten. Löschen der CEO-E-Mail, Formatierung der falschen Festplatte, etc.

Ich werde meine eigene Geschichte als Antwort hinzufügen.

    24 Solutions collect form web for “Bester Systemadministrator Unfall [geschlossen]”

    Ich hatte Spaß, den Unterschied zwischen dem Linux-Killall-Befehl zu entdecken (tötet alle Prozesse, die mit dem angegebenen Namen übereinstimmen, nützlich für das Stoppen von Zombies) und den Solaris-Befehl "killall" (tötet alle Prozesse und hält das System an, nützlich für das Stoppen des Produktionsservers Die Mitte der Spitzenzeiten und alle Ihre Kollegen, um dich für eine Woche zu lachen).

    Ich war verantwortlich für unsere Corporate Web Proxy, die zu der Zeit war Netscape Produkt. Während der Wiedergabe in den Admin-Formularen (es war eine Web-basierte Schnittstelle) gab es eine große (und ich schwöre, es war rot) Button, sagte Delete User Database . Kein Problem, dachte ich Lassen Sie uns sehen, was die Optionen, die es mir gibt, wenn ich das getroffen habe. Sicherlich gibt es eine Bestätigungsaufforderung, wenn es keine Optionen gibt.

    Ja, keine Bestätigung. Keine Optionen. Keine Benutzer mehr.

    Also ging ich zu Mr. Solaris Sysadmin hinüber und sagte, dass ich in einer verzweifelten Notwendigkeit einer Wiederherstellung von Band war, auf das er antwortete: "Ich kehre nicht zurück."

    "Äh, komm wieder", erwiderte ich.

    "Ich gehe nicht zurück, dass die Box auf, es ist auf meiner Liste der Dinge, um die Backup-Rotation hinzuzufügen, aber ich habe es noch nicht bekommen."

    "Dieser Server ist seit fast 8 Monaten in Produktion!" Ich schrie.

    Achselzucken , antwortete er. "Es tut uns leid."

    Vor vielen Jahren hatte die Firma, für die ich arbeitete, einen Client, der eine nächtliche Sicherung ihres NT 4.0 Servers zu einem Jaz-Laufwerk führte (wie eine Hochleistungs-Zip-Disk).

    Wir haben eine Batch-Datei eingerichtet, die als geplanter Job über Nacht lief. Jeden Morgen sammelten sie letzte Nacht Scheibe von der Fahrt, und bevor sie am Abend abreisten, würden sie die nächste Scheibe in die Sequenz einfügen.

    Jedenfalls sah die Batch-Datei so aus (das Jaz-Laufwerk war Laufwerk F:) …

     @echo off F: deltree /y *.* xcopy <important files> F: 

    Wie auch immer, eine Nacht haben sie vergessen, die Festplatte einzutragen. Die Änderung an Laufwerk F: fehlgeschlagen (keine Festplatte im Laufwerk), und die Batch-Datei weiter ausgeführt. Das Standard-Arbeitsverzeichnis für die Batchdatei? C :. Das erste Mal, dass ich jemals eine Sicherungsroutine gesehen habe, zerstöre den Server, den es gesichert hat.

    Ich habe an diesem Tag ein bisschen etwas über Sysadminning (und Ausnahmebehandlung) gelernt.

    Jim

    PS: Das Fix? "Deltree / y F: \ *. *".

    Root @ dbhost # find / -name core -exec rm -f {} \;

    Ich: "Du kannst nicht einsteigen?" Was ist der DB-Name? "

    Cu: "Kern".

    Ich: "Oh."

    Ich liebe die Art und Weise, wie jeder ihre Geschichte mit "wenn ich jung / grün war", als ob sie es nie wieder tun würden. Unfälle können auch die meisten erfahrenen Profis passieren.

    Mein eigener schlimmster Moment ist so schlimm, dass ich immer noch Herzklopfen darüber nachdenke …

    Wir hatten ein SAN mit Produktionsdaten darauf. Kritisch für das Unternehmen. Mein "Mentor" beschloss, eine Partition zu erweitern, um Platz zu sparen. Kannst du sehen, woher das geht? Er sagte, dass die SAN-Software das live machen könnte, in Produktionsstunden und niemand würde es bemerken. Alarmglocken sollten anfangen zu klingeln, waren aber auffallend still. Er sagte, er hätte es "mal vor" ohne Probleme gemacht. Aber hier ist die Sache – er hat mich auf den Knopf geklickt, der sagte: "Bist du sicher?"! Als ich neu in der Firma war, nahm ich an, dass dieser Kerl wusste, worüber er sprach. Großer Fehler. Die gute Nachricht war, dass die LUN erweitert wurde. Die schlechte Nachricht war … gut ich wusste, es gab schlechte Nachrichten, als ich anfing, Plattenfehler auf der Windows-Box zu sehen.

    Ich bin froh, dass ich braune Hosen trug.

    Wir mussten erklären, warum 1TB Daten zur Mittagszeit verschwunden waren. Das war ein wirklich, wirklich schlechter Tag.

    Es ist ein gutes Prinzip eigentlich – bevor du etwas machst, worüber du Zweifel hast, stell dir vor, das Management zu erklären, wenn etwas schief geht Wenn Sie nicht an eine gute Antwort denken können, um Ihre Handlungen zu erklären, dann tun Sie es nicht.

    Nagios brachte uns einen Morgen, als die Geschäftszeiten begannen zu sagen, dass es keine Verbindung zu einem unkritischen Server herstellen konnte. Ok, wandere zum Serverraum. Es ist ein alter Server, ein Dell 1650, der in '02 gekauft wurde, und wir wussten, dass die 1650er Jahre Hardwareprobleme hatten. Der PFY startet den Netzschalter. Nichts. Schlagen Sie es noch einmal, und halten Sie es für fünf Sekunden, um "Power Power" zu zwingen … was den Fehler des BMC überschreibt, da es ohne DRAC keine Möglichkeit gibt, die BMC-Protokolle zu untersuchen, ohne das Chassis einzuschalten.

    Die Maschine startet POST und stirbt dann wieder. Ich stehe darüber und gehe, "ich rieche Rauch." Wir ziehen den Server auf die Schienen, und einer der Stromversorgungen fühlt sich warm an, also zieht der PFY es und ist dabei, die Box wieder zu schließen. Ich sage: "Nein, das ist nicht Stromversorgung Rauch, das ist Motherboard Rauch."

    Wir öffnen den Fall wieder und suchen die Quelle des brennenden Geruchs. Stellt eine Induktor-Spule und ein Kondensator etwas aus dem Spannungsregler auf dem Motherboard, und spritzte geschmolzenes Kupfer und Kondensator goop über alles, kurzfristig ein paar Sachen und im Grunde ein großes Chaos.

    Der schlimmste Teil für mich war zu erkennen, dass ich genug Hardware geraucht hatte, um den Unterschied zwischen dem Geruch eines verbrannten Motherboards und einer verbrannten Stromversorgung zu erkennen.

    Vor drei Tagen (ernsthaft) war ich per Fernzugriff auf einen Schulserver und installierte Service Pack 2 auf einem Windows Server 2008 Dateiserver.

    Ich beschloss, den benötigten Neustart für spät in die Nacht zu planen, als die Lehrer nicht bei der Fertigstellung ihrer Ende-Jahres-Bericht-Karten angemeldet wären. Ich habe so etwas eingegeben:

      Um 23:59 "shutdown -r -t 0" 

    … was könnte gut gearbeitet haben

    Aber dann habe ich mich selbst erraten. War meine "Shutdown" Syntax richtig? Ich habe versucht, die Gebrauchshilfe zu sehen, indem ich tippe

      Shutdown / h 

    … und sofort meine RDP-Verbindung verloren. Panik, ich traf Google für die Syntax. Eine schnelle Suche ergab, dass die Server 2008-Version des Shutdowns einen / h-Switch beinhaltet, der (wie Sie vielleicht erraten haben) die Maschine umstellt.

    Die Lehrerin rief mich innerhalb von Minuten an, um zu berichten, dass sie die Berichtskarten, an denen sie gearbeitet hatten, nicht mehr öffnen oder speichern konnten. Da ich offsite war und der Serverraum verschlossen war, musste ich den Schulleiter direkt anrufen und ihn durch den Prozess der Stromversorgung der Maschine weiterfahren.

    Heute habe ich hausgemachte Kekse an alle als eine Form der Entschuldigung gebracht.

    Ahhh, meins war vor etwa 10 Jahren, als ich noch immer meine Füße nass machte. Ich hatte die Freude, Batteriesicherungen auf allen Programmiercomputern zu installieren. Sie wollten auch, dass die Software geladen wurde, um den Stromausfall zu warnen und ordnungsgemäß herunterzufahren.

    Also habe ich es auf meinem Computer aufgestellt, um alles zuerst zu testen und sicherzustellen, dass alles gearbeitet hat. So trennen Sie das Netzkabel und die Meldung erscheint auf meinem Bildschirm. "Externe Macht verloren, ab System-Shutdown".

    Also dachte ich, hey cool, es hat geklappt. Aber aus irgendeinem seltsamen Grund, ich erinnere mich nicht einmal, es schickte diese Nachricht als Netzwerk-Nachricht, so dass alle 200 + Computer in der Firma bekam diese Nachricht, wo 100 + Benutzer, wo Programmierer.

    Yeah, reden über Massenauslosung!

    Ich hielt meinen Kopf für eine Weile an diesem Platz!

    In einem früheren Job hatten wir ein großartiges Homegrown-System, das jedes einzelne Poststück, das in die Firma eingegangen ist, eingeloggt und archiviert hat.

    Ihr ganzer Briefkasten verstopfen? Kein Problem! Auf der Suche nach einem Poststück, dass jemand Ihnen eine Woche / Monat / Jahr geschickt hat, aber Sie können sich nicht erinnern, wer es geschickt hat oder was das Thema war? Kein Problem! Wir werden einfach alles ab Februar für Sie zu einem speziellen Ordner.

    Irgendwann war der Bedarf für den CEO des Unternehmens, um die Post zu überwachen, die zwischen einem Wettbewerber und einem internen Verkäufer unter Verdacht ging. So richten wir ein Skript ein, als es jeden Abend lief und per Post vom vorherigen Tag an den CEO geliefert wurde. Kein Problem!

    Etwa einen Monat später kam das Wort eines doppelten, dringenden Problems von oben herab. Scheint, dass, als der CEO las durch die Liste der Mails an $ OTHERCOMPANY gesendet, kam er auf diese ein:

     To: somebody@$OTHERCOMPANY From: CEO Subject: CEO has read your message (subject line here) 

    Natürlich war der CEO eine wichtige Person und alle, er war zu beschäftigt, um auf alle diese "Send Read Receipt" Dialoge in Outlook klicken und hatte seinen Client, um sie einfach alle senden. Eine der vom Überwachungsfilter erfassten Meldungen hatte einen Lese-Quittungsanforderungssatz. Vermutung, was Outlook hat? Sicher wurde die "heimliche" Überwachung überwacht.

    Unsere nächste Aufgabe: Hinzufügen von Regeln zum Mail-Filter, um ausgehende Lesebestätigungen vom CEO zu dieser Firma zu blockieren. Ja, es war der einfachste Weg. 🙂

    Ich würde oft den Befehl "sys-unconfig" auf Solaris-Maschinen verwenden, um das Gerät zurückzusetzen Name Service, IP-Adresse und Root-Passwort. Ich war auf einem Benutzersystem und ich habe mich in den Gebäudeinstallationsserver angemeldet und sah etwas auf (als Root), dann vergaß ich, dass ich mich in einem anderen Rechner angemeldet hatte (nicht beschreibende "#" – Aufforderung). Ich lief den Befehl "sys-unconfig".

     # sys-unconfig WARNING This program will unconfigure your system. It will cause it to revert to a "blank" system - it will not have a name or know about other systems or networks. This program will also halt the system. Do you want to continue (y/n) ? y Connection closed # 

    Diese "Verbindung geschlossen" Nachricht langsam in Panik … was Maschine war ich eingeloggt, wenn ich diesen Befehl lief.

    Der schlimmste Teil davon war nicht die schwere Zeit, die meine Mitarbeiter mir gaben, es war, dass ich das gleiche schon einen Monat später getan habe.

    Es ist irgendwie ein Sysadmin-Unfall .. insofern Sysadmins gelegentlich eine große Anzahl von Maschinen von Punkt A bis Punkt B (wo A und B scheinbar immer durch mehrere Treppenstufen in einem Gebäude ohne Aufzug getrennt sind) schleppen. Auf der n'ten Reise des Tages hielt ich für eine Verschnaufpause drei Flügel aus dem Keller Lade-Ebene zu chatten mit jemand kommen, stieg die Full-Size-Turm mit Station Ich war Schleppen auf dem inneren Handlauf des offenen Treppenhauses Und … gut, du hast es erraten … hat mich leicht verloren. Es stürzte unbestechlich geradeaus den Brunnen und als es den Boden erreichte, er … nicht so sehr mit der Funktionalität für diesen! Insgesamt rettungsfähige Teile: zwei Stöcke RAM, ein Diskettenlaufwerk und eine ISDN-Karte (Gott segne die Hermstedt-Techniker!). Alles andere knackte, rasselte oder zerschmetterte in winzige Stücke.

    Durch die Gnade Gottes ging niemand unter, das, dankbar für mich, mein Chef zuerst war, also musste ich meinen Job behalten. Fühlte mich sehr krank für eine Stunde oder so aber.

    Moral: Schwerkraft gewinnt immer!

    Ich habe ein ziemlich gutes. Zugegeben, es war vor meiner Zeit als Sysadmin, aber immer noch Tech-bezogen, so dass ich dachte, ich würde es hinzufügen.

    Zurück in den Tag arbeitete ich als Satcom / Breitband-Tech für die USAF. Nachdem ich vor kurzem die technische Schule absolviert hatte, fand ich mich in Südkorea stationiert. Kurz nach der Ankunft am Bahnhof entstand eine Chance, nach Süden zu reisen mit den "großen Jungs", die dort für eine Weile gewesen waren und tatsächlich an einer realen Welt arbeiten (dh "Produktion") Ausrüstung.

    Ich ging mit der Mannschaft hinunter, und als eine eifrige, junge Technik, war die Chomping an der Spitze, ganz aufgeregt auf die Aussicht, meine Hände auf eine tatsächliche Ausrüstung, die LIVE militärischen Stimme und Datenverkehr übergeben wurde.

    Um mich langsam zu starten, gaben sie mir ein Handbuch, wandten sich dem vorbeugenden Wartungsabschnitt zu und zeigten mir in Richtung vier Racks, die mit mehreren großen digitalen Multiplexern gefüllt waren. Die Ausrüstung war einfach genug, wir hatten die gleiche Ausrüstung in der Tech-Schule abgedeckt.

    Erste Seite des Handbuches lesen; "Wenden Sie den Ditigal-Multiplexer an. Schalten Sie beide Heckschalter auf ON und warten Sie, bis das Gerät eingeschaltet ist, und starten Sie dann Tests." Ich blickte auf, und da war schon Power!

    Ich war sicher in einem Dilemma. Ich wusste nicht, wie es weiter geht, ich habe mein Bestes geschossen, `Ummmm .. Kinda verloren hier 'Blick auf den Senior.

    Er sah zu mir hinüber und lachte: "Nein, nein, es ist okay, du kannst diesen Teil der Checkliste ignorieren." Dann, als er den Blick auf mein Gesicht bemerkte (da wir in der Schule gelehrt wurden, um niemals irgendwie einen Teil einer Checkliste zu ignorieren, und es war ein gewisser Tod und Zerstörung, wenn man das tun sollte), legte er einen ernsten Blick auf seine Gesicht und sagte, "Ignore NUR das Teil! Folgen Sie dem Rest von ihm, zum Brief!"

    Dementsprechend lief ich durch die mehrstufigen PM-Anweisungen, glücklich wie eine Muschel und stolz darauf, dass sie so eine niedrige, (wenn auch intelligente) Technik diese wichtige Arbeit ließen.

    Irgendwo zwischen der fünften und sechsten vorbeugenden Wartungs-Checkliste auf diesen riesigen Multiplexern fing ich an, eine erhöhte Aktivität um mich zu bemerken. Telefone klingelten, die Leute fuhren schnell. Quizzische Blicke wurden ausgetauscht.

    Schließlich lief eine Gruppe von Leuten zu mir, von einem der älteren Techniker geleitet, die mich heruntergebracht hatten.

    "Hey, wir sehen riesige Ausfälle im Datenverkehr, und wir haben den Weg zurück zu den Racks, auf denen du gearbeitet hast, isoliert / verfolgt. Bist du irgendwelche komischen …"

    (Zu diesem Zeitpunkt wurde er von einem anderen der Troubleshooters abgeschnitten, die sich zu der ersten Gruppe von Multiplexern gemacht hatten, auf denen ich die PMs gespielt hatte.)

    "HOLY NUTS!" DAS WERDEN DURCHGEFÜHRT! "

    In kurzer Zeit beobachtete ich, wie sie eilig durch den ersten Schritt in der Anleitung liefen, "drehen Sie beide Heckschalter auf die ON-Position …" Als die ältere Technik fertig war, kam er zu mir und fragte ungläubig, was ich dachte Von, indem sie die kritischen Stücke von Ausrüstung ausschalten.

    Erschrocken aus meinem Verstand, gab ich ihm die Checkliste, die ich verfolgt hatte, und fluchte, dass ich nicht auf ALL abgewichen war. Dass ich ihm gefolgt war, "zum Brief", wie er angewiesen hatte.

    Nach einer Weile lachte er und wies darauf hin, wo das Problem lag.

    In der Bedienungsanleitung war der FINAL-Schritt in der Checkliste für präventive Wartung:

    "Rekord-Fassadenmessung ablesen, Frontplatte abwischen, Staub und Partikel entfernen, dann beide Heck-Leistungsschalter auf OFF stellen."

    🙂

    Ich habe ein System für jemanden neu geladen, und während des manuellen Backup-Prozesses fragte ich ihn die Frage "Hast du noch andere Programme?" Und "Gibt es noch etwas Wichtiges, das du auf dem Computer machst?"

    Er sagte "nein" SEVERAL mal.

    Ich war überzeugt und formatierte die Fahrt.

    Etwa 30 Minuten später sagte er "oh mein Gott" und legte beide Hände auf den Kopf.

    Stellt sich heraus, dass er an einem Buchskript für über 10 JAHRE in einem spezialisierten Programm gearbeitet hatte. Dies war zurück, wenn Programme verwendet, um Benutzerdaten in seinem Programm-Dateien-Verzeichnis zu speichern und ich vermisste es.

    Whhhooooops

    Er war nicht wütend auf mich, aber es war ein ernüchterndes Gefühl.

    Mein persönlicher Favorit ist nicht wirklich mein, und ich bin sehr froh darüber. Werfen Sie einen Blick hier

    Das ist mir nicht passiert, aber …

    Ich arbeitete in einer Firma, die Software machte, die auf Linux-Maschinen lief, die vom Klienten zur Verfügung gestellt wurden. Wir würden die Maschinen im Wesentlichen "übernehmen", sie komplett auf unsere Spezifikationen ausrichten und die Verwaltung und Überwachung durchführen. Im Wesentlichen waren wir ein Team von 10-15 Sysadmins und verwaltete Tausende von Servern für Hunderte von Kunden. Irrtümer waren nötig.

    Eines unserer Teams fand einige Probleme auf einem Server (ein Backup, glaube ich), und entschied, dass er fsck drauf laufen sollte. Er hielt alle relevanten Dienste an, stellte sicher, dass das System zuvor Backups gemacht hatte, und dann lief das fsck, aber es beschwerte sich, dass das Dateisystem montiert wurde. Da wir fern waren und keinen Fernzugriff hatten (DRAC, ILO, etc.), konnte er nicht den fsck machen, aber er war ziemlich sicher, dass es sicher war, es mit dem Dateisystem zu machen, wenn Sie vorsichtig waren.

    Er beschloss, es selbst zu versuchen, indem er fsck auf seine Wurzelpartition führte, mit vorhersehbaren Ergebnissen – er verderbte seine Wurzelpartition und konnte nicht mehr booten.

    Verwirrt ging er hinüber und sprach mit unserem Team. Die Führung sagte, er sei mir ziemlich sicher, dass du das nicht tun könntest, und das Teammitglied sagte: "Sicher, du kannst!", Nahm die Führungstastatur und zeigte ihm, dass du es kannst – indem du fsck auf die Wurzelpartition des Leads gehst. Was die Wurzel-Trennwand völlig verderbt hat.

    Endresultat? Keine Kundendaten verloren, dank der Prüfung des Teammitglieds. Zwei Tage der Produktivität der Mitarbeiter waren verloren, aber das war viel wert, weit weniger als die Daten auf der Maschine des Kunden. Und für den Rekord? Sie können fsck auf einem eingebauten Laufwerk laufen, aber nur um Daten zu überprüfen. Nicht zu reparieren Das war der Fehler des Teammitglieds.

    Um meine eigene Geschichte hinzuzufügen, arbeitete ich bei der gleichen Firma und versuchte, ein Benutzerpasswort zurückzusetzen. Unser System weigerte sich, lassen Sie mich auf das Passwort, das er brauchte, weil es alte Passwort Hashes verfolgt und weigerte sich, lassen Sie das Passwort zu duplizieren. Der Mechanismus war einfach: Es hat Ihr Passwort gegen den letzten Hash in der Datenbank validiert.

    (Und für die Aufzeichnung musste es das alte Passwort sein, weil es ein gemeinsames Konto war, und sicherzustellen, dass jeder wusste, dass das neue Passwort unpraktisch war)

    Ich habe beschlossen, einfach in die Benutzer-Datenbank gehen und löschen Sie die neuen Datensätze, so dass es die ältere verwenden würde. Es ist alles nur SQL (läuft eine alte Version von Sybase), also ist es einfach. Zuerst musste ich die Aufzeichnungen finden:

     SELECT * FROM users_passwords WHERE username='someuser'; 

    Ich fand den alten Rekord, den er behalten wollte. Da waren noch zwei davor. Ich habe mich entschlossen, klug zu sein und einfach alles neu zu löschen als die alte Platte. Wenn ich die Ergebnismenge betrachte, sah ich, dass das alte Passwort ID # 28 in der Datenbank war, und die neuen waren ID # mehrere tausend (sehr beschäftigtes System). Das ist einfach, alle alten Reihen waren> 28, also:

     DELETE FROM users_passwords WHERE id > 28; 

    Es gibt nichts Schlimmeres als eine einfache reihe Beschneidung und sehen '212.500 Reihen betroffen'. Glücklicherweise hatten wir zwei Master-Datenbank-Server (mit der Benutzer-ID), aber Sybase (zumindest unsere Version) nicht unterstützt automatische Replikation, so dass es nicht automatisch wischen die alten Datensätze. Es war eine triviale Angelegenheit, einen Dump der User_passwords-Tabelle zu bekommen und es erneut zu importieren. Noch ein ziemlich großes 'oh f ** k!' Moment.

    Ein weiterer meiner Favoriten:

    Beim Einrichten eines Computers und eines lokalen Laserdruckers auf einem System hatte ich die Idee, sie beide in die USV des Computers zu stecken. Versuchen Sie jemals, auf einen lokalen Laserdrucker zu drucken, wenn er an eine Desktop-UPS angeschlossen ist? Nun, wenn du es nicht weißt, neigt es dazu, alle Verstärker zu ziehen … Was den Computer neu startet … Und der Druckauftrag endet nie …!

    Immer den Anruf: " Wenn ich es drucke, startet es meinen Computer neu und druckt nicht !!! "

    Ooops!

    JFV

    DELETE-Anweisung ohne WHERE-Klausel, auf der Live-Patronendatenbank der Kunden.

    Typed kill 1 als root. init und alle ihre Kinder starben. Und alle ihre Kinder. Etc, etc. Oops.

    Was ich sagen wollte, war kill %1

    Als ich merkte, was ich tat, lief ich zum Steuerpult einer BIG Wollballen-Sortiermaschine und traf den Not-Aus-Taster. Das hielt die Maschine an, die sich zu Bits zerrte, da ich gerade die Software getötet hatte, die sie kontrollierte.

    Wir waren in der Mitte eines Stromausfalls und sahen, dass die USV bei 112% der konfigurierten Last läuft. This wasn't much of an issue as we were running on the generator at the time.

    So we went around pulling backup power cables to reduce the power usage on that UPS (we had two, one much larger than the other). We got to the network switch which ran the server room (this was the server room with all the internal servers for the company, with the customer facing servers in another server room). The switch was a large enterprise class switch with three power supplies in it. The supplies were N+1 so we only needed two in order to run the switch.

    We picked a cable and pulled it out. Unfortunately for us the other two were plugged into a single power strip, which promptly blew as the load went up on the two power supplies which were plugged into it. The sysadmin then panicked and plugged the third cable in. The switch tried to fire up, putting the entire load of the switch unto the single power supply. Instead of the power supply shutting down, it exploded in a shower of sparks not 12 inches from my face sending me jumping back into the rack of servers.

    Out of instinct I tried to jump to the side, but unfortunately on my left was a wall, and two my right was a very large 6'4" facilities guy. I some how managed to jump over him, or possibly through him bouncing off of the Compaq racks (the ones with the thin mesh fronts) without putting a whole in the rack, and without touching the facilities guy.

    At some point in my career a legal investigation at the company I was working for placed a requirement on us that all email be kept from "this day" forward, until told otherwise. After about a year of storing daily full backups of our exchange environment (1TB nightly) we started to run out of space.

    The exchange admins suggested that we only keep every 8th copy of the email. To do this, we had them restore a days worth of the exchange databases, extract the email they needed (specific people flagged for investigation) and re-archive it. They did this for every 8th day of email for all of our backups. The 8th day was chose because exchange had a parameter set where "deleted items" are kept in the database for 8 days.

    After they would finish each archive, I would go back through and delete any backups which were older than what they had archived.

    TSM does not have an easy way to do this, so you have to manually delete objects from the backup database.

    I wrote a script which would delete all backups older than some date, by way of a date calculation using the difference between today, and the date in question. On some day I had to delete about a months worth of backups, except when I made the date calculation I made a typo and entered the date as 7/10/2007 instead of 6/10/2007, and ran the script. I deleted an entire extra month worth of data, accidentally which was part of a very important lawsuit.

    After that, I added some steps to the script to confirm that you wanted to delete the data, and show you what it was going to delete…

    Luckily, they never even used any of the data we worked so hard to preserve, and I still have my job.

    After a long day or performance tracing and tuning a huge mainframe (you know the beasts that take a couple of hours before all standby backup-sites have agreed that it is indeed booted up again and fully synced) I stretched my fingers, typed satisfied shutdown -p now in my laptop prompt, closed the lid, yanked the serial cable out of the mainframe, with the anticipation of a nice cold glass of lager.

    Suddenly I hear the deafening sound of spinning down mainframe while my laptop was still happily displaying X.

    While waiting for the machine to come fully online again I decided that I got time to get my ACPI working on my laptop so I never ever are tempted to cli shutdown my laptop.

    Accidentally installed a tar.gz file on my Gentoo Linux box in the wrong place and it left files all over the place. This must've been around 1999, 19 at the time (thanks for the comments below)

    Being the geek that I am, I decided to try to script myself out of the work of going manually through each file.

    Also habe ich versucht:

    tar –list evilevilpackage.tar.gz | xargs rm -rf

    It didn't take me very long to notice that tar also listed all the directories the program was using, those included were ''/usr, /var, /etc'' and a few others that I didn't really want gone.

    CTRL-C! CTRL-C! CTRL-C! Too late! Everything gone, reinstall time. Fortunately the box didn't contain anything important.

    This accident didn't happen… but it's worth mentioning:

    I was sent to a heavily-used data center to conduct bandwidth tests on a new circuit. I got to the demarc room/IDF, found a spot on one of the racks for my test router, made my connections, and started the tests. Unfortunately, I completely failed to notice the in-production border router not only being exactly on the next rack (almost at the same level), but that it was also the same make and model as my testing router.

    When the test was done, I began pressing the power switch to the off position (…imagine it in slow motion…) and, I swear, just as I was applying pressure it dawned on me that the router I was about to turn off was the one in production. My heart stopped and I almost… well, use your imagination.

    I left the data center's MDF looking spooked and pale, but at the same time glad I still had a job!

    I deleted someone's account by mistake, got the names mixed up with the one I was suspose to delete. Opps

    The cool part is they never knew what happened. Got the call they couldn't log in, the penny dropped about the account I deleted.

    While on the phone with them, I quickly re-created their account, re-attached their old mailbox to it (thankfully Exchange doesn't delete mailboxes right away) and pointed it back to their old user files.

    Then I blamed them for forgetting their password which I had just reset for them 🙂

    Python ist die beste Programmiersprache der Welt.