Dr SPOF…

spockIl y a des jours comme ca…

Chez votre client du jour, vous discutez sereinement avec le gars de la ferme SharePoint pour dire qu’il serait temps d’établir un bon protocole de testing des backups actuels et des outils futurs envisagés… Puis vous voyez tout le plateau s’agiter… On vous demande si vous ne voulez pas jeter un coup d’œil sur un SQL de prod en cluster qui est mal en point…, Vous venez mais la réponse apparait assez vite: le disque partagé a disparu. Fatalement de ce fait le service est mort…

Le fameux Single Point of Failure du cluster…. Tiens mais n’aviez vous pas un SAN répliqué ? Si sis si…

Sauf que…Une opération de maintenance, un nettoyage/delete de LUN et de son… replica… sauf que manifestement c’est une éclipse totale. Le souci c’est que le serveur est dans la chaine alimentaire du système citrix  et que des dizaines d’employés ont pu rentrer tôt chez eux profiter de l’été qui s’achève…

Quand perdre le HA nous fait tomber dans du bon grand DR

Je vous fais grâce de la suite des opération sous forme de course de poulet sans tête et d’opérations diverses et de pizza livrées sur le tard.( en même temps moi j’aime faire des trucs chauds qu’on ne teste qu’en lab… ) Genre quand je m’enquiers: votre restore il me remet les bases online ou des bak ou des mdfs a rattacher ? —Loooong blanc. -Vous avez testé ? -oui -Donc vous savez ? – xxxxxxxx. Je n’ai pas insisté avec mes questions odieusesement candides.

Je vous fait mêmes grâce de mon aversion pour les SQL en instance clusterisées et d’un long blabla sur les AG

Peu importe in fine qui il faudrait crucifier. Et loin de moi l’idée de jeter la pierre. On a tous eu un jour un geste « Oooooooooooooopsssss » ou on l’aura. Normalement moins conséquent qu’en neurochirurgie.

Mais ce qui m’a frappée brutalement en plein chemin de retour était ce truisme: nos systèmes sont le plus mis en danger par nous mêmes.

Ce temps et cet argent que l’on dépense ardemment pour atteindre le graal du triple nine, ne nous protège pas tant d’un hypothétique désastre naturel pour reprendre le terme des cours de Microsoft par ex que de mauvaises manipulations. Damned.

Et parfois on utilise ces systèmes de protections comme ces plaquettes de pilules suspendues en guise de grigri contraceptif devant les cases d’une tribu perdue de l’Afrique Centrale…

Parce que à force de travailler sur des niches hyper spécialisées, à force de communiquer par des mails où le CC est plus peuplé que l’hypermaché le samedi et de générer une fragmentation ad nauseum des responsabilités personnelles, à force de rendre les procédures pour être dans les temps, dans les cases dans …et faire sa popotte dans une infra undergound , la copie pervertie dans la vie réelle des visios des architectes, entachée de config hardcodée, de chemin tordus et d’exceptions sparadrap…

Parfois y a des gros nids de poules, des blancs et des SPOF qui comme des bombes silencieuses nous guettent.

Dans vos solutions … pensez simple. encore. toujours. Ne pensez pas aux backups, pensez aux restore. Essayez de tester vos procédures de restore, soyez à l’aise avec vos outils. Adoptez des solutions qui vont de pair avec vos équipes et leur degré de maturité…

Dépensez plus a tester vos solutions qu’a acheter des systèmes que vous ne pourrez pas toujours gérer correctement.

Après ….finalement… y a une sacrée niche pour le NUAGE….mmmh

( ou ITIL/ISO/GROSBONSENSGouvernance/blablablabblba )

Vous pouvez plonger dans  Proven SQL Server Architectures for High Availability and Disaster Recovery. Excellente référence du SQL CAT

Vous pouvez aussi lire d’autres articles de Paul Randall ou Brent Ozar .

Mais n’oubliez pas…  » La résistance de la chaîne est égale à la résistance du maillon le plus faible. »
Faites votre enquête…

yIghoSDo’ qaStaHvIS SoH!!!!

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s