21 aoû 07

Skype out : autopsie et enseignements

skypeout.jpg

Niels Bohr, prix nobel de physique en 1922, disait qu'« un expert est une personne qui a fait toutes les erreurs possibles dans un domaine très restreint. » Tant qu'à faire, si on peut apprendre des erreurs des autres, c'est peut-être un peu moins efficace mais certainement aussi beaucoup moins douloureux.

En l'occurrence, vous savez sans doute que le réseau Skype a connu les 16 et 17 août derniers une panne qui a privé de téléphone 220 millions d'utilisateurs pendant 2 jours (à relativiser tout de même, la plupart de ces utilisateurs enregistrés utilisant d'autres moyens de communication). Villu Arak a publié hier sur le blog de Skype ce billet qui revient sur l'autopsie de l'incident.

D'après cette analyse, l'étincelle a été une mise à jour Windows distribuée par Windows Update, qui a déclenché le reboot de dizaines de millions de PC dans un laps de temps très court. Il faut savoir que l'architecture de Skype (décrite dans cette excellente présentation trouvée ici) s'appuie sur un réseau P2P de Super Nodes hébergés sur les machines de certains utilisateurs, et que seul le Login Server reste centralisé. Mais ce dernier a été submergé de requêtes par les PC qui rebootaient. Les Super Nodes étant des clients comme les autres, très peu étaient fonctionnels, donc même les clients qui avaient réussi à contacter le Login Server ne trouvaient pas de Super Node, recommençaient probablement le processus, d'où un effet boule de neige.

Le billet parle de fonctions d'auto-réparation du réseau P2P qui n'ont pas joué leur rôle en raison d'un bug dans l'algorithme d'allocation des ressources réseau. Probablement une priorisation des requêtes des Super Nodes, et/ou une temporisation exponentielle des réessais en cas d'échec, qui n'ont pas fonctionné.

Cet incident montre en tout cas bien que les événements improbables finissent toujours par arriver. Maintenant cela aura-t-il un impact durable sur le business de Skype ? Sincèrement je ne pense pas. Comme le pointe à demi-mots le billet de Skype, ou plus explicitement cet article de C|net, les utilisateurs n'ont pas encore aujourd'hui un niveau de confiance très élevé dans les technologies du web. Beaucoup considèrent que les pannes sont le prix à payer pour ces nouveaux services, qui sont encore un simple complément aux services traditionnels que sont le bon vieux fixe ou le réseau mobile, beaucoup plus fiables.

À retenir en tout cas l'excellente communication de crise sur le blog de Skype avec une transparence totale dès le début de la crise, et un billet toutes les 6 heures pour tenir au courant de la résolution. En espérant que cette leçon-là n'ait pas à servir avant longtemps...

17 mai 07

Au service de l'état

Chez un opérateur Internet, quand un client s'abonne à la Voix sur IP par exemple, il faut configurer le logiciel qui tourne dans sa box : adresse du serveur VoIP, login et mot de passe du client, etc. C'est ce qu'on appelle l'activation du terminal. Alors soit on envoie ces infos au client par mail et c'est à lui de les rentrer dans la box, soit on essaye de lui faciliter la vie avec un mécanisme d'auto-provisioning.

Ça paraît simple, mais ça ne l'est pas tant que ça : il faut être certain qu'on configure la bonne box, il ne faut pas que n'importe qui puisse faire la même chose, la box peut être éteinte, lors d'un échange de box il faut automatiquement déconfigurer l'ancienne et reconfigurer la nouvelle, etc.

Souvent aujourd'hui, ce genre d'activation est géré par événements : pour schématiser, l'abonnement est saisi dans l'application de commande, qui passe l'info d'un côté à l'application de facturation, de l'autre à l'application de livraison, cette dernière transmet à une application d'aiguillage qui d'abord envoie l'ordre d'activation à la plate-forme VoIP qui génère la configuration, puis passe cette configuration à la brique de gestion des box, qui enfin la dépose là où il faut, quand elle parvient à joindre la box. Ouf !

Ce qu'il faut retenir c'est qu'il y a plein d'interfaces, que le processus complet dure des heures voire des jours, et qu'à chaque fois qu'on passe un ordre on transmet toutes les infos nécessaires (quelle offre, pour quel client, quels paramètres etc.). Résultat ces infos sont dupliquées à chaque niveau, avec tous les risques de désynchronisation qui en découlent : par exemple si le client change son abonnement avant que la configuration n'ait été mise sur sa box, on a au début de la chaîne la nouvelle configuration, alors qu'à la fin de la chaîne l'ancienne configuration attend toujours d'être déposée. Si pour une raison quelconque la nouvelle arrive avant l'ancienne, on a un problème. À l'opposé si on perd un ordre l'activation ne se fera jamais, mais comment s'en rend-on compte avant que le client mécontent nous appelle ?

Et si le client réinitialise sa box et perd la configuration, comment réémettre l'ordre d'activation ? Ce cas montre l'erreur fondamentale d'une gestion reposant uniquement sur le passage d'ordres : on prétend connaître l'état du terminal qui se trouve chez le client, alors qu'il a pu lui arriver n'importe quoi. Un terminal chez le client n'est pas un équipement réseau comme les autres. C'est un peu comme si on avait donné à tous les clients les clefs de nos salles machines. Il faut repenser la gestion de ces fragiles terminaisons que sont les box. Un ordre qui se perd ou une box qui efface sa configuration ne doivent plus être considérés comme des anomalies sur lesquelles on pose un pansement, mais comme des éléments normaux de la vie du réseau.

La solution c'est de passer d'un enchaînement d'ordres à une synchronisation d'états : lorsque la configuration est générée, au lieu de la passer dans un ordre à la brique de gestion des box qui la passera à son tour à la box si tant est qu'elle soit connectée, on ne fait rien ! De toute façon il faut que ça marche sans qu'on ne fasse rien à ce niveau-là, parce que des ordres peuvent se perdre, ou parce que la box peut effacer sa configuration. Donc on attend : on garde la configuration bien au chaud dans une base unique, un référentiel, et on attend que la box viennent nous demander si on a une configuration pour elle. Pour ça il faut qu'elle soit programmée pour venir nous voir réguilèrement. À ce moment on est sûr que la box est joignable, on connaît son état réel (a-t-elle modifié sa conf sans nous prévenir ?), et comme on n'a pas dupliqué la configuration à tous les étages on est sûr que celle qu'on va chercher dans le référentiel est la bonne. C'est juste de la synchronisation. Et si ça rate ce n'est pas grave : on se synchronisera la fois d'après.

Moralité : simplicité

18 mar 07

Plaintes à haut débit en 2006

Je reviens après quelques semaines, vacances lointaines, autres priorités, etc. L'Afutt publie aujourd'hui dans le JDD son observatoire annuel des plaintes dans le secteur des télécoms. J'y ai ajouté le ratio plaintes/parc qui permet de voir chez qui les clients sont les plus mécontents. Résultat des courses :

OpérateurPlaintesPourcentageParcPlaintes/parc
Alice184931%5.4%5.66
Free131022%20.3%1.07
Club Internet126721%4.6%4.55
Neuf83414%10.1%1.36
Noos61910%4.1%2.49
Orange1753%48.6%0.06

On peut alors comparer ce taux de plaintes à celui publié dans l'observatoire 2005 :

Plaintes/parc 2005-2006

Free, qui en 2005 réalisait 51% des plaintes avec à peine 17% du parc, a bien redressé la barre. Neuf, qui entretemps a absorbé AOL et son excellente satisfaction client, s'améliore également. Enfin Orange conserve le haut du panier.

En revanche Alice et Club Internet voient leur taux de plaintes exploser. Club Internet qui est à vendre connaît des difficultés financières et ceci explique sans doute cela. Pour Alice, il semble que ce soit la qualité de service qui soit transparente...

Le JDD note certes que les bons résultats d'Orange s'expliquent par le fait que l'opérateur historique maîtrise l'installation de bout en bout. Cela dit pour le client c'est surtout le résultat qui compte...

17 jan 07

Dopage à l'IP fixe

XiTi vient de publier son Palmarès des FAI en France, calculé en décembre 2006 par la provenance des requêtes sur une base de 5189 sites.

FAI-200701-1.png Le résultat en images ci-contre. Orange a comme d'habitude un peu moins de 50%. Mais ce qui est étonnant c'est la faible part de Neuf+AOL (14.1%), alors que Neuf et Free (crédité ici de 20.3%) sont notoirement au coude à coude.

Comment donc est mesurée cette part de marché ? Simplement XiTi prend l'ensemble des adresses IP ayant visité les sites du panel, et ventile par FAI.

Il faut savoir que certains FAI donnent à leurs clients une IP fixe (c'est pratique pour héberger un serveur) alors que d'autres attribuent une nouvelle IP à chaque session, ce qui nécessite globalement moins d'IP puisque tous les clients ne sont pas connectés en même temps. Avec la méthode de XiTi, les FAI en IP fixe ont donc un score dopé.

Free est en IP fixe, Neuf en IP dynamique.

J'ai signalé ce biais à XiTi, qui m'a répondu (rapidement d'ailleurs) qu'ils l'estimaient très faible. Une autre explication du bon score de Free dans cette étude serait la part des accès bas débit, mais je suis sceptique car alors Orange devrait être plus proche des 40% que des 50%... À suivre lors des prochaines annonces du nombre d'abonnés par les FAI...

5 jan 07

FAI 2.0

Les enquêtes Médiamétrie sur l'audience Web en France montrent que les portails des FAI sont des poids lourds du web : Free est 3ème et Orange 4ème avec plus de 13 millions de visiteurs uniques chacun, devant Microsoft, eBay, etc. Orange vient même flirter avec le n°1 Google si l'on ajoute Voila.

Les FAI ont donc un levier de communication formidable, qui dépasse largement leur base de clients. Pourtant, que proposent ces FAI à leurs visiteurs ? Simplement une publication de type magazine. Certes Orange revendique sa transformation d'opérateur télécom en fournisseurs de services, mais alors que l'économie du Web bâtit une croissance formidable sur les valeurs 2.0 « social, collaboration, sharing », nos FAI sont absents de cette actualité.

Oui Orange a lancé une plate-forme de blogs. Mais aucun de ses blogs dans le controversé Top 100 de Technorati/Edelman. Il faut dire qu'en offrant un outil moins abouti qu'Overblog, Blogger, ou Live Spaces, et en en réservant l'accès aux clients de l'opérateur, la lutte est difficile.

Plus généralement, alors que Google ou Yahoo! construisent leur succès et leur image sur des services ouverts à tous, les FAI réservent encore trop souvent leurs services à leurs clients. Comme si c'était un critère de choix du FAI... Au contraire, des services innovants, fiables, et gratuits forgent une telle image que Google songerait à capitaliser sur cette image et devenir FAI : si tu ne vas pas aux géants de l'Internet, les géants viendront à toi...

Alors oui ça change, il y a une prise de conscience de l'espace libre sur le Web communautaire à occuper au plus vite, et je vois chez Orange des initiatives prometteuses. Un outil comme Pikeo ou le futur Open Music vont dans le bon sens en étant innovants et surtout ouverts, mais les FAI font encore profil bas.

En ce début d'année où tous les analystes y vont de leurs pronostics pour 2007, je prédis donc que cette année verra les FAI enfin jouer un rôle significatif dans le Web 2.0. Parce que c'est maintenant où jamais. Bonne année à tous...