Fiabilité de HP-UX --- commentaire d'Adrian Filipi-Martin

vendredi 8 mai 1998, 19:48:02 -0400

> En l'absence de l'une de ces causes, c'est en années qu'on mesure le
> temps de fonctionnement d'un système sous Unix. Il est fréquent
> d'entendre parler de machines sous Linux qui fonctionnent sans
> interruption pendant 3 ans.

Hmmm.. vous passez de la fiabilité d'Unix en général à la fiabilité de Linux en particulier. Non seulement c'est blessant pour tous les Unix qui ne sont pas Linux, mais vous exposez là un exemple de preuve par analogie, qui ne prouve rien du tout.

Pour votre information, apprenez que j'ai utilisé des serveurs sous HP-UX en conditions réelles et pour lesquels on ne pouvait tolérer de panne, et que certains ont atteint des temps de fonctionnement ininterrompu de plus de 460 jours. La machine faisant transiter des données entre les laboratoires de notre hôpital aux unités de soins intensifs neurologiques et de maternité , cette qualité de service fut pour nous inestimable.

Je voudrais aussi signaler qu'en acquérant une machine Unix qui n'est pas grand public, c'est-à-dire tout sauf des machines Intel, on en a souvent bien plus pour son argentl. Pour autant que je sache, aucune carte mère d'ordinateur personnel de type PC ne gère la correction de mémoire de manière intelligente. Quand elle ne parvient pas à corriger une erreur sur plusieurs bits, elle se contente d'envoyer une interruption non masquable, ce qui a pour effet d'arrêter tout système d'exploitation qui fonctionne sur une puce Intel. Comparez donc ce fonctionnement avec celui d'une station de travail fondée sur du matériel HP. J'obtiens parfois des messages dans les fichiers de journalisation me parlant d'erreurs de bits simples corrigées dans la mémoire vive du système, ce qui a d'autant plus de probabilité de se produite qu'on utilise beaucoup de mémoire. Un jour, j'ai observé qu'une adresse en particulier corrompait ses données de plus en plus souvent. J'ai acheté de la mémoire de remplacement, j'ai éteint la machine, j'ai remplacé la mémoire et rallumé la machine qui a ronronné de nouveau sans m'avoir fait passer par le cycle un peu brouillon de panne --- ré-amorçage --- diagnostic --- nouvelle panne...

De même, j'ai commencé à observer des lignes dans le fichier de journalisation m'indiquant que la mémoire tampon d'instructions sur le processeur tombait en panne. Bien sûr, les performances s'en sont ressenties, mais le système a continué à fonctionner sans problèmes réels jusqu'au jour où nous obtîmbes de quoi la remplacer. Intel ne propose pas une telle assistance pour le matériel, tout simplement. Ce seul critère suffit à faire de NT un système d'exploitation peu taillé pour les conditions d'utilisation critiques, à cause de l'absence d'un matériel de si bonne qualité.

Je vous raconte une dernière anecdote avant de vous laisser. Le serveur HP de notre NNICU qui a atteint une période de fonctionnement continu de 460 jours s'est vu retirer trois disques de son bus SCSI environ 10 jours parmi les 460. On savait qu'il y avait suffisamment de marge sur le système pour qu'il absorbe les données du système de fichiers sur les disques restants, aussi les avons-nous démonté, éteint et ôté du serveur. Le fait que ce dernier ait fonctionné une année complète sans incident prouve que le matériel de toute première qualité qui est vendu pour abriter des systèmes de type Unix a été testé à fond avant de sortir des laboratoires.

Amicalement,

Adrian


 <= Retour au sommaire des commentaires

 <= Retour à l'article