Cet article a été traduit automatiquement.
La tolérance aux pannes fait référence à la capacité d'un système à fonctionner lorsque des composants tombent en panne.
Même le système le mieux conçu échoue de temps à autre. Les virus frappent. Les serveurs surchauffent. Les composants informatiques s'usent. La tolérance aux pannes permet un fonctionnement sans heurts malgré ces défaillances.
La perte de connectivité, ne serait-ce que d'un instant ou deux, peut être catastrophique. Demandez à Disney+. Lorsque les serveurs de l'Organisation ont connu des dysfonctionnements en février 2021, les utilisateurs se sont mis en colère. Au lieu de regarder WandaVision, ils ont écrit des tweets méchants.
Les plans de tolérance aux pannes ne permettent pas à l'ensemble de votre organisation de fonctionner en permanence. Mais votre travail pourrait permettre d'éviter le pire des scénarios.
Qu'est-ce que la tolérance aux pannes ?
Lorsqu'un ordinateur, un serveur, un réseau ou un autre composant IT continue de fonctionner même si un composant tombe en panne, on parle de tolérance aux pannes.
Créez une conception tolérante aux pannes pour :
- Restez opérationnel. Veillez à ce que votre système ne s'arrête pas complètement en cas de panne.
- Réduire les risques. Perturbations des barres provenant d'un élément critique du matériel ou du logiciel. Faites se chevaucher les fonctions, afin de pouvoir partager la charge en cas de crise.
- Temps d'achat. La résolution de tout type de problème lié à IT nécessite des recherches et du savoir-faire. La tolérance aux pannes permet aux personnes de continuer à travailler pendant que vous recherchez la source.
Imaginez que vous exploitez des serveurs à Washington, D.C., et que vous venez d'ouvrir un portail pour l'inscription d'un vaccin. Les utilisateurs vous inondent de réponses et vos serveurs tombent en panne. Les journalistes s'en rendent compte et écrivent sur votre erreur dans tous les États-Unis.
Imaginez maintenant que vous ayez construit un système tolérant aux pannes. Lorsque l'afflux surcharge un serveur, un autre prend le relais, et l'utilisateur ne sait jamais qu'il y a eu un problème.
Le concept de tolérance aux pannes n'est pas nouveau. IT Depuis les années 1950, les professionnels utilisent l'informatique pour décrire les systèmes qui doivent rester en ligne, quoi qu'il arrive.
Mais les premiers plans de tolérance aux pannes impliquaient des alertes. Un système informait le personnel lorsque quelque chose était sur le point de tomber en panne, et il devait intervenir et faire quelque chose immédiatement. Les plans modernes prévoient des sauvegardes et des redondances, afin que l'équipe puisse travailler pendant que le système reste en ligne.
Les gens confondent parfois la tolérance aux pannes avec la haute disponibilité. La note de haute disponibilité d'une entreprise se réfère à la fréquence à laquelle le système reste opérationnel par rapport aux temps d'exécution globaux. Pour maintenir une haute disponibilité, un système bascule vers un autre système en cas de défaillance. La sauvegarde offre souvent une capacité réduite et une expérience médiocre. L'entreprise reste en ligne, mais le travail peut ralentir.
Dans un système réellement tolérant aux pannes, le matériel redondant effectue exactement le même travail lorsque le système d'origine est hors ligne.
Comment fonctionne la tolérance aux pannes ?
Comment pouvez-vous maintenir un système en état de marche alors même que des pièces et des éléments de l'informatique sont en train de se briser ? Répondez à cette question par un plan complet de tolérance aux pannes.
Au cœur de l'informatique, votre programme doit
- Éliminer. Ne permettez pas qu'il y ait un seul point de défaillance. Le système fonctionne sans arrêt, même si vous devez effectuer des réparations.
- Isoler. Vous devez retirer la pièce défectueuse du fonctionnement du système plutôt que de la laisser causer une cascade de problèmes.
- Engagez-vous. Une fois la réparation effectuée, la pièce devrait être remise en ligne sans interruption notable.
Votre plan de tolérance aux pannes peut comprendre les éléments suivants
- Matériel. Prévoyez des sauvegardes afin que l'une d'entre elles puisse prendre le relais en cas de défaillance de l'autre. Faites-les fonctionner en parallèle, afin qu'ils soient toujours en ligne et prêts à fonctionner.
- Logiciel. Plusieurs instances peuvent se substituer l'une à l'autre en cas de défaillance de l'une d'entre elles.
- Puissance. Votre système IT est toujours alimenté en courant, même si votre compagnie d'électricité subit une catastrophe.
Il existe de nombreuses techniques de tolérance aux pannes, notamment :
- Reproduction. Tout se casse avec le temps. Par exemple, la plupart des ordinateurs ont une durée de vie d'environ huit ans, même avec un entretien approprié. La duplication du matériel et des logiciels vous permet de toujours disposer d'une source secondaire sur laquelle vous pouvez vous appuyer en cas de besoin.
- Continuation. Veillez à ce que vos programmes continuent à fonctionner même en cas d'erreurs.
- Récupération. Permettre aux logiciels de se remettre gracieusement d'une défaillance.
Votre entreprise est unique et votre ensemble de solutions doit refléter vos risques et votre environnement.
Tolérance aux pannes dans les centres de données
Un centre de données fonctionnel et efficace fonctionne avec de nombreux membres du personnel. L'organisation moyenne compte 1 000 employés ou plus. Malgré cela, ces coéquipiers ne peuvent pas rester sur leurs serveurs 24 heures sur 24 et 7 jours sur 7 pour les maintenir en état de marche. Les plans de tolérance aux pannes les aident à faire face aux imprévus.
Les centres de données tolérants aux pannes doivent :
- Protégez. Des systèmes de chauffage/refroidissement parallèles empêchent les équipements de se briser en raison de facteurs environnementaux.
- Retour à la case départ. Des systèmes identiques ou similaires fonctionnant en parallèle assurent la continuité des opérations.
- Planifiez à l'avance. Les sources d'énergie alternatives permettent au centre de fonctionner même en cas de panne du réseau.
- Réparation. L'entretien régulier permet de s'assurer que toutes les pièces continuent à fonctionner, plutôt que de les laisser se casser avant de s'en occuper.
La plupart des centres de données vendent leurs services en promettant un temps de disponibilité. Ils tiennent ces promesses (et leurs clients) en maintenant des plans de tolérance aux pannes stricts.
Tolérance aux pannes dans les applications web
Chaque fois que vos clients prennent leur téléphone, ils s'attendent à ce que votre application soit en ligne et disponible. La tolérance aux pannes rend possible le temps de fonctionnement.
L'équilibrage de la charge est essentiel pour les applications web. Plusieurs serveurs gèrent la charge, se relayant selon les besoins pour servir vos clients. Ce même système pourrait vous être utile si vous deviez faire face à un problème de serveur catastrophique entraînant l'arrêt d'un élément.
Tolérance aux pannes dans l'informatique dématérialisée
De nombreuses organisations passent de serveurs sur site à des serveurs en nuage (cloud) solutions.
Malgré son nom, le nuage n'a rien à voir avec l'atmosphère. Les services qui offrent des services en nuage ont des bases de serveurs physiques, tout comme les centres de données. Ils utilisent les mêmes concepts, idées et techniques pour servir leurs clients.
De nombreuses organisations s'efforcent d'identifier les processus essentiels qui doivent rester en ligne à tout moment et de les transférer dans le nuage.
Qu'est-ce qui vous convient le mieux ?
Les options, les techniques et les outils qui composent un plan de tolérance aux pannes peuvent être déroutants. Vous ne savez peut-être pas par où commencer. Nous pouvons vous aider.
Okta est fier d'offrir un temps de disponibilité de 99,99% à tous ses clients dans le monde entier, que vous utilisiez notre édition Developer gratuite ou que vous soyez un client Enterprise, le tout sans frais supplémentaires. Pour en savoir plus.
Références
Des millions de fans de WandaVision ont bloqué les serveurs de Disney+ en essayant de regarder l'épisode 7(février 2021). Movieweb.
Le système d'inscription aux vaccins du district de Columbia est victime de pannes et d'appels non aboutis pour la troisième journée consécutive. (Février 2021). WAMU 88.5.
Tolérance aux pannes. PC.
Quelle est la durée de vie des ordinateurs ? 10 signes que vous avez besoin d'un nouvel ordinateur. (Novembre 2020). Business News Daily.
Monde des centres de données : Une enquête montre que les entreprises construisent de nouveaux centres de données. (Mars 2019). centre de données Connaissances.
Six raisons pour lesquelles les entreprises s'accrochent à leur centre de données. (Mai 2017). ZD Net.