Fehlertoleranz: Definition, Prüfung & Bedeutung

Aktualisiert: 28. August 2024 Lesezeit: ~

 

Dieser Artikel wurde maschinell übersetzt.

 

Unter Fehlertoleranz versteht man die Funktionsfähigkeit eines Systems bei Komponentenfehlern.

Selbst das am besten konzipierte System versagt von Zeit zu Zeit. Viren schlagen zu. Server überhitzen. Computerkomponenten verschleißen. Die Fehlertoleranz ermöglicht einen reibungslosen Betrieb trotz dieser Ausfälle. 

Der Verlust auch nur eines oder zwei Augenblicks der Konnektivität kann katastrophal sein. Fragen Sie einfach Disney+. Als die Server des Unternehmens im Februar 2021 eine fehlerhafte Leistung lieferten, wurde der Benutzer wütend. Anstatt WandaVision zu schauen, schrieben sie böse Tweets. 

Fehlertoleranzpläne sorgen möglicherweise nicht dafür, dass Ihr gesamtes Unternehmen jederzeit reibungslos läuft. Aber Ihre Arbeit könnte das schlimmste Szenario verhindern.

Was ist Fehlertoleranz? 

Wenn ein Computer, Server, Netzwerk oder eine andere IT-Komponente auch bei einem Komponentenausfall weiter funktioniert, ist die Fehlertoleranz dafür verantwortlich. 

Erstellen Sie ein fehlertolerantes Design für folgende Zwecke:

  • Bleiben Sie betriebsbereit. Stellen Sie sicher, dass Ihr System nicht ganz ausfällt, wenn etwas kaputt geht. 
  • Reduzieren Sie Risiken. Abgesehen von Störungen, die auf eine kritische Hardware- oder Softwarekomponente zurückzuführen sind. Überlappen Sie Funktionen, damit Sie die Last in einer Krise teilen können. 
  • Gewinnen Sie Zeit. Die Behebung jeglicher IT-Probleme erfordert Recherche und Fachwissen. Durch Fehlertoleranz wird sichergestellt, dass die Mitarbeiter weiterarbeiten können, während Sie die Quelle ermitteln. 

Stellen Sie sich vor, Sie betreiben Server in Washington, D.C., und haben gerade ein Portal für die Registrierung von Impfstoffen eröffnet. Benutzer überfluten Sie mit Antworten, und Ihre Server stürzen ab. Reporter werden darauf aufmerksam und schreiben überall in den Vereinigten Staaten über Ihren Fehler. 

Stellen Sie sich nun vor, Sie hätten ein fehlertolerantes System erstellt. Wenn der Zustrom einen Server überlastet, übernimmt ein anderer, und die Benutzer erfahren nie, dass etwas schiefgelaufen ist. 

Das Konzept der Fehlertoleranz ist nicht neu. IT Fachleute verwenden die IT seit den 1950er Jahren, um Systeme zu beschreiben, die in jedem Fall online bleiben müssen. 

Doch frühe Pläne zur Fehlertoleranz beinhalteten Warnmeldungen. Ein System benachrichtigte die Mitarbeiter, wenn ein Fehler drohte, und sie mussten sofort eingreifen und etwas unternehmen. Moderne Pläne beinhalten Backups und Redundanzen, sodass das Team arbeiten kann, während das System online bleibt. 

Fehlertoleranz wird manchmal mit Hochverfügbarkeit verwechselt. Die Hochverfügbarkeitsbewertung eines Unternehmens bezieht sich darauf, wie oft das System im Vergleich zu den Gesamtlaufzeiten aktiv bleibt. Um eine hohe Verfügbarkeit zu gewährleisten, wechselt ein System zu einem anderen System, wenn etwas ausfällt. Das Backup führt häufig zu einer reduzierten Kapazität und einer schlechten Erfahrung. Das Unternehmen bleibt online, aber die Arbeit kann sich verlangsamen. 

In einem wirklich fehlertoleranten System erledigt redundante Hardware genau die gleiche Aufgabe, wenn das ursprüngliche System offline ist. 

Wie funktioniert Fault Tolerance? 

Wie können Sie etwas am Laufen halten, selbst wenn Teile der IT kaputt gehen? Beantworten Sie diese Frage mit einem umfassenden Fehlertoleranzplan. 

Im IT-Kern sollte Ihr Programm:

  • Eliminieren. Lassen Sie keinen Single Point of Ausfall zu. Das System arbeitet ohne Unterbrechung, auch wenn Sie Reparaturen durchführen müssen. 
  • Isolieren. Sie sollten das defekte Teil aus dem Systembetrieb entfernen, anstatt die IT eine Kaskade von Problemen verursachen zu lassen. 
  • Engagieren. Wenn Sie die Reparatur abgeschlossen haben, sollte das Teil ohne erkennbare Unterbrechung wieder online sein. 

Ihr Fehlertoleranzplan kann Folgendes umfassen:

  • Hardware. Bauen Sie Backups ein, damit eines übernehmen kann, wenn ein anderes kaputt geht. Lassen Sie sie parallel laufen, damit sie immer online und einsatzbereit sind. 
  • Software. Mehrere Instanzen können füreinander einspringen, wenn eine ausfällt. 
  • Leistung. Ihre IT ist immer mit Strom versorgt, auch wenn es bei Ihrem Energieversorger zu einer Katastrophe kommt. 

Es gibt mehrere Fehlertoleranztechniken, darunter:

  • Replikation. Alles bricht in der Zeit. Zum Beispiel halten die meisten Computer selbst bei entsprechender Wartung etwa acht Jahre. Durch das Duplizieren von Hardware und Software stellen Sie sicher, dass Sie immer eine sekundäre Quelle haben, auf die Sie sich bei Bedarf stützen können. 
  • Fortsetzung. Stellen Sie sicher, dass Ihre Programme auch dann ausgeführt werden, wenn Fehler vorhanden sind. 
  • Erholung. Ermöglichen Sie Softwareprogrammen, sich ordnungsgemäß von einem Ausfall zu erholen. 

Ihr Unternehmen ist einzigartig, und Ihr Lösungsset sollte Ihre Risiken und Ihr Umfeld widerspiegeln. 

Fehlertoleranz im Rechenzentrum 

Funktionaler, effizienter Rechenzentrumsbetrieb mit vielen Mitarbeitern. Das durchschnittliche Unternehmen hat 1.000 oder mehr Mitarbeiter. Trotzdem können diese Teamkollegen nicht 24/7 auf ihren Servern sitzen, um sie am Laufen zu halten. Fehlertoleranzpläne helfen ihnen, das Unerwartete zu bewältigen. 

Ein fehlertolerantes Rechenzentrum muss:

  • Schützen. Parallele Heiz-/Kühlsysteme verhindern, dass die Geräte aufgrund von Umweltfaktoren kaputt gehen.
  • Sicherung. Identische oder ähnliche Systeme, die parallel laufen, halten den Betrieb am Laufen. 
  • Planen Sie im Voraus. Alternative Stromquellen sorgen dafür, dass das Zentrum auch bei einem Netzausfall betrieben werden kann. 
  • Reparieren. Durch regelmäßige Wartung wird sichergestellt, dass alle Teile weiterhin funktionieren, und nicht, dass sie kaputtgehen, bevor Sie sich darum kümmern. 

Die meisten Rechenzentren verkaufen ihre Dienste mit dem Versprechen der Verfügbarkeit. Sie halten diese Versprechen (und ihre Kunden) ein, indem sie die Fehlertoleranzpläne eng halten. 

Fault tolerance in webbasiert Anwendung 

Jedes Mal, wenn Ihre Kunden ihr Telefon in die Hand nehmen, erwarten sie, dass Ihre App online und verfügbar ist. Fehlertoleranz ermöglicht die Verfügbarkeit. 

Load Balancing ist entscheidend für webbasiert Anwendung. Mehrere Server bewältigen die Last und wechseln bei Bedarf hin und her, um Ihre Kunden zu bedienen. Dasselbe System kann hilfreich sein, wenn Sie es mit einem katastrophalen Serverproblem zu tun haben, bei dem ein Element abgeschaltet wird. 

Fehlertoleranz in der Cloud (Computing) 

Viele Unternehmen wechseln von Vor-Ort-Servern zu Cloud-Lösungen

Trotz des IT-Namens hat Cloud (Computing) nichts mit der Atmosphäre zu tun. Dienste, die Cloud (Computing) anbieten, haben physische Serverbasen, genau wie Rechenzentrum. Sie verwenden die gleichen Konzepte, Ideen und Techniken, um ihre Kunden zu bedienen.

Viele Unternehmen sind bestrebt, Kernprozesse zu identifizieren, die ständig online bleiben müssen, und diese in die Cloud zu verlagern.

Was ist das Beste für Sie?

Die Optionen, Techniken und Tools, aus denen ein Fehlertoleranzplan besteht, können verwirrend sein. Sie wissen möglicherweise nicht, wo Sie anfangen sollen. Lassen Sie sich von uns helfen.

Okta ist stolz darauf, jedem Kunden auf der ganzen Welt eine Verfügbarkeit von 99,99 % zu bieten, unabhängig davon, ob Sie unsere kostenlose Developer Edition verwenden oder ein Enterprise-Kunde sind – und das alles ohne zusätzliche Kosten. Mehr erfahren.

Referenzen

Millionen von WandaVision-Fans brachten die Disney+-Server zum Absturz, als sie versuchten, Episode 7 zu streamen. (Februar 2021). Filmweb. 

Das Impfregistrierungssystem in D.C. ist von Abstürzen durchsetzt und hat den dritten Tag in Folge Anrufe abgebrochen. (Februar 2021). WAMU 88.5.

Fehlertolerant. PC. 

Wie lange halten Computer? 10 Anzeichen dafür, dass Sie einen neuen benötigen. (November 2020). Business News Daily. 

Rechenzentrum World: Umfrage zeigt, dass Unternehmen neues Rechenzentrum bauen. (März 2019). Rechenzentrum Wissen. 

Sechs Gründe, warum Unternehmen an ihrem Rechenzentrum festhalten. (Mai 2017). ZD netto.

Setzen Sie Ihre Identity Journey fort