フォールトトレランス:定義、テスト、重要性

更新済み: 2024年08月28日 読了目安時間: ~

 

この記事は機械翻訳されました。

 

フォールトトレランスとは、コンポーネントが故障したときにシステムが動作する能力を指します。

最も適切に設計されたシステムでさえ、時々失敗します。ウイルスが襲います。サーバーが過熱しています。コンピュータ部品が摩耗します。フォールトトレランスにより、これらのエラーにもかかわらずスムーズな操作が可能になります。

一瞬や二瞬でも接続を失うと、大惨事になる可能性があります。Disney+に聞いてみてください。2021年2月に組織のサーバーがバグのあるパフォーマンスを提供したとき、ユーザーは怒っていました。ワンダヴィジョンを見る代わりに、彼らは嫌なツイートを書きました。

フォールトトレランスプランは、組織全体を常にスムーズに運営できるとは限りません。しかし、あなたの仕事は最悪のシナリオの発生を防ぐことができるかもしれません。

フォールトトレランスとは?

コンポーネントに障害が発生しても、コンピューター、サーバー、ネットワーク、またはその他のITコンポーネントが動作し続ける場合、フォールトトレランスが責任を持ちます。

フォールトトレラント設計を作成して、次のことを行います。

  • 運用を維持します。 何かが壊れたときにシステムが完全にダウンしないようにしてください。
  • リスクを軽減します。 1つの重要なハードウェアまたはソフトウェアに起因するバーの混乱。オーバーラップ機能により、危機的な状況で負荷を共有できます。
  • 時間を買う。 あらゆる種類のIT問題を解決するには、調査と知識が必要です。フォールトトレランスにより、ソースを突き止めながら、人々が作業を続けることができます。

ワシントンD.C.でサーバーを運営していて、ワクチン登録のためのポータルを開いたばかりだと想像してみてください。ユーザーにはレスポンスが殺到し、 サーバーがクラッシュします。レポーターは注目し、全米であなたの間違いについて書きます。

ここで、フォールトトレラントなシステムを構築したと想像してみてください。流入が 1 つのサーバーに過負荷をかけると、別のサーバーが引き継ぎ、ユーザーは何か問題があったことに気付くことはありません。

フォールト トレランスの概念は新しいものではありません。IT 年代から、1950 年代以降、IT 部門は、何があってもオンラインを維持しなければならないシステムを説明するために IT を使用してきました。

しかし、初期のフォールトトレランス計画にはアラートが含まれていました。何かが故障しそうになると、システムがスタッフに通知し、スタッフはすぐに介入して何かをしなければなりませんでした。最新のプランにはバックアップと冗長性が含まれているため、チームはシステムをオンラインにしたまま作業できます。

フォールトトレランス と高可用性を混同することがあります。会社概要の高可用性スコアは、全体の実行時間と比較して、システムが稼働している頻度を指します。 高可用性を維持するために、何かに障害が発生したときにシステムは別のシステムに切り替わります。多くの場合、バックアップでは容量が減少し、エクスペリエンスが低下します。会社概要はオンラインのままですが、作業が遅くなる可能性があります。

真のフォールト トレラント システムでは、元のシステムがオフラインのときに冗長ハードウェアがまったく同じ作業を行います。

フォールトトレランスはどのように機能しますか?

ITの一部が壊れているときでも、何かを稼働させ続けるにはどうすればよいでしょうか? 包括的なフォールトトレランスプランでこの質問に答えてください。

IT の中核となるのは、プログラムで次の点です。

  • 鉏。 単一ポイントのエラーを許さないでください。修理が必要な場合でも、システムは停止することなく動作します。
  • 隔離する。 ITが問題の連鎖を引き起こすのではなく、システム運用から欠陥のある部分を取り除く必要があります。
  • 召し抱える。 修理が完了すると、部品は目立った中断なしにオンラインに戻るはずです。

フォールトトレランスプランには、次のものが含まれます。

  • ハードウェア。 バックアップを組み込んで、別の人が故障したときに1人が引き継ぐことができるようにします。それらを並行して実行することで、常にオンラインになり、すぐに使用できます。
  • ソフトウェア。 1 つが失敗した場合、複数のインスタンスが互いを引き継ぐことができます。
  • 力。 あなたの IT システムは、たとえあなたの電力会社概要が大災害に見舞われたとしても、常に電流を流しています。

フォールト トレランス手法には、次のような複数のものがあります。

  • 複製。 すべてが時間とともに壊れます。たとえば、ほとんどのコンピューターは、適切なメンテナンスを行っても 約 8 年間持続します。ハードウェアとソフトウェアを複製することで、必要なときに常に頼れる二次ソースを確保できます。
  • 継続。 エラーが存在する場合でも、プログラムが実行し続けることを確認します。
  • 回復。 ソフトウェアプログラムがエラーから正常に回復できるようにします。

あなたの会社概要はユニークであり、あなたのソリューションセットはあなたのリスクと環境を反映するべきです。

データセンターのフォールトトレランス

機能的で効率的なデータセンターは、多くのスタッフによって運営されています。平均的な組織の 従業員数は 1,000 人以上です。それでも、これらのチームメイトは、サーバーを24時間年中無休で稼働させ続けることはできません。フォールトトレランスプランは、予期せぬ事態に対処するのに役立ちます。

フォールトトレラントデータセンターは、次のことを行う必要があります。

  • 守る。 並列加熱/冷却システムは、環境要因による機器の破損を防ぎます。
  • バックアップ。 同一または類似のシステムが並行して稼働していると、操作が続行されます。
  • 事前に計画してください。 代替電源により、グリッドがダウンした場合でもセンターが動作できるようになります。
  • 修繕。 定期的なメンテナンスにより、すべての部品が機能し続けることが保証されます。ただし、対処する前に部品が壊れることがなくなります。

ほとんどのデータセンターは、 稼働時間を約束してサービスを販売しています。彼らは、フォールトトレランス計画を厳格にすることで、これらの約束(および顧客)を守ります。

Web Application (アプリケーション) のフォールト トレランス

顧客は、スマートフォンを手に取るたびに、アプリがオンラインで利用可能であることを期待しています。フォールトトレランスにより、稼働時間が可能になります。

負荷分散は、Webアプリケーション(アプリケーション)にとって重要です。 複数のサーバーが負荷を処理し、必要に応じて切り替えて顧客にサービスを提供します。その同じシステムは、要素をダウンさせる壊滅的なサーバーの問題に対処している場合に役立ちます。

Fault tolerance in クラウド(コンピューティング)

多くの組織が オンサイトサーバーからクラウドソリューションに切り替えています。

ITという名前にもかかわらず、クラウド(コンピューティング)は雰囲気とは何の関係もありません。 クラウド(コンピューティング)を提供するサービスは、データセンターと同様に物理サーバーベースを持っています。 彼らは同じ概念、アイデア、技術を使用して顧客にサービスを提供しています。

多くの組織は、常にオンラインにしておく必要があるコアプロセスを特定し、それらをクラウドに移行するよう努めています。

あなたにとって何がベストですか?

フォールトトレランスプランを構成するオプション、手法、およびツールは、混乱を招く可能性があります。どこから始めればよいかわからないかもしれません。このような場合に役立つのがOktaです。

Oktaは、無料のdeveloper エディションを使用しているか、エンタープライズのお客様であるかにかかわらず、世界中のすべてのお客様に 99.99%の稼働率 を追加費用なしで提供できることを誇りに思っています。詳細を見る.

参考文献

何百万人ものワンダヴィジョンファンが、エピソード7をストリーミングしようとしてDisney+サーバーをクラッシュさせました。(2021年2月)。Moviewebの壁紙

ワシントンD.C.のワクチン登録システムは、クラッシュでいっぱいで、3日連続で電話がかかってきた。(2021年2月、ワム88.5。

フォールトトレラント(PC) 

コンピュータはどのくらい持ちますか? 新しいものが必要な10の兆候。(2020年11月)。ビジネスニュースデイリー。

データセンター World: Survey Shows エンタープライズ Are Building New データセンター. (2019年3月)。データセンターの知識。

会社概要 がデータセンターにこだわる 6 つの理由. (2017年5月)。ZDネット。

アイデンティティ施策を推進