【SE】システム障害時に対応すべきこと

 システムエンジニア(SE)にとって切っても切り離せないものが、突然起こるシステム障害。 利用者からシステムが利用できないなどの申告が殺到し、SEはシステム部門(お客様)から最優先の対応を求められます。
 ここで、システム障害時にSEがどう対応すべきか、ネットワークエンジニアである筆者の観点で、まとめたいと思います。

障害状況の把握

 障害対応というと、トラブルシューティング手法といった技術的な側面がクローズアップされがちです。 ただ、ネットワーク機器でエラーログやデバックの確認などから始めると、結果、解決までに時間がかかります。

 まずは、障害状況の把握が重要です。最低、以下3点をお客様へ確認します。

  • 状況把握:何ができて、何ができないかを見極めることは、障害切り分けを行う上で重要です。また、その障害に伴う影響も確認しておく必要があります。確認はシステム観点と利用者観点です。 障害が解決した後、トラブルレポート(報告書)を出すときにこのような情報が必要になる場合があります。
    • システム観点:例えば、日次処理ができない など
    • 利用者観点: 影響のあった利用者(社内ユーザのみに限定された影響なのか、一般ユーザへも影響が出ているのか)とおおよそのユーザ数。
  • 発生時間:利用者からいつ申告してきたか。システム監視のアラートの通知などもあれば、合わせて確認します。
  • 作業有無:障害発生前に、何らか作業をしている可能性もあります。例えば、スイッチや端末の増設をした、ファイアウォールの変更をした など。作業をした人もまさか、その作業が起因で障害が発生するとは、全く想定をしていません。ここはどんな軽微なものや関連性がないものでも、確認する必要があります。この確認だけで、「そういえば、その発生時間帯に〜をした」ということがわかり、それだけで解決するケースもあります。 

障害原因の調査

 障害状況の把握がおおよそできたら、障害原因の調査を開始します。実際の原因調査の手法は、発生状況やシステムによって、異なります。 手法は異なりますが、お客様には、以下を必ず報告します。

  • 障害調査の内容 : 何を調査するのか と その所要時間の目安
  • 障害調査による影響の可能性 :調査することにより、他へ影響が出るのか出ないのか。例えば、調査コマンドを実行することで、機器処理負荷が上がる など。
  • 次回報告タイミング :これは、大事です。お客様は先行きが見えないことに不安を感じます。次回、いつ調査状況を報告します とあらかじめ、宣言しましょう。

原因究明

 原因究明ができれば、お客様には、以下を必ず報告します。

  • 障害原因 : 調査結果と発生原因を報告します。ただし、その発生原因に少しでも推測があるのであれば、その旨を必ず、お客様へ報告します。
  • 対応案の提示 :障害復旧に向けた対応案を提示します。合わせて、その対応を実施した場合のシステム、利用者への影響と所要時間もお客様へ報告し、対応の許可をいただきます。

障害復旧に向けた対応

 お客様からの許可を得て、対応を実施します。

  対応する際は、必ず、いつ、何をしたかを記録します。障害が解決した後、トラブルレポート(報告書)で対応した経緯を報告する場合があります。また、お客様には定期的に進捗を報告します。  

 対応完了後、お客様に障害が復旧しているか確認いただく必要があります。復旧対応により、障害発生箇所以外に影響が出ていないことも確認が必要なため、お客様には、可能な限り、業務全体の確認をいただくよう依頼します。

障害復旧後

 お客様へ速報として、経緯、原因、対応を報告します。お客様よりトラブルレポート(報告書)を求められることもあります。  

 また、障害原因が再度発生しないよう、再発防止策を検討する必要があります。仮に人為的なミスが原因の場合は、その対応者を責めるのではなく、人為的なミスが発生しないような仕組み作りを建設的に検討します。

番外編

 復旧最優先という場合も多く、被疑となる機器を再起動して挙動に変化がないか確認することがあります。  

 その場合は、機器再起動による影響(通信断の発生、ログの消失など)を洗い出します。また、再起動により復旧したとしても、再起動によりその後、原因調査ができない場合があります。お客様にはそのリスクを十分に認識してもらって、作業を実施するようにしましょう。

コメント