インフラエンジニアのためのトラブルシューティングの基本的な考え方

トラブルが発生した際にはトラブルシューティングが必要ですが、フローを考えるのが苦手だったり、障害が起きてから解決するまで時間が掛かってしまう、といったことで悩んでいるインフラエンジニアの方も多いのではないでしょうか。

本記事では、そんな方に少しでも参考になればと思い、トラブルシューティングの基本的な考え方についてご紹介します。

トラブルシューティングとは?

トラブルシューティングとは、システム障害や意図した動作にならない場合、症状や原因を特定し、解決策を考え、その問題を解決するまでのプロセスのことを指します。

トラブルシューティング-プロセス編-

原因追及と調査

大まかなフローとしては、まず、問題が発生した際にまず原因追及や調査を行い、情報を集め、整理を行います。

これは、報告や仮説を立てる際に役立ちます。

仮説を立てる

次に仮説を立てていきます。

原因から考えられる解決方法をネット検索や過去のナレッジから探し、

1つだけではなくいくつかピックアップしておきます。

解決案が多くても次のSTEPでそぎ落としていくので大丈夫です。

仮説を裏付ける根拠を考える

次に仮説を裏付ける根拠を考えます。

状況にもよりますが、例えば本番環境で問題が発生した際に、何度も立てた仮説を試せるわけではない為、必ず根拠を考えておく必要があります。

仮説の実行

次に仮説を実行します。実行した結果は、未解決 or 解決の2通りに分かれます。

未解決の場合は、再度原因追及を行います。

解決の場合は、情報を集め、報告とナレッジ蓄積を行います。

トラブルシューティング-能力編-

トラブルシューティングには、色々な能力が必要になります。

この能力がないと、時間が掛かってしまったり、解決まで至らないなどが起こり得ます。

それぞれ必要な能力について、説明します。

技術的知識

原因追及を行う上で必要になる能力です。

原因追及を行う上で、扱っている機器や動作してる環境等、精通した知識が必要になります。その為、自身で把握できていない部分は情報取集などを行い、補完する必要があります。

論理的思考

仮説を立てる上で必要になる能力です。

情報取集した中から原因を見つけ、この起きた原因に対しての仮説を立てていきます。

仮説を立てる際、"原因がこれだから、おそらくこれを行えば解決するはず"の"これ"を考えるには、論理的に考える必要が出てきます。

経験

過去に対応してきた自身の経験も必要になります。この経験があることにより、解決までの時間削減等に繋がります。

また、自身のトラブルシューティングのフローが確立している為、それぞれ切り分けた考え方もできます。

コミュニケーション能力

報連相や情報収集を行う上で必要になります。

この能力が欠けていると、認識違い等が起きてしまい、誤った方向へ進んでしまいます。

 

どんな切り分けにもある程度の基礎知識が必要です。

この基礎知識が欠けていると原因追及に時間が掛かったり、

解決まで至らない可能性があります。

なぜトラブルが起きてしまうのか?

トラブルの原因

トラブルの原因の一例です。

  • 稼働機器への設定変更ミス
  • ケーブルの繋ぎ間違え
  • 作業に慣れた時に訪れる「あ、これさっきもやったから資料確認しなくても大丈夫!」といった思い込み

別の問題もありますが、多くはヒューマンエラーによって起こる問題です。

ただ、人間が作業している以上、ミスを完全になくすことは不可能に近いです。

その為、過去事例を基に対策をしたり、起きたトラブルは他の方に共有したり、事前にトラブルを防げるようにします。

問題が起きた時

私はネットワークエンジニアなので例としてネットワークの話を出しますが、インフラエンジニアのトラブルシュートであれば基本的な考え方として参考になると思います。

以下1-3の順に考えていくようにしています。

問題が起きた時は、仮説を立て試し、失敗を繰り返すことで、今後の経験に活きてきます。

ただ、失敗が許されない状況もありますので、その場に応じて対応してください。

過去事例

事例1

問題:PC→対象機器にPing疎通できるが、対象機器からPCにPing疎通できない。

解決:PCがWindows firewallで拒否していた為、設定を無効にした。

事例2

問題:PC⇔RT⇔社内RT(DHCPでIP払い出し、NAT使用)⇔インターネットの構成を組んでおり、PCからインターネットに接続できない。

PC⇔RT、RT⇔社内RT間は別セグメント。

原因:RT側でNATを有効にし、PC側のIPをNATする必要があった。

事例3

問題:PC⇔FW(Fortigate)⇔DHCPサーバの構成を組んでいるが、PCにIP払い出しがされない。

原因:FWポリシーでDHCPポート番号を許可する必要があった。

まとめ

インフラエンジニアにとって、トラブルは付き物です。

その為、自身のトラブルシューティング能力を向上させ、即座にトラブル対応できるようにしておくことが先決です。

このブログを通して、少しでも皆様のお役に立てると幸いです。

執筆担当者プロフィール
森﨑 湧斗

森﨑 湧斗(日本ビジネスシステムズ株式会社)

セキュリティビジネスグループの森﨑です。 普段はネットワーク案件ベースで、今期よりセキュリティコンサル業務も対応しております。 今後は自身で学んだセキュリティ関連の内容を投稿していきたいと考えております。 趣味としては、2か月に1回旅行に行くことです。 行ったことない場所から選んで、事前計画を考え、いつもパートナーに提案してるのが、小さな楽しみです。

担当記事一覧