はじめに
前回は「Azure Chaos Studio」を使用するための準備、カオス実験の構成方法などについて解説しました。
今回は前回構成したカオス実験の開始、結果の参照方法について解説していきます。
実験対象リソースへのカオス実験アクセス権付与方法
まず実験を開始前に実験対象リソース対してカオス実験がマシンを停止したりコントロールする為のロールを割り当てを行う必要があります。
- 実験対象リソースに移動し、[アクセス制御(IAM)]をクリックし、[追加]-[ロール割り当ての追加]をクリックします。
- [ロール]で検索欄にリソースの共同作成者ロールを入力し、表示された権限をクリックして[次へ]をクリックします。
- [メンバー]画面で[+メンバーを選択する]をクリックし、作成した実験名を入力、表示されたメンバーを選択し、[選択]をクリックします。最後に[次へ]をクリックします。
- [レビューと割り当て]画面で設定に問題ないことを確認し、[レビューと割り当て]をクリックします。
Chaos Studio実験の開始と結果の参照
ロール割り当てが完了したら、実験を開始していきます。
※開始前に選択したリソース、挿入した障害の種類に誤りがないか改めて確認してください。意図しない障害を発生させ、他の環境に影響を与えてしまいます。
前回設定したカオス実験では、仮想マシンが10分間シャットダウンするように設定しました。「仮想マシンが意図せずシャットダウンした」という仮定で、どのような動作となるか確認していきます。
本来ですと、冗長化した環境で片系を落とすなどの手法をとったほうがわかりやすいのですが、今回は割愛させていただきます。
- Chaos Studioを開き、作成した実験名をクリックします。
- [概要]画面で[開始]をクリックし、[OK]をクリックします。
- [状態]が[Running]になっている事を確認します。
- [Running]状態となると、挿入した障害が対象のリソースで設定したパラメータで発生します。
※障害の状態は完了後自動的に復旧します。
- 実験の進捗状況を確認するには[詳細]をクリックします。
- 詳細]画面でステップ、ブランチで挿入した障害の進捗状況を確認できます。構成したカオス実験でどの障害が挿入されているのか、完了しているのかを見ることができます。
- [状態]がすべて[Complete]と表示されたら実験は完了となります。挿入した障害の結果を確認するには[フォールト]をクリックします。
- [フォールトの詳細]画面が表示されます。[失敗したターゲット][実行中のターゲット][成功したターゲット]に分かれて表示され、ターゲットリソースに対して障害挿入が成功したかを確認することができます。
まとめ
4回に渡り、カオスエンジニアリング、Azure Chaos Studioについて紹介してきました。
昨今、サービスを構成するための技術の変化に伴って発生する障害の質も変化し、リカバリー範囲の特定なども非常に難しいケースも増えています。
ウィークポイントを早期に発見するため、カオスエンジニアリングを早期から回帰的に実施し、被害を最小限に抑えるような取り組みを実施する必要があります。
この記事がご参考になれば幸いです。