top of page
検索
  • OpsAid使い方ガイド

アラート自動対応3:同じアラートを5分間に3回受取ったら、監視メンバーに電話で通知する

いつもOpsAidをご利用いただき、ありがとうございます。

OpsAidの利用ガイドのご紹介です。

監視対象サービスからアラートが発生した際、同じアラートが続く場合があります。

しかし、そのアラートは決められた時間内に複数回来た場合は対応が必要など、1回では特に対応しなくても良い場合があります。それに加え何通アラートが来ているか、確認が必要です。こんな時、対応が必要な内容だけ通知がきてくれたら、アラートメールの確認の手間が減らせますよね。

そんな時はOpsAidの必要なアラートだけ通知ができる方法を利用しましょう!


そこで今回は、一定時間内に、監視対象サービスから同じアラートを規定回数受け取ったら、該当の担当者(複数名)に順次電話発信するルールを登録する方法をご紹介します。

受信するアラートと対応条件は次の内容を想定し登録していきます。


  • アラートが発生したら、件名に ERROR を含むメールをOpsAidへ送信する

  • 5分間で3回、件名に ERROR を含むアラートを受信したら、監視メンバーに電話発信する

  • 監視メンバーはユーザー01、ユーザー02、ユーザー03の3名

    • まずユーザー01に発信し、応答がなければユーザー02、ユーザー03の順に発信する。応答があればそこで終了


 

プロジェクトに担当者を登録する

まずは、OpsAidの利用の流れ またはスタートガイド「プロジェクトを用意しよう」 に従ってアラートを受信するプロジェクトを登録します。

用意したプロジェクトに担当者を追加します。今回は3名まで連絡をするので、ユーザー名を「ユーザー01」「ユーザー02」「ユーザー03」として登録していきます。すべてのユーザーに電話番号を1件以上登録します。



ルールを登録 

アラートを受信するプロジェクトにどんなアラートが来たら、どんな対応をするか登録を行います。今回の対応条件は

  • アラートが発生したら、件名に ERROR を含むメールをOpsAidへ送信する

  • 5分間で3回、件名に ERROR を含むアラートを受信したら、監視メンバーに電話発信する

  • 監視メンバーはユーザー01、ユーザー02、ユーザー03の3名

    • まずユーザー01に発信し、応答がなければユーザー02、ユーザー03の順に発信する。応答があればそこで終了

この流れに応じてルールを登録します。



①マッチ条件

■キーワード条件

どんなアラートを受信したら対応するか指定する部分です。

キーワード条件にて「件名」に「ERROR」が含まれた場合で設定します。

この設定により件名にERRORを含むアラートを受信した場合、下記で登録するルールが適用されます。


■流量条件

ここでは、○分間に△通以上受信した場合など、流量条件を登録することができます。

今回は「5分間」に「3通以上」と設定します。

※ここでは「ルール適用後○分間は同じ条件のインシデントを無視する」設定ができるため

 自動対応中に同様のメールが届いて、また同じ自動対応を行う等を防ぐことも可能です。


②アクション設定

マッチ条件にマッチしたアラートを受信した場合どんなアクションを行うか設定する部分です。今回は「自動コール」を3名まで行う設定をします。

  • 呼出し秒数:20秒

  • リトライ回数:2回

  • 連絡先1:ユーザー01の電場番号

  • 連絡先2:ユーザー02の電話番号

  • 連絡先3:ユーザー03の電話番号


この設定により、ルールが適用されると

連絡先1のユーザー01の電話番号に電話を発信。20秒間呼出しを行い、応答があった場合は、結果[OK]でアクション終了。

応答が無かった場合、連絡先2のユーザー02の電話番号に電話を発信。連絡先1と同様、応答があった場合は結果[OK]でアクション終了。

応答がが無かった場合は、連絡先3のユーザー03の電話番号に電話を発信します。

連絡先リストの最後まで電話発信し、全て応答が無かった場合は、リトライ回数2回まで再度連絡先1から順次発信します。

リトライを含む全ての発信で対応が無かった場合は、結果[NG]でアクションを終了します。



③インシデント設定

ここはルール条件にマッチした場合に作成するインシデントの設定をする部分です。

ステータス完了

担当者:ユーザー01




アラート受信時の動き

上記ルールを登録すると、監視対象サービスからアラートが発生すると下記の流れで自動対応が行われます。


  1. 監視対象サービスから、プロジェクトのメールアドレスへ向けて、件名にERRORを含むアラートを送信する

  2. OpsAidでプロジェクトがアラートを受信する

  3. プロジェクトに登録されたルールに、アラートがマッチするかチェックする。アラートの件名にERRORが含まれているが、この時点ではまだマッチはしない

  4. 監視対象サービスから、プロジェクトのメールアドレスに向けて、件名ERRORを含むアラートを最初のアラートから5分以内に合計3回以上送信する

  5. OpsAidでプロジェクトがアラートを受信する

  6. プロジェクトに登録されたルールに、アラートがマッチするかチェックする。アラート件名にERRORが含まれており、流量条件の5分間に3回以上受信したので、作成したルールの実行条件にマッチする

  7. ルールの実行条件にマッチしたので、自動でルールのアクションが実行され、登録しているユーザー01へ電話発信が行われる。応答が無い場合、ユーザー02へ電話発信が行われ、ユーザー02も応答しなければユーザー03へ電話発信が行われる

  8. ルール条件にマッチしたので、自動でインシデントが起票される

  9. アクションの結果を受けて、ルールの実行結果が起票したインシデントに記録される

  10. 問題無く終了したら、インシデントのステータスが完了となる

  

このように、同じアラートを○分間に△回受取ったら、監視メンバーに順番に電話を行う作業が自動で対応可能です。

是非ご利用ください!


OpsAid利用マニュアルも合わせてご確認ください。

閲覧数:6回0件のコメント
bottom of page