Meraki アラートによるデバイス死活監視のタイムラグ

前回はWebhookを使ってWebex Teamsへアラートを送信する方法をまとめましたが、今回は実際にアラートを発生させてその内容についてまとめたいと思います。
今回テストした内容はMSのアップリンクを切断しMeraki Dashboardがオフラインを検知してアラートを送信するまでの流れを確認しました。

アラート設定

「ネットワーク全体 > 設定 > アラート」からアラートとして通知したい項目にチェックを入れて有効化します。
今回はMSのアップリンクケーブルを抜いてオフラインアラートを通知させたいので「スイッチ」から「スイッチがオフラインになった場合 閾値」を設定します。
今回は閾値を5分に設定します。

アラート送信テスト開始

MSのケーブルを抜きInernetへの疎通を失わせる試験を行いました。

15:32 ケーブル切断

アップリンクケーブルを抜いても特にDashboard上には変化がありません。

15:37 Dashboard上でオフライン検知

ケーブルを抜いてから5分後にDashboard上でMSがオフラインになったことが検知されました。

Dashboard上で15:37にオフラインになったことが確認できます。

15:43 WebhookによりWebex Teams上でアラート受信

Dashboard上でオフラインを検知して約6分後にWebex Teams上でアラートを受信しました。
AlertのメッセージにはMerakiのオーガニゼーションやNetworkの情報およびオフラインとなったMSの各種情報が送られてきています。
またタイムゾーンGMTとなりますがオフラインを検知した時刻(≠アラートを送信した時刻)も情報として送られていることもわかります。

まとめ

Meraki Cloudからのアラート通知はデバイスが実際にオフラインとなってから最低でも10分強の時間が必要となることが分かったと思います。
10分程度の障害対応の初期対応の遅れが問題ない場合はこの通知機能でも問題ないと思いますが、これよりも短い時間での検知が必須となると別の方法で死活監視を行う必要があります。
例えばMerakiの運用性の良さが失いかねませんが、各デバイスを固定IP設定(もしくはDHCPサーバにMACアドレスを登録して同じIPを払い出す)してNMS等からSNMP or ICMPを使って定期的にPollingを行うような従来通りの運用が必要になるかもしれません。