監視って何?という初心者にオススメ | ソフトウェアエンジニアのための ITインフラ監視[実践]入門 | 書評

f:id:sktktk1230:20180726121254p:plain

オススメ理由と概要

監視って何?どんなことするの?という知識ゼロの状態から

  • 監視する対象がどういうものがあるのか
  • どうやってアラートの対象にするのか
  • 実際に運用する場合はどうすればいいのか

といった内容が網羅的に書かれており、監視の入門書として最適だったなと思いました

私と同じようにITインフラ監視に関して知識があまりない。これから学んでいきたいというエンジニアの方にはオススメだと思います

章立て

  • 第1章 監視の目的
  • 第2章 設計の流れ
  • 第3章 現状分析
  • 第4章 判断基準の設計
  • 第5章 監視サーバの選択と経路の設計
  • 第6章 監視業務運営の設計
  • 第7章 構築
  • 第8章 運用に入ったあとの問題への対処
  • 第9章 自動化を見据えて

ポイントを抜粋

1. どんなレイヤーがあるの?

まず、監視を行う項目を棚卸ししやすいよう、5つのレイヤーに分けて分類します。
続いて、監視項目を洗い出す際に必要となる作業項目、および監視の目的についてレイヤーごとに確認します。
引用:第2章 設計の流れより

レイヤーは5つに分けていて、以下の分類だそうです

  • 外形
  • アプリケーション
  • デーモン(ミドルウェア
  • リソース
  • サーバ

2. 監視閾値の決め方

すべての監視項目の決定時に求められるのが、 測定方法と監視閾値です。 これらはどのような基準で決めていけばよいのでしょうか? また、閾値に達した、すなわち障害発生と認識する際に必要となる情報とは何でしょうか?
引用: 第4章 判断基準の設計より

監視する対象が決まっても、何を監視して通知するための基準はどうすればいいのかも気になるところだと思います
設定の仕方によっては誤報が多くなってしまったりするので、

3回の測定で連続して監視閾値に達した際に通知すること
引用: 第4章 判断基準の設計より

のように設定するとのことです

3. アプリケーションの基準

監視項目名 内容 対象 注意値 警告値
監視専用APIの参照 サービスの動作確認 Webアプリケーション 3秒 7秒
監視専用ページの参照 サービスの動作確認 Webアプリケーション 3秒 7秒
アプリケーションログの監視 サービスの異常検知 Webアプリケーションログ - ある

引用:4.4 アプリケーションの基準

4. ミドルウェアの基準

監視項目名 内容 対象 注意値 警告値
プロセス数 プロセスの死活確認 ミドルウェアのプロセス - 0
応答 応答時間の確認 ミドルウェアのポート 通常時の2倍 通常時の3倍

引用:4.5 ミドルウェアの基準

感想

上記の他にも重要度をどうやって決めていけばいいのか。実際の監視業務の運用はどうすればいいのかなどが書かれていて、監視について何も知らない人が全体像をつかむのには最適な本ではないかと思います
オンプレミスの場合は?Saasの場合は?なども書かれていていろんなサービスで監視する場合が考慮されていたので、色々な人が自分の業務を当てはめながら読み進められると思います