入門監視 効果的なデータ取りを目指して

2019年07月10日 00時07分

入門監視を読んだ。

抽象的な話になってしまうのは、本書が良すぎて概念を捉えることができたからだろうと感じた。結局監視とは、営業活動ということになる。サーバーの稼働率や I/O を監視する理由は、ビジネスを評価するためにデータが必要だから、監視をするのだ。(振出しに戻る

心構え的なもの

監視をするにあたっては、そのデータが意味を持つのかを考える必要がある。非常に腑に落ちたのは、学生の時に実験手法を散々考えさせられたからだろう。

5 秒の遅延が発生した時に、10 秒単位でしかログを取っていなかったら判断はできないという話である。適当にデータを取ってきただけではなく、「問題なく稼働している」(という仮説)が正しいと言うためにどう監視を行っていくかという話だった**。**今回は運用面での評価をしているが、もっと抽象化していけば、ハード・ソフトウェアといった垣根を越えてビジネス全般に適応することができる。

取ってくるか出てくるのを見るか

データ取りにあたって、監視対象に対して操作を行い(push 型)データを取れるようにするのか。それとも定刻もしくは規定値を超えた際に何らかの出力を持って通知するのか(pull 型)がある。

不具合が起こっている時には正常にエラーの掃き出しが動作しないこともあるので、操作に対して異常があるとわかるような(鉱山でカナリアが鳴かないときは毒ガスがある検知方法)というヘルスやカナリアを冠した監視方法をとる。

まとめ

本書で具体的なツールやおすすめの監視項目もあったりするので、興味を持たれた方はご検討ください。

読んでみると、監視とは、営業活動ということになる。抽象的な話になってしまうのは、実験や評価にあたっての妥当性はハードウェア・ソフトウェアの知見が無いと算出できないので・・・。

経験年数が増してくるとチートシート的なものが出来てきて、秘伝のレシピが作れそうなので 5 年後の自分を信じています。ムーアの法則は知りません。