PagerDuty Operations Cloudの導入効果をレビューでご紹介(筋肉CTO)
筋肉CTO
CTO・VPoE / CTO / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
利用プラン | ツールの利用規模 | ツールの利用開始時期 |
---|---|---|
Bussiness | 11名〜50名 | 2016年 |
利用プラン | Bussiness |
---|---|
ツールの利用規模 | 11名〜50名 |
ツールの利用開始時期 | 2016年 |
アーキテクチャ
アーキテクチャの意図・工夫
元々は各監視ツールから各々Slackに通知しており、架電できていないものも一定存在していた。そこをPagerDutyへ全て連携することで、アラートの一元管理と漏れのない架電対応を実現している。
導入の背景・解決したかった問題
導入背景
2016年当時、AWSのメトリクス監視ツールから通知メールを使用して管理体制を運用していた。当番制を導入していたが、PagerDutyのように直接の電話通知がないため、メール通知に気づかなかったり、ミーティング中や深夜の時間帯などにメールを見逃してしまい、対応が遅れることがあった。PagerDutyを導入する前のMTTA(平均確認時間)は約10分だったが、現在は電話通知も行われており、確認時間は1分以内に短縮されている。
選定理由
2016年当時はエンジニアの人数は1桁人数〜10名程度でした。 24時間・365日の安定稼働を実現するには多くの人数が必要で、アウトソースするにもコストが掛かるので、SaaS(PagerDuty)なら費用対効果が高いと判断したのではないでしょうか。 前職で、PagerDutyを費用対効果を鑑みて、同じような理由で採用していたのでそう推測できます。また、監視はAWS内だけではなくDatadogなどのサードパーティも活用していたため、それらとの親和性を考慮するという判断もあったかと思います。
導入に向けた社内への説明
上長・チームへの説明
「費用対効果」と「使いこなせるか」という2点で説明した。 前者は外注した場合の費用よりも明らかに安価だったので、そこはクリアできていたと考えられる。 後者は当時は英語のマニュアルのみだったが、今は日本法人もできたので改善されつつある。
あまり細かい試算や算出はしていないが、オンコールの対応の仕組みがなかったら何が起きるのか、それがサービスへどのような影響をもたらすのか、それに対応するために外注・内製・PagerDutyの利活用をした際にそれぞれがどれくらいのコストになり、それぞれを採用する場合のメリット・デメリットを説明した。
活用方法
よく使う機能
Incidents
アラートに1対1対応をしているNotesを見ながら、根本対応が終わっているかどうか、対応が詰まっているチケットがないかなど、未クローズのインシデント状況の確認をしている。
ツールの良い点
柔軟なアラート設定が可能
- Datadog、Amazon CloudWatch、Sentryなどのサードパーティの監視ツールと連携して、重要度を見極めた上で各種アラートの発報を適切な形(架電やSlackでの通知)で行うことができる
- 緊急性・重要度に応じてアラートを識別し、その重さによって通知の方法を変えることができる
- 特定期間における通知の抑止が柔軟にできるなど、24時間365日の監視体制に欠かせないサービスが安価で利用できる
ツールの課題点
日本語ドキュメントが少ない
- 日本法人が新しく設立されたばかりで、日本語のドキュメントがまだ少ない。主要な情報は英語のドキュメントで提供されているので、導入を検討している方はその点を考慮して、覚悟を持って取り組んで欲しい。
その他
PagerDutyやオンコール対応に関する事例がなかなか出回らず、プロダクト規模によって体制も異なるので、独自に色々頑張っている方も多いと思います。これはPagerDutyのコミュニティに期待していることですが、もっとユーザーがナレッジを横展開したり、みんなが困っている苦しみを集合知で解決できるような場があったら嬉しいです。
ツールを検討されている方へ
24時間・365日 で動いているサービスの前提として、みんなが動ける体制を構築することが必要だと思います。「検知して対応する」という流れの中の「検知」の部分で、様々あるサードパーティの情報を全部まとめるというプロセスが第一歩目になると思います。現時点でPagerDutyを代替するツールやサービスはないと考えています。総じて費用対効果高くいいツールだと思っているので、これからオンコール対応を検討している企業で1回試さないのは損だと思っています。
筋肉CTO
CTO・VPoE / CTO / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
よく見られているレビュー
筋肉CTO
CTO・VPoE / CTO / 従業員規模: 101名〜300名 / エンジニア組織: 51名〜100名
レビューしているツール
目次
- アーキテクチャ
- 導入の背景・解決したかった問題
- 活用方法