どうも。ご存じ、サーバーサイド開発部(PHP)のやまざきです。
『優れた UX は心地のよい Developer Experience から生まれてくる』と信じて20余年。今年は最高な年になりそうです。
さて本ブログの本題ですが、ある程度のサービス規模になってくると運用・保守は大変になってきますよね。今日は昨年2021年にサーバーサイド開発部(PHP)としてのサービス監視体制を改善していったよ、って話をふりかえりながら書こうと思います。
目次
- 目次
- Chatworkのサーバーサイド運用・保守体制
- バックエンドチームでの基本的な運用・保守体制
- バックエンドで利用中のシステム監視SaaS
- Datadog
- New Relic
- バックエンドのアプリケーションログ基盤
- バックエンドでのアプリケーションログ収集のデータフロー
- PHPシステムでのアプリケーションログの通知
- サーバーサイド開発部(PHP)としてのサービス監視体制の課題(2021年)
- エラーがスルーされていく仮想シナリオ
- PHPエラー撲殺部発足
- 自分がエラー監視/対応に詳しくなる
- エラー通知をスルーしないためにしたこと
- 何をエラーとして検知すべきかを再定義した
- ログレベル:info
- ログレベル:warning
- ログレベル:error
- ログレベル:critical
- エラー通知は誰かが確認するという暗黙の期待を止める
- エラーメッセージに書かれるべきガイドラインを作った
- 何をエラーとして検知すべきかを再定義した
- 2021年のPHPエラー撲殺の成果
- PHPエラー撲殺部からの学び
- 学び1:「開発」「運用」「保守」は分けて考えられない
- 学び2:いつ負債を返すのか? という問いに真摯に応答する
- さいごに
- やまざきの過去記事
Chatworkのサーバーサイド運用・保守体制
Chatworkはビジネスインフラを担うようなサービスとなることを目指しています(参考記事)。
そのためには24 時間365日、可能な限り安定したサービスを提供する必要があります。而して、Chatworkのエンジニアはサービスの稼働状況を監視し、問題があればいち早く状況を改善するよう動くことが求められます。
何を使いどういう体制で運用保守を行っているかを簡単に説明させて頂きたいと思います。
続きを読む