こんにちは。藤井 @yoshiyoshifujii です。
来る 2023/10/24(火) Chatwork株式会社 が主催するオンラインカンファレンス『Chatwork Product Day 2023』が開催されます 🎉
カンファレンス応援の第一弾として、当記事は、 2023/09/29(金) に公開しております。
2023/09/29(金) といえば、 SRE NEXT 2023 が開催されます!
今回、私、SRE NEXT初参加と同時に初登壇させていただきますので、どういった発表をする予定かを書かせていただくと共に、Chatwork Product Day 2023を応援させていただきます!
SRE NEXT 2023 で私が登壇させていただく概要は、以下となります。
アジェンダは、以下を想定しています。
- Chatwork とは
- 問題領域と解決領域
- CUJ
- SLI / SLO / エラーバジェット
- オブザーバビリティ
- Open Telemetry
- 分散トレーシング
- まとめ
それでは、各アジェンダにて、どういった話をしていくか、ざっくりとご紹介させていただきます。
Chatwork とは
Chatwork株式会社のコーポレートミッションや Chatwork というビジネスチャットがあってじゃな…というお話をさせていただきます。 Chatwork株式会社のことを簡単に知っていただけたらなーと思います。
問題領域と解決領域
ビジネスチャットである Chatwork が、どういった問題を扱っているのか。
改めて、世の中のどういった問題に対してアプローチしたいと考えているのか。
これを整理してモデリングした内容をお伝えしたいと思います。
また、問題領域モデルに対して、弊社はどういった解決領域モデルを提供しているのか。
その解決領域モデルをお伝えしたうえで、ユーザー満足度に影響する クリティカルユーザージャーニー に言及していきます。
CUJ
解決領域モデルを見ながら、どういったことが満たされないとユーザー満足度に影響するか。
その仮説をどう立てたかというお話をしたいと思います。
現時点では、仮説が強めで、ユーザー満足度という別の指標で評価をしていかないといけないのですが、そこまでアプローチできていない現状もお伝えします。
SLI / SLO / エラーバジェット
CUJに対して、サービスレベルをどのように計測していくか。
指標の立て方について言及します。
SLI を計測することは、一朝一夕ではいかず、これまた仮説を立てていくことが必要で、有効な指標かどうかを評価するために、継続的な計測と変化の観測が重要だという話をしたいと思います。
また、 SLO を100%満たすことは不可能であることを前提に、では、どの程度を満たすことが、ユーザー満足度を低下させない目標値となるのか。
この値を求めるための試行錯誤と、現状、まだ出来ていないところなので、今後、どうしていこうと考えているかをお伝えします。
さらに、エラーバジェットの運用について、消化速度が重要であり、24時間以内に枯渇しないのであれば、アラートする必要もなく、翌営業日での対応でいいよねといったあたりに言及します。
オブザーバビリティ
サービスレベルにアプローチしたり、エラーバジェットの消費に対策していくには、オブザーバビリティが欠かせない話をします。
書籍「オブザーバビリティ・エンジニアリング」に紹介されている3つの柱に言及したうえで、それを実現していくための試行錯誤を紹介します。
Open Telemetry
オブザーバビリティを実現していくにあたり、Open Telemetry は欠かせません。
Open Telemetry で計装していくにあたり、 opentelemetry-specification の読解が必要だったり、 semantic-convertions の読解が必要だった話をします。
特に、 Span Attributes をどう計装するかが重要であり、これがオブザーバビリティの獲得に欠かせません。
分散トレーシング
モノリスなシステムであれば、Open Telemetryによる計装で、トレース可能な状態を作れます。
Chatwork は、分散システムであるため、分散トレーシングが欠かせません。
「オブザーバビリティ・エンジニアリング」で紹介されている「探索可能性をサポートするツール」に求めることを基に、弊社で選定したツールとして Honeycomb を紹介します。
Honeycomb で実現できる分散トレーシングの力に期待することと、もっとこういったことができるといいのになーという話もしたいと思います。
まとめ
まだ道半ばであるということをふまえて、以上の話をまとめさせていただければと思います。
信頼性 と オブザーバビリティ はとても重要な関心事であり、プロダクトオーナーが強い関心を持ちます。
一朝一夕で得られないことですので、バックログに反映し、戦略的に獲得していく必要があります。
体制含めて、やっていくぞというお話でした。
そして、 Chatwork株式会社 は、SREをはじめとした、あらゆる職種でエンジニアの方を募集しております。
ぜひ、一緒に信頼性にアプローチしていきましょう!