kubell Creator's Note

ビジネスチャット「Chatwork」のエンジニアのブログです。

ビジネスチャット「Chatwork」のエンジニアのブログです。

読者になる

プロダクトオーナーの視座から見た信頼性とオブザーバビリティ@SRE NEXT 2023

こんにちは。藤井 @yoshiyoshifujii です。

来る 2023/10/24(火) Chatwork株式会社 が主催するオンラインカンファレンス『Chatwork Product Day 2023』が開催されます 🎉

lp.chatwork.com

カンファレンス応援の第一弾として、当記事は、 2023/09/29(金) に公開しております。

2023/09/29(金) といえば、 SRE NEXT 2023 が開催されます!

今回、私、SRE NEXT初参加と同時に初登壇させていただきますので、どういった発表をする予定かを書かせていただくと共に、Chatwork Product Day 2023を応援させていただきます!

SRE NEXT 2023 で私が登壇させていただく概要は、以下となります。

プロダクトオーナーの視座から見た信頼性とオブザーバビリティ

アジェンダは、以下を想定しています。

  1. Chatwork とは
  2. 問題領域と解決領域
  3. CUJ
  4. SLI / SLO / エラーバジェット
  5. オブザーバビリティ
  6. Open Telemetry
  7. 分散トレーシング
  8. まとめ

それでは、各アジェンダにて、どういった話をしていくか、ざっくりとご紹介させていただきます。

Chatwork とは

Chatwork株式会社のコーポレートミッションや Chatwork というビジネスチャットがあってじゃな…というお話をさせていただきます。 Chatwork株式会社のことを簡単に知っていただけたらなーと思います。

問題領域と解決領域

ビジネスチャットである Chatwork が、どういった問題を扱っているのか。

改めて、世の中のどういった問題に対してアプローチしたいと考えているのか。

これを整理してモデリングした内容をお伝えしたいと思います。

また、問題領域モデルに対して、弊社はどういった解決領域モデルを提供しているのか。

その解決領域モデルをお伝えしたうえで、ユーザー満足度に影響する クリティカルユーザージャーニー に言及していきます。

CUJ

解決領域モデルを見ながら、どういったことが満たされないとユーザー満足度に影響するか。

その仮説をどう立てたかというお話をしたいと思います。

現時点では、仮説が強めで、ユーザー満足度という別の指標で評価をしていかないといけないのですが、そこまでアプローチできていない現状もお伝えします。

SLI / SLO / エラーバジェット

CUJに対して、サービスレベルをどのように計測していくか。

指標の立て方について言及します。

SLI を計測することは、一朝一夕ではいかず、これまた仮説を立てていくことが必要で、有効な指標かどうかを評価するために、継続的な計測と変化の観測が重要だという話をしたいと思います。

また、 SLO を100%満たすことは不可能であることを前提に、では、どの程度を満たすことが、ユーザー満足度を低下させない目標値となるのか。

この値を求めるための試行錯誤と、現状、まだ出来ていないところなので、今後、どうしていこうと考えているかをお伝えします。

さらに、エラーバジェットの運用について、消化速度が重要であり、24時間以内に枯渇しないのであれば、アラートする必要もなく、翌営業日での対応でいいよねといったあたりに言及します。

オブザーバビリティ

サービスレベルにアプローチしたり、エラーバジェットの消費に対策していくには、オブザーバビリティが欠かせない話をします。

書籍「オブザーバビリティ・エンジニアリング」に紹介されている3つの柱に言及したうえで、それを実現していくための試行錯誤を紹介します。

Open Telemetry

オブザーバビリティを実現していくにあたり、Open Telemetry は欠かせません。

Open Telemetry で計装していくにあたり、 opentelemetry-specification の読解が必要だったり、 semantic-convertions の読解が必要だった話をします。

特に、 Span Attributes をどう計装するかが重要であり、これがオブザーバビリティの獲得に欠かせません。

分散トレーシング

モノリスなシステムであれば、Open Telemetryによる計装で、トレース可能な状態を作れます。

Chatwork は、分散システムであるため、分散トレーシングが欠かせません。

「オブザーバビリティ・エンジニアリング」で紹介されている「探索可能性をサポートするツール」に求めることを基に、弊社で選定したツールとして Honeycomb を紹介します。

Honeycomb で実現できる分散トレーシングの力に期待することと、もっとこういったことができるといいのになーという話もしたいと思います。

まとめ

まだ道半ばであるということをふまえて、以上の話をまとめさせていただければと思います。

信頼性 と オブザーバビリティ はとても重要な関心事であり、プロダクトオーナーが強い関心を持ちます。

一朝一夕で得られないことですので、バックログに反映し、戦略的に獲得していく必要があります。

体制含めて、やっていくぞというお話でした。

そして、 Chatwork株式会社 は、SREをはじめとした、あらゆる職種でエンジニアの方を募集しております。

hrmos.co

ぜひ、一緒に信頼性にアプローチしていきましょう!