Observability Japan Online #1
- 絶対すぐ見るアラート - すぐ見なくてもいいけど後で見ようねアラート が定義されていないと辛いよね。過去から積み上がったノイズにまみれてることもある。その場合もっとしんどい。 #o11yjp
2020-03-17 19:13:00監視:動いているのか動いていないのか オブザーババビリティ:どう動いているのか #o11yjp
2020-03-17 19:13:25たぶんワンコにもEventの概念はあるはず…たぶん(メニューにあるし。指してる概念違ったらごめんなさい)。 #o11yjp
2020-03-17 19:14:52不安定で障害も発生しているのにObjective99%なんて無理! ですよね〜。 まずは不安定さを無くす、パフォーマンスを改善する(行動例) #o11yjp
2020-03-17 19:18:08#o11yjp サービスとしてどこまで実現できているのかを踏まえて「地に足のついた」Observerbilityの目標(レベル感)を設定する必要がある
2020-03-17 19:20:31「アラート対象じゃなくても1.5倍悪いなら気にしておく」(原因掴めてて問題ないのならOK)。 1.5倍、という見方もあるし「100ms余分に時間が掛かってる」という見方もできそう。 #o11yjp
2020-03-17 19:21:10アラートが起こってなかったとしてもなんとなくモニタリング眺めたりしたいけど、どのぐらいの頻度で眺めていくかは悩む #o11yjp
2020-03-17 19:21:16Step 3 Predictiveで、はじめてコスト削減について考えられる。なるほどだ。言われてみればそうか…という気持ちもある。 #o11yjp
2020-03-17 19:21:41Observability Japan Online #1 に参加を申し込みました! observability.connpass.com/event/168837/?… #o11yjp
2020-03-17 19:22:53アラートが発生しまくっている状況でコストダウンなんてできないよね! わかりみが深い。 #o11yjp
2020-03-17 19:23:58リスクあるデプロイをバンバンやって切り戻す、自覚してやっててもオペレーションが精神的に疲弊する問題があったなぁ…。#o11yjp
2020-03-17 19:24:06障害を起こすのなら、会社の立場としては夜中のサービスに支障がない時間帯に起こしてもらったほうがいいのかもしれないが、作業する当人にとっては平日昼間のがありがたい…確かに。 #o11yjp
2020-03-17 19:24:343段階目になって予測的対応ができて、コスト削減やエラーバジェットを意識した実験的デプロイにチャレンジできる #o11yjp
2020-03-17 19:24:54Testing in Production, the safe way - Cindy Sridharan - Medium medium.com/@copyconstruct… #o11yjp
2020-03-17 19:25:43