![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
CIに投資しないと競合他社にデプロイ頻度で負けるのと同じように、オブザーバビリティに投資しないと運用保守の品質が低下してユーザーが離れてしまうというロジックは持っておかないとな #yurusre
2024-02-22 20:53:24![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
質問しました「ポストモーテムの際にo11yツールを見ると十分兆候や原因がわかるのですが、実際の障害対応の時は経験とメトリクスの変化から、ベテランが問題を特定してしまうことが多いです。ベテランエンジニアの皆さんはあえて自重してメンバーに任せることもありますか?」 #yurusre
2024-02-22 20:53:34![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
オブザーバビリティサービスの料金が高いのって大量データを高速に処理・蓄積するタイプのバックエンドが必要になるからであって、運用レスなクソデカ高性能 DB を擁してると考えたら安いまである(が高いものは高い) #yurusre
2024-02-22 20:55:25![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
インフラ費用、事業の売上に対して何%というコンセンサスはないけど、SREチームの努力目標として事業の売上に対するインフラ費用の割合を現状より増やさず継続的に減らすことで利益率を高めることに貢献する、という意識はしている #yurusre
2024-02-22 20:55:36![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
ベテランではなく「もっとも好奇心が強く、もっとも粘り強く、新しい分析ツールをもっとも使いこなす人」が障害が起こった時最も活躍する」という話、オブザーバビリティエンジニアリングに書いてあったけど、実際障害が起きると応急処置しなきゃいけないから難しかったりする #yurusre
2024-02-22 20:57:05![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
実際の障害対応の時にベテランエンジニアやりがち問題、どうしてるか グラフを全員で見て全員が兆候に気付けるという土壌を作る、障害対応自体はスピード重視でやって振り返る、障害対応の過程で何を見て何をしたかの思考のプロセスを書き残す、開発SREで週一同じグラフを見て議論、など #yurusre
2024-02-22 20:57:56![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
「日々のダッシュボード確認で一緒に見つける、ポストモーテムでキャッチアップする、思考をトレースできるように残しておく。止血は優先することが多い」 #yurusre x.com/maruloop/statu…
2024-02-22 20:57:57![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
ジュニアエンジニアでも落ち着いてo11yツールを見ていけば原因特定できるステップを、障害時はシニアエンジニアが勘と経験と度胸でステップを一足飛びに問題解決してしまうことはよくありますよね #yurusre x.com/maruloop/statu…
2024-02-22 20:58:43![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
昔、ポストモーテムの対応履歴をコンフルに結構ちゃんと残してました。あれは良かったけど、履歴残すのに時間がかかる。運用にリソースを割ける組織でしか実現できないのが悩み。 #yurusre
2024-02-22 20:59:09