狼少年アラート問題対策。アラートを設定する際にチーム内でレビューする。「俺は朝3時にこのアラートで叩き起こされるがこのアラートを設定する事は妥当か?」 #nwc_all #nwc_sre
2019-01-13 10:41:38「アラートはすべてレビューしていて『このアラートを承認する≒このアラートで朝3時とかに起こされることを許容する』覚悟でみんなで見る」 分かるけどSREチームが24時間対応なら3交代制を敷けなきゃじゃないかな。SREチーム員の勤務体制って「緊急コールは24時間許容」前提なんだろうか。 #nwc_sre
2019-01-13 10:43:52低アラートを実現するために「設定するときにレビューする=叩き起こされてもいい」という話、チームビルディングのバランスどりと密接な関係にありそう #nwc_sre
2019-01-13 10:44:21朝3時叩き起こされるの基準はチームサイズによって変えるのが良さそう 例えばSREが2人だけなら「通勤前に家でログインしてまで調査したいか」とか #nwc_sre
2019-01-13 10:46:17「Microservicesでサービスチームを分かれても、SREチームがデプロイ権限を持ってしまうと、結果的にボトルネックになってしまう。セルフサービス化のため、開発者がデプロイするためのサービス(Spinnakerとか)は用意してあげる。 #nwc_sre
2019-01-13 10:48:10それ、ITサービスの問題じゃね?メトリック値をどうするかに収束する気がするが。 #nwc_sre twitter.com/hiroga_cc/stat…
2019-01-13 10:49:45マイクロサービス化に伴い、自律的チームがたくさん存在するようになるが、SREチームがデプロイなどに責任を持ってしまうとSREチームがボトルネックになってしまう。したがって、積極的に開発チームにSREの権限を移譲している。 #nwc_sre
2019-01-13 10:50:07#nwc_sre 職能横断的なSREに何かお願いするとき、SREって社内のいろんなリアクティブな仕事を抱えているだろうって思って聞きづらい障壁はうまれがち
2019-01-13 10:50:26「99までは開発者だけでもなんとかなるけど、999からはSREとしての専門性を持っている人が求められるはず。完全に役割が消えることはない。 #nwc_sre
2019-01-13 10:52:11クラウドのマネージドサービスが充実してきたことで、インフラの仕事が軽くなりみんなが SRE をやれるようになってきた #nwc_sre
2019-01-13 10:52:23これは辛い。過去に起こされそうになったことがあるから尚更です。 #nwc_sre twitter.com/rela1470/statu…
2019-01-13 10:52:26