システム運用アンチパターン 大事なところまとめ

システム運用アンチパターン ―エンジニアがDevOpsで解決する組織・自動化・コミュニケーション https://amzn.asia/d/1gf1SrX
6
レンタサイクル @rentalcycle

4章は具体的な内容多し。どのようにウィジットやダッシュボードを構成したら良いかわからなかったら、再度参照すべし。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-22 19:35:22

5章 最後の味付けとしての品質

レンタサイクル @rentalcycle

この本での「テスト」はほば全て自動テストが前提となっているね。 #システム運用アンチパターン amzn.asia/d/7YP16mY pic.twitter.com/bRC6OLjq4B

2022-09-22 19:45:41
拡大
レンタサイクル @rentalcycle

5章はざっと眺めた程度。身近ではE2Eテストの一部しか書けていない。そして活用されていない。ちょっと待て、アンチパターンにハマっているのではないか?書いたのに、必要なテストを網羅していないので使われないアンチパターンありますか? #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-22 19:49:57
レンタサイクル @rentalcycle

どこかに書いてあったな。必要なプロセスのテスト自動化みたいな話。

2022-09-22 19:50:32

6章 アラート疲れ

レンタサイクル @rentalcycle

アラート疲れ:オペレータが頻繁に多くのアラートにさらされ、アラートに鈍感になる場合に起こる。鈍感になることで、応答時間の悪化、全体の有効性の低下を招く。 これはシステム観点、従業員のメンタルヘルスや仕事の満足度観点からも危険。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:10:39
レンタサイクル @rentalcycle

オンコールローテーションは、典型的には1週間の任務となる。オンコールローテーションを管理するツールあり。これって、1個の巨大なシステムの例じゃないか。。。? #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:14:57
レンタサイクル @rentalcycle

オンコールに対応するエスカレーションの3つのSLOカテゴリ ・確認までの時間 ・開始までの時間 ・解決までの時間 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:17:35
レンタサイクル @rentalcycle

オンコールの状態に関わらず、アラートを受け取ったエンジニアに解決の責任がある。何らかの理由でそれに取り組むことができない場合、その通知を他のエンジニアに引き渡すのも最初にアラートを受け取ったエンジニアの責任。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:20:40
レンタサイクル @rentalcycle

最悪の事態を想定して計画を立てると、オンコールスタッフが燃え尽きてしまう。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:22:48
レンタサイクル @rentalcycle

「解決までの時間」はシステムや機能ごとに明確に定義しておきたいな。特に深夜、土日祝祭日オンコールがある環境については重点的に。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:24:18
レンタサイクル @rentalcycle

アラートには関連するドキュメントが必要。手順書に記載されているべき。良いアラートの特徴は下記。 ・行動可能である ・タイムリーである ・適切に優先順位付けされている #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:26:13
レンタサイクル @rentalcycle

オンコールローテーションの最少人数は4人のスタッフ。サービスに直接責任を持つチームだけがオンコールに参加するのが望ましい。 うーん、オンコールとコールセンターがごっちゃになってる気がする。。。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:32:23
レンタサイクル @rentalcycle

リソースが不足している場合の対処:トラブルシューティングに使用される最も一般的なタスクは自動化、オンコールエンジニアが問題を適切にトリアージするために十分な情報にアクセスできるようにすること。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:34:41
レンタサイクル @rentalcycle

トリアージ:振り分け。すぐに問題の解決をする必要がない場合がある。そのための判断をする。

2022-09-26 20:35:39
レンタサイクル @rentalcycle

オンコールローテーションの最大規模は6~8人。6人超えはサービスを分割した方が良い。これ以上だと、オンコール担当の頻度が下がり、ここぞというときに力を発揮できない。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:37:54
レンタサイクル @rentalcycle

保証:金銭的、休暇。このへんはシビアだな。普通に考えつくのは金銭的保証で、休暇は規定を使って対処する感じだろうか。このチームに配置される場合は特別なインセンティブでも付けたいもんだが、ここから外れると手取りが減ることになる。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-26 20:41:07
レンタサイクル @rentalcycle

オンコール経験の把握:アラートに対して ・誰が受けているか? ・どの程度の緊急性か? ・どのように通知されているか? ・いつ受けているか? #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-27 19:27:46
レンタサイクル @rentalcycle

「いつ」の分類 ・就業時間 ・勤務時間外 ・就寝時間 カテゴリ分類により生活への影響を把握。時系列に見ることで傾向を把握。有償ツールでレポート作成できる。メトリクスを作成する。 このあたり、実態と乖離していなくて良い。

2022-09-27 19:31:44
レンタサイクル @rentalcycle

オンコール担当中のタスク:オンコール業務はオンコールをより良くするための機会として扱う。 ・手順書の更新・作成 ・自動化への取り組み ・アラートシステムの改善 ・根本解決 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-27 19:33:38
レンタサイクル @rentalcycle

専任チームができてしまえば、かなり前進しそうな記載だな。

2022-09-27 19:34:20
レンタサイクル @rentalcycle

6章は最も課題感が大きく、現実問題として取り扱いを考察しなければならない。必要に応じてこの章を重点的に再読するもある。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-09-27 19:36:04

7章 空の道具箱

レンタサイクル @rentalcycle

テクノロジの世界では、大工の道具のような適切なツールを使っていないという事実は多くの小さなタスクの山に埋もれてしまい、再現性がなく、エラーが起きやすい状況になっていることが多い。 #システム運用アンチパターン amzn.asia/d/7YP16mY

2022-10-02 11:13:46