ブラックフライデー!トラブルシューティング LT会 SHIFT EVOLVE Presents LT Vol.7

@shiftevolve_jp による ブラックフライデー!トラブルシューティング LT会 ” に関するTweetをまとめました
2
Naruhiko Ogasawara @naru0ga

一つ。漸近置換法。おかしなシステムをばつっと切り戻して、一部ずつ新しい状態に変えていく。そこでトラブルが起きたらそれが原因、というやつ #SHIFT_EVOLVE

2021-11-19 19:23:56
Naruhiko Ogasawara @naru0ga

例えばネットがクソ遅い場合、ルータ変えたりケーブル直結にしたりなんだりかんだり……結局プロバイダ変えたら早くなった、とか。これも漸近置換法 #SHIFT_EVOLVE

2021-11-19 19:24:48
Naruhiko Ogasawara @naru0ga

その二。漸近確認法。正常状態が確認できないときに、戻すのではなく構成要素を一つずつ細かく確認していく方法。例えばパブリッククラウドで構成されたシステムの場合、インターネットの外側から順繰りに見ていくとか #SHIFT_EVOLVE

2021-11-19 19:26:40
Naruhiko Ogasawara @naru0ga

基本的なことしかしてないけど、基本に立ち返ることが大事です!ってことで #SHIFT_EVOLVE

2021-11-19 19:27:03
Naruhiko Ogasawara @naru0ga

おつぎ。橋本拓也(Airitech) さん「某クラウドのDBサービスでコネクションリークの原因調査で七転八倒した話」。トラシュー10年選手のノウハウ、楽しみですね :) #SHIFT_EVOLVE

2021-11-19 19:27:42
SHIFTグループ技術イベント @shiftevolve_jp

漸近置換法と漸近確認法、この二つが奥義だけど意外と多くの人ができていないとのこと🧐 四人目は某クラウドのDBサービスでコネクションリークの原因調査で七転八倒した話です #SHIFT_EVOLVE

2021-11-19 19:27:58
Naruhiko Ogasawara @naru0ga

Airitechさんはトラシューのプロ集団なので西田さんのように一つのサービスのトラシューを続けてるというよりいろんなお客さんのトラブルをバチっと解決して帰ってくる的な仕事。趣味はOSSにパッチ投げてニヨニヨする #SHIFT_EVOLVE

2021-11-19 19:29:13
Naruhiko Ogasawara @naru0ga

トラシューの基礎は「自分も含めてあらゆることを疑うこと」で、今回はその一例をお話し #SHIFT_EVOLVE

2021-11-19 19:30:06
Naruhiko Ogasawara @naru0ga

某有名クラウドベンダーさんのDBでハマった話。ただしベンダーさんが悪いわけじゃないよ。 #SHIFT_EVOLVE

2021-11-19 19:30:47
Naruhiko Ogasawara @naru0ga

大雑把に言えばProxyの後ろにコンピュートエンジンがいて、そいつがReadなDBとWriteなDBとつながってるってシステム。でもコネクションリークがあるっぽくて不定期にパフォーマンスが劣化するっぽい……なんとかして、ってお客さんからの問い合わせ #SHIFT_EVOLVE

2021-11-19 19:32:15
Naruhiko Ogasawara @naru0ga

ということでXdebugで見てみたら、お客様がRead DBのコネクションリークだと言ってたけど実際はWriteが刺さってる。いうことを信用してRead側だけを見てたら気づかなかった #SHIFT_EVOLVE

2021-11-19 19:33:54
Naruhiko Ogasawara @naru0ga

そしてなんで?ってことになってWrite DBへのネットをWiresharkで見たら異常な再送が起きてる。どうやら特定の条件下でネットワーク障害が起きるというクラウド側の問題。みんな使ってるクラウドだからトラブるわけないだろって思ってたら解決できない #SHIFT_EVOLVE

2021-11-19 19:35:18
SHIFTグループ技術イベント @shiftevolve_jp

お客さんからの障害報告や、クラウドサービス、自分自身も含めであらゆる前提を疑うことがトラブルシューティングでは大切だそうです🙌 五人目は危うくスティーブ・ジョブズに抗議しに行くハメになるところだった話です #SHIFT_EVOLVE

2021-11-19 19:36:29
Naruhiko Ogasawara @naru0ga

結果としてはDBサーバにProxyをかますことで「特定の条件」に引っかからない構成にすることで解決。とにかく思い込みを排除することが大事 #SHIFT_EVOLVE

2021-11-19 19:36:29
Naruhiko Ogasawara @naru0ga

さておつぎ。伊藤 慶紀(SHIFT)さん「危うくスティーブ・ジョブズに抗議しに行くハメになるところだった話」。ジョブズが題材?なのでカッコよく英語使ってスライド作ってるけどかっこよくないです(w #SHIFT_EVOLVE

2021-11-19 19:37:36
Naruhiko Ogasawara @naru0ga

遡ることiOS 7のころ。某出版社でとあるアプリを作った。伊藤さんは途中からプロマネに。まあアプリはできてStoreに申請。が、Apple側でReject食らった……なぜ? #SHIFT_EVOLVE

2021-11-19 19:39:11
Naruhiko Ogasawara @naru0ga

原因は、アプリ内でチケットを購入して、そのチケットで書籍を買うって仕様がダメ。ほかにも細かな指摘があったが、最悪だったのは開発ベンダとの握りがあまく、Reject対応は契約範囲外とかで直してくれない…… >< #SHIFT_EVOLVE

2021-11-19 19:41:13
Naruhiko Ogasawara @naru0ga

AndroidのStoreはザルなので(2013年の話)、あっさりリリースされたがiOS版が出ないので社長怒る、お前ジョブスに文句言ってこい発言。さすがにそれは困るので外注から巻き取って伊藤さん自身が修正、1週間で直せた(ん? #SHIFT_EVOLVE

2021-11-19 19:42:35
Naruhiko Ogasawara @naru0ga

まあReject要件をちゃんと確認するとかは当然として、Reject食らった時のことを考えて契約握っておくというのはMUSTだよねえ…… #SHIFT_EVOLVE

2021-11-19 19:43:40
Naruhiko Ogasawara @naru0ga

どんどん行きます。市村雅史(SHIFT) さん「金融業界にこんなトラブルありました~知られざる黒歴史~」。市村さんもセキュリティサービス部なんですね #SHIFT_EVOLVE

2021-11-19 19:44:30
Naruhiko Ogasawara @naru0ga

おー世田谷電話局ケーブル火災、なつかしすぎる #SHIFT_EVOLVE

2021-11-19 19:44:55
SHIFTグループ技術イベント @shiftevolve_jp

アプリ仕様で審査段階でRejectされたが外注先は仕様通りに作成したとのことでもめたトラブル😱 外注する場合は受け入れ条件に審査に通るまでを明確に記載するのがポイント📝 六人目のLTは金融業界にこんなトラブルありましたです #SHIFT_EVOLVE

2021-11-19 19:45:02
Naruhiko Ogasawara @naru0ga

この火災で三菱のオンラインが死に、監督官庁の大蔵省が激おこ。そのためにケーブルの耐火基準とかそういうのが規定された #SHIFT_EVOLVE

2021-11-19 19:47:01
Naruhiko Ogasawara @naru0ga

おつぎ。七十七銀行 女川支店。2階まで津波が来てシステムまるっとダウン。高台に支店作ろうねとかそういう教訓が起きた。 #SHIFT_EVOLVE

2021-11-19 19:48:10
Naruhiko Ogasawara @naru0ga

セキュリティというと情報セキュリティが脳に浮かぶけど物理的セキュリティも大事。やはり3.11のときに福島県の無人のコンビニATMが襲撃されてお金抜かれたとか、重機に突っ込まれたとか。でも日本のATMは世界でも厳重なほうで、世界中で問題は起きてる #SHIFT_EVOLVE

2021-11-19 19:49:54