2016/02/18 デブサミ2016【18-B-2】データ分析で始めるサービス改善最初の一歩 #devsumiB

IIJで運用しているサービス「IIJ GIO」S3互換のストレージとHiveによる解析機能を提供している #devsumiB
2016-02-18 11:09:59
サービス利用の全体傾向をつかめていなかった(障害の全体像がわからない・需要予測がしづらい・予防的なパフォーマンス改善ができない)→ログを収集・分析することで実現する #devsumiB
2016-02-18 11:13:56
これまでの運用は、単発の障害検知や単体/結合Testの自動化。 ⇒ サービス全体としての状況把握ができていなかった。 #devsumiB
2016-02-18 11:13:56
「ログ収集と可視化」(1) Flumeでのログ収集 (2) Elasticsearchへの蓄積、kibanaによる可視化 #devsumiB
2016-02-18 11:17:38
elastic searchもkibanaは知ってるけど使ったことないシリーズだな・・・使ってみようかな #devsumiB
2016-02-18 11:18:47
Flumeはログ転送ツール。類似のツールはFluent, Logstash。FlumeはSource, Channel, Sinkの三段構成。プラグインを自作可能。分析していく上で困ったことはプラグインで解決した。 #devsumiB
2016-02-18 11:19:49
ログ収集・可視化の問題点(1) ログの量が多い(total 20GB/day) (2)「有用な」ログの選別が辛い (formatバラバラstack traceそのまま) #devsumiB
2016-02-18 11:22:37
ログ収集で、問題点にぶつかった。 ・ログが1日20GB。年間7TB。保存がきつい。 ・ログの選別。フォーマットがバラバラ。スタックトレースそのまま出力。 #devsumiB
2016-02-18 11:23:25
対策:収集するログを絞る。(1)Apacheアクセスログのみ(ユーザ利用傾向だけなら十分。ログの大部分はアプリのトレースログだった) (2) FlumeにEsperを組み込んで集約 (CAの事例を参考に実装 cyberagent.co.jp/techinfo/techr…) #devsumiB
2016-02-18 11:24:07