KLab勉強会#6

ただハッシュタグ #KLabを拾っただけです。 多分重複は除いてあります。
2
matsuu @matsuu

#KLab KLabのソーシャルゲームは12タイトル、33サイト(モバゲー、GREE、mixi、iPhoneアプリなど)。1サイトあたり最大数千万PV/日。膨大なログを要約/可視化する必要がある

2012-06-25 20:01:55
matsuu @matsuu

#KLab KLabでは、BI用ツール(kg_report)を開発するチームとデータマイニングチーム(kg_kpi)がある。BIは経営寄り、データマイニングはマーケ+開発寄り

2012-06-25 20:03:17
matsuu @matsuu

#KLab BIチームのミッションはkg_reportの開発。売上管理の側面として、全プロジェクト網羅的、正確であることが重要。ただ、数字は合計だけで、厚い情報は必要ない。担当者が確認できるツールが必要。

2012-06-25 20:04:38
matsuu @matsuu

#KLab データマイニングチームは、開発側は多くのゲームのデータを統一フォーマットで収集・蓄積し分析に利用できるようにすること。定常的なレポートの整備。企画側はデータを分析し運用などへフィードバック。

2012-06-25 20:05:53
matsuu @matsuu

#KLab データマイニングは分析に必要になったときに、使える状態にあればよい。最低限蓄積されていれば良い。どういう使い方になるかわからないから。また、深い・細かい情報が必要。標準化されたフォーマットで蓄積されていことが大事。

2012-06-25 20:06:55
matsuu @matsuu

#KLab データマイニング用のシステムはAmazon AWS上に構築している。データはS3に蓄積、それをRDSにエクスポート。それをEC2を使って分析かな?

2012-06-25 20:08:04
matsuu @matsuu

#KLab 集計スクリプトはPythonで。各プロジェクトのサーバーで稼働し、アクセスログ+DBデータをシリアライズして送信。データフォーマットはメタデータ+タブ区切り。売上ログ、アクセスしたユーザー、招待、新規インストール、レベルのスナップショット、他諸々

2012-06-25 20:09:08
matsuu @matsuu

#KLab Apacheのアクセスログももちろんとってる。Apacheという言葉が出てきたからApache使ってるんだな。ふーむ、nginxじゃないのか。

2012-06-25 20:09:42
matsuu @matsuu

#KLab AWSデータストレージ。EC2でスクリプトを動かし、S3にアクセスログおよびKPIデータをファイルで格納。RDSに分析用データを格納。EMR(Elastic MapReduce)でログをバイナリフォーマットに変換

2012-06-25 20:10:35
matsuu @matsuu

#KLab 静的HTMLレポートを生成している。HTMLのメリットとして迅速に項目追加できること。HTMLテーブルはエクセルにコピペできるので便利。また図も載せられるのし。

2012-06-25 20:11:52
LambdaCracker @masahiroSkd

ランニングコストがかかるのでhtmlの静的ファイルで出力。 htmlだとグラフ化できるのもメリット。 #Klab

2012-06-25 20:13:23
matsuu @matsuu

#KLab HTMLテーブルはエクセルにコピペできるので便利ってのは目から鱗だな。xlsやcsvで出さなきゃって考えがち。

2012-06-25 20:13:41
matsuu @matsuu

#KLab KLabではジニ係数をよく利用する。主に取得格差の指標として使用されるが、KLabでは購入額(課金額)の差を数量化。ほう面白い。0.81485927827って数字が出てるがこれモノホンの数字かな?

2012-06-25 20:15:11
matsuu @matsuu

#KLab 成功しているサービスは一部のユーザに依存せずたくさんのユーザーがお金を使ってくれる傾向がある。なのでそのチェックにジニ係数が使えるらしい。

2012-06-25 20:16:20
matsuu @matsuu

#KLab デシル分析。上位x%のユーザーで売上の何%を占めるか。ほうほう。

2012-06-25 20:16:55
Satoshi SUZUKI 🌗 @studio3104

デシル分析はfluent-plugin-datacounterで出来そう #KLab

2012-06-25 20:17:19
matsuu @matsuu

#KLab アクセスログはmsgpackでバイナリ化している。会員IDごとにファイルを100分割。時刻、会員ID、URL、GETパラメータの4カラムのバイナリデータに変換。これによってログ検索の高速化を行なっている

2012-06-25 20:18:23
matsuu @matsuu

#KLab バイナリログのメリット。パス別の滞在時間やユーザーの行動履歴などが高速に計算できる。バイナリだからってのはよくわからん。

2012-06-25 20:23:01
matsuu @matsuu

#KLab Elastic MapReduceを使い13台の仮想マシンによる分散処理でログを変換している。毎時$0.06を13台。

2012-06-25 20:23:12
matsuu @matsuu

#KLab 統計パッケージの利用。RやSPSSを使ってる。Rは言わずもがな。プログラマ向け。SPSSはIBM製で有償。GUIで統計解析を実行。企画・マーケチームの利用を想定。

2012-06-25 20:23:26
matsuu @matsuu

#KLab 有用なレポートは定常レポートへ。Python: numpy + matplotlib。Pythonで実装することが多いらしい。

2012-06-25 20:24:00
matsuu @matsuu

#KLab おー、ほんまや/usr/bin/bzgrepはただのシェルスクリプトだった RT @smbd: @matsuu shell scriptなので同じかと

2012-06-25 20:33:09
LambdaCracker @masahiroSkd

KLab勉強会#6 本編は終了!! #Klab いざ懇親会へ!!

2012-06-25 20:37:27
matsuu @matsuu

#KLab SPSSを導入するとIBMのコンサルからいろいろ教えてもらえるらしい

2012-06-25 20:37:36