Hadoopでログ解析ってよく聞くけど。。。

16
wyukawa @wyukawa

ログ解析はよく聞くけどログ設計の話はあんま聞かないな。そういえば。>エンタープライズビジネスを加速させるHadoop:第4回 ログ解析で利用できるHadoop|gihyo.jp … 技術評論社 http://bit.ly/mXcJk6

2011-07-06 20:40:02
wyukawa @wyukawa

HDFSにとりあえずためとくって話があるけど、完全ノープランでためるだけだとただのゴミだよなあ。監査でどうしても必要っていうなら別の保管の仕方もありそうだし。

2011-07-06 20:41:44
wyukawa @wyukawa

自前でロギングするにせよ専用ソフトを使うにせよ、どういう情報が必要でどう解析してどう役立てるのかっていうストーリーが最初に無いと手段が目的になってしまう気がしている。もちろん最初から完璧なストーリーなど作れないので試行錯誤は必要

2011-07-06 20:43:39
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

だって、ログ設計って運用設計の職人芸が入るから。・・・・ログ解析でログ設計の話がでないってことは、ログ解析な人が運用設計やったことがないってことでしょう。ここでのログ解析ってのは、クリーンなログだから、それは普通は「ログ」とは言わないでしょ。ログはログでも違う「ログ」

2011-07-06 22:04:45
wyukawa @wyukawa

解析につかえないデータも含んだ生のログから解析しやすいデータにする、いわゆるクレンジングがログ解析?の作業の大半だろうなあ。

2011-07-06 22:57:17
wyukawa @wyukawa

クレンジングだったり、スクリプト地獄だったり、そういう泥臭い作業を忘れてログ解析でレコメンドでハッピーとかないよね。たぶん。

2011-07-06 23:03:43
チーフ データサイエンティスト@トレジャ @doryokujin

ものすごく共感RT @wyukawa クレンジングだったり、スクリプト地獄だったり、そういう泥臭い作業を忘れてログ解析でレコメンドでハッピーとかないよね。たぶん。

2011-07-06 23:05:04
tagomoris @tagomoris

@wyukawa ログのクレンジングや変換は一度超きっちり書くと割となんとかなるけど、配送経路の障害で再送・再処理とか容量との戦いとか転送経路のトラフィックとかも大変だお……

2011-07-06 23:06:58
wyukawa @wyukawa

クレンジングでミスっててもミスったのが少量データなら解析に影響無さそうだよな。とはいえ大幅に違ったら困る訳でその意味ではテストは必要。じゃあテストをどのように、どれぐらいやるのがコストメリットにあうかというのが次の課題か

2011-07-06 23:09:04
チーフ データサイエンティスト@トレジャ @doryokujin

それもすごく共感です RT @tagomoris: @wyukawa ログのクレンジングや変換は一度超きっちり書くと割となんとかなるけど、配送経路の障害で再送・再処理とか容量との戦いとか転送経路のトラフィックとかも大変だお……

2011-07-06 23:09:15
wyukawa @wyukawa

@tagomoris なるー。ビックデータだとそうなりますよねー

2011-07-06 23:11:02
wyukawa @wyukawa

Hadoopみたいなビッグデータを扱う分散処理だとエラーが起きたときのトラブルシューティングも大変だなあ。Eclipseでデバッグとかそういう世界じゃないもんな

2011-07-06 23:12:37
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1

同意。RT @doryokujin: ものすごく共感RT @wyukawa クレンジングだったり、スクリプト地獄だったり、そういう泥臭い作業を忘れてログ解析でレコメンドでハッピーとかないよね。たぶん。

2011-07-06 23:17:00
Ryu Kobayashi @ryu_kobayashi

yes RT @okachimachiorz1: 同意。RT @doryokujin: ものすごく共感RT @wyukawa クレンジングだったり、スクリプト地獄だったり、そういう泥臭い作業を忘れてログ解析でレコメンドでハッピーとかないよね。たぶん。

2011-07-06 23:18:49
綾瀬ヒロ @ayasehiro

ログ解析というと、障害分析しかないという………

2011-07-06 23:21:09
秋山 泉 @iakiyama

データマイニングは商用ソフトでも前処理工程(データの統合やら何やら)がすんごい大変です。特にリアル店舗やら、営業マンがいる会社の場合は・・・データ完璧にばらんばらんで結合出来ない時すらw @okachimachiorz1 @doryokujin @wyukawa

2011-07-06 23:21:09
wyukawa @wyukawa

@iakiyama でしょうねえ。クレンジングは別にHadoopに限った話でもないし

2011-07-06 23:23:04
グリーンラベリスト @yanaoki

これを出来るのがTech企業の優位性かもしれんですねぇ〜 RT @tetsuroito: ログ設計というレイヤーまでは到底たどり着けない…

2011-07-06 23:24:04
秋山 泉 @iakiyama

@wyukawa とある大手ソフトベンダーがデータマイニングを社内データで実行しようとして出た結論は・・・『元データが汚すぎでマイニング出来ず』でした。5年間かけたプロジェクトの結論がこれw

2011-07-06 23:25:08
秋山 泉 @iakiyama

ちなみに、テロの発生確率だったか、テロリストがいる場所をマイニングで突き止めようとした実験はあるんだが・・・実用化はしませんでした。結果発生の頻度が低すぎると駄目ってお話だったかな?

2011-07-06 23:26:50
秋山 泉 @iakiyama

@wyukawa SOXでデータの入力方法とか、SHIP2/BILL2の変更方法縛られたり、名寄せに制限がかかる上に、B2Cのお客様とB2Bの顧客が混在してたってのも理由みたいですけど。

2011-07-06 23:28:46
野毛が熱い @tetsuroito

ですね。まあ、自分では無理なんで働きかけるのは出来ますよw RT @yanaoki: これを出来るのがTech企業の優位性かもしれんですねぇ~

2011-07-06 23:29:36
グリーンラベリスト @yanaoki

でかいログならやっぱ豚でクレンジングかなぁ。

2011-07-06 23:33:10
秋山 泉 @iakiyama

ところで、データマイニングは、使い方で、非常に有用って事は明言しときます。3千万のソフトに対する回収が3ヶ月後で100倍(パーセントじゃない)とか、500万位の投資回収が1日で3倍だとか・・・阿呆な位ROIが高いのも事実です。

2011-07-06 23:59:36
秋山 泉 @iakiyama

後・・・アメリカだと、お見合いサイト?とかで活用されてるらしいので(e-harmoneyとか)。誰と誰をマッチングされると結婚し易いかとかは傾向分かるっぽいね。結婚後の生存分析は・・・誰もやってないんじゃないかなw?

2011-07-07 00:02:50