HadoopSummit2010の各自のレビューのまとめですか

まーあとで多分見ること多いと思う。 shot6さんお疲れ様です
4
Agile Cat @Agile_Cat

Hadoop モテモテw RT @xxkickerxx: 私もー見ますー。RT @Agile_Cat: あとで見ます~~~♪ RT @ryu_kobayashi: Hadoop2010: Hadoop Security in Detail. http://goo.gl/le4w

2010-07-17 16:12:55
御徒町@Serializable @okachimachiorz

HadoopSecurity 0.20系 ①ケルベロス導入 ②HDFSへのアクセス(ticket) ③MRのACLの設定 独立ユーザーがそれぞれにセキュアにHadoopを利用するようにしている。http://bit.ly/93T45E @myen

2010-07-17 17:04:15
御徒町@Serializable @okachimachiorz

MR本とは、ちょっと違うアプローチ。MRのグラフ処理の考え方・・・ http://bit.ly/cZBtie

2010-07-17 17:08:13
御徒町@Serializable @okachimachiorz

Design Pattern for Graph Algorithms in MR はほぼMR本の解説に近い。最後にMR本の紹介してるしw。 http://bit.ly/aENDHG

2010-07-17 17:19:29
【ヽ´ん`】 @dev_momen

@okachimachiorz 論文もありますよ。 Design Patterns for Efficient Graph Algorithms in MapReduce (PDF) http://bit.ly/9PxAUZ

2010-07-17 18:20:34
御徒町@Serializable @okachimachiorz

Clouderaとの違いは、①Onpremise・pubulic・分散publicを統一的にあつかう。②Thift・hadoopClientを利用していない。ように「見える」RT @Agile_Cat とくに16-17ページに注目。http://bit.ly/cZc9sz

2010-07-17 19:08:13
Shinpei Ohtani @shot6

.@okachimachiorz KarmashepreのってHadoopも意識させない感じですね。生Hadoopはつらいという認識は方向性はありと思います。Thriftもいらない。全然いらない。

2010-07-17 20:05:15
Shinpei Ohtani @shot6

Hadoop summit 2010の資料全部ダウンロードさせてほしいなあ。ipadで移動中とかにみたいのです・・・

2010-07-17 20:32:23
Agile Cat @Agile_Cat

AzureのAppFabric も似た考え方。王道ですね。RT @okachimachiorz: ①Onpremise・pubulic・分散publicを統一的に扱う。②Thift・hadoopClientを利用していない。ように「見える」http://bit.ly/cZc9sz

2010-07-17 20:35:59
Shinpei Ohtani @shot6

Hadoop Securiyを使うとDistributedCacheもセキュアにできるのか。

2010-07-17 20:47:44
Shinpei Ohtani @shot6

次。Facebookでは、WarehouseでHBase+Hiveを使ってる。20ノード、gzip圧縮6TBデータを初期ロード。その後は時間当たり30GBをHive経由で。

2010-07-17 20:52:20
Shinpei Ohtani @shot6

Twitterの事例。Twitterのライフサイクルは4つ。Data input/Data storage/Data analysis/Data products

2010-07-17 20:57:42
Shinpei Ohtani @shot6

input-> Scribe, Crane, storage -> ElephantBird, HBase, analysis -> Pig, Oink, products -> Birdbrainてかんじ。Crane, Elephant BirdはTwitterのOSS

2010-07-17 20:59:11
Shinpei Ohtani @shot6

Log/Tabular dataがinputの主流。Scribeで7TB/day to HDFSか。

2010-07-17 21:02:17
Shinpei Ohtani @shot6

Flumeも評価するぜ、とな。

2010-07-17 21:02:56
Shinpei Ohtani @shot6

TweetデータはMySQL。MySQL to HDFS, MySQL to HBase, MySQL to MySQLを行う必要があって、それはCraneという自前のでやってるらしい。

2010-07-17 21:04:10
Shinpei Ohtani @shot6

Twitter製ETLツールでOSSにする予定、設定とバッチ管理、ZK登録。

2010-07-17 21:05:16
Shinpei Ohtani @shot6

次。Storage。inは7TB/dayで、全てのデータはLZO圧縮(!) 3-4xストレージにやさしく、かつCPUもそんなに使わない。そしてスプリッタブル!

2010-07-17 21:07:09
Shinpei Ohtani @shot6

Elephant-birdはlzo圧縮したデータをproto bufで圧縮して送る仕組み。In/OutFormat, Pig, StoreFuncなど。

2010-07-17 21:10:00
Shinpei Ohtani @shot6

CraneからのロードデータはHBaseに入るのね。そうか、tabularなデータをそのまま突っ込むために使ってるのか。

2010-07-17 21:12:49
Shinpei Ohtani @shot6

Analysisi。Pig先生の出番です。PigにするとMRの5%のコードで、実行時間は30%ましなだけ。まあPigだよね。。。

2010-07-17 21:14:50
Shinpei Ohtani @shot6

OinkはPigベースのワークフロー。こいつはTwitter内部っぽいなー。PigをRubyでDSL書くという、どっかで聞いた話をやってますよ、と。

2010-07-17 21:16:52