- okachimachiorz
- 2438
- 0
- 10
- 0
Hadoop2010: Hadoop Security in Detail. http://goo.gl/le4w
2010-07-17 16:01:49Hadoop モテモテw RT @xxkickerxx: 私もー見ますー。RT @Agile_Cat: あとで見ます~~~♪ RT @ryu_kobayashi: Hadoop2010: Hadoop Security in Detail. http://goo.gl/le4w
2010-07-17 16:12:55HadoopSecurity 0.20系 ①ケルベロス導入 ②HDFSへのアクセス(ticket) ③MRのACLの設定 独立ユーザーがそれぞれにセキュアにHadoopを利用するようにしている。http://bit.ly/93T45E @myen
2010-07-17 17:04:15MR本とは、ちょっと違うアプローチ。MRのグラフ処理の考え方・・・ http://bit.ly/cZBtie
2010-07-17 17:08:13Design Pattern for Graph Algorithms in MR はほぼMR本の解説に近い。最後にMR本の紹介してるしw。 http://bit.ly/aENDHG
2010-07-17 17:19:29@okachimachiorz 論文もありますよ。 Design Patterns for Efficient Graph Algorithms in MapReduce (PDF) http://bit.ly/9PxAUZ
2010-07-17 18:20:34Clouderaとの違いは、①Onpremise・pubulic・分散publicを統一的にあつかう。②Thift・hadoopClientを利用していない。ように「見える」RT @Agile_Cat とくに16-17ページに注目。http://bit.ly/cZc9sz
2010-07-17 19:08:13.@okachimachiorz KarmashepreのってHadoopも意識させない感じですね。生Hadoopはつらいという認識は方向性はありと思います。Thriftもいらない。全然いらない。
2010-07-17 20:05:15Hadoop summit 2010の資料全部ダウンロードさせてほしいなあ。ipadで移動中とかにみたいのです・・・
2010-07-17 20:32:23AzureのAppFabric も似た考え方。王道ですね。RT @okachimachiorz: ①Onpremise・pubulic・分散publicを統一的に扱う。②Thift・hadoopClientを利用していない。ように「見える」http://bit.ly/cZc9sz
2010-07-17 20:35:59次。Facebookでは、WarehouseでHBase+Hiveを使ってる。20ノード、gzip圧縮6TBデータを初期ロード。その後は時間当たり30GBをHive経由で。
2010-07-17 20:52:20Twitterの事例。Twitterのライフサイクルは4つ。Data input/Data storage/Data analysis/Data products
2010-07-17 20:57:42input-> Scribe, Crane, storage -> ElephantBird, HBase, analysis -> Pig, Oink, products -> Birdbrainてかんじ。Crane, Elephant BirdはTwitterのOSS
2010-07-17 20:59:11TweetデータはMySQL。MySQL to HDFS, MySQL to HBase, MySQL to MySQLを行う必要があって、それはCraneという自前のでやってるらしい。
2010-07-17 21:04:10次。Storage。inは7TB/dayで、全てのデータはLZO圧縮(!) 3-4xストレージにやさしく、かつCPUもそんなに使わない。そしてスプリッタブル!
2010-07-17 21:07:09Elephant-birdはlzo圧縮したデータをproto bufで圧縮して送る仕組み。In/OutFormat, Pig, StoreFuncなど。
2010-07-17 21:10:00CraneからのロードデータはHBaseに入るのね。そうか、tabularなデータをそのまま突っ込むために使ってるのか。
2010-07-17 21:12:49Analysisi。Pig先生の出番です。PigにするとMRの5%のコードで、実行時間は30%ましなだけ。まあPigだよね。。。
2010-07-17 21:14:50OinkはPigベースのワークフロー。こいつはTwitter内部っぽいなー。PigをRubyでDSL書くという、どっかで聞いた話をやってますよ、と。
2010-07-17 21:16:52