2010年7月17日

HadoopSummit2010の各自のレビューのまとめですか

まーあとで多分見ること多いと思う。 shot6さんお疲れ様です

okachimachiorz
2438
0
10
0

4

Ryu Kobayashi @ryu_kobayashi

Hadoop2010: Hadoop Security in Detail. http://goo.gl/le4w

2010-07-17 16:01:49

Agile Cat @Agile_Cat

Hadoop モテモテｗ RT @xxkickerxx: 私もー見ますー。RT @Agile_Cat: あとで見ます～～～♪ RT @ryu_kobayashi: Hadoop2010: Hadoop Security in Detail. http://goo.gl/le4w

2010-07-17 16:12:55

御徒町@Serializable @okachimachiorz

HadoopSecurity 0.20系　①ケルベロス導入　②HDFSへのアクセス（ticket）　③MRのACLの設定　独立ユーザーがそれぞれにセキュアにHadoopを利用するようにしている。http://bit.ly/93T45E @myen

2010-07-17 17:04:15

御徒町@Serializable @okachimachiorz

MR本とは、ちょっと違うアプローチ。MRのグラフ処理の考え方・・・　http://bit.ly/cZBtie

2010-07-17 17:08:13

御徒町@Serializable @okachimachiorz

Design Pattern for Graph Algorithms in MR はほぼMR本の解説に近い。最後にMR本の紹介してるしｗ。　http://bit.ly/aENDHG

2010-07-17 17:19:29

御徒町@Serializable @okachimachiorz

Clouderaよりも、使えそうな件。http://bit.ly/au6mba

2010-07-17 17:32:28

【ヽ´ん`】 @dev_momen

@okachimachiorz 論文もありますよ。 Design Patterns for Efficient Graph Algorithms in MapReduce (PDF) http://bit.ly/9PxAUZ

2010-07-17 18:20:34

御徒町@Serializable @okachimachiorz

Clouderaとの違いは、①Onpremise・pubulic・分散publicを統一的にあつかう。②Thift・hadoopClientを利用していない。ように「見える」RT @Agile_Cat とくに16-17ページに注目。http://bit.ly/cZc9sz

2010-07-17 19:08:13

Shinpei Ohtani @shot6

.@okachimachiorz KarmashepreのってHadoopも意識させない感じですね。生Hadoopはつらいという認識は方向性はありと思います。Thriftもいらない。全然いらない。

2010-07-17 20:05:15

Shinpei Ohtani @shot6

Hadoop summit 2010の資料全部ダウンロードさせてほしいなあ。ipadで移動中とかにみたいのです・・・

2010-07-17 20:32:23

Agile Cat @Agile_Cat

AzureのAppFabric も似た考え方。王道ですね。RT @okachimachiorz: ①Onpremise・pubulic・分散publicを統一的に扱う。②Thift・hadoopClientを利用していない。ように「見える」http://bit.ly/cZc9sz

2010-07-17 20:35:59

Shinpei Ohtani @shot6

Hadoop Securiyを使うとDistributedCacheもセキュアにできるのか。

2010-07-17 20:47:44

Shinpei Ohtani @shot6

これのことか。>http://en.wikipedia.org/wiki/SPNEGO

2010-07-17 20:48:54

Shinpei Ohtani @shot6

次。Facebookでは、WarehouseでHBase+Hiveを使ってる。20ノード、gzip圧縮6TBデータを初期ロード。その後は時間当たり30GBをHive経由で。

2010-07-17 20:52:20

Shinpei Ohtani @shot6

Twitterの事例。Twitterのライフサイクルは4つ。Data input/Data storage/Data analysis/Data products

2010-07-17 20:57:42

Shinpei Ohtani @shot6

input-> Scribe, Crane, storage -> ElephantBird, HBase, analysis -> Pig, Oink, products -> Birdbrainてかんじ。Crane, Elephant BirdはTwitterのOSS

2010-07-17 20:59:11

Shinpei Ohtani @shot6

Log/Tabular dataがinputの主流。Scribeで7TB/day to HDFSか。

2010-07-17 21:02:17

Shinpei Ohtani @shot6

Flumeも評価するぜ、とな。

2010-07-17 21:02:56

Shinpei Ohtani @shot6

TweetデータはMySQL。MySQL to HDFS, MySQL to HBase, MySQL to MySQLを行う必要があって、それはCraneという自前のでやってるらしい。

2010-07-17 21:04:10

Shinpei Ohtani @shot6

Twitter製ETLツールでOSSにする予定、設定とバッチ管理、ZK登録。

2010-07-17 21:05:16

Shinpei Ohtani @shot6

次。Storage。inは7TB/dayで、全てのデータはLZO圧縮(!) 3-4xストレージにやさしく、かつCPUもそんなに使わない。そしてスプリッタブル！

2010-07-17 21:07:09

Shinpei Ohtani @shot6

Elephant-birdはlzo圧縮したデータをproto bufで圧縮して送る仕組み。In/OutFormat, Pig, StoreFuncなど。

2010-07-17 21:10:00

Shinpei Ohtani @shot6

CraneからのロードデータはHBaseに入るのね。そうか、tabularなデータをそのまま突っ込むために使ってるのか。

2010-07-17 21:12:49

Shinpei Ohtani @shot6

Analysisi。Pig先生の出番です。PigにするとMRの5%のコードで、実行時間は30%ましなだけ。まあPigだよね。。。

2010-07-17 21:14:50

Shinpei Ohtani @shot6

OinkはPigベースのワークフロー。こいつはTwitter内部っぽいなー。PigをRubyでDSL書くという、どっかで聞いた話をやってますよ、と。

2010-07-17 21:16:52

1 2 次へ

いま話題のタグ

話題15049 岸田メル63 ホテル556 虎に翼17 出禁46 クレカ82 鬼滅の刃1233 子育て2735 離婚364 お金持ち30 ラーメン1281 NNN33 らーめん再遊記6 ChatGPT444 ねこ2433