Hadoopソースコードリーディング第3回 (2010/06/28 Mon)
![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
@nsiena 「超えられない壁」はないんだとゆーことですかね。であれば、どっちを選ぶかは、純粋に技術的な都合だけってことになるかなと思いますが。
2010-06-29 02:10:29![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
早速まとめられている。素晴らしい。 RT @yutuki_r: #HBase と #Cassandra 比較、 @tatsuya6502 氏の資料を基に表にしてみた。 http://goo.gl/OWOK #hadoopreading
2010-06-29 04:00:51![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
昨日の #hadoopreading でもらった質問でいちばん気になるのは、 Map Reduce + HBase での、データのローカリティの扱いだよね。ここはちゃんと確認しておこう。
2010-06-29 08:05:07![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
Hadoop のJobTrackerは、レプリカがどのDataNodeにあるかをどうやって知るんだっけ? #hadoopreading にふさわしいネタだなあ。あと、Map Reduceからの HBase HFileの直接出力も、みな興味のありそうなところか。
2010-06-29 08:07:05![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
@okachimachiorz なるほど。では、そこになにか汎用的なインターフェイスを導入して、JobTrackerが Cassandra や HBase とお話しできるようにすればいいのかな。RT: NameNodeに問い合わせてます。 #hadoopreading
2010-06-29 09:06:21![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
@tatsuya6502 あぁ、それでいいはずです。うまく「会話」できれば、そのまま手を加えずにMRがHDFSと同じパフォーマンスで走るはずです。 #hadoopreading
2010-06-29 09:16:21![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
JobTrakcerにMapとRSのローカリティを制御させて、HBaseにRSとHDFS(HFile)のローカリティを制御させるのが正解かと。 @m_mouri @tatsuya6502 MR+HBaseのローカリティは、RSレベルとHFileレベル #hadoopreading
2010-06-29 09:30:37![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
KVSでMRする時のローカリティはずっと気になっていたのですっきりしました。やりすぎるとKVSでデータソースを抽象化する意味がなくなるのでバランスが大切なとこですね。RT @tatsuya6502 昨日の #hadoopreading でもらった質問でいちばん気になるのは...
2010-06-29 09:47:45![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
RT @hishidama: 早速まとめられている。素晴らしい。 RT @yutuki_r: #HBase と #Cassandra 比較、 @tatsuya6502 氏の資料を基に表にしてみた。 http://goo.gl/OWOK #hadoopreading
2010-06-29 09:51:10![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
RT @hishidama: 早速まとめられている。素晴らしい。 RT @yutuki_r: #HBase と #Cassandra 比較、 @tatsuya6502 氏の資料を基に表にしてみた。 http://goo.gl/OWOK #hadoopreading
2010-06-29 09:53:27![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
RT @hishidama: 早速まとめられている。素晴らしい。 RT @yutuki_r: #HBase と #Cassandra 比較、 @tatsuya6502 氏の資料を基に表にしてみた。 http://goo.gl/OWOK #hadoopreading
2010-06-29 10:01:43![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
RT @hishidama: 早速まとめられている。素晴らしい。 RT @yutuki_r: #HBase と #Cassandra 比較、 @tatsuya6502 氏の資料を基に表にしてみた。 http://goo.gl/OWOK #hadoopreading
2010-06-29 10:06:48![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
Map Reduce + HBase のMapとRSのローカリティについて情報をくださったみなさん、ありがとうございました。HBaseのソースコードを読んだところ、この機能はすでに実装されていることがわかりました。 #hadoopreading
2010-06-29 10:08:45![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
Map ReduceではInputSplitがローカリティ情報を保持していて、InputFormatが一連のsplitを作ります。 HBase ではTableInputFormatがこの役割を負ってます。 http://ow.ly/1qEE2s #hadoopreading
2010-06-29 10:11:08![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
RT @tatsuya6502: Map ReduceではInputSplitがローカリティ情報を保持していて、InputFormatが一連のsplitを作ります。 HBase ではTableInputFormatがこの役割を負ってます。 http://ow.ly/1qEE2s #hadoopreading
2010-06-29 10:18:30![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
RT @hishidama: 早速まとめられている。素晴らしい。 RT @yutuki_r: #HBase と #Cassandra 比較、 @tatsuya6502 氏の資料を基に表にしてみた。 http://goo.gl/OWOK #hadoopreading
2010-06-29 10:19:44![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
きれいな実装が入ってるんですね! QT @tatsuya6502: MRではInputSplitがローカリティ情報を保持していて、InputFormatが一連のsplitを作ります。 HB http://ow.ly/1qEE2s #hadoopreading
2010-06-29 10:21:35![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
RT @hishidama: 早速まとめられている。素晴らしい。 RT @yutuki_r: #HBase と #Cassandra 比較、 @tatsuya6502 氏の資料を基に表にしてみた。 http://goo.gl/OWOK #hadoopreading
2010-06-29 11:18:23![](https://tgfile.tg-static.com/static/web/img/placeholder.gif)
RT @hishidama: 早速まとめられている。素晴らしい。 RT @yutuki_r: #HBase と #Cassandra 比較、 @tatsuya6502 氏の資料を基に表にしてみた。 http://goo.gl/OWOK #hadoopreading
2010-06-29 11:18:46