Hadoopカウントダウン(Yet Another Advent Calendar HAHAHA)

「Hadoop Advent Calendar はないのか」 @shiumachi が何気なくつぶやいた一言に @okachimachiorz1 さんが反応。 どこが Advent Calendar なんだよというツッコミもある中、ノリだけで始まったこの企画に果たして参加者は集まるのか!? ルール ・tweet に hadoop に関する tips を書く 続きを読む
38
前へ 1 2 ・・ 6 次へ
tomo🐧@learning @cocoatomo

MapReduceのジョブ群はDAGとして捉えられるが, DAGにはtopological sortが行える. そうすると各ジョブへの最長経路探索がO(|V|+|E|)で行え, これは各ジョブの開始時間に相当し全体の完了時間も分かる. #HadoopCountDown

2010-12-25 13:28:28
Hisayoshi Tamaki @hisayosh

電源やnetwork等を冗長化した上でOSSによるcold standby構成で、、という至れり尽くせりな対応が必要なNameNode。Facebookが公開したhot standbyなNameNode「AvatarNode」に期待が集まっている。#HadoopCountDown

2010-12-25 17:23:18
Eiichiro Uchiumi @eiichirouchiumi

膨大なデータを扱うが故に、可用性と Disk usage におけるバランスを見極めなければならない。Facebook による HDFS RAID などに、戦略的な解決手法を垣間見ることができる #HadoopCountDown 次は、@marblejenka さん

2010-12-25 17:39:57
marble @marblejenka

#HadoopCountDown appengineでもmapreduceが実装される予定だが、reducerはまだ実装されていない。appengineでのreducerは、 @ashigeru さんが検討してるかも。ということで次は @ashigeru さんよろしくです。

2010-12-25 17:47:05
Suguru ARAKAWA @ashigeru

#HadoopCountDown スタンドアロンモードで HADOOP_OPTS=" -Xdebug -Xrunjdwp:transport=dt_socket,address=8000,server=y,suspend=y" してリモートデバッグ。

2010-12-25 18:01:21
Kazuma Andoh @KazumaAndoh

AmazonのEMRでは処理するファイルを適切なサイズ(128MBなど)に分割しておく必要がある。ファイルシステムがS3なのでHDFSのようにファイルを自動分割してくれないため。S3に巨大なファイル1個置いてもMapジョブは1個しか起動しない。 #HadoopCountDown

2010-12-25 18:12:28
Yuri Odagiri @ixixi

hadoopでは入出力やMap出力にgzip,zip,bzip,lzoの圧縮形式が使える. lzoは圧縮率はさほど高くないがCPU負荷が少なく使い勝手が良い. hadoop-lzoでは分割可能. 次は@quarterkota さんお願いします #hadoopCountDown

2010-12-25 20:07:24
Kotaro Tsukui / VELC @tsukui

AmazonEMRで数億件規模のMapReduce検証の結果、S3はHDFSに比べて3~4割スループットが落ちるが複数JobFlowから同時参照される場合はS3の方がスループットが落ちにくい。次は… @shot6 さんどなたか紹介してくださいw #HadoopCountDown

2010-12-26 08:30:50
Tatsuya Kawano @tatsuya6502

#HadoopCountDown ですが、 @KazumaAndoh ご指名の @Nakada_itpro さんは体調不良でパスとなりましたので、次は @deli_phi さんお願いします。( @Nakada_itpro さん、お大事に)

2010-12-26 21:53:02
Takuya UESHIN @ueshin

HBaseはMapした状態に近い形でデータを保持できるので、多段MapReduceや処理の分岐、合流地点のデータ保持にも使えます。次は @yutuki_r さんお願いします〜。 #hadoopcountdown

2010-12-27 00:48:10
豊月 @yutuki_r

HDFSやHBaseやその特性上同時に大量のファイルを扱う。その為事前にファイルディスクリプタ数の上限を上げておく必要がある。データ量が少ない内は気付かず、データが増えると突然出る問題なので見落としがち。 #hadoopcountdown Next→ @mikka_tech さん

2010-12-27 10:54:10
deli @deli_phi

Hadoopなら停滞した基幹系業務システムを変えられる…使いこなす技術力と伝統を打ち破る胆力があれば。(技術Tipsじゃなくてごめんなさい) #HadoopCountDown Next: @tatsuya6502 さん指名お願いします。

2010-12-27 14:43:42
Tatsuya Kawano @tatsuya6502

. @deli_phi さん、ありがとうございました。次は @doryokujin さん、お願いします。 #HadoopCountDown

2010-12-27 17:43:35
チーフ データサイエンティスト@トレジャ @doryokujin

HadoopStreamingをより手軽に扱うライブラリにRubyならwukong・mrtoolkit、Pythonならdumbo・mrjobがある。特筆すべきはmrjobでEMR上での使用が考慮され、SSHTunnel等の便利な機能を備える。 #HadoopCountDown

2010-12-27 18:32:16
Tatsuya Kawano @tatsuya6502

ありがとうございました。 @doryokujin さんの次はですねー、 @osacaz4 さん、お願いします。 #HadoopCountDown

2010-12-27 18:45:51
OsamuHashimoto @osacaz4

jobが暴走して困った時、「hadoop  job -list」でリスト表示して「hadoop job -kill [JobのId]」すると止まる。でも沢山あると大変。次は @hide69oz さんお願いします。 #HadoopCountDown

2010-12-27 19:42:32
オジマヒデキ @ パラレルマーケター @hide69oz

うわー、来ちゃった。 えーっと、 Amazon EMRは MapReduce処理だけでなく、大量の画像変換等を(Reduceしない)ストリーミング処理でも行えますよ と。 米国大手でも利用中。次は @KenTamagawa にバトンタッチ。 #HadoopCountDown

2010-12-28 11:11:36
Mikka @mikka_tech

Hadoopのインストールには、Cloudera版(CDH), Yahoo版, IBM版などといったディストリビューションを使うという手もあります。 #hadoopcountdown 次→ @hamburger_kid さん。

2010-12-28 12:42:58
玉川憲 / ソラコム 代表取締役社長CEO @KenTamagawa

Amazon EMRではHadoop jobを開始した後でも、"--instance-count インスタンス数"パラメーターを用いてタスクノードの数を増減し、ジョブのスピード&コストのバランスを取ることが可能。次は @j3tm0t0に! #HadoopCountDown

2010-12-28 12:56:54
hamburgerkid @hamburger_kid

io.sort.hogehogeを調整してspillを減らすとmapが速くなる。けれど、それだけでJVMのheap使い切らないようにご注意を。次は @seikoudoku2000 さんお願いします。拙いバトンで申し訳ありません。 #hadoopCountDown

2010-12-28 16:20:58
Yosuke Tomita @seikoudoku2000

Combinerでmap-reduce間のデータ転送量を減らせれば処理を高速化できるが、Combinerが実行されることをhadoopは保証しないので、Combinerが実行されなくても結果が変わらないように実装しなければならない。 #hadoopCountDown

2010-12-28 17:04:47
前へ 1 2 ・・ 6 次へ