編集可能

Hadoopカウントダウン(Yet Another Advent Calendar HAHAHA)

「Hadoop Advent Calendar はないのか」 @shiumachi が何気なくつぶやいた一言に @okachimachiorz1 さんが反応。 どこが Advent Calendar なんだよというツッコミもある中、ノリだけで始まったこの企画に果たして参加者は集まるのか!? ルール ・tweet に hadoop に関する tips を書く 続きを読む
hadoop
38
Sho Shimauchi @shiumachi
HadoopはJTを再起動するとジョブを完了したかどうかを忘れる。ログディレクトリ上のジョブ設定xmlファイルはジョブ完了後24時間経つと削除されるが、たまに削除されないのはこのためである。次 @okachimachiorz1 さんどぞ #hadoopCountDown
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1
Hadoopで分散処理を考えるときは、2通りの検討の仕方がある。一つはデータ処理フロー自体を並列処理ができるかどうか?という検討と、データモデル自体がDAGのようなグラフ構造になっているかどうかだ。・・次は@marblejenka さんで。 #hadoopCountDown
marble @marblejenka
R/inputは、grouping comparatorの実装を替えると処理対象の境界を切ることができる。joinのテクニックとしてもよく知られており、時系列データの分析では自己結合として使うと便利。 @nemoton さんお願いします。 #hadoopCountDown
Naoki Nemoto @nemoton
分散処理で重要なのは、処理を結ぶためのNW。プログラマが意識することなく、Hadoopは効率よくNW運用を行う。CPU内でメニーコア化/NW複雑化が進み、効率よくコア間処理を行うためにHadoopをチップ上で活用する研究も。次は@shot6さん~ #hadoopCountDown
Shinpei Ohtani @shot6
Hadoopを使うときに最もボトルネックになりやすいのはHadoopにデータが入る部分、MapReduceの中間、そしてHadoopから出て行くところの3つ。特にMapへの入力になるデータのスプリットの単位はとても重要。次は@Guutaraさん。 #hadoopCountDown
Guutara にゃーん (⁰⊖⁰) @Guutara
CPUとDISKとメモリを物理的に、並列に並べ資源を使い果すのが、Hadoopの目指す道。そこには計算処理の分散と、データ処理の分散がありどちらも試す価値はあります。問題はネットワーク。高価で分散の妨げです。つぎ @ryu_kobayashiさん #hadoopCountDown
Ryu Kobayashi @ryu_kobayashi
HadoopはNameNodeがSPOFになるのでファイルサーバにはできない。また、セカンダリNameNodeがあったとしても、完璧なスナップショットが取れているわけではないので完璧に復旧をすることは難しい。次 @ashigeru さん #hadoopCountDown
Suguru ARAKAWA @ashigeru
並行して動作できる複数のReducerは、セカンダリソートを利用して一つにまとめられる。つぎ、 @fujibee さんで #hadoopCountDown
藤川幸一 FUJIKAWA Koichi @fujibee
Hadoop JobをJava以外で書く方法。Hive,Pig,Jaql,PapyrusなどのDSL、Streaming,Pipesなどのパイプ実行など。Streamingは思ったほどパフォーマンスが落ちない。次は @kzk_mover さん。#hadoopCountDown
Kazuki Ohta @kzk_mover
Hadoopは並列処理を初めて身近なものにしてくれたソフトウェア。つぎ、 @kkawamura さん。 #hadoopCountDown
Keisuke Kawamura @kkawamura
Hadoopクラスタはコモディティサーバで構成されるが、コモディティサーバとは安価なサーバや使い回しの古いサーバでよいということではない。処理の特性やデータ量からCPU、メモリ、ディスクを見積もることが必要。次 @sasata299 さん #hadoopCountDown
ささたつ(Tatsuya Sasaki) @sasata299
ClouderaやEMRからStreamingでHadoopを使う場合、デフォルトで設定されている mapred.child.java.opts は大きすぎるので小さめの値を設定した方が良い。次は @hamaken さん #hadoopCountDown
Kenichiro HAMANO @hamaken
Hadoopは大量データアクセスのためにスループットを優先。大量データから小さなデータを低レイテンシで見つけるための道具ではない。でも、前処理などにHadoopは有用だったりする。次は @shiumachi さん。 #hadoopCountDown
Sho Shimauchi @shiumachi
おおっと、私は書いたのでパスで。 次は @nokuno さんお願いします #hadoopCountDown
Tatsuya Kawano @tatsuya6502
MapReduce処理の設計が苦手なら、スプレッドシートを使うとよい。表の各行がMapの入力で、行の小計が出力。小計列の合計がReduceの出力になる。多段MRの場合は表をたくさん書いてみる(ITアーキテクト vol 22より) #hadoopCountDown
bohnen(草食系PM) @bohnen
Namenodeは全てのデータチャンクの物理配置を保持し、メモリに展開するので、hadoopクラスタのデータ量に応じたメモリが必要。SPOF問題はFTサーバといったお金で解決手段も #hadoopCountdown
Yoh Okuno @yoh_okuno
MapReduceの中間データを削減する方法の1つに、Stripesパターンがある。keyの一部をvalueに移すことでエントリ数が減るので、Shuffleフェーズが軽くなる。次は @issay さんお願いします。 #hadoopCountDown
mogemogu @mogemogu
rccコマンドを使用することで、MapReduceの型(Java、C++)を作成できる。次は、@muddydixon さん。 #hadoopCountDown
Muddy Dixon @muddydixon
hive streamingでmecabとか使うときはtasktracker全台にインストールが必要。エラーログは出ないので注意。次は @yanaoki さん #hadoopCountDown
Issay Yoshida @issay
DatanodeにはHTTPサーバが立ち上がっていて、HDFS上のファイルをHTTP経由でダウンロードできる。WebUI上からたどっていって、Download this fileでダウンロード可能。次は、@shun0102さん #hadoopCountDown
Kota Uenishi (๑•̀ㅂ•́)و✧ @kuenishi
こういうの使うと多分、フツーにMap(の前の読み込み)速くなると思うよ http://j.mp/gkMjZO #hadoopCountDown
三上俊輔 @shun0102
分散ファイルシステムのGfarm,Lustre,GPFS,Ceph,PVFS はそれぞれにHDFSの代わりとしてそのファイルシステム上でHadoop を動かすプロジェクトがある。ただしオープンソースでないものもある。次は @m_mouri さん #hadoopCountDown
M.Mouri @m_mouri
Hadoopというと並列分散に注目されがちだが、実は1台で使っても数百倍も速くなるときがある。(特にRDBの)Disk I/Oがボトルネックになっているときは、MapReduceが適用できないか検討する。次は公式に @tatsuya6502 さん #hadoopCountdown
グリーンラベリスト @yanaoki
Reduce-Side-Joninは、WritableComparableな複合キーと、そのセカンダリソートを利用する。DITPwMR本でいうところの「value-to-key-conversionパターン」。 次は @ixixi さん #hadoopCountdown
Tatsuya Kawano @tatsuya6502
MapReduceの二次的な入力としてキーによるルックアップが必要なときは、索引付きファイルを使う方法もある。HFileはHDFSに最適化された索引付きファイル。HBaseのために開発されたが単体でも使用できる。次は @cocoatomo さん。 #hadoopCountDown
残りを読む(102)

コメント

Sho Shimauchi @shiumachi 2010年12月20日
皆さんの協力のおかげで着々といいものができつつあります。私ももうちょいマシなの書けばよかった
Sho Shimauchi @shiumachi 2010年12月23日
追加しました。いい感じに盛り上がってきましたので漏れ等あるかもしれません。気づいたら修正お願いします。
Sho Shimauchi @shiumachi 2010年12月25日
ジョブが大量に投げられたときに相当の漏れがあったようです。追加しました。大変申し訳ありませんでした。誰でも編集が可能になってますので、気づいた方は直していただけるとうれしいです
御徒町@MultiVersionConcurrentClimber(MVCC) @okachimachiorz1 2010年12月25日
さー今年も残すところあと一週間となりました。
Tatsuya Kawano @tatsuya6502 2010年12月31日
@horiuchi さんのつぶやきを追加しました
Sho Shimauchi @shiumachi 2010年12月31日
23:37:36 分まで更新しました。ものすごい量なので漏れとか順番ミスとかあるかもしれません。気づいたら修正してくれるとうれしいです
Sho Shimauchi @shiumachi 2011年1月1日
これでとりあえず完成かな?
Sho Shimauchi @shiumachi 2011年1月1日
質疑応答があったのでちょっと追加
Sho Shimauchi @shiumachi 2011年1月1日
抜けてたところをちょっと追加
ログインして広告を非表示にする
ログインして広告を非表示にする