Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会（第4回） (4ページ目)

#hadoopmodeling MRの性能問題。Map OutputのIOとShuffleのIOのコスト。まずは前者をMap Multi-Reduceで考えてみる。Combinerより前でCombineすればMap OutputのIOは減る。

2011-03-28 19:16:42

Jun Ohtani @johtani

あぁ、行きたかった… #hadoopmodeling

2011-03-28 19:17:32

#hadoopmodeling pushdownとは。処理の意味が変わらないようにデータ量を減らす。projectionをなるべく実行の早い段階でやる。

2011-03-28 19:18:34

#hadoopmodeling pushdown = 事前に絞る

2011-03-28 19:18:34

( #hadoopModeling live at http://ustre.am/hx3O ) Map Multi Reduce ・・ワードカウント、sum等では減る。avg等では減らないケースも

2011-03-28 19:18:58

( #hadoopModeling live at http://ustre.am/hx3O ) pushdown・・DBで使われている技術 select * from A,B selectionをテーブル側(A,B)に持って行く select <= * <= A , B

2011-03-28 19:20:31

Hidenori nhide Nakamura @nhide

Hadoopで早くできる処理：合計値、カウント。向かない処理：平均値など、全体を処理しないと結果が出ない処理。 #hadoopmodeling

2011-03-28 19:21:43

( #hadoopModeling live at http://ustre.am/hx3O ) * <=JOIN<= select A ,select B なイメージ。Conbinerを普通自作して作るがそれを自動的にやるという話

2011-03-28 19:22:02

#hadoopmodeling Record Reduce。Map OutputをHashに詰めとけばCombiner起動前にCombineできる。Hadoperは割と普通にやるけど、これを自動的にやってくれたりする。

2011-03-28 19:22:30

#hadoopmodeling local-reduce Mapper-side Join みたいなもの? なんでパフォーマンスが出てこないそうだが, 何故なんだろう? worker が重い?

2011-03-28 19:23:29

#hadoopmodeling P Join。OLAP的なものをつくるときの話。クロス分析的なことをやるので、JoinとかAggregatonがおおい。取り扱うデータ量もおおい。

2011-03-28 19:26:24

Ransui Iso @ransui

結局のところ、「集める」っていう部分をいかに上手くやってやるかってとこに集約されるわけだ。 #hadoopmodeling

2011-03-28 19:26:30

#hadoopmodeling MRだとJoinがおもい。TPC-HというOLAPのベンチマークだと、スタースキーマに売上を地域とか商品とか注文とかの構成でだしてく。ので、結合がいる。

2011-03-28 19:28:18

#hadoopmodeling MRだとなんでJoinが重いか。Reduce Side Joinでやるなら、全データをShuffleする必要がある。ので、IOもたくさん。

2011-03-28 19:29:18

#hadoopmodeling そもそも重たい join が多い OLAP を高速化するには? projection がほとんどと read > write という仮定の下, できるだけ手前でデータ量を減らす.

2011-03-28 19:30:36

#hadoopmodeling semi-join は filter と同等?

2011-03-28 19:31:26

( #hadoopModeling live at http://ustre.am/hx3O ) ・事前に疑似JOIN（semi-join）が作成される＝＞検索時に処理数が減らせる・semi-join：必要なカラムのみJOIN?

2011-03-28 19:31:44

#hadoopmodeling で、semi-joinを使ってみる。必要な結合なカラムだけリモートから取ってきて結合していって、結合のキー以外の対象データはヒットしたのだけリモートからとる。

2011-03-28 19:32:00

#hadoopmodeling natural-join = semi-join -> natural-join

2011-03-28 19:33:25