Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会（第4回） (2ページ目)

marble @marblejenka

#hadoopmodeling 鬼塚さんの "Efficient analytical query processing based on MapReduce" 開始です。

2011-03-28 18:46:04

marble @marblejenka

#hadoopModeling 昨年12月のNIIでの発表のお話。デザインパターンと高速化について。

2011-03-28 18:46:53

Kazunori Sato @kazunori_279

NTT鬼塚さんのMapReduceのお話 ( #hadoopModeling live at http://ustre.am/hx3O)

2011-03-28 18:47:43

tomo🐧@learning @cocoatomo

#hadoopmodeling 鬼塚さん, Reduce を分割することによる I/O の高速化, PJoin による Join の高速化

2011-03-28 18:48:05

marble @marblejenka

#hadoopModeling Map Multi-Reduceによる中間データの削減、P JoinによるJoinの高速化、複数パラメータでの分析（パラメーターの変更）のパラメーター以外の共通化による高速化。

2011-03-28 18:48:22

marble @marblejenka

#hadoopModeling まずはデザインパターンから。Data Intensive Text Processing Mapreduceの内容。

2011-03-28 18:49:22

marble @marblejenka

#hadoopModeling 後続の話はData Intensive Text Processing Mapreduceのデザインパターンを拡張したもの。

2011-03-28 18:50:35

@nsiena

#event 2011/03/28「Hadoopを中心とした(中略)座談会(第4回)」<http://atnd.org/events/13089 >, ust: <http://ustre.am/hx3O > : 聴きながら作業をしてる #hadoopmodeling

2011-03-28 18:51:05

tomo🐧@learning @cocoatomo

#hadoopmodeling 条件付き確率の計算

2011-03-28 18:51:09

marble @marblejenka

#hadoopModeling 条件付き確率について。複数の条件に基づく確率を計算する的な。それをつかってるのがNaive Bayesisan。それをMap Reduceでどう実装するか？

2011-03-28 18:52:07

tomo🐧@learning @cocoatomo

#hadoopmodeling Naive Bayesian キーが2つある状態での集計計算

2011-03-28 18:52:08

Hidenori nhide Nakamura @nhide

条件付き確率をどうやってMapReduce上に実装すればよいか。条件とその結果を別々にやるのは普通のやり方。デザインパターンを使えば1回のMapReduceで求められる。 #hadoopmodeling

2011-03-28 18:55:06

marble @marblejenka

#hadoopModeling 単純には、条件一つの確率計算と条件付き確率の計算をすれば二つのジョブでできる。ソート順序を工夫すれば、一回のジョブで計算できる。

2011-03-28 18:55:20

tomo🐧@learning @cocoatomo

#hadoopmodeling Emit のキーの順序をハックすることで, Reducer に届く順序をいじる.

2011-03-28 18:55:43

綾瀬ヒロ @ayasehiro

新幹線の無線LANだと映像は辛いか。録画で見よう。 RT @kazunori_279: NTT鬼塚さんのMapReduceのお話 ( #hadoopModeling live at http://ustre.am/hx3O)

2011-03-28 18:56:07

tomo🐧@learning @cocoatomo

#hadoopmodeling デザインパターンやテクニックは隠蔽したい.

2011-03-28 18:56:42

close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・状況に応じて最適に使えるようになる＜＝Hadoop用のデザインパターンを使うと＝＞難しいパターンを使っている＝＞利用者には見た目は優しくしたい＜Asakusa DSLのような

2011-03-28 18:56:43

marble @marblejenka

#hadoopModeling とはいえ実装はめんどくさいので、隠ぺいしてくれるレイヤがあると助かる。し、研究者的には普通にやる。

2011-03-28 18:56:48

Hidenori nhide Nakamura @nhide

研究者の対象は2つ。デザインパターンを見つけることと、そのデザインパターンをユーザが容易に使える環境を確保すること。 #hadoopmodeling

2011-03-28 18:57:27

marble @marblejenka

#hadoopModeling 標準偏差をどう計算するか。データの個数と平均値がないと計算できない。単純には、平均値と合計値を計算するジョブと標準偏差の計算をするジョブに分ける。

2011-03-28 18:57:58

tomo🐧@learning @cocoatomo

#hadoopmodeling もしかして E(X) と E(X^2) を計算するようにバラすのか? どうやらそうらしい.

2011-03-28 18:58:11

tomo🐧@learning @cocoatomo

#hadoopmodeling E(X) を部分的に Mapper で計算して, Reducer で計算する. 素直な実装.

2011-03-28 18:59:35

tomo🐧@learning @cocoatomo

#hadoopmodeling summation form, リスト準同型. 機械学習の研究でも登場する.

2011-03-28 19:00:31

Hidenori nhide Nakamura @nhide

次の例：標準偏差の計算。普通にやれば、MapReduce2回。平均値や件数などの数値をあらかじめ与えておけば、MapReduceは1回で済む。 #hadoopmodeling

2011-03-28 19:00:33

marble @marblejenka

#hadoopModeling 個数・平均値・標準偏差は、実はデータを分割しても計算できる方法がある。ので、Combinerを使いつつ計算できる。いわゆるsummation form。リスト準同型ともいう。

2011-03-28 19:00:37

いま話題のタグ