Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会（第4回） (3ページ目)

close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) Mapタスク：分解して計算（標準偏差、平均等）＝＞Reduce側：計算結果を積算

2011-03-28 19:00:42

NAO @nemoton

Summary formを応用。機械学習を簡単に MR 上に #hadoopmodeling

2011-03-28 19:01:36

marble @marblejenka

#hadoopModeling PageRankでもいける。ランダムジャンプする項も入っている。不動点に至るまで繰り返し計算する。繰り返しMRするのは性能的に厳しい。

2011-03-28 19:02:43

Guutara mmmmm (⁰⊖⁰) くぁwせdrftgy ふじこlp @Guutara

#hadoopmodeling まだ、結構、席が空いてる。

2011-03-28 19:03:36

tomo🐧@learning @cocoatomo

#hadoopmodeling Haloop キャッシュによる高速化

2011-03-28 19:03:44

close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・直感的：1Iteration＝＞1MapReduce ・高速化：複数Iteration＝＞1 MR Reduce ＜複数のIterationをまとめて処理する

2011-03-28 19:04:07

Sadayuki Furuhashi @frsyuki

Haloop "efficient iterative data processing on large commodity clusters" http://code.google.com/p/haloop/ #hadoopModeling

2011-03-28 19:04:09

marble @marblejenka

#hadoopModeling ので、webグラフの隣接行列を分割しブロックとし、一回のMRで複数のブロックのイテレーションを実行させる。使えるコンセプトとしてはHaloopというものがあり、Map Input/Shuffleで繰り返し計算するものについてキャッシュをする。

2011-03-28 19:04:42

Hidenori nhide Nakamura @nhide

次の例：PageRankの計算。多段でMapReduceの処理があるが、毎回使用するデータをキャッシュすることで高速化できる。Haloop というツールが実装している。 #hadoopmodeling

2011-03-28 19:04:50

Ryu Kobayashi @ryu_kobayashi

Haloop mapperでk-meansの入力データを全キャッシュ。まぁ、キャッシュしたほうが速いよな。繰り返し計算だし。 #hadoopmodeling

2011-03-28 19:05:16

NAO @nemoton

Haloop キャッシュ+インデックス化による多段iteration高速化。 Hadoop に対し、2割程度高速化 #hadoopmodeling

2011-03-28 19:06:14

close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・キャッシュ＋インデックス化による多段Ieration（JOB数）＝＞2割ぐらい速くなる＜＝JOB数を削減する（シャッフル量を減らす

2011-03-28 19:07:03

marble @marblejenka

#hadoopModeling Haloopについて。複数イテレーションで同じデータを使いまわすものについては、キャッシュの効果が大きい。キャッシュはジョブの実行前に必要なものをとっておく（なければとるモデルではない）。

2011-03-28 19:07:55

NAO @nemoton

Haloop は何度も同じようなデータが出てくるものに対して有効 #hadoopmodeling

2011-03-28 19:08:16

Hidenori nhide Nakamura @nhide

MapReduceに関する研究の動向：1.MapReduce iterationの削減。2.shuffle量の削減。3.データ格納方法の最適化。4.複数処理を対象とした最適化。 #hadoopmodeling

2011-03-28 19:08:25

close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・HadoopDB（Hadoop＋postgresql ＜or MySQL?＞）・Cheetah・・Hive相当（投げるSQLから共通なところを見つけてJOB数を削減

2011-03-28 19:09:56

Sadayuki Furuhashi @frsyuki

Hive RCFile: Record Columnar File stores columns of a table in a record columnar way. http://bit.ly/erNBjq #hadoopModeling

2011-03-28 19:10:03

marble @marblejenka

#hadoopmodeling 高速化いろいろ。Jobを減らす、Shuffleを減らす、データ構造を工夫する（必要なカラムだけ使う）、複数処理（処理またはデータを共通化する）の併合、ジョイン、同期をしないようにする、スケジューリング（Reduceの投機的実行）、GPUによるMR。

2011-03-28 19:10:35

marble @marblejenka

#hadoopmodeling 投機的実行についてはLATEというのがある。遅そうなマシンで実行されているReduceをいい感じのマシンで投機的実行する。

2011-03-28 19:11:33

close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) LATE：スケジューラ・・マシン差がある場合マシンの状態を監視遅いマシン80%超えた場合・・タスクを投げない（CPU使用率下がるまで保留）：処理が止まってしまう・・

2011-03-28 19:12:47

marble @marblejenka

#hadoopmodeling 省電力化について。世の中的にも重要。Taskがすくないときにはマシンを落としておく、だと、結果的に電力を使いすぎるケースもある。ソートとか。

2011-03-28 19:13:14

tomo🐧@learning @cocoatomo

#hadoopmodeling 電力モデルスマートグリッドみたいなものか.

2011-03-28 19:13:45

Hidenori nhide Nakamura @nhide

研究動向2：5.ジョイン処理。6.同期処理の回避。7.スケジューラー。遅いPCやジョブの扱い。8.最新ハードウェア。9.分散処理モデル。Pregel:グラフモデル、Dryad:データフローモデル。10.省電力化。 #hadoopmodeling

2011-03-28 19:13:46

傳智之 @dentomo

消費電力のモデルを作れないと厳しい？ #hadoopmodeling

2011-03-28 19:14:05

marble @marblejenka

#hadoopmodeling Hadoop/MRの計算モデルで電力モデルはつくれるのか？特定のデータを前提とすればつくれるかもしれないけど、特定のケースだけ考慮しても意味ないのでは、という話もある。

2011-03-28 19:14:15

いま話題のタグ