Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第4回)

のまとめ。#hadoopmodeling
14
前へ 1 2 3 ・・ 9 次へ
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) Mapタスク:分解して計算(標準偏差、平均等) =>Reduce側:計算結果を積算

2011-03-28 19:00:42
NAO @nemoton

Summary formを応用。機械学習を簡単に MR 上に #hadoopmodeling

2011-03-28 19:01:36
marble @marblejenka

#hadoopModeling PageRankでもいける。ランダムジャンプする項も入っている。不動点に至るまで繰り返し計算する。繰り返しMRするのは性能的に厳しい。

2011-03-28 19:02:43
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・直感的:1Iteration=>1MapReduce ・高速化:複数Iteration=>1 MR Reduce <複数のIterationをまとめて処理する

2011-03-28 19:04:07
Sadayuki Furuhashi @frsyuki

Haloop "efficient iterative data processing on large commodity clusters" http://code.google.com/p/haloop/ #hadoopModeling

2011-03-28 19:04:09
marble @marblejenka

#hadoopModeling ので、webグラフの隣接行列を分割しブロックとし、一回のMRで複数のブロックのイテレーションを実行させる。使えるコンセプトとしてはHaloopというものがあり、Map Input/Shuffleで繰り返し計算するものについてキャッシュをする。

2011-03-28 19:04:42
Hidenori nhide Nakamura @nhide

次の例:PageRankの計算。多段でMapReduceの処理があるが、毎回使用するデータをキャッシュすることで高速化できる。Haloop というツールが実装している。 #hadoopmodeling

2011-03-28 19:04:50
Ryu Kobayashi @ryu_kobayashi

Haloop mapperでk-meansの入力データを全キャッシュ。 まぁ、キャッシュしたほうが速いよな。繰り返し計算だし。 #hadoopmodeling

2011-03-28 19:05:16
NAO @nemoton

Haloop キャッシュ+インデックス化による多段iteration高速化。 Hadoop に対し、2割程度高速化 #hadoopmodeling

2011-03-28 19:06:14
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・キャッシュ+インデックス化による多段Ieration(JOB数)=>2割ぐらい速くなる <=JOB数を削減する(シャッフル量を減らす

2011-03-28 19:07:03
marble @marblejenka

#hadoopModeling Haloopについて。複数イテレーションで同じデータを使いまわすものについては、キャッシュの効果が大きい。キャッシュはジョブの実行前に必要なものをとっておく(なければとるモデルではない)。

2011-03-28 19:07:55
NAO @nemoton

Haloop は何度も同じようなデータが出てくるものに対して有効 #hadoopmodeling

2011-03-28 19:08:16
Hidenori nhide Nakamura @nhide

MapReduceに関する研究の動向:1.MapReduce iterationの削減。2.shuffle量の削減。3.データ格納方法の最適化。4.複数処理を対象とした最適化。 #hadoopmodeling

2011-03-28 19:08:25
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) ・HadoopDB(Hadoop+postgresql <or MySQL?> ) ・Cheetah・・Hive相当(投げるSQLから共通なところを見つけてJOB数を削減

2011-03-28 19:09:56
Sadayuki Furuhashi @frsyuki

Hive RCFile: Record Columnar File stores columns of a table in a record columnar way. http://bit.ly/erNBjq #hadoopModeling

2011-03-28 19:10:03
marble @marblejenka

#hadoopmodeling 高速化いろいろ。Jobを減らす、Shuffleを減らす、データ構造を工夫する(必要なカラムだけ使う)、複数処理(処理またはデータを共通化する)の併合、ジョイン、同期をしないようにする、スケジューリング(Reduceの投機的実行)、GPUによるMR。

2011-03-28 19:10:35
marble @marblejenka

#hadoopmodeling 投機的実行についてはLATEというのがある。遅そうなマシンで実行されているReduceをいい感じのマシンで投機的実行する。

2011-03-28 19:11:33
close_yutori @kimukou2628

( #hadoopModeling live at http://ustre.am/hx3O ) LATE:スケジューラ・・マシン差がある場合マシンの状態を監視 遅いマシン80%超えた場合・・タスクを投げない(CPU使用率下がるまで保留):処理が止まってしまう・・

2011-03-28 19:12:47
marble @marblejenka

#hadoopmodeling 省電力化について。世の中的にも重要。Taskがすくないときにはマシンを落としておく、だと、結果的に電力を使いすぎるケースもある。ソートとか。

2011-03-28 19:13:14
tomo🐧@learning @cocoatomo

#hadoopmodeling 電力モデル スマートグリッドみたいなものか.

2011-03-28 19:13:45
Hidenori nhide Nakamura @nhide

研究動向2:5.ジョイン処理。6.同期処理の回避。7.スケジューラー。遅いPCやジョブの扱い。8.最新ハードウェア。9.分散処理モデル。Pregel:グラフモデル、Dryad:データフローモデル。10.省電力化。 #hadoopmodeling

2011-03-28 19:13:46
傳智之 @dentomo

消費電力のモデルを作れないと厳しい? #hadoopmodeling

2011-03-28 19:14:05
marble @marblejenka

#hadoopmodeling Hadoop/MRの計算モデルで電力モデルはつくれるのか?特定のデータを前提とすればつくれるかもしれないけど、特定のケースだけ考慮しても意味ないのでは、という話もある。

2011-03-28 19:14:15
前へ 1 2 3 ・・ 9 次へ