- marblejenka
- 5666
- 0
- 26
- 0
( #hadoopModeling live at http://ustre.am/hx3O ) Mapタスク:分解して計算(標準偏差、平均等) =>Reduce側:計算結果を積算
2011-03-28 19:00:42#hadoopModeling PageRankでもいける。ランダムジャンプする項も入っている。不動点に至るまで繰り返し計算する。繰り返しMRするのは性能的に厳しい。
2011-03-28 19:02:43( #hadoopModeling live at http://ustre.am/hx3O ) ・直感的:1Iteration=>1MapReduce ・高速化:複数Iteration=>1 MR Reduce <複数のIterationをまとめて処理する
2011-03-28 19:04:07Haloop "efficient iterative data processing on large commodity clusters" http://code.google.com/p/haloop/ #hadoopModeling
2011-03-28 19:04:09#hadoopModeling ので、webグラフの隣接行列を分割しブロックとし、一回のMRで複数のブロックのイテレーションを実行させる。使えるコンセプトとしてはHaloopというものがあり、Map Input/Shuffleで繰り返し計算するものについてキャッシュをする。
2011-03-28 19:04:42次の例:PageRankの計算。多段でMapReduceの処理があるが、毎回使用するデータをキャッシュすることで高速化できる。Haloop というツールが実装している。 #hadoopmodeling
2011-03-28 19:04:50Haloop mapperでk-meansの入力データを全キャッシュ。 まぁ、キャッシュしたほうが速いよな。繰り返し計算だし。 #hadoopmodeling
2011-03-28 19:05:16Haloop キャッシュ+インデックス化による多段iteration高速化。 Hadoop に対し、2割程度高速化 #hadoopmodeling
2011-03-28 19:06:14( #hadoopModeling live at http://ustre.am/hx3O ) ・キャッシュ+インデックス化による多段Ieration(JOB数)=>2割ぐらい速くなる <=JOB数を削減する(シャッフル量を減らす
2011-03-28 19:07:03#hadoopModeling Haloopについて。複数イテレーションで同じデータを使いまわすものについては、キャッシュの効果が大きい。キャッシュはジョブの実行前に必要なものをとっておく(なければとるモデルではない)。
2011-03-28 19:07:55MapReduceに関する研究の動向:1.MapReduce iterationの削減。2.shuffle量の削減。3.データ格納方法の最適化。4.複数処理を対象とした最適化。 #hadoopmodeling
2011-03-28 19:08:25( #hadoopModeling live at http://ustre.am/hx3O ) ・HadoopDB(Hadoop+postgresql <or MySQL?> ) ・Cheetah・・Hive相当(投げるSQLから共通なところを見つけてJOB数を削減
2011-03-28 19:09:56Hive RCFile: Record Columnar File stores columns of a table in a record columnar way. http://bit.ly/erNBjq #hadoopModeling
2011-03-28 19:10:03#hadoopmodeling 高速化いろいろ。Jobを減らす、Shuffleを減らす、データ構造を工夫する(必要なカラムだけ使う)、複数処理(処理またはデータを共通化する)の併合、ジョイン、同期をしないようにする、スケジューリング(Reduceの投機的実行)、GPUによるMR。
2011-03-28 19:10:35#hadoopmodeling 投機的実行についてはLATEというのがある。遅そうなマシンで実行されているReduceをいい感じのマシンで投機的実行する。
2011-03-28 19:11:33( #hadoopModeling live at http://ustre.am/hx3O ) LATE:スケジューラ・・マシン差がある場合マシンの状態を監視 遅いマシン80%超えた場合・・タスクを投げない(CPU使用率下がるまで保留):処理が止まってしまう・・
2011-03-28 19:12:47#hadoopmodeling 省電力化について。世の中的にも重要。Taskがすくないときにはマシンを落としておく、だと、結果的に電力を使いすぎるケースもある。ソートとか。
2011-03-28 19:13:14研究動向2:5.ジョイン処理。6.同期処理の回避。7.スケジューラー。遅いPCやジョブの扱い。8.最新ハードウェア。9.分散処理モデル。Pregel:グラフモデル、Dryad:データフローモデル。10.省電力化。 #hadoopmodeling
2011-03-28 19:13:46#hadoopmodeling Hadoop/MRの計算モデルで電力モデルはつくれるのか?特定のデータを前提とすればつくれるかもしれないけど、特定のケースだけ考慮しても意味ないのでは、という話もある。
2011-03-28 19:14:15