Hadoop関連技術勉強会@福岡

まとめましたー。 Zusaar http://www.zusaar.com/event/263103
1
OsamuHashimoto @osacaz4

初めはEMCさんによる「Greenplum MR」 #hadoopfukuoka

2012-04-19 18:00:46
OsamuHashimoto @osacaz4

MapR とGreenplumMRは同じものです。 #hadoopfukuoka

2012-04-19 18:04:53
Hidenori nhide Nakamura @nhide

MapRの説明。先進Hadoopユーザーが抱える悩みはたくさんある。それらをOSSで解決するのは大変。エンタープライズ用のHadoopがMapR。早い。高品質。使いやすい。by @nagix さん #hadoopfukuoka

2012-04-19 18:10:00
Hidenori nhide Nakamura @nhide

HDFSを再設計しC/C++で実装=MapR FS。ロックの排除による並列処理。ビルトイン圧縮によるI/O削減。RPC経由のShuffle。JavaGCの回避。 #hadoopfukuoka

2012-04-19 18:12:56
OsamuHashimoto @osacaz4

HDFS→MapR FSに再設計することで、ハードウェア性能の9割ほどまでIO性能を向上した。 #hadoopfukuoka

2012-04-19 18:13:11
Hidenori nhide Nakamura @nhide

分散NameNodeの導入による単一障害点の完全排除。新しい OSS Hadoopの分散NameNodeよりも耐障害性やスケーラビリティが高い。 #hadoopfukuoka

2012-04-19 18:15:42
Hidenori nhide Nakamura @nhide

JobTrackerもHA化。メインのJobTrackerが死んでもJobを中断せず新たなJobTrackerが引き継ぐ。稼働中のJobは終了通知を新たなJobTrackerに伝える。 #hadoopfukuoka

2012-04-19 18:17:14
OsamuHashimoto @osacaz4

NFSマウントできるのは便利だろうなぁ #hadoopfukuoka

2012-04-19 18:17:19
Hidenori nhide Nakamura @nhide

MapRはスナップショットによりデータ喪失に備える。オペレーションミスやプログラムのバグ等でデータを喪失したらバックアップからリストアするため。 #hadoopfukuoka

2012-04-19 18:19:37
Hidenori nhide Nakamura @nhide

ローカル環境による管理画面のデモ。Mac内のVM上でMapRが1ノード稼働している! #hadoopfukuoka

2012-04-19 18:20:53
Hidenori nhide Nakamura @nhide

データ領域をボリューム単位でコントロールできる。クォーター量、レプリカ数の設定やレプリカが不足したときのアラート値など。Hadoopを知らなくてもこの画面を見れば管理できる。 #hadoopfukuoka

2012-04-19 18:23:02
Hidenori nhide Nakamura @nhide

来ました、NFSマウントでUnixコマンドから操作するデモ。初めて見る人はショックですよね。使いだしたら止められないでしょう。 #hadoopfukuoka

2012-04-19 18:25:44
Hidenori nhide Nakamura @nhide

hadoopコマンドからも参照できるんですね。レスポンスの違いが明白です! #hadoopfukuoka

2012-04-19 18:26:32
Hidenori nhide Nakamura @nhide

MapRはブロックデバイスを直接扱う。ストレージプール(SP)とは、物理ディスクをグループ化した単位。ストレージプールは複数のコンテナを格納。ボリュームは複数のコンテナから構成される。 #hadoopfukuoka

2012-04-19 18:29:49
きしだൠ(K1S) @kis

しかし、おどろきのスーツ率!

2012-04-19 18:32:19
Hidenori nhide Nakamura @nhide

レプリカはコンテナの単位で取り扱う。CLDB(Container Location Database) とはコンテナの配置を管理している。メタ情報はネームコンテナで管理し、ネームコンテナをCLDBで管理する。CLDBもHAにできる。 #hadoopfukuoka

2012-04-19 18:32:30
OsamuHashimoto @osacaz4

CLDB=Container Location Database ん〜 #hadoopfukuoka

2012-04-19 18:33:13
Hidenori nhide Nakamura @nhide

コンテナのサイズはディフォルト16GB。レプリカはコンテナ単位で作成される。まさにビッグデータの世界ですね。 #hadoopfukuoka

2012-04-19 18:34:40
きしだൠ(K1S) @kis

ところで、Hadoopてなんだろう?

2012-04-19 18:36:42
Hidenori nhide Nakamura @nhide

GREENPLUMのロゴがかっこ良くなってますね(^^) #hadoopfukuoka

2012-04-19 18:36:46
Hidenori nhide Nakamura @nhide

MapR FS をファイルサーバとして使うのは効率が悪い。MapReduce処理が早くなるように作ってる。 #hadoopfukuoka

2012-04-19 18:38:28
1 ・・ 4 次へ