MapRの説明。先進Hadoopユーザーが抱える悩みはたくさんある。それらをOSSで解決するのは大変。エンタープライズ用のHadoopがMapR。早い。高品質。使いやすい。by @nagix さん #hadoopfukuoka
2012-04-19 18:10:00HDFSを再設計しC/C++で実装=MapR FS。ロックの排除による並列処理。ビルトイン圧縮によるI/O削減。RPC経由のShuffle。JavaGCの回避。 #hadoopfukuoka
2012-04-19 18:12:56HDFS→MapR FSに再設計することで、ハードウェア性能の9割ほどまでIO性能を向上した。 #hadoopfukuoka
2012-04-19 18:13:11分散NameNodeの導入による単一障害点の完全排除。新しい OSS Hadoopの分散NameNodeよりも耐障害性やスケーラビリティが高い。 #hadoopfukuoka
2012-04-19 18:15:42JobTrackerもHA化。メインのJobTrackerが死んでもJobを中断せず新たなJobTrackerが引き継ぐ。稼働中のJobは終了通知を新たなJobTrackerに伝える。 #hadoopfukuoka
2012-04-19 18:17:14MapRはスナップショットによりデータ喪失に備える。オペレーションミスやプログラムのバグ等でデータを喪失したらバックアップからリストアするため。 #hadoopfukuoka
2012-04-19 18:19:37ローカル環境による管理画面のデモ。Mac内のVM上でMapRが1ノード稼働している! #hadoopfukuoka
2012-04-19 18:20:53データ領域をボリューム単位でコントロールできる。クォーター量、レプリカ数の設定やレプリカが不足したときのアラート値など。Hadoopを知らなくてもこの画面を見れば管理できる。 #hadoopfukuoka
2012-04-19 18:23:02来ました、NFSマウントでUnixコマンドから操作するデモ。初めて見る人はショックですよね。使いだしたら止められないでしょう。 #hadoopfukuoka
2012-04-19 18:25:44hadoopコマンドからも参照できるんですね。レスポンスの違いが明白です! #hadoopfukuoka
2012-04-19 18:26:32MapRはブロックデバイスを直接扱う。ストレージプール(SP)とは、物理ディスクをグループ化した単位。ストレージプールは複数のコンテナを格納。ボリュームは複数のコンテナから構成される。 #hadoopfukuoka
2012-04-19 18:29:49レプリカはコンテナの単位で取り扱う。CLDB(Container Location Database) とはコンテナの配置を管理している。メタ情報はネームコンテナで管理し、ネームコンテナをCLDBで管理する。CLDBもHAにできる。 #hadoopfukuoka
2012-04-19 18:32:30何度見てもこの図はHDSF Federationと同じに見える。#hadoopfukuoka
2012-04-19 18:32:42コンテナのサイズはディフォルト16GB。レプリカはコンテナ単位で作成される。まさにビッグデータの世界ですね。 #hadoopfukuoka
2012-04-19 18:34:40MapR FS をファイルサーバとして使うのは効率が悪い。MapReduce処理が早くなるように作ってる。 #hadoopfukuoka
2012-04-19 18:38:28