HDFSはWrite Onceのファイルシステム。分かりやすく例えるとCD-Rのようなもの。ファイルのわずかな部分を書き換えるために全てのデータを読み込んでメモリ上で一部分を更新し、全てのデータを書き込む必要がある。ファイルシステムといいつつプリミティブな機能しか備えていない
2012-12-20 14:18:15MapRが行った改良はこのHDFSをMapR-FSに置き換えて同時アクセス・ランダムR/W可能な先進のファイルシステム技術を投入し、HDFSの様々な制限を取り除いたこと。ファイルシステムのレイヤで圧縮、ボリューム管理、スナップショット、レプリケーション、NFSなどの機能を実装した
2012-12-20 14:24:59さらにM7ではHBaseのほとんどの実装をファイルシステムのレイヤに押し込んだ。HBaseのテーブル構造はMapR-FSの中で巧妙にハンドリングされる。データベースをファイルシステムと一体で管理する世界初の試みである。
2012-12-20 14:30:39実際にHBase Master,RegionServerプロセスは存在せず、HBaseクライアントは直接MapRのFileServerプロセスと通信する。ZooKeeperもHBaseの通信には関与しない。複雑な分散プロセスの管理が必要なくなるため管理が容易になり性能も向上する
2012-12-20 14:36:25HBaseのコンパクションは前述のようなHDFSの制限によって無駄なI/Oが大量に発生するしくみになっているので、これもM7ではMapR-FSを活用することで必要な部分だけを随時更新することによりコンパクション、スプリット、マージといった操作そのものを不要にした
2012-12-20 14:39:53RAF(Read Amplification Factor),WAF(Write Amplification Factor)はアプリケーションが読み書きを行ったデータ量に対し実際に発生したI/Oの割合を示す指標だが、M7はこの値を非常に低く抑えている。つまりI/Oの無駄が少ない
2012-12-20 14:47:30MapR-FSはメタ情報管理の効率性により、実質無制限のファイル数をほとんど性能のペナルティなく管理できるため、HBaseのWAL(Write Ahead Log)をより細かい単位で分割し、つまり管理の粒度を小さくすることで障碍時の復旧もほぼ一瞬で完了させることが可能
2012-12-20 14:53:03@ueshin 確認遅くなりましたが、M7のベータ版ではFilterはサポートするけどCoprocessorはベータではなくて後々のバージョンでサポートするとのことでした
2013-01-10 14:43:36@nagix なるほどです。今月くらいに出るのはFilterのみのサポートってことですね。ご確認、ありがとうございます〜。
2013-01-10 14:48:27