nagix先生のMapR講座2012

nagixさん他の、MapRのHadoopに関するツイートの備忘です。
1
前へ 1 ・・ 8 9
草薙 昭彦 @nagix

HDFSはWrite Onceのファイルシステム。分かりやすく例えるとCD-Rのようなもの。ファイルのわずかな部分を書き換えるために全てのデータを読み込んでメモリ上で一部分を更新し、全てのデータを書き込む必要がある。ファイルシステムといいつつプリミティブな機能しか備えていない

2012-12-20 14:18:15
M.Mouri @m_mouri

@nagix そういえば、CD-Rの追記も後から追加されましたね。

2012-12-20 14:19:39
草薙 昭彦 @nagix

MapRが行った改良はこのHDFSをMapR-FSに置き換えて同時アクセス・ランダムR/W可能な先進のファイルシステム技術を投入し、HDFSの様々な制限を取り除いたこと。ファイルシステムのレイヤで圧縮、ボリューム管理、スナップショット、レプリケーション、NFSなどの機能を実装した

2012-12-20 14:24:59
草薙 昭彦 @nagix

さらにM7ではHBaseのほとんどの実装をファイルシステムのレイヤに押し込んだ。HBaseのテーブル構造はMapR-FSの中で巧妙にハンドリングされる。データベースをファイルシステムと一体で管理する世界初の試みである。

2012-12-20 14:30:39
草薙 昭彦 @nagix

実際にHBase Master,RegionServerプロセスは存在せず、HBaseクライアントは直接MapRのFileServerプロセスと通信する。ZooKeeperもHBaseの通信には関与しない。複雑な分散プロセスの管理が必要なくなるため管理が容易になり性能も向上する

2012-12-20 14:36:25
草薙 昭彦 @nagix

HBaseのコンパクションは前述のようなHDFSの制限によって無駄なI/Oが大量に発生するしくみになっているので、これもM7ではMapR-FSを活用することで必要な部分だけを随時更新することによりコンパクション、スプリット、マージといった操作そのものを不要にした

2012-12-20 14:39:53
草薙 昭彦 @nagix

RAF(Read Amplification Factor),WAF(Write Amplification Factor)はアプリケーションが読み書きを行ったデータ量に対し実際に発生したI/Oの割合を示す指標だが、M7はこの値を非常に低く抑えている。つまりI/Oの無駄が少ない

2012-12-20 14:47:30
草薙 昭彦 @nagix

MapR-FSはメタ情報管理の効率性により、実質無制限のファイル数をほとんど性能のペナルティなく管理できるため、HBaseのWAL(Write Ahead Log)をより細かい単位で分割し、つまり管理の粒度を小さくすることで障碍時の復旧もほぼ一瞬で完了させることが可能

2012-12-20 14:53:03
草薙 昭彦 @nagix

@m_mouri CD-RのTrack at Once, Session at Once機能ですねー

2012-12-20 14:59:57
Takuya UESHIN @ueshin

@nagix コプロセッサについては何かおっしゃっていましたか?

2012-12-20 15:44:15
草薙 昭彦 @nagix

@ueshin 確認遅くなりましたが、M7のベータ版ではFilterはサポートするけどCoprocessorはベータではなくて後々のバージョンでサポートするとのことでした

2013-01-10 14:43:36
Takuya UESHIN @ueshin

@nagix なるほどです。今月くらいに出るのはFilterのみのサポートってことですね。ご確認、ありがとうございます〜。

2013-01-10 14:48:27
Takuya UESHIN @ueshin

@nagix Coprocessorの実装も楽しみにしてます!

2013-01-10 15:01:37
前へ 1 ・・ 8 9