Hadoop vs MPPデータベース
MPP DBとして古参のSybaseIQは15年以上存在しており、値段感も手頃な奴もある。対してHadoopを使ってる人は理由があるし、安くて手軽なMPPデータベースが出てきたから安易にHadoopからそちらに移るのはシステムのPros/Consを正しく理解していなかったケース。
2013-05-27 14:22:05Twitter/Evernote/Netflixを見ていると、生の非構造化データをとにかくHadoopに貯め、MRで構造化したデータキューブをMPPDBに入れ低レイテンシで解析するのが勝ちパターン。大企業では全データソースのスキーマをIT部門が管理するのは困難もしくは不可能。
2013-05-27 14:22:50“Hadoop Summit 2012 - Hadoop and Vertica: The Data Analytics Platfor...” http://t.co/tZfH1njkcm
2013-05-27 17:49:22Hadoop -> ParAccel -> JasperSoft / “Billions (of API requests) Served | Evernote Tech Blog” http://t.co/OyphDrHu9j
2013-05-27 05:58:28RDBを分析系に使用すると、特に時系列データにおいてはスキーマ変更に時間がかかり時にはダウンタイムが発生するため、アプリ側と解析側に硬直関係が生まれるケースが多い。しかしHDDが安くなってきたため、とにかく貯めておく場所を作り、お互いに仕事を切り分ける方法が現実的に。
2013-05-27 14:23:31Impala / Tajo等のLow Latencyクエリエンジンも出てきてはいますが、歴史有るMPP DBのクエリプランナー・実行系に勝つには相当な積み重ねが必要だと思います。ただ、OSSな点は素晴らしい!
2013-05-27 14:23:58"ビッグデータ"という単語がバズりすぎてユーザーが混乱しているのは提供側の責任でもあり、そこはクリアにメッセージを発していく必要があると思っています。が、基本的にHype曲線のピークを超え、本質的な使い方や利点にフォーカスされ始めているのが現状ですね。かしこ。
2013-05-27 14:24:14ちなみに、単一ノードだったらGreenplumのCommunity Editionは無料ですし、殆どのケースではそれで済むので、MPP DBを試すなら圧倒的に手軽ですね。
2013-05-27 14:37:32