Hadoop vs MPPデータベース

HadoopとMPPデータベース (Teradata, Vertica, Greenplum, RedShift, etc) の比較をまとめてみました。
17
Kazuki Ohta @kzk_mover

MPPデータベースに関して最近良く聞かれるので、私見をだらだらとツイート。

2013-05-27 14:21:31
Kazuki Ohta @kzk_mover

MPP DBとして古参のSybaseIQは15年以上存在しており、値段感も手頃な奴もある。対してHadoopを使ってる人は理由があるし、安くて手軽なMPPデータベースが出てきたから安易にHadoopからそちらに移るのはシステムのPros/Consを正しく理解していなかったケース。

2013-05-27 14:22:05
Kazuki Ohta @kzk_mover

Twitter/Evernote/Netflixを見ていると、生の非構造化データをとにかくHadoopに貯め、MRで構造化したデータキューブをMPPDBに入れ低レイテンシで解析するのが勝ちパターン。大企業では全データソースのスキーマをIT部門が管理するのは困難もしくは不可能。

2013-05-27 14:22:50
Kazuki Ohta @kzk_mover

“Hadoop Summit 2012 - Hadoop and Vertica: The Data Analytics Platfor...” http://t.co/tZfH1njkcm

2013-05-27 17:49:22
Kazuki Ohta @kzk_mover

Hadoop -> ParAccel -> JasperSoft / “Billions (of API requests) Served | Evernote Tech Blog” http://t.co/OyphDrHu9j

2013-05-27 05:58:28
Kazuki Ohta @kzk_mover

RDBを分析系に使用すると、特に時系列データにおいてはスキーマ変更に時間がかかり時にはダウンタイムが発生するため、アプリ側と解析側に硬直関係が生まれるケースが多い。しかしHDDが安くなってきたため、とにかく貯めておく場所を作り、お互いに仕事を切り分ける方法が現実的に。

2013-05-27 14:23:31
Kazuki Ohta @kzk_mover

Impala / Tajo等のLow Latencyクエリエンジンも出てきてはいますが、歴史有るMPP DBのクエリプランナー・実行系に勝つには相当な積み重ねが必要だと思います。ただ、OSSな点は素晴らしい!

2013-05-27 14:23:58
Kazuki Ohta @kzk_mover

"ビッグデータ"という単語がバズりすぎてユーザーが混乱しているのは提供側の責任でもあり、そこはクリアにメッセージを発していく必要があると思っています。が、基本的にHype曲線のピークを超え、本質的な使い方や利点にフォーカスされ始めているのが現状ですね。かしこ。

2013-05-27 14:24:14
Kazuki Ohta @kzk_mover

ちなみに、単一ノードだったらGreenplumのCommunity Editionは無料ですし、殆どのケースではそれで済むので、MPP DBを試すなら圧倒的に手軽ですね。

2013-05-27 14:37:32