Hadoopクラスタのラフなサイジング方法

「東京電力がExadataを導入」というプレスリリースを読んで、Hadoopだったらどれくらいの規模になるだろう、というのをなんとなく試算。情報足りない中試算してるので数字そのものに意味はありません。Hadoopのサイジングのやり方について感覚をつかむためにご活用ください。
2
Sho Shimauchi @shiumachi

スマートメーター2700万台かー。Hadoopだと何台必要なんだろう "2014年4月よりスマートメーターの導入を開始し、2020年には2,700万台に達する見込みです" / “東京電力、スマートメーターからの高速データ処理基盤に…” htn.to/7ruLco

2015-05-12 14:40:38
Sho Shimauchi @shiumachi

ちょっと計算してみるか

2015-05-12 14:40:50
Sho Shimauchi @shiumachi

プレスリリースより、スマートメーターは現在14万台、2020年には2700万台の予測。メーターの台数は線形に増加すると仮定(実際にはこうはならないとは思うけど)。この場合初年度には550万台、2年目には1088万台となる。

2015-05-12 14:42:12
Sho Shimauchi @shiumachi

データ量は、1回の送信が100バイトで1分間に1回送信と仮定する。スマートメーターのデータ量についてはそんなに詳しくないので、詳しい人いたら教えてください

2015-05-12 14:42:49
Sho Shimauchi @shiumachi

前述の仮定を元に計算すると、初年度は1分あたり約500MBのデータが流れ、1年間で270TBのデータが蓄積されることになる。最終的には9PBほどになる

2015-05-12 14:43:55
Sho Shimauchi @shiumachi

次にこれをHDFSに保存することを考える。HDFSの性質上データを三重化する。圧縮をかけるが、数値データなので圧縮効率がいいため10%まで圧縮できるとする。解析結果の格納スペース用に25%分確保すると、初年度は100TBほど、最終的には3.3PBあればいいことになる。

2015-05-12 14:45:31
Sho Shimauchi @shiumachi

これをデータノードの台数に換算する。1DN = 48TB(4TB*12本)で計算すると、初年度3台、最終的には72台で格納できる。あとはこれにマスタ3台分を足せば、クラスタ全体の台数を算出できる。すなわち、初年度6台(冗長化分入れて7台)、最終的に75台のクラスタとなる。

2015-05-12 14:46:27
Sho Shimauchi @shiumachi

もし1DN = 36TB(3TB*12本)で計算した場合は最終的に96台必要になる。まだ4TBは高いだろうしこっちのが現実的かな

2015-05-12 14:46:44
Sho Shimauchi @shiumachi

もちろん、どんな分析するかなどによって必要な台数は変わってくるだろうが、単純に分析もできるストレージとして捉えた場合は大体このくらいの規模感で大体合ってると思う。高速な分析を実現しようと思うともうちょいいるかなー、というぐらいかな(この辺適当)

2015-05-12 14:47:50
Sho Shimauchi @shiumachi

このぐらいの規模のときにClouderaのライセンスは一体いくらになるのか、興味がある人はこちらまでお問い合わせください! cloudera.co.jp/contact/contac…

2015-05-12 14:48:26
Sho Shimauchi @shiumachi

この規模をExaで実現するとどれくらいの規模になるのか私は知らないので知ってる人いたら教えてください

2015-05-12 14:49:25
Shinryo Nonin @snonin

@shiumachi 東京電力のスマートメーターは30分に一回計測ですね。tepco.co.jp/smartmeter/ind…

2015-05-12 14:52:40
Sho Shimauchi @shiumachi

30分に1回計測と教えてもらったので再度試算。データ総量は最終的に約300TB、HDFSに載せて圧縮かけると大体110TBほど。DNだったら数台あれば余裕でまかなえてしまうレベル。

2015-05-12 14:57:11
Sho Shimauchi @shiumachi

まあ確かにこの規模ならHadoopなくても十分だなー。1DN = 24TBにしても5台程度でまかなえてしまうレベル

2015-05-12 14:58:17
Geforce RTX 3060Ti @showyou

@shiumachi 御社のライセンス、容量課金?

2015-05-12 15:00:15
Sho Shimauchi @shiumachi

@showyou 一応容量課金もありますけど基本的にはノード課金ですね cloudera.co.jp/datasheet/Clou…

2015-05-12 15:03:47