2010年11月30日

松岡先生（＠ProfMatsuoka、東工大）によるTSUBAMEのネットワーク構成の得失について

松岡先生（＠ProfMatsuoka、東工大）による、MellanoxのVoltaire買収の話題から、TSUBAMEと地球シミュレータのネットワーク構成の得失についての連続Tweetのまとめ順に読んでいたら思いの外長かったので思わずまとめました。

TSUBAME 地球シミュレータネットワークバンド幅東工大スパコン松岡聡

Satoshi Matsuoka @ProfMatsuoka

おおおおお。“@NaoyaMaruyama: おぉ。 Mellanox to Acquire Voltaire for $218 million http://j.mp/huLTvk”

2010-11-30 01:34:11

Satoshi Matsuoka @ProfMatsuoka

MellanoxからVoltaire買収の旨のレターがやってキター！Voltaireも社長のRonnieからメイルが直接キター! まあ書いてあることは普通だが。。。

2010-11-30 07:12:26

Satoshi Matsuoka @ProfMatsuoka

Infiniband業界が詳しくない人のために・今回のMellanoxのVoltaire買収はIntelがDellを買収するようのなもの。で、関係者びっくり。TSUBAME2.0もVoltaireのIBスイッチ群が200TeraBit/sのネットワークのベースだし。

2010-11-30 07:19:08

Satoshi Matsuoka @ProfMatsuoka

ちなみにTSUBAME1.0のネットワークは8台のVoltaire 9288(288ポート, SDR IB)が限定ファットツリー構成でCX-4銅線ケーブルで接続され、700ノード近い計算ノードにさらに接続。ケーブル長は20kmぐらい。

2010-11-30 07:22:53

Satoshi Matsuoka @ProfMatsuoka

一方TSUBAME2.0は12台のVoltaire 4700 (324ポート、QDR IB)と179台のVoltaire 4036 (36ポート,同)が光ファイバでフルファットツリー構成で接続。4700はTSUBAME1と異なり集中して置くので、ファイバ長は100kmぐらい。

2010-11-30 07:29:34

Satoshi Matsuoka @ProfMatsuoka

一方エッジ部分はラック内なので銅線配線。TSUBAME1比では、速度4倍(SDR→QDR)、ノード数倍以上(700弱→1400以上)、フルバイセクション化で5倍(コアアップリンク1:5→1:1)で、40倍以上の速度向上である。これはFLOPS値の増加(30倍弱)より大きいのだ。

2010-11-30 07:36:47

Satoshi Matsuoka @ProfMatsuoka

SL390を更に高バンド幅構成にすることも可能だ；3枚のGPUから一枚抜いてIB-HCAで置き換える。理想的にはx16でデュアルポートがあれば良いのだが何故か存在しないので作成して、2GPU/2CPU/4QDR-IB構成にする。勿論外のネットワークファブリックも倍に。

2010-11-30 07:48:09

Satoshi Matsuoka @ProfMatsuoka

TSUBAME2.0でこれをすると1.7Petaflopsに減少し、ネットワーク速度が倍(16ギガバイト/秒/ノード)、スイッチラックが6本増加して48→54となる。Linpackの電力は300KWほど減少して1.1MW程度に。

2010-11-30 07:52:50

Satoshi Matsuoka @ProfMatsuoka

何が嬉しいかと言うと、ノードメモリバンド幅に対するネットワークバンド幅の比率が340:16 ~=20:1と、地球シミュレータ1とほぼ同じとなる。なので、ベクトルスパコンとしてグーなのだ。勿論マシンがより「大きい」し、ノード・ネットワークも高速だし、レーテンシも短い(5→2μs)。

2010-11-30 08:02:22

Satoshi Matsuoka @ProfMatsuoka

では何故そうしなかったかというと、バンド幅が多くのアプリで大きすぎるからだ。クラスタ計算機の隆盛により、多くの数値アルゴリズムやアプリはバンド幅の欠落→キャッシュ等の局所性の活用の変遷を遂げてきている。なので、地球シミュレータ並みのバンド幅があっても、速度向上率は微増なのだ。

2010-11-30 08:08:16

Satoshi Matsuoka @ProfMatsuoka

それよりもFLOPS値を高めたほうが多くのアプリでは速度向上する；バンド幅律則のアプリの「効率」は下がるが、総合的には良い。。逆に地球シミュレータの「効率」マンセー幻想は、ベクトルユニットのFLOPS値がより高ければメリットを享受できた多数アプリの性能を不当に抑えてきたと言える。

2010-11-30 08:13:22

Satoshi Matsuoka @ProfMatsuoka

間違ってはいけないのは、スパコンにとってバンド幅が重要ではないと言っているわけではないことである。特に今後エクサに向けて強スケーリングするためには絶対量としてのバンド幅は重要だ。問題は旧ベクトル時代のbytes/flopの幻想に固執しFLOPS値を抑えることの愚かさなのだ。

2010-11-30 08:18:03

Satoshi Matsuoka @ProfMatsuoka

FPUはビット長が単・倍精度で固定なので昔と比べて極小だし、省電力設計で使わなければ簡単にオフになる。なのでGPUのように詰め込んでキャッシュ付のベクトルパラレルにして、使いたい分だけ使えば問題ない。見かけの効率は低くなるが。むしろ律束は絶対的なチップ内外のバンド幅になるのだ。

2010-11-30 08:23:46

Satoshi Matsuoka @ProfMatsuoka

思わず長くなったが、TSUBAMEは1も2も地球シミュレータを参考にしているのは明白だ。2は本格的なベクトルプロセッサとしてのGPUと、フルバイセクションネットワークを装備したので、なおさら類似する。違いは、効率幻想を否定しFLOPS値を意味ある形で大幅に上げていることだ。

2010-11-30 08:37:45