計算機の性能評価

単なるメモです。
1
Satoshi Matsuoka @ProfMatsuoka

今LBLのHorst Simonの講演聞いてますが、エクサだとLinpackは6日間近くかかって不可能と。Linpack昔は1000^2だったので小サイズも変ではない。ただしほぼキャッシュに入ってしまうので、メモリバンド幅のベンチには?@Prof_hrk @jun_makino

2013-05-08 01:06:25
Satoshi Matsuoka @ProfMatsuoka

それは既に提案されてるのですが、時間で切ると探索問題になるので実施が困難かと。@jun_makino Linpack で例えば計算時間でクラス分けして、10分で終わる計算で何PF, 10 時間なら何PF, 無制限でxxみたいなことにすればいいんじゃないかと。@Prof_hrk

2013-05-08 01:09:21
Jun Makino @jun_makino

@ProfMatsuoka @Prof_hrk まあだから、定量的な議論をしましょう、という話なわけですね。

2013-05-08 01:13:38
hrk先生 @Prof_hrk

@ProfMatsuoka @jun_makino あれ?100x100だったはず。大昔のマシンはこのサイズでデータが出ています。このサイズはキャッシュに入りますが、10分走るサイズは普通はいらないでしょう。ルールはちょうど10分ではなく、10分以下とすればOK。

2013-05-08 01:14:09
Satoshi Matsuoka @ProfMatsuoka

(Top500一味の)Horstによれば、ピーク性能は2倍の伸びだが近年コア数は1.5倍、周波数やコア毎メモリは一定である。又、データ移動の相対コストは増加している。よって、Linpack Exaflopを2020年に達成は困難だし、FLOPSがタダならそもそもなぜエクサが必要?

2013-05-08 01:16:12
Satoshi Matsuoka @ProfMatsuoka

つーわけでHorstによれば「エクサのブランドは政治的に地に堕ちてあり、デカいマシンを買う言い訳であり、旧態HPCの名残であり、失敗しそうな目標を立てることは馬鹿馬鹿しい。新世代の実際のHPCアプリに必要な技術開発を焦点とすべき」先日の新聞記事の真逆であるわけだ。

2013-05-08 01:21:02
Satoshi Matsuoka @ProfMatsuoka

おっと、失礼。100x100と1000x1000とunlimitedは元々のドンガラ先生らのLinpackベンチの三つのクラスでしたね。@Prof_hrk 100x100だったはず。大昔のマシンはこのサイズでデータが出ています。@jun_makino

2013-05-08 01:30:17
Satoshi Matsuoka @ProfMatsuoka

「エクサを正当化する従来のアプリ群は気象予測や気候変動特にアンサンブル(1時間100テラバイトのビッグデータ問題でもある)、燃焼、エネルギー等。新アプリは高スループット系のゲノムや物性、脳のシミュ、ものづくりなど。それらの為にエクサスケールは重要」このあたりは日本もおさえている。

2013-05-08 01:33:34
Satoshi Matsuoka @ProfMatsuoka

はい、@Prof_hrk のおっしゃるようメモリに関しては例えば問題サイズをある程度以上の大きさにし、かつブロッキングを禁止すれば良いと思います。ネットワーク~=強スケールは逆なので小問題でサイズリミットと。@jun_makino 定量的な議論をしましょう、という話なわけですね。

2013-05-08 01:36:52
Satoshi Matsuoka @ProfMatsuoka

ただし、多くのマシンに適用できる定量的モデルが出来るとして、それらがどのような現実的アプリのクラスと強い相関を持つか、ということを実証する必要があると思います。でないと単なるペーパーベンチになってしまう。@jun_makino @Prof_hrk

2013-05-08 01:44:59
Jun Makino @jun_makino

@ProfMatsuoka @Prof_hrk あ、私それ反対。むしろ、現実のアプリが十分最適化されていればいくつかのマシンパラメータから性能を予測できるべきであり、ベンチはそれらのマシンパラメータの実測値の推定になれば十分。

2013-05-08 01:55:29
Satoshi Matsuoka @ProfMatsuoka

ということは、SPECベンチとか意味がないわけですかね?@jun_makino @Prof_hrk

2013-05-08 05:31:42
hrk先生 @Prof_hrk

@ProfMatsuoka @jun_makino 難しい問題です。シングルコア比較にはSPEC CPUに勝るものは少ないですが、マルチコアの時点で困難が始まります。少なくとも100万コアを測るものじゃないです。

2013-05-08 05:35:36
hrk先生 @Prof_hrk

@ProfMatsuoka @jun_makino また、HPC世界の人はSPEC CPUを好まない人が多いと感じています。実際、SPEC CPUでHPC用コアを論じたところ、測る意味がないという意見を多数貰っています。でも、SPEC Gigantic_MPPは作りたい。

2013-05-08 05:41:12
hrk先生 @Prof_hrk

@ProfMatsuoka @jun_makino SPEC CPUのもう一つの問題点は、なかなか通らないことです。コンパイラ屋さんにとっては、なかなかレベルの高い課題のようです。これは単にTechnicalな問題ですが、実用面では問題となります。TPCほどじゃないですが。

2013-05-08 05:48:08
Satoshi Matsuoka @ProfMatsuoka

いやSPECCPUのHPC適用の話ではなく、先ほどの@jun_makinoさんのミニマリスト的性能予測可能性の立場ならば、そもそもSPECCPUの様な、実アプリベース・マルチカーネルで比較的プログラムとして大きくなり続けてる複合ベンチは無意味となるのかな、と。@Prof_hrk

2013-05-08 05:50:05
Satoshi Matsuoka @ProfMatsuoka

実は@jun_makinoさんの主張は実はUC BerkeleyのCollela達のDwarfで具現化されてます。http://t.co/Hsl0Xutqfu でも@Prof_hrk先生もご存じのように当該論文での3.4節の合成は定性論だけで定量論はなく、SPEC派の批判対象に。

2013-05-08 06:54:31
Satoshi Matsuoka @ProfMatsuoka

Rogue Wave Threadspotter面白そう。マルチスレッドの性能解析は難しいが、バイナリから複数スレッドのメモリアクセスのパターンを自動抽出し、任意のキャッシュ構成の性能モデルに当てはめ、性能ホットスポットを 同定する。http://t.co/MhA1EmfjWJ

2013-05-08 08:03:58
Jun Makino @jun_makino

@ProfMatsuoka @Prof_hrk 確かに定量性のかけらもないね。

2013-05-08 08:41:32
Satoshi Matsuoka @ProfMatsuoka

そうです。松岡自身はどちらかというと実はUCB-Dwarf派なので、このあたり期待していたのですが、中々進展しないので、自分でやる必要があると思い立ちました(FSでも究極的にはそれを目指している)。@jun_makino 確かに定量性のかけらもないね。@Prof_hrk

2013-05-08 08:48:30
Jun Makino @jun_makino

@ProfMatsuoka @Prof_hrk SPECfp は有害。int はちょっと別問題。

2013-05-08 08:56:29
Jun Makino @jun_makino

SPECfp は有害という話は6年くらい前に書いた→ http://t.co/ZRmib41bhc

2013-05-08 09:04:41
hrk先生 @Prof_hrk

@jun_makino 有害ではなく、使い方が難しいというべきと、私は感じます。ただし、これするくらいならNPBで十分であり、そのほうが直感的にわかりやすい。

2013-05-08 10:12:23