GPGPU活用セミナー
-
yukio_saitoh
- 4005
- 0
- 1
- 4

なんとか間に合って、箱崎ビッグブルーで NVIDIA GPGPUセミナ会場に。 #gpgpu
2011-09-30 13:27:11
初心者向けの説明に。なぜ、GPU が善くて CPU がダメなのか。ムーアの法則など。 #gpgpu
2011-09-30 13:30:07
ILP を増やすことで性能向上してきた(年率 52% UP) CPU 性能。 2000年くらいまで。ただしクロックのみ。 #gpgpu
2011-09-30 13:31:48
マヌケなプログラムでもインテルの性能でプログラム処理能力も上がってきたwwww #gpgpu
2011-09-30 13:32:11
スーパースカラ、VLIW、SIMD などのマイクロアーキテクチャ改良による ILP 向上。各種の方式が商用化されたが並列度は2~8程度に留まる。 #gpgpu
2011-09-30 13:33:34
バイナリ互換がない x86 と itenium があった。ええ、ありましたとも。 #gpgpu
2011-09-30 13:34:20
2005年よりマイコンは集積度の向上をコア数の増大に充てた。クロックアップではなくトランジスタの数を高めていく手法へ(コア数増)。 しかし Amdah の法則による効率の限界はある時代に。 #gpgpu
2011-09-30 13:35:37
CPU性能向上速度の鈍化。年率 19% UP 程度。現在はマルチコアが導入されている。インテル CPU の限界。 #gpgpu
2011-09-30 13:36:32
一方、GPU は増え続けるコア数を当初より設計アーキテクチャである。コアを増やせ続けられる。年率 74% UP で成長を続けている。 (CPU では最高で年率 54% UP であった)このことからも今後、GPU がより重要になっていくのが明らかである。 #gpgpu
2011-09-30 13:37:45
Fermi アーキテクチャで 512 コアを実現。 CPU のコア数と全然違う。(厳密にはプログラム環境も全然違うがw) #gpgpu
2011-09-30 13:38:37
CPUとGPUの取り扱うアプリの差及び並列処理。CPUは数スレッド及び限られた並列度。GPUはめにースレッド&非常に高い並列度。 #gpgpu
2011-09-30 13:40:05
GPUの取扱うアプリの例:グラフィック画像描画(独立計算)、全ポリゴン法線に関する計算は互いに依存度がないので大量の並列処理が実現する。 創薬、地震波の研究、HPC アプリに最適であることが判明している。 #gpgpu
2011-09-30 13:41:47
コンシューマ向けの GeForce で TFLOPS の世界に到達している GPU 性能。 #gpgpu
2011-09-30 13:42:17
なぜGPUが汎用的な演算に使えるのか? ⇒ NVIDIA が 1993年に北米創業し、画像描画計算に特化したチップ(デバイス)メーカとして強みをもってきている。 // SEGA VirtuaFighter などの CG処理用途など。 #gpgpu
2011-09-30 13:43:58
リリースした当初は100万トランジスタ、現在は30億トランジスタで構成。 2006年にアーキテクチャを大幅に変更し、統合シェーダ(プログラマブル・シェーダ)となり GPGPU へ変貌を遂げた。 #gpgpu
2011-09-30 13:45:15
三角形ポリゴンの頂点を計算する専用ハードウェアで処理していた。2006年以降は、汎用的なアーキテクチャとしてコアを持つように。プログラムを変更することができ、ポリゴン以外にも適用可能となった。そして GPU コンピューティングへ。 #gpgpu
2011-09-30 13:46:37
中身は浮動小数点演算がメイン。固定機能シェーダから汎用ユニファイド・シェーダへ。 GeForce 8シリーズ以降。 Ferimi からは倍精度対応。 #gpgpu
2011-09-30 13:47:32
Teslaチップ及びスケーラブルSM (Streaming MultiProcessor) ユニットで構成されている。 SM は GPU を構成する最小単位であった。 ⇒ 32スレッドを同時実行 (Wrap単位)で一括処理する。32ベクトルプロセッサ。 #gpgpu
2011-09-30 13:48:57
SIMT (Single Instruction Multiple Threads) 処理。また、GPU は大容量のキャッシュを必要としない。もともと大きなレジストリファイルを持つ。キャッシュミスでメモリ取得というボトルネックが発生しない。 #gpgpu
2011-09-30 13:50:09
32スレッドの切り換えは1クロックで参照。大きなレジスタを持つ。・・・ワーク単位で データが Ready になったもおのから処理可能=並列処理(CPUとの違い)。メモリ・レイテンシを隠ぺい化可能=GPU #gpgpu
2011-09-30 13:51:51
最新 Fermi アーキテクチャ。30億個トランジスタ、512コア、倍精度(64bit) で8倍以上の性能を持ち、ECCメモリを初めて実装した。以前のアーキテクチャは ECC メモリではなくビットエラーも包含していたが、現在は HPC用途にデータ保証されている。 #gpgpu
2011-09-30 13:53:12
SM あたり 32 CUDA コア。倍精度浮動小数点ピーク性能は8倍、2個のスレッドスケジューラ、クロック当たり2命令実行。 #gpgpu
2011-09-30 13:54:25
GPUが得意なのは超並列処理。 CPU 4cores 48 GFLOPS, GPU 512 cores 665 GFLOPS。 GPUだけでは全部できない。協調して使う考え方である。 #gpgpu
2011-09-30 13:55:55