日本SGI / GPUコンピューティング再入門セミナー
- yukio_saitoh
- 4010
- 0
- 1
- 1
GPU アーキテクチャ入門, CPUアーキテクチャの限界。(半導体技術の進歩による集積度の向上・ムーアの法則) #gpgpu
2011-10-17 13:36:08x2 / yr ⇒ x2 / 18ヶ月へ修正されたが、それでも CPU 性能に関する予測はなされなかった。あくまでもトランジスタ実装数のみのムーアの法則。 集積度。(以前はこれが CPU 性能向上と見ていた) #gpgpu
2011-10-17 13:37:15最初にマイコンはこの集積度の向上をインストラクションレベルの並列性向上に充てていた。 ILP 向上の手段はスーパースカラ、パイプライン処理等。 マヌケプログラムも intel の高速化で性能向上していたw #gpgpu
2011-10-17 13:38:43実行時に CPU が並列に出来るものを判断して実行してきた。バイナリ互換を持つ、スーパースカラ―。並列性は2~4を実現。しかし並列性はあまり上がらないので、コンパイル時に並列性を持たせる VLIW (itenium)しかし互換性なし、ベクトル命令 SIMD など #gpgpu
2011-10-17 13:40:482005年までは Clock up で向上してきたが、リーク電流問題により、コア数を増大に充てた intel CPU。マルチコアに対応したアプリとして書き換えねば享受がない世界。10年前と clock 変わっていない。 #gpgpu
2011-10-17 13:42:04CPU は年率 19% の性能向上が続く。一方 GPU アーキテクチャは年率 72% で性能向上している。何故なら性能向上はトランジスタ数=コア数。 #gpgpu
2011-10-17 13:43:13DirectX8 ⇒ DirectX11 では 512 cores , 今後 Kepler, Maxwell でさらにコア数が増大していく。 もともと並列処理、共有メモリ(キャッシュ)を活用したメニースレッド設計になっている。 #gpgpu
2011-10-17 13:44:48もともと GPU は描画するための超並列アプリケーション用途であった。計算に依存関係はまったくなく、個別のスレッドを割り当てることが可能である。並列処理は非常に高い。 #gpgpu
2011-10-17 13:45:49スパコンが扱う世界のアプリケーションは並列性が高いものである。創薬、地震波解析(油田設計)、金融リスク計算、天文学、物理学、気候解析は GPU 処理が向いていることが明らかになった。 #gpgpu
2011-10-17 13:46:55GPU の飛躍的な性能向上。並列度の高いアプリをメニーコアで最適処理。 コンシューマ GPU で 1TFLOPS 以上の性能がある。 #gpgpu
2011-10-17 13:47:57統合シェーダ + CUDA が登場したのは 2006年から。 NVIDIA は 1995年に創業して初期ユーザは SEGA サターン(バーチャファイター向けポリゴン描画)。現在は Fermi で 30億トランジスタでフォト・リアリスティクス(写実描画)実現 #gpgpu
2011-10-17 13:49:44Tesla チップ及びスケーラブル SM (StreamMulti Processor ベクトル演算器) ユニットは GPUを構成する最小単位。 SM は Warp単位で32スレッドを一括処理する。 PTX(GPU共有仮想アセンブリ言語)をSIMT 処理。 #gpgpu
2011-10-17 13:55:15GPUは大容量のキャッシュを必要としない。非常に大きなレジスタをGPUが持ち32スレッドが同一命令を実行していく。データが揃ったものから順次実行する(順番は関係ない構造)。CPUはレジスタから退避し、演算し、レジスタへ入れるという無駄な処理が必要。 #gpgpu
2011-10-17 13:57:08Fermiアーキテクチャ(30億トランジスタ、512コア、ECCメモリ採用・・・)は倍精度演算可能、48 warp/SM, 32 threds/warp 対応=1,536 threads / SM, 24,576 threads / Fermi #gpgpu
2011-10-17 13:58:57GPUコンピューティング: CPU と協調して GPUの圧倒的なパフォーマンスを利用。 #gpgpu
2011-10-17 14:01:16GPU は 200pJ (ピコジュール)/インストラクション に対して CPU (ネハレム世代) は 2nJ (ナノジュール)/ インストラクション。 電力消費量は 1/10 である。これは半導体製造プロセスに依存する。データ移動時の電力消費に起因。 #gpgpu
2011-10-17 14:02:51スタンフォード大学 ダリ教授の論文より、データ移動距離あたりの電力消費量は明らかである。 #gpgpu
2011-10-17 14:03:44GPU はデータの移動は局所的(本質的に少ない消費電力)なので、CPU よりも有利である所以。 #gpgpu
2011-10-17 14:05:08エクサスケールに必要な電力。 Fermi ベースで計算すると 620MW (原発1期分)50万世帯の電力相当、目標はそれよりも 1/30 ・・・。 // スパコンのために原発稼働するのは間違ってると本当に思う。 #gpgpu
2011-10-17 14:08:37GTC Workshop Japan 2011 のご報告。参加登録者数 1,128名、参加者数 974名、協賛会社 39社、ライブストリーミング視聴者数 528名(国内半分) #gpgpu
2011-10-17 14:13:58