日本SGI  / GPUコンピューティング再入門セミナー

"視考" ~プロセスをも革新するGPUコンピューティング再入門~ 2011年10月17日(月)13:00~17:30 (受付開始 12:30) 恵比寿ガーデンプレイスタワー4F 続きを読む
2
前へ 1 2 ・・ 7 次へ
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

Tesla がアーキテクチャ名、製品名の紛らわしさはごめんなさい。  #gpgpu

2011-10-17 13:35:24
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

GPU アーキテクチャ入門, CPUアーキテクチャの限界。(半導体技術の進歩による集積度の向上・ムーアの法則)  #gpgpu

2011-10-17 13:36:08
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

x2 / yr ⇒ x2 / 18ヶ月へ修正されたが、それでも CPU 性能に関する予測はなされなかった。あくまでもトランジスタ実装数のみのムーアの法則。 集積度。(以前はこれが CPU 性能向上と見ていた)  #gpgpu

2011-10-17 13:37:15
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

最初にマイコンはこの集積度の向上をインストラクションレベルの並列性向上に充てていた。 ILP 向上の手段はスーパースカラ、パイプライン処理等。 マヌケプログラムも intel の高速化で性能向上していたw #gpgpu

2011-10-17 13:38:43
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

実行時に CPU が並列に出来るものを判断して実行してきた。バイナリ互換を持つ、スーパースカラ―。並列性は2~4を実現。しかし並列性はあまり上がらないので、コンパイル時に並列性を持たせる VLIW (itenium)しかし互換性なし、ベクトル命令 SIMD など  #gpgpu

2011-10-17 13:40:48
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

2005年までは Clock up で向上してきたが、リーク電流問題により、コア数を増大に充てた intel CPU。マルチコアに対応したアプリとして書き換えねば享受がない世界。10年前と clock 変わっていない。  #gpgpu

2011-10-17 13:42:04
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

CPU は年率 19% の性能向上が続く。一方 GPU アーキテクチャは年率 72% で性能向上している。何故なら性能向上はトランジスタ数=コア数。  #gpgpu

2011-10-17 13:43:13
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

DirectX8 ⇒ DirectX11 では 512 cores , 今後 Kepler, Maxwell でさらにコア数が増大していく。 もともと並列処理、共有メモリ(キャッシュ)を活用したメニースレッド設計になっている。  #gpgpu

2011-10-17 13:44:48
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

もともと GPU は描画するための超並列アプリケーション用途であった。計算に依存関係はまったくなく、個別のスレッドを割り当てることが可能である。並列処理は非常に高い。  #gpgpu

2011-10-17 13:45:49
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

スパコンが扱う世界のアプリケーションは並列性が高いものである。創薬、地震波解析(油田設計)、金融リスク計算、天文学、物理学、気候解析は GPU 処理が向いていることが明らかになった。  #gpgpu

2011-10-17 13:46:55
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

GPU の飛躍的な性能向上。並列度の高いアプリをメニーコアで最適処理。 コンシューマ GPU で 1TFLOPS 以上の性能がある。  #gpgpu

2011-10-17 13:47:57
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

統合シェーダ + CUDA が登場したのは 2006年から。 NVIDIA は 1995年に創業して初期ユーザは SEGA サターン(バーチャファイター向けポリゴン描画)。現在は Fermi で 30億トランジスタでフォト・リアリスティクス(写実描画)実現  #gpgpu

2011-10-17 13:49:44
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

Tesla チップ及びスケーラブル SM (StreamMulti Processor ベクトル演算器) ユニットは GPUを構成する最小単位。 SM は Warp単位で32スレッドを一括処理する。 PTX(GPU共有仮想アセンブリ言語)をSIMT 処理。  #gpgpu

2011-10-17 13:55:15
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

GPUは大容量のキャッシュを必要としない。非常に大きなレジスタをGPUが持ち32スレッドが同一命令を実行していく。データが揃ったものから順次実行する(順番は関係ない構造)。CPUはレジスタから退避し、演算し、レジスタへ入れるという無駄な処理が必要。  #gpgpu

2011-10-17 13:57:08
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

Fermiアーキテクチャ(30億トランジスタ、512コア、ECCメモリ採用・・・)は倍精度演算可能、48 warp/SM, 32 threds/warp 対応=1,536 threads / SM, 24,576 threads / Fermi #gpgpu

2011-10-17 13:58:57
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

GPUコンピューティング: CPU と協調して GPUの圧倒的なパフォーマンスを利用。  #gpgpu

2011-10-17 14:01:16
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

GPU は 200pJ (ピコジュール)/インストラクション に対して CPU (ネハレム世代) は 2nJ (ナノジュール)/ インストラクション。 電力消費量は 1/10 である。これは半導体製造プロセスに依存する。データ移動時の電力消費に起因。  #gpgpu

2011-10-17 14:02:51
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

スタンフォード大学 ダリ教授の論文より、データ移動距離あたりの電力消費量は明らかである。  #gpgpu

2011-10-17 14:03:44
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

CPU の内部はデータ移動でもコヒーレントが発生し、大きなエネルギーを必要とする。  #gpgpu

2011-10-17 14:04:22
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

GPU はデータの移動は局所的(本質的に少ない消費電力)なので、CPU よりも有利である所以。  #gpgpu

2011-10-17 14:05:08
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

GPU は今後性能向上しても消費電力は向上しない。  #gpgpu

2011-10-17 14:05:43
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

エクサスケールに必要な電力。 Fermi ベースで計算すると 620MW (原発1期分)50万世帯の電力相当、目標はそれよりも 1/30 ・・・。 // スパコンのために原発稼働するのは間違ってると本当に思う。  #gpgpu

2011-10-17 14:08:37
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

製品名 Tesla (アーキテクチャは Fermi)について商品紹介中。。。  #gpgpu

2011-10-17 14:09:54
斉藤之雄 / 社会福祉士 😺🗯 @yukio_saitoh

GTC Workshop Japan 2011 のご報告。参加登録者数 1,128名、参加者数 974名、協賛会社 39社、ライブストリーミング視聴者数 528名(国内半分)  #gpgpu

2011-10-17 14:13:58
前へ 1 2 ・・ 7 次へ