関東GPGPU勉強会 #4 (3ページ目)

山田てるみ @telmin_orca

PascalのSMの設計思想としては、インフライトのスレッド数を上げるっていうのが主眼に置かれていて、そのためにレジスタ数を倍にして、ActiveThreadを倍になるようにした #kantogpu

2016-08-21 14:21:01

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

Coreが一番大事なリソースだが、Coreはストールする。その際になるだけストールしないようにWarp数を増やす。レジスタは倍に増えた。色々メモリアクセスの帯域が、（コアが半分になったので）倍に増えた。 #kantogpu

2016-08-21 14:21:14

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

Hight Instruction Throughput が実現されているので、少なくなったコア数を高効率で使えるようになった感じ。 #kantogpu

2016-08-21 14:22:19

おさかなさん @sakanazensen

KeplerやMaxwellとかでコア数(=1thread)あたりのregisterやshared memoryが減っててなんだかなぁと思ってたところがPascalで改善されておお〜と思っていたところ #kantogpu

2016-08-21 14:22:20

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

あー、またFP16の話がー。私の今日のネタがー！ #kantogpu

2016-08-21 14:22:50

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

んー、たしかにFP16だけで話すのはネタが少なかったかなぁ。 #kantogpu

2016-08-21 14:23:53

山田てるみ @telmin_orca

doubleのatomicAddが使えるようになったという #kantogpu

2016-08-21 14:24:23

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

FP64 での Atomic Addition は CC6.0 で追加された。 CC6.1 でもサポートされている。 #kantogpu

2016-08-21 14:24:38

K. Ishizaki @kiszk

keplerではdouble instructionのissue rateはper 3 cycleだったが、pascalではper 2 cycleになった　 #kantogpu

2016-08-21 14:25:18

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

あー！！モロカブリの図がぁーー！！ #kantogpu

2016-08-21 14:25:25

おさかなさん @sakanazensen

Computer Capability 6.0からAtomic AddができるようになってCAS(compare and swap)とかしないでよくなった #kantogpu

2016-08-21 14:25:36

山田てるみ @telmin_orca

1ディープラーニング #kantogpu

2016-08-21 14:26:02

山田てるみ @telmin_orca

2ディープラーニング #kantogpu

2016-08-21 14:26:26

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

Subnormal （Denormal）と呼ばれる非常に小さい数だと、演算が遅かったりするので、そこら辺をがっさり０に丸めたりするアーキテクチャ（GPUにかぎらず）あります。なので、Full Speed で走るというのは、それはそれ意味のある話。 #kantogpu

2016-08-21 14:26:56

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

NVLINK は他のGPUについて atomic なアクセスもできる。すげー。 #kantogpu

2016-08-21 14:27:36

dandelion @dandelion1124

half precisionはOpenEXRでも使ってますね！ #kantogpu

2016-08-21 14:27:38

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

@telmin_orca カウントされてる！ #kantogpu

2016-08-21 14:27:54

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

HBM2 でサポートされた機能の１つにメモリ管理が賢くなった。 49bit の Virtual Memory。現在のCPUのメモリ空間は48bitなので、ここにもう1bit追加すると、CPU/GPUがすべて表現できる。 #kantogpu

2016-08-21 14:32:40

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

CUDA 6 時点でのUnified Memory というのは、GPU側のメモリにManaged Memory を確保するという仕組みだった。なので、メモリの量はGPUのメモリ量に制約を受けていた。 #kantogpu

2016-08-21 14:33:59

山田てるみ @telmin_orca

Unified Memoryは、従来はGPU上にメモリを確保していた。それなので、Unified MemoryはGPUの搭載メモリ量で上限が決まっていた #kantogpu

2016-08-21 14:34:06

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

山田さん、 GJ ！ #kantogpu

2016-08-21 14:36:15

山田てるみ @telmin_orca

ご協力に感謝します！ #kantogpu

2016-08-21 14:36:42

山田てるみ @telmin_orca

(さっきあのマイクの電源入れ方知っといてよかった… #kantogpu

2016-08-21 14:36:54

Aki Teshima 「OpenCVデバッグ探偵記」BOOTHで販売中 @tomoaki_teshima

@tomoaki_teshima Pascal での Unified Memory はGPUに搭載されてるメモリ以上に Unified Memory を allocate できる。 cudaMemAdvise API が CUDA 8.0 RC から追加された #kantogpu

2016-08-21 14:37:22

山田てるみ @telmin_orca

cudaMemAdviseといった、Unified Memory周辺のAPIが追加された。メモリのプリフェッチ等を指示するようなAPI #kantogpu

2016-08-21 14:38:14

いま話題のタグ