x86/x64最適化勉強会#6 (5ページ目)

とみながたけひろ @takehiro_t

HT有効になるスレッド数になるとTSXのパフォーマンス測定結果のエラーバーが長すぎて謎に。HTになったときのCPU内の命令スケジューリング(?)はどうなってるんだろうな。#x86opti

2013-08-31 16:27:25

とみながたけひろ @takehiro_t

HLEはD$の上に乗っかっている仕組みだから、D$に乗り切らないとつらい、ということか #x86opti

2013-08-31 16:34:01

納☆no3b @natto_heaven

スレッド数やHyper-Threadingの使用非使用でTSXの効きが結構変わるというのは、自分が過去に採ったベンチの盲点だったかも #x86opti

2013-08-31 16:34:22

yoh @yohhoy

そいやpthread_mutexはRTMつかったの出てきたけどpthread_spin_mutexはHLE使わないのかしら？ #x86opti

2013-08-31 16:34:45

とみながたけひろ @takehiro_t

あー、やっぱりTSXのあるHaswellを待つべきだったのか… インテルさん全部入りHaswellはよ #x86opti

2013-08-31 16:37:05

shinichiro hamaji @shinh

HLE の話を聞いて HLE つき/無し spinlock の結果と、 contention の頻度をいじった表を追加してみました #x86opti http://t.co/yC8PoJtxGf

2013-08-31 16:49:38

とみながたけひろ @takehiro_t

いちど会ってみたかった似鳥さん! XeonPhiの文字にいきなりびびる #x86opti

2013-08-31 16:57:19

とみながたけひろ @takehiro_t

世間一般には売られていない連邦の秘密兵器的な存在のはずのXeonPhiの話題にだれも驚かない会場 #x86opti

2013-08-31 16:59:29

とみながたけひろ @takehiro_t

N体問題は実は私の修論である(笑) #x86opti

2013-08-31 17:03:36

とみながたけひろ @takehiro_t

掛け算もそうだけど逆数とか平方根のコストっていまどきは大きく変わったよねえ…(精度を厳密に要求するとまだ厳しいけど) #x86opti

2013-08-31 17:14:01

とみながたけひろ @takehiro_t

並列動作は諦めてActiveな粒子だけに限ることで演算数を減らす。計算機性能・実装とアルゴリズムのバランスは難しいなあ #x86opti

2013-08-31 17:20:41

とみながたけひろ @takehiro_t

XeonPhiは60core * (32*2 + 512) = 34.5MBのL1/L2キャッシュメモリ、32本の512bitレジスタ*240スレッドで480KBのレジスタコンテキストが存在する… #x86opti

2013-08-31 17:26:12

とみながたけひろ @takehiro_t

あ、XeonPhiって8087命令使えるのね!XMMもYMMもないのに8087は使えるのか #x86opti

2013-08-31 17:27:20

Tsukasa #01 @a4lg

Xeon Phi に普通に「ログイン」できてしまうというのは凄いなぁ。 #x86opti

2013-08-31 17:30:14

とみながたけひろ @takehiro_t

swizzleの説明でdcba -> dcba(no swizzle)と書くとはやはりx86はリトルエンディアン党員! #x86opti

2013-08-31 17:32:57

とみながたけひろ @takehiro_t

D$ラインサイズとレジスタ幅が同じというのは確かにプロセッサ的にはいろいろ極悪な最適化ができそうだ… #x86opti

2013-08-31 17:35:29

とみながたけひろ @takehiro_t

やはりここでもFMAの謎命令に苦しまされる #x86opti

2013-08-31 17:36:41

よっふぃ〜 @yottui

shuffleの変数名にABCD使っちゃうと、A0とかが16語になったときにAAになったりしてわけ分からなくなるよね (最近まさにハマっている) #x86opti

2013-08-31 17:41:59

とみながたけひろ @takehiro_t

vsubrpd命令 ( -lhs+rhs ) を使うとrhsしかswizzleが使えないという問題を回避できる。やっぱりちゃんと考えて命令作ってあるんだなあ #x86opti

2013-08-31 17:45:00

gos_k @gos_k

XeonPhiってL1キャッシュへのプリフェッチ手書きが効くらしい #x86opti

2013-08-31 17:47:00

よっふぃ〜 @yottui

ハードウェアで240スレッドもあってすげーと思ったけど同期で30μ秒とかパネェ #x86opti

2013-08-31 17:48:57

とみながたけひろ @takehiro_t

マルチソケットのOpteronマシンでソケット間通信するよりXeonPhiのコア内の通信の方が遅い(うぎゃー) #x86opti

2013-08-31 17:49:06

とみながたけひろ @takehiro_t

粒子数vs性能をみるとXeonPhiとGPUは似ている→ボトルネックも近いんじゃないかと予想→マイクロベンチ→やっぱり遅かった、という流れか #x86opti

2013-08-31 17:51:15

とみながたけひろ @takehiro_t

ああ、テクスチャフェッチの最適化のために2Dのヒルベルトほげは実装できたけど、3D,つまりボクセルになったらどうやったらいいんだ #x86opti

2013-08-31 17:55:13

とみながたけひろ @takehiro_t

XeonPhiはL1$は自動プリフェッチしない(L2$はしてくれる)、手書きで頑張れ、と。#x86opti

2013-08-31 17:59:01

いま話題のタグ