HT有効になるスレッド数になるとTSXのパフォーマンス測定結果のエラーバーが長すぎて謎に。HTになったときのCPU内の命令スケジューリング(?)はどうなってるんだろうな。#x86opti
2013-08-31 16:27:25スレッド数やHyper-Threadingの使用非使用でTSXの効きが結構変わるというのは、自分が過去に採ったベンチの盲点だったかも #x86opti
2013-08-31 16:34:22そいやpthread_mutexはRTMつかったの出てきたけどpthread_spin_mutexはHLE使わないのかしら? #x86opti
2013-08-31 16:34:45あー、やっぱりTSXのあるHaswellを待つべきだったのか… インテルさん全部入りHaswellはよ #x86opti
2013-08-31 16:37:05HLE の話を聞いて HLE つき/無し spinlock の結果と、 contention の頻度をいじった表を追加してみました #x86opti http://t.co/yC8PoJtxGf
2013-08-31 16:49:38掛け算もそうだけど逆数とか平方根のコストっていまどきは大きく変わったよねえ…(精度を厳密に要求するとまだ厳しいけど) #x86opti
2013-08-31 17:14:01並列動作は諦めてActiveな粒子だけに限ることで演算数を減らす。計算機性能・実装とアルゴリズムのバランスは難しいなあ #x86opti
2013-08-31 17:20:41XeonPhiは60core * (32*2 + 512) = 34.5MBのL1/L2キャッシュメモリ、32本の512bitレジスタ*240スレッドで480KBのレジスタコンテキストが存在する… #x86opti
2013-08-31 17:26:12swizzleの説明でdcba -> dcba(no swizzle)と書くとはやはりx86はリトルエンディアン党員! #x86opti
2013-08-31 17:32:57D$ラインサイズとレジスタ幅が同じというのは確かにプロセッサ的にはいろいろ極悪な最適化ができそうだ… #x86opti
2013-08-31 17:35:29shuffleの変数名にABCD使っちゃうと、A0とかが16語になったときにAAになったりしてわけ分からなくなるよね (最近まさにハマっている) #x86opti
2013-08-31 17:41:59vsubrpd命令 ( -lhs+rhs ) を使うとrhsしかswizzleが使えないという問題を回避できる。やっぱりちゃんと考えて命令作ってあるんだなあ #x86opti
2013-08-31 17:45:00マルチソケットのOpteronマシンでソケット間通信するよりXeonPhiのコア内の通信の方が遅い(うぎゃー) #x86opti
2013-08-31 17:49:06粒子数vs性能をみるとXeonPhiとGPUは似ている→ボトルネックも近いんじゃないかと予想→マイクロベンチ→やっぱり遅かった、という流れか #x86opti
2013-08-31 17:51:15ああ、テクスチャフェッチの最適化のために2Dのヒルベルトほげは実装できたけど、3D,つまりボクセルになったらどうやったらいいんだ #x86opti
2013-08-31 17:55:13