x86/x64最適化勉強会2

「x86/x64最適化勉強会2」 http://atnd.org/events/19140 関連の呟きをタグ「#x86opti」から拾って作りました
8
前へ 1 2 ・・ 6 次へ
HOSHIZUKI, Yusuke @lunatic_star

単純にポインタで2分木を作らずに、幅優先でリスト化することで検索を SIMD 化できる。 #x86opti

2011-10-01 13:53:01
Horimatsu Takuya @horitaku1124

データベースはメモリがボトルネックになることが多いのか。 #x86opti

2011-10-01 13:55:06
herumi @herumi

nがとても小さければ2分木よりSIMDによる線形探索がよいときもあるという話は以前,私もRangeCoderのときに試したことがあります.ビット演算による最適化の妙味 http://t.co/k9CTW0ul #x86opti

2011-10-01 13:55:35
島田 俊輔 @ShimadaShunsuke

僕には難しい。でも「アルゴリズムで扱うデータ量が増えた場合に,コア数に対して処理速度がスケールしない」というのはなるほどと思った QT @herumi 最適化勉強会始まりました.スライドは http://t.co/G6BZxUVC #x86opti

2011-10-01 14:00:22
Tsukasa #01 @a4lg

Bitonic sort の SIMD 最適化 (並列化はしやすいと記憶)。レジスタ内ソートを min/max/shuffle の組み合わせで実現する。 #x86opti

2011-10-01 14:03:26
HOSHIZUKI, Yusuke @lunatic_star

quick sort よりも SIMD 化した bi-tonic sort の方がオーダーが小さい??qsort って速いんじゃなくてオーダーが小さいだけだと思ってたけど違うのかな #x86opti

2011-10-01 14:05:21
Tsukasa #01 @a4lg

次は適応フィルタの SIMD 最適化。 #x86opti

2011-10-01 14:06:53
takesako @takesako

レナ(Lenna または Lena)は、PLAYBOY誌1972年11月号に掲載された女性の写真の一部。画像圧縮アルゴリズムの評価に、広く使用されている標準テスト・イメージのうちの1つ #x86opti http://t.co/CNePwpag

2011-10-01 14:09:31
Tsukasa #01 @a4lg

Lena ←学者がこれほど食い入る画像もないだろうなぁw #x86opti

2011-10-01 14:10:01
Tsukasa #01 @a4lg

(1) ディスクを読むな (2) 大きなメモリを読むな (3) 分岐するな (4) 除算するな (5) 乗算するな [そんな無茶なっ] #x86opti

2011-10-01 14:12:48
HOSHIZUKI, Yusuke @lunatic_star

PCMPGT ニーモニック。マスク作成のためにあるような命令だな。 #x86opti

2011-10-01 14:13:37
Tsukasa #01 @a4lg

SIMD マスク処理で分岐を排除 #x86opti

2011-10-01 14:13:38
Tsukasa #01 @a4lg

PMOVZXBW (BYTE→Packed Word) : SSE 4.1 #x86opti

2011-10-01 14:15:03
Tsukasa #01 @a4lg

PABSW (Packed Word を絶対値): SSSE3 #x86opti

2011-10-01 14:15:21
Tsukasa #01 @a4lg

11倍以上高速化…だがオチが? #x86opti

2011-10-01 14:16:31
HOSHIZUKI, Yusuke @lunatic_star

並列度8のSIMDでも、分岐排除することで8倍を超えることができるのね。当たり前か。 #x86opti

2011-10-01 14:16:59
Tsukasa #01 @a4lg

11 倍高速化は VC++ の場合。icl の場合は 2 倍近くの高速化。 #x86opti

2011-10-01 14:17:15
Tsukasa #01 @a4lg

icl の吐くアセンブリが自動的に SIMD 化していたが、DWORD で比較をするため並列度は半分。 #x86opti

2011-10-01 14:17:56
Tsukasa #01 @a4lg

C 言語コードの icl 最適化: int→short にしてみたけど逆に遅くなった #x86opti

2011-10-01 14:20:25
Tadashi Watanabe @wachikun

gcc だとどのくらいやってくれるのかしら #x86opti

2011-10-01 14:22:40
takesako @takesako

会場から SSE4.1 なら PBLENDVB 命令(ブレンド命令)が使えるのでは?というツッコミが #x86opti http://t.co/hAD2JLZi

2011-10-01 14:23:52
前へ 1 2 ・・ 6 次へ