【FPU】　浮動小数点　【SSE】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 2chのread.cgiへ]
Update time : 10/10 17:38 / Filesize : 123 KB / Number-of Response : 462
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【FPU】　浮動小数点　【SSE】

1 名前：デフォルトの名無しさん [2008/01/04(金) 14:25:44 ]: 主にx86系で浮動小数点を扱う話題
457 名前：デフォルトの名無しさん mailto:sage [2010/06/30(水) 19:03:04 ]: Cだけ_mm_stream_psにしても変わらないならA,B,Cだけが原因じゃなさそうだ。
計算群1,2,3で参照しているメモリがA,B,Cとスラッシングしてるんじゃないかな。
なので、こうしたらどうだろう？
for () {SSEの計算群1-> 結果をA[i]}
for () {SSEの計算群2-> 結果をB[i]}
for () {SSEの計算群3-> 結果をC[i]}

これでも計算群1で参照しているメモリがA[i]とスラッシングしてたらお手上げなんだけど。
458 名前：443 mailto:sage [2010/07/01(木) 01:21:40 ]: >>456
>>457

いろいろと調べてみたら、キャッシュの問題ではなくて、
NUMAノードの設定が問題だったようだ。
メモリの確保をmalloc()ではなく、numa_alloc_onnode()でダイレクトにNUMAノードを指定してあげたら、
ほぼスカラーの倍の速度が得られたよ。
numactlをつかって、--preferred=nodes --localallocとかいろいろといろいろとオプションを
つけてやってみたけど、うまく指定したノードでのメモリ割り当てが出来ていなかったみたい。
いずれにしてもSSEの問題ではなかったので、変な質問をして申し訳ない。
レスしてくれた人ありがとう。
ただ、プリフェッチの指定をしていた部分でNehalemではかなり効果があったのが、
Opteronでは全く効果が無いので、プリフェッチの距離とかはOpteron用に考えないといけない様だ。
459 名前：デフォルトの名無しさん mailto:sage [2010/07/01(木) 08:56:52 ]: OpteronのNUMAは諸刃の剣だな。ハマればメモリの許す限りスケールするしな。
ていうかSMP Opteron由来の問題とは俺も気付かなかった。
460 名前：デフォルトの名無しさん [2010/07/23(金) 11:32:54 ]: （０００、０００）10
ー１０、８３５

とかいう問題
461 名前：デフォルトの名無しさん mailto:sage [2010/07/27(火) 16:59:37 ]: >>458
First touch 問題だね

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef