- 313 名前:デフォルトの名無しさん mailto:sage [2009/12/06(日) 07:23:36 ]
- >>312
sharedが一定以上多いとOccupancyが下がるから、そこらへんじゃない? Occupancyは実行効率にダイレクトに効いてくる。 Visual Profilerの実行ログにも出てくるし、SDKのtools/CUDA_Occupancy_calcurator.xlsで試算可能。 Shared Memory Per Block (bytes)のところに16000って入れると良い。(125*32*sizeof(uint1)) ちょっと計算してみると、 スレッドブロックのサイズが512ぐらいならまだマシ(67%)だけど、 64とかだと壊滅的に遅くなる(8%)。 あとpxがアドレス参照でローカルメモリ(VRAM上)に行ってないか心配だ。
|

|