- 550 名前:デフォルトの名無しさん mailto:sage [2010/01/26(火) 14:53:47 ]
- >>548
1番最初に実行が始まるCTAの配置は予測可能なので、 その中で使わないSMに割り当てられたCTAはコア内でダミーの演算を長時間繰り返すことでそのSMを占有し続ける。 こうすれば本来の計算は残りのSMでのみ行われるようになる。 通常時間計測できるのは全CTAが完了するまでの時間なので以下のどちらかを。 1)最後のCTAがdevice memoryにマップされたhost pinned memoryに何か書き込む。 2)ダミー演算の繰り返し回数を段々少なくしていき、計測される時間の減少率が変わるところを探す。 なお、全SMを使わないとメモリアクセス効率も落ちるのであまり面白くない。
|

|