- 421 名前:デフォルトの名無しさん mailto:sage [2009/12/26(土) 03:28:46 ]
- Device 0: "GeForce 8600 GTS"
Total number of registers available per block: 8192 CUDAやろうと思ってますが、レジスタの領域が少なすぎませんか? __device__ void swap(float *d1, float *d2); 例えばこのような関数呼び出すのに引数とtempで計12byte、他にもthIDや作業用でローカル変数使うから、 最大のパフォーマンス求めようとすると実質スレッドは300個くらいになるんだけど… こんなんだと何万、何千のスレッドとか無理じゃね? みんなカーネル以外の関数は作らずにカーネルの中に処理を直書きしてるのですか?
|

|