- 255 名前:デフォルトの名無しさん mailto:sage [2008/03/16(日) 14:57:39 ]
- ブロック数は、どうせ多く割り当ててもCUDA内部で直列に並べるだけだから
非同期で少しでもCPUと並列にしたい場合を除けば大目に割り当ててOK。 スレッド数についても多い分はどうせ別のワープに割り当てられるから多めでOK。 但し、同期を取る場合には多過ぎるとダメ。 手元のデバイス関数の場合、ブロック数*スレッド数は少なくとも1024か2048以上必要(8800GTXの実測で)。 これらを踏まえると、スレッド数が32ならブロック数は64以上、スレッド数が64ならブロック数は32以上くらいか。 ブロック数の上限は、実測しながら適当に調整するとして、大体1024を超えるといくつでも変わらないと思う。 # これも、具体的なテスト用のサンプル用意したいところだね。
|

|