- 282 名前:デフォルトの名無しさん mailto:sage [2008/11/01(土) 10:12:52 ]
- ・グローバルメモリアクセスは、最大400(?)クロック掛かるが、最短では4クロックで済む。
# そのためには、coalescedにアクセスできるように工夫する必要がある。 ・各ストリーミングプロセッサは、独立して動作する。Sharedメモリも同様。 例えば、行列の転置のような処理の場合、普通に書くとcoalescedに読んでincoherentに書かざるを得ない。 # 或いはその逆か。 そこで、CUFFT内で行なっている転置処理では、(プロファイルで見る限り)一旦共有メモリにおいて同期を取ることで、 読み書き共にcoalescedアクセスを維持しているようだ。
|

|