【GPGPU】NVIDIA CUDA質問スレッド
at TECH
[
2ch
|
▼Menu
]
■コピペモード
□
スレを通常表示
□
オプションモード
□このスレッドのURL
■項目テキスト
300:デフォルトの名無しさん 08/03/20 14:25:54 >>299 とにかくメモリのコピーがヤヤコシイんだわ。ホスト側、GPUの グローバルメモリ、GPUのチップ内メモリで転送しまくらないと いかんで。やり方間違えると全然性能出ないし。 Cellはその辺どうなの? 301:デフォルトの名無しさん 08/03/20 14:28:32 256kしかないLSでやりくりするのが大変って聞いたな 302:デフォルトの名無しさん 08/03/20 15:10:07 両方試した私に言わせて貰えば、どっちもどっち。 確かにCBEは256KiBの壁がねぇ。GPUも64KiBの壁やcoalescedの沼があるけど。 超越関数を使える点ではCUDAが有利。ホストの性能でもPPEじゃ結構泣けるし。 303:デフォルトの名無しさん 08/03/20 16:02:10 PPEはひどいよな。ホステスにC2D使ってるけど、ifがいっぱいあるような場合はC2Dの方が速いしね。 304:デフォルトの名無しさん 08/03/20 16:14:13 >>298 それ実験してみたんだけど、変わらないみたい。 ・global→shared(行列多数)と__constant__に置いた定行列で行列積 ・global→shared(行列多数)とsharedの一部に置いた定行列で行列積 で、後者が1%遅いくらいだった。リードオンリーなだけで、コアとの距離や 所要クロック数はconstantもshared・レジスタも同じなのかもと?
次ページ
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
レスジャンプ
mixiチェック!
Twitterに投稿
オプション
しおりを挟む
スレッドに書込
スレッドの一覧
暇つぶし2ch
4329日前に更新/252 KB
担当:undef