【GPGPU】くだすれCUDAスレ pert4【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 2chのread.cgiへ]
Update time : 12/12 04:31 / Filesize : 191 KB / Number-of Response : 793
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【GPGPU】くだすれCUDAスレ pert4【NVIDIA】

336 名前：デフォルトの名無しさん mailto:sage [2011/02/16(水) 05:21:54 ]: 他のスレッドでは書き込めない超低レベルなチラ裏で恐縮ですが、
CUDA toolkitのサンプルのVecAddで、floatを全てdoubleに置き換えた上で
１．ベクトル要素数Nをどこまで大きくできるか
２．CPUによるVecAddとの速度差はどの程度か
を調べました。
※GPU=GTS450 1GB、CPU=AthlonII-X4 640＠定格。CPUのVecAddは単純な3行ループで非マルチスレッド。

１．16*1000*1000までセーフ、17*1000*1000は実行時エラー(debug)。
つまりcudaMalloc()量にして384MBはセーフ、408MBはアウトでした（GTS450 1GB)。
VRAMいっぱいまで使えるわけではないのですね。

２．clock()による計測ですが、
GPU→トータル 437 clock（内訳：cudaMalloc(ABC)=250, cudaMemcpy(AとBをhost2dev)=125, VecAdd=0, Memcpy(Cをdev2host)=62）
CPU→172 clock
でした(debug。releaseでも比はだいたい同じ)。
最初は内訳を出さず437と172をみてガッカリしたのですが、内訳を見てマジスンマセンwでした。
メモリ確保・転送のオーバーヘッドがそれなりにあるということは、
「host関数から高速な関数としてdevice関数を（頻繁に）呼び出す」のではなく、
極力device関数内だけで処理をさせるようにしないとうまみが少ないのですね。

[ 続きを読む ] / [ 携帯版 ]

全部読む前100 次100 最新50 ▲ [ このスレをブックマーク！携帯に送る ] 2chのread.cgiへ
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧]（ ´∀｀）＜191KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef