- 1 名前:デフォルトの名無しさん mailto:sage [2009/10/08(木) 19:29:37 ]
- このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。 CUDA使いが優しくコメントを返しますが、 お礼はCUDAの布教と初心者の救済をお願いします。 CUDA・HomePage www.nvidia.com/cuda 関連スレ GPUで汎用コンピューティングを行うスレ pc11.2ch.net/test/read.cgi/tech/1167989627/ GPGPU#3 pc12.2ch.net/test/read.cgi/tech/1237630694/
- 361 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 11:17:51 ]
- はじめてのCUDAがいつまでたっても届かない
一体どこに発注したんだよ上の人
- 362 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 12:42:26 ]
- >>360
CUDAのスパコンで1/6が不良品だったと言ってたが
- 363 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 12:44:30 ]
- えっ Teslaとかでもそうなのか??
- 364 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 13:49:03 ]
- Teslaは選別品
- 365 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 14:52:34 ]
- 低価格帯で一番安定してるGPUってなに?
- 366 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 15:53:13 ]
- slidesha.re/5FtABc のP.26
長崎大の人に言って選別プログラムを貰うことだなw
- 367 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 16:12:17 ]
- CUDAは保障外だからCUDAやりたい奴は動くのが当たるまで買えってことなんだろう
- 368 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 16:17:50 ]
- 仮に2/3超の確率で完動しないとしても、自前で問題無く選別できるなら
Tesla買うよりコンシューマGPU買うほうがまだ安い位だから、たくさん 買う人は自前で選別できるように頑張るのが正解だよなぁ。
- 369 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 16:40:06 ]
- 多少クロック落とせば動くんじゃないのかな。CPUのオーバークロックと一緒で。
- 370 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 20:54:29 ]
- >>361
自分は11/27楽天でぽちって 12/01に到着。 ぼちったあとすぐ納期の表示が延びたから焦ったけど滑り込みセーフだったらしい。 書いてあることはわかり易い。しかし意外なことが触れられていなかったりする。
- 371 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 22:49:23 ]
- >>360
その状態が続く限り、コンシューマ用パッケージソフトじゃGPGPUを使えないね。 「動かない」サポートの爆発でたいへんなことになる。
- 372 名前:デフォルトの名無しさん mailto:sage [2009/12/11(金) 23:34:51 ]
- てか>>356の作ってるソフトが選別ソフト代わりになるんじゃね?
- 373 名前:デフォルトの名無しさん mailto:sage [2009/12/12(土) 13:58:47 ]
- おれらまだまだ、「主メモリ側が主役」って固定観念なくね?
いかんな。どかどかデバイスメモリにロード、大量のブロック×スレッドを駆使、 CPUはたまにお手伝いをさせていただく、位に思わないとな。俺まだまだ
- 374 名前:デフォルトの名無しさん mailto:sage [2009/12/12(土) 15:52:58 ]
- メモリ転送と計算を非同期で出来るのかね?
- 375 名前:デフォルトの名無しさん mailto:sage [2009/12/12(土) 15:58:25 ]
- >>374
マルチスレッドで、CPU側は「GPU様が計算し終わるまで寝とけや」くらいの扱いにするわけよ
- 376 名前:デフォルトの名無しさん mailto:sage [2009/12/12(土) 16:43:09 ]
- >>374
できる。 基本GPUとCPUでは非同期。 ストリームを設定すれば、GPUで演算中にデータ転送させることも可能。 ちゃんと同期させるための関数もある。
- 377 名前:デフォルトの名無しさん mailto:sage [2009/12/13(日) 15:51:31 ]
- > NEXUS
いつ出るんだっけ VisualStudio2008でいいんだっけ
- 378 名前:デフォルトの名無しさん [2009/12/15(火) 06:00:58 ]
- カーネルで計算した結果をCPU側に返すにはどうしたらいいの?
return aのように簡単にはできないのですか?
- 379 名前:デフォルトの名無しさん mailto:sage [2009/12/15(火) 06:22:49 ]
- >>378
ちょw カーネルfunctionの引数で float * outdata とかやってカーネルからこれに書き込む outdata[i] = result; ホスト側でcudaMemCopyのdeviceToHostで、ホスト側でcudamallocしたfloat * に戻す みたいになる。ややこしいぞ?
- 380 名前:デフォルトの名無しさん mailto:sage [2009/12/15(火) 19:31:04 ]
- thrust便利だなしかし
- 381 名前:デフォルトの名無しさん mailto:sage [2009/12/16(水) 02:52:17 ]
- thrust、自分で書いたカーネル関数はどう使うのっすか
- 382 名前:デフォルトの名無しさん mailto:sage [2009/12/16(水) 15:26:45 ]
- __shared__ int sh[num*2]; /* numはスレッド数 */
という共有メモリの配列をソートし、最大or最小のデータのみグローバルメモリに書き込みたいのですが これをカーネルの中でやるいい方法を教えてください。
- 383 名前:デフォルトの名無しさん mailto:sage [2009/12/16(水) 17:36:07 ]
- ソートは不要で、reductionで半分を繰り返せばいいのでは
- 384 名前:デフォルトの名無しさん mailto:sage [2009/12/16(水) 23:18:35 ]
- >>383
言われてみればそうですね。 解決しました。thx
- 385 名前:デフォルトの名無しさん mailto:sage [2009/12/17(木) 03:27:35 ]
- どこかにfortranでの使用例って
ありませんか
- 386 名前:デフォルトの名無しさん mailto:sage [2009/12/18(金) 16:42:19 ]
- そういえば見かけたことねえな
- 387 名前:デフォルトの名無しさん mailto:sage [2009/12/18(金) 17:17:27 ]
- CUDAはそもそも実行速度がシビアで
高級言語向けではないと思うけどな
- 388 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 02:21:29 ]
- 共有メモリは16個のバンクに分割されて、半ワープのスレッドが同じバンクにアクセスしなければ競合は起こらない。
みたいな事の意味がイマイチ分かりません。 例えばブロックの共有メモリが8KBなら0.5KBづつに分けられて、半ワープのスレッドが0.5KBの中ならどこにアクセスしても良いって意味なの? それとも、先頭から4バイトとか8バイトとかの固定の領域に連続して分けられてるの? でもそれだと分けられる領域が4バイトなのか8バイトなのか分からないじゃまいかヽ(`Д´)ノ カーネルの引数にvoid*とデータサイズを渡して任意のデータ長で処理させたいのですが、 こういう事をしようとすると元からバンク競合は避けられないのですか?教えて、エロイ人(´・ω・`)
- 389 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 02:33:00 ]
- 今あるMPIのプログラムをGPUに対応させようと考えているんだけど、
CUDAでMPIを使うとき、データの転送は一端ホスト側のメモリに転送してから 他のノードへ転送することになるの? だとするとレイテンシがすごく大きそうだね。 それとも専用のライブラリなんかあるのかな? GPU側のグローバルメモリがホスト側のメモリにマップされていれば、 GPUを意識しないで転送ができそうなんだが。
- 390 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 08:02:33 ]
- >>388
おれの解釈だと、共有メモリには16個のアドレス入力と16個のデータ入出力が有る と思ってるんだけど 違うかも
- 391 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 09:55:19 ]
- >>388
連続する64バイトの領域(先頭アドレスが4の倍数)について、4バイト(32bit)のバンク16個に分かれています。 例えばバンク0に属するアドレスは0、64、128、192、256、・・・・・から始まる4バイトの領域。 任意のデータ長が4バイトより大きいのか小さいのか分かりませんが、テンプレート等を使う場合には 型に合わせて場合分けをする必要があるでしょう。 >>390 「1個のアドレス入力と1個のデータ入出力ができるバンク」が16個あるというのが適切な表現かと。
- 392 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 10:00:29 ]
- >>389
device memory on node 0 -> host memory on node 0 -> host memory on node 1 -> device memory on node 1 となるのでレイテンシは大きくなります。今のところCUDAではデバイスメモリをメモリマップする手段はありません。 ただし十分大きなデータを転送する場合にはパイプラン化すれば問題なくなると思います。 むしろpinnedメモリとMPIライブラリの干渉が一番の問題・・・・。
- 393 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 10:47:33 ]
- >>392
レスサンクス やはりレイテンシは大きいのだね。 目的のアプリは数10kbyteから数100kbyteの転送を頻繁に行うから、 せっかくGPUで速くできても、転送ボトルネックで詰まりそう。 転送するサイズも小さいので、page lockさせない方がよいのかも。
- 394 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 14:34:19 ]
- GPUの購入で悩んでいるのだが、
Tesla C1060, GTX295,GTX285のうち結局どれが 速いんですか?ちなみに流体に使います。 GTX295ってGPU2基積んでるけど並列プログラミング しないと2基機能しないとか? 素人質問で申し訳ない。 Teslaの保証とサポートも魅力的だが。
- 395 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 14:44:32 ]
- >>394
メモリ量でC1060になっちゃう なんてことないかな? 295はちゃんとマルチスレッドでプログラムしないと二基使えないです。
- 396 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 15:45:47 ]
- >>390 >>391
なるほど…よく分かりました。レス感謝。 処理させたい任意のデータ長は5バイトだったり、11バイトだったり半端な数もきます。 任意のデータ長に対してコピーやビット演算を行なうんですが、データ長が4バイトより大きいと もうバンク競合は避けられない感じなんですね。 プログラムも汎用にさせたかったけどここは我慢するしかないのか…(´・ω・`)
- 397 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 16:09:09 ]
- VCでプロジェクト作るのが面倒なんだけど、
なんかウィザード的なものはないのかな
- 398 名前:,,・´∀`・,,)っ-○○○ mailto:sage [2009/12/20(日) 16:29:23 ]
- forums.nvidia.com/index.php?showtopic=65111&pid=374520&st=0entry374520
HTML+JavaScriptだから好きに書き換えられるだろ
- 399 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 16:30:40 ]
- おいらも流体で使う予定だが
GTX260を二つ買ってCUDAのお勉強しつつFermi待ち C1060とか中途半端に高いからねえ
- 400 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 16:35:47 ]
- Nvidia寄りのとある企業のエンジニア曰く、
スペックはまったく同じでGTX285のチップの選別品だといっていた。 クロックがGTX285のほうが高いし、GTX285のほうが若干早いかも。 でもこのスレでもあるように、なんか計算結果がずれる可能性があるし、 メモリの多いTeslaが使えるなら使いたいよね。
- 401 名前:デフォルトの名無しさん [2009/12/20(日) 16:53:55 ]
- DodでさえIBM CellじゃなくてPS3を購入してるんだからGTX285で十分でしょう。
- 402 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 17:01:10 ]
- >>398
まだ完成してないんじゃん
- 403 名前:デフォルトの名無しさん mailto:sage [2009/12/20(日) 18:24:06 ]
- >>396
ASCII本の絵がわかりやすいけど、 共有メモリーは[16][17]にすれば問題ないと思う。 共有メモリーは無駄飯食っている用心棒みたいなもんで、 冗長にしてでも使えるときに使わない手はない。
- 404 名前:394 mailto:sage [2009/12/20(日) 22:43:43 ]
- 皆さん、レス感謝です。
なるほど、GTX285とC1060差はさほどないんですね。 メモリと耐久性とサポート,計算結果 に関してはTeslaが有利というわけですな。 とりあえずGTX295のマルチスレッドはちょっと遠慮しようかなと思います。 もうちょい1人で悩んでみます。
- 405 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 00:30:00 ]
- 個人的には285の2GBメモリ版がお薦めなのです。
- 406 名前:デフォルトの名無しさん [2009/12/21(月) 06:47:28 ]
- 【SIGGRAPH Asia 2009レポート】
東工大、スクウェアエニックスがCUDA実装事例を紹介 ttp://pc.watch.impress.co.jp/docs/news/event/20091221_338290.html
- 407 名前:デフォルトの名無しさん [2009/12/21(月) 07:04:05 ]
- 【SIGGRAPH Asia 2009レポート】
NVIDIAがGPUによるグラフィックスワークスタイルの変革をアピール ttp://pc.watch.impress.co.jp/docs/news/event/20091218_336837.html
- 408 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 07:14:00 ]
- >>405
どっか、285の4GB版とか安く出してくれないもんかね。
- 409 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 07:15:58 ]
- ...| ̄ ̄ | < Fermiはまだかね?
/:::| ___| ∧∧ ∧∧ /::::_|___|_ ( 。_。). ( 。_。) ||:::::::( ・∀・) /<▽> /<▽> ||::/ <ヽ∞/>\ |::::::;;;;::/ |::::::;;;;::/ ||::| <ヽ/>.- | |:と),__」 |:と),__」 _..||::| o o ...|_ξ|:::::::::| .|::::::::| \ \__(久)__/_\::::::| |:::::::| .||.i\ 、__ノフ \| |:::::::| .||ヽ .i\ _ __ ____ __ _.\ |::::::| .|| ゙ヽ i ハ i ハ i ハ i ハ | し'_つ .|| ゙|i〜^~^〜^~^〜^~^〜
- 410 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 11:01:34 ]
- めるせんぬついすた、GPU版の使い方@Windowsがやっとわかったわー
- 411 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 15:33:23 ]
- |┃三 /::::::::ハ、\、::::::::\\::::::::::::',
|┃ i:::::::イ `> ー─--ミ::::::::::::| |┃ {::::::::| ::\:::/:::: \:::リ-} ガラッ. |┃ ',::r、:| <●> <●> !> イ |┃ ノ// |:、`{ `> .:: 、 __ノ |┃三 |::∧ヘ /、__r)\ |:::::| |┃ |::::::`~', 〈 ,_ィェァ 〉 l::::::》 <フェニミストはまだかね 辛抱たまらん |┃ |:::::::::::::'、 `=='´ ,,イ::ノノ从 |┃三 ノ从、:::::::::`i、,, ... ..,,/ |::::://:从
- 412 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 16:19:40 ]
- おれの物欲も辛抱たまらん、Core i7+GTX260Mノートが欲しくて。
でもFermiのモバイル版が乗ったノートが出るのを松
- 413 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 21:07:30 ]
- 故あってCUDAを使うことになったのですが自宅にはRadeonを積んだものしかありません。
コンパイルオプションでCPUでのエミュレーションができると何かで読んだのですが これを利用すればRadeonの環境でも一応の動作はするのでしょうか?
- 414 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 21:24:33 ]
- CPUでのエミュレーションなので
radeon関係なくCPU上で動くよ
- 415 名前:デフォルトの名無しさん mailto:sage [2009/12/21(月) 21:44:22 ]
- 即レスどうもです。学校には設備があるので問題ないのですが自宅でもやりたかったので
あともう一つ質問よろしいでしょうか。VineLinuxでの動作は可能でしょうか? 気になったのですがどうもサポートしてないようなので
- 416 名前:デフォルトの名無しさん mailto:sage [2009/12/22(火) 05:22:26 ]
- >>412
悪魔:「単精度なら大して変わらないんだから、買っちゃえよ!Fermi出たらまた買えよ!」
- 417 名前:デフォルトの名無しさん mailto:sage [2009/12/22(火) 06:31:17 ]
- >>415
Linuxでサポート期待しちゃいかんだろう あとエミュレーションはテクスチャ周りなど微妙に?おかしい模様なんで、あんまり期待しないほうがいい。 5000円くらいで適当なカード買うのが一番無難かもよ。
- 418 名前:デフォルトの名無しさん mailto:sage [2009/12/23(水) 09:13:22 ]
- なんか、GeForceの在庫がどんどん無くなっていってない?
まもなくFermi出るな!これは!
- 419 名前:デフォルトの名無しさん mailto:sage [2009/12/23(水) 11:06:25 ]
- C2050/2070よりも先にFermi搭載のGeForceが出ると発表しているしね
NVIDIA、“Fermi”採用第1弾GPU「Tesla 20」シリーズ発表 - ITmedia +D PC USER ttp://plusd.itmedia.co.jp/pcuser/articles/0911/17/news039.html まあ、実際に2010Q1に出るかは怪しいわけだが C2050が2499ドルってのは自宅用で用意するには結構きつい値段なので、 Fermi搭載のGeForceがどの程度の値段なのかが今から気になっている
- 420 名前:デフォルトの名無しさん mailto:sage [2009/12/23(水) 11:07:45 ]
- >>415
とりあえず玄人思考のGTX260でも買ってみよう でかいからPCケースに入るか確認してからね
- 421 名前:デフォルトの名無しさん mailto:sage [2009/12/26(土) 03:28:46 ]
- Device 0: "GeForce 8600 GTS"
Total number of registers available per block: 8192 CUDAやろうと思ってますが、レジスタの領域が少なすぎませんか? __device__ void swap(float *d1, float *d2); 例えばこのような関数呼び出すのに引数とtempで計12byte、他にもthIDや作業用でローカル変数使うから、 最大のパフォーマンス求めようとすると実質スレッドは300個くらいになるんだけど… こんなんだと何万、何千のスレッドとか無理じゃね? みんなカーネル以外の関数は作らずにカーネルの中に処理を直書きしてるのですか?
- 422 名前:デフォルトの名無しさん mailto:sage [2009/12/26(土) 04:01:38 ]
- >>421
レジスタとスタックとかバイトとレジスタ個数とかごっちゃになってないか色々と
- 423 名前:デフォルトの名無しさん mailto:sage [2009/12/26(土) 11:11:36 ]
- 4Gamer.net ― Fermi時代の製品展開が分かってきたNVIDIAのGPUロードマップ。DX11世代が出揃うのは2010年Q2以降に(Fermi(開発コードネーム))
www.4gamer.net/games/099/G009929/20091012001/ Fermi搭載のGeForceは3月くらいかなあ…? この記事自体が2ヶ月前だからなんともだけどね
- 424 名前:デフォルトの名無しさん mailto:sage [2009/12/26(土) 17:54:34 ]
- あんどうさん更新
ttp://www.geocities.jp/andosprocinfo/wadai09/20091226.htm
- 425 名前:デフォルトの名無しさん mailto:sage [2009/12/26(土) 18:03:48 ]
- >>421
>Device 0: "GeForce 8600 GTS" >Total number of registers available per block: 8192 直訳すると、「ブロックあたり使用可能なレジスター数:8192」 ブロックあたりのスレッド数は数千・数万もいらない。 128〜256程度でだいたいパフォーマンスは出る。(それを複数コアで何セットも同時に動かす) あとカーネル1個でなんでもかんでもするもんでもない。(直列的な)処理ごとに分割すればいい。
- 426 名前:421 mailto:sage [2009/12/27(日) 23:15:38 ]
- >>422 >>425
うん…見直すと自分とても恥ずかしい事言いましたね(´・ω・`) 当初の疑問は理解して解決しました。 で、また別の話のGPGPUに関して質問です。 今DirectX使ってゲームを作っていて処理の重い部分(当たり判定とか)をGPUにやらせようと思っているんだけど、 ゲームって元々グラフィック描画でGPU使うので、それに加えてCUDAやプログラマブルシェーダーでGPGPUしたら相当パフォーマンス落ちますか? 目的はCPU使用率を抑えたいんだけど、ゲームのような1フレーム毎にGPGPUをするのは実用で使えうるものなんでしょうか。
- 427 名前:デフォルトの名無しさん mailto:sage [2009/12/27(日) 23:28:32 ]
- 当たり前の話だけど、GPUをフルに使うようなレンダリングをしていたら遅くなる
フレーム枚にGPGPUの処理を入れるのはそんなに問題ない ただし処理の重い部分ってのが上手く並列化できるアルゴリズムであることや、そこそこの量あることが求められる 分岐ばっかだったり、処理よりメインメモリ-VRAM間の転送のほうが時間かかると逆に遅くなる ようは、本当にGPGPUを使ったほうがいい処理なのかを吟味する必要がある
- 428 名前:デフォルトの名無しさん mailto:sage [2009/12/27(日) 23:54:43 ]
- 質問です。
C:\ProgramData\NVIDIA Corporation\NVIDIA GPU Computing SDK\C\src\template\template_vc90.vcproj を開き、ビルドした所、「入力ファイル 'cutil32D.lib' を開けません。」というエラーが出ました。「x64」では、スキップされてしまいます。 >>34 とほぼ同じ状況なので、このスレに書かれている事をしてみたのですが、変化ありません。 また、リンカの設定でcutil32D.libをcutil64D.libに変えた所、x64でビルド出来るようになったのですが、 「モジュールのコンピュータの種類 'x64' は対象コンピュータの種類 'X86' と競合しています。」と別のエラーが発生しました。 環境は windows7 64bit Visual C++ 2008 Express Edition GTS250 CUDAのドライバ、toolkit、sdkは2.3でwin7 64bitの物を入れました。 改善策がありましたら、ぜひお願いします。
- 429 名前:デフォルトの名無しさん mailto:sage [2009/12/28(月) 00:17:23 ]
- >>428
Expressは64bitでコンパイルできないかも? www.microsoft.com/japan/msdn/vstudio/2008/product/compare.aspx
- 430 名前:デフォルトの名無しさん mailto:sage [2009/12/28(月) 00:25:04 ]
- >>429
みたいです。やはりproを買うしかないのでしょうか… レスありがとうございました。
- 431 名前:デフォルトの名無しさん mailto:sage [2009/12/28(月) 00:48:50 ]
- >>428 >>430
答えるのに十分な情報量を持った質問を久しぶりに見たような気がしたw proが良いけどねぇ。 今は最適化コンパイラもついてるし、standardで良い気もする。 (standard使ったことはないので参考まで)
- 432 名前:デフォルトの名無しさん mailto:sage [2009/12/28(月) 02:01:56 ]
- PlatformSDKにx64コンパイラあったような
- 433 名前:デフォルトの名無しさん mailto:sage [2009/12/28(月) 20:43:04 ]
- 落ち着いて、なぜこういうエラーがでるのか?
と、考えるしかないよ。
- 434 名前:デフォルトの名無しさん mailto:sage [2009/12/29(火) 11:29:33 ]
- CUDAが使えるGPUが載ってるか否かの判断をプログラム上で行うには
どうするといいのでしょう?
- 435 名前:デフォルトの名無しさん mailto:sage [2009/12/29(火) 11:57:15 ]
- OpenCL入門 - マルチコアCPU・GPUのための並列プログラミング
が出版されるそうな アスキードットテクノロジーズの記事書いた人たちらしいが GPGPUでもっともメジャーなのはCUDAだと思うけど OpenCLがこの本の売り文句通りスタンダードになるんだろうか…? よくわからないけど、無関心でいるわけにも行かないのでとりあえずポチってみる 感想あったらアマゾンのレビューに書く >>434 プログラム上でその判断をやる必要というのがよくわからない コマンドラインでやるのでは駄目なのか
- 436 名前:デフォルトの名無しさん mailto:sage [2009/12/29(火) 11:57:22 ]
- >>434
それはやはり cudaGetDeviceCountして、CUDAデバイス個数調べ cudaGetDevicePropertyをDeviceCountまわして、 .major、.minorでバージョンチェック .multiProcessorCountでコアの個数調べ して使うしかないんじゃ。
- 437 名前:434 mailto:sage [2009/12/29(火) 12:21:50 ]
- >>436
どうも >>435 CUDA依存部分を共有ライブラリの形でプログラム本体から切り出しておいて、 実行時に動的にリンク出来たらとか考えてます。 …CUDA版バイナリと、CUDA無し版バイナリを用意して、インストール時に 選ばせればいいのか。
- 438 名前:デフォルトの名無しさん mailto:sage [2009/12/29(火) 13:05:23 ]
- >>435
スタンダードはどう考えてもDirectComputeだろ。 いまのWindowsのシェアとDirectXの普及率から考えてCUDAがスタンダードになるにはポテンシャルが違いすぎる。
- 439 名前:438 mailto:sage [2009/12/29(火) 13:06:36 ]
- CUDAはスタンダードになれる可能性はあるけど、OpenCLはたぶん廃れる。
OpenCLって所詮はCUDAのラッパでしょ? ラッパライブラリがスタンダードになった事例ってあんまり知らないんだけどさぁ。
- 440 名前:デフォルトの名無しさん mailto:sage [2009/12/29(火) 13:16:26 ]
- Appleはラッパ好きだよな。
ObjCもラッパではないにしろマクロ駆使してるだけで、骨はCに変わりはないでしょ? Appleは声は大きいけど技術が無いから、OpenCLもあんまり期待してないよ。 所詮ラッパライブラリだから、コンパイルしたらどのGPUでも使えるってわけではないし。 OpenCLのDLLロードしたらどのGPUでも同じバイナリでおkみたいになったら使いやすいけどね。
- 441 名前:デフォルトの名無しさん mailto:sage [2009/12/29(火) 13:19:23 ]
- てか俺が作っちゃう?www
- 442 名前:デフォルトの名無しさん mailto:sage [2009/12/29(火) 13:27:41 ]
- >>437
436でCUDA使えるかどうか確認して、 プログラムとしてはCPU用ルーチンとGPU用ルーチンを両方持っておく でいいんじゃね?(やはり、動作確認用にCPU/GPU双方で試すのは必要と思うし)
- 443 名前:デフォルトの名無しさん mailto:sage [2009/12/29(火) 13:30:38 ]
- >>438
おれ、 ttp://openvidia.sourceforge.net/index.php/DirectCompute 見て「うざっ!!」と思って挫折した。 ダメな俺
- 444 名前:デフォルトの名無しさん mailto:sage [2009/12/31(木) 03:50:21 ]
- pyCUDAってどうかな
DriverAPIを使ってモジュールを実行時に作成、ロードするみたいですね。
- 445 名前:デフォルトの名無しさん mailto:sage [2010/01/03(日) 16:34:54 ]
- 3次元のデータをデバイス側に送って計算したいんですけど、
>>328の >固めてまとめて渡しちゃったほうがオーバーヘッドが少ないと思います。 >トータル何列あるよ、は別にパラメータで渡す。 というのはどこにどのように記述すればいいのでしょう?
- 446 名前:デフォルトの名無しさん mailto:sage [2010/01/03(日) 16:57:35 ]
- >>445
もちろん、少ないならデバイス関数の引数として渡す。パラメータ複数個まとめた配列で渡しても良いし。 計算の対象、計算の結果、に加えて、計算のパラメータ、も同様にホスト側で確保→cudaMemCopyするわけ。
- 447 名前:デフォルトの名無しさん mailto:sage [2010/01/03(日) 17:38:23 ]
- >>446
ありがとうございます。 物分かりが悪くて申し訳ないのですが、 cudamemcpyは確保した領域にデータをコピーする使い方しか思いつかないので、 >計算の対象、計算の結果、に加えて、計算のパラメータ、も同様にホスト側で確保→cudaMemCopyするわけ。 を簡単に例で説明していただけないでしょうか?
- 448 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 00:23:45 ]
- えっ なぜ分からないんだ? たとえばこんな感じだよ
__device__ calculate(float * input, float * output, int * params){ : if (params[i] == 0) output[i] = func_A(input[i]); if (params[i] == 1) output[i] = func_B(input[i]); __syncthreads();
- 449 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 11:06:25 ]
- >>448
ありがとうございます。 なんだか変な方向に考えすぎていました。
- 450 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 12:52:14 ]
- CUDAってGPUカーネルの中で関数読んで値をreturnさせることできたっけ?
あと__global__にしないとホストから関数呼べなくね?
- 451 名前:448 mailto:sage [2010/01/04(月) 13:31:34 ]
- calculateが__global__で、func_A()、func_B()が__device__ですたorz
- 452 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 14:00:48 ]
- Fermi搭載GeForceの発売がまた不透明になったとか
- 453 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 16:05:01 ]
- ⇒を何らかの演算として 0⇒256 256⇒512 512⇒0 といった感じにしたいのですが
a = (a+256)%513; とする以外思いつきません。けど剰余は遅いので違う計算にしたいんです。 いっそのことテーブル作ったりif文にしたほうが早いのでしょうか? 馬鹿すぎてわかりません。誰か助けて
- 454 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 16:10:45 ]
- >>453
Cudaだと四則演算はほとんど処理時間には影響しないし、その式をつかうといいんじゃない? っていおうとおもったけど、a=512のとき0にならなくね?
- 455 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 16:13:31 ]
- 257⇒0 258⇒1 … でいいの?
でもそうすると512⇒0がヘンだけどな。 int val; val = a + 256; if (val > 512) val = val - 513; でいいんじゃないの? というかC言語の疑問をCUDAスレで聞くのはまちがっとる、ここは人口が少ないぞ
- 456 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 16:26:48 ]
- じゃあCUDAっぽく
const int TABLE[512] = { 256, ... , 512, ... , 0 } __device__ int f(int a){ return TABLE[a]; }
- 457 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 17:09:36 ]
- レスありがとうございます
わけわかんないこと書いてすみません テーブルとif文試して出直してきます
- 458 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 17:37:31 ]
- >>453
b⇒aとして、 a = (b+256)%768; でいいのかな? 0⇒256 256⇒512 511⇒767 512⇒0
- 459 名前:デフォルトの名無しさん mailto:sage [2010/01/04(月) 21:45:29 ]
- 釣りだよな?
- 460 名前:デフォルトの名無しさん mailto:sage [2010/01/05(火) 01:06:37 ]
- 申し訳ないっす
- 461 名前:デフォルトの名無しさん mailto:sage [2010/01/07(木) 00:21:36 ]
- ランダム関数の作成で悩んでます。
・CPUで作成した乱数リストをGPUに転送しない ・1スレッドの中で何度も呼ばれる ・グローバルメモリは使わない。スレッドIDやclock()をseedとして使う この制約で良い乱数生成アルゴリズムを教えて下さい。 MTGPっていうのを参考にしようとしましたがムズ過ぎて挫折…まずコンパイルが通らず(´・ω・`)
|

|