【GPGPU】くだすれCUDAスレ part6【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 05/30 06:39 / Filesize : 210 KB / Number-of Response : 866
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2012/09/23(日) 23:17:47.58 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
toro.2ch.net/test/read.cgi/tech/1314104886/
2 名前：デフォルトの名無しさん mailto:sage [2012/09/23(日) 23:18:20.77 ]: 関連サイト
CUDA
www.nvidia.co.jp/object/cuda_home_new_jp.html

CUDAに触れてみる
chihara.naist.jp/people/STAFF/imura/computer/OpenGL/cuda1/disp_content

CUDA のインストール
blog.goo.ne.jp/sdpaninf/e/9533f75438b670a174af345f4a33bd51

NVIDIAの「GeForce 8800 GT(G92)」と次に控える64-bit GPUアーキテクチャ
pc.watch.impress.co.jp/docs/2007/1031/kaigai398.htm

CUDAを使う
tech.ckme.co.jp/cuda.shtml

NVIDIA CUDAを弄ってみたその2
dvd-r.sblo.jp/article/10422960.html

CUDAベンチ
wataco.air-nifty.com/syacho/2008/02/cuda_2044.html

KNOPPIX for CUDA
www.yasuoka.mech.keio.ac.jp/cuda/
3 名前：1 忍法帖【Lv=38,xxxPT】(2+0：5) mailto:sage [2012/09/23(日) 23:20:02.29 ]: テンプレここまでです。変更点はcudaさわってみた(gpgpu.jp/article/61432191.html)を
リンク切れのため外したことのみです。
4 名前：デフォルトの名無しさん mailto:sage [2012/09/24(月) 00:35:21.83 ]: >>1乙
5 名前：デフォルトの名無しさん mailto:sage [2012/09/24(月) 00:53:05.44 ]: >>1乙

CUDAでがんばっていきやしょう！
6 名前：デフォルトの名無しさん mailto:sage [2012/09/25(火) 20:45:00.45 ]: マンデルブロ集合を描いてフルHDサイズの画像を保存するプログラム書てワクワクしてたら、
CUDAよりCPUのシングルスレッドの方が速かった (´・ω・`)

この程度の計算だとメモリ転送がかなり足を引っ張るんだね
7 名前：デフォルトの名無しさん mailto:sage [2012/09/25(火) 20:47:36.80 ]: たくさんのお仕事がないとGPUさんはがんばれない^^；
8 名前：デフォルトの名無しさん mailto:sage [2012/09/25(火) 22:01:29.76 ]: メモリ転送イヤポだから、AMD、IntelのiGPUはCPUの管理のメモリをGPUからでもアクセス
出来るようにする方向なんだろ
9 名前：デフォルトの名無しさん mailto:sage [2012/09/25(火) 23:05:27.26 ]: ユニファイドメモリってなんか先祖返りな不思議な気分ね
あとからGPUだけ交換できない時代にもなって寂しくなりそうだ

実現したらCPUがそのまま浮動小数点モンスターになって、ドライバもDirect3DコマンドをCPU処理で完結して、
CPUが直でディスプレイコントローラ叩くことになるんだろかね
10 名前：デフォルトの名無しさん mailto:sage [2012/09/25(火) 23:34:41.10 ]: メモリ空間統合したほうが絶対イイね。
データのコピー転送オーバーヘッドはあほらいい。
11 名前：デフォルトの名無しさん mailto:sage [2012/09/26(水) 17:04:17.48 ]: コピー転送オーバーヘッドを調べる方法ないのか
12 名前：デフォルトの名無しさん [2012/09/26(水) 18:23:45.59 ]: 16EiB の壁はいつ来るだろう
13 名前：デフォルトの名無しさん mailto:sage [2012/09/26(水) 20:30:47.96 ]: >>11
イベントで計測できるんじゃない？
14 名前：デフォルトの名無しさん mailto:sage [2012/10/08(月) 16:16:36.47 ]: 書籍「CUDA BY EXAMPLE」の第7章テクスチャメモリを読んでるんだが、
意味が分からない。

テクスチャメモリは読み取り専用と言っておきながら、
普通に書き込んでもいるような気がする。

デバイス側に確保したメモリ data.dev_inSrc を texIn に、
デバイス側に確保したメモリ data.dev_outSrc を texOut に
それぞれテクスチャとしてバインドしている。

で、熱伝導を計算するカーネル関数の「引数」に、
1 フレーム毎に data.dev_inSrc と data.dev_outSrc を切り替えて渡している。
このカーネル関数の中ではそれらに値を書き込んでいる。
（もちろん、もう一方はテクスチャとして tex1Dfetch、あるいは tex2D で読み取ってる）

これって読み取り専用というよりは、たとえテクスチャとしてバインドしようが、
依然グローバルメモリとして使うこともでき、かつ tex1Dfetch などで読み取れば、
特別なキャッシュが働いて近傍への読み取りは速くなる、という事？
15 名前：hoge [2012/10/08(月) 16:59:48.04 ]: CUDAプログラミングを体験したいのですが，CUDAのできる格安ノートPCを教えてください．
16 名前：デフォルトの名無しさん mailto:sage [2012/10/08(月) 17:45:27.76 ]: CUDAのプログラミングを体験したいのならエミュレーションで十分
17 名前：デフォルトの名無しさん mailto:sage [2012/10/08(月) 18:24:26.17 ]: >>14
そういうことだと思う。
グラフィックスやってると普通の感覚なんだけど、
テクスチャ読み出ししてテクスチャにレンダリングするのは常套手段。
汎用コンピューティング時にテクスチャとしてデータを読むときの利点は
テクスチャ用の高帯域バスやキャッシュ、そしてフィルタリング用の固定機能ハードウェアを利用でき、
よりGPUを効率的に扱えることにあると思う。
18 名前：デフォルトの名無しさん mailto:sage [2012/10/08(月) 19:06:04.44 ]: >>17
すいません、ちょっと質問です。

テクスチャ用の高帯域バスを活用するには、
それのバス幅などが分からないといけない（他と比較できない）と思いますが、
deviceQuery.exe で調べても nVidia のサイトでスペック表を調べても、
どこにも載っていないような気がします。

普通のメモリバスやメモリクロック数などは分かるのですが、
テクスチャ用の高帯域バスについてはどこで調べればいいのでしょうか。

フィルタリング用の固定機能ハードウェアについても、
自分が使用しているグラフィックチップにどのような物が搭載されているかも、
分かりません。

そもそも、CUDAカーネルからテクスチャメモリの値を読み取る場合、
フィルタリングってされるのですか？

テクスチャ用の特別なキャッシュ機構がある事については、
「CUDA BY EXAMPLE」に載っていましたから分かりました。
19 名前：17 mailto:sage [2012/10/08(月) 21:21:05.42 ]: >>18
自分は後藤さんの記事を参考にしているよ。
たくさんあるけど、いくつか紹介。

NVIDIAが次世代GPUアーキテクチャ「Kepler」のベールを剥いだ
pc.watch.impress.co.jp/docs/column/kaigai/20120322_520640.html

NVIDIA Fermiのマルチスレッディングアーキテクチャ
pc.watch.impress.co.jp/docs/column/kaigai/20091105_326442.html

NVIDIAの1TFLOPS GPU
「GeForce GTX 280」がついに登場
pc.watch.impress.co.jp/docs/2008/0617/kaigai446.htm

固定機能関係についてはDirectXなどのグラフィックスAPIと同調しているから
そちらの知識が必要になるね。

固定機能にはフィルタリングやアドレッシングがあるけど、
CUDAではこれらをバインド時に設定するみたいだね。

CUDA テクニカルトレーニング
Vol I:CUDA プログラミング入門
www.nvidia.co.jp/docs/IO/59373/VolumeI.pdf
（103ページ目のスライド）
20 名前：デフォルトの名無しさん mailto:sage [2012/10/08(月) 22:47:17.84 ]: >>19
ありがとうございます。
参考にさせていただきます。

すいません、私が使用しているのは Quadro K2000M なんですけど、
テクスチャのバスの帯域幅とかって、どこで分かりますか？
これはフィールレートと呼ばれるものとは別物？

いま nVidia のサイトで調べているのですが、なかなか見当たらないです。
公式には出てない情報なのでしょうか。
21 名前：デフォルトの名無しさん mailto:sage [2012/10/09(火) 00:35:20.42 ]: テクスチャフィルレートが相当すると言えなくもないけど、フォーマットによって変わるから参考にしかならない
概算はTex数×コアクロック（シェーダクロックではない）で見積もれる

テクスチャメモリを使うとテクスチャキャッシュを通るから、汎用のキャッシュがない上にコアレスアクセスの条件が厳しいG80～GT21xでは有効だった
Fermiはテクスチャユニット数の比率が減らされた上に、テクスチャキャッシュより汎用キャッシュの方が大容量になったので、むしろ遅くなることもあった
完全に予想だが、Keplerは（線形補間やテクスチャ端の丸め処理を手動でやる必要がなければ）おそらくテクスチャメモリを使っても使わなくてもそんなに変わらない
22 名前：17 mailto:sage [2012/10/09(火) 00:40:24.46 ]: >>20
そのGPUは最新世代のKeplerアーキテクチャだね。

Keplerの前のFermi世代からはメモリ階層が大きく改変されて、
テクスチャ転送に最適化された上りのパスがなくなった。

pc.watch.impress.co.jp/img/pcw/docs/359/423/06.jpg

依然としてテクスチャL1キャッシュを利用できるメリットはあるけどね。

いずれにせよ、内部バスがどれくらいの帯域であるかは公開されていないと思うよ。
クロスバスイッチ接続で調停しながらでもあるから、ちゃんとした数字も出せないだろうし。
Fermiからはキャッシュが噛むようになったから、なおさら。

仮定と実測の両輪でうまく最適化して詰めていくことが醍醐味だろうね。
面倒だけど･･･ｗ
まぁ、ハード屋やってると、こういうのは楽しい。

フィルレートはグラフィックスにおいて、画像の画素を埋めていく（フィル）する速さのことだから、
グラフィックス処理用のROPユニットの能力が影響してくると思うし、あまり参考にはならないかもね。

www.nvidia.com/content/PDF/product-comparison/Product-Comparison-Quadro-mobile-series.pdf

しかし、このGPU、CUDAコア数に対してメモリ帯域が残念すぎないか？
Keplerアーキ自体が以前と比べてそういう傾向あるけど、それにしてもヒドイｗ
キャッシュがあるから大丈夫なんかな？
どうであれ、演算/ロード比が相当大きくないと性能出すの難しいかもね。
23 名前：デフォルトの名無しさん mailto:sage [2012/10/09(火) 19:04:03.29 ]: >>21
> 概算はTex数×コアクロック（シェーダクロックではない）で見積もれる

ありがとうございます。

Tex数というのはテクスチャユニットの数ですかね。
今自分のチップにどれくらいの数が乗ってるか調べてます。

>>22
> しかし、このGPU、CUDAコア数に対してメモリ帯域が残念すぎないか？
> Keplerアーキ自体が以前と比べてそういう傾向あるけど、それにしてもヒドイｗ

そうなんですか。
ThinkPad で CUDA 使えるイイ奴といったらこれしかなかったもので。

> どうであれ、演算/ロード比が相当大きくないと性能出すの難しいかもね。

がんばります。
24 名前：デフォルトの名無しさん mailto:sage [2012/10/12(金) 16:08:53.39 ]: PTXでブロックまたがってすべてのスレッドでグローバルメモリの同期やりたい時ってmembar.glでいいんだよね多分。
25 名前：デフォルトの名無しさん mailto:sage [2012/10/13(土) 23:43:36.29 ]: ホスト側のコードだけを書いた cu ファイルと、
デバイス側のコードだけを書いた ptx ファイルとをリンクして
ひとつの exe ファイルを作る方法はあるでしょうか。

もしあれば、やり方を教えてください。
26 名前：デフォルトの名無しさん [2012/10/14(日) 00:10:02.48 ]: >>25
ホスト側が面倒になるけどDriver APIとか
27 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 01:00:51.58 ]: >>26
やはりそれしかないですか・・・
28 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 01:04:08.72 ]: なんでそんなことをしたいのかが気になる。
29 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 01:52:04.34 ]: >>28
ptx のアセンブラコードを理解する必要がでてきました。
「PTX: Parallel Thread Execution ISA Version 2.3」のPDFは読んでますが、
やはり実際にアセンブラコードを書いたりして実験しないと難しいです。

そこで、nvcc が cu ファイルに書かれたカーネル関数を、
どのようなアセンブラコードにコンパイルするのか、
そのアセンブラコードに変更を施したら結果はどのように変わるか、
などの実験をいろいろやっています。

今はカーネル関数が書かれた cu ファイルを nvcc で ptx ファイルにコンパイルし、
ホスト側で Driver API を使ってそれをロードして実行しています。

ptx ファイルを多少いじるだけなら再コンパイルの必要は無く、
また cu ファイルを多少いじるだけでも、こちらの再コンパイルだけで済みます。
しかしカーネル関数の引数を変えたり、使うデータを変えたりするなら、
ホスト側のコードも供に再コンパイルする必要があり、手間がかかります。
実験が数回くらいならいいですが、何回もやってるとけっこう面倒です。

nvcc host.cpp dev.ptx などと一気にコンパイルできたらさぞ快適だろうなと思い、
質問した次第です。
30 名前：デフォルトの名無しさん [2012/10/14(日) 01:55:27.84 ]: Makefile
31 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 02:04:07.01 ]: >>30
あぁ、そっちでコンパイルするファイルやコンパイル方法を制御するわけですね。

挑戦してみます。
32 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 04:55:38.24 ]: PTXのコードをインラインアセンブラを使って直接cuファイルの
中にかけばいいじゃん。
33 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 09:11:24.52 ]: >>32
知りませんでした。
「NVIDIA CUDA C Programming Guide Version 4.2」を「inline」で検索してみましたが、
__noinline__ や __forceinline__ の記述しかなかったです。
どこに詳細が載っているのでしょうか。

他にも、ptx のコードを cu ファイル内に書くのでしたら、
文字列として書いた ptx コードの先頭アドレスを適当な変数に入れて、
cuModuleLoadData 関数でロードすることでも実現できますね。

ただ問題は、それだと C 言語で書いたカーネル関数が、
nvcc によってどのような ctx コードにコンパイルされるか、
という部分が調べられない事です。
34 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 09:16:31.85 ]: >>33
つ developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/Using_Inline_PTX_Assembly_In_CUDA.pdf

試してないけど、nvccが出力したPTXのコードをインラインアセンブラの形式で
書き換えることも出来るんじゃない?
35 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 09:35:03.51 ]: >>34
ありがとうございます。
なんというか、少々独特のインラインアセンブラ構文ですね。

今の環境より実験がやりやすくなるか調べてみます。
36 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 14:53:23.16 ]: >>35
GCCのインラインアセンブリ構文がこういうのだよ
37 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 15:28:15.65 ]: >>36
d.hatena.ne.jp/wocota/20090628/1246188338
これ見ると、たしかに同じですね。

インラインアセンブラはその昔 VC++ でしか使ったことがなかったもので
38 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 20:42:43.14 ]: インラインアセンブラは今回の目的には合いませんでした。

インラインアセンブラ自体は問題なく使えて、なかなか面白いのですが、
nvcc で出力した ptx のコードをそのままインラインにしたのでは使えず、
けっこうな修正を余儀なくされます。

なかなか慣れないこともあって作業量はむしろ増えてしまうので、
今回は make を使ってやる方向でがんばってみます。
（こちらだと、今までの延長線上の考え方で何とかいけるので）

みなさん、ありがとうございました。
39 名前：デフォルトの名無しさん mailto:sage [2012/10/16(火) 07:24:30.85 ]: CUDA5で美味しい事あるの？
40 名前：デフォルトの名無しさん mailto:sage [2012/10/16(火) 07:37:48.25 ]: >>39
新機能を使わないんだったら全然美味しくない。
CUDA5でビルドしたらかなり遅くなった。
41 名前：デフォルトの名無しさん [2012/10/16(火) 09:54:43.52 ]: CUDA 5 Production Release Now Available
CUDA Downloads | NVIDIA Developer Zone
developer.nvidia.com/cuda/cuda-downloads
42 名前：デフォルトの名無しさん mailto:sage [2012/10/16(火) 22:33:51.56 ]: 早く５の報告しやがれ
43 名前：デフォルトの名無しさん mailto:sage [2012/10/17(水) 03:16:50.02 ]: 4Gamer.net ― NVIDIA，「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う
www.4gamer.net/games/076/G007660/20121016013/
44 名前：デフォルトの名無しさん mailto:sage [2012/10/17(水) 08:26:25.67 ]: >>42
普通に動いてるよ。
45 名前：デフォルトの名無しさん mailto:sage [2012/10/17(水) 23:16:16.73 ]: >>43
Nsightはプロファイラーも付いてるのか。
こりゃいい。
46 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 10:47:37.44 ]: >>43
読んでみたけど
これはGeＦｏｒｃｅ切り捨てってこと？

今まで十分遊んだろ
これからはまともにGPGPUしたかったら、金出してTesla買えや
ていう風に読める
47 名前：やんやん ◆yanyan72E. mailto:sage [2012/10/18(木) 12:03:55.32 ]: それは、Kepler発表の時からゲーム用のKepler1と
GPGPU向けのKepler2があるってことになってた。
Kepler1があまりにGPGPUに向いてなくてGeforce680あたりを
買った人はがっかりしてたよ。
48 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 12:23:14.57 ]: >>43
Eclipse用のNsightも出てLinuxやMacでも開発しやすくなるのは大きいかも。

>>46
Dynamic ParallelismはGK110以降での対応でMaxwell世代ではコンシューマ向けでも対応するのでは？
GPUDirectはクラスタ向けの機能で差別化されても仕方ない気がする。
49 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 15:18:50.07 ]: >>47
ゲーマーにGPGPUっていらんだろうからな
要らないのを付けて高い値段･高消費電力になって売れないものになるなら削れだろ
CUDAする奴はとんがったことする奴だろ。そんな奴ならKepler2のTeslaぐらい買うだろうからな
買えない貧乏人はAMDのradeonに移行しろだな
50 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 19:01:56.13 ]: Mac はどうか知らんが、Linux は Windows 版に比べて、
どうしてもドライバのチューニングが徹底されていない感じがする。

SDK 内のサンプルを動かしてみても、
Windows 上で動かしたときより明らかにフレーム数が落ちる。
51 名前：やんやん ◆yanyan72E. mailto:sage [2012/10/18(木) 19:34:39.18 ]: そりゃ、いくらDRIが実装されたからといってX11なんていう
太古のグラフィックAPI使ってるんだから、そんなもんじゃないの？
本気を出させたければWayland待ち。
52 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 19:55:50.80 ]: >>51
遅いのはCUDAじゃなくて、その結果を表示する
グラフィックスライブラリの方ってこと？

確かに、フレーム数が低いと分かって時点で Linux パーティション消したから、
グラフィックスを伴わない純粋な計算で比較したことはないなぁ

今度ためしてみよ
53 名前：やんやん ◆yanyan72E. mailto:sage [2012/10/18(木) 22:37:06.54 ]: フレーム数計る時点で、グラフィックカードに描画させてるんだよね？
その描画をグラフィックス・ライブラリが足引っぱってるんじゃないかってこと
CUDA自身はプログラムをGPGPU用のアセンブリ言語に変えて
GPGPUに実行させるだけだから、あまり差が出るとは考えにくい。
54 名前：デフォルトの名無しさん mailto:sage [2012/10/19(金) 00:22:17.74 ]: そう言えば Yellow Dog Linux for CUDA 使ってる人いる？
どんな感じなの？
55 名前：デフォルトの名無しさん mailto:sage [2012/10/19(金) 12:39:47.00 ]: Linuxなら、GUI止めないとカーネルによっては処理速度ががた落ちする。
使えるGVRAMも激減する。
56 名前：デフォルトの名無しさん mailto:sage [2012/10/19(金) 19:37:02.47 ]: CUDA + GUIつっても、サンプルでXが関わるところなんてウィンドウの枠だけじゃないか？
あとはOpenGLで描画されていると思うが
57 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 00:42:13.70 ]: >>55
Windowsのほうがガタ落ちだし、使えるメモリも少ない。
グラフィックスを使うと遅くなるのはXの問題だから。
58 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 16:27:41.31 ]: dynamic parallelism は GeForce じゃ無理なんですか
59 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 17:35:11.22 ]: うん。
60 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 17:41:18.83 ]: 調べたなかではＧＤＲＡＭのみのように見えるんだけど、
テスラだとＬ１、Ｌ２、シェアードメモリもＥＣＣ保護されてるの？
それともＬ１、Ｌ２くらいの容量なら気にしなくてもいいのかな？
61 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 20:24:55.79 ]: レジスタも。
62 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 20:47:40.75 ]: >>58
今のところTesla K20のみだったはず
63 名前：デフォルトの名無しさん mailto:sage [2012/10/22(月) 20:36:15.81 ]: 一般人向けは2014年まで待てとか遅すぎる
64 名前：デフォルトの名無しさん mailto:sage [2012/10/22(月) 21:06:37.69 ]: GK110はいつになったら一般向けで出てくるのやら…
65 名前：デフォルトの名無しさん mailto:sage [2012/10/22(月) 23:32:49.15 ]: >>64
ないと思うのは俺だけか
66 名前：デフォルトの名無しさん mailto:sage [2012/10/22(月) 23:35:31.31 ]: >>65
gtx780とかじゃないか？
来年の春だった気がする。
67 名前：デフォルトの名無しさん mailto:sage [2012/10/23(火) 04:53:17.04 ]: GTX 780はKepler1の改良版だって聞いたぞ。
68 名前：デフォルトの名無しさん mailto:sage [2012/10/23(火) 08:47:20.31 ]: 一般人向けでダイナミックなんちゃらが使えるのはMaxwellからとか

AMDが2013年中に簡単にOpenCL対応アプリをかけるようにしてきたらどうするんだろ
69 名前：デフォルトの名無しさん mailto:sage [2012/10/23(火) 16:30:26.65 ]: NVIDIA Visual Profiler v4.2をCentos6.2で使おうとしてるんだけど、

No Timeline
Application timeline is required for the analysis.

と出て解析できない。
調べたらLD_LIBRARY_PATHに/usr/local/cuda/lib64やらを追加せよとあったんでやってみたけど状況変わらず。
どなたか同様な症状に出くわした方はいらっしゃいませんか？
70 名前：デフォルトの名無しさん mailto:sage [2012/10/23(火) 22:26:20.49 ]: >>69
CUDAプログラミングはまだまだ敷居が高いね･･･
71 名前：デフォルトの名無しさん mailto:sage [2012/10/24(水) 10:52:47.74 ]: nvcc ***.cu -O2 -Xcompiler -O2
のようにO2を重ねるのは無意味ですか？
前者のO2はGPU用，後者のO2はCPU用と勝手に思っていたんですが，
同じ事を繰り返しているような気がしてきました．
72 名前：デフォルトの名無しさん mailto:sage [2012/10/24(水) 12:32:18.86 ]: >>71
意味があるのか、どのような意味があるのかまでは分からんが、
とりあえず、「同じ事を繰り返しているのかどうか」については、
出力されたファイルを比較すれば直ぐに分かると思うぞ。

バイナリで比較してもいいし、アセンブラコードで比較してもいい。
73 名前：71 mailto:sage [2012/10/24(水) 13:25:43.83 ]: ptxで２つある場合，前者のみ，後者のみ，両方無い場合を比較しましたが，
冒頭の***.iファイルの名前が微かに違うのみで差はありませんでした．
両方消しても差が出ないのは？ですが，
重ねても意味は無さそうであることが分かりました．

>>71
ありがとうございました．
74 名前：デフォルトの名無しさん mailto:sage [2012/10/24(水) 14:43:07.65 ]: >>73
今のgccのディフォルトが-O2相当なんで、書かなくても変わらないのはその所為。
試しに、-O3とか-O1との組み合わせを試してみたら?
75 名前：デフォルトの名無しさん [2012/10/25(木) 04:28:58.35 ]: 登録ユーザーサイトが復旧したよ
76 名前：デフォルトの名無しさん mailto:sage [2012/10/25(木) 21:42:51.21 ]: k20はやっぱり高いな。
38万だそうだ。
20万切ってくれないと買えない。
77 名前：デフォルトの名無しさん mailto:sage [2012/10/27(土) 22:36:10.01 ]: dynamic parallelism対応のGeforce（GTX8XX?)が出たら
画像とか動画を扱うソフトは瞬く間にCUDA完全対応になるのかね?
78 名前：デフォルトの名無しさん mailto:sage [2012/10/28(日) 00:23:20.16 ]: んなわけない
79 名前：デフォルトの名無しさん mailto:sage [2012/10/28(日) 00:40:32.58 ]: dynamic parallelismができるからCUDAが劇的に簡単になるわけじゃないから。
Reductionとかで効果はあるけど。
80 名前：デフォルトの名無しさん mailto:sage [2012/10/28(日) 03:58:28.19 ]: そもそもReductionはマルチパスにしないで
2パスで済ませた方がいいのは、
CUDAのreductionトレーニングでも明らか
81 名前：デフォルトの名無しさん mailto:sage [2012/10/29(月) 13:40:34.37 ]: CUDAのプログラム作って動かしたいです
自分のMacbookは、グラフィックのチップがIntel GMA X3100なんですけど、
NVIDIAじゃないとCUDAは使えないんですか？
82 名前：デフォルトの名無しさん mailto:sage [2012/10/29(月) 15:35:40.18 ]: ここで聞いて良いのか分からないので、不適切なら誘導お願いします。

GeForceの省電力の状態(P0～P12)をGetLastInputInfo-GetTickCountに
応じて切り替えるようなソフトを作りたいのですが、
P0～P12を切り替えるAPI関数はありませんか?
83 名前：デフォルトの名無しさん mailto:sage [2012/10/29(月) 18:51:19.74 ]: NVAPIをhackすればできる
84 名前：デフォルトの名無しさん mailto:sage [2012/10/31(水) 14:40:39.17 ]: CUDAカーネルの中で呼び出す関数に特定の処理を入れるとカーネル自体が読み込まれなくなります
具体的にはプロファイラで実行時間見てみるとカーネル自体が表示されず、一瞬で動作終了する状況です
一応、その特定の処理の部分をコメントアウトするときちんと実行されます（当然正しい結果は出ませんが）
こういったことはどういう状況で起こり得るのでしょうか？
85 名前：デフォルトの名無しさん mailto:sage [2012/10/31(水) 14:43:09.18 ]: >>84
カーネル呼び出した時にエラーが起きてるんでしょ。
エラーチェックしていないんじゃないの?
86 名前：デフォルトの名無しさん mailto:sage [2012/10/31(水) 14:54:52.27 ]: >>84
cudaGetLastError()は何と言っている?
87 名前：デフォルトの名無しさん mailto:sage [2012/10/31(水) 14:58:04.91 ]: >>85
即レスありがとうございます
正にその通りでした。単にメモリの要求量がおかしかっただけみたいです
初歩的すぎるミスに自己嫌悪…
88 名前：デフォルトの名無しさん [2012/10/31(水) 16:49:46.93 ]: NVIDIAR Nsight? Visual Studio Edition 3.0 CUDA Preview
Nsight Visual Studio Edition Early Access | NVIDIA Developer Zone
https://developer.nvidia.com/rdp/nsight-visual-studio-edition-early-access
89 名前：デフォルトの名無しさん [2012/11/03(土) 02:08:23.38 ]: Nvidia Geforce forum is back from the dead
www.fudzilla.com/home/item/29337-nvidia-geforce-forum-is-back-from-the-dead
90 名前：デフォルトの名無しさん mailto:sage [2012/11/07(水) 15:17:37.33 ]: CRS形式の行列格納サンプルコードってどこかにない？
91 名前：デフォルトの名無しさん mailto:sage [2012/11/07(水) 15:59:46.17 ]: いくらでもあるだろ
圧縮方法を理解できたらサンプルもいらんな

1 2 3 4
2 5 6 7
3 6 8 9
4 7 9 10
92 名前：デフォルトの名無しさん mailto:sage [2012/11/08(木) 02:56:28.41 ]: >>91
圧縮方法はわかったんですがコードに上手く起こすことができなくて困っていたんです。何かいいサンプルがあれば教えていただけると助かります。
93 名前：デフォルトの名無しさん mailto:sage [2012/11/08(木) 10:51:49.85 ]: 馬鹿には無理。
94 名前：デフォルトの名無しさん [2012/11/12(月) 06:21:00.64 ]: CUDA5は既存のGPUに入れると遅くなるの？
95 名前：デフォルトの名無しさん mailto:sage [2012/11/12(月) 14:32:24.27 ]: 研究室でCUDA用にGTX680搭載PCの導入が決定してしまったんだが評判悪いとはいえ流石に今使ってる560Tiよりは性能いいよね？
96 名前：デフォルトの名無しさん mailto:sage [2012/11/12(月) 23:48:40.00 ]: Tesla K20きたぞ
97 名前：95 mailto:sage [2012/11/13(火) 01:28:48.03 ]: >>96
予算処理上の都合だったらしい。
98 名前：デフォルトの名無しさん mailto:sage [2012/11/13(火) 03:25:03.66 ]: 最近プログラム入門した
CUDAとか聞くとワクワクするけど物理の知識も科学の知識も特にないので
数百万スレッド並列で処理するネタが思いつけなくて悲しい思いになる
もっとちゃんと勉強しておけば良かった
99 名前：デフォルトの名無しさん mailto:sage [2012/11/13(火) 05:46:01.18 ]: 京が3位に
100 名前：デフォルトの名無しさん [2012/11/13(火) 06:14:28.20 ]: 東工大の学生たちはもうGK110貰ってるの？

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef