【GPGPU】くだすれCUDAスレ part5【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 2chのread.cgiへ]
Update time : 05/18 03:52 / Filesize : 192 KB / Number-of Response : 722
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん [2011/08/23(火) 22:08:06.09 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
669 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:24:16.57 ]: ivyの影響だな
670 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 23:10:43.77 ]: CPU、GPUを利用（プログラム）するには？
togetter.com/li/293863
671 名前：デフォルトの名無しさん mailto:sage [2012/04/29(日) 14:44:53.67 ]: GPUのデメリットは同じ変数計算を毎回糞真面目に超高速で行うところ
672 名前：デフォルトの名無しさん mailto:sage [2012/04/29(日) 18:55:51.68 ]: メモリ読むより速いからな
673 名前：デフォルトの名無しさん mailto:sage [2012/04/30(月) 07:47:23.73 ]: GTX690
pc.watch.impress.co.jp/docs/news/20120429_530569.html
674 名前：デフォルトの名無しさん mailto:sage [2012/04/30(月) 08:35:43.64 ]: >> 671
一つ一つの計算は超高速でもなんでもない
並列で行うので早くなるだけ
超高速になるか否かはプログラミングの問題

>>672
演算にはメモリーの読み書きを伴うので，演算が「メモリ読むより速い」とはならないのでは？
675 名前：デフォルトの名無しさん mailto:sage [2012/04/30(月) 21:06:45.57 ]: >>671
意味が分からん。
アーキの概念の理解ができていないじゃねーか？
676 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:39:15.46 ]: >>675
明日短いわかりやすいソースアップするからコンパイルして実行してみて
言いたいことがわかると思う。
CPUにはあってGPUにはない機能を使うことになる、まぁホントしょうもないことだけど・・・
677 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:53:32.34 ]: ？？？
678 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:59:29.65 ]: 言ったら悪いかも知れんけど単にアルゴリズムが悪いんじゃないのか。
679 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 08:09:04.59 ]: >>671
アドレス計算とかまさにそれだよね。
普通のループなら+4で済むところが、
ptr + threadIdx.x*4 + threadIdx.y*hoge
とかになっちゃう。
680 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 08:24:43.67 ]: それはGPUのデメリットじゃないな。
GPU(nvcc)でもループなら普通に書いたら普通に最適化してくれる。
681 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 10:38:58.63 ]: >>679
これはデメリットと違う。
CPUでマルチスレッドでやれば同じように明示的にアドレス計算を行う必要がある。
682 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 13:31:24.76 ]: シングルスレッドでの最適化が、そのままマルチスレッドに使えると思ってるなら、並列で組むのに向いてないな。

ひとつの処理として見たとき無駄でも、それで大多数の演算を同時に走らせることができるなら、
並列処理においてはそれこそが効率的なんだよ。
683 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 01:02:11.09 ]: >>669
残念、AMDとアドビのコラボでした
www.4gamer.net/games/133/G013372/20120426013/

Ivyは端から相手にされてません
684 名前：デフォルトの名無しさん [2012/05/02(水) 01:48:54.23 ]: ascii.jp/elem/000/000/672/672388/
このカード使ってる人居ませんか？

メモリがいっぱい欲しいけど、高いカードは買えないので
試しに買ってみようかと思うのですが。
685 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 02:05:34.87 ]: 同じ世代のGPUでも生産地の違いで演算速度は全く違うからね
もっと言うと転送速度が全く違う
まあフラッシュメモリでも同じこと言えるけど
686 名前：デフォルトの名無しさん [2012/05/02(水) 04:31:00.56 ]: >683
ずいぶんニッチなところだな
687 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 09:30:37.50 ]: >>684
マジレスすると、CUDAでやるメリットはない。
Sandyやivyの方がはるかに高速。
まあ、CUDA勉強するだけならいいが、もっと別のカードのほうがいいだろ。
688 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 11:01:38.16 ]: >>684
メモリ転送が遅過ぎて4GBのメモリを活かしきれない悪寒。
689 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 12:41:42.31 ]: SRAMを４GBつんでるカードはないのか？
690 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 16:10:34.75 ]: >>667

>New Features
>Support for GK10x Kepler GPUs.

とりあえず、GK104対応にしました的か。
691 名前：デフォルトの名無しさん [2012/05/02(水) 18:28:26.54 ]: VRAM 4GB以上のカードって、ほとんどないんだね。
TeslaかQuadroしか見つからなかった。
お値段10万円越
692 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 18:42:59.54 ]: 4年後にはVRAM16GBが普通にでまわるんだよ
693 名前：679 mailto:sage [2012/05/02(水) 22:18:41.81 ]: >>680 >>681
あれ、そういう話じゃないのか…
そうだとすると、 >>671 が何を言いたかったのか思い付かないな…
694 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 15:04:28.21 ]: >671は皮肉だろ。
695 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 16:07:25.13 ]: ということにしたいのですね。
696 名前：デフォルトの名無しさん mailto:sage [2012/05/04(金) 01:03:14.33 ]: デメリットに感じる境地まで辿りついたんだよ、きっと
俺にはまだメリットにしか思えないんだけど・・・
697 名前：デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:18:13.51 ]: >>692
今から4年前の2008年頃はG80世代で大体1GBだったが、4年後のGTX680でまだ2GBだから、
4年後はせいぜい4GBなんじゃないの？Tesla系で16GBにはなっていそうだけど。
698 名前：デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:24:38.22 ]: そういやPCのDRAM搭載量に比べて、あんまり伸びないよね＞ビデオカードのメモリ
699 名前：デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:26:52.65 ]: GDDRは数が出ないからね。
DRAMメーカーがあんな状態だから尚更でしょう。
700 名前：デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:33:02.38 ]: プロセスシュリンクが汎用DRAMと同じように進めば同じようにでかくなると思うんだけど。
だんだん引き離されてるってこと？
701 名前：デフォルトの名無しさん mailto:sage [2012/05/10(木) 01:35:01.75 ]: 日本のメモリの会社が潰れたのはかなり痛いな・・・
702 名前：デフォルトの名無しさん mailto:sage [2012/05/10(木) 15:36:00.11 ]: ptxコード読まなきゃいけなくなったんだけど、typeの.predって何なのかいまいちわかってない
703 名前：デフォルトの名無しさん mailto:sage [2012/05/10(木) 16:46:59.88 ]: 述部(predicate)だね。
ptxの場合は単に、比較などの結果を保持するだけのような希ガス。
で、そのレジスタの結果に依存してインストラクションの実行する、と。
例えば、
--
setp.gt.s32 %p1, %r5, %r7;
@%p1 bra $Lt_0_12802;
--
なら r5 > r7のときに分岐するし、
--
setp.lt.s32 %p2, %r9, %r11;
@%p2 sub.s32 %r14, %r11, %r14;
--
なら r9 < r11のときに引き算を行なう。
704 名前：デフォルトの名無しさん mailto:sage [2012/05/10(木) 21:33:54.24 ]: 分岐マスクのためのレジスタは何本あるんだろ
それとも汎用レジスタと共用なのか
705 名前：702 mailto:sage [2012/05/11(金) 16:21:50.31 ]: >>703
thx
そういう意味だったのか……
CUDAはC言語の延長だから大丈夫とか考えた三月の俺を叩きのめしたい

PTXコードの読み方って英語のやつしかないよねたぶん
706 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 17:11:50.74 ]: >>705
私が書いたメモならあるよw

>>704
実験コードで見たところ、汎用レジスタと述語レジスタの合計で制限されてたかと。
述語レジスタだけでどこまで増やせるかは実験してない。
707 名前：702 mailto:sage [2012/05/11(金) 17:26:43.70 ]: >>706
恵んでください。
割と切実に。卒業したいので。
708 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 18:02:12.84 ]: ISA的にはwarpあたり7本か6本じゃね。
3bitのどれかが常にalways扱いだったような。
709 名前：デフォルトの名無しさん [2012/05/14(月) 15:19:34.27 ]: 初心者質問です。
お願いします。
cufftってcuda3.2でも使えるのでしょうか？
cufftdestroyが未解決の外部シンボルだと言われてしまうのですが？
ただ単に、リンクできてないだけなのでしょうか？
710 名前：デフォルトの名無しさん mailto:sage [2012/05/14(月) 18:14:14.93 ]: >>709
使えたと思うよ。
つーか、cufftdestroy()が未解決って、あんたの間違いだろ。
711 名前：デフォルトの名無しさん [2012/05/15(火) 14:03:46.41 ]: >>710
返信ありがとうございます
他の関数はコンパイルが通る(通っているように見えるだけ？)のに
cufftdestroy()
cufftExecZ2Z()
cufftPlan1d()
だけが未解決となっているのですが、
この関数だけ、他のライブラリが必要だなんてことがあるのでしょうか？
712 名前：デフォルトの名無しさん mailto:sage [2012/05/15(火) 15:52:04.02 ]: destroyはDestroy。
z2zは未実装。
Plan1dはしらね。
警告レベル引き上げれば?
713 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 11:36:49.94 ]: cufft.hはインクルードしているのかな？
714 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 13:08:31.44 ]: ■後藤弘茂のWeekly海外ニュース■
NVIDIAが世界最多トランジスタ数のチップ「GK110」を公開

pc.watch.impress.co.jp/docs/column/kaigai/20120517_533500.html
715 名前：デフォルトの名無しさん [2012/05/17(木) 15:21:47.32 ]: 警告レベルって、デフォルトは最大なんですよね？
Destroyに関しては、タイプミスです。
z2zは未実装っていうのが、よくわからないんですけど。。。。
716 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 17:10:10.69 ]: GPGPU上でソケット通信とかって出来るかな
717 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 17:20:54.19 ]: GPGPUの仮想マシン同士のn対n通信をシミュレートとかそういうのをイメージした
718 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 18:16:22.69 ]: >>715
未実装: 実装されていないこと。
cufftのライブラリの中にz2zの関数そのものが存在していないのよ。
で、あんたがどんな環境で開発しているか判らんのに警告レベルがどうなっているかなんか判るかい。
そんなことは自分で調べなさいよ。

>>716
cuda5でLAN接続されているGPU同士で連携させる機能がつくらしいよ。
719 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 21:52:07.76 ]: 多次元配列を扱えないのは何でなんだろう．

ブロックとスレッドインデックスで一次元化するの面倒なんだけど．
720 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 23:46:21.89 ]: ピンメモリを確保すると、スワップによる退避を防げるのは分かったのですが、
実際はスワップ以外にも、メモリフラグメンテーション解消のためのコンパクションでも
メモリアドレスの変化って起こり得ますよね？
それもないようにするのがピンメモリですよね？
721 名前：デフォルトの名無しさん mailto:sage [2012/05/18(金) 01:25:35.91 ]: >>719
別に扱えなくはないぞ。普通にdata[blockIdx.x][thiredIdx.x]ってできると思う。
スレッド数を定数にしなくちゃならなくなるから却って煩わしいと思うけど。

つーか、面倒ったってオフセット計算する関数を作るだけじゃん。

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef