【GPGPU】くだすれCUDAスレ part7【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2ch.scのread.cgiへ]
Update time : 09/23 11:04 / Filesize : 248 KB / Number-of Response : 1045
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2014/11/20(木) 23:14:46.66 ID:jr3oZn27.net]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
77 名前：デフォルトの名無しさん mailto:sage [2015/01/16(金) 09:02:56.43 ID:VQ2eHsT0.net]: もうCUDAも成熟してしまった感があるなあ。
78 名前：デフォルトの名無しさん mailto:sage [2015/01/25(日) 10:58:33.86 ID:m2kue9j8.net]: 970の影響でGPUメモリテストが流行っているね。
79 名前：デフォルトの名無しさん mailto:sage [2015/02/06(金) 21:35:53.90 ID:72/Q/UeS.net]: ここ何週間かデバッグを続けているのですが原因を突き止めることが出来ません
初学者がはまりやすいミスやデバッグのこつなんかを教えてもらえませんか？
明らかなバグなら原因を突き止めやすいのですが、かなり微妙なバグなのでなかなか見つけられず困っています
80 名前：デフォルトの名無しさん mailto:sage [2015/02/07(土) 00:48:46.19 ID:OS4q1AxS.net]: printfとかで要素を表示してデバックしてみれば？
81 名前：デフォルトの名無しさん mailto:sage [2015/02/07(土) 13:10:14.61 ID:4cvxubK6.net]: syncthreadとか？
if文の中に書いてたりすると同期ずれが起こったりするなー
他には確保してないメモリへのアクセスとか？

>>76の通り、printfとかで、配列の添字とか値を表示するしかないのかな？
82 名前：デフォルトの名無しさん mailto:sage [2015/02/08(日) 15:23:01.85 ID:E04CIgi2.net]: >>76
>>77
ありがとうございます
1セットの計算量があまりにも多いのでprintfの方法は難しいです
シンクロや範囲外アクセスもありませんでした

原因が分かっちゃったかも知れないので質問です
中間計算結果→atomicAd
83 名前：d 中間計算結果→配列→atomicAdd こんな風に同じ数値を使った計算でも一度配列を通してしまうとatomicAddによって追加された計算結果に差が出たりしますか？ []: [ここ壊れてます]
84 名前：デフォルトの名無しさん mailto:sage [2015/02/08(日) 15:48:00.96 ID:E04CIgi2.net]: 変数に入れると精度は落ちますね
お騒がせしました
85 名前：デフォルトの名無しさん mailto:sage [2015/02/08(日) 21:32:20.44 ID:BpjOkBmf.net]: >>78
ちょっと面倒だけど、要素が多い場合は減らしてやってみるとか、どうだろうか？

何はともあれ、原因判明したみたいで、おめでとう
86 名前：デフォルトの名無しさん mailto:sage [2015/02/08(日) 22:56:08.44 ID:KLuvC02r.net]: >>80
それは意外な盲点でした
数を減らせば良かったのですね
87 名前：デフォルトの名無しさん mailto:sage [2015/02/09(月) 10:20:08.08 ID:pN+UjOmC.net]: >>78
fpが(a+b)+c != a+(b+c)を知らないとかではないよね？
88 名前：デフォルトの名無しさん mailto:sage [2015/02/09(月) 23:18:25.64 ID:QR2S1do8.net]: volatile使うとか？
変数の宣言とか関数の引数の型の前にvolatileをいれると・・・
89 名前：デフォルトの名無しさん mailto:sage [2015/02/17(火) 21:40:32.15 ID:K8c74Rhe.net]: >>57
750TIでGPGPUって考えていたけど、750TIって2世代前の同ランクぐらいの550TIより性能悪いのか。
一般ゲーム用VGAではGPGPU能力ってたいして要らないから落としたのかな

いろいろなゲーム用VGAの単精度、倍精度の能力が載ったホームページ教えてください
90 名前：undefined mailto:undefined [2015/02/19(木) 11:23:20.97 ID:aqLRWkl1.net]: 質問☆
cudaってドライバインストして、画像表示をcuda設定にするだけでは
効果ない？
91 名前：デフォルトの名無しさん mailto:sage [2015/02/19(木) 14:30:54.02 ID:iKdaAUCi.net]: >>84
FP32とFP64の一覧表ならこれとか。
ttp://www.geeks3d.com/20140305/amd-radeon-and-nvidia-geforce-fp32-fp64-gflops-table-computing/

ボトルネックになりうる点は他にもあるから、Compute Capability毎の仕様の違いも結構重要だと思う。
92 名前：デフォルトの名無しさん mailto:sage [2015/02/19(木) 23:45:36.57 ID:ngPIgbTR.net]: maxwellさん自体にに倍精度が無いようだから
一世代前のkeplerさんか次世代のpascalさんを選べば良いんじゃないかな
93 名前：デフォルトの名無しさん mailto:sage [2015/02/19(木) 23:54:19.28 ID:Lt8lBsrZ.net]: >>86
有難う。750TiのFP64悪すぎだな。
なんか大衆向け用でGPGPUするならFP32よ、FP64は使わないでだな。
94 名前：デフォルトの名無しさん mailto:sage [2015/02/20(金) 04:05:21.12 ID:fPdGyDpl.net]: >>87
KeplerはMaxwell以上にピーキーだったような。
自分の用途がはっきりしていて、それがKeplerやMaxwellに向いているならありだろうけど。
64bit変数をほとんど使わなくても、不向きな処理ではGTX 680が570に惨敗したりする。

CUDAの開発環境とか情報量に魅力を感じて、あえて今から始めてみるという人に勧めるとすれば、個人的には
投げ売り続行中のGTX 570や580で、余裕があるなら型落ちCPU・マザボ・メモリのセット等と
組み合わせてCUDA専用マシンを用意かな。

>>88
それは差別化とか、グラフィック用途でのワットパフォーマンスとかで仕方がないかと。
95 名前：デフォルトの名無しさん [2015/02/20(金) 08:52:57.87 ID:xG3c1huj.net]: keplerはinteger bit shiftが弱いGK110(tesla)以外は
maxwellはkepler比で2倍のスループットになってる
96 名前：デフォルトの名無しさん mailto:sage [2015/03/04(水) 22:02:58.94 ID:krHDLIbc3]: コアレッシングて、なんでハーフワープじゃないとダメなのでありますか？
フルじゃダメなのでしょうか。
#deviceQuery:
# CUDA Capability Major/Minor version number: 3.2
# Warp size: 32
97 名前：デフォルトの名無しさん mailto:sage [2015/02/22(日) 18:45:23.46 ID:JhGx5uct.net]: 適当なプログラム作ってみても
maxwellの方がはやいね

shared memoryが倍になったのも大きいなぁ
98 名前：名無し [2015/03/07(土) 10:52:38.85 ID:UBzBpgz5.net]: スレチなら申し訳ない
当方、モバイルでCUDAを使用したいけど
安い方法はどれが良いと思います？
（速度はそこそこで良く、外でテストして
　パワーがいる場合はデスクトップを使用するつもり）

モバイル用は安く上げたいので
Chromebookかタブレットで探した方が良いですかね？
奇をてらってJetsonのtk1にACアダプタ用のバッテリーを積むとか
（可能かどうかわからないですが）
ちなみにゲームはやるつもりありません。
99 名前：デフォルトの名無しさん mailto:sage [2015/03/07(土) 20:42:36.10 ID:CzdLWIdo.net]: thinkpad w550sのquadro K620mはダメなの？
ノートパソコンだよ
100 名前：デフォルトの名無しさん [2015/03/08(日) 10:25:35.13 ID:TYY6zzsE.net]: レスありがとうございます
安くあげたいので予算的に厳しいかと
最初だけ計算量は多いですけど
要所ごとに定数化すれば、その後は計算量がへるかと思っているので外での使用は少ないデータ量でプログラムチェックができればいいかなと考えています。
K1がのったタブレットも安いのでそこから考えてみようと思います
ありがとうございました
101 名前：デフォルトの名無しさん mailto:sage [2015/03/18(水) 02:36:15.45 ID:jKTvW/7W.net]: うわ、titan xの倍精度、しょぼ過ぎ・・・。
https://twitter.com/search?q=titan%20x&src=typd
102 名前：デフォルトの名無しさん mailto:sage [2015/03/18(水) 09:22:22.19 ID:33RtPIwm.net]: 単精度が7TFLOPS、倍精度が0.2TFLOPSで良いんだよな？？

詳しい事は良く分からないんだけど倍精度ってそんなに使わないものなの？
PhysXっていう物理エンジン使ったりするのに
103 名前：デフォルトの名無しさん mailto:sage [2015/03/18(水) 10:23:22.30 ID:C11qPS4w.net]: >>97
ゲームだと単精度で十分だったりするからじゃない？
もともとゲームのために作られたような物だから、倍精度の性能なんかあまりこだわってないと思う
104 名前：デフォルトの名無しさん [2015/03/19(木) 07:37:41.52 ID:M0RYJxHF.net]: https://developer.nvidia.com/cuda-downloads
CUDA 7 Downloads
105 名前：デフォルトの名無しさん [2015/03/19(木) 07:39:40.96 ID:M0RYJxHF.net]: Dear Developer,

The CUDA? 7.0 Production Release is now available to the public. Run your application faster with this latest version of the CUDA Toolkit. It features 64-bit ARM support and the simplified programming model enabled by Unified Memory. Highlights include:

New cuSOLVER library
? Accelerates key LAPACK routines, 12x faster direct sparse solvers

New C++11 language features
? Increases productivity with lambdas, auto, and more

Runtime Compilation
? Enables highly optimized kernels to be generated at runtime

Download the CUDA 7 Production Release at www.nvidia.com/getcuda

Learn more about CUDA 7 by attending these webinars:

CUDA 7 Feature Review
Date/Time: Friday, April 10th at 10:00 AM PDT
Register: https://cc.readytalk.com/r/4b0lwgeqgzrk&eom

CUDA 7 Performance Overview

Date/Time: Wednesday, April 15th at 11:30 AM PDT
Register: https://cc.readytalk.com/r/empyu1qc65l6&eom

Best regards,

Nadeem Mohammad
NVIDIA Developer Relations Team
106 名前：デフォルトの名無しさん mailto:sage [2015/03/24(火) 05:27:05.96 ID:7oVKj7vD.net]: CUDAがgcc4.8でうまく動かない問題ってもう解決したの？
107 名前：デフォルトの名無しさん mailto:sage [2015/03/25(水) 15:16:29.51 ID:9JMqB0KU.net]: うん
108 名前：デフォルトの名無しさん mailto:sage [2015/03/25(水) 21:19:25.13 ID:WRhchtaz.net]: Driver API使ってコンパイル済みのptxを実行するプログラムを作ろうとしているんだけど、
64bitのホストコードから32bitのptxを実行することってできるんだっけ？
109 名前：デフォルトの名無しさん mailto:sage [2015/04/10(金) 02:15:05.70 ID:C60yUXFO.net]: nvidia-smiでutilizationやmemory usageを確認できると思うのですが、全てのパラメータを確認できるのはtesla、quadro、Titanです。
Geforce系のGPUで、utilization、各プロセスのmemory usage等を確認するにはどうすればいいでしょうか？
110 名前：デフォルトの名無しさん mailto:sage [2015/04/10(金) 07:26:02.69 ID:nzpIVsUT.net]: >>104
nvapi
masafumi.cocolog-nifty.com/masafumis_diary/2008/09/nvapi.html
111 名前：デフォルトの名無しさん mailto:sage [2015/04/12(日) 23:53:21.24 ID:g4+PudFo.net]: 古いGeforceでもOpenCL1.1のプログラムなら動くのでしょうか
112 名前：デフォルトの名無しさん mailto:sage [2015/04/13(月) 00:39:39.73 ID:NPPeHBbv.net]: 少なくともCUDA対応している必要があるが、基本的にGeForce8シリーズ以降で動くはず。
特定の機種について知りたいならGeeks3Dのデータベース検索してみるとか。
しかしスレチ。
113 名前：デフォルトの名無しさん mailto:sage [2015/04/13(月) 16:29:29.85 ID:EBHbrztF.net]: thinkpadに入ってるquadro K620Mはcudaのサポート無いんだな
インストールしようとしてワラタ
114 名前：デフォルトの名無しさん [2015/04/14(火) 18:39:28.21 ID:hgZdA2dw.net]: Linux(CentOS6)の環境でTITAN BLACKでCUDA(Ver.6.5 or 7.0)使ってるのだけど、計算走らせると
NVIDIA X Server SettingsのPerformance LevelsのLevelが3から2に落ちてMemory Transfer Rateが7000Mhzから6000Mhzに落ちてしまう。
で結果的にノーマルTITANと性能が同じになってしまう。このメモリクロックを固定させることはできませんかね？
ちなみにTelsa K20 での固定クロックの方法はnvidia-smiがTITANに対応してないらしくできなかった。
ちなみにPreferred Modeは「Prefer Maxmum Performance」になっていて、
CUDAで計算しなければLevel3でメモリクロックも7000Mhzとなっています。
115 名前：デフォルトの名無しさん mailto:sage [2015/04/14(火) 21:44:04.71 ID:frAktQrJ.net]: 空冷を見直す。
116 名前：デフォルトの名無しさん [2015/04/15(水) 11:49:47.50 ID:DmeNPmdM.net]: >>109
何時間もフルで使ってるならまだしも、GPU叩いた瞬間に7000Mhzから6000Mhzに落ちるって、TITAN BLACKの公称メモリクロック「7GHz」ってのは詐欺にならないか？
これじゃノーマルTITANと同じ性能・・・
117 名前：デフォルトの名無しさん mailto:sage [2015/04/15(水) 23:05:57.76 ID:+7B/lj1n.net]: 環境がわからんからなんとも言えんが、
どうしても固定したければどっかからbiosを引っ張ってくるしかないね。
118 名前：デフォルトの名無しさん [2015/04/16(木) 13:27:15.95 ID:xeug049T.net]: ん？TITANのクロック制御はマザーのBIOSが管理してるのか？
119 名前：デフォルトの名無しさん mailto:sage [2015/04/16(木) 14:34:33.50 ID:PYEjJT3R.net]: VGAボード側のだよ。
120 名前：デフォルトの名無しさん [2015/04/20(月) 17:42:38.58 ID:uqjf4eEG3]: >109

とりあえず自己解決
CUDA7のドライバーをそのまま使うとLevel3の7000MhzからLevel2の6000Mhzに落ちる。
Ver.6.5もVer.6.0のもの同様。
で、CUDA様でない少し古いドライバーを使うと、Level3が7000Mhzで設定され、Level2も7000Mhzのままのものがある。
それを何とかCUDAで使えるようにして、7000Mhzのままで計算できるようになった。
121 名前：デフォルトの名無しさん mailto:sage [2015/04/23(木) 12:42:01.23 ID:GK/TBYtY.net]: pycudaで既存のコンパイル済みのオブジェクトとリンクして
実行さ�
122 名前：ｹるにはどうすればいいのでしょうか []: [ここ壊れてます]
123 名前：デフォルトの名無しさん mailto:sage [2015/04/23(木) 18:12:10.80 ID:GK/TBYtY.net]: cmakeの自動configがGTX900シリーズなのにsm_20とか言ってくるのなんとかならないの？
124 名前：デフォルトの名無しさん mailto:sage [2015/04/27(月) 00:54:11.64 ID:XOkfLgXW.net]: 最近のマザーボードってビデオカード2枚刺して
両方に計算させることもできるの？
自分のcore2duoのパソコンだと１つしか刺す場所ないけど
最近のddr4を使うマザーみると
それらしき場所が３つぐらいあるから3並列計算できるってことかな？
125 名前：デフォルトの名無しさん mailto:sage [2015/04/29(水) 08:43:39.45 ID:2J/vCqrD.net]: >>118
場合によっては、計算用のGPUと出力用のGPUで分けてたりする。少なくともNVIDIAはそういう方針
126 名前：デフォルトの名無しさん mailto:sage [2015/04/30(木) 22:40:28.09 ID:4E7PVA8Y.net]: vexclのサンプルコードをcudaでコンパイルしようとしてるんだけど
エラーだらけ
何か依存パッケージが足りないのかな？
127 名前：デフォルトの名無しさん mailto:sage [2015/04/30(木) 22:46:37.84 ID:4E7PVA8Y.net]: .bashrcに設定する変数名が
CUDA_PATH
だったり
CUDA_ROOT
だったりみんな違う

なんで統一しないのか
128 名前：デフォルトの名無しさん mailto:sage [2015/05/07(木) 18:56:17.28 ID:oEZIeMhu.net]: vexclについてくるexampleプログラムの中のベンチマークってプログラムが面白い
このプログラムのベンチマークによると
GT430とかいう古いビデオカードなのに最近のCPUの10倍の計算速度でてる
129 名前：デフォルトの名無しさん [2015/05/08(金) 17:34:25.55 ID:8Z+VlnlSM]: 質問です。
Jetson TK1ってGPUは3.x世代だと思うんですが、
CUDA7/cuDNN(GTC2015で発表のあった正式版)には対応してないのでしょうか？
TK1はKepler世代なので大丈夫だと思ったのですが・・・。
130 名前：101 mailto:sage [2015/05/13(水) 12:03:41.64 ID:3UCLt7KQ.net]: thinkpad w550sのquadroでもcudaなんも問題なかった
やっと勉強できる
131 名前：デフォルトの名無しさん [2015/05/13(水) 19:42:38.26 ID:SKtXN3hT.net]: 3D映像でパストレーシングやモンテカルロ法を行いたい場合、光線とシーン中
のあらゆるポリゴンとの交差を判定し、条件分岐を行う必要があります。
しかし、GPGPUは条件分岐が遅いらしいので、もしかするとCPUと役割分担を
行うべきなのでしょうか？
例えば、シーン中のポリゴンとの交差判定はCPUでやった方が良いとか？
132 名前：デフォルトの名無しさん mailto:sage [2015/05/13(水) 23:31:21.84 ID:xMqj1fKt.net]: if
　 A
else
　 B
end
のような文なら、AとBは逐次の処理になる

if
　　A
end
なら、Aを行わないスレッドは待つだけだから問題ない

もし３項演算で解決できる条件分岐なら３項演算子を用いて書く
133 名前：デフォルトの名無しさん [2015/05/14(木) 07:59:10.95 ID:CyZl9DuQ.net]: >>126
>AとBは逐次の処理になる

これはどういう意味でしょう？
AとBが内部的には必ず両方とも実行されてしまうと言うことでしょうか？
134 名前：デフォルトの名無しさん [2015/05/14(木) 09:14:40.23 ID:CyZl9DuQ.net]: Intel系CPUの場合、確か cmov などという命令は、bool 値が1の時だけ
転送するのだったと思います。そういう命令は無いんでしょうか？
仮に何かあったとして、CUDA や OpenCL でどうやってそのような
「専用命令」を生成する事は可能でしょうか？
135 名前：デフォルトの名無しさん mailto:sage [2015/05/15(金) 01:05:26.23 ID:WYo5pZkW.net]: 分岐命令の代わりに使えるプレディケート付き命令があるかという話なら
それは存在するし、分岐のあるコードではコンパイラさんがよしなにやってくれる。
と、ヘネパタ本には書いてあった。
136 名前：デフォルトの名無しさん [2015/05/15(金) 08:19:31.91 ID:pyCNH+0F.net]: >>129
ありがとうございます。

では、「>>127」の方はどうですか？
137 名前：デフォルトの名無しさん mailto:sage [2015/05/15(金) 09:39:10.09 ID:mDU8aVUi.net]: >>130
warp divergenceの話じゃないの？
138 名前：デフォルトの名無しさん mailto:sage [2015/05/15(金) 15:58:50.84 ID:pyCNH+0F.net]: >>131
習慣的に（？）「ウォープ・ダイバージェンス」と読み、

news.mynavi.jp/special/2008/cuda/001.html

のことのようですね。
139 名前：デフォルトの名無しさん mailto:sage [2015/05/17(日) 10:18:02.33 ID:R3tkd0Ad.net]: >>130
AとB両方実行されるよ
140 名前：デフォルトの名無しさん [2015/05/19(火) 21:33:47.52 ID:spimwXxa.net]: 今まで一つのソースファイルで書いてきたのですが、いい加減見づらくなってきたのでソースファイルを分けてみたところエラーがでたので質問させてください
extern __constant__ unsigned short v[n]; //nは#defineで定義しています。
メインのソースファイルで
__constant__ unsigned short v[n];
と定義し、ビルドすると「メインの方で再定義されている」というエラーが出てしまいます

他にも、__device__ double atomicAdd の定義をサブのソースファイルに書くと
ptxas fatal : Unresolved extern function '_Z9atomicAddPdd'
とエラーが出てしまいます。どうか解決方法を教えてください。

環境は
NVIDIA Nsight Visual Studio Edition v.4.2
CUDA 7.0 Toolkit
のはずです
141 名前：125 mailto:sage [2015/05/19(火) 21:42:34.97 ID:spimwXxa.net]: ×CUDA 7.0
○CUDA 6.5
でした
142 名前：125 mailto:sage [2015/05/20(水) 16:28:14.38 ID:MP+tATlH.net]: CUDA5.0以降ではrdcを「はい」にするとファイルの分割が出来るという情報を得たのでさっそく試してみたところ
>>134のエラーは無くなったのですが
1>sub.cu.obj : error LNK2005: "long __cdecl genrand_int31(void)" (?genrand_int31@@YAJXZ) は既に main.cu.obj で定義されています。
上記のような二重定義エラーがいくつか出てきました

また、ヘッダファイルの拡張子を.cuhとしている方を見かけたのですが、.hとの違いはあるのでしょうか？
143 名前：デフォルトの名無しさん mailto:sage [2015/05/20(水) 22:26:00.46 ID:tQNdJIhT.net]: デバイス関数ってインライン展開されるんじゃなかったっけ。
でもって、他のファイルからは使えなかったのでは?
144 名前：125 mailto:sage [2015/05/20(水) 23:53:16.57 ID:MP+tATlH.net]: >>137
ファイルを分割出来ないとなるとすごく不便になので、何かしらの方法があるのでは？と思っています
145 名前：デフォルトの名無しさん mailto:sage [2015/05/21(木) 04:25:30.08 ID:Dige6mTv.net]: とりあえずCUDAの日本語wikiがあるから、そこの分割コンパイルの項目をみたらどうかな？
OSによっては解決できるかも
146 名前：デフォルトの名無しさん mailto:sage [2015/05/21(木) 09:09:27.02 ID:BxelVpyp.net]: cuファイルをcuファイルにインクルードしてみるとか。
147 名前：125 mailto:sage [2015/05/21(木) 17:23:47.43 ID:25nDpRt2.net]: レスありがとうございます

どうやら>>136のエラーはCUDAとは関係なさそうなのでC++のスレで聞いてきます
148 名前：125 mailto:sage [2015/05/24(日) 22:10:36.84 ID:FupD4mQN.net]: >>136の方法で分割コンパイルに一応成功しました！
一応と言ったのはrdcを「はい」にした場合と「いいえ」にした場合とでプログラムの挙動が少し変わってしまうのです
今書いているプログラムは何億回もの計算結果を足し合わせていくものなので、誤差の蓄積による影響を受けていると思います
コンパイルの方法を変えた(?)事で誤差の蓄積が変化(?)し、プログラムの挙動が変わったということなのでしょうか？
コンパイルと誤差がどう関係するのかは分かりませんが
149 名前：125 mailto:sage [2015/05/24(日) 22:19:49.55 ID:FupD4mQN.net]: >>「はい」にした場合と「いいえ」にした場合
ファイルを分割するともちろん「いいえ」では動かないので、一つのファイルで完結しているプログラムでの話です
150 名前：デフォルトの名無しさん mailto:sage [2015/05/26(火) 06:54:20.42 ID:VVQAbCqm.net]: 最適化の仕方が変わるのかもね
誤差が出て困るなら、なるべく誤差が少なくなるような組み方を考えるしかない
151 名前：デフォルトの名無しさん mailto:sage [2015/05/26(火) 07:49:49.21 ID:3GnQrGbV.net]: 誤差にも種類があるが・・・
浮動小数点演算等の誤差なのか
同期ミスによる誤差なのか・・・
152 名前：デフォルトの名無しさん mailto:sage [2015/05/26(火) 22:03:46.38 ID:f2qMZr+T.net]: >>144
かもね
今はatomicAddをそのまま使っているので、情報落ちをなんとかして誤差は減らす予定です

>>145
原因と結果の関係性が分からないのでなんとも言えないです
ちなみに同期ミスによる誤差とは何でしょうか？ []; [ここ壊れてます]
154 名前：デフォルトの名無しさん mailto:sage [2015/05/26(火) 22:55:29.89 ID:sIi3toQP.net]: つうか最適化で結果が変わったら
それはバグ以外に無いけどねえ。
155 名前：デフォルトの名無しさん mailto:sage [2015/06/03(水) 15:26:06.85 ID:f+QtTKYD.net]: www.geeks3d.com/20140305/amd-radeon-and-nvidia-geforce-fp32-fp64-gflops-table-computing/
だれかこれの最新版を知らんかえ？
156 名前：デフォルトの名無しさん mailto:sage [2015/06/17(水) 22:35:16.09 ID:uTokHIG4.net]: 今年はGTC Japan開催のリリース出ないな
例年ならもう出ているのに
中止かもしくは時期がずれたのかな
157 名前：デフォルトの名無しさん mailto:sage [2015/06/18(木) 12:56:34.78 ID:0ZPzSsHT.net]: >>149
今年は9月18日に虎ノ門ヒルズで開催、だったかと。
158 名前：デフォルトの名無しさん mailto:sage [2015/06/18(木) 13:04:11.34 ID:9mEYqdNq.net]: Visual studioでCUDAプログラムを作成しています
Nsightでstart CUDA debuggingからプログラムを走らせた時だけプログラムが動かないんですが
どのような原因が考えられますか？

以下の条件ではすべて正常に動作・終了します
デバッグなしで開始（debug,release共に）
start CUDA debuggingでブレイクポイントを仕掛けて1スレッドずつ動かす
159 名前：142 mailto:sage [2015/06/18(木) 13:16:06.49 ID:9mEYqdNq.net]: 追加です
プログラムの詳細ですが
ある無向グラフに対して，与えられた2点が連結かどうか調べるプログラム
枝重み0と仮定してダイクストラのアルゴリズムを用いて判定しています．

1ブロックにつき16スレッドが同時に走ります．
その判定関数をfoo()とすると

if(　blockIdx.x == tmp )
foo();
というように一つのブロックのみで扱うようにすると
tmpがどのような値でも正常に動作するのですが
2ブロック以上でfooに行くようにすると動かなくなります
エラーがでないことと，printfによるチェックですが
配列のアドレスも問題ありません
160 名前：デフォルトの名無しさん mailto:sage [2015/06/19(金) 21:29:02.20 ID:tQGft1o9.net]: >>152
何かスレッドの実行順序に依存した処理があるか、排他が必要な競合でもあるんじゃね?
161 名前：デフォルトの名無しさん mailto:sage [2015/06/19(金) 22:01:43.75 ID:FLqfhWNF.net]: >>150情報感謝です
162 名前：デフォルトの名無しさん mailto:sage [2015/06/22(月) 21:23:14.11 ID:FYteK6ai.net]: デバイスメモリの内容を一時的にホスト側からアクセスしたいんですが、OpenCLでいう
clEnqueueMapBufferに相当する機能はCUDAにあるんでしょうか？
ちょっと調べてみたんですが、cudaHostRegisterは方向が逆だし、cudaMallocManagedは
既にあるデバイスメモリにアクセスするものではなさそうなので。
cudaMemcpyで読み出して終わったらまた書き出すという方法しかないんでしょうか。
163 名前：デフォルトの名無しさん mailto:sage [2015/06/23(火) 13:14:37.10 ID:DUXK3D31.net]: OpenCLを知らないので外してるかも知れないけど、
基本的にはcudamemcpyするしかない。

CUDA6.0からUnified Memoryっていう機能が入って、
GPU上のメモリをホストメモリと同じように読めて、
自動的に同期を取ってくれる機能。用途によっては使えるかも。
164 名前：デフォルトの名無しさん mailto:sage [2015/06/24(水) 08:02:13.81 ID:wFw+UOzE.net]: >>156
ありがとう。やっぱりcudaMemcpyするしかないのか。
165 名前：デフォルトの名無しさん mailto:sage [2015/06/25(木) 22:41:21.74 ID:t3bjYB8L.net]: 今日はじめてCUDAを入れた者ですが、VS2013でサンプルをビルドするとerror MSB3721…\simpleTemplates.cu"" はコード 1 で終了しました
って出るんだが何か設定とか必要ですか？

あとインストールの確認（？）でコマンドプロンプトでnvcc -Vのコマンド入れてもアクセスが拒否されましたと出る…
これが原因ですかね？

いろいろ調べてみましたが、これといった解決方法はなかったので助けて下さい。
よろしくお願いします。
166 名前：149 mailto:sage [2015/06/25(木) 23:09:29.97 ID:t3bjYB8L.net]: >>158です。
すいません自己解決いたしました。
ウィルスソフトが邪魔をしていたようです・・・
スレ汚し申し訳ございませんでした。
167 名前：デフォルトの名無しさん mailto:sage [2015/06/26(金) 01:26:56.82 ID:f2ddT7MK.net]: 750Tiってあんまりいけてないのか…
CUDA試したくてあんまり調べずに衝動買いしてしまった
900台にした方が良かったのかなあ
168 名前：デフォルトの名無しさん mailto:sage [2015/06/26(金) 08:33:52.91 ID:h0LNB3lK.net]: ゲームするならかなりいけてるが倍精度はしょぼいな
倍精度が欲しいならfermiかgk110コアのがいいのか？
ゲームしないならamdでopenCLの方がコスパ良さそうなんだがどうなの？
169 名前：デフォルトの名無しさん mailto:sage [2015/06/26(金) 09:30:43.08 ID:gBS6mhz7.net]: >>159
ちゃんとアンチウイルス入れておけよ。
170 名前：デフォルトの名無しさん [2015/06/26(金) 11:48:22.16 ID:JVzNXP51.net]: CUDA7入れたのですが、
cublas.hが見つからないと出てしまいました。

cublas使うには他に何か必要なのでしょうか？
171 名前：デフォルトの名無しさん mailto:sage [2015/06/26(金) 12:57:38.26 ID:1v0mrakI.net]: >>163
C:> dir /s /b "%CUDA_PATH%\cublas.h"
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v7.0\include\cublas.h
172 名前：デフォルトの名無しさん [2015/06/26(金) 13:07:12.91 ID:JVzNXP51.net]: ありがとうございます。
みつかりました
173 名前：デフォルトの名無しさん mailto:sage [2015/06/26(金) 23:47:30.95 ID:f2ddT7MK.net]: >>161
>ゲームするならかなりいけてる

こういうのがイマイチよくわかりません
単純にFLOPSで性能を見ちゃいけないのでしょうか
ゲームやGPUプログラミングに向いてるかどうかってどうやって判断してるんでしょうか
174 名前：デフォルトの名無しさん mailto:sage [2015/06/27(土) 03:38:35.85 ID:y7j5+l1E.net]: >>166
プロはGPGPUするのにゲーム用のGFやRadeonをはあんまり使わない
趣味レベルでOKのGPGPUならGPGPUがオマケであるゲーム用(ゲームドライバ)のVGAでも良いが。
Xeonが一般的な業務サーバーに普通のデスクトップPCをいっぱい使うなことは
しないのと同じ。あと、FLOPSは目的のGPGPUするのに必要なレベルあれあば良い。
低FLOPSでOKなGPGPU処理に超高FLOPSのものを使うって趣味だし
175 名前：デフォルトの名無しさん mailto:sage [2015/06/27(土) 09:17:14.69 ID:f1QkQQtg.net]: プロだってコスパ考えるだろ。
倍精度演算性能と信頼性で妥協できるならゲーム用GPUの方が圧倒的に安いしな。
176 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2015/06/27(土) 23:23:04.05 ID:XHzW5ECE.net]: まあ中国の天河1号はFireStreamですらないRadeonのデュアルGPUカードを大量搭載したが
結局実用にならなくて次の更新で全部Teslaに差し替えたからね
額面のFLOPS数だけで実用性は評価できない
177 名前：デフォルトの名無しさん mailto:sage [2015/06/28(日) 09:51:05.56 ID:MpgQMMEq.net]: 中国はスパコンにTESLAとか使えなくなったから、NVIDIAやインテルは大口顧客を失った。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef