【GPGPU】くだすれCUDAスレ part7【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2ch.scのread.cgiへ]
Update time : 09/23 11:04 / Filesize : 248 KB / Number-of Response : 1045
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2014/11/20(木) 23:14:46.66 ID:jr3oZn27.net]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://peace.2ch.net/test/read.cgi/tech/1281876470/l50

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
toro.2ch.net/test/read.cgi/tech/1314104886/
【GPGPU】くだすれCUDAスレ part6【NVIDIA】
ttp://peace.2ch.net/test/read.cgi/tech/1348409867/
263 名前：デフォルトの名無しさん mailto:sage [2015/12/11(金) 02:14:41.31 ID:f48gwmmB.net]: >>252
GPU-ZでCUDAが見えるのにアプリケーションが動かないってのはRuntime DLLが
見つからないんじゃないのか？
どっちにしても、CUDAのどの関数を呼んだときに落ちるのか、あるいはそもそも
最初から起動できないのか、どこで落ちているかくらい調べることはできるだろ。
264 名前：デフォルトの名無しさん mailto:sage [2015/12/26(土) 22:42:40.07 ID:Xbomr4ek.net]: >>249
そんな態度でいるからデスマーチに陥るんじゃ？
いざとなった時の処世術は身につけておかなければいけないとは思うけど
265 名前：デフォルトの名無しさん mailto:sage [2016/01/10(日) 19:11:06.55 ID:EetmQxdp.net]: おかげさまでCUDAでchainer使えるようになりました。
爆速で進捗状況見てるだけで嬉しいです。
本当にありがとうございました。
266 名前：デフォルトの名無しさん mailto:sage [2016/01/13(水) 07:52:00.07 ID:6qdfgrgw.net]: 使えなかった理由は何だったのかと
267 名前：デフォルトの名無しさん mailto:sage [2016/01/17(日) 02:52:40.35 ID:u0dhvow6W]: 教えていただきたいことがあります。
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー　
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)

事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。

操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった（30-38行目と同じエラー）。
その後、再起動
1行目：VGAの番号を取得した（GTX750tiのIDが0）
28行目：enter押しただけ
29行目：python train_mnist.py --gpu 1　なんとなくid1で動かしてみた。エラー
39行目：id2で動かしてみた。内蔵gpuを使うかも？と思ったがエラー
49行目：id0で試すもエラー
59行目：sudoつけてみてエラー。パスを引き継いでないからnvccがない（=CUDAが見つからない）、cudnnが無いというエラーが出ているのだと思います。
91行目：sudo外したら普通に動いた

www.dotup.org/uploda/www.dotup.org702271.zip.html
www1.axfc.net/uploader/so/3602353
268 名前：デフォルトの名無しさん mailto:sage [2016/01/17(日) 03:23:46.57 ID:lMNqpq/q.net]: 教えていただきたいことがあります。
ubuntu14で、chainer1.5.1のmnistをGPUで計算できるか試行錯誤中です。
python train_mnist.py --gpu 0 #エラー　
sudo python train_mnist.py --gpu 0 #エラー
python train_mnist.py --gpu 0 #うまく動いた
と、sudoをつけて外しただけで、うまく動いた理由を知りたいのです。自分の操作が正しいのか間違ってるのかよくわからなくなってきました…
ログのリンクも添付しています。2つは同じファイルです(dotupはアップローダーの都合上zip圧縮しています)

事前の処理として、vgaのドライバ、cudaとcudnnを入れてパスを通しています。
またchainerのmnistも、cpuの処理ならエラーは出ずに動いていました。

操作は
python train_mnist.pyを実行してcrl+cで止めた。
python train_mnist.py --gpu 0を実行してエラーになった（30-38行目と同じエラー）。
その後、再起動
1行目：VGAの番号を取得した（GTX750tiのIDが0）
28行目：enter押しただけ
29行目：python train_mnist.py --gpu 1　なんとなくid1で動かしてみた。エラー
39行目：id2で動かしてみた。内蔵gpuを使うかも？と思ったがエラー
49行目：id0で試すもエラー
59行目：sudoつけてみてエラー。パスを引き継いでないからnvccがない（=CUDAが見つからない）、cudnnが無いというエラーが出ているのだと思います。
91行目：sudo外したら普通に動いた

www.dotup.org/uploda/www.dotup.org702271.zip.html
www1.axfc.net/uploader/so/3602353
269 名前：デフォルトの名無しさん mailto:sage [2016/01/17(日) 04:58:38.94 ID:rTwmHzKS.net]: 普通にsudoユーザー環境でcudaにパスが通ってないだけ
パスの通し方がわからなかったらこのスレじゃなくてLinuxの初心者スレで
270 名前：デフォルトの名無しさん mailto:sage [2016/01/17(日) 14:25:56.74 ID:lMNqpq/q.net]: >>261
ありがとうございました。
271 名前：デフォルトの名無しさん mailto:sage [2016/01/21(木) 02:42:05.52 ID:ZU2ddnih.net]: 素人な質問なんですがコア数×10スレッド立てたときとコア数と同じスレッド数で10ループした場合とでは前者の方が1.5倍くらい早かったんですけど何故でしょうか
物理的に真に並列で動作するのはコア数と同じスレッド数ではないのですか
最適なスレッド数が分からなくて困ってます
272 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2016/01/21(木) 03:02:10.96 ID:tV143knu.net]: Core数ではなくWarp数に合わせるべし
Maxwellの場合はコア数とWarp数は一致してるけどね
コア数の倍以上のスレッド数を立ち上げるメリットは、ロード・ストアを含む命令間の
レイテンシが隠蔽されるのでパイプラインの充填率が上げやすくなる。
半面、1スレッドあたりで使えるレジスタ本数が少なくなるので

ロード・ストアを頻発するほどのレジスタ不足になるのは本末転倒なので
並列化は程々に。
これに特に明確な基準はない。最適なスレッド数はトライ＆エラーで決める。

慣れてくるとPTXとかCUBINを逆アセンブルして決める場合もある
（昔、理研で重力を自在に操る高貴なる男性研究者がメールで教えてくれた方法）
273 名前：デフォルトの名無しさん mailto:sage [2016/01/21(木) 03:04:52.51 ID:l5HMGS+b.net]: >>263
仮想コア等の技術などで、本来あるコア数以上の並列処理をするのが最新のcpuやGPU、そしてライブラリ
そのへんはあまり考えずにリファレンス通りに投げてしまう方がいいと思う。
ライブラリによっても日々変わるので、最適なスレッド数というのはわからない
274 名前：デフォルトの名無しさん mailto:sage [2016/01/21(木) 03:07:26.03 ID:UGOk39Ww.net]: 並列化のアレコレの時に気をつけるのは基本的にはオーバーヘッドやで
スレッド増やしたことで減るオーバーヘッドを考えてみなされ
275 名前：デフォルトの名無しさん mailto:sage [2016/01/21(木) 03:12:33.48 ID:RQbtFNgK.net]: そんなもん処理にもよるわ
メモリアクセスがネックになることが多いから
物理的に真に並列で動作するなんてことの方がまれ
276 名前：デフォルトの名無しさん mailto:sage [2016/01/21(木) 03:52:40.75 ID:ZU2ddnih.net]: >>264
時間のかかる処理を行っている間に別のワープへ命令を発行しているということなんですかね
277 名前：デフォルトの名無しさん [2016/01/22(金) 08:29:36.48 ID:3nKRZUCp.net]: ECCにはこだわっても
マザーの品質にこだわらないならいいのではｗ
278 名前：デフォルトの名無しさん mailto:sage [2016/01/22(金) 17:13:45.63 ID:xiqoLqZ5.net]: 正直本格的な並列処理は非同期処理対応したGPUを待った方がよさそうなんだけどな
279 名前：デフォルトの名無しさん mailto:sage [2016/01/22(金) 18:34:49.79 ID:EJ7vldBc.net]: 別に待つ必要なくね？
乗り換えれば済むし
280 名前：デフォルトの名無しさん mailto:sage [2016/01/22(金) 19:37:25.23 ID:xiqoLqZ5.net]: RadeonはCUDA対応してないじゃん
nvidia製の非同期処理に対応したCPUは実質的にはまだ出てない
281 名前：デフォルトの名無しさん mailto:sage [2016/01/22(金) 22:55:19.34 ID:XypiUmy6.net]: >>272
＞RadeonはCUDA対応してないじゃん
当たり前じゃんw

＞nvidia製の非同期処理に対応したCPUは実質的にはまだ出てない
だからなに？
それまで待ってるの？
意味がわからない
282 名前：デフォルトの名無しさん mailto:sage [2016/01/22(金) 23:25:50.64 ID:t81Zesj8.net]: 落ち着けよ
283 名前：デフォルトの名無しさん mailto:sage [2016/01/22(金) 23:38:58.19 ID:/Be9v1kC.net]: 1.メモリ読みにいく
2.大きな遅延が発生するからレジスタ待避
3.別なスレッド立ち上げる

を繰り返し
レジスタがどんどん減っていく
284 名前：デフォルトの名無しさん mailto:sage [2016/01/22(金) 23:48:18.02 ID:xiqoLqZ5.net]: >>275
これがあるから並列処理に制限がかかって
非同期処理はnvidiaがNG出す状況になってるんだろうなと思う
285 名前：デフォルトの名無しさん mailto:sage [2016/01/23(土) 00:13:36.37 ID:TXnGkntP.net]: いや非同期かんけぇねぇし
286 名前：デフォルトの名無しさん mailto:sage [2016/01/23(土) 00:24:57.37 ID:NV47HivO.net]: >>276
お前さっきからなに訳のわからない事言ってんだよ
287 名前：デフォルトの名無しさん mailto:sage [2016/01/23(土) 02:41:31.78 ID:qmdjqcBj.net]: 今あるもの使うしかないのに何が言いたいのかわからんぞ
288 名前：デフォルトの名無しさん mailto:sage [2016/01/28(木) 12:46:52.07 ID:6a4EL6WE.net]: 非同期処理はゲームで使うもの
GPGPUには関係ないよ
289 名前：デフォルトの名無しさん mailto:sage [2016/01/28(木) 12:56:49.21 ID:6a4EL6WE.net]: むしろNVにとっての痛手は倍精度のGPUを作っちゃうと「ゲーム用」が完全にAMD天下になっちゃう事
その最大の理由が、SCEに吹っかけすぎて、NV切りを起こされた事

GCN世代GPUがゲーム機を総獲りし、ローレベルAPIで組まれるAAAタイトルが全てGCNに最適化
これを奇貨としたAMDがDirectX12を提唱→DirectX史上初めての互換切り→AMDデファクトスタンダードの流れ
そのために科学技術演算と言う市場を捨てないといけなくなった

VulkanもDX12に倣って完全にAMDに合わせてるからな
だからディープディープ連呼するんだよ
半精度でディープが出来るからな
290 名前：デフォルトの名無しさん mailto:sage [2016/01/28(木) 15:37:41.52 ID:GWvEyNte.net]: カメラと連携してリアルタイムで判断をこなしながらってのは非同期処理無しでも大丈夫なのか？
291 名前：デフォルトの名無しさん [2016/01/28(木) 17:48:40.92 ID:nzOvC+QF.net]: ばかがいる
292 名前：デフォルトの名無しさん mailto:sage [2016/01/28(木) 20:21:46.33 ID:EEHWgu+r.net]: ああ、いつもの非同期君だよ
ほっとけ
293 名前：デフォルトの名無しさん mailto:sage [2016/01/29(金) 01:29:29.84 ID:q0fsZtFa.net]: 非同期はゲーム用って何度言えば
294 名前：デフォルトの名無しさん mailto:sage [2016/01/29(金) 02:29:28.87 ID:QU8XaCF4.net]: 非同期って何だよ
295 名前：デフォルトの名無しさん [2016/01/29(金) 07:41:28.07 ID:HGJh8rQ+.net]: hyper-q
296 名前：デフォルトの名無しさん mailto:sage [2016/01/29(金) 12:43:58.50 ID:q0fsZtFa.net]: 多分非同期君はNV信者だと思う
そうでなければこんなところのこんなスレで五月蝿く連呼するか？

問題はなぜそうするのか、だ

俺なりに出した答えは、Pascal開発が暗礁に乗り上げてる所為だと思う
未だにモックしか出してないからな、Pascal
297 名前：デフォルトの名無しさん [2016/01/29(金) 15:12:50.38 ID:HGJh8rQ+.net]: ばかがいる
298 名前：デフォルトの名無しさん mailto:sage [2016/01/29(金) 17:56:14.69 ID:q0fsZtFa.net]: hyper-阿q　HG
299 名前：デフォルトの名無しさん mailto:sage [2016/01/30(土) 11:53:30.18 ID:8faHSQBO.net]: VulkanとDirectX12は殆どAMDのためにあるようなものだからな
ゲーム機を支配したAMDはローレベルAPIを支配し、ゲームコードは全てAMD基準になった
これはNVにとっては痛恨

倍精度GPUなんか出す余裕はないだろう
300 名前：デフォルトの名無しさん mailto:sage [2016/01/30(土) 12:24:57.23 ID:o5vi6iJ9.net]: GPUのグローバルメモリのバンド幅計算で質問があります。
バンド幅(GB/s) = メモリのデータレート(MHz) * bit幅(bits) / 8(byte) / 1000

メモリのデータレート　GDDR5の場合　clock * 4
　　　　　　　　　　　DDR3の場合　clock * 2

上記のようになると思うのですが、
DDR3は立ち上がり立ち下がりで情報を伝達するのでクロックの2倍になるのはわかったのですが
GDDR5がDDR3に比べなぜ2倍になるのでしょうか？
301 名前：デフォルトの名無しさん mailto:sage [2016/01/30(土) 14:18:14.00 ID:PJcKfdaW.net]: クロック信号1周期に4回データ転送してるから4倍
302 名前：デフォルトの名無しさん mailto:sage [2016/01/30(土) 16:35:02.53 ID:o5vi6iJ9.net]: >>293
回答ありがとうございます。

NVIDIAのスペックを見ていたのですが仕様値と計算があわず、わからなくなってしまいました。
www.nvidia.co.jp/object/product_tesla_C2050_C2070_jp.html
これによると、C2050は384bit, 1500MHz, で144GB/sとあるのですが、計算してみると
　384 * 1500 * 4 / 8 / 1000 = 288GB/s
になってしまうのです。仮に1500MHzがデータレートと仮定すると
　384 * 1500 / 8 / 1000 = 72GB/s

どちらも仕様値と違ってしまいます。もしかしてバンド幅はメモリのリードとライト
合わせての値なのでしょうか？
303 名前：デフォルトの名無しさん mailto:sage [2016/01/30(土) 16:36:27.36 ID:o5vi6iJ9.net]: つまり上り72GB/s、下り72GB/sの合わせて144GB/sなのでしょうか？
304 名前：デフォルトの名無しさん mailto:sage [2016/01/30(土) 16:59:32.46 ID:8faHSQBO.net]: NVはもう倍精度のGPUは造らないよ
ローレベルAPIをAMDに奪われた現在、半精度GPUで描画特化をせざるを得ない
305 名前：デフォルトの名無しさん mailto:sage [2016/01/30(土) 18:25:46.28 ID:ypcCS+Q8.net]: CUDAスレで何言ってるんだかこのアホは
306 名前：デフォルトの名無しさん mailto:sage [2016/01/31(日) 00:13:30.67 ID:v07wXVxF.net]: 描画とかもうどうでも良い
時代はGPGPU
307 名前：デフォルトの名無しさん mailto:sage [2016/01/31(日) 00:57:29.07 ID:cNgLqKMa.net]: GPGPUでは倍精度がものを言うが、NVはもう倍精度に手を出せないということ
308 名前：デフォルトの名無しさん mailto:sage [2016/01/31(日) 01:06:55.62 ID:V+Yf7lZI.net]: 単精度でも十分みたいな話じゃなかったの？
それでディープ・ラーニングを推し進めていると思ったんだけど
309 名前：デフォルトの名無しさん mailto:sage [2016/01/31(日) 01:23:20.65 ID:cNgLqKMa.net]: 深層学習とビッグデータは半精度（でも可）
しかしこのスレの関心はあくまでも倍精度、出来るならば倍々精度だろ？
しかしこの倍精度は、CS機の競争環境でオマケがつくか削られるか都合で決まる

そう言うわけでVoltaはアメリカ政府との契約違反に問われないように出荷するだろうけど、
これはカスタム

AMDにCS機が獲られた現在、NVのGPUは描画/ワットパフォーマンス特化路線に軸足を置いた
DirectX11まではハイレベルAPIだったから倍精度GPUを出す余地があり、同時に科学技術演算市場を狙う二兎を追う路線を
追求できた

しかしDirectX12は完全にAMDのGCN世代GPUのハード直叩き規格だから普通に戦ったらfps/解像度共に負けてしまう
だからこそ半精度に活路を求めている
310 名前：デフォルトの名無しさん mailto:sage [2016/01/31(日) 01:27:41.36 ID:v07wXVxF.net]: DirectX12とかどうでもよろしい
ここはCUDAのスレ
AMDな方はOpenCL()のスレにお帰り下さい
311 名前：デフォルトの名無しさん mailto:sage [2016/01/31(日) 02:27:05.81 ID:tWmMlKqo.net]: GeforceはいいからTeslaがんばれ
312 名前：デフォルトの名無しさん mailto:sage [2016/01/31(日) 08:33:54.41 ID:v07wXVxF.net]: TeslaよりTitanの方が良いよ
313 名前：デフォルトの名無しさん mailto:sage [2016/01/31(日) 11:45:10.40 ID:k6wK0w/E.net]: ばかが常駐するようになったな
314 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 01:21:54.44 ID:27TlSaYk.net]: 倍精度倍精度って、使い道も無いくせに
滑稽だな
戦闘力みたいなイメージか
315 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 02:50:26.19 ID:9fNLotPU.net]: 科学計算でも計算量が多くてそこまで精度が必要なものってどれだけあるんだ
316 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 07:15:29.10 ID:BOcjqYcH.net]: 科学技術計算では単精度や半精度で行う方がよっぽど珍しいと思うが
317 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 09:11:27.82 ID:fnCrDph6.net]: 物理系じゃ大きい数+極小の数なんて普通にあるからな
倍精度でも足りなくて四倍精度必要になったりすることもざら
318 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 09:26:01.45 ID:2VMpgIMC.net]: Kerasってdeep learningフレームワークはbackend.pyてファイルを追加するだけでopenclでも動くようになってるよ。誰かbackendを書かないか？
319 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 12:33:46.47 ID:Ucvj9UOE.net]: こうなったらこのスレの住人が声を上げて、PEZYに倍々精度のMPUを造ってもらおうよ
もうNVは金輪際倍精度に手を出さないよ
320 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 14:17:42.51 ID:fSUYSvsK.net]: 倍精度が必要な要件って
例えば何があるんだ？
2.0e+38を超えるスケールで
2.0e-38以下の誤差を必要とするプロジェクト？
そんなのあんの？
そりゃー誤差が小さくなれば
破綻する可能性は減るけどさ
おたくらが求めてるのってそれだけじゃねえの？
321 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 14:48:07.70 ID:iOXOBOCM.net]: いらん
DNNではな
322 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 14:59:29.79 ID:9fNLotPU.net]: >>308
でもシミュレーションにGPGPU使ってる人いるだろ
たいして速度でないのに倍精度でやってんのか
xeon phi使った方が良さそう
323 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 15:05:12.00 ID:CUSF99yG.net]: >>312
指数分の大きさではなくて仮数部の大きさ(幅)だよね。
仮数部の幅分大きさの違う数値を加減算すると0を加減算したのと同じになると思うけど。
324 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 15:07:09.85 ID:CUSF99yG.net]: 増分解法では致命的になる場合あり。
325 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 15:07:56.23 ID:SiSRa9Ib.net]: 装置もんで数万枚/日のリアルタイム画像処理に使ってるけど、普通にdoubleが使えると楽なんだけどな。
速度も考慮すると大きい数と小さい数の計算前、画像処理の前後でdouble、float変換してるからCPU圧迫してくる。
でも、シンプルで意図した通りに動くからCUDAは組みやすい。
んー、この辺がジレンマだな。
326 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 15:44:31.42 ID:fSUYSvsK.net]: それは倍精度が必要な理由になってないような
やっぱ盲信が多そうだな
327 名前：デフォルトの名無しさん [2016/02/01(月) 16:07:14.05 ID:oiE/5K5n.net]: >>311
そこの製品一般人で買えるルートあんのかよ
328 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 18:24:22.88 ID:BOcjqYcH.net]: 大きな行列の計算、FFT、急峻なカーブの音声フィルター、レイトレーシング、物理シミュレーション、空間認識、...
倍精度以上の精度が必要な用途はいろいろとある

単精度のハードで倍精度相当の演算をすると、十数倍の時間がかかる
倍精度のハードで4倍精度相当の演算も同様に十数倍
多倍長演算も倍精度や4倍精度ハードがあれば、単精度よりもずっと速く計算が可能
329 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 18:32:19.85 ID:BOcjqYcH.net]: 簡単な画像フィルターや音声フィルターなら単精度でいいし、ディープラーニングなら半精度でも良かったりする

半精度～4倍精度までのハードがあるのが一番なんだけど

倍精度演算ハードがあれば単精度も同じ速度で計算が可能だが、単精度のハードで倍精度相当の演算をするには十数倍の時間がかかる
ゲーム用途など、単精度を使うことがはっきりしてる時じゃなければ倍精度を積んでおくのが無難

4倍精度はさすがにGPUに積むのは規模が大きくなりすぎるが、CPUには積んで欲しい
半精度は、単精度との変換だけでとりあえずは良い
330 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 20:19:15.33 ID:Ucvj9UOE.net]: www.4gamer.net/games/251/G025177/20160105002/
www.4gamer.net/games/251/G025177/20160105002/
＞また，Huang氏が示したスライドで，第2世代Maxwellアーキテクチャベースの「GeForce GTX TITAN X」とDrive PX 2を比較すると，
＞単精度浮動小数点演算性能は前者が7TFLOPSなのに対して後者は8TFLOPSと，
＞劇的には高速化していない点も気になった。

↓その一方で…
＞ちなみにHuang氏は，Drive PX 2の性能指標として，ディープラーニング処理の演算性能を示す
＞「DL TOPS」を示しているが，これだとデュアルPascalはGeForce GTX TITAN Xの3倍以上というスコアになっている。

これ、完全にゲーム特化とビッグデータ特化GPUじゃん、Pascalwwwwww
俺の言ったとおりもう科学技術GPGPUはオワコンなんだよ
完全に半精度依存、完全にワットパフォーマンス/描画特化GPU路線だはwwwwww 👀
Rock54: Caution(BBR-MD5:0be15ced7fbdb9fdb4d0ce1929c1b82f)
331 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 21:46:57.46 ID:vs1yi7F6.net]: >>321
倍精度乗算器の回路コストは単精度の約4倍
332 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 22:30:54.71 ID:MibI1Q78.net]: バカが住み着いてる
333 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 22:58:36.28 ID:9fNLotPU.net]: 実際に業務で使ってる人は倍精度で運用してるのか？
334 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 23:10:33.37 ID:BOcjqYcH.net]: >>323
まあ純粋に乗算器だけでいえばそうだけど...

>>322
半精度はさすがにゲームでも足りない
半精度専用GPUなんて出ない
少なくともPC用には
335 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 23:17:23.47 ID:BOcjqYcH.net]: >>325
業務っていろいろあるが
おれの範疇は単精度、倍精度、疑似4倍精度、多倍長といろいろ
多倍長も、筆算レベルからカラツバ、DFTレベルとさまざま
もちろん普通のレジスタサイズの整数演算も
特殊なジャンルであることは否定しない
336 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 23:19:49.62 ID:BOcjqYcH.net]: 半精度もIEEE754じゃない独自フォーマットなら使った事はあるが、使った事があるって程度
337 名前：デフォルトの名無しさん mailto:sage [2016/02/01(月) 23:27:26.75 ID:dRJvSEmL.net]: >>326
>半精度はさすがにゲームでも足りない

そんなこと分かるかよ
HDRで16bit浮動小数点フォーマットとか普通に使うだろ
メモリ帯域が半分で済むんだぞ
ゲームなんか正確さより速さ優先だから、色を表現するのに16bitで十分な場合がほとんどだろ
338 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 01:51:42.07 ID:LP8V/wwM.net]: だから違うよ
使ったことがあるかじゃねーよ
何でその精度が必要なのかってところよ
4倍精度とか軽々しく言うが
このスケールが本当にわかってるのか
疑わしいぜ
339 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 03:08:21.02 ID:xiUt8T5M.net]: 4倍精度とか専用ハード作れとしか言いようがない
汎用品に求めるものじゃない
340 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 12:53:46.97 ID:ULLNmZyK.net]: >>326
よく嫁
Pascalは基本混合精度
PK104は単精度と半精度の混合
PK100は倍精度の混合らしいが、多分これはテスラ新シリーズとして販売だと思う

もうグラボ価格の倍精度CUDA組はむりぽ

>>331
もうPEZYにお願いするしかないよ、倍々精度
これはマジでそう思ってる
逆を言えば理研＝PEZYの特殊HPCはそこしか生き残りが出来ないのではないか

どうしてもというならARMカスタムとか

倍精度はNVはもうだめぽだから、AMDに期待するしかない
341 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 13:17:56.85 ID:sWHooGm6.net]: 混合精度って単精度と半精度が両方載ってるって事だ�
342 名前：謔ﾈ 仮に1個の演算器の回路規模が1:3として、演算器の回路比率を1:1にし、単精度は半精度の演算も出来るとすると、すべて単精度にした場合に比べて演算器の数は単精度が半分で単精度が2倍か 単精度2倍のインパクトよりも単精度半分のインパクトの方が大きい気がする []: [ここ壊れてます]
343 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 14:24:13.48 ID:ULLNmZyK.net]: 完全にグラフィックス描画効率/深層学習向けの構成だね
データ地獄になるから広帯域メモリも必要になるがHBM規格はAMDが握っているために、（HBM2の）開発が遅れた
GDDR5＋を急遽導入する事になったのはそのため

このスレだとDX12とかVulkanとか一言口にするだけで「スレチガイだ馬鹿！」と怒鳴る奴がいるが、
これは全てが絡み合っている

DX12とVulkanという二つのローレベルAPIがAMD中心による策定である以上、これらのローレベルAPIへの依存を避ける
ワットパフォーマンスGPUに経営路線の舵を切るの必然
344 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 15:52:24.40 ID:MS6gBcZU.net]: >>334
スレチガイだ馬鹿！
345 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 20:33:43.42 ID:ubpTh4Nt.net]: >>334
そのすごいAMDでお前はどんなGPGPUソフト/プログラム作っていいるんだ？
346 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 21:22:14.45 ID:xseyqTiA.net]: cudaだっつうに

hsaスレでやってろ
馬鹿
347 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 22:08:37.37 ID:+ZIKPYce.net]: 雑談は楽しいけど、ここCUDAスレやで
amdの話をするなってことじゃなく、スレチ話をいつまですんねんってこと
348 名前：デフォルトの名無しさん mailto:sage [2016/02/02(火) 22:41:10.14 ID:NB4DG1EG.net]: Visual Studio 2015対応になるのはいつですかねぇ
349 名前：デフォルトの名無しさん mailto:sage [2016/02/03(水) 12:08:39.46 ID:15l+1fC7.net]: >>336　>>337
自演乙
わざわざ自作板から出張ご苦労様
350 名前：デフォルトの名無しさん [2016/02/03(水) 12:56:39.94 ID:d3Nc4Jqw.net]: バカな上の病気なんだな
351 名前：デフォルトの名無しさん mailto:sage [2016/02/03(水) 14:19:34.04 ID:15l+1fC7.net]: Pasacalこけそうで危機感いっぱいだは
352 名前：デフォルトの名無しさん mailto:sage [2016/02/03(水) 22:25:31.36 ID:hEPpn7Fg.net]: だはｗ
353 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2016/02/03(水) 22:25:59.26 ID:gpz71jEo.net]: TeslaでもXeon Phiでもなく一般ピープル向けGPUに倍精度性能が必要だって言ってるのは
ろくに科研費申請が通らない貧乏研究室くらいでしょ
354 名前：デフォルトの名無しさん mailto:sage [2016/02/04(木) 13:10:48.29 ID:lq8BoEbf.net]: >>344
お前が使い方を知らないだけ
355 名前：デフォルトの名無しさん mailto:sage [2016/02/04(木) 13:11:30.26 ID:lq8BoEbf.net]: >>344
お前は半精度だけで十分
356 名前：デフォルトの名無しさん mailto:sage [2016/02/04(木) 18:29:53.21 ID:TT5D/Cpx.net]: Maxwellは擬似的な倍精度も出来ないんだよ
それくらいしっておこうな
357 名前：デフォルトの名無しさん mailto:sage [2016/02/04(木) 20:00:25.29 ID:o+ucOEnp.net]: 単精度と比べると凄い遅いだけで
倍精度演算自体はハードで実装している。
物凄い遅いといっても1/32で1/16のradeon furyと比べると半分だから大差ないと言えば無い。
358 名前：デフォルトの名無しさん mailto:sage [2016/02/04(木) 20:13:21.23 ID:d8M6zG1u.net]: Maxwellは倍精度の演算器が排除されただけで疑似倍精度は実装されている
そもそもソフトレベルでも実装できることだし
359 名前：デフォルトの名無しさん mailto:sage [2016/02/04(木) 20:15:36.92 ID:TT5D/Cpx.net]: FURYはMaxwellを参考にしてるからな
HBMの容量の少なさが祟って何じゃこりゃ状態だったけど、Polarisは一層Maxwell類似のワッパ路線がとられる
これでNVはもう倍精度を完全に捨てにかかる
360 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2016/02/04(木) 23:21:52.01 ID:zdF89aL0.net]: いや実際半精度が4倍速いほうが使いどころあると思うよ
ゲームで倍精度なんて使わないじゃん
361 名前：デフォルトの名無しさん mailto:sage [2016/02/04(木) 23:28:29.99 ID:3r7tJtQx.net]: 深層学習がはやったらＧＰＧＰＵももっと市民権を得るかな？
362 名前：デフォルトの名無しさん mailto:sage [2016/02/05(金) 00:42:53.10 ID:TcXSJNY1.net]: 半精度を4倍速くしたら半精度専用になるな
そんなもの売れないぞ
363 名前：デフォルトの名無しさん mailto:sage [2016/02/05(金) 01:21:13.26 ID:p946S2WD ]: [ここ壊れてます]

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef