[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 2chのread.cgiへ]
Update time : 05/18 03:52 / Filesize : 192 KB / Number-of Response : 722
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【GPGPU】くだすれCUDAスレ part5【NVIDIA】



1 名前:デフォルトの名無しさん [2011/08/23(火) 22:08:06.09 ]
このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/

577 名前:デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:53:32.45 ]
1SM = 192コアか。おっそろしいなあ。

578 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:00:34.24 ]
nVidia始まったな。

579 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:17:06.29 ]
>>577
warp の扱いどうなるんかな。。。

580 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:54:42.91 ]
>>579
ttp://pc.watch.impress.co.jp/docs/column/kaigai/20120322_520640.html
> 32スレッドのWARPに同じ命令を実行する、この基本は、Keplerでも変わっていない。
らしいから、変わらないんじゃないかな。

GF104/114のSMには48コアと2ワープスケジューラ、4ワープディスパッチャで
GK104のSMXには192コアと4ワープスケジューラ、8ワープディスパッチャになっている。

その上レジスタ数は倍、L1キャッシュ/シェアードメモリはそのままってことは
GF104/114よりさらにピーキーになっているのかな?


581 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 01:01:32.84 ]
>>580
あれ?
コンスタントキャッシュって無くなった?
L1/L2キャッシュがその役割を担ってる?
ということはFermiからか・・・

582 名前:デフォルトの名無しさん [2012/03/23(金) 01:06:15.11 ]
48コアが192コアになったのに
レジスタは2倍、
共有メモリは据え置き。

どーすんだこれ。。

583 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 01:54:37.82 ]
レジスタ足りんくなりそうな。

584 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 04:09:37.63 ]
Keplerはクロック落としてパイプラインを浅くする設計

演算器のレイテンシが小さくなるならレジスタの消費量は変わらない
Fermiの18cycleは頭おかしすぎた
これが例えば6cycleにになればレイテンシ隠蔽に必要なスレッド数が1/3になるから問題ない

585 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 04:14:42.78 ]
x86 CPUと同じ道を辿ってるのか



586 名前:デフォルトの名無しさん [2012/03/23(金) 15:07:43.87 ]
誰か26次元計算してくれ、1000コアくらいじゃマジに足らんぞw

587 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 15:59:10.59 ]
float a[1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1] = NULL;
*a += 1;

588 名前:デフォルトの名無しさん [2012/03/23(金) 17:47:27.55 ]
こんにちは
国際暗号学会のプレプリントサーバにこんな論文があがってました

Usable assembly language for GPUs: a success story
Daniel J. Bernstein, et. al.
eprint.iacr.org/2012/137

GPUのことはさっぱりわかりませんが、なにかこのスレの足しにでもなれば幸いです
それでは

589 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 20:49:13.93 ]
>584
グローバルメモリアクセスのレイテンシ隠匿とか、ループが遅いとかの情報が頭にあったんで
今まで深く考えず1024スレッド突っ込んでたんだけど、
スレッド減らしてループ回すような構造にしたほうがいい、って解釈でいいんだろうか?

590 名前:デフォルトの名無しさん mailto:sage [2012/03/25(日) 02:00:59.95 ]
>>588
PTXよりもっとネイティブ寄りのアセンブラ言語qhasm-cudasmを使って
パフォーマンスクリティカルな場面で力を発揮(nvccの148%)するよ!って話かな?
暗号学会で発表されるんだね。

591 名前:デフォルトの名無しさん mailto:sage [2012/03/25(日) 20:09:00.66 ]
メモリアクセスに対する演算の比率を上げないと、性能をフルに発揮できないことは分かったんですが、
具体的にどれくらいの比まで高めるべきかの目標はどうやって決めればイイでしょうか??

592 名前:デフォルトの名無しさん mailto:sage [2012/03/26(月) 10:43:34.08 ]
理論性能(カタログ値)がでるまで頑張れば良いのでは?

それからグローバルメモリーのアクセス速度が,カタログ値の何%になっているのかも
チェックすべきだと思う.

593 名前:591 mailto:sage [2012/03/26(月) 18:59:54.70 ]
>>592
ありがとうございます!
やはり、

理論性能が出ない → ボトルネックを割り出して改善 → 先頭に戻る

のループで追い込んでいくやり方ですね。

594 名前:デフォルトの名無しさん mailto:sage [2012/03/27(火) 00:14:52.50 ]
本を読んで、Visual Profilerを知ったのですが、
ひょっとして今はParallel Nsightで同じことができるでしょうか?

595 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 05:31:51.00 ]
GTX 680駄目すぎるわ
死んだ



596 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 06:40:03.41 ]
まだ未公開?
ttp://developer.download.nvidia.com/compute/cuda/4_2/rc/toolkit/cudatoolkit_4.2.6_win_64.msi
ttp://www.abload.de/img/desktop_2012_03_27_22wif3f.png
PTX ISA3.0

597 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 08:00:17.14 ]
warp shuffle

598 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:36:38.09 ]
VLIWの腐ったようなアーキテクチャになったくさいな

599 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:51:03.77 ]
どのへんが?

600 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:54:22.36 ]
斜め読みしたうえで完全にESPだが
命令は各スロットごとに別という点でVLIWでデータパスはSIMDみたいに独立とみた
ソフトウェア的にはもちろん別スレッドとして書けるみたいな
全然違ったらごめんね


601 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 13:35:57.98 ]
いやPTXレベルの命令だから全然関係ないね
>>598-600は忘れてくれ

602 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 21:20:01.15 ]
やっぱりGCNと同じでshuffle入れてきたな。


603 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 22:40:28.29 ]
CUDA C Programming Guide Version 4.2
74p.
Table 5-1. Throughput of Native Arithmetic Instructions (Operations per Clock Cycle per Multiprocessor)
いろいろやばすぎるな。


604 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 11:33:59.98 ]
>>589
いまさらだが
物理レジスタが足りてるなら同時に多数スレッドを保持しておけるが
複雑なカーネルだとレジスタは不足しがち

605 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 12:27:07.17 ]
>604があるから時として64ビットアドレッシングより32ビットアドレッシングの方が有利なんだよね。



606 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 18:48:17.20 ]
Visual studio2010、CUDA4.1、Windows7 64bitではじめようと思ったんだけど、ネットで拾ったプログラムとか動かすとcutil_inline.hが見つからないって出る。
これってどうすればいいの?

607 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 19:47:51.42 ]
>>606
GPU Computing SDKをインストールしてパスを通す

608 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 22:36:38.83 ]
スレタイがイイね。
くだすれくーだすれw

609 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/06(金) 21:14:51.29 ]
なんでGPGPUはみんな同じようなアプリしかつくらないん?
想像力が欠如してるから他人の猿真似ばかりしてんの?

GTX680の性能を生かすアプリ教えろ

610 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/06(金) 21:37:23.28 ]
>>609
邪魔

611 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/06(金) 22:02:22.54 ]
わりぃなぁ。そんじょそこらにはないアプリ作っているんだが公表できないんだわ。

612 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/06(金) 22:56:59.64 ]
恥ずかしいやつが湧いたな

613 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 01:09:23.67 ]
>>609
BOINCでもやってな
なんぼぶん回しても次から次へ宿題出してくれるから

614 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 10:44:11.21 ]
数値流体力学シンポジウムにでも参加すれば良いぞ♪


615 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 19:20:32.56 ]
公表できないと言ってるけど、どうせCUDA ZONEに登録されてるようなものだろ?
外人の真似と負け惜しみしかできないの?

素人だからよくわからないけど、欧米に対して技術面で遅れているから
この分野で日本に有名な人がいないでしょ?
自称一流の教授に俺の書き込み見せてあげて



616 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 23:56:42.42 ]
だから数値流体力学シンポジウムにでも参加すれば?

この分野では例えば東京工大の青木先生が有名だが

617 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 23:57:49.78 ]
ちなみに 615

618 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 23:58:19.73 ]
あれ?

ちなみに615は大学生か??

619 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 00:08:49.21 ]
大学生なら,物理や力学関係の学会に参加すれば,GPGPUを使った
シミュレーションの研究結果が報告されていることがわかるはず♪

高卒なら縁はないが...

620 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 00:11:11.59 ]
大学生がこんな幼稚な文章書いてたら日本終っちまうぞw

621 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 09:03:46.81 ]
GTX480である程度大きなサイズをホストからデバイスに転送するのに3回に2回ぐらいセグメンテーションエラーで落ちる。
うまく行くとなんの問題もなく実行できる。
デバイス側でメモリ確保ができてないみたいなんだが、こんなもんなのかね?




622 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 09:17:09.30 ]
そのカードでモニターを表示させているとか?

623 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 12:09:14.45 ]
ケプラーの倍精度計算は速くなったの?
それとも以前と同じ?


624 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 12:27:33.01 ]
HPC向けがでてみないと分からんけど
GTX680じゃSPに対して1/24だよ

625 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 15:32:40.75 ]
www.tml.tkk.fi/~timo/HPG2009/
レイトレは最適化するとスペックなりのパフォーマンスだな680



626 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 20:11:08.50 ]
>>622
表示させている。
それがダメなのかな?

627 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 21:17:10.19 ]
2枚さして,一枚はディスプレイ用
もう一枚は演算用にしないと,一枚では負荷に耐えられないのでは?

628 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 00:35:51.46 ]
みんなすごいね
せいぜい準備して
九九の掛け算一括処理くらいしかできないよ

629 名前:営利利用に関するLR審議中@詳細は自治スレへ [2012/04/10(火) 00:59:53.96 ]
CUDAを学ぼうとするからそうなるんだと思うよ。
何か問題があって、それをCUDAで解こう!って始めた方が早く習得できる。

630 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 16:05:07.35 ]
>>624
それって今までよりも遅いってこと?
どこかに倍精度のベンチマークの比較はありませんか?

631 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 16:47:44.33 ]
今研究室でGTX680か580のどっちかを買おうって話になってるんだけど
CUDA的にはどっちがいいと思う?
一任されて困ってる・・・

632 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 17:43:14.82 ]
floatかdoubleか。
あと整数演算も遅くなったらしい。
テスラ売るためとはいえ、なんかいやーんな感じ

633 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 18:28:46.60 ]
> 631

両方買う.

が,テスラの方が安定していると聞いているよ(速度は若干GTXより落ちるが)

634 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 18:32:30.11 ]
>>631
迷わず580かと。

680はレジスタとか整数演算・論理演算のスループットとか色々と問題になりそう。
それに最新の正式版Toolkit 4.1のプログラミングガイド見てもKepler載っていないし・・・

>>632
グラフィック性能のワットパフォーマンスを上げるためというのが一番じゃないかな。

635 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 19:03:34.66 ]
>>631
勉強用に1枚2枚買うって話ならGTX580だろうね。
1.資料がぜんぜん揃ってないKeplerを今買ってもしょうがない。
2.GPGPUとしての性能がGTX580のほうが「上」
(完全上位互換というわけではないし処理にもよるしスペック上FLOPSでは負けてはいるが)

GTX680のグラフィック・GPGPU性能を調べる ≪ dokumaru
dokumaru.wordpress.com/2012/03/27/gtx680-spec/

10数枚買って研究室全体に大量導入…なら先生が決めるよね。
両方買ってもいい。でもそれならKeplerは対応するToolkitが出てからでも遅くはないかと。
あるいは一刻一秒を争うならなおさらKeplerは冒険かと。



636 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 20:08:49.43 ]
今はまだ早いGK110をまて
5月にイベントあるから、そこでなんかあるかも

637 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/11(水) 16:27:30.42 ]
Teslaはメモリ容量が良いよね
GTXだと計算領域が足りないよ・・・

638 名前:デフォルトの名無しさん [2012/04/11(水) 23:21:32.32 ]
FLOPS/MBで見ると、Teslaでも全然足りない。

639 名前:デフォルトの名無しさん mailto:sage [2012/04/12(木) 07:21:34.36 ]
何の計算??

640 名前:デフォルトの名無しさん [2012/04/13(金) 04:19:22.20 ]
倍精度計算が主なのですが、Ivyと680と580、どれがコストパフォーマンス的にお薦めですか?


641 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 09:48:41.62 ]
IvyはCUDA動かないよ。

642 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:12:31.27 ]
言語の問題じゃなくて、プログラムはこれから作るから倍精度計算をわんさかやろうと思うんだけどどれがいいかなあ?
程度の話じゃないかと。

643 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:17:18.06 ]
そういうことか。
超並列に対応できるのであればGPUのほうがイイね。

644 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:27:10.68 ]
えっ!?
ここCUDAのスレだよね?

てか、Ocelotとかどうなのかな。

645 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 12:45:42.72 ]
倍精度計算が中心なら、CPUで最適化するのが一番。
例えば近似計算のようにGPUの単精度で近づけてから、
CPUの倍精度で収束させるとかならありだけど。



646 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 16:13:12.61 ]
cuda zoneがメンテナス中・・・

647 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 17:11:45.77 ]
toolkit4.2が来るのかな

648 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 18:28:30.79 ]
>>640
GPU用の倍精度プログラムを書く気があるならTeslaにしとけ。
コストが厳しいならRadeonの最上位にしとけ。


649 名前:デフォルトの名無しさん mailto:sage [2012/04/14(土) 01:50:49.98 ]
sdk 4.1とtoolkit 4.1インストールしたんだけど
アンインストールせずにそのまま
sdk 2.3とtoolkit2.3をインストールしたらコンパイルやリンクの挙動とかおかしくなりますか?

650 名前:デフォルトの名無しさん mailto:sage [2012/04/14(土) 12:46:31.14 ]
自分でpathやMakefileなどを管理できるのなら無問題。

651 名前:デフォルトの名無しさん mailto:sage [2012/04/14(土) 22:18:52.58 ]
parallel nsightは甘え

652 名前:デフォルトの名無しさん mailto:sage [2012/04/14(土) 22:34:41.85 ]
>>651
甘えと言えるほどすごいのか。
今度使ってみようw

653 名前:デフォルトの名無しさん mailto:sage [2012/04/16(月) 19:24:07.51 ]
シングルGPUでもデバッグできるようになったのが凄くうれしい

654 名前:デフォルトの名無しさん [2012/04/17(火) 03:52:59.70 ]
680を手に入れたんだけど、ガッカリ性能だった
ゲーム系は速くなってるんだけどね

655 名前:デフォルトの名無しさん mailto:sage [2012/04/17(火) 08:51:17.06 ]
何をやったの



656 名前:デフォルトの名無しさん mailto:sage [2012/04/17(火) 15:39:00.54 ]
PTX直接書いてプログラミングする人とかいるの?

657 名前:デフォルトの名無しさん mailto:sage [2012/04/17(火) 19:51:20.08 ]
一応いるけど。

658 名前:デフォルトの名無しさん mailto:sage [2012/04/17(火) 21:23:06.59 ]
GTX580が生産終了なんだとか

659 名前:デフォルトの名無しさん mailto:sage [2012/04/17(火) 23:38:03.55 ]
>658
在庫はけたからか。
しかしIntelのCPUはGPU載せてんのにGPGPUにはさっぱり対応しないからあんま意味ないな。
CUDA対応とかにしないのは戦略的判断なんだろうけど、なんとももったいない。

660 名前:デフォルトの名無しさん mailto:sage [2012/04/17(火) 23:51:03.54 ]
大丈夫
Intelも来週からGPGPU対応する

661 名前:デフォルトの名無しさん [2012/04/18(水) 16:31:10.22 ]
倍精度計算じゃまだインテルに分があるしね

662 名前:デフォルトの名無しさん mailto:sage [2012/04/18(水) 16:57:28.76 ]
ivyのeuどうなってのかね

663 名前:デフォルトの名無しさん mailto:sage [2012/04/20(金) 18:04:01.73 ]
> 654

今,それに触手を伸ばしているところだけど,どこがダメだった??

664 名前:デフォルトの名無しさん mailto:sage [2012/04/21(土) 20:08:12.47 ]
>>660
ivyってGPGPUとして使えんの?

665 名前:デフォルトの名無しさん mailto:sage [2012/04/21(土) 20:18:04.15 ]
OpenCLならできなくもないのかな?



666 名前:デフォルトの名無しさん mailto:sage [2012/04/24(火) 13:30:34.56 ]
誰かHMPP使ったことある人いる?

667 名前:デフォルトの名無しさん mailto:sage [2012/04/24(火) 20:58:18.61 ]
CUDA4.2きたな
ttp://developer.nvidia.com/cuda-downloads

668 名前:デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:18:30.00 ]
Adobe Creative Suite 6: Bye bye CUDA, Hello OpenCL!
ttp://www.geeks3d.com/20120425/adobe-creative-suite-6-opencl-accelerated-mercury-graphics-engine-opengl/

669 名前:デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:24:16.57 ]
ivyの影響だな

670 名前:デフォルトの名無しさん mailto:sage [2012/04/26(木) 23:10:43.77 ]
CPU、GPUを利用(プログラム)するには?
togetter.com/li/293863

671 名前:デフォルトの名無しさん mailto:sage [2012/04/29(日) 14:44:53.67 ]
GPUのデメリットは同じ変数計算を毎回糞真面目に超高速で行うところ

672 名前:デフォルトの名無しさん mailto:sage [2012/04/29(日) 18:55:51.68 ]
メモリ読むより速いからな


673 名前:デフォルトの名無しさん mailto:sage [2012/04/30(月) 07:47:23.73 ]
GTX690
pc.watch.impress.co.jp/docs/news/20120429_530569.html

674 名前:デフォルトの名無しさん mailto:sage [2012/04/30(月) 08:35:43.64 ]
>> 671
一つ一つの計算は超高速でもなんでもない
並列で行うので早くなるだけ
超高速になるか否かはプログラミングの問題

>>672
演算にはメモリーの読み書きを伴うので,演算が「メモリ読むより速い 」とはならないのでは?

675 名前:デフォルトの名無しさん mailto:sage [2012/04/30(月) 21:06:45.57 ]
>>671
意味が分からん。
アーキの概念の理解ができていないじゃねーか?



676 名前:デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:39:15.46 ]
>>675
明日短いわかりやすいソースアップするからコンパイルして実行してみて
言いたいことがわかると思う。
CPUにはあってGPUにはない機能を使うことになる、まぁホントしょうもないことだけど・・・


677 名前:デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:53:32.34 ]
???

678 名前:デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:59:29.65 ]
言ったら悪いかも知れんけど単にアルゴリズムが悪いんじゃないのか。

679 名前:デフォルトの名無しさん mailto:sage [2012/05/01(火) 08:09:04.59 ]
>>671
アドレス計算とかまさにそれだよね。
普通のループなら+4で済むところが、
ptr + threadIdx.x*4 + threadIdx.y*hoge
とかになっちゃう。

680 名前:デフォルトの名無しさん mailto:sage [2012/05/01(火) 08:24:43.67 ]
それはGPUのデメリットじゃないな。
GPU(nvcc)でもループなら普通に書いたら普通に最適化してくれる。

681 名前:デフォルトの名無しさん mailto:sage [2012/05/01(火) 10:38:58.63 ]
>>679
これはデメリットと違う。
CPUでマルチスレッドでやれば同じように明示的にアドレス計算を行う必要がある。

682 名前:デフォルトの名無しさん mailto:sage [2012/05/01(火) 13:31:24.76 ]
シングルスレッドでの最適化が、そのままマルチスレッドに使えると思ってるなら、並列で組むのに向いてないな。

ひとつの処理として見たとき無駄でも、それで大多数の演算を同時に走らせることができるなら、
並列処理においてはそれこそが効率的なんだよ。

683 名前:デフォルトの名無しさん mailto:sage [2012/05/02(水) 01:02:11.09 ]
>>669
残念、AMDとアドビのコラボでした
www.4gamer.net/games/133/G013372/20120426013/

Ivyは端から相手にされてません

684 名前:デフォルトの名無しさん [2012/05/02(水) 01:48:54.23 ]
ascii.jp/elem/000/000/672/672388/
このカード使ってる人居ませんか?

メモリがいっぱい欲しいけど、高いカードは買えないので
試しに買ってみようかと思うのですが。

685 名前:デフォルトの名無しさん mailto:sage [2012/05/02(水) 02:05:34.87 ]
同じ世代のGPUでも生産地の違いで演算速度は全く違うからね
もっと言うと転送速度が全く違う
まあフラッシュメモリでも同じこと言えるけど



686 名前:デフォルトの名無しさん [2012/05/02(水) 04:31:00.56 ]
>683
ずいぶんニッチなところだな

687 名前:デフォルトの名無しさん mailto:sage [2012/05/02(水) 09:30:37.50 ]
>>684
マジレスすると、CUDAでやるメリットはない。
Sandyやivyの方がはるかに高速。
まあ、CUDA勉強するだけならいいが、もっと別のカードのほうがいいだろ。

688 名前:デフォルトの名無しさん mailto:sage [2012/05/02(水) 11:01:38.16 ]
>>684
メモリ転送が遅過ぎて4GBのメモリを活かしきれない悪寒。

689 名前:デフォルトの名無しさん mailto:sage [2012/05/02(水) 12:41:42.31 ]
SRAMを4GBつんでるカードはないのか?

690 名前:デフォルトの名無しさん mailto:sage [2012/05/02(水) 16:10:34.75 ]
>>667

>New Features
>Support for GK10x Kepler GPUs.

とりあえず、GK104対応にしました的か。

691 名前:デフォルトの名無しさん [2012/05/02(水) 18:28:26.54 ]
VRAM 4GB以上のカードって、ほとんどないんだね。
TeslaかQuadroしか見つからなかった。
お値段10万円越

692 名前:デフォルトの名無しさん mailto:sage [2012/05/02(水) 18:42:59.54 ]
4年後にはVRAM16GBが普通にでまわるんだよ

693 名前:679 mailto:sage [2012/05/02(水) 22:18:41.81 ]
>>680 >>681
あれ、そういう話じゃないのか…
そうだとすると、 >>671 が何を言いたかったのか思い付かないな…

694 名前:デフォルトの名無しさん mailto:sage [2012/05/03(木) 15:04:28.21 ]
>671は皮肉だろ。

695 名前:デフォルトの名無しさん mailto:sage [2012/05/03(木) 16:07:25.13 ]
ということにしたいのですね。



696 名前:デフォルトの名無しさん mailto:sage [2012/05/04(金) 01:03:14.33 ]
デメリットに感じる境地まで辿りついたんだよ、きっと
俺にはまだメリットにしか思えないんだけど・・・

697 名前:デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:18:13.51 ]
>>692
今から4年前の2008年頃はG80世代で大体1GBだったが、4年後のGTX680でまだ2GBだから、
4年後はせいぜい4GBなんじゃないの?Tesla系で16GBにはなっていそうだけど。


698 名前:デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:24:38.22 ]
そういやPCのDRAM搭載量に比べて、あんまり伸びないよね>ビデオカードのメモリ

699 名前:デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:26:52.65 ]
GDDRは数が出ないからね。
DRAMメーカーがあんな状態だから尚更でしょう。

700 名前:デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:33:02.38 ]
プロセスシュリンクが汎用DRAMと同じように進めば同じようにでかくなると思うんだけど。
だんだん引き離されてるってこと?

701 名前:デフォルトの名無しさん mailto:sage [2012/05/10(木) 01:35:01.75 ]
日本のメモリの会社が潰れたのはかなり痛いな・・・

702 名前:デフォルトの名無しさん mailto:sage [2012/05/10(木) 15:36:00.11 ]
ptxコード読まなきゃいけなくなったんだけど、typeの.predって何なのかいまいちわかってない

703 名前:デフォルトの名無しさん mailto:sage [2012/05/10(木) 16:46:59.88 ]
述部(predicate)だね。
ptxの場合は単に、比較などの結果を保持するだけのような希ガス。
で、そのレジスタの結果に依存してインストラクションの実行する、と。
例えば、
--
setp.gt.s32 %p1, %r5, %r7;
@%p1 bra $Lt_0_12802;
--
なら r5 > r7のときに分岐するし、
--
setp.lt.s32 %p2, %r9, %r11;
@%p2 sub.s32 %r14, %r11, %r14;
--
なら r9 < r11のときに引き算を行なう。

704 名前:デフォルトの名無しさん mailto:sage [2012/05/10(木) 21:33:54.24 ]
分岐マスクのためのレジスタは何本あるんだろ
それとも汎用レジスタと共用なのか

705 名前:702 mailto:sage [2012/05/11(金) 16:21:50.31 ]
>>703
thx
そういう意味だったのか……
CUDAはC言語の延長だから大丈夫とか考えた三月の俺を叩きのめしたい

PTXコードの読み方って英語のやつしかないよねたぶん



706 名前:デフォルトの名無しさん mailto:sage [2012/05/11(金) 17:11:50.74 ]
>>705
私が書いたメモならあるよw

>>704
実験コードで見たところ、汎用レジスタと述語レジスタの合計で制限されてたかと。
述語レジスタだけでどこまで増やせるかは実験してない。

707 名前:702 mailto:sage [2012/05/11(金) 17:26:43.70 ]
>>706
恵んでください。
割と切実に。卒業したいので。

708 名前:デフォルトの名無しさん mailto:sage [2012/05/11(金) 18:02:12.84 ]
ISA的にはwarpあたり7本か6本じゃね。
3bitのどれかが常にalways扱いだったような。

709 名前:デフォルトの名無しさん [2012/05/14(月) 15:19:34.27 ]
初心者質問です。
お願いします。
cufftってcuda3.2でも使えるのでしょうか?
cufftdestroyが未解決の外部シンボルだと言われてしまうのですが?
ただ単に、リンクできてないだけなのでしょうか?

710 名前:デフォルトの名無しさん mailto:sage [2012/05/14(月) 18:14:14.93 ]
>>709
使えたと思うよ。
つーか、cufftdestroy()が未解決って、あんたの間違いだろ。

711 名前:デフォルトの名無しさん [2012/05/15(火) 14:03:46.41 ]
>>710
返信ありがとうございます
他の関数はコンパイルが通る(通っているように見えるだけ?)のに
cufftdestroy()
cufftExecZ2Z()
cufftPlan1d()
だけが未解決となっているのですが、
この関数だけ、他のライブラリが必要だなんてことがあるのでしょうか?

712 名前:デフォルトの名無しさん mailto:sage [2012/05/15(火) 15:52:04.02 ]
destroyはDestroy。
z2zは未実装。
Plan1dはしらね。
警告レベル引き上げれば?


713 名前:デフォルトの名無しさん mailto:sage [2012/05/17(木) 11:36:49.94 ]
cufft.hはインクルードしているのかな?

714 名前:デフォルトの名無しさん mailto:sage [2012/05/17(木) 13:08:31.44 ]
■後藤弘茂のWeekly海外ニュース■
NVIDIAが世界最多トランジスタ数のチップ「GK110」を公開

pc.watch.impress.co.jp/docs/column/kaigai/20120517_533500.html

715 名前:デフォルトの名無しさん [2012/05/17(木) 15:21:47.32 ]
警告レベルって、デフォルトは最大なんですよね?
Destroyに関しては、タイプミスです。
z2zは未実装っていうのが、よくわからないんですけど。。。。



716 名前:デフォルトの名無しさん mailto:sage [2012/05/17(木) 17:10:10.69 ]
GPGPU上でソケット通信とかって出来るかな

717 名前:デフォルトの名無しさん mailto:sage [2012/05/17(木) 17:20:54.19 ]
GPGPUの仮想マシン同士のn対n通信をシミュレートとかそういうのをイメージした

718 名前:デフォルトの名無しさん mailto:sage [2012/05/17(木) 18:16:22.69 ]
>>715
未実装: 実装されていないこと。
cufftのライブラリの中にz2zの関数そのものが存在していないのよ。
で、あんたがどんな環境で開発しているか判らんのに警告レベルがどうなっているかなんか判るかい。
そんなことは自分で調べなさいよ。

>>716
cuda5でLAN接続されているGPU同士で連携させる機能がつくらしいよ。

719 名前:デフォルトの名無しさん mailto:sage [2012/05/17(木) 21:52:07.76 ]
多次元配列を扱えないのは何でなんだろう.

ブロックとスレッドインデックスで一次元化するの面倒なんだけど.

720 名前:デフォルトの名無しさん mailto:sage [2012/05/17(木) 23:46:21.89 ]
ピンメモリを確保すると、スワップによる退避を防げるのは分かったのですが、
実際はスワップ以外にも、メモリフラグメンテーション解消のためのコンパクションでも
メモリアドレスの変化って起こり得ますよね?
それもないようにするのがピンメモリですよね?

721 名前:デフォルトの名無しさん mailto:sage [2012/05/18(金) 01:25:35.91 ]
>>719
別に扱えなくはないぞ。普通にdata[blockIdx.x][thiredIdx.x]ってできると思う。
スレッド数を定数にしなくちゃならなくなるから却って煩わしいと思うけど。

つーか、面倒ったってオフセット計算する関数を作るだけじゃん。






[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<192KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef