[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 05/30 06:39 / Filesize : 210 KB / Number-of Response : 866
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【GPGPU】くだすれCUDAスレ part6【NVIDIA】



1 名前:デフォルトの名無しさん mailto:sage [2012/09/23(日) 23:17:47.58 ]
このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
toro.2ch.net/test/read.cgi/tech/1314104886/


604 名前:デフォルトの名無しさん mailto:sage [2013/12/07(土) 08:13:35.39 ]
何かのゲームでDirect3Dで通常のゲーム描画しつつ、
CUDAを演算に使ってたぞ。

605 名前:デフォルトの名無しさん mailto:sage [2013/12/07(土) 10:18:58.23 ]
CUDA使う3Dゲームなら一つのGPUでCUDAとDirectXのバッファ共有だろうな。

606 名前:デフォルトの名無しさん mailto:sage [2013/12/07(土) 12:32:22.59 ]
SDKにCUDAとDirectX同時に使うサンプルいっぱいあるよ

607 名前:599 mailto:sage [2013/12/07(土) 14:57:55.56 ]
皆様ありがとうございました。
早速買いに行ってきます!

608 名前:デフォルトの名無しさん mailto:sage [2013/12/12(木) 06:44:43.27 ]
開発中にOSごとクラッシュしたりディスプレイが落ちたりすることがあるから
面倒なんだけどGPU2付けるのも面倒なんだよな

609 名前:デフォルトの名無しさん mailto:sage [2013/12/12(木) 06:54:23.18 ]
>>608
クラウドを使え

610 名前:デフォルトの名無しさん mailto:sage [2013/12/12(木) 23:59:49.49 ]
教えて頂きたいのですが、エンコード等でCUDAを使う場合、
グラフィックカードに搭載されているCUDAコアプロセッサの
搭載数の多い少ないだけで、性能を判断してよいのでしょうか?

例えばGTX Titanのように、倍精度に制限がない場合、
CUDAでの処理性能に違いが出たりしますか?

611 名前:デフォルトの名無しさん mailto:sage [2013/12/13(金) 08:37:16.00 ]
いいえ
GeForceでは3Dグラフィックスに使われる浮動小数点演算が最も重視され
エンコード等に使われる整数演算は重視されません
GPUのアーキテクチャにより整数演算性能は大きく左右されるので単純にCUDAコアの多少で決まるわけではありません

612 名前:610 mailto:sage [2013/12/13(金) 22:43:14.72 ]
>>611
わかり易く教えて頂いて、ありがとう御座います。



613 名前:デフォルトの名無しさん [2013/12/29(日) 22:40:27.99 ]
バイトニックソートに関して質問があります。
カーネル関数にバイトニックソートを実装してみたのですが、複数ブロックを立てた時のソート結果が正しくなりません。
ちなみにソースコードは「CUDA高速GPUプログラミング入門」に掲載されているものを使用しています。
(こちらのHPにも同じものがあります→www.shuwasystem.co.jp/support/7980html/2578.html)
過去ログを読んでみたところ、>>591さんと似たような症状みたいです。
bitonicSort<<<2, 512>>>(...)みたいな感じで関数呼び出ししているのですが、
何かプログラムに手を加える必要があるのでしょうか?

614 名前:デフォルトの名無しさん mailto:sage [2014/01/04(土) 20:48:34.47 ]
>>>613
#define BLOCK_SIZE 256

以外にいじったとこある?

615 名前:613 [2014/01/05(日) 21:21:55.05 ]
>>614
レスありがとうございます!
底以外は特に何も手を加えていない状態なんですが、
実行したところ、512スレッド毎にバイトニックソートがかかっているみたいで、全体のソートが出来ていません。
<<<1, 512>>>のように1ブロックしか立てなかった場合はしっかりとソートがかかるのですが、
複数ブロックを立てるとやはり1ブロック中のスレッド毎にしかソートがかからないようです。
何かハードの制約でもあるのでしょうか?

616 名前:デフォルトの名無しさん mailto:sage [2014/01/05(日) 22:02:49.87 ]
それは恐らくハードの制約ではなくブロック内でソートすると言うサンプルの制限なのではないだろうか。
つーか、サンプルを理解できないなら使うなよ。

617 名前:613 [2014/01/05(日) 22:41:59.96 ]
>>616
レスありがとうございます。
自分なりにいろいろと勉強はしているのですが、サンプルが掲載されている書籍がもうひとつ説明が少なくて苦労してました。
ブロック内でソートするとかいう説明もなく、ひたすらデバッグやトレースを繰り返してはいるものの、
解決策が見つからなかったのでこちらで質問させていただきました。
CUDAのバイトニックソートのプログラムはほとんどが1ブロックしか立てていないものばかりなので、
参考になる情報も少ないので・・・

618 名前:デフォルトの名無しさん mailto:sage [2014/01/05(日) 22:48:01.57 ]
>>615
書き換えない状態では256スレッドのブロックが四つという設定の筈ですが、
サンプルコードがそのままでも動かないということですか?

619 名前:デフォルトの名無しさん mailto:sage [2014/01/05(日) 22:51:43.74 ]
>>615
というか、
#define SIZE 1024

に相当する部分をいじってないですか?
カーネルにも SIZEが使われてるので、
下手に数字をべた書きすると整合性が
取れなくなりそうな希ガスるですよ。

620 名前:613 [2014/01/05(日) 23:06:57.98 ]
>>618
迅速なレスありがとうございます。
今サンプルコードのままで実行して結果を調べてみたところ、
ちゃんとソートされたり、>>615のようになってソートされなかったりします。
ああ、余計に訳が分からなくなってきた・・・

621 名前:613 [2014/01/05(日) 23:09:22.98 ]
>>619
レスありがとうございます。
defineの部分はいじってないです。
SIZEはサンプル通りの1024のままですね。

622 名前:デフォルトの名無しさん mailto:sage [2014/01/06(月) 00:30:08.60 ]
その本読むよりも、他の資料、例えば CUDA by Example を読んだほうが、基礎が掴めると思うよ。



623 名前:613 [2014/01/06(月) 01:46:43.97 ]
>>622
レスありがとうございます。
そうですね、自分の勉強不足もあると思います。
もう少し勉強して頑張ってみます。

624 名前:デフォルトの名無しさん mailto:sage [2014/01/06(月) 01:57:37.95 ]
勉強不足もあると思うけど、理解してから次に進むっていう意識が欠如してるよな
blockDim.x*blockIdx.x + threadIdx.x
の意味すら理解せずにアルゴリズムがどうこう言ったって理解できるわけないだろ。

625 名前:デフォルトの名無しさん mailto:sage [2014/01/07(火) 09:26:42.38 ]
まあくだすれだし。
またーりしようよ。

>>620
まずサンプルコードをいじらずにそのまま使って
何度も実行して、問題が再現するかどうかちぇっくしませう。

626 名前:デフォルトの名無しさん mailto:sage [2014/01/15(水) 08:04:25.37 ]
on-demand.gputechconf.com/supercomputing/2013/video/SC3108-New-Features-CUDA%206%20-GPU-Acceleration.mp4

627 名前:デフォルトの名無しさん [2014/01/16(木) 13:45:32.09 ]
関数の呼び出しについて質問があります 回答をお願いします

c言語でつくられたプログラムの一部をCUDAに適用しそれを
本体(cppで作られたプログラム)とは別にCUDA用プログラムとして(拡張子cuとして別に作っておいて)
作り本体から呼び出そうとしたところ未解決の外部シンボルとしてエラーが吐かれてしまうのですが
どのように処置したらC言語のプログラムからCUDAのプログラムを呼び出すことができるのでしょうか?

628 名前:デフォルトの名無しさん mailto:sage [2014/01/16(木) 14:01:34.82 ]
CUDA SDKのサンプルはビルド&実行できた?

629 名前:デフォルトの名無しさん mailto:sage [2014/01/16(木) 14:45:40.63 ]
>>627
Cはc++またはg++とかでコンパイルしている?
ccで生成した中間生製オブジェクトとはリンクできなかったような

630 名前:627 [2014/01/16(木) 14:54:30.04 ]
>>628
回答ありがとうございます

サンプルとは「〜\NVIDIA Corporation\CUDA Samples\v5.0」の中にあるサンプルのことでしょうか?
もしそのサンプルなら全てではありませんが一部をやってみたところ問題なく動きました。

また外部シンボル等でいろいろ調べてみたところライブラリのリンクが等々と書いていたので
構成プロパティでいくつか追加してみても特にエラーは直りませんでした。

631 名前:627 [2014/01/16(木) 15:01:57.65 ]
>>629
回答ありがとうございます

コンパイルについては問題ないと思います。
ネットに書いてあったような設定をしてやったところ.cuのプログラム一つだけの場合
問題なくコンパイルされ期待通りの実行結果が出てくれたのでCのプログラム内で
CUDAのプログラムの関数を呼び出す際に問題が発生したのではないかと思います。

というかそのやり方がわかりません・・・

632 名前:628 mailto:sage [2014/01/16(木) 15:18:23.50 ]
.cuファイルを複数使ってるのかな?…と思ったらCUDA5からそれでもOKっぽいんだね

NVIDIA,「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う ニコニコニュース
news.nicovideo.jp/watch/nw401167



633 名前:628 mailto:sage [2014/01/16(木) 15:19:46.16 ]
cuファイルが1つだけならビルドできるサンプルにコピペすれば
どうにかなる(問題の切り分けを始められる)と思ったけど

634 名前:628 mailto:sage [2014/01/16(木) 15:21:38.59 ]
1つ抜けてた、サンプルというのは>>630の言うそれのことで合ってますです。

635 名前:627 [2014/01/16(木) 15:32:40.44 ]
>>632-634
回答ありがとうございます

cuファイルは一つだけなので該当サンプルと内容をすり替えれば良いということでしょうか?
よろしければそのサンプルはどのサンプルなのかお教えください。
よろしくお願いします

636 名前:628 mailto:sage [2014/01/16(木) 15:39:00.82 ]
そうです>内容をすり替えればいい

ごめん、今使ってるPCにCUDA SDKを入れてない(非Geforce機)ので何があるか
わからんけど初級の短めのやつにすればいいと思う。

あと(少なくともcuda sdk3か4の頃だと)プロジェクトに相対pathか絶対pathかが使われてて、
フォルダの場所を移動させるとそれに合わせて設定変更しない限りビルドか実行かが
うまくいかなかった覚えがあるので注意してくださーい

637 名前:デフォルトの名無しさん [2014/01/16(木) 15:45:39.71 ]
コペンバローナ「ンーwwwwwwwwwwwwwwwwwwwwwwww」

638 名前:628 mailto:sage [2014/01/16(木) 15:46:41.43 ]
ごめん、問題のポイントを誤解してたかも。
(CとC++とcuの入ったサンプルは見た覚えがない)

とりあえず俺の発言は忘れてください。ごめんなさい。

639 名前:デフォルトの名無しさん [2014/01/16(木) 15:47:58.43 ]
ペッコンバローナーwwwwwwwwwwwwwwwwwwwwwwwww

640 名前:デフォルトの名無しさん mailto:sage [2014/01/16(木) 17:03:38.03 ]
>>631
未解決の外部シンボルのエラーって、リンク(コンパイル)の時じゃなくて、実行時に出るの?

641 名前:デフォルトの名無しさん [2014/01/16(木) 18:25:52.58 ]
>>628
ペッコンペッコンペッコンバローナーwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww

642 名前:デフォルトの名無しさん [2014/01/16(木) 18:29:18.81 ]
ロ・・・ロバwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww



643 名前:デフォルトの名無しさん [2014/01/16(木) 18:32:40.24 ]
コペンハーゲ「ンーwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww」

644 名前:デフォルトの名無しさん [2014/01/16(木) 18:33:44.44 ]
コペンバロー「ナwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww」

645 名前:デフォルトの名無しさん [2014/01/16(木) 18:34:43.10 ]
バコナロ「バコーンwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwwww」

646 名前:デフォルトの名無しさん [2014/01/16(木) 18:58:08.66 ]
、  ′     、 ’、  ′     ’   ;.
 `',. ’      ’、   ′ ’   . ・
 、′・. ’   ;   ’、 ’、′‘ .・”
          ’、′・  ’、.・”;  ”  ’
      ’、  (;;ノ;; (′‘ ・. ’、′”;
     ’、′・  ( (´;^`⌒)∴⌒`.・   ” ; ′・            , '´`ヽ.-──-,'´`ヽ.
    、 ’、 ’・ 、´⌒,;y'⌒((´;;;;;ノ、"'人                 /    ゙i::::::::::::::゙i   ゙:
     _、(⌒ ;;;:;´'从 ;'   ;:;;) ;⌒ ;; :) )、            ミ   /     ;゙:;::::::;:::::::!   !
     ( ´;`ヾ,;⌒)´  从⌒ ;) `⌒ )⌒:`.・            ,.;゙  r'^ー、;゙:;ィ:::ハ::λi,r'ヽ, i
 ‘: ;゜+° ′、:::::. :::( ::;; ノ ´⌒(,ゞ、⌒) ;;:::)::ノ          i::i   |   i゙ノiノレ レ' ゙!!i  | !
 ....................`:::、 ノ  ...;:;_)  ...::ノ  ソ ...::ノ         ミ   ハ::゙、  i   ! >   <!|  !;
     :::::::::`- ´::::::::::::::::::::::::::::::::::::::::::::::::::              ノ:::λ゙ー|   |〃  __ 〃i  l'
                                     〈ノ::イ::ノ::::!  !   '、 ノ ノ'. ;
                                     〈/!::;イ::/,r'´`゙゙i>‐_-_t.´r゙´ヾ
                                  ミ   V^レ´i   ,.〉`'゙'i/゙`i,_,..ノ
┏━━━━━━━━━━━━━━━━━━━┓          `ーi゙´  />   i
┃ 「キャー♪」              .   . ....... ┃            |   ´   |
┃  てゐちゃんは きょうも たのしそうだ!! ┃ミ    ,.へ.    ,ノ    , ,.  !
┗━━━━━━━━━━━━━━━━━━━┛     /___゙ニ=-‐´ ,   /  〉  ゝ.
                                 /´ ̄    _ ノ /  /  ノ 〉

647 名前:デフォルトの名無しさん mailto:sage [2014/01/18(土) 13:44:16.61 ]
denver(maxwellも含む)がかなり面白そうだ

Instruction-optimizing processor with branch-count table in hardware
https://www.google.com/patents/US20130311752

の特許関係者の前歴
Ben Hertzberg - intel
Madhu Swarna - intel
Ross Segelken - intel
Rupert Brauch - ?Hewlett-Packard
David Dunn - transmeta

648 名前:デフォルトの名無しさん mailto:sage [2014/01/18(土) 21:26:58.60 ]
お、Transmetaの人が関わってるのか。

649 名前:デフォルトの名無しさん mailto:sage [2014/01/19(日) 14:04:30.61 ]
プログラム実行中のGPUの温度をモニターしたいのでNVMLを試してみようと思っています。
ここで、nvmlDevice_tとCUdeviceの対応はどのようにとればいいんでしょう?
CUDAのデバイスindexとNVMLのindexは必ずしも一致しないという記述はあったのですが、
じゃあどうすればいいのか、というところを見つけられませんでした。

650 名前:デフォルトの名無しさん [2014/01/19(日) 19:36:52.66 ]
GPU2枚差して、CPU介さずにデータ共有ってできる?

651 名前:デフォルトの名無しさん mailto:sage [2014/01/19(日) 20:22:54.84 ]
Teslaならできるらしい。持ってないんで試したことないが。
https://developer.nvidia.com/gpudirect

652 名前:デフォルトの名無しさん [2014/01/19(日) 21:48:00.18 ]
試してみたら、GeForceでもできました。
ありがとうございます



653 名前:デフォルトの名無しさん mailto:sage [2014/01/19(日) 23:40:42.70 ]
>>652
詳細お願いします。

654 名前:デフォルトの名無しさん mailto:sage [2014/01/20(月) 00:48:56.84 ]
>>649
普通にインデックスでいいよ
汎用に作るならデバイス数を取得して、それぞれのnvmlDeviceをインデックスで取得して、いろんな情報とればいい

655 名前:デフォルトの名無しさん mailto:sage [2014/01/26(日) 23:20:39.25 ]
GeForce,Quadroはメインメモリ→ボードのDMACしか持ってないよね?

656 名前:デフォルトの名無しさん mailto:sage [2014/01/26(日) 23:25:59.06 ]
なんでそう思ったのかが気になる。

657 名前:デフォルトの名無しさん mailto:sage [2014/01/30(木) 23:59:53.57 ]
NNみたいなモロにメモリ律速な計算だとろくに速度出ないな
帯域80GB/s使って160GTlopsとかになる

658 名前:デフォルトの名無しさん mailto:sage [2014/01/31(金) 04:06:11.75 ]
結局どういう問題なら高速化できるんだ

659 名前:デフォルトの名無しさん mailto:sage [2014/01/31(金) 22:45:44.77 ]
メモリへのアクセスが少ない、扱うデータサイズが小さい、分岐がない
最低数万スレッド以上で並列計算可能な問題であること

660 名前:デフォルトの名無しさん mailto:sage [2014/01/31(金) 23:40:00.25 ]
メモリ量と計算量が比例する問題しか普段扱ってないんだよなあ
暗号解読とか?

661 名前:デフォルトの名無しさん mailto:sage [2014/02/01(土) 08:00:55.65 ]
Geforce GT520(VRAM: DDR3 1GB)でもCore2Duo E4300に比べたらFFTを高速化できるかな?

662 名前:デフォルトの名無しさん mailto:sage [2014/02/01(土) 10:22:49.10 ]
マンデルブロが超得意

データ量Nに対して計算量がN^1より大きいオーダーで
増えていくような処理

巨大な元データが必要でも、それ自体は変えずに
少量のパラメータを与えて再計算を繰り返すような処理
しかも結果をグラフィックス表示すればOKな用途



663 名前:デフォルトの名無しさん mailto:sage [2014/02/01(土) 10:55:21.73 ]
>>662
>しかも結果をグラフィックス表示すればOKな用途
GPU⇒CPUが入ると途端にスループット落ちることになるもんね・・・。

664 名前:デフォルトの名無しさん mailto:sage [2014/02/01(土) 11:40:24.53 ]
人工ニューラルネットワークなんかは、
データ量N、i段目のニューロン数n_iとすると、
計算量=NΠ_i n_i だから実はあんまり適してねえのか

665 名前:デフォルトの名無しさん mailto:sage [2014/02/01(土) 13:38:05.35 ]
GPUもCPUも足回りが全然ついていかないんだよな
NvidiaもAMDもFlops値ばかり競ってるけどメモリ帯域はこの数年で1割程度しか増えていない
完全に頭打ちの傾向

666 名前:デフォルトの名無しさん mailto:sage [2014/02/01(土) 14:03:29.95 ]
そして効率的な演算とデータアクセスの比率は高まるばかり・・・

667 名前:デフォルトの名無しさん mailto:sage [2014/02/02(日) 14:27:36.24 ]
石の性能が良くなっても仕方ないよな。

プロセッサの性能が無駄になってる。

668 名前:デフォルトの名無しさん mailto:sage [2014/02/02(日) 14:40:31.96 ]
まぁ、VoltaでスタックドDRAM使うみたいだから、いくらか改善されるかもね。

669 名前:デフォルトの名無しさん mailto:sage [2014/02/02(日) 14:43:19.21 ]
      ☆ チン     マチクタビレタ〜
                        マチクタビレタ〜
       ☆ チン  〃  ∧_∧   / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
        ヽ ___\(\・∀・) < データまだ〜?
            \_/⊂ ⊂_ )   \_____________
          / ̄ ̄ ̄ ̄ ̄ ̄ /|
       | ̄ ̄ ̄ ̄ ̄ ̄ ̄|  |
       |  CPU・GPU   |/

670 名前:デフォルトの名無しさん mailto:sage [2014/02/02(日) 14:56:23.47 ]
GPUはバス幅を狭くすることでコストダウンを図ってるんだから仕方ないな。

それこそ、バス幅求めるならベクトル計算機でも使えと。全レジスタに対して本当の同時操作が出来るぞ。

671 名前:デフォルトの名無しさん mailto:sage [2014/02/02(日) 15:07:43.13 ]
>>669
現状を表す最適なAA乙w

672 名前:デフォルトの名無しさん mailto:sage [2014/02/02(日) 15:12:44.27 ]
このアンバランスな状態を解消できるのはプロセスルールが物理的限界に到達した後だろうな。



673 名前:デフォルトの名無しさん mailto:sage [2014/02/02(日) 15:20:27.01 ]
しかしその頃には光コンピュータが実用化されていたのだった……

速さが足りない!!

674 名前:デフォルトの名無しさん mailto:sage [2014/02/02(日) 15:40:48.83 ]
俺が遅い・・・ 俺がスロウリィ?!

675 名前:デフォルトの名無しさん [2014/02/03(月) 04:25:07.11 ]
HOLY隊員のクーダーです

676 名前:デフォルトの名無しさん mailto:sage [2014/02/03(月) 15:22:21.17 ]
FFTぐらいしか応用が思いつかねぇ。

677 名前:デフォルトの名無しさん mailto:sage [2014/02/03(月) 18:10:49.48 ]
>>676
FFTに向いているなら自動的に円周率計算もバリバリなはずだが、ググっても
「円周率の小数点以下8000兆桁めをGeForceで求める方法」
(www.4gamer.net/games/120/G012093/20130323002/)
といった話ぐらいしか出てこねぇ……

678 名前:デフォルトの名無しさん mailto:sage [2014/02/03(月) 18:28:29.72 ]
音声処理におけるFIRフィルタを想定してるぜ・・・。

679 名前:デフォルトの名無しさん mailto:sage [2014/02/03(月) 21:38:24.39 ]
世間が持てはやすのがFLOPS値ばかりだから一向に帯域増える方向にいかんな

680 名前:デフォルトの名無しさん mailto:sage [2014/02/03(月) 22:19:44.58 ]
帯域はコストが高く付くからな。

バランス取ろうと思ったら、途端に価格が跳ね上がる。
一般人じゃ手の届かない価格になるよ。

681 名前:デフォルトの名無しさん mailto:sage [2014/02/03(月) 22:47:08.60 ]
>>680
別にHPC用なら値段高くても買う奴いるじゃんか……

682 名前:デフォルトの名無しさん mailto:sage [2014/02/04(火) 07:24:40.49 ]
普及してて値段が安いからGPGPUがもてはやされてるわけでさ。

値段が高くなればベクトル計算機のプロセッサをPC向けに販売して使ったほうが良いって。



683 名前:デフォルトの名無しさん mailto:sage [2014/02/04(火) 21:02:06.21 ]
>>669
わらった。
GPGPUの一般用途での最大の問題点はCPU<=>GPU間データ転送。一般用途ではそれを解消したAMDのAPUでHSAする方が良いからな
いくらGPUがすごくても、メモリ転送に時間掛かってはお手軽に使えないからな

684 名前:デフォルトの名無しさん mailto:sage [2014/02/04(火) 21:43:04.69 ]
kaveri出たらHSA酷使した絶賛ベンチが次々と出てnvidia叩きレスで溢れかえると思ったら思いのほか静かで不思議

685 名前:デフォルトの名無しさん mailto:sage [2014/02/04(火) 23:20:40.89 ]
>>683
データ転送せず極力内部で計算するようにしても結局GPU側の帯域で足引っ張られる
780Tiで単精度5.76Tflopsに対して330GB/sだから足回りが70倍も遅い

686 名前:デフォルトの名無しさん mailto:sage [2014/02/04(火) 23:27:45.03 ]
>>684
言い出しっぺの法則
>>685
だが待ってほしい
70倍遅いなら70倍転送せずに計算すればトントンではないだろうか

687 名前:デフォルトの名無しさん mailto:sage [2014/02/05(水) 00:00:22.86 ]
HSA使ってみたいんだけど、具体的にどうすればいいの?
VisualStudioで始められる??

688 名前:デフォルトの名無しさん mailto:sage [2014/02/05(水) 02:10:41.38 ]
CPUGPU間の転送が足を引っ張ってるってイメージはないな
シェアードメモリやキャッシュ以外のVRAM・GPU間がただただ遅いのだ

689 名前:デフォルトの名無しさん mailto:sage [2014/02/05(水) 11:28:09.07 ]
レイテンシ?

690 名前:デフォルトの名無しさん mailto:sage [2014/02/05(水) 17:37:53.61 ]
基本的にI/Oが遅いんだよ。
これが何とかなったらいいけど、何とかするとコストがかさむから一般向けでは無理。

691 名前:デフォルトの名無しさん mailto:sage [2014/02/05(水) 21:02:36.68 ]
一般向=>一般向CUDA用途==スパコン

692 名前:デフォルトの名無しさん mailto:sage [2014/02/05(水) 21:49:04.57 ]
なぜそうなる。数十万でも買うのかよ。



693 名前:デフォルトの名無しさん mailto:sage [2014/02/06(木) 10:48:02.20 ]
重ーい超越関数をバリバリ使う計算ならメモリ転送はさほど器にしなくて良いのでは。

694 名前:デフォルトの名無しさん mailto:sage [2014/02/06(木) 11:35:48.47 ]
三角関数がそこそこ速いから最初に三角関数テーブルを作っておいて纏めて計算するんだけど、
キャッシュに乗らないとべらぼうに遅くなるw。

695 名前:デフォルトの名無しさん mailto:sage [2014/02/06(木) 23:35:46.17 ]
今や、テーブルにしてメモリから読み出すよりも、
手前で計算で作ったほうが速いからなw

696 名前:デフォルトの名無しさん mailto:sage [2014/02/06(木) 23:44:44.46 ]
昔「計算が遅いからメモリでなんとかしよう」
今「メモリが遅いから計算でなんとかしよう」
将来「???」

697 名前:デフォルトの名無しさん mailto:sage [2014/02/07(金) 00:13:26.20 ]
PS3もちょうどその技術トレンドを読んで企画されたけど、ちょっと早漏すぎたな。

698 名前:デフォルトの名無しさん mailto:sage [2014/02/07(金) 01:03:30.43 ]
>>689
VRAMのレイテンシは数百クロックもある上にピーク速度でも計算速度より何百倍も遅い

699 名前:デフォルトの名無しさん mailto:sage [2014/02/07(金) 01:19:34.56 ]
>>697
早漏てw
そこは先駆者として評価してやっていいんじゃないの。十分出回ったしハード的にもソフト的にも注目されて、長めのゲーム機サイクルの中で研究されたんだからアーキテクチャとしては幸せな方でしょ

ソニーさんのビジネス的にどうだったのかは知らんけど

700 名前:デフォルトの名無しさん mailto:sage [2014/02/07(金) 02:55:08.39 ]
>>698
え、マジで?
>>699
さすがに逆ザヤはNG

701 名前:デフォルトの名無しさん mailto:sage [2014/02/07(金) 08:04:52.20 ]
サブプロセッサの性能は兎も角、メイン側が遅過ぎ。
メインとサブの間のメモリ空間も狭いし。
あれでよくゲームに活かせたと思うよ。

702 名前:デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:50:49.70 ]
>>694
三角関数テーブルって精度的にはどうなん?
多項式補間とかするの?



703 名前:デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:54:19.34 ]
用途によるだろう

704 名前:デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:57:35.92 ]
多項式補間といっても奥が深くてだな……
単なるテイラー展開(途中打ち切り)とよく練られた多項式との差はダンチ

例:
cosx≒1-0.5x^2+0.04166666667x^4-0.00138888889x^6とすると
誤差はx=±1までで2.4528×10^-5(テイラー展開)。しかし、
cosx≒0.99999981155-0.49999395279x^2
+0.04166666667x^4-0.00138888889x^6とすると
誤差はx=±1までで2.4528×10^-5(テイラー展開)。しかし、






[ 続きを読む ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<210KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef