【GPGPU】くだすれCUDAスレ part5【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 2chのread.cgiへ]
Update time : 05/18 03:52 / Filesize : 192 KB / Number-of Response : 722
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん [2011/08/23(火) 22:08:06.09 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
511 名前：デフォルトの名無しさん [2012/02/19(日) 01:11:11.40 ]: 教えて欲しいことがあります．

CPU側で複数スレッドを立てて，互いに独立した処理を行っています．
そして，それぞれスレッドにおいて，CUDAを使って画像処理をさせたいのですが，（たとえば，グレースケール化とか）
この時，CUDAでの処理にテクスチャメモリを使いたい場合は，どのようなコードを書けばいいのでしょうか？
テクスチャメモリを使う場合，グローバルで宣言しなけらばならないですよね？

たとえば，5枚のRGB画像をグレースケール化するときに，
CPU側で5スレッド立てて，各スレッドでCUDAを使ってグレースケールへの変換処理をしたいのですが，
テクスチャメモリをグローバルで宣言するとおかしなことになるきがするんですが．

どなたか教えて頂けないでしょうか？
宜しくお願い致します．
512 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:21:41.45 ]: CUDA対応のGPUを5枚挿す。
またはGTX590などを3枚挿す。
513 名前：デフォルトの名無しさん [2012/02/19(日) 01:26:39.83 ]: >>512
回答ありがとうございます．
テクスチャメモリを使った処理の場合，マルチGPUじゃないと出来ない
とういことでしょうか？
514 名前：デフォルトの名無しさん [2012/02/19(日) 01:44:29.68 ]: 公式マニュアル見れば分かること
試してみれば分かること

これを聞く人が多すぎる
515 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 01:53:02.78 ]: 4-way SLI でも、ホスト上の4スレッドで利用する場合、
各々1GPUを独立して割り当てるため、4GPU間で通信して仕事をこなす本来的なSLIにはならない、って認識でイイんですよね？
（SLIコネクタがなくても動く？）
516 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 02:32:56.76 ]: >>511
テクスチャを5個宣言じゃダメなの？
517 名前：デフォルトの名無しさん [2012/02/19(日) 02:47:03.16 ]: >>516
回答ありがとうございます．
CPU側でスレッドを立てる段階で決めたいので，
できることなら，可変にしたいと考えています．

514さんは「これを聞く人が多すぎる」と仰っていますが，
そもそも，このようなことをシングルGPUでやろうとするのが間違いなのでしょうか？
518 名前：デフォルトの名無しさん [2012/02/19(日) 02:59:57.92 ]: いやいや、まず試せば分かることじゃん。
その労力を2chに押しつけるのは、今この瞬間は楽では良いかもしれないけど、
自分の成長には繋がらないよ。
519 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 05:31:26.29 ]: >>513
OS側のスレッド何本あろうとGPUが1つしかないんだから
順番に処理されるだけだろってことでしょ
520 名前：デフォルトの名無しさん [2012/02/19(日) 05:43:18.09 ]: concurrent kernel execution…
521 名前：509 mailto:sage [2012/02/19(日) 07:12:00.07 ]: >>508
失礼しました
インライン関数化で無事できました
ありがとうございました
522 名前：デフォルトの名無しさん [2012/02/19(日) 11:42:52.58 ]: >>518
心遣い感謝します．

>>519
>>520
回答ありがとうございます．
やっぱり，そうなんですね．
「concurrent kernel execution」ついて調べて確信しました．

回答・アドバイスして下さった皆様，ありがとうございました．
おかげで解決しました．
523 名前：デフォルトの名無しさん [2012/02/19(日) 11:49:26.29 ]: 次に同じ疑問を持たれた方のために，
参考資料のアドレスを貼っておきます．
ttp://www.nvidia.co.jp/docs/IO/81860/NVIDIA_Fermi_Architecture_Whitepaper_FINAL_J.pdf
上記アドレスにあるpdfの「コンカレントカーネル実行」に書かれていることが，参考になるかと思います．
524 名前：デフォルトの名無しさん mailto:sage [2012/02/19(日) 16:33:50.20 ]: 誰が質問者なのかわからないので謎な流れだが、とりあえずグレースケール化にテクスチャは不要だと思う今日この頃。
525 名前：デフォルトの名無しさん [2012/02/19(日) 17:00:58.89 ]: NPPで一発解決だよな
526 名前：デフォルトの名無しさん mailto:sage [2012/02/20(月) 22:07:59.44 ]: atomicCASのCASってどういう意味ですか？？
527 名前：デフォルトの名無しさん mailto:sage [2012/02/20(月) 22:24:51.56 ]: Compare And Swap
528 名前：526 mailto:sage [2012/02/20(月) 22:28:38.87 ]: >>527
ありがとうございました！
529 名前：デフォルトの名無しさん mailto:sage [2012/03/07(水) 03:16:50.68 ]: ｃｕｄａの本には2次元配列より1次元の方が速いってあったけど実際どのくらい違うんですか？
また、コピーとgpu上での演算の両方で遅くなるんですか？
530 名前：デフォルトの名無しさん [2012/03/07(水) 03:39:04.89 ]: なんでこのスレ突然止まってたの？
卒論修論シーズンが終わったから？
531 名前：デフォルトの名無しさん mailto:sage [2012/03/07(水) 06:34:38.99 ]: >>529
一行目: 速い
二行目: 遅くなる

馬鹿?
532 名前：デフォルトの名無しさん mailto:sage [2012/03/07(水) 16:56:25.77 ]: 学会はこれからだというのに
533 名前：デフォルトの名無しさん mailto:sage [2012/03/07(水) 17:15:29.75 ]: > ｃｕｄａの本には2次元配列より1次元の方が速いってあったけど実際どのくらい違うんですか？

メモリーのアクセス時間の早さのこと？

ちなみに２次元であっても，例えば f[i, j] で，先にｊを変化させるか，i　を変化させるのかで
アクセス時間が違ったと思う．

要はメモリーが並んでいる順番にアクセスするのが早いはず．どの位，早くなるかは知りませぬ♪

> また、コピーとgpu上での演算の両方で遅くなるんですか？

コピーとは？ CPUとGPU間のメモリーの転送のことかな？？
534 名前：デフォルトの名無しさん mailto:sage [2012/03/08(木) 10:13:29.60 ]: 人いなくなったな
春になってGPUネタで研究する学生が増えるのを待つしかないか
535 名前：デフォルトの名無しさん mailto:sage [2012/03/08(木) 11:44:54.65 ]: 二次元配列なんて存在しねぇ
って考えると楽なのに
536 名前：デフォルトの名無しさん mailto:sage [2012/03/08(木) 19:50:20.17 ]: 昔のオカルト本では「謎の四次元」「四次元失踪」とかあって、
「四次元」とか謎めいた雰囲気を感じた。

今なら四次元配列とか当たり前だｗ
537 名前：デフォルトの名無しさん mailto:sage [2012/03/09(金) 01:08:22.32 ]: >>536
そうそうｗ
四次元の神秘性が薄らいじゃうｗ
538 名前： ◆QZaw55cn4c mailto:sage [2012/03/09(金) 22:10:56.52 ]: ハミルトンの四元数というのがあって近年計算機工学に応用されるようになって云々かんぬん
539 名前：デフォルトの名無しさん mailto:sage [2012/03/09(金) 22:22:34.47 ]: 発見自体は1800年代だったっけ？
たしか橋の上かなんかで思いついたとかｗ
540 名前：デフォルトの名無しさん mailto:sage [2012/03/11(日) 11:39:47.33 ]: HLSLとどう違うの？
541 名前：デフォルトの名無しさん mailto:sage [2012/03/11(日) 11:49:19.59 ]: >>540
C言語っぽくなってる。
542 名前：デフォルトの名無しさん mailto:sage [2012/03/11(日) 14:43:17.16 ]: 四次元配列と四次元ベクトルは別物だろ
後者は要素数4の一次元配列
543 名前：デフォルトの名無しさん [2012/03/11(日) 17:04:08.60 ]: >>540
HLSLはShader Languageなんで整数とか扱えなかったと思う。
あとステップ数も制限があったような。
544 名前：デフォルトの名無しさん mailto:sage [2012/03/11(日) 17:26:35.76 ]: Compute Shaderを記述する言語も
HLSLじゃ無かったっけ？

リソースベースのHLSLと、ポインタ・配列ベースのCUDA
545 名前：デフォルトの名無しさん mailto:sage [2012/03/11(日) 17:38:23.47 ]: リソースベースって言い方、分かり易いね。
HLSLはまさにそんな感じだ。
546 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 13:07:18.89 ]: >>541 >>543
サンクス
自由度がまして打ちやすくなってるんだな
547 名前：デフォルトの名無しさん mailto:sage [2012/03/12(月) 13:35:35.95 ]: >>544 >>545
サンクス
548 名前：デフォルトの名無しさん mailto:sage [2012/03/15(木) 21:09:26.09 ]: 誰かいますかね、三つほど質問が。

■__syncthreads()だけでは共有メモリへの書き込みを保証できない？
　１つのスレッドがグローバルメモリから共有メモリにデータを書き込み、
その後全てのスレッドがそのデータを使用して計算を行うような場合、
書き込み後に__syncthreads()だけではなく__threadfence_block()も必要なのでしょうか?
青木本には__threadfence_block()について特に言及ありませんでしたが・・・。

■ブロック内の全スレッドからの同一グローバルメモリへのアクセス
　ブロック内で共通で使用する構造体などをグローバル→共有メモリに移す場合
全スレッドで行うよりもやはり
　　 if(threadIdx.x==0)・・・
のようにした方が良いでしょうか?

■カーネル内でのreturn文の使用悪影響あるか
　スレッドごとに計算を行うか判定をする場合、if文で囲っている例をよく見ますが
これは
if(条件)return;
と書いてはいけないのでしょうか？
上のように書いてもとりあえず計算は流れたのですが何か悪影響はあるでしょうか？
549 名前：デフォルトの名無しさん mailto:sage [2012/03/15(木) 21:25:56.04 ]: >>548
・取り敢えずsyncしか使ってないけど問題になったことはない。
・全スレッドから共有メモリへの書き込みを行なうのは多分遅くなるんじゃないかな?
・どちらで書いても同じこと。普通のCPUのような分岐とは違うことを判っていればOK。
550 名前：548 mailto:sage [2012/03/15(木) 22:39:42.94 ]: >>549
ありがとうございます!!
一個目の_syncthreads()と__threadfence_block()の件ですが、
syncだけだと今日うまくいかなかったもので。
ただ他のバグの影響なども考えられるのでもうちょっと調べてみます。
551 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 04:06:36.41 ]: >>548
・__syncthreads()は__threadfence_block()相当の処理を
含んでいた気がするけど気のせいかも。

・全スレッドで同じメモリにアクセスするのはたとえfermiでも遅くなるはず。

・カーネル内部で_syncthreads()使う必要があるなら
　returnは使っちゃ駄目だろう。
552 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:10:45.37 ]: いまだにアプリ開発環境すらまともに構築できてない・・・
visual studio 2008でやろうと思って一応ビルドは通ったけど
実行するとまずcutil32.dllがありませんって出た。
次にcutil.dllをデバッグ.exeと同じフォルダに置き実行！！

CUDA version is insufficient for CUDART version.
ってなる・・・orz

まずなにからはじめるべきですか？
553 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:17:42.17 ]: ちなみに.cuの中身は拾ってきたちょっと複雑なコード

#include <stdio.h>
#include <cutil.h>

int main( int argc, char** argv )
{
CUT_DEVICE_INIT(argc, argv);
CUT_EXIT(argc, argv);
return 0;
}

・・・・・orz
#include <stdio.h>
#include <cutil.h>

int main( int argc, char** argv )
{
return 0;
}

これに書き換えると
プログラムが完成し、エラーもなく実行もできる
554 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:51:20.83 ]: GPUドライバのアップデート
555 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 01:39:06.58 ]: >>554
ありがとうございました！！！！！！！！！！
動いた！！！！！！！！
556 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 08:54:13.85 ]: おおｗ
よかったな！
557 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 12:49:24.04 ]: >LINK : /LTCG が指定されましたが、コードの生成は必要ありません。リンクコマンドラインから /LTCG を削除し、リンカの性能を改善してください。
と表示されるのですがリンクコマンドラインは固定されて編集できません。
解決方法はありますか？
558 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 13:37:04.85 ]: >>577
補足：
開発環境はVisualStudio2008
cuda ver 2.3
559 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 14:59:10.69 ]: windowsを窓から投げ捨てろ
560 名前：509 mailto:sage [2012/03/17(土) 15:16:23.02 ]: そんなことして道歩いてる人の頭に当たっちゃったら大変ですよ
561 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 15:44:28.84 ]: 角に当たったら痛そうだもんね・・・
562 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 18:01:09.23 ]: >>557
リンカ -> 最適化 -> リンク時のコード生成 (/LTGG)
C/C++ -> 最適化 -> プログラム全体の最適化 (/GL)
Visual Studio 2008 の使い方なのでスレが違うかも。
563 名前：デフォルトの名無しさん mailto:sage [2012/03/18(日) 15:04:39.12 ]: >>562
ありがとうございます。

CUDA-Zの実行結果はどのように見たらいいですか？
日本のサイトが全然ないです。
564 名前：デフォルトの名無しさん mailto:sage [2012/03/18(日) 15:07:18.71 ]: >>563です
すみません。解決しました。
565 名前：デフォルトの名無しさん mailto:sage [2012/03/21(水) 21:06:39.97 ]: コンスタントメモリキャッシュへのアクセスはバンクコンフリクトとかないんでしょうか？？
566 名前：デフォルトの名無しさん mailto:sage [2012/03/21(水) 22:20:52.26 ]: >>565
そりゃキャッシュはバンクになってないからねー
567 名前：565 mailto:sage [2012/03/21(水) 22:44:39.32 ]: >>566
おお、やっぱり。
できるだけコンスタントメモリ使うようにしまつ。
568 名前：デフォルトの名無しさん mailto:sage [2012/03/21(水) 23:02:34.40 ]: アドレスが静的に解決できないというのが前提だけど
16ポートのSRAMなんてコスト的に不可能だからマルチバンク以外無いんじゃないの？
569 名前：デフォルトの名無しさん [2012/03/22(木) 00:27:08.40 ]: Fermi以前はコンスタントメモリ使う意味あったけど、
Fermi以降はL2キャッシュとあんまり変わらない印象
570 名前：デフォルトの名無しさん [2012/03/22(木) 22:48:01.36 ]: GTX680が発表されたけど、CUDA的には好ましくない方向の進化が多い。。
571 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:03:25.80 ]: チップ名　　　　　GTX 680　　　GTX 580
GPC*1　　　　　　4　　　　　　　　4
SM*2　　　　　　　8　　　　　　　　16
CUDAコア　　　1536　　　　　　　512
テクスチャーユニット　128　　　　64
ROPユニット　　　32　　　　　48
ベースクロック*3　　1.006GHz　　　772M/1.544GHz
ブーストクロック　　　1.058GHz　　－
メモリー転送レート　6.008Gbps　4.008Gbps
メモリー容量　　　GDDR5 2048MB　　GDDR5 1536MB
メモリーバス幅　　　256ビット　　384ビット
メモリー転送速度　192.26GB／秒　192.4GB／秒
製造プロセス　　　　28nm　　　40nm
補助電源端子　　　　6ピン×2　　8ピン＋6ピン
推奨電源ユニット出力　550W　600W
TDP*4　　　　　195W　　244W
572 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:06:16.47 ]: GK104はミドルレンジだからGK110は全体的に上回ってくるでしょ
573 名前：デフォルトの名無しさん [2012/03/22(木) 23:16:01.94 ]: 　　kepler誕生おめ！
　　　　　　　　　　.o゜*。o
　　　　　　　　　／⌒ヽ*゜*
　　　∧_∧　／ヽ　　）｡*o　　ｯﾊﾟ
　　 (・ω・)丿゛￣￣' ゜
.　ノ/　 /
　　ノ￣ゝ
574 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:21:31.67 ]: Keplerｷﾀ━━━━━━(ﾟ∀ﾟ)━━━━━━ !!!!!
575 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:22:01.12 ]: gen3じゃないんだっけ？
576 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:42:00.14 ]: >>570
もともとはミドルレンジでグラフィック向けだったから仕方ない気もする。
予想以上にグラフィック方面に舵を切ったという感はあるけど。

このままグラフィック向けとGPGPU向けで大きく分かれていくのではないかという心配はあるかな。
577 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:53:32.45 ]: 1SM = 192コアか。おっそろしいなあ。
578 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:00:34.24 ]: nVidia始まったな。
579 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:17:06.29 ]: >>577
warp の扱いどうなるんかな。。。
580 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:54:42.91 ]: >>579
ttp://pc.watch.impress.co.jp/docs/column/kaigai/20120322_520640.html
> 32スレッドのWARPに同じ命令を実行する、この基本は、Keplerでも変わっていない。
らしいから、変わらないんじゃないかな。

GF104/114のSMには48コアと2ワープスケジューラ、4ワープディスパッチャで
GK104のSMXには192コアと4ワープスケジューラ、8ワープディスパッチャになっている。

その上レジスタ数は倍、L1キャッシュ/シェアードメモリはそのままってことは
GF104/114よりさらにピーキーになっているのかな？
581 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 01:01:32.84 ]: >>580
あれ？
コンスタントキャッシュって無くなった？
L1/L2キャッシュがその役割を担ってる？
ということはFermiからか･･･
582 名前：デフォルトの名無しさん [2012/03/23(金) 01:06:15.11 ]: 48コアが192コアになったのに
レジスタは2倍、
共有メモリは据え置き。

どーすんだこれ。。
583 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 01:54:37.82 ]: レジスタ足りんくなりそうな。
584 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 04:09:37.63 ]: Keplerはクロック落としてパイプラインを浅くする設計

演算器のレイテンシが小さくなるならレジスタの消費量は変わらない
Fermiの18cycleは頭おかしすぎた
これが例えば6cycleにになればレイテンシ隠蔽に必要なスレッド数が1/3になるから問題ない
585 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 04:14:42.78 ]: x86 CPUと同じ道を辿ってるのか
586 名前：デフォルトの名無しさん [2012/03/23(金) 15:07:43.87 ]: 誰か２６次元計算してくれ、1000ｺｱくらいじゃマジに足らんぞｗ
587 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 15:59:10.59 ]: float a[1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1] = NULL;
*a += 1;
588 名前：デフォルトの名無しさん [2012/03/23(金) 17:47:27.55 ]: こんにちは
国際暗号学会のプレプリントサーバにこんな論文があがってました

Usable assembly language for GPUs: a success story
Daniel J. Bernstein, et. al.
eprint.iacr.org/2012/137

GPUのことはさっぱりわかりませんが、なにかこのスレの足しにでもなれば幸いです
それでは
589 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 20:49:13.93 ]: >584
グローバルメモリアクセスのレイテンシ隠匿とか、ループが遅いとかの情報が頭にあったんで
今まで深く考えず1024スレッド突っ込んでたんだけど、
スレッド減らしてループ回すような構造にしたほうがいい、って解釈でいいんだろうか？
590 名前：デフォルトの名無しさん mailto:sage [2012/03/25(日) 02:00:59.95 ]: >>588
PTXよりもっとネイティブ寄りのアセンブラ言語qhasm-cudasmを使って
パフォーマンスクリティカルな場面で力を発揮(nvccの148％)するよ！って話かな？
暗号学会で発表されるんだね。
591 名前：デフォルトの名無しさん mailto:sage [2012/03/25(日) 20:09:00.66 ]: メモリアクセスに対する演算の比率を上げないと、性能をフルに発揮できないことは分かったんですが、
具体的にどれくらいの比まで高めるべきかの目標はどうやって決めればイイでしょうか？？
592 名前：デフォルトの名無しさん mailto:sage [2012/03/26(月) 10:43:34.08 ]: 理論性能（カタログ値）がでるまで頑張れば良いのでは？

それからグローバルメモリーのアクセス速度が，カタログ値の何％になっているのかも
チェックすべきだと思う．
593 名前：591 mailto:sage [2012/03/26(月) 18:59:54.70 ]: >>592
ありがとうございます！
やはり、

理論性能が出ない → ボトルネックを割り出して改善 → 先頭に戻る

のループで追い込んでいくやり方ですね。
594 名前：デフォルトの名無しさん mailto:sage [2012/03/27(火) 00:14:52.50 ]: 本を読んで、Visual Profilerを知ったのですが、
ひょっとして今はParallel Nsightで同じことができるでしょうか？
595 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 05:31:51.00 ]: GTX 680駄目すぎるわ
死んだ
596 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 06:40:03.41 ]: まだ未公開？
ttp://developer.download.nvidia.com/compute/cuda/4_2/rc/toolkit/cudatoolkit_4.2.6_win_64.msi
ttp://www.abload.de/img/desktop_2012_03_27_22wif3f.png
PTX ISA3.0
597 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 08:00:17.14 ]: warp shuffle
598 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:36:38.09 ]: VLIWの腐ったようなアーキテクチャになったくさいな
599 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:51:03.77 ]: どのへんが？
600 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:54:22.36 ]: 斜め読みしたうえで完全にESPだが
命令は各スロットごとに別という点でVLIWでデータパスはSIMDみたいに独立とみた
ソフトウェア的にはもちろん別スレッドとして書けるみたいな
全然違ったらごめんね
601 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 13:35:57.98 ]: いやPTXレベルの命令だから全然関係ないね
>>598-600は忘れてくれ
602 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 21:20:01.15 ]: やっぱりGCNと同じでshuffle入れてきたな。
603 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 22:40:28.29 ]: CUDA C Programming Guide Version 4.2
74p.
Table 5-1. Throughput of Native Arithmetic Instructions (Operations per Clock Cycle per Multiprocessor)
いろいろやばすぎるな。
604 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 11:33:59.98 ]: >>589
いまさらだが
物理レジスタが足りてるなら同時に多数スレッドを保持しておけるが
複雑なカーネルだとレジスタは不足しがち
605 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 12:27:07.17 ]: >604があるから時として64ビットアドレッシングより32ビットアドレッシングの方が有利なんだよね。
606 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 18:48:17.20 ]: Visual studio2010、CUDA4.1、Windows7 64bitではじめようと思ったんだけど、ネットで拾ったプログラムとか動かすとcutil_inline.hが見つからないって出る。
これってどうすればいいの？
607 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 19:47:51.42 ]: >>606
GPU Computing SDKをインストールしてパスを通す
608 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 22:36:38.83 ]: スレタイがイイね。
くだすれくーだすれｗ
609 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/06(金) 21:14:51.29 ]: なんでGPGPUはみんな同じようなアプリしかつくらないん？
想像力が欠如してるから他人の猿真似ばかりしてんの？

GTX680の性能を生かすアプリ教えろ
610 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/06(金) 21:37:23.28 ]: >>609
邪魔
611 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/06(金) 22:02:22.54 ]: わりぃなぁ。そんじょそこらにはないアプリ作っているんだが公表できないんだわ。
612 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/06(金) 22:56:59.64 ]: 恥ずかしいやつが湧いたな
613 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 01:09:23.67 ]: >>609
BOINCでもやってな
なんぼぶん回しても次から次へ宿題出してくれるから
614 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 10:44:11.21 ]: 数値流体力学シンポジウムにでも参加すれば良いぞ♪
615 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 19:20:32.56 ]: 公表できないと言ってるけど、どうせCUDA ZONEに登録されてるようなものだろ？
外人の真似と負け惜しみしかできないの？

素人だからよくわからないけど、欧米に対して技術面で遅れているから
この分野で日本に有名な人がいないでしょ？
自称一流の教授に俺の書き込み見せてあげて
616 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 23:56:42.42 ]: だから数値流体力学シンポジウムにでも参加すれば？

この分野では例えば東京工大の青木先生が有名だが
617 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 23:57:49.78 ]: ちなみに 615
618 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 23:58:19.73 ]: あれ？

ちなみに６１５は大学生か？？
619 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 00:08:49.21 ]: 大学生なら，物理や力学関係の学会に参加すれば，GPGPUを使った
シミュレーションの研究結果が報告されていることがわかるはず♪

高卒なら縁はないが．．．
620 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 00:11:11.59 ]: 大学生がこんな幼稚な文章書いてたら日本終っちまうぞｗ
621 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 09:03:46.81 ]: GTX480である程度大きなサイズをホストからデバイスに転送するのに3回に2回ぐらいセグメンテーションエラーで落ちる。
うまく行くとなんの問題もなく実行できる。
デバイス側でメモリ確保ができてないみたいなんだが、こんなもんなのかね？
622 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 09:17:09.30 ]: そのカードでモニターを表示させているとか？
623 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 12:09:14.45 ]: ケプラーの倍精度計算は速くなったの？
それとも以前と同じ？
624 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 12:27:33.01 ]: HPC向けがでてみないと分からんけど
GTX680じゃSPに対して1/24だよ
625 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 15:32:40.75 ]: www.tml.tkk.fi/~timo/HPG2009/
レイトレは最適化するとスペックなりのパフォーマンスだな680
626 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 20:11:08.50 ]: >>622
表示させている。
それがダメなのかな？
627 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 21:17:10.19 ]: ２枚さして，一枚はディスプレイ用
もう一枚は演算用にしないと，一枚では負荷に耐えられないのでは？
628 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 00:35:51.46 ]: みんなすごいね
せいぜい準備して
九九の掛け算一括処理くらいしかできないよ
629 名前：営利利用に関するLR審議中＠詳細は自治スレへ [2012/04/10(火) 00:59:53.96 ]: CUDAを学ぼうとするからそうなるんだと思うよ。
何か問題があって、それをCUDAで解こう！って始めた方が早く習得できる。
630 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 16:05:07.35 ]: >>624
それって今までよりも遅いってこと？
どこかに倍精度のベンチマークの比較はありませんか？
631 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 16:47:44.33 ]: 今研究室でGTX680か580のどっちかを買おうって話になってるんだけど
CUDA的にはどっちがいいと思う？
一任されて困ってる・・・
632 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 17:43:14.82 ]: floatかdoubleか。
あと整数演算も遅くなったらしい。
テスラ売るためとはいえ、なんかいやーんな感じ
633 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 18:28:46.60 ]: > 631

両方買う．

が，テスラの方が安定していると聞いているよ（速度は若干GTXより落ちるが）
634 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 18:32:30.11 ]: >>631
迷わず580かと。

680はレジスタとか整数演算・論理演算のスループットとか色々と問題になりそう。
それに最新の正式版Toolkit 4.1のプログラミングガイド見てもKepler載っていないし・・・

>>632
グラフィック性能のワットパフォーマンスを上げるためというのが一番じゃないかな。
635 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 19:03:34.66 ]: >>631
勉強用に1枚2枚買うって話ならGTX580だろうね。
１．資料がぜんぜん揃ってないKeplerを今買ってもしょうがない。
２．GPGPUとしての性能がGTX580のほうが「上」
（完全上位互換というわけではないし処理にもよるしスペック上FLOPSでは負けてはいるが）

GTX680のグラフィック・GPGPU性能を調べる ≪ dokumaru
dokumaru.wordpress.com/2012/03/27/gtx680-spec/

10数枚買って研究室全体に大量導入…なら先生が決めるよね。
両方買ってもいい。でもそれならKeplerは対応するToolkitが出てからでも遅くはないかと。
あるいは一刻一秒を争うならなおさらKeplerは冒険かと。
636 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 20:08:49.43 ]: 今はまだ早いGK110をまて
5月にイベントあるから、そこでなんかあるかも
637 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/11(水) 16:27:30.42 ]: Teslaはメモリ容量が良いよね
GTXだと計算領域が足りないよ・・・
638 名前：デフォルトの名無しさん [2012/04/11(水) 23:21:32.32 ]: FLOPS/MBで見ると、Teslaでも全然足りない。
639 名前：デフォルトの名無しさん mailto:sage [2012/04/12(木) 07:21:34.36 ]: 何の計算？？
640 名前：デフォルトの名無しさん [2012/04/13(金) 04:19:22.20 ]: 倍精度計算が主なのですが、Ivyと680と580、どれがコストパフォーマンス的にお薦めですか？
641 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 09:48:41.62 ]: IvyはCUDA動かないよ。
642 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:12:31.27 ]: 言語の問題じゃなくて、プログラムはこれから作るから倍精度計算をわんさかやろうと思うんだけどどれがいいかなあ？
程度の話じゃないかと。
643 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:17:18.06 ]: そういうことか。
超並列に対応できるのであればGPUのほうがイイね。
644 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:27:10.68 ]: えっ！？
ここCUDAのスレだよね？

てか、Ocelotとかどうなのかな。
645 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 12:45:42.72 ]: 倍精度計算が中心なら、CPUで最適化するのが一番。
例えば近似計算のようにGPUの単精度で近づけてから、
CPUの倍精度で収束させるとかならありだけど。
646 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 16:13:12.61 ]: cuda zoneがメンテナス中・・・
647 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 17:11:45.77 ]: toolkit4.2が来るのかな
648 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 18:28:30.79 ]: >>640
GPU用の倍精度プログラムを書く気があるならTeslaにしとけ。
コストが厳しいならRadeonの最上位にしとけ。
649 名前：デフォルトの名無しさん mailto:sage [2012/04/14(土) 01:50:49.98 ]: sdk 4.1とtoolkit 4.1インストールしたんだけど
アンインストールせずにそのまま
sdk 2.3とtoolkit２．３をインストールしたらコンパイルやリンクの挙動とかおかしくなりますか？
650 名前：デフォルトの名無しさん mailto:sage [2012/04/14(土) 12:46:31.14 ]: 自分でpathやMakefileなどを管理できるのなら無問題。
651 名前：デフォルトの名無しさん mailto:sage [2012/04/14(土) 22:18:52.58 ]: parallel nsightは甘え
652 名前：デフォルトの名無しさん mailto:sage [2012/04/14(土) 22:34:41.85 ]: >>651
甘えと言えるほどすごいのか。
今度使ってみようｗ
653 名前：デフォルトの名無しさん mailto:sage [2012/04/16(月) 19:24:07.51 ]: シングルGPUでもデバッグできるようになったのが凄くうれしい
654 名前：デフォルトの名無しさん [2012/04/17(火) 03:52:59.70 ]: 680を手に入れたんだけど、ガッカリ性能だった
ゲーム系は速くなってるんだけどね
655 名前：デフォルトの名無しさん mailto:sage [2012/04/17(火) 08:51:17.06 ]: 何をやったの
656 名前：デフォルトの名無しさん mailto:sage [2012/04/17(火) 15:39:00.54 ]: PTX直接書いてプログラミングする人とかいるの？
657 名前：デフォルトの名無しさん mailto:sage [2012/04/17(火) 19:51:20.08 ]: 一応いるけど。
658 名前：デフォルトの名無しさん mailto:sage [2012/04/17(火) 21:23:06.59 ]: GTX580が生産終了なんだとか
659 名前：デフォルトの名無しさん mailto:sage [2012/04/17(火) 23:38:03.55 ]: >658
在庫はけたからか。
しかしIntelのCPUはGPU載せてんのにGPGPUにはさっぱり対応しないからあんま意味ないな。
CUDA対応とかにしないのは戦略的判断なんだろうけど、なんとももったいない。
660 名前：デフォルトの名無しさん mailto:sage [2012/04/17(火) 23:51:03.54 ]: 大丈夫
Intelも来週からGPGPU対応する
661 名前：デフォルトの名無しさん [2012/04/18(水) 16:31:10.22 ]: 倍精度計算じゃまだインテルに分があるしね
662 名前：デフォルトの名無しさん mailto:sage [2012/04/18(水) 16:57:28.76 ]: ivyのeuどうなってのかね
663 名前：デフォルトの名無しさん mailto:sage [2012/04/20(金) 18:04:01.73 ]: > 654

今，それに触手を伸ばしているところだけど，どこがダメだった？？
664 名前：デフォルトの名無しさん mailto:sage [2012/04/21(土) 20:08:12.47 ]: >>660
ivyってGPGPUとして使えんの？
665 名前：デフォルトの名無しさん mailto:sage [2012/04/21(土) 20:18:04.15 ]: OpenCLならできなくもないのかな？
666 名前：デフォルトの名無しさん mailto:sage [2012/04/24(火) 13:30:34.56 ]: 誰かHMPP使ったことある人いる？
667 名前：デフォルトの名無しさん mailto:sage [2012/04/24(火) 20:58:18.61 ]: CUDA4.2きたな
ttp://developer.nvidia.com/cuda-downloads
668 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:18:30.00 ]: Adobe Creative Suite 6: Bye bye CUDA, Hello OpenCL!
ttp://www.geeks3d.com/20120425/adobe-creative-suite-6-opencl-accelerated-mercury-graphics-engine-opengl/
669 名前：デフォルトの名無しさん mailto:sage [2012/04/25(水) 20:24:16.57 ]: ivyの影響だな
670 名前：デフォルトの名無しさん mailto:sage [2012/04/26(木) 23:10:43.77 ]: CPU、GPUを利用（プログラム）するには？
togetter.com/li/293863
671 名前：デフォルトの名無しさん mailto:sage [2012/04/29(日) 14:44:53.67 ]: GPUのデメリットは同じ変数計算を毎回糞真面目に超高速で行うところ
672 名前：デフォルトの名無しさん mailto:sage [2012/04/29(日) 18:55:51.68 ]: メモリ読むより速いからな
673 名前：デフォルトの名無しさん mailto:sage [2012/04/30(月) 07:47:23.73 ]: GTX690
pc.watch.impress.co.jp/docs/news/20120429_530569.html
674 名前：デフォルトの名無しさん mailto:sage [2012/04/30(月) 08:35:43.64 ]: >> 671
一つ一つの計算は超高速でもなんでもない
並列で行うので早くなるだけ
超高速になるか否かはプログラミングの問題

>>672
演算にはメモリーの読み書きを伴うので，演算が「メモリ読むより速い」とはならないのでは？
675 名前：デフォルトの名無しさん mailto:sage [2012/04/30(月) 21:06:45.57 ]: >>671
意味が分からん。
アーキの概念の理解ができていないじゃねーか？
676 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:39:15.46 ]: >>675
明日短いわかりやすいソースアップするからコンパイルして実行してみて
言いたいことがわかると思う。
CPUにはあってGPUにはない機能を使うことになる、まぁホントしょうもないことだけど・・・
677 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:53:32.34 ]: ？？？
678 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 00:59:29.65 ]: 言ったら悪いかも知れんけど単にアルゴリズムが悪いんじゃないのか。
679 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 08:09:04.59 ]: >>671
アドレス計算とかまさにそれだよね。
普通のループなら+4で済むところが、
ptr + threadIdx.x*4 + threadIdx.y*hoge
とかになっちゃう。
680 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 08:24:43.67 ]: それはGPUのデメリットじゃないな。
GPU(nvcc)でもループなら普通に書いたら普通に最適化してくれる。
681 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 10:38:58.63 ]: >>679
これはデメリットと違う。
CPUでマルチスレッドでやれば同じように明示的にアドレス計算を行う必要がある。
682 名前：デフォルトの名無しさん mailto:sage [2012/05/01(火) 13:31:24.76 ]: シングルスレッドでの最適化が、そのままマルチスレッドに使えると思ってるなら、並列で組むのに向いてないな。

ひとつの処理として見たとき無駄でも、それで大多数の演算を同時に走らせることができるなら、
並列処理においてはそれこそが効率的なんだよ。
683 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 01:02:11.09 ]: >>669
残念、AMDとアドビのコラボでした
www.4gamer.net/games/133/G013372/20120426013/

Ivyは端から相手にされてません
684 名前：デフォルトの名無しさん [2012/05/02(水) 01:48:54.23 ]: ascii.jp/elem/000/000/672/672388/
このカード使ってる人居ませんか？

メモリがいっぱい欲しいけど、高いカードは買えないので
試しに買ってみようかと思うのですが。
685 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 02:05:34.87 ]: 同じ世代のGPUでも生産地の違いで演算速度は全く違うからね
もっと言うと転送速度が全く違う
まあフラッシュメモリでも同じこと言えるけど
686 名前：デフォルトの名無しさん [2012/05/02(水) 04:31:00.56 ]: >683
ずいぶんニッチなところだな
687 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 09:30:37.50 ]: >>684
マジレスすると、CUDAでやるメリットはない。
Sandyやivyの方がはるかに高速。
まあ、CUDA勉強するだけならいいが、もっと別のカードのほうがいいだろ。
688 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 11:01:38.16 ]: >>684
メモリ転送が遅過ぎて4GBのメモリを活かしきれない悪寒。
689 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 12:41:42.31 ]: SRAMを４GBつんでるカードはないのか？
690 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 16:10:34.75 ]: >>667

>New Features
>Support for GK10x Kepler GPUs.

とりあえず、GK104対応にしました的か。
691 名前：デフォルトの名無しさん [2012/05/02(水) 18:28:26.54 ]: VRAM 4GB以上のカードって、ほとんどないんだね。
TeslaかQuadroしか見つからなかった。
お値段10万円越
692 名前：デフォルトの名無しさん mailto:sage [2012/05/02(水) 18:42:59.54 ]: 4年後にはVRAM16GBが普通にでまわるんだよ
693 名前：679 mailto:sage [2012/05/02(水) 22:18:41.81 ]: >>680 >>681
あれ、そういう話じゃないのか…
そうだとすると、 >>671 が何を言いたかったのか思い付かないな…
694 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 15:04:28.21 ]: >671は皮肉だろ。
695 名前：デフォルトの名無しさん mailto:sage [2012/05/03(木) 16:07:25.13 ]: ということにしたいのですね。
696 名前：デフォルトの名無しさん mailto:sage [2012/05/04(金) 01:03:14.33 ]: デメリットに感じる境地まで辿りついたんだよ、きっと
俺にはまだメリットにしか思えないんだけど・・・
697 名前：デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:18:13.51 ]: >>692
今から4年前の2008年頃はG80世代で大体1GBだったが、4年後のGTX680でまだ2GBだから、
4年後はせいぜい4GBなんじゃないの？Tesla系で16GBにはなっていそうだけど。
698 名前：デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:24:38.22 ]: そういやPCのDRAM搭載量に比べて、あんまり伸びないよね＞ビデオカードのメモリ
699 名前：デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:26:52.65 ]: GDDRは数が出ないからね。
DRAMメーカーがあんな状態だから尚更でしょう。
700 名前：デフォルトの名無しさん mailto:sage [2012/05/05(土) 21:33:02.38 ]: プロセスシュリンクが汎用DRAMと同じように進めば同じようにでかくなると思うんだけど。
だんだん引き離されてるってこと？
701 名前：デフォルトの名無しさん mailto:sage [2012/05/10(木) 01:35:01.75 ]: 日本のメモリの会社が潰れたのはかなり痛いな・・・
702 名前：デフォルトの名無しさん mailto:sage [2012/05/10(木) 15:36:00.11 ]: ptxコード読まなきゃいけなくなったんだけど、typeの.predって何なのかいまいちわかってない
703 名前：デフォルトの名無しさん mailto:sage [2012/05/10(木) 16:46:59.88 ]: 述部(predicate)だね。
ptxの場合は単に、比較などの結果を保持するだけのような希ガス。
で、そのレジスタの結果に依存してインストラクションの実行する、と。
例えば、
--
setp.gt.s32 %p1, %r5, %r7;
@%p1 bra $Lt_0_12802;
--
なら r5 > r7のときに分岐するし、
--
setp.lt.s32 %p2, %r9, %r11;
@%p2 sub.s32 %r14, %r11, %r14;
--
なら r9 < r11のときに引き算を行なう。
704 名前：デフォルトの名無しさん mailto:sage [2012/05/10(木) 21:33:54.24 ]: 分岐マスクのためのレジスタは何本あるんだろ
それとも汎用レジスタと共用なのか
705 名前：702 mailto:sage [2012/05/11(金) 16:21:50.31 ]: >>703
thx
そういう意味だったのか……
CUDAはC言語の延長だから大丈夫とか考えた三月の俺を叩きのめしたい

PTXコードの読み方って英語のやつしかないよねたぶん
706 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 17:11:50.74 ]: >>705
私が書いたメモならあるよw

>>704
実験コードで見たところ、汎用レジスタと述語レジスタの合計で制限されてたかと。
述語レジスタだけでどこまで増やせるかは実験してない。
707 名前：702 mailto:sage [2012/05/11(金) 17:26:43.70 ]: >>706
恵んでください。
割と切実に。卒業したいので。
708 名前：デフォルトの名無しさん mailto:sage [2012/05/11(金) 18:02:12.84 ]: ISA的にはwarpあたり7本か6本じゃね。
3bitのどれかが常にalways扱いだったような。
709 名前：デフォルトの名無しさん [2012/05/14(月) 15:19:34.27 ]: 初心者質問です。
お願いします。
cufftってcuda3.2でも使えるのでしょうか？
cufftdestroyが未解決の外部シンボルだと言われてしまうのですが？
ただ単に、リンクできてないだけなのでしょうか？
710 名前：デフォルトの名無しさん mailto:sage [2012/05/14(月) 18:14:14.93 ]: >>709
使えたと思うよ。
つーか、cufftdestroy()が未解決って、あんたの間違いだろ。
711 名前：デフォルトの名無しさん [2012/05/15(火) 14:03:46.41 ]: >>710
返信ありがとうございます
他の関数はコンパイルが通る(通っているように見えるだけ？)のに
cufftdestroy()
cufftExecZ2Z()
cufftPlan1d()
だけが未解決となっているのですが、
この関数だけ、他のライブラリが必要だなんてことがあるのでしょうか？
712 名前：デフォルトの名無しさん mailto:sage [2012/05/15(火) 15:52:04.02 ]: destroyはDestroy。
z2zは未実装。
Plan1dはしらね。
警告レベル引き上げれば?
713 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 11:36:49.94 ]: cufft.hはインクルードしているのかな？
714 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 13:08:31.44 ]: ■後藤弘茂のWeekly海外ニュース■
NVIDIAが世界最多トランジスタ数のチップ「GK110」を公開

pc.watch.impress.co.jp/docs/column/kaigai/20120517_533500.html
715 名前：デフォルトの名無しさん [2012/05/17(木) 15:21:47.32 ]: 警告レベルって、デフォルトは最大なんですよね？
Destroyに関しては、タイプミスです。
z2zは未実装っていうのが、よくわからないんですけど。。。。
716 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 17:10:10.69 ]: GPGPU上でソケット通信とかって出来るかな
717 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 17:20:54.19 ]: GPGPUの仮想マシン同士のn対n通信をシミュレートとかそういうのをイメージした
718 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 18:16:22.69 ]: >>715
未実装: 実装されていないこと。
cufftのライブラリの中にz2zの関数そのものが存在していないのよ。
で、あんたがどんな環境で開発しているか判らんのに警告レベルがどうなっているかなんか判るかい。
そんなことは自分で調べなさいよ。

>>716
cuda5でLAN接続されているGPU同士で連携させる機能がつくらしいよ。
719 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 21:52:07.76 ]: 多次元配列を扱えないのは何でなんだろう．

ブロックとスレッドインデックスで一次元化するの面倒なんだけど．
720 名前：デフォルトの名無しさん mailto:sage [2012/05/17(木) 23:46:21.89 ]: ピンメモリを確保すると、スワップによる退避を防げるのは分かったのですが、
実際はスワップ以外にも、メモリフラグメンテーション解消のためのコンパクションでも
メモリアドレスの変化って起こり得ますよね？
それもないようにするのがピンメモリですよね？
721 名前：デフォルトの名無しさん mailto:sage [2012/05/18(金) 01:25:35.91 ]: >>719
別に扱えなくはないぞ。普通にdata[blockIdx.x][thiredIdx.x]ってできると思う。
スレッド数を定数にしなくちゃならなくなるから却って煩わしいと思うけど。

つーか、面倒ったってオフセット計算する関数を作るだけじゃん。

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef