【GPGPU】くだすれCUDAスレ【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 05/09 17:28 / Filesize : 215 KB / Number-of Response : 912
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2008/03/22(土) 11:13:52 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
www.nvidia.com/cuda

関連スレ
【GPGPU】NVIDIA CUDA質問スレッド
pc11.2ch.net/test/read.cgi/tech/1190008468/
GPUで汎用コンピューティングを行うスレ
pc11.2ch.net/test/read.cgi/tech/1167989627/
GPGPU#2
pc11.2ch.net/test/read.cgi/tech/1188374938/
100 名前：86 [2008/07/09(水) 13:42:42 ]: >>99
ありがトマト
ところでSobelFilter見ててShareMemの使い方がわからないんだが
フォーラムに質問と返答あったが内容わからん＋英語で全然わからん
誰か全訳してくれ
101 名前：86 [2008/07/09(水) 13:44:25 ]: forums.nvidia.com/index.php?showtopic=52612&pid=286191&mode=threaded&show=&st=&#entry286191

誰か誰か！
102 名前：デフォルトの名無しさん mailto:sage [2008/07/10(木) 12:22:28 ]: >>86
訳すのはめんどいからパスだけど、ポイント絞って質問してくれたら回答するよ。
103 名前：デフォルトの名無しさん mailto:sage [2008/07/10(木) 12:28:53 ]: >>86
C:\WINDOWS\system32\drivers
から目的のドライバを手で削除すればよい。
104 名前：デフォルトの名無しさん [2008/07/13(日) 21:12:38 ]: >>102
神ktkr
ポイント絞るからちっと待ってて…
105 名前：102 mailto:sage [2008/07/14(月) 11:56:25 ]: 問題は、自宅が規制に巻き込まれていてなかなか書き込めない辺り。
取り敢えず、注意点を列挙しておく。
・共有メモリを確保するのはglobalFunc<<<blocks, threads, sharedMemorySize, streamNo>>>(parameters)の
　三番目のパラメータでサイズが指定されたときだけ。
・共有メモリは一回の<<<>>>の呼び出しの間だけしか有効じゃない。
# つまり、次の回には残っていない。
・共有メモリをハンドリングするには、extern __shared__ anyType * nameで宣言するだけ。
# つまり、コンパイラは型のマッチングやサイズのチェックをしないので自分で管理しないといけない。
・共有メモリはblock間で独立、block内ではthread数に関わらず共有。
# つまり、実際のデバイスにそぐわないthread数を指定した場合はCUDA側で同期処理が入るのか、遅くなってしまう。
・あるthreadが共有メモリに書いた後、別threadが読む前には__syncthreads()で同期を取らないといけない。
# ある意味当然なんだけど、その所為で遅くなるのも事実。

あー、ついでにメモリの違いを簡単に。
※グローバルメモリ
・読み書きできる。coalescedにアクセスできれば結構速い。消えない。広い。
・ホスト側スレッドごとに独立している。ホスト側から見ると、毎回同じアドレスになるのでどのくらい使えるか判りにくい。
※共有メモリ
・読み書きできる。遅くない。
・呼び出しごとに消えてしまう。余り広く取れない。事実上同期を取る必要があって使い難い。
※定数メモリ
・速い。消えない。そこそこ広い。
・例えばfloat2を読み込むインストラクションがないので実はグローバルメモリからfloat2を読むより遅くなる場合もある。
・デバイス側から書き込めない。ホスト側スレッドごとに独立している。複数スレッドからCUDAを使うと毎回転送しなおすのか?
※レジスタ
・読み書きできる。速い。厳密に型チェックされる。つーか、型ごとに違うインストラクションが使われるからptxファイルで追える。
・呼び出しごとに消える。他のメモリに較べれば狭い。
# ローカルな配列は宣言したことないからよく判らん。
106 名前：デフォルトの名無しさん mailto:sage [2008/07/14(月) 19:10:53 ]: NVIDIAの仕様書見てもcoalescedの意味がいまいちわからないのだけど、どういうこと？
どこかわかりやすく解説しているサイトない？
107 名前：デフォルトの名無しさん mailto:sage [2008/07/14(月) 19:12:13 ]: カーネル内で__shared__つけて配列を宣言するのと、つけないで配列を宣言するのでは何が違うの？
108 名前：デフォルトの名無しさん mailto:sage [2008/07/14(月) 19:24:11 ]: >>106
GPUはWarp単位で同じインストラクションが走るから、要は16人17脚みたいに考えればいい。
メモリアクセスを16人17脚によるパン喰い競争みたいに考えると、自分のパンが目の前にある状態がcoalesced。
そのとき、2,3人パンを喰う必要がなくてもスルーするだけだから問題ない。
処が、二人のパンが入れ違っていたらそこで入れ替える間、みんなが待たされることになるって感じ。
# 判っている人には判るけど、判っていない人には判らない説明だなw

>>107
共有メモリを使うかどうか違うだけだと思うけど。ptx出力させて較べてみたら?
109 名前：デフォルトの名無しさん mailto:sage [2008/07/15(火) 00:26:16 ]: >>108
その説明、いただいてもいいですか？
110 名前：デフォルトの名無しさん mailto:sage [2008/07/15(火) 01:56:27 ]: >>109
本にするならもっと書かせてくれw
Vipのwikiに載せるなら是非やってくれ
金取って講習するのに使うのなら分け前よこせw
111 名前：デフォルトの名無しさん [2008/07/15(火) 07:52:19 ]: >>105
その通りですシェアードメモリとブロック数が理解できない

1. プロック数
dim3 blocks = dim3(iw/(4*BlockWidth)+(0!=iw%(4*BlockWidth)),

ih/threads.y+(0!=ih%threads.y));

なぜblocks.xはiw/threads.x+(0!=iw%threads.x)じゃなくて
上の式になるのか。

2. シェアードメモリ
int SharedPitch = ~0x3f&(4*(BlockWidth+2*Radius)+0x3f);

int sharedMem = SharedPitch*(threads.y+2*Radius);

SharedPitchはなぜ上の計算になるのか。
0x03fの意味、4*の意味、BlockWidth+2*Radiusの意味が理解できない

とりあえずSharedメモリの使い方はどこを調べればわかるんだ！ｳﾝｺ！
112 名前：デフォルトの名無しさん mailto:sage [2008/07/15(火) 08:45:54 ]: >>111
どんな数字を入れるとどんな結果になるか、Excelでも使って計算してみたら?
0x3f使うのは64の倍数にするためでしょ。
113 名前：デフォルトの名無しさん [2008/07/15(火) 16:57:48 ]: >>112
うーんそのなんで６４にするのかがわからないのよ

関係ないかもしれんがシェアードメモリを使ってないSobelFIilterも
SobelTex<<ih, 384>>>でなぜ384かわからないお
こっちは１行１グリッドにして、１スレッド１ピクセルなんだと思うが
なんでスレッド数を画像の横幅iwにしないで384にするんだぁ
スレッド数が384だと計算が速い理由でもあるのかお！
114 名前：デフォルトの名無しさん mailto:sage [2008/07/16(水) 00:40:50 ]: 単純に、warp数の適当な倍数になるからってだけじゃなかろか。
115 名前：デフォルトの名無しさん mailto:sage [2008/07/16(水) 18:09:02 ]: GPUコードではmemcpyは使えないの？
116 名前：デフォルトの名無しさん mailto:sage [2008/07/16(水) 21:23:53 ]: >>115
デバイス側で、デバイス間のコピーをしたいってことなら、自前で書くしかないんじゃないかな。
でも多分、そこがボトルネックになると思う。
117 名前：デフォルトの名無しさん mailto:sage [2008/07/16(水) 21:43:54 ]: global memoryからshared memoryへのコピーの時間と
shared memoryからglobal memoryへのコピーの時間が
異なるのは何でなんだぜ？
よく分からない…
118 名前：デフォルトの名無しさん mailto:sage [2008/07/16(水) 21:47:14 ]: >>117
グローバルメモリへの書き込みはcoalscedでも遅いと思う。
そうでないなら、ptxファイル見てみないとなんとも。
プロファイラを使うともう少し様子が掴めるかも知れない。

そだ、プロファイラの使い方って、日本語で書かれたものがWeb上で見つからないんだよね。
誰か、まとめてない?
119 名前：デフォルトの名無しさん [2008/07/16(水) 23:29:54 ]: >>113
指定できるスレッド数の上限は合計512までだからだろ
もしくは、スレッド数を多くすると使用するレジスタ数がパンクするから
120 名前：デフォルトの名無しさん [2008/07/17(木) 00:02:48 ]: >>115
自前で作成したmemcpy関数（サンプル付き）
記憶で書いているのでデバッグは自分でよろしく
注意：sizeは4の倍数のみ

__device__ void memcpy1D(long* p_dst , const long* p_src , unsigned int size)
{
const long* p_end = p_src + (size >> 2);

p_src += threadIdx.x;
p_dst += threadIdx.x;

while (p_src < p_end)
{
*p_dst = *p_src;

p_src += blockDim.x;
p_dst += blockDim.x;
}
}

__device__ structHogeHoge g_data;

__global__ void sample(void)
{
__shared__ structHogeHoge s_data;

memcpy1D((long*)&s_data , (long*)&g_data , sizeof(s_data));
__syncthreads();
}
121 名前：デフォルトの名無しさん [2008/07/17(木) 15:32:10 ]: NVIDIAのサイトから、lameをCUDA化したサンプルコードをダウンロードして、コンパイルしてみたのだけど、
かえって遅くなるのだけど、速くなった人いる？
CPUはAthlon2.0GHzでGPUは8800GTXです。
コンパイルはサイトの指示通り、USE_GPU_HPFを有効にしてかつ、そのCPUパートはコメントアウトして実行しないようにしています。
122 名前：デフォルトの名無しさん mailto:sage [2008/07/17(木) 15:37:52 ]: >>121
nVidia「全然速くならないから誰か代わりにやってくれ。速くても賞金出すのは北米在住者のみな＾＾」
というコンテストだから当然

来週締切なのに今のところまともに投稿してるのが1チームという惨状
123 名前：121 [2008/07/17(木) 16:05:38 ]: 賞金はともかく、NVIDIAの書いたコードだから、勉強になると思ったのですが
124 名前：デフォルトの名無しさん mailto:sage [2008/07/17(木) 16:14:53 ]: >>123
甘いな。ハードの設計している連中とドライバを作っている連中と
CUDAを作っている連中とそれの応用を作っている連中が勝手にやっているのがNVIDIAだ。
125 名前：デフォルトの名無しさん [2008/07/22(火) 17:35:55 ]: 3.14.by/en/md5
forum.insidepro.com/viewtopic.php?t=2051

ttp://www.insidepro.com/eng/egb.shtml

MD5 Crack on CUDA で腕試しが流行っているみたいだよ。
日本も頑張らなきゃ。
126 名前：デフォルトの名無しさん mailto:sage [2008/07/23(水) 00:13:58 ]: だれかフォートラン仕様にしてくれ
127 名前：デフォルトの名無しさん mailto:sage [2008/07/23(水) 13:37:55 ]: >>122
2チーム目が来たね
2倍ちょっとって、これならquad core使った方がよくね？
128 名前：デフォルトの名無しさん mailto:sage [2008/07/23(水) 16:41:58 ]: GTX280でCUDAすると素人考えで単純にSP数増えてる分だけ
速くなりそうな気がしてしまうんだが実際はどーなの？
Warpとかいろいろ考えることもありそうなんだけど。。。
129 名前：125 [2008/07/23(水) 19:13:07 ]: >>127

英語読めていないよ。こんな簡単な読みも出来ないとなると
本当に困る。

Teamの人数が２人だよ。
登録が200を超え、提出者が20組　トップは６回目のUploadだ。
提出者が20組だから結構な盛況だと考えるよ。
130 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 00:13:47 ]: NVIDIA、GPGPUに関する説明会を開催 - 今年中のFortranのサポートを計画 (2) CUDA2.0正式版は近日中にリリース予定
journal.mycom.co.jp/articles/2008/07/23/gpgpu/001.html

2.0とマルチCPUサポートはそろそろ、マルチGPU・多言語・デバッガ・プロファイラサポートは多分おそらくきっとそのうちだってさ
131 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 02:24:04 ]: cudaを覚えはじめるのにぴったりな本ないかなぁ？
132 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 11:03:32 ]: CUDAに特化した本は未だないだろ。
133 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 12:24:23 ]: >>131
本家プログラミングガイド
変な日本語訳のプログラミングガイドもある。
134 名前：デフォルトの名無しさん [2008/07/24(木) 16:45:20 ]: >>132
出たら買うから　出してｗ
135 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 17:17:55 ]: じゃ、書くからNVIDIAと出版社相手の交渉は任せた。
136 名前：デフォルトの名無しさん mailto:sage [2008/07/24(木) 22:53:31 ]: 何か並列処理の本のおまけみたいな形じゃないと
正直売れないだろうなぁ
137 名前：デフォルトの名無しさん mailto:sage [2008/07/26(土) 17:15:12 ]: >>135
たぶん、猫でもできる・・・・とかと同じように、ＨＰたててそこで解説したら出版社から来ると思う。
わざわざＨＰスペース借りてーとかでなくても、ＷＩＫＩでもいいと思われ。
交渉とかは向こうが書いてくれっていうだけだと思う基本的に。
んで、ワードなり、一太郎なりで原稿書けばＯＫじゃね？
画面キャプチャなどの画像は、まとめて管理したほうがいいぽいよ。
なんか、ワードとかで埋め込んじゃったりすると、逆に手間かかるらしい。
138 名前：デフォルトの名無しさん [2008/07/28(月) 09:38:41 ]: NVIDIAの日本語サイトがようやく
更新されたｗ
139 名前：デフォルトの名無しさん [2008/07/28(月) 11:32:06 ]: gpuはcpuより劇早なんだから
使いたいよねえ

パスワード解析とかにも使えそう
140 名前：,,・´∀｀・,,）っ mailto:sage [2008/07/28(月) 11:37:29 ]: 速くねーよ。

CPUをセダンに例えるならGPUは貨物車だな。
荷物を大量に扱う場合だけは効率がいい。
141 名前：,,・´∀｀・,,）っ mailto:sage [2008/07/28(月) 11:49:02 ]: それはそうとパスワードクラックなんて浮動小数演算能力が全く役に立たないものの代表格だな。
142 名前：デフォルトの名無しさん mailto:sage [2008/07/28(月) 12:08:10 ]: そうだね
並列処理すればいいじゃない？
143 名前：デフォルトの名無しさん mailto:sage [2008/07/28(月) 17:46:54 ]: そういや去年CUDA使ってそんなソフトが出てたな
144 名前：デフォルトの名無しさん [2008/07/28(月) 19:41:23 ]: >>141
MD5はやっていますが？
他に現在手に入るクラック専用マシンでCUDA以上のC/P
があればお話が成り立ちますがね。
145 名前：,,・´∀｀・,,）っ mailto:sage [2008/07/28(月) 20:22:47 ]: >>144
それやってるのは整数論理算術演算じゃん
乗算すら浮動小数じゃないよ。

つーかMD5なんてすでにハッシュアルゴリズムとしては死んでるんだが。
ワンタイムパスワードとしてならまだまだ現役でやれるだろうけど
性質上瞬時にクラックできないとクラックの意味もなくなる。

ああFPGA焼いた方がいいんじゃない？

今各社が力入れてるのはAESなどの128ビットブロック暗号だな。
146 名前：,,・´∀｀・,,）っ mailto:sage [2008/07/28(月) 20:35:07 ]: つーか個人でGPUで遊ぶ分にはアリかもしれんけど
でかいシステム組めるTeslaになると別に高CPでもなんでもないんだよね。
特に整数性能に関してはPS3でクラスタくんだ方がまだ良いくらい。

GTX280含め現行GPUの整数性能はまだまだ残念な印象。
147 名前：デフォルトの名無しさん mailto:sage [2008/07/28(月) 20:44:09 ]: パスワードクラックほどの極小のプログラムでも
Xeon＞PS3だって自分のページで言ってなかったっけ？
148 名前：,,・´∀｀・,,）っ mailto:sage [2008/07/28(月) 21:02:00 ]: 暗号関連ならCellはAESみたいなブロック暗号はそれなりに速いよ。
例のvpermもどき命令で1コア16並列でエンコード／デコードできるからね。
ただAESアクセラレーションはWestmereでの強化点にもなるのでこの先はわからん。

まあいずれにしてもCUDAはいろいろ残念だな。
ATiとのGPUシェア争い無視してでも汎用性能をとるか来たるLarrabeeとガチるかの瀬戸際だし。
149 名前：デフォルトの名無しさん mailto:sage [2008/07/29(火) 09:58:39 ]: >性質上瞬時にクラックできないとクラックの意味もなくなる。
笑った。連れの言い分と全く一緒だからな。
流れているデータをリアルタイムで解読できなければ暗号解読ではない
というような考え。ある意味では正しいが、ネットのデータは記録可能
という点を考慮していないし大穴になる。

AESアクセラレーションハもう６年も前にある技術だし今さら。

しかし認証段階で破られたらAESは即死に体だよ。実際解読ソフト
使っているのでww
150 名前：デフォルトの名無しさん mailto:sage [2008/07/29(火) 12:28:50 ]: 別にCUDAは整数性能ウリにしてないし
このスレってムチャを前提にケチつけてるだけで結局何も出来ない無能者の集いだな・・・
151 名前：デフォルトの名無しさん [2008/07/29(火) 12:59:27 ]: 並列演算の応用として暗号解読の話題を語ってるだけだと思うんだが・・・
152 名前：デフォルトの名無しさん mailto:sage [2008/07/29(火) 13:50:22 ]: >>151
それがわかってないといわれてる原因なんでしょ…
153 名前：デフォルトの名無しさん mailto:sage [2008/07/30(水) 12:07:16 ]: そうなんだ
154 名前：デフォルトの名無しさん mailto:sage [2008/08/04(月) 01:58:13 ]: 　弱点だった倍精度もGTX280で改良された。しかし何かイマイチなんだよなぁ。
消費電力あたりの性能がたいした事ないからかなぁ
155 名前：通りすがり [2008/08/07(木) 11:07:41 ]: CUDAでレイトレーシングがいました。　ＣＰＵの１５倍パフォーマンスが出ているようです。
noridon.seesaa.net/
156 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 13:30:10 ]: SSEも使ってない2コアの速度と比べて15倍じゃ今一かも
157 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 16:48:46 ]: www.nicovideo.jp/watch/sm4095447
www.nicovideo.jp/watch/sm4095398
レイトレーシング
158 名前：デフォルトの名無しさん mailto:sage [2008/08/07(木) 20:25:59 ]: >>154
このスレ的には正常進化じゃね？
159 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 01:46:07 ]: だれか4850にCUDA載せてくれ
160 名前：デフォルトの名無しさん [2008/08/08(金) 14:04:29 ]: Core2Duo(3GHz)×2 = 最大 1.89FPS
CUDA(GTX 280) = 最大52.48FPS

27.7倍高速出ているようです。

noridon.seesaa.net/
161 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 14:36:26 ]: それatiのgpuじゃ実行できないよね？
162 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 18:06:10 ]: CUDAですから

OpenCLはCUDAを採用したと聞いたが…本当なん？
163 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 18:18:50 ]: OpenCommonLisp
164 名前：デフォルトの名無しさん mailto:sage [2008/08/08(金) 20:41:23 ]: 4 x 2.5 GHz の 3 fps と比べても 17倍
これは大したものだ
165 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 00:50:56 ]: IntelC++ と比べてどうなんかな？
166 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 07:05:08 ]: うごかねえｗ
167 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 16:57:34 ]: >>162
んなわけない
既にMacOSXにもCUDAがあるのにわざわざ10.6でOpenCL採用を謳うかよｗ
168 名前：デフォルトの名無しさん [2008/08/09(土) 22:58:33 ]: インテルは０からスタートするわけだからどのぐらいの速度でIntel製GPU普及するのかは見ものだね。　NVDIAのGPUはすでにゲームやCAD、３Dグラフィックの用途にすでにかなり普及しているからね。今後はAMDやIntelのQuadcore CPUでCUDAが使えるようになるしね。
169 名前：デフォルトの名無しさん mailto:sage [2008/08/09(土) 23:11:40 ]: SPがPentium-Mベースだから割と簡単に追いつけるんじゃない？
170 名前：デフォルトの名無しさん [2008/08/11(月) 09:30:11 ]: >>168
そのとおりだけど、intelには事実上CPUと抱き合わせ、という裏技があるからなあ。
今回はかなり本気っぽいし、微妙かも。
171 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 13:44:37 ]: 質問です。

libshをコンパイルしようとしたら以下のようなエラーが出ました。
何が足りないのでしょうか？

ShSwizzleImpl.hpp: In member function 'void SH::ShSwizzle::copy(const SH::ShSwizzle&, bool)':
ShSwizzleImpl.hpp:191: error: 'memcpy' was not declared in this scope
ShSwizzleImpl.hpp: In member function 'bool SH::ShSwizzle::operator==(const SH::ShSwizzle&) const':
ShSwizzleImpl.hpp:251: error: 'memcmp' was not declared in this scope
172 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 14:36:44 ]: ｱﾊﾊ
173 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 17:33:27 ]: 夏だな
174 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 18:07:18 ]: 俺は夏かどうか確認するために書き込んだわけではありません。
馬鹿正直にくだらない質問に答えてくれる人を待っているだけですよ。
質問に答える気がない人間は不要。
スレ違いだと言わざるを得ませんね。
175 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 20:14:53 ]: 夏だね
176 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 21:15:36 ]: そんな失礼な態度のヤシに親切に答えてくれる人がどれだけいるか
待ってるより自分の頭で英語の意味を理解した方がずっと早いと思うがｗ

>error: 'memcpy' was not declared in this scope
>error: 'memcmp' was not declared in this scope
普通の頭の持ち主なら必要なincludeファイルがincludeされてないと解釈するだろうな
177 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 21:22:37 ]: >>176
一つ言わせてもらう。

お前らに　「聞いてやってる」　んだよ。

聞いてほしくてたまらないんだろ？ニートで暇だから。
お前らが答えないなら別のやつに聞くだけ。
聞く相手はいくらでもいるんだよ。
178 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 21:35:15 ]: >>176
ああ、ちなみにもう解決したから。自力で。
お前らみたいに大した知識もないくせにもったいぶった無能に聞いたのが間違いだったな。

ちなみに、ソースに手を加えずに解決した。
解決方法なんて書かないよ。
同じ問題に出会ったやつは　ググレカスｗ
179 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 23:04:59 ]: >>178
で、どこがCUDAに関係してたの?
180 名前：デフォルトの名無しさん mailto:sage [2008/08/11(月) 23:42:51 ]: 凄いのが来たなぁ
釣りであると信じたいが天然厨房っぽいな
181 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 02:26:14 ]: いや、質問主はまだ困ったままだろｗ
質問横取り煽り厨だろ
182 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 05:57:35 ]: >>160
俺もやってみた
4コアCPUが必死に動いても8800GTに25倍くらいの差付けられた
レンダリングの革命やでぇ～
183 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 06:15:06 ]: GPGPUレンダはまだ無いから実用性のあるの早く作って売れば金になるんじゃね
今の外部レンダは綺麗だけど時間かかって静止画までしか実用性無いからな
お前らちゃんすだぞ
絶対金になるだろうから、多分作ってるところはもう取り組んでると思うけどね
ていうか俺が早く出してほしいんだよ
184 名前：デフォルトの名無しさん mailto:sage [2008/08/12(火) 22:18:14 ]: gemsもそうだが、なんでOpenGLやGPU関連の書籍というのべらぼうに高いんだ？
185 名前：デフォルトの名無しさん mailto:sage [2008/08/13(水) 17:25:11 ]: >>184
需要がない割りに書くのが大変だから。
186 名前：デフォルトの名無しさん mailto:sage [2008/08/13(水) 17:32:40 ]: OpenGLは需要あると思うが。
187 名前：デフォルトの名無しさん mailto:sage [2008/08/13(水) 21:20:05 ]: >>184
訳してる会社が（ｒｙ
「誰が買うんだこれ！？」って思う値段の本は大抵原著は安かったりする
酷いのは原著の2倍以上
188 名前：デフォルトの名無しさん mailto:sage [2008/08/14(木) 00:20:49 ]: OpenCLはIntel製GPUでも使えるのだろうか。
189 名前：デフォルトの名無しさん mailto:sage [2008/08/14(木) 01:38:59 ]: >>188
Larrabeeのこと？
190 名前：デフォルトの名無しさん mailto:sage [2008/08/14(木) 02:57:25 ]: >>188
使えるでしょ
自社が参加してるワーキンググループが発表するんだから
191 名前：デフォルトの名無しさん mailto:sage [2008/08/14(木) 13:46:01 ]: ttp://www.gpureview.com/nvidias-g92-and-g94-parts-are-reportedly-failing-article-721.html
うーむ……
192 名前：デフォルトの名無しさん mailto:sage [2008/08/18(月) 09:18:31 ]: jp.youtube.com/watch?v=AgoEri9UX7o
GeForceでスパコン終了
一時間が30秒に
193 名前：デフォルトの名無しさん mailto:sage [2008/08/18(月) 10:23:41 ]: ゲームをやってた助手が「あ、どうも」、わざとらしくてﾜﾗﾀｗ
194 名前：デフォルトの名無しさん mailto:sage [2008/08/19(火) 14:09:07 ]: こんちにわ。LinuxでCUDAのプログラムを作成している者です。
早速質問ですがMPIを用いて、複数のクラスタ（PC５台、そのうち１台が親機で４台が子機）で
CUDAプログラムの動作できた方はいませんでしょうか？
プログラムの内容として、子機で演算させ、親機では適当なメッセージを出すのみという、
並列演算とか関係なく、単にMPIでCUDAを動かすテストプログラムです。

下記のようなMakefileでコンパイルを行っています。
ROOTBINDIR = ./
ROOTDIR = /home/usr1/NFS/NVIDIA_CUDA_SDK/
# Add source files here
EXECUTABLE := mpicuda_matrixMul
# Cuda source files (compiled with cudacc)
CUFILES := mpicuda_matrixMul.cu
# C/C++ source files (compiled with gcc / c++)
CCFILES := \
matrixMul_gold.cpp

SMVERSIONFLAGS := -arch sm_11
############################################################
# Rules and targets
INCLUDES = -I/home/usr1/mpich-1.2.7p1/include -I/home/usr1/NFS/NVIDIA_CUDA_SDK/common/inc
USRLIB = -L/home/usr1/mpich-1.2.7p1/lib -L/home/usr1/NFS/NVIDIA_CUDA_SDK/lib -lmpich -lcutil
include ../../common/common.mk
195 名前：194 mailto:sage [2008/08/19(火) 14:09:55 ]: 続きです。
上記のようなMakefileをNVIDIAのCUDA関連のBBSで見つけたので参考に作成しました。
しかしコンパイル時に下記のようなエラーが出てきます、、

/usr/bin/ld: cannot find -lcutil
collect2:　ldはステータス１で終了しました
make:　***[linux/release/mpicuda_matrixMul] エラー１

上記のエラー内容を調べたところ、libcutil.aというライブラリがリンクされていない、
という内容と思われるのですが、Makefileには正しい場所にリンクさせてあると考えています。
開発環境として、OSがはCentOS５、親機のGPUがGeForce7900、子機が8600です。
（親機でCUDAの演算は行わないので7900）

それでは、どなたかよろしくお願いします。
196 名前：デフォルトの名無しさん mailto:sage [2008/08/19(火) 20:40:53 ]: >>195
cutilはmakeした?
した積もりなら、ちゃんとライブラリファイルはできている?
OpenGLがインストールされていない環境だと、恐らく失敗している筈。
その場合、OpenGLをインストールするかOpenGL絡みのエラー修理辺りをコメントアウトすればmakeできるはず。
197 名前：デフォルトの名無しさん mailto:sage [2008/08/19(火) 23:40:11 ]: MPIでCUDAを試したことは無いけどGLUT，GREWがインストールしてないと
>>195のようなエラーが出たことがある
198 名前：デフォルトの名無しさん mailto:sage [2008/08/20(水) 00:48:28 ]: なあ、あのへんてこ日本語プログラミングガイドのリンクが消えているような気がするんだけど、
前からこんなんだっけ？
199 名前：デフォルトの名無しさん mailto:sage [2008/08/20(水) 00:50:02 ]: いいことだw
200 名前：デフォルトの名無しさん mailto:sage [2008/08/20(水) 20:57:08 ]: jp.youtube.com/watch?v=AgoEri9UX7o
530万ドルのスーパーコンピュータ「CalcUA」で一時間
一台デスクトップPCで30秒

www.atmarkit.co.jp/news/200807/23/nv.html
ベルギーのアントワープ大学では、それまで使っていたAMDベースの256ノードのクラスタサーバ「CalcUA」の性能を、8GPUを使ったデスクトップPCシステム「FASTRA」が上回った。「CalcUAは530万ドルのスーパーコンピュータ、FASTRAは7000ドルのデスクトップだ」（グプタ氏）。
NVIDIAによればGPUを使った同様のクラスタサーバは、NCSA、イリノイ大学、ノースカロライナ大学、マックスプランク研究所など、すでに十数の組織で使われているという。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef