【GPGPU】NVIDIA CUDA質問スレッド

【GPGPU】NVIDIA CUDA ..

566:デフォルトの名無しさん
08/09/05 12:40:56
>>564
バーカwwwwwwwwwww
頭悪いなお前

567:デフォルトの名無しさん
08/09/05 14:57:45
>>565
確かに
初体験のあの気持ち・・・忘れられない・・・

568:デフォルトの名無しさん
08/09/05 19:25:13
気持ちいのは分かるけど普段使わないようなものだしね
既にあるものを自力でCUDA対応させるのも気力が沸かないしね
倍精度浮動少数が扱えないしねｗｗｗ

569:デフォルトの名無しさん
08/09/05 19:40:59
>>568
CUDA 2.0は？単精度に比べてかなり速度が落ちるらしいけど。

570:デフォルトの名無しさん
08/09/05 19:43:46
ハードの問題だから無理だよ
やってみた

571:デフォルトの名無しさん
08/09/05 19:58:03
>>570
GT200世代じゃないとハードの問題で使えないのか・・・

572:デフォルトの名無しさん
08/09/06 01:17:51
二重ループは兎も角、三重ループとなるとCUDAは苦手だと思うが。
一重は並列にしても、二重ループが残ってしまう。
最近のIntelCPUはループが無茶苦茶高速だから、WoodcrestでOpenMPでも使われたら太刀打ちできなくなる。

573:デフォルトの名無しさん
08/09/06 02:59:57
CUDAをループの自動並列化だと思っていらっしゃるｗ

574:デフォルトの名無しさん
08/09/06 03:22:15
ところで2.0正式版は皆さん安定してる？
うちは、テクスチャmemoryがなんだか変。
エミュで正しく動いているのに実機だと挙動がおかしい。

575:デフォルトの名無しさん
08/09/06 13:32:41
CUDAでクラスが使えないのが痛いな
木構造系のアルゴリズムは並列処理にかなり向いてるし応用範囲も広いのにな
CUDAで無理やりやろうとすると無駄な処理をわざとさせないといけなくなるし
プログラムがむちゃくちゃ汚くて見てられない

576:デフォルトの名無しさん
08/09/06 14:08:13
PyCUDAかCUDA.NETあたりを使ってぜひ感想を聞かせて

577:デフォルトの名無しさん
08/09/09 02:19:48
CudaArrayに、48ビットや24ビットのRGBのデータを入れて、テクスチャにバインドできている方います？
うちではうまくいかないんですよね。

578:デフォルトの名無しさん
08/09/11 13:36:09
CUDAってCPUモードがあるけどドライバが無い環境だと自動的になるの？

579:デフォルトの名無しさん
08/09/11 22:59:45
エミュレーションモードの話かな?
自動的に切り替わるほど融通は利かないよ。

580:デフォルトの名無しさん
08/09/11 23:09:42
dim3 threads(100,1);
method<<<1, threads>>>();
これはいけるんだけど

dim3 threads(100,100);
method<<<1, threads>>>();
ってやると一回も呼ばれないんだけど
何か勘違いしてる
threadIdx.xとyで２次元的に呼び出せるんじゃないの？

581:デフォルトの名無しさん
08/09/11 23:12:59
スレッド総数は512まで(詳細はdeviceQueryを実行するべし)。
従って、100*100は拙い。

582:デフォルトの名無しさん
08/09/11 23:16:39
追記:
その条件だけなら、dim3 threads(ThreadsOfBlock, ThreadsOfBlock)にして
dim3 blocks(100 / ThreadsOfBlock, 100 / ThreadsOfBlock)を追加して
method<<<blocks, therads>>>()するのが定番かな。
勿論、methods<<<100, 100>>>()でもいいけど効率は若干落ちることになりそう。

583:デフォルトの名無しさん
08/09/12 00:23:28
method<<<dim3(100,100),1>>>();
にしたらいけた
もしやブロックって並列処理じゃないの？

584:デフォルトの名無しさん
08/09/12 01:06:40
GPUのプロセッサからあぶれた分は時間軸方向に並列になります。

585:デフォルトの名無しさん
08/09/12 13:31:48
whetstoneとかのベンチマークをCUDAで動かしたいんだけど、
とってきたソースをCUDA環境で動かすには書き換えないとダメなの？

586:デフォルトの名無しさん
08/09/12 13:47:04
sharedメモリなんだけど制限とかあるの？

method<<<dim3(1000,1000),4, 1000*1000*4>>>
とか

587:デフォルトの名無しさん
08/09/12 18:06:38
ガウシアンぼかし３ｘ３を５００ｘ８００のフルカラー画像で約０．３秒だった
8400GSですけど
こんなもん？もう少し早いのを期待したんだが

588:デフォルトの名無しさん
08/09/12 18:45:28
そのアルゴリズムはCPUでやるとどのくらいかかった？

589:デフォルトの名無しさん
08/09/12 18:51:26
ブロックの分け方をいじったら０．１５秒になった
CPUで同じの組むのめんどいです
エミュレーションモードってどうやってやるの？

590:デフォルトの名無しさん
08/09/12 22:29:38
>>589
＞エミュレーションモードってどうやってやるの？
nvccにオプション指定するだけだよ。
あくまでもエミュレーションだから余計に遅くなるけど。

>>587
サンプルで似たようなのなかった?
フィルタ類は色々あったと思うから眺めてみるといいと思う。

>>586
あんたもdeviceQueryを実行する必要がありそうだ。
sharedにそんなに取ると、物理量を大幅に超えるから巧く動いたとしても無茶苦茶遅くなるぞ。

>>585
whetstoneなんて、並列演算に向かないと思うのだけど。
あー、繰り返しを並列にすればいいか。それだったら移植もそれほど難しくはない。

591:デフォルトの名無しさん
08/09/12 23:29:34
デバイス上にRGB(unsigned char)の画像配列を確保してある状態で
これをOpenGLのテクスチャにホストを介さずにバインドして利用出来る？

592:デフォルトの名無しさん
08/09/13 05:38:14
すいません質問です。
CUDAでFFTやってるサンプルコードとかどこかにないでしょうか。
探しても見つからなかったんです。

593:デフォルトの名無しさん
08/09/13 06:58:27
>>592
simpleCUFFT違う？

>>590
「並列演算に向かない処理を並列にすればよくってよ？」
これ最高よね

594:デフォルトの名無しさん
08/09/13 08:25:22
>>592
そのくらい自分で考えれ、そんなに難しい事じゃなじゃん

595:590
08/09/13 08:48:04
>>593
＞これ最高よね
???

>>592
CUFFT使うだけならnvccも要らない。

596:デフォルトの名無しさん
08/09/16 07:06:46
>>590
誰かが「このアルゴリズムは並列化には向かないうんぬん」と言った
アルゴリズム×128本を同時に実行してしまうとか最高よね、という
意味なのではないかな。確かに上司の驚愕を呼ぶね。

597:デフォルトの名無しさん
08/09/16 13:08:08
俺は並列化できそうな新たなアルゴリズムを考案しろという意味かと思った

598:デフォルトの名無しさん
08/09/16 14:18:16
PIの計算だって本来並列には向かない

599:デフォルトの名無しさん
08/09/16 14:20:31
CUDAでデバッグDLLが付属してないようなのだけど
例外処理ってどうやればいいので？
try..catchとか使えるの？

600:デフォルトの名無しさん
08/09/16 15:34:27
無理。

601:デフォルトの名無しさん
08/09/17 01:10:50
多体シミュやりたいなーと思ってたら，本屋で見かけたGPU Gems3に載ってた
でもそれだけの為に買うのもなー・・・３はいつ原版が公開されるんだろー

602:デフォルトの名無しさん
08/09/17 02:51:27
なんかDirectX11で並列演算に対応するのと
11世代のOpenGLの仕様にOpenCLっていうCUDAの類似品が実装されるらしい
たぶんCUDAはこのまま消えていく

603:デフォルトの名無しさん
08/09/17 10:36:55
GPGPUの可能性を示してくれただけで十分だよ

604:デフォルトの名無しさん
08/09/19 00:12:03
カーネルのネストって出来るの？
__global__ void a(){
...
}

__global__ void b(){
a<<<dim3(100,100),1>>>();
}

void main(){
b<<<dim3(100,100),1>>>();
}

みたいな

605:デフォルトの名無しさん
08/09/19 00:50:28
なんか根本的にひどい勘違いしてなくね？

606:デフォルトの名無しさん
08/09/19 00:55:26
>>604
GPU内部からカーネルを発行することは不可能

607:デフォルトの名無しさん
08/09/19 06:46:20
__device__ でプログラミングガイドを検索汁。

608:デフォルトの名無しさん
08/09/19 09:12:17
>>602
CUDAの内部にOpenCLが含まれる構成だからCUDA

609:デフォルトの名無しさん
08/09/19 17:51:43
処理に時間がかかるとGPUが完全停止してタイムアウトでドライバレベルのエラー出すんだけど
一回そのせいで画面全体がぐちゃぐちゃになってWindowsが操作不能にまでなったぞ
非同期実行じゃないんかい
どうすんのこれ？

610:デフォルトの名無しさん
08/09/19 19:18:20
>>609
それは質問なのか？愚痴なのか？
質問だとしたら・・・分かるな？

611:デフォルトの名無しさん
08/09/19 20:43:54
>>609

OSがVistaなら下の資料を参考にレジストリ弄ってみるとか。

WDDM によるタイムアウトの検出と GPU の回復
URLﾘﾝｸ(www.microsoft.com)

612:デフォルトの名無しさん
08/09/20 12:00:52
192コアとか216コアとか240コアとか

使いづらいですよ！漏れの弱い頭がパンクしそうです！
お願いだから隠された力を覚醒させて256コア版出してくだしあ！！！１１

613:デフォルトの名無しさん
08/09/20 19:27:47
いや一回計算方法実装すれば後はそれを使いまわすだけだろ

614:デフォルトの名無しさん
08/09/22 11:58:30
>>612
CUDAをVer2にするんだ。デバイス情報取得APIでコア数が判るようになっているぞ。
# つーか、256コア版の歩留まりが悪くてサブプロセッサ単位で減らして対応しているんじゃないの?w
# PS3のCBEが7SSEなのはそういう事情だそうだし。

615:デフォルトの名無しさん
08/09/26 13:20:34
CUDAってなんて読むの？くーだ？

616:デフォルトの名無しさん
08/09/26 13:21:28
んだ。

617:デフォルトの名無しさん
08/09/26 14:49:14
cubaがキューバなんだから
cudaはクーダだろ・・・常識的に考えて・・・

618:デフォルトの名無しさん
08/09/26 15:18:21
キュ～(＞＜)～だ

619:デフォルトの名無しさん
08/09/26 19:23:46
8400GSだと、h264エンコで実速出ないねぇ
12fpsがやっとだよ
もう少し速いかと思ってたんだけどな

620:デフォルトの名無しさん
08/09/29 01:41:34
ＣＵＤＡを使いたいと思っている初心者です
macのxcodeでもできますか？？
imacで８８００ＧＳです

621:デフォルトの名無しさん
08/09/29 11:36:23
>>619
よりによって、CUDAが動く最底辺の方のGPUを使わなくても……

>>620
NVIDIAの公式サイトが全てなので、そこを読んで判断してください。
つーか、xcodeってなに?

622:デフォルトの名無しさん
08/09/29 20:31:53
>>620
５万払って雪豹もらってください。
動くレベルじゃないって話だけどね。

623:質問です
08/09/29 20:37:44
初心者です。
CUDAサンプルを動かしてみて感じた事なのですが、
HLSL,GLSL,Cg言語それらを使わずに、使った時のような絵が出せるのでしょうか？
CUDAもGPU上で計算しているみたいなので・・・

624:デフォルトの名無しさん
08/09/30 03:09:36
それじゃあ俺も初心者です

625:デフォルトの名無しさん
08/10/01 14:32:24
じゃあおれも

626:デフォルトの名無しさん
08/10/01 23:36:19
>>623
サンプルを見たのなら判ると思うけど、OpenGLはほぼそのまま使えるようですよ。

627:デフォルトの名無しさん
08/10/04 00:48:53
URLﾘﾝｸ(en.wikipedia.org)
これ見るとCUDAにそっくりだな
CUDAをちょっと修正するだけでOpenCLに対応出来そうだけど

628:質問です
08/10/05 00:39:12
>626
OpenGLは使えるのはわかってます。
CUDAでピクセル単位の計算できるのかが知りたいのです（汗
Cg言語を使ってバーテックスシェーダで計算していた処理を
CUDAで実現いてみたら、うまくいったのですが、
フラグメントシェーダでやってた処理が実現できなくて・・・
そもそもできるのかどうか・・・
ってところが知りたいのです。

629:デフォルトの名無しさん
08/10/05 03:26:43
そのためだけにCUDAは作られました

630:デフォルトの名無しさん
08/10/05 03:28:30
つかサンプルにSobelFilterってのがあるだろあれみれ

631:質問です
08/10/06 14:55:42
>>630
SobelFilter見てみました。
見落としてました。
ありがとうございます。

632:デフォルトの名無しさん
08/10/10 21:46:48
日本の公式フォーラムできた
URLﾘﾝｸ(forum.nvidia.co.jp)

633:デフォルトの名無しさん
08/10/10 22:23:43
なんとも直訳のような回答ばかりw

634:デフォルトの名無しさん
08/10/10 22:48:12
直訳なんかしたらまともな日本語になってるわけないじゃないか

635:デフォルトの名無しさん
08/10/10 22:49:17
あの回答がまともな日本語だと思うのか?

636:デフォルトの名無しさん
08/10/10 23:06:59
ああ俺の中で日本語ドキュメントの思い出が醜化されていたようだ

637:デフォルトの名無しさん
08/10/11 00:32:34
悪くない

638:デフォルトの名無しさん
08/10/11 01:03:23
え、俺これ読んですごいwktkしてるんだけど。
サンプル投稿みたいな質問したら、気が向いたらNVIDIAが答えてくれるかも知れないって事でしょ？

639:デフォルトの名無しさん
08/10/11 02:28:44
正直、ここで聞いた方がましだと思う漏れもいる。

640:デフォルトの名無しさん
08/10/11 06:42:53
投稿者：　NVIDIA CUDA Team
どんな人　専門家
自信　　　自信あり

ちょっと面白いｗ

641:デフォルトの名無しさん
08/10/11 07:43:30
少し読んでみたが日本語のあのドキュメントよりはずっと読みやすいよｗ
あれは酷すぎた

642:デフォルトの名無しさん
08/10/12 11:48:23
それでもどう考えても英語のほうが読みやすいけどな。

643:デフォルトの名無しさん
08/10/12 23:45:50
アトミック処理に放射線の危険はありません。:-)

644:デフォルトの名無しさん
08/10/21 20:40:02
質問です。
CUDAを使って、GPU上で計算している部分の一部を、
FBOとCg言語を使って、オフスクリーンで計算させることってできますか？

もちろん、無駄なことはわかっているのですが・・・

645:デフォルトの名無しさん
08/10/21 22:23:14
なんでCUDAのサンプルってコンソールアプリばっかりなんだろう

コンソールアプリじゃないときは
CUT_DEVICE_INIT(argc,argv);
CUT_EXIT(argc, argv);
のargc,argvってとりあえず 0 と nullとか渡しとけばいいの？

646:デフォルトの名無しさん
08/10/21 22:24:53
>>644
日本語でどうぞ。

647:デフォルトの名無しさん
08/10/21 22:27:14
>>645
そもそもCUT_DEVICE_INITはMultiGPU環境でGPUの番号を指定したりするためにあるようなもの。
0とNULLでもいいけど、敢えて使う必要もない。
CUT_EXITに至っては、プログラム終了時にプロンプトを出すためにあるようなもんだ。
# 詳細は、cutil.hを読め。

648:デフォルトの名無しさん
08/10/21 22:33:37
>>647
ありがとうございます

649:デフォルトの名無しさん
08/10/22 00:59:28
>>645
ウィンドウ出してグラフィックだすようなサンプルも多いが。

650:デフォルトの名無しさん
08/10/22 08:56:39
普通にイメージクラスでCUDAを実装してDLL化して使ってるが
DLLだからコンソールだろうがWindowだろうが使えるぞ
でもお前らにはやらない

651:デフォルトの名無しさん
08/10/22 12:41:14
>>694
頭のほうしか見てなかった...

652:デフォルトの名無しさん
08/10/23 14:06:38
ここでロングパス！

653:デフォルトの名無しさん
08/10/26 13:54:35
URLﾘﾝｸ(pepper.is.sci.toho-u.ac.jp)

654:デフォルトの名無しさん
08/10/26 15:14:01
今日からcudaプログラミングを始めようとしている超初心者です
nvidiaのGTX280のピーク性能は933GFlopsだって歌われているのですが、
しかし240のコアで1296MHｚで動作しているのなら、311GFlopsになるはずですよね？
この3倍の数値の差はどこからくるのでしょうか？

655:654
08/10/26 15:16:30
あ、もしかして1サイクルで３つオペランドを消費するような命令があるってことで
しょうかね？

656:デフォルトの名無しさん
08/10/26 17:22:50
maddならmul+addだから2倍なんだけど、3倍なんてあったかな? とこの前から思っている。

657:デフォルトの名無しさん
08/10/26 18:34:50
URLﾘﾝｸ(journal.mycom.co.jp)
madd + mul で3の気がする

658:デフォルトの名無しさん
08/10/26 19:15:55
ベクタ計算じゃないので最内ループの記述は楽々
それでいて300GFLOPS台の性能がでるなんて夢のようですね

659:デフォルトの名無しさん
08/10/26 19:25:03
巧く嵌まればね。書くのは楽だけど、チューニングが大変なのは変わらないわよ。

660:デフォルトの名無しさん
08/10/26 19:50:18
ローコストにCUDAプログラミングやチューニングのコツを掴むのに適したマシンってありますか？

いま持ってるノーパソのGPUがnvidiaならよかったんだが、そうじゃないので
安くCUDAできるマシンを買おうか検討中。「試し」なので自作とか高価なのは避けたい

参考になる話があったら聞かせてくださいまし

661:デフォルトの名無しさん
08/10/26 19:57:15
予算を教えなはれ。
14万でMacBookとか？
後は、Nvidiaチップ内臓の自作で10万切ることも可能
今デスクトップPC不所持で5万の予算だったら無理。

662:デフォルトの名無しさん
08/10/26 20:03:39
意味のある試しプログラミングができればいくら安くてもいい
中古ノートのオンボロで構わないと思っている

奮発しても10万といったところですかね

663:デフォルトの名無しさん
08/10/26 20:05:52
私は一世代前のCore2Duoで8800GT入れているけど9万ほどだったかな。
今だったら、45nmのCore2Duoでメモリ1GB積んで9600GTでも入れれば結構楽しめると思う。
DosPara辺りのゲーム用PCが丁度そんな感じのスペックじゃないかな。
# 都合いいことに、「ゲーム用」はVistaじゃないことが多いしね。

664:662
08/10/26 20:10:12
>>661
10万と書いたが、MacBookの14万というのはちと食指をそそられるな…

当方unixやlinuxはそこそこ扱えるが、Macは十年以上触ったことがないし
開発環境とかどうなっとるんでしょうか

665:662
08/10/26 20:15:35
あ、そうそう
今のノートに買い替えてから使ってないけどモニタとキーボードはあります
モニタったって今時CRTのSXGAですけどね

>>661 >>663
ありがとうございます。参考にします

666:663
08/10/26 20:21:45
ちょっとDosPara見てきたけど、XP足しても8万くらいで作れるようね。後は余裕次第かな。
この手のBTOの常で、キーボードとマウスは嫌でもついてくるけど。

それは別として、MacBookで色々苦労したいのならそれはそれでありだと思う。
私なら、ミニタワーで安く済ませた分で、1280x1024を越える大きさの液晶モニタでも買うけどね。

667:662
08/10/26 20:36:02
>>663
やっぱりMacは今でも苦労が多いのかw でもまあひと通り調べてはみよう。
ドスパラのBTOも、後で自分でチェックしてみることにします。

668:デフォルトの名無しさん
08/10/26 20:57:29
bootcampでlinux入れちゃえばOKジャマイカ？
と思ってググッたら酷い、お勧めできない。

669:デフォルトの名無しさん
08/10/26 21:36:37
GTX260は単体で3万円切っているので、工夫すれば10万でデスクトップ組めるかも？？

670:デフォルトの名無しさん
08/10/26 21:40:29
別にWinノートPCを持っているなら、ミニタワーはLinuxでもいいんじゃね？
CUDAをWinで使うとnvccがgccベースだからC++関連の内部関数がめんどくさいよ。

671:662
08/10/26 22:17:28
まあ先に言った通り自作は手控えたいです。トラブルを楽しむほどの余裕が今はないので。
ボード一枚突っ込むくらいですかね。自分の手でやってもいいやというのは。

>>670
VS2008があるので、できればそっちと連携させながらやりたい
（ガワとか作るのはC#が便利なので…）と思っていたんですが、難しいですかね。
cudaが基本gccだというのは判っているので、まあ何ならIPCで繋げばいいやくらいに
テキトーなことを考えていたわけですが。

672:デフォルトの名無しさん
08/10/26 22:43:00
VC向けのプロジェクトテンプレートあったよね

673:662
08/10/26 22:51:53
>>672
ああ、ありましたね

これから風呂入って寝てしまうので、今日はこのへんで。
皆様どうも、いろいろご親切にありがとうございました。

一応、明日以降もときどきこのスレをチェックするようにします。

674:デフォルトの名無しさん
08/10/27 10:21:12
グラボだけ変えればいいじゃん

675:デフォルトの名無しさん
08/10/27 10:23:30
PCIEマシンを持ってないなら
E1200+9400GTあたりで組めば3万以内で組める

676:デフォルトの名無しさん
08/10/27 10:27:01
ちなみにうちのE1200は３Gで動いてたけど
E7200に変えたのでサブにした
３Gあればメインマシンとしても十分だと思うけど
ただマザーはそれなりにOC耐性の高いものが要るので
どうしてもミドルクラスの1万5000円前後になるけどね

677:662
08/10/27 23:23:34
>>675
だいたいそのへんで検討中です。
Windows XPをインストールするとケチっても5万くらいにはなっちゃうようですが
（自宅PCは98SE→Vistaノートへポーンと飛ばしたので、XPを持ってない）ま、それはそれで。

678:デフォルトの名無しさん
08/10/28 21:31:33
強力な浮動小数演算ができる装置を手に入れても、物理屋、ごく一部の化学屋、工学屋の超上位層ぐらいしか使い道が無いぽ。

679:デフォルトの名無しさん
08/10/28 22:09:02
と無知な輩がわめいております

680:デフォルトの名無しさん
08/10/29 03:42:30
実際ない

681:デフォルトの名無しさん
08/10/29 04:44:41
GPU Gemsの3とかに沢山載ってるよ。
暗号化解析とかパケットフィルタリングとか。

682:デフォルトの名無しさん
08/10/29 05:09:26
パケットフィルタの為に２００W近く常時負荷掛けるなんて無理だ

683:デフォルトの名無しさん
08/10/29 08:49:21
＞物理屋、ごく一部の化学屋、工学屋の超上位層ぐらいしか
もともとゲームやCGでさんざん使い倒されているデバイスなのに何を言うのか

CUDAは、ということであれば、たとえばこれを土台にファイナンス系のミドルウェアが作られたら
そっち系の需要が一気に開花するかもしれない
今んとこCUDAのサイトで紹介されている事例はいささか高尚すぐる気がするけどな

684:デフォルトの名無しさん
08/10/29 09:33:00
どっかの銀行でやってるんじゃないか?

685:デフォルトの名無しさん
08/10/29 12:06:23
銀行ってイメージ的に扱うトランザクションは半端なく多そうだけど、それがSIMDではなさそうな。
必要なのはPOWERに乗ってるような十進演算器じゃないの？

686:デフォルトの名無しさん
08/10/29 13:21:47
そう言えば、NVIDIAの営業が得意気に「銀行系には1000台単位でお買い上げいただいてます」とか言ってたな。

687:デフォルトの名無しさん
08/10/29 14:19:44
それ演算用ではなくて表示用だったりして。

688:デフォルトの名無しさん
08/10/30 00:10:25
DoubleFloatのみで対決したら、最新GPU1機 vs. 最新のクアッドコアCPUのどっちが勝つと思う？
CPUはamd64と、SSE等使用時（誤差を考えればむしろこっちと比較するべき？）の両方で予想してほしい。

689:デフォルトの名無しさん
08/10/30 00:12:02
CPU

690:デフォルトの名無しさん
08/10/30 00:23:35
用途による。
考えるのが面倒くさければCPU。

691:デフォルトの名無しさん
08/10/30 02:35:58
メモリアクセスのペナルティがあるから、その観点で比べてもしょうがないよ

692:デフォルトの名無しさん
08/10/30 04:31:20
銀行で使うとしたら、勘定系ではないだろ。
そうではなくて、商品開発やシミュレーションなど、1円2円ずれてもいいような業務

693:デフォルトの名無しさん
08/10/30 15:04:09
銀行とかトラフィックが確かにすさまじいけど
システム改変するコストもすさまじいぞ
数十年に一回やれるかどうかだろ
それに負荷１００％で２４時間なんてカードが耐えられるとは思えない

694:デフォルトの名無しさん
08/10/30 16:15:06
常時負荷100%という状況になっていること自体設計ミス
60～70%が適正

695:,,・´∀｀・,,）っ-●◎○
08/10/31 02:29:13
>>671
マーケティングの人に直接聞いた話では、そのうちそのへんは改善されると思うよ。
あ、機密事項と言われてるので具体的には言えない。

696:デフォルトの名無しさん
08/10/31 17:56:27
最近銀行システムの開発で、6000人のSE集めた超プロジェクト失敗したものねえ。まあ当然だが。
SEが6000人だからねえ。プログラマはもっと多いとかもう想像つかない。

697:デフォルトの名無しさん
08/10/31 21:10:20
TMPGencのCUDA対応版が出たんでインストールしたんだけど
CUDAの項目にチェックできないのは何故・・？

ドライバは178.24でグラボがASUSの8800GTS(640MB)

698:697
08/10/31 21:19:21
スマソ自己解決
g80はダメなんだってねOTL

699:デフォルトの名無しさん
08/10/31 23:34:51
>>698
ｲｷﾛ。

700:デフォルトの名無しさん
08/11/01 00:39:03
G80はストリーム系のAPIが使えないからねぇ。

701:デフォルトの名無しさん
08/11/01 01:49:28
>>696
JRとかの鉄道や、電力といったインフラ系はもっと大きい。
しかし、大きいが故にPJ失敗しまくってる。

人数を増やせば増やす程、集めた人材の質は低下する。
そして頭脳労働の場合、一番質の低い人のレベルに
足並みを揃えなきゃいけなくなるからなぁ。

しかし戦中・戦後に一気に作ったシステムが老朽化して、
銀行どころでなく大規模な改修がどれもこれも必要なのだが。

#mixiで見掛けたよ＞団子の中の人

702:デフォルトの名無しさん
08/11/01 01:54:45
>>662
HP ML115サーバ機に、GF9400GTあたり刺して、
Linux入れたら？ 1CD-Linuxの knoppix for CUDA
なら、最初からCUDA環境が構築済みで、サンプル
も憑いて来るし。

慶應義塾大学泰岡（やすおか）顕治研究室 Yasuoka Laboratory
URLﾘﾝｸ(www.yasuoka.mech.keio.ac.jp)

個人的にはGF8200なM/BのオンボでCUDA走れば、
裸M/BのCUDAクラスタ組もうかと思ってるが、
CPUやメモリの値段を考えると、ML115の方が
安上がりなんだよな。

703:662
08/11/01 06:57:01
>>702
これはビックリ！こんな激安サーバがあるなんて知らなかった…
激安なのにPCI-Expressとかついてて（x16必須な）nvidiaのグラボもちゃんと動く、
ということでゲームの人達にも人気があると…ふむふむ。

ところで素のML115はメモリ512Mなのだけれど
上記研究室のページによるとknoppix for CUDAの推奨動作環境はメモリ2G以上、とある
ML115を使う場合、安いやつを別に買ってきて刺し換えればよろし、ということですね？
（ML115もhp直販だとメモリ増設オプションはECCつきの高いやつしかない…）

ML115が16k、9400GTが9k、2Gメモリも安いのは3k未満、で30kを切りますな。
個人的にサーバ機もAMD64もknoppixも使ったことがないので、
それらの組み合わせとなると微妙に不安だ（笑）が、いずれにせよこの値段は魅力的

大変参考になりました。ありがとうございます。

704:デフォルトの名無しさん
08/11/01 07:57:06
デモ機で借りたTeslaC1060使っているんだけど、ホストCPUがAMDのPhenom。
Xeonに較べて遅い遅い。普段使っているXeonに8800GTの組み合わせの方が早いって何さw

705:,,・´∀｀・,,）っ-●◎○
08/11/01 08:16:53
つまんない質問だけどGTX2xxの人は電源いくらよ。
＋150Wくらいはマージンとったほうがいいと思うよな？よな？

706:デフォルトの名無しさん
08/11/01 10:03:17
なんに対して+150?
GTX280ボード単体での消費電力は236W、GTX260でも180Wクラス消費するからね。
ついでに言えば、補助電源用コネクタもGTX280は6ピン+8ピンの特殊コネクタが必要だし。

707:,,・´∀｀・,,）っ-●◎○
08/11/01 10:25:14
>>706
システム全体で。500W電源以上推奨って言ってるけどじゃあ500Wで安定するかっていうと
信用できねー

708:デフォルトの名無しさん
08/11/01 10:25:55
無理。

709:,,・´∀｀・,,）っ-●◎○
08/11/01 10:28:03
とすると、マシン一式組んで貸し出してもらうのがベストだよな？
よし参考になった。

710:デフォルトの名無しさん
08/11/01 11:59:03
8800GTなら100Wだし、補助電源コネクタも6ピンだけで済むよ。

711:,,・´∀｀・,,）っ-○◎●
08/11/01 12:04:23
うん、俺も8800GTまでなら550Wで余裕といえるラインかなと思っている。

712:デフォルトの名無しさん
08/11/01 14:45:29
GTX280を使うのなら、700Wクラスの電源が欲しいところだね。

713:デフォルトの名無しさん
08/11/02 15:04:39
CUDAは8800以上のクラスで無ければ意味ない。
8500とかはとりあえず走るだけでパフォーマンスは全然駄目。

714:,,・´∀｀・,,）っ-●◎○
08/11/02 17:39:50
8400GSとかになると額面性能でもCore 2シングルコア以下だな。

715:デフォルトの名無しさん
08/11/02 19:59:18
　　そだ　 |------､｀⌒ｰ--､
　　れが　 |ﾊ{{　}} ）））ヽ､l l ハ
　　が　　　|､{ ﾊリﾉﾉﾉﾉﾉﾉ）､ l l
　　い　　　|ヽヽｰ､彡彡ﾉﾉﾉ}　　に
　　い　　　|ヾヾヾヾヾヽ彡彡} 　や
　　!! 　　 /:.:.:.ヾヾヾヾヽ彡彡} l　っ
＼＿＿／{ l ii | l|} ﾊ､ヾ} ﾐ彡ﾄ
彡ｼ ,ｪ､､､ヾ{{ヽ} l|l ｨｪ=ﾘ､シ} |l
lミ{　ﾞｲｼﾓ'ﾃ､ミヽ}ｼｨ=ﾗ'ｧ､ }ﾐ}} l
ヾﾐ　　￣~'ｨ''': |ﾞ:ｰ.￣　 lﾉ/l | |
ヾヾ　　 " 　: :　!､　｀　　lｲﾉ l| |
　>lﾞ､　　　　ｰ､,'ｿ　　 /.|}､ l| |
:.lヽヽ　　ｰ_ ‐-‐ｧ'　 /::ﾉl ﾄ､
:.:.:.:＼ヽ　　二"　 /::// /:.:.l:.:.
:.:.:.:.:.::ヽ:＼　　　　/::://:.:,':.:..:l:.:.
;.;.;.;.;;.:.:.:.＼｀ｰ-- '" //:.:.:;l:.:.:.:l:.:

716:デフォルトの名無しさん
08/11/03 01:57:15
サブノートPCでCUDA動くようにならんかな。
通勤、出張の途中でいぢってみたい。こんな
時でもないと、仕事に直結しないプログラム
組んでる暇無いからなぁ。

>>703
AMDの場合、メモリコントローラがCPUに内蔵なので、
ECCでもnon-ECCでも使える。安い通常のnon-ECCメモリ
1GBx2枚買ってくればOK。ML115はNTT-Xで買えば、
13800円(送料込)。

717:デフォルトの名無しさん
08/11/03 02:19:41
つ N10J

718:662
08/11/03 06:43:24
>>716
回答ありがとうございます。

719:デフォルトの名無しさん
08/11/03 11:13:39
>>716
俺はサブノートでソースは書いてるよ。動作確認は自宅に戻ってからだけどね。
一発で動けば気持ちいいもんだ。

720:デフォルトの名無しさん
08/11/03 11:52:24
質問です

OpenCLが出たらCUDAはお払い箱ですか？

721:デフォルトの名無しさん
08/11/03 12:00:27
>>719
エミュは動いている?

>>720
いいえ、画像処理だけがCUDAの使い道ではありません。

722:,,・´∀｀・,,）っ-●◎○
08/11/03 12:55:07
Apple主導の言語処理系って流行らんだろ。
GPU版Objective-Cだと思え。

ちなみにNVIDIAから補助もらってる俺は仕事につながるって言えるのかな？

723:デフォルトの名無しさん
08/11/03 13:08:35
>>722
その仕事、こっちにくれw
情報少なくて、参ってるんだ。

724:デフォルトの名無しさん
08/11/03 13:10:10
>>722
ObjectiveCは言語仕様からしてクソだったから流行らなかった。
それだけです。

725:,,・´∀｀・,,）っ-●◎○
08/11/03 13:25:26
>>723
メールサポートだけもらってるけどマニュアル落として自分でやったほうが早いしなぁ

俺のほうこそ各ptx命令のレイテンシ・スループットの資料欲しいんだけど。
Intelはそういうのまめに出してくれるから助かるんだが

726:,,・´∀｀・,,）っ-●◎○
08/11/03 13:29:01
YellowBoxだっけ？
WindowsでもMacでも動くアプリケーションが動くフレームワークとか
大風呂敷広げてあれ結局どうなったっけ？

MicrosoftはDX11があるからOpenCLの標準化なんて破談する可能性大
Appleのフレームワークは地雷ばかりで困る。

727:デフォルトの名無しさん
08/11/03 15:35:29
>>725
なんだ、ないのか。NVIDIAの日本法人は、ろくに情報持ってないっぽいんだよね。

728:デフォルトの名無しさん
08/11/03 16:03:03
>>725
ptxは中間言語だろ？

729:デフォルトの名無しさん
08/11/03 17:02:05
>>726
先入観が身を滅ぼすだろう。

730:デフォルトの名無しさん
08/11/03 17:55:12
質問スレッドなので、唐突に質問するわけですが、ごきげんよう

CUDAのSDKに付いてくる
Programming Guide Version2.0の60ページ目の真ん中あたり

For devices of compute capability 1.x,
the warp size is 32 and the number of banks
is 16 (see Section 5.1);
a shared memory request for a warp is split into one request
for the first half of the warp and one request for the second half of the warp.
As a consequence, there can be no bank conflict between a thread belonging to the first
half of a warp and a thread belonging to the second half of the same warp.

が分からない。
何が分からないのかというと、これはShared Memoryの最適なアクセスに関する記述なんだけど、
ワープの中に並列実行できるスレッドが32個あるというのにshared memoryのバンク数は16個しかない。
普通に考えたら２つのスレッドが同時に１つのbankにアクセスするわけで、
思いっきりバンク競合するはずよね？
でも、この記述はバンク競合が起こらないって自信を持って記述されているわけよ
nVidiaの人教えてちょ

731:デフォルトの名無しさん
08/11/03 18:59:44
Half Warp(つまり16スレッド)ずつスケジューリングされるんじゃなかったかな
だからバンク競合は起きない
nVidiaの人では無いが

なら何でWarp=16スレッドとしないんだろう…というのが俺の疑問

732:,,・´∀｀・,,）っ管
08/11/03 20:56:32
中の人いわく
命令レイテンシ隠蔽のためにクロック毎にインタリーブしてるだけだから細かいことは気にすんな

733:730
08/11/03 22:01:55
なるほど～
ワープの正体は16並列と見つけたり
ってことですな！

734:デフォルトの名無しさん
08/11/04 14:28:34
GeForce 9400MってCUDA使える？

735:デフォルトの名無しさん
08/11/04 16:04:29
2.1でサポートできるように頑張ってるけど間に合わないかもしんないって言ってた

736:,,・´∀｀・,,）っ-●◎○
08/11/08 18:21:17
今月中に何かしら動きが・・うわなにをする
くぁwせｄｒｆｔｇｙふじこｌｐ；「’」

737:デフォルトの名無しさん
08/11/08 18:28:53
個人的には1.3世代の1スロット厚のGPUボードが欲しいのだけれど……
# 出ますと言ってた奴はその後連絡寄越さないしなぁ。

738:,,・´∀｀・,,）っ-●◎○
08/11/09 21:55:53
コードの実行時動的生成（分岐除去とかパラメータの定数化とかってレベルで）って
CUDAではいまんとこ無理なんだよな？
Larrabeeが出たらそういう最適化できる部分はXbyak使おうかなと思ってるんだが

っていうか、SPMDじゃないプログラミングモデルまだー？

739:,,・´∀｀・,,）っ-●◎○
08/11/10 01:14:51
>>730-732
に補足。

各SPは最大2issue同時実行なんだけどデコーダは半速。
1SPあたり4スレッドでインターリーブして同じオペレーションを実行するとちょうど命令供給が間に合う構造だな。

1warp＝
16にすると、デコーダは等速か、半速×2にしないといけない。
デコーダの負荷を抑えたかったんじゃないの？

740:デフォルトの名無しさん
08/11/11 21:20:50
CUDAはじめようと思って調べ始めたんだが、
7xxxシリーズはなんで切り捨てられたのか・・・

今週末に9600GT買いに行かなきゃ

741:デフォルトの名無しさん
08/11/11 21:26:36
どうせなら260だか280あたりにしといたら

742:,,・´∀｀・,,）っ-○◎●
08/11/11 22:15:53
電源とかケースとかの敷居高くない？

743:デフォルトの名無しさん
08/11/11 22:33:54
>>740
切り捨てられたんじゃなくて、始めから想定されてない。

URLﾘﾝｸ(journal.mycom.co.jp)
この連載のはじめの方のGPUの進化を追うと、少しは判るかも知れない。
で、どうせならQuadroFX3700をお勧めします。8800GTとほぼ同一仕様でお値段10倍w

744:デフォルトの名無しさん
08/11/12 22:41:03
CUDA-Zなんて便利なものがありました。
forum.nvidia.co.jp

745:デフォルトの名無しさん
08/11/13 21:17:18
それよりレイトレベンチマークのほう、Ｂｉｏ１００％が作ったのか！
SuperDepthとかカニミソとかが蘇ってきたぜ

スレ違い済まん

746:デフォルトの名無しさん
08/11/13 21:20:01
>>745
URLﾘﾝｸ(noridon.seesaa.net)

747:デフォルトの名無しさん
08/11/13 21:58:30
>>745-746
まだ生きてたのか！
PC-98では大変お世話になりました。

そしてブログを読んでみたら、超わかりやすい！
coalescedの意味とか、8/29のエントリみたいなメモリアクセスが遅い理由とかよく分からなかったんだよ。助かった。

748:デフォルトの名無しさん
08/11/15 01:15:52
vista sp1にCUDAをインストールしたいんだけど
ドライバ：○
↓
tool kit：×インストールが終了しない。。

で上手くインストール出来ないんですが、誰かしりません？
強制終了したらアンインストールの項目にtool kitの項目があるのにアンインストールするとerror:5001で失敗しやがるし。。。

最悪

749:名無し募集中。。。
08/11/15 02:28:14
TMpegEncのCUDA対応は4フィルタだけで今のところあまり効果がないみたい
AviUtilのCUDA対応フィルタもパフォーマンス出ないという理由で公開停止
今からでもチャンスありますかね?

750:デフォルトの名無しさん
08/11/15 03:36:03
作りたいなら是非作ってくれ

751:デフォルトの名無しさん
08/11/15 06:15:48
>>748
管理者権限でやっている?
後柱ね。

752:デフォルトの名無しさん
08/11/15 21:32:05
なんかLinux向けのドライバにCUDA2.1入ってるらしーよ
URLﾘﾝｸ(www.nvidia.com)

753:デフォルトの名無しさん
08/11/17 19:18:56
>>738
URLﾘﾝｸ(www.nvidia.com)
スライド87

754:,,・´∀｀・,,）っ-○◎●
08/11/18 17:41:42
>>752
ついに来てしまったか>>736

755:デフォルトの名無しさん
08/11/18 23:45:16
ラジオシティできるソフトってありますか?できればソース付きで...

756:デフォルトの名無しさん
08/11/20 23:06:52
Cg勉強しようと思って調べてたら、CUDAってのもあるんだな。
それぞれできる事って、具体的に何が違うの？

とりあえず7600GTしか持ってないんで、CUDAは使えないんだが、
Cg勉強するぐらいなら、CUDA勉強したほうが圧倒的に良いなら
対応グラボ買おうと思うんだが

757:デフォルトの名無しさん
08/11/20 23:34:27
そういう何処にでも載っていることすら調べられないのならCgにすれば。

758:デフォルトの名無しさん
08/11/21 13:20:39
CUDA 2.1 beta
URLﾘﾝｸ(forums.nvidia.com)

VC++9とDX10インターオペラビリティがやっと

759:デフォルトの名無しさん
08/11/21 21:39:18
cuda sdkのサンプルを実行するとtest failedと出て実行できないんですけど。
環境はos xp 64, quadro FX 4600です。
先ほどnvidiaからドライバとツールとSDKをダウンロードして
インストールしました。ドライバは更新されています。
visual studio 2005も入れました。

760:デフォルトの名無しさん
08/11/22 17:06:06
Teslaを使っているのですが、電源コードを抜く以外の方法で、装置を再起動
する方法はないでしょうか。
バグのあるコードを何度も実行した結果、cudaMalloc()が返ってこない
状態になっています。

761:デフォルトの名無しさん
08/11/22 18:21:05
たわけた質問だと思いますが、お許しください。
NVIDIA製のカードが入っていないPC上で、
nvemulate.exeを利用してCUDAを使用する事は可能なのでしょうか？
実際の処理に使うのではなく、CUDAプログラミングの練習に使うのが主です。

762:デフォルトの名無しさん
08/11/22 18:21:19
>>760

Sシリーズならホストを再起動するだけで復活しませんか？

763:デフォルトの名無しさん
08/11/22 18:48:56
やっぱ大学くらいしかまだ使ってないのかね

764:デフォルトの名無しさん
08/11/23 00:55:06
最近発売された、GeForce9300、9400を積んだＭＢ、
少し前のGeForce8200、8300を積んだＭＢでも実用ではないですが、
CUDAのプログラミングをして走らせる事は可能なのでしょうか？
誰もmGPUでCUDAを使っていないので…

765:デフォルトの名無しさん
08/11/23 16:49:51
みんな何の計算させてるの？

766:デフォルトの名無しさん
08/11/23 16:53:52
株価予測をリアルタイムに

767:デフォルトの名無しさん
08/11/23 19:03:26
株価の予測はできんだろ。アホか。

768:デフォルトの名無しさん
08/11/23 20:24:25
>>767
阿呆丸出し乙

769:デフォルトの名無しさん
08/11/23 20:25:59
株価の予測ができたって言ってるのは、数年前の慶応が出してた論文ぐらいじゃねーの？

770:デフォルトの名無しさん
08/11/23 20:35:29
>>768
予想と予測は明確に違うんだぜ？

771:デフォルトの名無しさん
08/11/23 23:52:44
論点がづれてるー髪もづれてるー

772:sage
08/11/25 12:13:34
>> 762
shutdown -> 電源切断 -> 電源投入の手順を踏むと、復活しました。
ただのrebootで良いかどうかは試していません。

773:アク禁中なので纏めてレス
08/11/25 12:18:30
>>772
色色と掲示板の使い方を間違っているw
で、reboot試してないなら報告しなくていいから。

>>771
髪はずれないと思うぞ、髪は。

>>765
私の所では、最近はFFTWの代わりにCUFFTでFFTを計算させている。

>>764
NVIDIAのサイトのCUDA ZONEでリストアップされていれば、使える。

>>763
んなこたーない。

774:デフォルトの名無しさん
08/11/25 15:29:23
--device-emulationでは正しく動くけれども、実機では動かないときには
ソースコードをにらむしかないのでしょうか。

nvcc --device-debug (-G) というオプションがあったので、これをつけて
コンパイルすると、ptxas が Parsing error を出して失敗します。

URLﾘﾝｸ(forums.nvidia.com)
の会話を見ると、--device-debug は今年5月の段階ではまだ使えなかった
らしく、私の場合と現象が似ているので、以前としてまだ使えないままか
と思ったのです。

775:デフォルトの名無しさん
08/11/25 18:33:51
>>769
そりゃ、予想は出来る罠
ただ、外乱はいつも不明だし、確定解は得られない。
つまり、最尤推定しかできないし、当然推定結果が大ハズレってことも、
初めから推定理論に謳われてる

776:デフォルトの名無しさん
08/11/25 19:24:20
株価予想が正確になればみんなそれを信じて買うようになるでしょ
予測自体が株価に影響を与えだして本来の予測とは違う値動きを始める
そして的中率は下がる
つまり一定以上の正確な予測を行うことは不可能なのだ

777:デフォルトの名無しさん
08/11/25 20:36:28
ここには、当たり前の簡単なことを、必死に難しく言おうとしてる
能無しがたくさん居るようだねｗ

778:デフォルトの名無しさん
08/11/26 02:25:54
１つの.cuの中で実装しているglobal関数の個数によって、
Kernel呼び出しのターンアラウンドタイムが変わるという奇妙な現象に遭遇してます。
特にKernelで処理するデータが少ない時に顕著になります。
関数の数を５～１０個で変えてみると、ターンアラウンドタイムは
最悪値で80μsec、最良で30μsecでした。
この値は
timer.start();
for (int i=0;i<100;i++) test_kernel<<grid,thread>>(test);
cudaThreadSynchronize();
timer.end();
みたいな書き方で調べてます。

9個目、10個目あたりで底があるようなのですが
こういう現象について、合理的な説明はありますか？
僕にはさっぱり見当がつかないのであります。

779:デフォルトの名無しさん
08/11/26 02:28:14
何かを勘違いしている

780:アク禁中（以下略
08/11/26 20:28:00
>>778
再現できるソースを貼ってくれたら解析するじょ。

781:778
08/11/26 23:00:43
#include <windows.h>
#include <stdio.h>
#include <cuda_runtime.h>
//Round a / b to nearest higher integer value
int cuda_iDivUp(int a, int b) {return (a + (b - 1)) / b;}
#define BLOCK_DIM ( 32)
template <unsigned int loops>
__global__ void testcuuuuKernel(float* d_h0, unsigned int size)
{
unsigned int i = blockIdx.x * blockDim.x + threadIdx.x;
if (i < size) {
float d = d_h0[i];
for (int j = 0; j < loops; j++) {d -= j * 0.1; d += 0.9;}
d_h0[i] =d ;
}
}

void dummy() {
dim3 block(BLOCK_DIM, 1, 1); dim3 grid(1, 1, 1);
testcuuuuKernel<4><<<grid, block>>>(NULL, 0);
//testcuuuuKernel<5><<<grid, block>>>(NULL, 0);
//testcuuuuKernel<6><<<grid, block>>>(NULL, 0);
}
int main(int argc, char* argv[]) {
cudaDeviceProp deviceProp;
cudaGetDeviceProperties(&deviceProp, 0);
cudaSetDevice(0);
#define DATA_SIZE ( 100)
unsigned int byte_size = DATA_SIZE * sizeof(float);

782:778
08/11/26 23:02:57
float* data = new float[DATA_SIZE];
for (int i = 0; i < DATA_SIZE;i++) {data[i] = i;}
float* d_data; cudaMalloc((void **)&d_data, byte_size );
cudaMemcpy(d_data, data, byte_size, cudaMemcpyHostToDevice);
LARGE_INTEGER nFreq, nBefore, nAfter; //TIMER初期化
DWORD dwTime;
memset(&nFreq, 0x00, sizeof nFreq);
memset(&nBefore, 0x00, sizeof nBefore);
memset(&nAfter, 0x00, sizeof nAfter);
dwTime = 0;
QueryPerformanceFrequency(&nFreq);
#define LOOPNUM 100
dim3 block(BLOCK_DIM, 1, 1);
dim3 grid(cuda_iDivUp(DATA_SIZE, block.x), 1, 1);
for (int k = 0; k < 10; k++) { //試行の試行
//start!
QueryPerformanceCounter(&nBefore);
for (int i=0; i<LOOPNUM;i++) { testcuuuuKernel<3><<<grid, block>>>(d_data, DATA_SIZE); }
cudaError err=cudaThreadSynchronize();
//stop!!
QueryPerformanceCounter(&nAfter);
cudaMemcpy(data,d_data,byte_size,cudaMemcpyDeviceToHost) ;
dwTime = (DWORD)((nAfter.QuadPart-nBefore.QuadPart) * 1000000 / nFreq.QuadPart / LOOPNUM);
printf("%d usec for %d times kernel launch\n", dwTime, LOOPNUM);
Sleep(400); //ちょっと待つ
}
cudaFree(d_data); delete [] data; getchar(); return 0; }

783:778
08/11/26 23:07:45
再現できるコードを書いてみました。
Dummyという関数でテンプレート展開されている__global__関数の数を調整してみてください。
ちなみに使っているチップはGTX260です

784:アク禁明けw
08/11/26 23:21:32
>>783
面倒だから動かしてもじっくり読んでもいないのだけれど、
カーネル関数はGPUに都度転送することになるから
一回の呼び出し粒度が小さいと転送コストが目立つことになるよ。
その位だと、恐らくは起動コストも無視できないからもっと処理させるべき。
つーか、カーネル呼び出し(<<<>>>)をループで包んだらそりゃ遅いって。

785:778
08/11/26 23:28:05
>>784
もちろんそれは分かるのですが、カーネル呼び出しの処理の内容は、<<<>>>の中の次元数に束縛される
傾向にあると思います。
データ構造などが異なる色々な処理を連携して実行する場合は、カーネル内の分岐では限界があるように思われます。
なので、１回当たりのカーネルのレイテンシを正確に把握しておきたいわけです。

786:デフォルトの名無しさん
08/11/26 23:35:04
＞データ構造などが異なる色々な処理を連携して実行する場合は、カーネル内の分岐では限界があるように思われます。
何にも判ってないと思われ。

787:,,・´∀｀・,,）っ-○◎●
08/11/26 23:39:07
っていうか、分岐ってさ、プレディケートで全部実行するんだよな？

if (cond) { //ここの条件は要素ごとに変わる
　　funcA();
} else {
　　funcB();
}

だったら、funcAとfuncBをインライン展開して全部プレディケートつき実行する感じだと思ってるんだが。

788:デフォルトの名無しさん
08/11/26 23:42:08
困ったことに、団子に同意。

789:デフォルトの名無しさん
08/11/27 00:03:15
条件分岐したら負けかなと思ってる by GPU

790:デフォルトの名無しさん
08/11/27 00:32:04
そいえばCUDAって１つのカーネルのサイズが制限されてない？
でかいやつがまったく動かなくて苦労したんだけど

次ページ