GPGPU#2 - 暇つぶし2ch

GPGPU#2 at TECH

1:デフォルトの名無しさん
07/08/29 17:08:58
いつの間にやらCPUを超える演算性能を持ってしまったGPUに計算させてみるという
GPGPUについて語りましょう

前スレ
GPGPU
ｽﾚﾘﾝｸ(tech板)

関連スレ
ｽﾚﾘﾝｸ(tech板)

参考リンク
総本山? gpgpu.org
URLﾘﾝｸ(www.gpgpu.org)
CUDA
URLﾘﾝｸ(developer.nvidia.com)
GPUをCPU的に活用するGPGPUの可能性
URLﾘﾝｸ(pcweb.mycom.co.jp)

2:デフォルトの名無しさん
07/08/29 19:13:45
イチオツ

3:デフォルトの名無しさん
07/08/29 21:13:23
人がいまだに固定シェーダでうろうろしてる間に、Cで叩けるようになっていたなんて。
あまりにも話がCUDA

4:デフォルトの名無しさん
07/08/31 12:07:10
CUDAはCから手軽に移植できて、割と簡単にGPUに計算させることができて便利ではある。
しかし、いざチューニングしようとするとどこをどう調整すればいいのか判り難くて困る。

ってことで、理想速度が出せれば別だけどそうでないならWoodcrestの方が大抵速くて余り役に立たない。
尤も、CPUがある程度遅いとなるとこれはかなり強力なツールと言えよう。
なんせ、Woodcrestより遥かに安い(8600GTS搭載ボードなら3万弱)わけだし。

一方CBEと較べてみても、(8600GTでさえ)PS3のメインメモリと同じだけのメモリをボード上に積んでいるわけだ。
おまけにSPEで動くプログラムは作るだけでも結構手間が掛かる。それを考えると、もうPS3はどうでもいいやw

5:デフォルトの名無しさん
07/09/01 23:53:31
CellBEの方が遥かに自由度が高い，っつーか
GPGPUは当にアクセラレータでしかないだろ

6:デフォルトの名無しさん
07/09/02 02:30:58
超越関数が使えないのがなぁ。只のアクセラレータでしかないGPUでさえ使えるのに。
それだけで、移植の手間が随分違ってしまう。

7:デフォルトの名無しさん
07/09/02 05:40:54
晒しage

8:デフォルトの名無しさん
07/09/02 11:55:53
ぜんぜん伸びねぇなｗｗｗ

9:デフォルトの名無しさん
07/09/02 17:36:39
おーっし、俺がGPU利用したアプリ書いてやる
今からパソコン屋行ってフレームバッファ買ってくるから、ちょっと待ってろ

10:デフォルトの名無しさん
07/09/02 17:41:22
わ～い10ゲットだ！
>>9がんばって～！

11:デフォルトの名無しさん
07/09/03 04:27:27
どっかにCUDAのサンプルソースの森とか、CにおけるK&R
みたいな入門書無いの～？

12:デフォルトの名無しさん
07/09/03 09:09:35
>>11
CUDAのSDKについてくるサンプルソースじゃダメか?
あれはある意味、宝の山だぞ。

まぁ、私程度でよければ知りたい内容によってはここで回答しても構わんが。

13:デフォルトの名無しさん
07/09/03 13:38:19
CUDAでの基本をまとめてくだしあ

14:デフォルトの名無しさん
07/09/03 14:26:49
>>13
・元のプログラムがあるなら移植前にきちんと整理
・GPU上で動く関数からはメインメモリを参照できない。どのデータをGPUに渡すか熟考すべし
・変数名に工夫するなどして、CPU側メモリかGPU側メモリか常に意識するように
・仮令GPUボードを持っていようとも、馴れないうちはエミュレータも活用しよう
・その為にもデバッガを含めて開発環境にも慣れておこう
・サンプルからノウハウまで、それなりに資料はそろっているからきちんと読めば途は拓ける

15:デフォルトの名無しさん
07/09/03 17:27:24
>サンプルからノウハウまで、それなりに資料はそろっている
URLをお願い

16:デフォルトの名無しさん
07/09/03 19:07:40
>>15
URLﾘﾝｸ(developer.nvidia.com)

サンプルはSDKに含まれている。
取り敢えず、bitonicSortとかsimpleTexture辺りは短いから読みやすいかと。
ノウハウはCUDA Programming Guide 1.0に詳しい。
英語が苦手だったら勉強するチャンスだと思ってがんばってくれ。
そうそう、用語の偏りが激しいので要注意で。

17:デフォルトの名無しさん
07/09/03 19:13:15
CUDAなんかやってもMUDA

18:デフォルトの名無しさん
07/09/03 23:53:16
CUDAできるカードCUDAさい。
ていうか、どの型番のカード（GPU）からCUDAできるの？

19:デフォルトの名無しさん
07/09/04 00:27:28
>>18
GeForceならこの辺。
--
Core Clock (MHz) Memory Clock (MHz) Auxiliary Power Connectors Number of Slots
GeForce 8800 Ultra 684 1161 2 2
GeForce 8800 Ultra 612 1080 2 2 ←リファレンス
GeForce 8800 GTX 575 900 2 2 ←リファレンス
GeForce 8800 GTS 540 840 1 2
GeForce 8800 GTS 500 800 1 2 ←リファレンス
GeForce 8600 GTS 710 1000 1 1
GeForce 8600 GTS 675 1000 1 2
GeForce 8600 GTS 675 1000 1 1 ←リファレンス
GeForce 8600 GT 590 900 0 1
GeForce 8600 GT 540 700 0 2
GeForce 8600 GT 540 700 0 1 ←リファレンス
GeForce 8500 GT 450 400 0 1
GeForce 8500 GT 450 400 0 1 ←リファレンス
--
QuadroFXは忘れた。

で、お値段は8600GTSで3万弱、8600GTなら1.5万くらいからメモリ増強版の2.5万程度まで。
それより上にしても並列数は増えるけどクロックは速くならないからピーク性能を狙わないなら
コストパフォーマンス的にもサイズ的にも8600GTS/GTでいいかと。
尚、電源に余裕がなくて補助電源コネクタからの供給ができないなら8600GT以下で。

20:デフォルトの名無しさん
07/09/04 01:11:14
CUDAらん! 実にCUDAらん!

21:デフォルトの名無しさん
07/09/04 11:26:30
個人的には
>ていうか、どの型番のカード（GPU）からCUDAできるの？
っていう質問が出てくること自体、凄く不思議なんだが。
おもいっきり、プログラミングガイドにかいてあるけど。

22:デフォルトの名無しさん
07/09/04 11:37:45
プログラミングガイドを読んでないから出てくるんだろ
何が不思議なんだよ

23:デフォルトの名無しさん
07/09/04 16:08:48
英語って時点でばっくれる奴がいることも忘れんでください

致命的だけどな

24:デフォルトの名無しさん
07/09/04 16:36:38
>>23
英語だからよく判らないってのは納得できるのだけど、
全体眺めるだけでAppendixAにスペック書いてあるの位は目に留めてほしいなぁ。

25:デフォルトの名無しさん
07/09/04 16:43:52
英語→うわっめんどくせ→2chで聞いたほうがはえーや

という奴だろうな
似たような奴が研究室にいて

「なー、この関数の使い方教えてよ」
とググれば済むことまで効いてくる。俺が必死こいて組んでるときに
それで一度ケンカになったが

ググれば済むことを効いてくるやつの神経わかんねーぐちすまね

26:デフォルトの名無しさん
07/09/04 17:02:45
ぐぐるのも面倒いんだろうきっと

27:デフォルトの名無しさん
07/09/04 21:27:49
B型？

28:デフォルトの名無しさん
07/09/06 11:13:19
血液型と性格に関係はありません。

それはそうと、CUDAでBitslice DES実装したのないかな。

29:デフォルトの名無しさん
07/09/06 12:42:19
>>28
そうとも言えないよ。アイザック・アジモフに拠れば、「そういうもんだ」という環境で育てばそうなるそうだから。

30:デフォルトの名無しさん
07/09/06 17:08:22
B型だと思ったらA型でしたー

でもそんなの関係ねぇ！

31:デフォルトの名無しさん
07/09/06 18:11:38
血液型信仰（笑）

32:デフォルトの名無しさん
07/09/07 04:32:57
ベクトルプロセッサというのが良く分からん
マルチプロセッサと何が違うの?

33:デフォルトの名無しさん
07/09/07 04:48:32
ベクトルプロセッサは同時に複数のデータを並列して処理するプロセッサ
それに対して一つのデータを処理するのがスカラープロセッサ
マルチプロセッサは一つのコンピュータ内にプロセッサを複数搭載している事

34:デフォルトの名無しさん
07/09/07 04:49:57
っ[SIMD]

35:デフォルトの名無しさん
07/09/07 04:51:51
SIMDはプロセッサ内におけるベクトルプロセッサ的な要素

36:デフォルトの名無しさん
07/09/07 05:07:52
>>33
>ベクトルプロセッサは同時に複数のデータを並列して処理するプロセッサ
>それに対して一つのデータを処理するのがスカラープロセッサ
>マルチプロセッサは一つのコンピュータ内にプロセッサを複数搭載している事

こんな夜中にレス付いて吹いた
スカラープロセッサ*マルチプロセッサ=ベクトルプロセッサ
にはならないの?

>>34
>SIMD
Single Instructionってどのくらいまでならsingleなの?
50行くらいの関数までならsingleなの?
まさか、addとかmovとかxorというレベル?

37:デフォルトの名無しさん
07/09/07 05:16:54
＞スカラープロセッサ*マルチプロセッサ=ベクトルプロセッサ
＞にはならないの?
ならない
＞まさか、addとかmovとかxorというレベル?
うん

38:デフォルトの名無しさん
07/09/07 06:05:18
あらかじめ大量のデータを用意しておいて、
その大量のデータを別の大量のデータに変換する事が一発で出来るという事?

うーん、逐次処理には向かないのかなぁ?

39:デフォルトの名無しさん
07/09/07 07:53:54
まぁ大体そういう事だね。
最近のほとんどのパソコンのプロセッサにはスカラーとベクトル両方の仕組みが搭載されていて、
適材適所で使い分けられるようになってる。

40:デフォルトの名無しさん
07/09/07 08:00:18
>>38
高々4つずつ同時に処理してもSIMD。

41:デフォルトの名無しさん
07/09/07 08:39:31
8192bit VLIWとかならベクトル処理も並列処理も同じアーキテクチャで
実現できるな。並べる命令が同じものならベクトル処理、違うものなら
並列処理。

42:デフォルトの名無しさん
07/09/07 11:06:59
GPUでzip解凍すればよくね？

43:デフォルトの名無しさん
07/09/07 15:14:46
違う命令が並べられるならMIMD

44:デフォルトの名無しさん
07/09/07 16:18:32
GPGPUはSPMD

45:デフォルトの名無しさん
07/09/12 11:34:54
うへぇ、CUDAの文法がまるっきりCのそれだからつい、騙されて梃子摺ったぜ。
デバイス側のメモリを巧く使うのは難しいな。
しかも、それが動かしてみないと判らないし、エラーメッセージもunspecified failureだし……

46:デフォルトの名無しさん
07/09/12 14:06:51
昨日の洗脳集会に参加した人は素直に挙手しなさい。

47:デフォルトの名無しさん
07/09/12 15:19:24
行きたかったけど行けませんでした。
資料ください

48:デフォルトの名無しさん
07/09/12 15:25:56
>>46
申し込んだのに定員オーバーで断られた俺が来ましたよ

49:デフォルトの名無しさん
07/09/12 21:36:10
tokyo-uのやつ？どんな話だったん？

50:デフォルトの名無しさん
07/09/12 22:09:05
>>49
簡単なレポならここに
URLﾘﾝｸ(pc.watch.impress.co.jp)

51:デフォルトの名無しさん
07/09/12 22:18:23
全く行く価値が無かった
単なる宣伝に終始

家でUIUCのコースをﾏﾀｰﾘ聞いたほうが何倍もマシ
URLﾘﾝｸ(courses.ece.uiuc.edu)

52:デフォルトの名無しさん
07/09/12 22:40:07
>>45
kwsk
資料がプログラミングガイドしかないからどんな情報でも欲しい。

53:デフォルトの名無しさん
07/09/14 00:20:58
URLﾘﾝｸ(journal.mycom.co.jp)

>これをTeslaではWarp(ワープ)と呼んでいる。

ワープ（笑

54:デフォルトの名無しさん
07/09/14 00:35:45
日本語ではワープでもいいんじゃないか。

55:デフォルトの名無しさん
07/09/14 00:57:39
>>53
どこが笑いどころなの？

56:デフォルトの名無しさん
07/09/14 01:07:59
>>53が笑い者

57:デフォルトの名無しさん
07/09/14 01:20:03
OS/2でも笑えるんじゃないか。うらやましいヤツメ

58:デフォルトの名無しさん
07/09/14 02:32:34
ヲープ（笑）

59:デフォルトの名無しさん
07/09/14 10:34:46
まぁ外人相手にワープと言ってもﾊｧ?な顔されるだろうな

60:デフォルトの名無しさん
07/09/14 11:18:49
トレッキーに通じないわけが無かろうが。

61:デフォルトの名無しさん
07/09/14 20:58:34
CUDAって結局8800以外に何で使えるの？
この後出る予定の8700とか対応するんだろうか。話題ぜんぜん出てこないし

62:デフォルトの名無しさん
07/09/14 21:05:23
個人的には
>CUDAって結局8800以外に何で使えるの？
っていう質問が出てくること自体、凄く不思議なんだが。
おもいっきり、プログラミングガイドにかいてあるけど。

63:デフォルトの名無しさん
07/09/14 21:18:16
俺もそれ見たけど、8600では使えないと書いてるところがあった

64:デフォルトの名無しさん
07/09/14 23:25:41
CUDAはそもそも研究者のオナペットなんだから8800くらい買えよ、安いもんだろ
まさかCUDAが一般に普及するとでも思ってるとか？ねーよｗ

65:デフォルトの名無しさん
07/09/15 00:16:06
8800だけならすぐ廃れるのか

66:19
07/09/15 01:25:26
正直、8800GTXの消費電力と占有スペースを考えたら8600GTSか、いっそ補助電源も要らない8600GTでいいと思う。
#テストするだけならね。コストパフォーマンスも高いことだし。
勿論、チャンピオンデータ狙いなら8800Ultraで頑張ればいいと思うが。
つーか、このスレにも一覧書いておいたのになぁ……

67:19
07/09/15 01:26:52
って>63や、どこに8600はダメと書いてあったのかね?

68:デフォルトの名無しさん
07/09/15 07:38:54
>>66
>>19は実際に動かした情報を基にした一覧なのか？

69:19
07/09/15 08:36:22
>>68
ドキュメントに基づいた情報。

実際に動かしたのは次のボード。
--
ELSA 988GTX
ELSA 988GTS
ELSA 786GTS
ELSA 786GT
--
ちなみにTeslaボードも入荷次第テストする方向。

70:デフォルトの名無しさん
07/09/15 11:08:22
常駐者だったのか。つか、ここ何人くらいで回ってるんだろうw

71:19
07/09/15 13:51:44
常駐というより、巡回しているだけだけどね。
折角だから、nvccの出力(ptx)でも張ってみようか。先ずはソース。
--
#include <cstdio> // WIN版だとリンクにvcを使う所為かiostreamを巧く使えない
const int NofThreads = 256; // 32以下なら1warp内で完結、最大512
const int NofBlocks = 256; // 物理ブロック数をオーバーしたら時分割処理される
// device側コード
#include <cuda_runtime.h>
__device__ float dVals[NofBlocks * NofThreads]; // >45も書いている、device側のメモリ
__global__ void foo(float ratio)
{
float vs, vc;
unsigned offset = blockIdx.x * blockDim.x + threadIdx.x; // この右辺の変数で何番目のデータスレッドか判る
__sincosf(offset * ratio, & vs, & vc); // sincosf()の組み込み命令版
dVals[offset] = vs * vs + vc * vc;
}
// host(CPU)側コード
const float M_PI = 3.14159265358979323846f;
int main()
{
foo<<<NofBlocks, NofThreads>>>(M_PI / (NofBlocks * NofThreads)); // ここで並列起動
float hVals[NofBlocks * NofThreads]; // host(CPU)側メモリ
// この場合はcudaMemcpyFromSymbol()を使用(cudaMalloc()した場合はcudaMemcpy())
cudaMemcpyFromSymbol(hVals, dVals, sizeof(* hVals) * NofBlocks * NofThreads);
for (unsigned ic = 0; ic < NofBlocks * NofThreads; ++ic) {
printf("%g ", hVals[ic]);
}
fputchar('\n');
return 0;
}
// 所要時間はCore2Duo 6320 @ 1.86GHzで1秒掛からない程度
// シンプルすぎて時間測定には不向きなので要注意

72:19
07/09/15 13:53:50
んで、こっちがnvcc -ptx -O3した出力の抜粋
--
.global .align 4 .b8 dVals[262144];

.entry foo
{
.reg .u32 $r1,$r2,$r3,$r4,$r5,$r6,$r7,$r8;
.reg .f32 $f1,$f2,$f3,$f4,$f5,$f6,$f7;
.param .f32 __cudaparm_ratio;
.loc 12 10 0
$LBB1_foo:
.loc 12 15 0
cvt.u32.u16 $r1, %ctaid.x; //
cvt.u32.u16 $r2, %ntid.x; //
mul.lo.u32 $r3, $r1, $r2; //
cvt.u32.u16 $r4, %tid.x; //
add.u32 $r5, $r4, $r3; //
cvt.rn.f32.u32 $f1, $r5; //
ld.param.f32 $f2, [__cudaparm_ratio]; // id:31 __cudaparm_ratio+0x0
mul.f32 $f3, $f2, $f1; //
cos.f32 $f4, $f3; //
sin.f32 $f5, $f3; //
mul.f32 $f6, $f5, $f5; //
mad.f32 $f7, $f4, $f4, $f6; //
mov.u32 $r6, dVals; //
mul.lo.u32 $r7, $r5, 4; //
add.u32 $r8, $r6, $r7; //
st.global.f32 [$r8+0], $f7; // id:32 dVals+0x0
exit; //
} // foo
--
# 解説要るなら言っとくれ

73:デフォルトの名無しさん
07/09/15 14:33:50
8800だと、128の演算が並列で行われるのでしょうか？

74:デフォルトの名無しさん
07/09/15 15:22:58
>>73
warpを理解しろ

75:デフォルトの名無しさん
07/09/19 18:13:38
cudaで遊ぼうとしてまして、8400GSでサンプルを動かして速さを実感したのですが、
cudaを使ったフリーソフトとかソフトを集めてるサイトとかありませんか？
手始めにmp3エンコーダーのlameのDCT部分をCUFFTで置き換えられないかなと
勉強中なのですが、すでに誰かやってそうで。
公式フォーラムで、Diracデコーダーを実装した人が20倍速くなったと書いてるのでわくわく

76:デフォルトの名無しさん
07/09/19 18:46:15
あー、8400GSでも動くのか。
しかし、WoodcrestXeonだと恐らく速くなりそうもない罠。

77:デフォルトの名無しさん
07/09/21 23:03:28
Cgのことはこちらで聞いて言いのでしょうか
URLﾘﾝｸ(up-sv.ath.cx)
こういうコードがサンプルであったのですが、中のfor文は動くのでしょうか？

現在GPUが無いところでソースだけ打ち込んでいたのですが少々気になって

78:デフォルトの名無しさん
07/09/22 00:21:54
>>75
x264に手を入れてくれｗ

79:デフォルトの名無しさん
07/09/25 01:08:16
CUDA死亡確認
URLﾘﾝｸ(pc.watch.impress.co.jp)

80:デフォルトの名無しさん
07/09/25 02:11:48
PS3でリアルタイムレイトレーシング、デモアプリ公開

IBM：Interactive Ray Tracer for Cell Broadband Engine
URLﾘﾝｸ(www.alphaworks.ibm.com)

IBMより、Cell Broadband Engineで動作するインタラクティブレイトレーシングのデモアプリがリリースされました。
PS3もしくはIBM QS20 Cell blade上のLinuxで動作します。

リアルタイムレイトレーシングのデモ動画はすでに4月に公開されていたものですが、今回デモアプリが公開されたことで、家庭のPS3でも（Linuxの知識があれば）手軽？に試すことが出来るようになりました。

パフォーマンスは、QS20 1台で1080p 1.6M Triangles時にフレームレート2.7fps程度、QS20を7台使って17fpsとなっています。
ということはPS3を1台使用した場合のフレームレートは1.0fpsぐらいでしょうか、公開されている動画ではPS3を3台使用しています。

URLﾘﾝｸ(pocketnews.cocolog-nifty.com)

81:デフォルトの名無しさん
07/09/25 02:47:39
今後数年以内に産業資本主義自体が滅びるからcudaとかps3とか無駄

82:デフォルトの名無しさん
07/09/25 07:04:10
Larrabeeの行く末ってCellが示してる気がするわ。
描画は遅くて使えない
FahじゃX1650XTにも勝てない

83:デフォルトの名無しさん
07/10/02 14:52:31
>>80
PS3を3台ってどうやってデータ渡してんの?
先を予測して時分割でやってんのか。

84:デフォルトの名無しさん
07/10/02 15:08:24
>>83
スレ違い。どう見てもCELLスレ向けです。
--
Cellプログラミングしちゃいなよ2
ｽﾚﾘﾝｸ(tech板)

85:デフォルトの名無しさん
07/10/09 20:50:22
最近CUDAで遊び始めた者です。
ひとつの変数に複数のスレッドから値を足し込むことをうまくやりたいのですが、
スレッド間の同期が取れていないためか、おかしな値が出てしまいます。
（例えば C = A[ty][tx] * B[tx][ty] ）
for文を使うとうまくいくのですが、このfor文がボトルネックになってしまい
困っています。

何かうまい方法を知っている方いれば教えていただきたいです。

86:デフォルトの名無しさん
07/10/09 21:50:00
>>85
【GPGPU】NVIDIA CUDA質問スレッド
ｽﾚﾘﾝｸ(tech板)

そのAやBは、ReadOnlyなのか? だったら読み込みに問題はないと思うんだが。

87:デフォルトの名無しさん
07/10/10 18:21:34
85です。
例に挙げた式、間違ってました。
C += A[ty][tx] * B[tx][ty] でした。申し訳ない。
for文を使う場合は for(i=0;i<BS;i++) C += A[ty][i] * B[i][ty]; こんな感じです。
iはint型変数、BSはブロックサイズです。
for文を使わないと、各スレッドがそれぞれのタイミングでCの値を参照し、計算結果
を足しこんでいるのでしょうか、Cの値が毎度おかしなものになります。
AとBはReadOnlyです。

86さんの誘導先に似たような事例がありましたので参考にしようと思います。
それにしても、スレッドの並列処理に比べてfor文があまりにも遅くて驚きました。

88:デフォルトの名無しさん
07/10/10 22:57:16
すいませんCgのことでちょっとお聞きしたいのですが

3次元テクスチャを使ってデータをやりとりしてるのですが
どうもメモリが解放されていなくて、徐々にメモリ使用率が上がっていってしまいます

普通CPUで3次元テクスチャを使った場合はメモリ使用量は一定なので
GPU側の問題と踏んでいるのですが

同じような症状の方いましたら、解決方法教えてください

89:デフォルトの名無しさん
07/10/10 23:19:54
すいません↑のは

普通にCPUで～
です

nvidiaのサンプル（opengl two texture sample）を実行してみたところ
animationをさせるとメモリが増加していきました。。。
これは仕方が無いのでしょうか…

90:デフォルトの名無しさん
07/10/10 23:43:41
>>87
Cが一箇所だとどうしても並列動作できないねぇ。

もしできるのであれば乗算の結果を(その場で積算せず)リニアにグローバルメモリに保存しておき、
別の関数でその値をまとめるとかいっそ、CPUに転送してCPUで集計するとか。

ぶっちゃけ、そういう積算が必要なくなるようにアルゴリズムを見直すのが一番だけどね。

# どうせなら誘導先に書いて欲しかった。

91:デフォルトの名無しさん
07/10/11 15:22:23
Intel 「GPGPUは失敗する（笑）」
URLﾘﾝｸ(pc.watch.impress.co.jp)

92:デフォルトの名無しさん
07/10/14 18:16:45
二分木で足しこんで行く手はある

93:デフォルトの名無しさん
07/10/30 21:06:02
市販GPUを使ってパスワードを高速クラック
URLﾘﾝｸ(japanese.engadget.com)

94:デフォルトの名無しさん
07/11/13 18:28:19 BE:10105373-2BP(1)
GF8500GT-P256H使うか

95:デフォルトの名無しさん
07/11/13 21:55:28
CUDA 1.1betaが会員に公開されたみたいね。
x64をサポート、しかしVistaはまだだそうだ。

96:デフォルトの名無しさん
07/11/14 09:45:29
Linuxは？できれば*BSDもサポートして欲しいが。

97:デフォルトの名無しさん
07/11/15 21:57:28
GPUつかって
描画と物理演算の二つをやりたいのですが、可能でしょうか。

GPUで物理演算したものを、GPUレイキャスで行う
という感じなのですが

Cgで片方・片方は出来たのですが、それを同時にするのって見当がつかなくて

98:デフォルトの名無しさん
07/11/18 17:05:58
AMDの3800シリーズのデモ（PingPong）では玉の動きを物理処理させつつ高度な光源処理を行っています。

99:デフォルトの名無しさん
07/11/18 23:52:33
>>98
そのサンプルとかありますか？

実際にどう実装しているのか。まだvertex fragmentのシェーダー一つを扱うのにいっぱいいっぱいで

100:デフォルトの名無しさん
07/11/19 12:29:12
URLﾘﾝｸ(ati.amd.com)
URLﾘﾝｸ(www.4gamer.net)
DX10.1の発表と同時位に公開されるんじゃないかな？
これはDX10.1のデモだし。
ソースが出るとすればATI SDKのページかな。
URLﾘﾝｸ(ati.amd.com)
システムメモリにアクセス頻発するようなゲーム物理だと
WDDM2.1（DX10.1）未対応の場合、GPUがストールしまくりで
実用的ではないらしいけどね。

101:デフォルトの名無しさん
07/11/21 12:55:42
CUDA 1.1 beta が表に出てきましたよ。
x64サポートされてますよ。
Vis未サポートですよ。

102:デフォルトの名無しさん
07/12/08 12:30:19
ゲフォ8kって、AGPは無くてPCI-eに移行しないといけない
のな。すると連動してS-ATAに移行させられてdebian系が
起動しない罠。
FreeBSDでCUDAしたい…。

103:デフォルトの名無しさん
07/12/09 21:08:47
>debian系が起動しない罠。
いつの時代の人？

104:デフォルトの名無しさん
07/12/09 23:32:31
woodyでも使ってんのかね

105:デフォルトの名無しさん
07/12/12 10:42:27
>>102
【GPGPU】NVIDIA CUDA質問スレッド
ｽﾚﾘﾝｸ(tech板)

106:デフォルトの名無しさん
07/12/24 13:17:16
AMDもCALとBrook+きたようだ
URLﾘﾝｸ(ati.amd.com)

107:デフォルトの名無しさん
07/12/24 13:51:35
vistaだとランタイムたりねぇって怒られる・・

108:デフォルトの名無しさん
07/12/25 22:09:12
URLﾘﾝｸ(pc.watch.impress.co.jp)

109:デフォルトの名無しさん
07/12/26 08:12:57
べつにハード的な統合は一番最後で構わんのだし
CALとBrook+が出たことで、今後将来的なAMD GPUでもサポートされる
今はこっちを一般的にするほうが課題だな

110:デフォルトの名無しさん
07/12/29 12:02:21
次世代（nVIDIA、AMDどっちでも良い）は、奮発して高いGPU買いたいよね。

111:デフォルトの名無しさん
08/01/13 00:20:16
あけおめ、CUDAのWorldCommunityGrid　Boincクライアント用のアプリを誰か書いてくれ

112:デフォルトの名無しさん
08/01/15 10:17:49
>>111
kwsk

113:デフォルトの名無しさん
08/02/05 09:17:50
流れが止まったな

114:デフォルトの名無しさん
08/02/05 14:45:38
今だから聞きたいんだが、

お前らAMDとNvidiaのどっちが優れている、又はスタンダードになると思う？

GPUのシェーダー性能はAMDが優れていて、開発環境としてはNvidiaのCUDAのほうが普及している。

DX10.1対応で先行しているAMD、今度Phsixを買収するNvidia。

ぱっと見、抜きつ抜かれつでいい勝負しているように見えるが、どうなんだろうか。

115:デフォルトの名無しさん
08/02/05 21:50:23
犬VidiaがCPUも開発すれば良いよ。
犬糞動けば良いんだからさ。

116:デフォルトの名無しさん
08/02/06 03:19:55
ゲーム屋からみると、開発リソースはnVidiaが勝っているように思えるな。
結局今は様子見しかない。
GPGPU か、 hyper parallel coprocessor かは、先が見えるまでに何年もかかるんじゃない？

117:デフォルトの名無しさん
08/02/07 14:13:03
extern　__shared__　int　shared[];
でsharedメモリを使えますが、複数の配列を使いたい場合はどのようにすればよいのでしょうか？

118:デフォルトの名無しさん
08/02/07 14:24:39
>>117
cudaの話ならCUDAスレでどうぞ。
ｽﾚﾘﾝｸ(tech板)

119:デフォルトの名無しさん
08/02/09 21:31:27
もうさ、GPUを直接プログラミングしたほうが早くね？

120:デフォルトの名無しさん
08/02/09 22:13:13
公開されていれば…

121:デフォルトの名無しさん
08/02/09 22:40:49
intel全部公開? URLﾘﾝｸ(intellinuxgraphics.org)
amd準備中らしい?
nvidia ?

cryptにひっかかる回りはどうなってるかしらないが、
その部分はブラックボックスになるんだろう。

122:デフォルトの名無しさん
08/02/09 22:56:30
いや、こんなしょぼいの公開されてもやる気茄子

123:デフォルトの名無しさん
08/02/09 23:03:56
結局ハード仕様書がないことにはAPIの速度は測れても
どの部分がどの程度動くかを定量的に測るのは難しいってことだろう。

124:デフォルトの名無しさん
08/02/17 12:10:57
GPGPUの研究ってどこの機関が一番進んでるの？
企業名とか機関名とか教えて

大学でGPGPUやってたけど大学レベルはどこもダメだった

125:デフォルトの名無しさん
08/02/17 12:18:28
>>124
NVIDIA

126:デフォルトの名無しさん
08/02/17 12:23:54
駄目ならむしろチャンスなんじゃないのか。
設備的にもパソコン程度で済むものだし個人のアイデアレベルでも世界に出られるぜ、素養は必要だけどさ

127:デフォルトの名無しさん
08/02/17 14:44:18
cutCreateTimerなどタイマー関係のリファレンスってどこにあるの？

128:デフォルトの名無しさん
08/02/17 15:35:20
>>127
CUDAについては隔離スレがあるからそちらで。
cutなんちゃらはドキュメントが無かったと思うけど、大したことしていないからソースを読めばいいよ。

>>124
大学で結構真面目に取り組んでいるところもあるよ。
今度産学共同でやることになるかもしれないから名前は出さないけど。

129:デフォルトの名無しさん
08/02/17 16:12:12
普通にstanfordが一番進んでるだろ

130:デフォルトの名無しさん
08/02/17 19:20:32
AMD（旧ATI）のカードは何でプログラムを書けばいいの？CUDAみたいのはないの？

131:デフォルトの名無しさん
08/02/17 21:50:19
CALとBrook+を使うんじゃないかな？

132:デフォルトの名無しさん
08/02/22 06:40:35
GeForce　9600　GTは64ビット計算できますか？

133:デフォルトの名無しさん
08/02/22 10:10:29
出来ません

134:デフォルトの名無しさん
08/02/22 11:16:14
改良するんじゃなかったっけ?

135:デフォルトの名無しさん
08/02/22 12:19:14
口先だけのfudです

136:デフォルトの名無しさん
08/02/22 13:52:32
FireStreamは倍精度が使えるらしいけど、HD38x0で使えなきゃ意味がないよな。

137:デフォルトの名無しさん
08/02/22 23:40:24
意外かもしれないが、限定条件付で64ビット実数もCUDAで計算できる罠。
それはさておき、9600GTでCUDAが使えると言うアナウンスが未だないんですが。

138:デフォルトの名無しさん
08/02/23 07:19:06
あれ、両社とも倍精度実装するんじゃないんか？
現世代買わずに待ってたのに。

139:デフォルトの名無しさん
08/02/23 12:05:37
Brook+でdouble使おうとしたらストリームデータとしては使えませんと言われたよ。

140:デフォルトの名無しさん
08/02/23 13:07:08
それは「Brook+」とやらが対応していないと言うことだろ。GPUが対応しているかどうかとは別の問題だ。

141:デフォルトの名無しさん
08/02/26 18:56:43
>>128
灯台のK塚研？
あそこってK塚さんよりも、その他の学生・助手の天才が
GPUを扱ってるんでしょ？

あの大学の産学プロジェクトは、でかい花火をばーっと揚げて
中身が伴わないから好かん。

つーか、GPGPUやGPUを扱うためのTIPが少ない…
JAPANは当然だけど、海外の論文も上っ面だけで
いざ実装の部分がまったくない。

周りも聞けないのばっかだし、みんなどこで情報得てるんだ？

142:128
08/02/26 23:44:10
>>141
どことは言えないけれど、そこじゃないよ。

どことは言わないけれどCUDAを使った高速化を商売にしている会社があるんだけど、
そこが組んだロジックよりも私が組んだロジックの方が速かったりする事実。
どこも苦労しているんだろうねぇ。

143:デフォルトの名無しさん
08/02/27 00:04:24
どこも暗中模索・切磋琢磨してるんだねぇ

つーか大学の研究室じゃなくて
今、それをやってる研究者を知りたいわ
教授レベルじゃなくて、学生・ドクター・助手レベルで
論文も数が少ないし、ノウハウなんて個人が所有してるのしか無い
仲が悪くなれば、脱走して終了なんていくらでもあるしなぁ

というか128のロジックをうｐってくれｗ

144:128
08/02/27 00:13:21
>>143
CUDAスレに、断片くらいなら載せてたかも知れず。
まぁ、落ち着いたら一般化できるノウハウはまとめるかも知れないけれど。

145:デフォルトの名無しさん
08/02/27 02:39:38
>>142
とあるシンポジウムに来ていたあの企業かしら…

146:128
08/02/28 11:51:55
>>145
私のことなら違いますよん。なんせ私はシンポジウムに出てないし、
私のつとめる会社でCUDAをまともに使えるのは私だけだし。

147:デフォルトの名無しさん
08/02/28 22:33:41
これはwwwww

148:デフォルトの名無しさん
08/03/05 21:00:59
さて明日はCUDA祭ですね

149:デフォルトの名無しさん
08/03/05 23:43:28
なんで？

150:デフォルトの名無しさん
08/03/06 00:45:39
そのまんま。これでしょ。
URLﾘﾝｸ(www.loopinc.jp)

151:デフォルトの名無しさん
08/03/06 19:27:01
CUDA プログラミングガイドの日本語訳版が出たけど
急いで作ったんだなぁというのがよく分かるなこれ…

とりあえず乙ということで

152:デフォルトの名無しさん
08/03/06 22:53:30
どこ？どこ？

153:デフォルトの名無しさん
08/03/06 23:07:33
URLﾘﾝｸ(www.sei.buaa.edu.cn)
Workshop on Architectures and Languages for Throughput Applications

Program Committee
Carmean Douglas Intel Corporation
Tom Conte North Carolina State University
Mike Houston AMD
Michael McCool RapidMind Inc.
Michael Garland Nvidia
Sun Chan Simplight Nanoelectronics
Xiaohua Shi Beihang University

154:デフォルトの名無しさん
08/03/07 00:10:34
>>152
URLﾘﾝｸ(www.nvidia.co.jp)
ほい

155:デフォルトの名無しさん
08/03/07 01:09:59
カンファレンス行ってきました
受付のお姉さん方皆様綺麗でスタイル良くて大満足でした

156:デフォルトの名無しさん
08/03/07 01:12:09
宣伝しないと言ってましたがやっぱり少しだけ宣伝入ってましたね

157:デフォルトの名無しさん
08/03/07 01:17:39
宣伝は仕方ないかなって感じかなぁ
vista対応はいつすんだ？の質問はわらた

158:デフォルトの名無しさん
08/03/07 04:23:49
マルチ・コアが非常に高いメモリ帯域幅によって動作されている状態で、今日のGPUはグラフィックスと非グラフィックス処理の両
方のための信じられないリソースを提案します。

なんじゃこりゃ

159:デフォルトの名無しさん
08/03/07 06:04:15
>>155
うpれ！

160:デフォルトの名無しさん
08/03/07 15:12:29
Mike Houstonか

161:デフォルトの名無しさん
08/03/19 06:28:41
誰かGeForce　9800　GX2買った？

162:デフォルトの名無しさん
08/03/19 07:49:55
えーと、8800GTS*2?

163:デフォルトの名無しさん
08/03/19 09:19:42
9600GTを買おうと思っている。
Geforce　9　って公式にはCUDAはまだサポートされていないけれど
使おうと思えば使えるの？

164:デフォルトの名無しさん
08/03/19 09:43:17
フォーラムには使えるような事が書いてあったきがす

165:デフォルトの名無しさん
08/03/19 10:55:11
俺は 9800GTX 狙い。
期待はずれな気もするけど・・・

166:デフォルトの名無しさん
08/03/19 22:10:37
G90世代を買うなら、8800GTか8800GTS(512MB)でいい希ガス。
そろそろ在庫処分だから値段も崩れると思うし。
と言うのも、夏にはG100世代が待っているからなんだけど。
プロセッサ数も然ることながら、倍精度も来るようだしね。

167:デフォルトの名無しさん
08/03/22 12:09:57
AMD Stream SDK v1.0 beta
XP 32bit版/64bit版

168:デフォルトの名無しさん
08/03/22 16:14:34
>>166
それだと、ComputeCapabilityが1.0だろ
どうせなら、1.1のやつを選んだほうがいいよ

もうすぐ、1.5がでるという噂もあるけど

169:デフォルトの名無しさん
08/03/22 19:29:16
>>168
その2つは1.1なはず

170:デフォルトの名無しさん
08/03/23 23:49:59
>>167
ソース、キボンヌ。
てかLinux版は無いの？

171:デフォルトの名無しさん
08/03/24 01:33:47
このスレの住人なら知っていますね、あの糞開発ツールのことを

・自分のプログラムのバグなのかコンパイラのバグなのかわからない
・他の仕事に応用できない糞開発ツールの独自世界を必死に学習している
・テキストエディタで書いたほうが効率的なのに糞UIツールを懸命に使っている
・糞開発ツールを批判すると「性格が悪いから糞ツールを批判するんだ」と言われる

糞だけど、政治的な理由で無理やり使わされているんですよね。
もう、あんな厨の作った糞ツールを我慢して使うのはやめましょう。

・糞開発ツールを部下に押し付ける上司の命令は無視しましょう。
　上司は糞開発ツールが使われる実績を作ることであの会社のごきげんをとっているのです。
・糞開発ツールを使わせる上司の下では働けません、と上司の上司に直訴しましょう。
・あの糞開発ツール提供会社には「おたくの糞開発ツールは話にならない」と突き放しましょう。
　バグレポートなどしてはいけません。改善要求などもってのほかです。
　あの会社はあなたたちのことをテスター/モルモットとしか思っていません。
・あの会議で「糞開発ツールを使ったら生産性がxx％アップしました」
　なんて話が出たら力強く机を叩き、会議室を出ましょう。
　あの人たちは糞開発ツールをマンセーすることで立場を確保しているのです。

糞な開発ツールを糞だと言える、そんな当たり前の環境をみんなの力で取り戻しましょう。

172:デフォルトの名無しさん
08/03/24 01:39:03
知らんがな

173:デフォルトの名無しさん
08/03/24 01:41:47
>>171
PS2のgccの事かｗ

174:デフォルトの名無しさん
08/03/24 04:56:28
マ板のコピペだろ。
統合開発環境なんて、どれもあてはまりまくりだが。

175:デフォルトの名無しさん
08/03/24 05:40:37
>>170
URLﾘﾝｸ(ati.amd.com)

176:デフォルトの名無しさん
08/03/24 10:46:34
>>168
CUDAスレに載ってる一覧表参照。
少なくとも、8800GTは1.1。使用チップが同じと言う点からの類推で8800GTS(512MB)も同様。
# 8800GTSは、320MB/640MBがG80なのでそちらは1.0だから要注意。

1.5がもうすぐって言ってもなぁ。少なくとも数ヶ月は先な悪寒。

閑話休題、CUDAスレの件の一覧表見て、「手元の一覧表を更新できる♪」と思ったら
どうも内容に見覚えがある。出所はどう見ても私です。本当にありｇ（ｒｙ……（：；

177:デフォルトの名無しさん
08/03/24 10:54:19
Dominik の GPGPU tutorial 読んで重力相互作用シェーダ(fp40用)を書いたん
だが、2つ問題があった。

* for { for { 相互作用計算 } } ループで 128 x 128 など大きな値にすると
途中で抜ける →各テクスチャブロック 64 x 64 ごとの ping-pong (swap)
技で解決
* ブロックを 4 x 4 = 16 回など swap を増やすと計算結果が変になる→ swap時
に glFinish() 待ちで解決

glFinish を glFlush に変えると全然だめだった。計算順序が守られてかつ
glFlush みたいに軽い方法ないかな

178:デフォルトの名無しさん
08/03/25 10:12:44
>>170
URLﾘﾝｸ(forum.beyond3d.com)

We are working on Linux support. Getting all the i's dotted and t's crossed
with different kernel/driver/chipset combinations is more "interesting" on linux than XP/Vista.

mhouston
System Architect, AMD

179:デフォルトの名無しさん
08/03/27 20:16:35
URLﾘﾝｸ(folding.stanford.edu)

> The client runs on all hardware supported by the AMD Compute Abstraction Layer (CAL),

> The client runs on Windows XP 32-bit/64-bit and Vista 32-bit/64-bit.

どうやらVista対応は間違いなさそうだ

180:デフォルトの名無しさん
08/04/03 01:49:03
radeonじゃ動かないかね？

181:デフォルトの名無しさん
08/04/03 07:09:54
2400以上なら動くよ

182:デフォルトの名無しさん
08/04/10 23:39:47
NL-Means filter
URLﾘﾝｸ(kishibe.dyndns.tv)

Ver0.01からはGPUによる並列計算処理に対応いたしました

183:デフォルトの名無しさん
08/04/12 18:53:49
そういやR600向けFah来てたな

184:デフォルトの名無しさん
08/04/15 02:02:32
CAL1.00.2 beta、RV670で倍精度演算でけたよー

185:デフォルトの名無しさん
08/04/17 21:40:09
CUDA 2.0 beta来たね。Vistaで動いてるそうな。
CALもFAH GPU2でVista対応のDLLがおまけで付いて来るから
これ使うと1.00.2 betaのサンプルが動いたりする。
両社ともあとは正式公開を待つばかりだ。

で、Linux版CALはまだですか？
Catalyst来月号でfglrxが大きく変わるって話だけどこいつですかね？それともCrossFire？adlってなんぞー

186:デフォルトの名無しさん
08/04/21 17:15:44
CUDA2.0 for Linuxはドコー？？

187:デフォルトの名無しさん
08/04/21 19:17:28
2.0になって何が新しくなったとか言うドキュメントはないの？

188:デフォルトの名無しさん
08/04/21 19:17:35
Linuxはここだ
URLﾘﾝｸ(forums.nvidia.com)

189:デフォルトの名無しさん
08/04/22 00:18:52
情報THX! CUDAスレにも転載させてもらいま。

190:デフォルトの名無しさん
08/04/27 22:48:52
AMD Stream SDK v1.0
ってドキュメントどこにあるの？

概念情報しか載ってなくて困ってる
あとWindowsしか対応しとらんの？

191:デフォルトの名無しさん
08/04/27 23:37:22
> ってドキュメントどこにあるの？
インストールしろ。まずはそれからだ。

> あとWindowsしか対応しとらんの？
いまんとこそう。

192:デフォルトの名無しさん
08/04/27 23:41:36
>>191
何それって感じだなｗ
CUDAですら当初からLinuxサポートしてたのに

193:デフォルトの名無しさん
08/04/28 02:11:53
> CUDAですら
CUDAとCTM以外になにかあったっけ？

194:デフォルトの名無しさん
08/04/28 12:26:12
GCC,spice

195:デフォルトの名無しさん
08/04/28 22:25:44
CTMのLinux版出すのか問い合わせたけど
ドライバの問題で無理って回答を貰った
半年後はどうかと聞いたがそこまで先の
ことは言えないっぽいｗ

196:デフォルトの名無しさん
08/04/29 09:13:39
CTMなんて、もう作ってないが？

197:デフォルトの名無しさん
08/04/29 19:09:02
良いスレsage

198:デフォルトの名無しさん
08/04/29 19:15:54
sage

199:デフォルトの名無しさん
08/05/09 15:48:49
AMDのStreamSDKをVista x64で使えたって人います？

200:デフォルトの名無しさん
08/05/09 17:38:59
Folding@HomeのGPUクライアントに付いて来るCALのDLL使えばいける

201:デフォルトの名無しさん
08/05/09 17:52:12
Linux版のSDKもそろそろ出るとさ

202:199
08/05/09 18:23:54
Windows: V6 Beta GPU2 (ATI 26xx, 3xxx, and later) clients の 6.11 beta3を入れてみたけど
dllファイルは一切なかったです。以前と変わったのかな…
Stream SDKにあるサンプルをプロンプトで実行してみたんだけど、エラーは出ないのだけど
結果も何も出ないから実行できてるのかどうかよく分からない。

203:デフォルトの名無しさん
08/05/09 19:34:49
一度実行するとWUと一緒にDLLがダウンロードされる。
スタートメニューにデータフォルダへのショートカットがあるから開いてみ。

204:デフォルトの名無しさん
08/05/09 20:08:59
見つかりました。こんなところにあったとは…

しかし、CALのlibフォルダにFolding@Homeのdllつっこんで
AMDのデモ実行したらamdcalcl.dllが見つからないと言われちゃった。
（ってことは、ちゃんと今までは実行できていたってことか？）

う～ん難しいな～
βだからこんなものなのだろうか…

205:デフォルトの名無しさん
08/05/09 21:00:18
それもセットでDLされてない？
俺がやった時はついてきたんだがな。

206:デフォルトの名無しさん
08/05/09 21:05:01
ああいや、付いて来てたのかな。
だとしたらamdcalclだけか、両方とも実行ファイルと同じ
ディレクトリにたたき込んでみ

207:デフォルトの名無しさん
08/05/11 19:49:19
ノートPCでCUDAに向いてる機種って何？
浦島太郎なので、グラフィックchipの型番
とかワカンネ。
出張用に、軽くて携帯性と電池の持ちが良い
方が嬉しいけど。

あっ、もちろんLinux動くこと。

208:デフォルトの名無しさん
08/05/11 20:13:56
>>207
軽くて大きくなくて消費電力も少なめで、できればNVIDIAのGeForce8600MGS以上のVGAを搭載している機種。

209:デフォルトの名無しさん
08/05/12 05:38:10
＞VGAを搭載している機種。

そんなｽﾍﾟｯｸ作ってﾈｰﾖ

210:デフォルトの名無しさん
08/05/12 07:30:43
VideoGraphicAdapterですね。

211:デフォルトの名無しさん
08/05/12 09:46:54
Acceleratorとも言う

212:199
08/05/12 14:22:56
Folding@Homeのdllではなぜか駄目で元のsdkについてきたものに戻すと、
とりあえずエラーはでないみたいです。
VisualStudioでx64としてBrook+のGuideにあるサンプル(Sum.br)をコンパイルすることはできているのですが、
実行をしてもプロンプトが一瞬現れるだけでなんの結果も得られない状況です。
（他の元から入っているサンプルの.exeを実行しても同じ）

printfの結果さえプロンプトに表示されていないので、どう見ても実行されていないように見えるのですが
どうなんでしょうか…

213:デフォルトの名無しさん
08/05/12 14:36:07
プロンプトが一瞬現れるのなら、結果も一瞬現れているのではないか?
ダブルクリックで起動せずに、コマンドプロンプトから実行してみては?

214:199
08/05/12 14:40:22
コマプロ上からもやってみたのだけれど、一切のエラー・警告もなく静かに終わるんです。
Sum.br内のreturn 0; の前にprintf("test");　を入れてるのでちゃんと実行されてるなら
最低testが表示されるはずなのにされないんですよ。

ドウナッテルノ？

215:デフォルトの名無しさん
08/05/12 18:00:30
Brook+の中かCALの中でexitでも呼んでるんでしょ。

俺のやった方法は以下の通り
1.64ビット版Vista SP1をセットアップ,ドライバインストール
2.F@Hをインストール
3.F@Hを起動してamdcalrt.dll,amdcalcl.dllがDLされていることを確認したら終了する
4.適当にディレクトリを作成してXP64にインストールしたSDKからサンプルのバイナリ,Brook+のdllをコピー
　（VistaにSDKは入れてない）
5.F@Hのamdcalrt.dll,amdcalcl.dllもコピー
6.実行

216:199
08/05/12 19:07:05
４.の（VistaにSDKは入れてない）というところが違う所ではあるのですが、
Vista x64　SP1にSDKをインストールして、後はそこから１～６に沿ってやってみましたが
真っ黒なプロンプトが一瞬立ち上がるだけで前と変わらないみたいです。
（コマンドプロンプト上から実行しても同じ）

手詰まりなので、正式版でるまでしばらく待ってみます。
アドバイスして頂き、ありがとうございます。

217:デフォルトの名無しさん
08/05/12 21:40:50
>>216
多分SDKをインストールすると環境変数を頼りにSDKのdllを参照しに行かされてるんじゃないかなぁ。
コマンドプロンプトから
>set CALROOT=
>hoge.exe
でやってみたらいけそうな匂いがするけど。もしくはSDKの方のdllをリネームしておくとか。
あとはCatalystのバージョンくらいか。役に立てずすまんね。

218:199
08/05/12 22:43:37
インストールフォルダのlib中にあるdllファイルをF@Hのものに置き換えると
dllが見つからないというエラーがでるようになったので駄目な気がします。
>217　のようにしてプロンプトから実行してみましたがやはり駄目でした…
Catalystは現最新の8.4なのですが、どうでしょう。

ちなみに、VisualStudio上から強引にCPUエミュレートでコードを走らせるように設定したら
想定どうりの動きをしたのでコードの間違いや.brファイルの変換までは問題ない
と思われます。たぶん

ムゥ～

219:デフォルトの名無しさん
08/05/12 23:59:40
うーん、何で俺の環境だと動いてんだろ。むしろこっちがおかしいのか？
なんか特別なことやったかなぁ。

220:デフォルトの名無しさん
08/05/13 12:26:10
>>214
問題の切り分けがヘタだな。
printf() だけなら表示されるのか？ダメならそれ以前の問題。
printf() を先頭に持っていって表示されるか？されないならちょっと面倒かも。
表示されるなら、printf() の位置を移動して、表示されなくなる境界を探すとその近辺に（間接的かもしれないが）問題がある。

221:199
08/05/13 14:34:48
>220
printf()のみソースに記述した場合も変数宣言直後にprintf()をした場合ともに、状況は
変わらないようでした...

CPUエミュの場合と、GPUの場合とでログをとってみました、こんな感じです。
CPU:
Runtime::CreateInstance((null), 0000000000000000, 1)
Brook Runtime starting up
Runtime::Runtime()
stream::stream(000000014001C228, ...)
Runtime::GetInstance((null), 0000000000000000, 0)
Runtime::GetInstanceRef()
CPURuntime::CreateStream(1, 000000000027A360, 2, 000000000027A440, 0)
CPUStream::CPUStream(1, 000000000027A360, 2, 000000000027A440)
StreamInterface::getElementSize()
CPUStream::getFieldCount()
........続く

GPU:
Runtime::CreateInstance((null), 0000000000000000, 1)
Brook Runtime starting up
CALRuntime::create(0000000000000000)
Runtime::Runtime()
CALRuntime::CALRuntime()
CALContext::create(0000000000000000)
CALContext::CALContext()
CALContext::initialize(0000000000000000, 0)
これだけ
GPUの方は、初期化処理で止まってしまっていたので、やはり環境面で何かありそうな感じです。

CPUStream::getIndexedFieldType(0)
getElementSize(1)

次ページ