GPGPU#2

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 04/30 13:20 / Filesize : 182 KB / Number-of Response : 881
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

GPGPU#2

1 名前：デフォルトの名無しさん [2007/08/29(水) 17:08:58 ]: いつの間にやらCPUを超える演算性能を持ってしまったGPUに計算させてみるという
GPGPUについて語りましょう

前スレ
GPGPU
pc11.2ch.net/test/read.cgi/tech/1128780920/

関連スレ
pc11.2ch.net/test/read.cgi/tech/1167989627/

参考リンク
総本山? gpgpu.org
www.gpgpu.org/
CUDA
developer.nvidia.com/object/cuda.html
GPUをCPU的に活用するGPGPUの可能性
pcweb.mycom.co.jp/articles/2005/09/06/siggraph2/
10 名前：デフォルトの名無しさん [2007/09/02(日) 17:41:22 ]: わ～い10ゲットだ！
>>9がんばって～！
11 名前：デフォルトの名無しさん mailto:sage [2007/09/03(月) 04:27:27 ]: どっかにCUDAのサンプルソースの森とか、CにおけるK&R
みたいな入門書無いの～？
12 名前：デフォルトの名無しさん mailto:sage [2007/09/03(月) 09:09:35 ]: >>11
CUDAのSDKについてくるサンプルソースじゃダメか?
あれはある意味、宝の山だぞ。

まぁ、私程度でよければ知りたい内容によってはここで回答しても構わんが。
13 名前：デフォルトの名無しさん mailto:sage [2007/09/03(月) 13:38:19 ]: CUDAでの基本をまとめてくだしあ
14 名前：デフォルトの名無しさん mailto:sage [2007/09/03(月) 14:26:49 ]: >>13
・元のプログラムがあるなら移植前にきちんと整理
・GPU上で動く関数からはメインメモリを参照できない。どのデータをGPUに渡すか熟考すべし
・変数名に工夫するなどして、CPU側メモリかGPU側メモリか常に意識するように
・仮令GPUボードを持っていようとも、馴れないうちはエミュレータも活用しよう
・その為にもデバッガを含めて開発環境にも慣れておこう
・サンプルからノウハウまで、それなりに資料はそろっているからきちんと読めば途は拓ける
15 名前：デフォルトの名無しさん mailto:sage [2007/09/03(月) 17:27:24 ]: >サンプルからノウハウまで、それなりに資料はそろっている
URLをお願い
16 名前：デフォルトの名無しさん mailto:sage [2007/09/03(月) 19:07:40 ]: >>15
ttp://developer.nvidia.com/object/cuda.html

サンプルはSDKに含まれている。
取り敢えず、bitonicSortとかsimpleTexture辺りは短いから読みやすいかと。
ノウハウはCUDA Programming Guide 1.0に詳しい。
英語が苦手だったら勉強するチャンスだと思ってがんばってくれ。
そうそう、用語の偏りが激しいので要注意で。
17 名前：デフォルトの名無しさん mailto:sage [2007/09/03(月) 19:13:15 ]: CUDAなんかやってもMUDA
18 名前：デフォルトの名無しさん mailto:sage [2007/09/03(月) 23:53:16 ]: CUDAできるカードCUDAさい。
ていうか、どの型番のカード（GPU）からCUDAできるの？
19 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 00:27:28 ]: >>18
GeForceならこの辺。
--
Core Clock (MHz) Memory Clock (MHz) Auxiliary Power Connectors Number of Slots
GeForce 8800 Ultra 684 1161 2 2
GeForce 8800 Ultra 612 1080 2 2 ←リファレンス
GeForce 8800 GTX 575 900 2 2 ←リファレンス
GeForce 8800 GTS 540 840 1 2
GeForce 8800 GTS 500 800 1 2 ←リファレンス
GeForce 8600 GTS 710 1000 1 1
GeForce 8600 GTS 675 1000 1 2
GeForce 8600 GTS 675 1000 1 1 ←リファレンス
GeForce 8600 GT 590 900 0 1
GeForce 8600 GT 540 700 0 2
GeForce 8600 GT 540 700 0 1 ←リファレンス
GeForce 8500 GT 450 400 0 1
GeForce 8500 GT 450 400 0 1 ←リファレンス
--
QuadroFXは忘れた。

で、お値段は8600GTSで3万弱、8600GTなら1.5万くらいからメモリ増強版の2.5万程度まで。
それより上にしても並列数は増えるけどクロックは速くならないからピーク性能を狙わないなら
コストパフォーマンス的にもサイズ的にも8600GTS/GTでいいかと。
尚、電源に余裕がなくて補助電源コネクタからの供給ができないなら8600GT以下で。
20 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 01:11:14 ]: CUDAらん! 実にCUDAらん!
21 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 11:26:30 ]: 個人的には
>ていうか、どの型番のカード（GPU）からCUDAできるの？
っていう質問が出てくること自体、凄く不思議なんだが。
おもいっきり、プログラミングガイドにかいてあるけど。
22 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 11:37:45 ]: プログラミングガイドを読んでないから出てくるんだろ
何が不思議なんだよ
23 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 16:08:48 ]: 英語って時点でばっくれる奴がいることも忘れんでください

致命的だけどな
24 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 16:36:38 ]: >>23
英語だからよく判らないってのは納得できるのだけど、
全体眺めるだけでAppendixAにスペック書いてあるの位は目に留めてほしいなぁ。
25 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 16:43:52 ]: 英語→うわっめんどくせ→2chで聞いたほうがはえーや

という奴だろうな
似たような奴が研究室にいて

「なー、この関数の使い方教えてよ」
とググれば済むことまで効いてくる。俺が必死こいて組んでるときに
それで一度ケンカになったが

ググれば済むことを効いてくるやつの神経わかんねーぐちすまね
26 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 17:02:45 ]: ぐぐるのも面倒いんだろうきっと
27 名前：デフォルトの名無しさん mailto:sage [2007/09/04(火) 21:27:49 ]: B型？
28 名前：デフォルトの名無しさん mailto:sage [2007/09/06(木) 11:13:19 ]: 血液型と性格に関係はありません。

それはそうと、CUDAでBitslice DES実装したのないかな。
29 名前：デフォルトの名無しさん mailto:sage [2007/09/06(木) 12:42:19 ]: >>28
そうとも言えないよ。アイザック・アジモフに拠れば、「そういうもんだ」という環境で育てばそうなるそうだから。
30 名前：デフォルトの名無しさん mailto:sage [2007/09/06(木) 17:08:22 ]: B型だと思ったらA型でしたー

でもそんなの関係ねぇ！
31 名前：デフォルトの名無しさん mailto:sage [2007/09/06(木) 18:11:38 ]: 血液型信仰（笑）
32 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 04:32:57 ]: ベクトルプロセッサというのが良く分からん
マルチプロセッサと何が違うの?
33 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 04:48:32 ]: ベクトルプロセッサは同時に複数のデータを並列して処理するプロセッサ
それに対して一つのデータを処理するのがスカラープロセッサ
マルチプロセッサは一つのコンピュータ内にプロセッサを複数搭載している事
34 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 04:49:57 ]: っ[SIMD]
35 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 04:51:51 ]: SIMDはプロセッサ内におけるベクトルプロセッサ的な要素
36 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 05:07:52 ]: >>33
>ベクトルプロセッサは同時に複数のデータを並列して処理するプロセッサ
>それに対して一つのデータを処理するのがスカラープロセッサ
>マルチプロセッサは一つのコンピュータ内にプロセッサを複数搭載している事

こんな夜中にレス付いて吹いた
スカラープロセッサ*マルチプロセッサ=ベクトルプロセッサ
にはならないの?

>>34
>SIMD
Single Instructionってどのくらいまでならsingleなの?
50行くらいの関数までならsingleなの?
まさか、addとかmovとかxorというレベル?
37 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 05:16:54 ]: ＞スカラープロセッサ*マルチプロセッサ=ベクトルプロセッサ
＞にはならないの?
ならない
＞まさか、addとかmovとかxorというレベル?
うん
38 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 06:05:18 ]: あらかじめ大量のデータを用意しておいて、
その大量のデータを別の大量のデータに変換する事が一発で出来るという事?

うーん、逐次処理には向かないのかなぁ?
39 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 07:53:54 ]: まぁ大体そういう事だね。
最近のほとんどのパソコンのプロセッサにはスカラーとベクトル両方の仕組みが搭載されていて、
適材適所で使い分けられるようになってる。
40 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 08:00:18 ]: >>38
高々4つずつ同時に処理してもSIMD。
41 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 08:39:31 ]: 8192bit VLIWとかならベクトル処理も並列処理も同じアーキテクチャで
実現できるな。並べる命令が同じものならベクトル処理、違うものなら
並列処理。
42 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 11:06:59 ]: GPUでzip解凍すればよくね？
43 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 15:14:46 ]: 違う命令が並べられるならMIMD
44 名前：デフォルトの名無しさん mailto:sage [2007/09/07(金) 16:18:32 ]: GPGPUはSPMD
45 名前：デフォルトの名無しさん mailto:sage [2007/09/12(水) 11:34:54 ]: うへぇ、CUDAの文法がまるっきりCのそれだからつい、騙されて梃子摺ったぜ。
デバイス側のメモリを巧く使うのは難しいな。
しかも、それが動かしてみないと判らないし、エラーメッセージもunspecified failureだし……
46 名前：デフォルトの名無しさん mailto:age [2007/09/12(水) 14:06:51 ]: 昨日の洗脳集会に参加した人は素直に挙手しなさい。
47 名前：デフォルトの名無しさん mailto:sage [2007/09/12(水) 15:19:24 ]: 行きたかったけど行けませんでした。
資料ください
48 名前：デフォルトの名無しさん mailto:sage [2007/09/12(水) 15:25:56 ]: >>46
申し込んだのに定員オーバーで断られた俺が来ましたよ
49 名前：デフォルトの名無しさん mailto:sage [2007/09/12(水) 21:36:10 ]: tokyo-uのやつ？どんな話だったん？
50 名前：デフォルトの名無しさん mailto:sage [2007/09/12(水) 22:09:05 ]: >>49
簡単なレポならここに
pc.watch.impress.co.jp/docs/2007/0912/nvidia.htm
51 名前：デフォルトの名無しさん mailto:sage [2007/09/12(水) 22:18:23 ]: 全く行く価値が無かった
単なる宣伝に終始

家でUIUCのコースをﾏﾀｰﾘ聞いたほうが何倍もマシ
courses.ece.uiuc.edu/ece498/al1/Archive/Spring2007/Syllabus.html
52 名前：デフォルトの名無しさん mailto:sage [2007/09/12(水) 22:40:07 ]: >>45
kwsk
資料がプログラミングガイドしかないからどんな情報でも欲しい。
53 名前：デフォルトの名無しさん [2007/09/14(金) 00:20:58 ]: ttp://journal.mycom.co.jp/articles/2007/09/13/nvidia/001.html

>これをTeslaではWarp(ワープ)と呼んでいる。

ワープ（笑
54 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 00:35:45 ]: 日本語ではワープでもいいんじゃないか。
55 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 00:57:39 ]: >>53
どこが笑いどころなの？
56 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 01:07:59 ]: >>53が笑い者
57 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 01:20:03 ]: OS/2でも笑えるんじゃないか。うらやましいヤツメ
58 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 02:32:34 ]: ヲープ（笑）
59 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 10:34:46 ]: まぁ外人相手にワープと言ってもﾊｧ?な顔されるだろうな
60 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 11:18:49 ]: トレッキーに通じないわけが無かろうが。
61 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 20:58:34 ]: CUDAって結局8800以外に何で使えるの？
この後出る予定の8700とか対応するんだろうか。話題ぜんぜん出てこないし
62 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 21:05:23 ]: 個人的には
>CUDAって結局8800以外に何で使えるの？
っていう質問が出てくること自体、凄く不思議なんだが。
おもいっきり、プログラミングガイドにかいてあるけど。
63 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 21:18:16 ]: 俺もそれ見たけど、8600では使えないと書いてるところがあった
64 名前：デフォルトの名無しさん mailto:sage [2007/09/14(金) 23:25:41 ]: CUDAはそもそも研究者のオナペットなんだから8800くらい買えよ、安いもんだろ
まさかCUDAが一般に普及するとでも思ってるとか？ねーよｗ
65 名前：デフォルトの名無しさん mailto:sage [2007/09/15(土) 00:16:06 ]: 8800だけならすぐ廃れるのか
66 名前：19 mailto:sage [2007/09/15(土) 01:25:26 ]: 正直、8800GTXの消費電力と占有スペースを考えたら8600GTSか、いっそ補助電源も要らない8600GTでいいと思う。
#テストするだけならね。コストパフォーマンスも高いことだし。
勿論、チャンピオンデータ狙いなら8800Ultraで頑張ればいいと思うが。
つーか、このスレにも一覧書いておいたのになぁ……
67 名前：19 mailto:sage [2007/09/15(土) 01:26:52 ]: って>63や、どこに8600はダメと書いてあったのかね?
68 名前：デフォルトの名無しさん mailto:sage [2007/09/15(土) 07:38:54 ]: >>66
>>19は実際に動かした情報を基にした一覧なのか？
69 名前：19 mailto:sage [2007/09/15(土) 08:36:22 ]: >>68
ドキュメントに基づいた情報。

実際に動かしたのは次のボード。
--
ELSA 988GTX
ELSA 988GTS
ELSA 786GTS
ELSA 786GT
--
ちなみにTeslaボードも入荷次第テストする方向。
70 名前：デフォルトの名無しさん mailto:sage [2007/09/15(土) 11:08:22 ]: 常駐者だったのか。つか、ここ何人くらいで回ってるんだろうw
71 名前：19 mailto:sage [2007/09/15(土) 13:51:44 ]: 常駐というより、巡回しているだけだけどね。
折角だから、nvccの出力(ptx)でも張ってみようか。先ずはソース。
--
#include <cstdio> // WIN版だとリンクにvcを使う所為かiostreamを巧く使えない
const int NofThreads = 256; // 32以下なら1warp内で完結、最大512
const int NofBlocks = 256; // 物理ブロック数をオーバーしたら時分割処理される
// device側コード
#include <cuda_runtime.h>
__device__ float dVals[NofBlocks * NofThreads]; // >45も書いている、device側のメモリ
__global__ void foo(float ratio)
{
float vs, vc;
unsigned offset = blockIdx.x * blockDim.x + threadIdx.x; // この右辺の変数で何番目のデータスレッドか判る
__sincosf(offset * ratio, & vs, & vc); // sincosf()の組み込み命令版
dVals[offset] = vs * vs + vc * vc;
}
// host(CPU)側コード
const float M_PI = 3.14159265358979323846f;
int main()
{
foo<<<NofBlocks, NofThreads>>>(M_PI / (NofBlocks * NofThreads)); // ここで並列起動
float hVals[NofBlocks * NofThreads]; // host(CPU)側メモリ
// この場合はcudaMemcpyFromSymbol()を使用(cudaMalloc()した場合はcudaMemcpy())
cudaMemcpyFromSymbol(hVals, dVals, sizeof(* hVals) * NofBlocks * NofThreads);
for (unsigned ic = 0; ic < NofBlocks * NofThreads; ++ic) {
printf("%g ", hVals[ic]);
}
fputchar('\n');
return 0;
}
// 所要時間はCore2Duo 6320 @ 1.86GHzで1秒掛からない程度
// シンプルすぎて時間測定には不向きなので要注意
72 名前：19 mailto:sage [2007/09/15(土) 13:53:50 ]: んで、こっちがnvcc -ptx -O3した出力の抜粋
--
.global .align 4 .b8 dVals[262144];

.entry foo
{
.reg .u32 $r1,$r2,$r3,$r4,$r5,$r6,$r7,$r8;
.reg .f32 $f1,$f2,$f3,$f4,$f5,$f6,$f7;
.param .f32 __cudaparm_ratio;
.loc 12 10 0
$LBB1_foo:
.loc 12 15 0
cvt.u32.u16 $r1, %ctaid.x; //
cvt.u32.u16 $r2, %ntid.x; //
mul.lo.u32 $r3, $r1, $r2; //
cvt.u32.u16 $r4, %tid.x; //
add.u32 $r5, $r4, $r3; //
cvt.rn.f32.u32 $f1, $r5; //
ld.param.f32 $f2, [__cudaparm_ratio]; // id:31 __cudaparm_ratio+0x0
mul.f32 $f3, $f2, $f1; //
cos.f32 $f4, $f3; //
sin.f32 $f5, $f3; //
mul.f32 $f6, $f5, $f5; //
mad.f32 $f7, $f4, $f4, $f6; //
mov.u32 $r6, dVals; //
mul.lo.u32 $r7, $r5, 4; //
add.u32 $r8, $r6, $r7; //
st.global.f32 [$r8+0], $f7; // id:32 dVals+0x0
exit; //
} // foo
--
# 解説要るなら言っとくれ
73 名前：デフォルトの名無しさん mailto:sage [2007/09/15(土) 14:33:50 ]: 8800だと、128の演算が並列で行われるのでしょうか？
74 名前：デフォルトの名無しさん mailto:sage [2007/09/15(土) 15:22:58 ]: >>73
warpを理解しろ
75 名前：デフォルトの名無しさん mailto:sage [2007/09/19(水) 18:13:38 ]: cudaで遊ぼうとしてまして、8400GSでサンプルを動かして速さを実感したのですが、
cudaを使ったフリーソフトとかソフトを集めてるサイトとかありませんか？
手始めにmp3エンコーダーのlameのDCT部分をCUFFTで置き換えられないかなと
勉強中なのですが、すでに誰かやってそうで。
公式フォーラムで、Diracデコーダーを実装した人が20倍速くなったと書いてるのでわくわく
76 名前：デフォルトの名無しさん mailto:sage [2007/09/19(水) 18:46:15 ]: あー、8400GSでも動くのか。
しかし、WoodcrestXeonだと恐らく速くなりそうもない罠。
77 名前：デフォルトの名無しさん mailto:sage [2007/09/21(金) 23:03:28 ]: Cgのことはこちらで聞いて言いのでしょうか
ttp://up-sv.ath.cx/up/1/source3/No_0718.txt
こういうコードがサンプルであったのですが、中のfor文は動くのでしょうか？

現在GPUが無いところでソースだけ打ち込んでいたのですが少々気になって
78 名前：デフォルトの名無しさん mailto:sage [2007/09/22(土) 00:21:54 ]: >>75
x264に手を入れてくれｗ
79 名前：デフォルトの名無しさん [2007/09/25(火) 01:08:16 ]: CUDA死亡確認
ttp://pc.watch.impress.co.jp/docs/2007/0925/idf10.htm
80 名前：デフォルトの名無しさん mailto:sage [2007/09/25(火) 02:11:48 ]: PS3でリアルタイムレイトレーシング、デモアプリ公開

IBM：Interactive Ray Tracer for Cell Broadband Engine
www.alphaworks.ibm.com/tech/irt

IBMより、Cell Broadband Engineで動作するインタラクティブレイトレーシングのデモアプリがリリースされました。
PS3もしくはIBM QS20 Cell blade上のLinuxで動作します。

リアルタイムレイトレーシングのデモ動画はすでに4月に公開されていたものですが、今回デモアプリが公開されたことで、家庭のPS3でも（Linuxの知識があれば）手軽？に試すことが出来るようになりました。

パフォーマンスは、QS20 1台で1080p 1.6M Triangles時にフレームレート2.7fps程度、QS20を7台使って17fpsとなっています。
ということはPS3を1台使用した場合のフレームレートは1.0fpsぐらいでしょうか、公開されている動画ではPS3を3台使用しています。

pocketnews.cocolog-nifty.com/pkns/2007/09/ps3_b71c.html
81 名前：デフォルトの名無しさん mailto:sage [2007/09/25(火) 02:47:39 ]: 今後数年以内に産業資本主義自体が滅びるからcudaとかps3とか無駄
82 名前：デフォルトの名無しさん mailto:sage [2007/09/25(火) 07:04:10 ]: Larrabeeの行く末ってCellが示してる気がするわ。
描画は遅くて使えない
FahじゃX1650XTにも勝てない
83 名前：デフォルトの名無しさん mailto:sage [2007/10/02(火) 14:52:31 ]: >>80
PS3を3台ってどうやってデータ渡してんの?
先を予測して時分割でやってんのか。
84 名前：デフォルトの名無しさん mailto:sage [2007/10/02(火) 15:08:24 ]: >>83
スレ違い。どう見てもCELLスレ向けです。
--
Cellプログラミングしちゃいなよ2
pc11.2ch.net/test/read.cgi/tech/1183091522/
85 名前：デフォルトの名無しさん mailto:sage [2007/10/09(火) 20:50:22 ]: 最近CUDAで遊び始めた者です。
ひとつの変数に複数のスレッドから値を足し込むことをうまくやりたいのですが、
スレッド間の同期が取れていないためか、おかしな値が出てしまいます。
（例えば C = A[ty][tx] * B[tx][ty] ）
for文を使うとうまくいくのですが、このfor文がボトルネックになってしまい
困っています。

何かうまい方法を知っている方いれば教えていただきたいです。
86 名前：デフォルトの名無しさん mailto:sage [2007/10/09(火) 21:50:00 ]: >>85
【GPGPU】NVIDIA CUDA質問スレッド
pc11.2ch.net/test/read.cgi/tech/1190008468/

そのAやBは、ReadOnlyなのか? だったら読み込みに問題はないと思うんだが。
87 名前：デフォルトの名無しさん mailto:sage [2007/10/10(水) 18:21:34 ]: 85です。
例に挙げた式、間違ってました。
C += A[ty][tx] * B[tx][ty] でした。申し訳ない。
for文を使う場合は for(i=0;i<BS;i++) C += A[ty][i] * B[i][ty]; こんな感じです。
iはint型変数、BSはブロックサイズです。
for文を使わないと、各スレッドがそれぞれのタイミングでCの値を参照し、計算結果
を足しこんでいるのでしょうか、Cの値が毎度おかしなものになります。
AとBはReadOnlyです。

86さんの誘導先に似たような事例がありましたので参考にしようと思います。
それにしても、スレッドの並列処理に比べてfor文があまりにも遅くて驚きました。
88 名前：デフォルトの名無しさん mailto:sage [2007/10/10(水) 22:57:16 ]: すいませんCgのことでちょっとお聞きしたいのですが

3次元テクスチャを使ってデータをやりとりしてるのですが
どうもメモリが解放されていなくて、徐々にメモリ使用率が上がっていってしまいます

普通CPUで3次元テクスチャを使った場合はメモリ使用量は一定なので
GPU側の問題と踏んでいるのですが

同じような症状の方いましたら、解決方法教えてください
89 名前：デフォルトの名無しさん mailto:sage [2007/10/10(水) 23:19:54 ]: すいません↑のは

普通にCPUで～
です

nvidiaのサンプル（opengl two texture sample）を実行してみたところ
animationをさせるとメモリが増加していきました。。。
これは仕方が無いのでしょうか…
90 名前：デフォルトの名無しさん mailto:sage [2007/10/10(水) 23:43:41 ]: >>87
Cが一箇所だとどうしても並列動作できないねぇ。

もしできるのであれば乗算の結果を(その場で積算せず)リニアにグローバルメモリに保存しておき、
別の関数でその値をまとめるとかいっそ、CPUに転送してCPUで集計するとか。

ぶっちゃけ、そういう積算が必要なくなるようにアルゴリズムを見直すのが一番だけどね。

# どうせなら誘導先に書いて欲しかった。
91 名前：デフォルトの名無しさん mailto:sage [2007/10/11(木) 15:22:23 ]: Intel 「GPGPUは失敗する（笑）」
pc.watch.impress.co.jp/docs/2007/1011/kaigai392.htm
92 名前：デフォルトの名無しさん mailto:sage [2007/10/14(日) 18:16:45 ]: 二分木で足しこんで行く手はある
93 名前：デフォルトの名無しさん mailto:sage [2007/10/30(火) 21:06:02 ]: 市販GPUを使ってパスワードを高速クラック
japanese.engadget.com/2007/10/29/elcomsoft-gpgpu-password-cracking/
94 名前：デフォルトの名無しさん mailto:sage [2007/11/13(火) 18:28:19 BE:10105373-2BP(1)]: GF8500GT-P256H使うか
95 名前：デフォルトの名無しさん mailto:sage [2007/11/13(火) 21:55:28 ]: CUDA 1.1betaが会員に公開されたみたいね。
x64をサポート、しかしVistaはまだだそうだ。
96 名前：デフォルトの名無しさん mailto:sage [2007/11/14(水) 09:45:29 ]: Linuxは？できれば*BSDもサポートして欲しいが。
97 名前：デフォルトの名無しさん mailto:sage [2007/11/15(木) 21:57:28 ]: GPUつかって
描画と物理演算の二つをやりたいのですが、可能でしょうか。

GPUで物理演算したものを、GPUレイキャスで行う
という感じなのですが

Cgで片方・片方は出来たのですが、それを同時にするのって見当がつかなくて
98 名前：デフォルトの名無しさん mailto:sage [2007/11/18(日) 17:05:58 ]: AMDの3800シリーズのデモ（PingPong）では玉の動きを物理処理させつつ高度な光源処理を行っています。
99 名前：デフォルトの名無しさん mailto:sage [2007/11/18(日) 23:52:33 ]: >>98
そのサンプルとかありますか？

実際にどう実装しているのか。まだvertex fragmentのシェーダー一つを扱うのにいっぱいいっぱいで
100 名前：デフォルトの名無しさん mailto:sage [2007/11/19(月) 12:29:12 ]: ttp://ati.amd.com/products/pdf/DirectX10.1WhitePaperv1.0FINAL.pdf
ttp://www.4gamer.net/games/044/G004473/20071115005/
DX10.1の発表と同時位に公開されるんじゃないかな？
これはDX10.1のデモだし。
ソースが出るとすればATI SDKのページかな。
ttp://ati.amd.com/developer/SDK/Samples_Documents.html
システムメモリにアクセス頻発するようなゲーム物理だと
WDDM2.1（DX10.1）未対応の場合、GPUがストールしまくりで
実用的ではないらしいけどね。
101 名前：デフォルトの名無しさん mailto:sage [2007/11/21(水) 12:55:42 ]: CUDA 1.1 beta が表に出てきましたよ。
x64サポートされてますよ。
Vis未サポートですよ。
102 名前：デフォルトの名無しさん [2007/12/08(土) 12:30:19 ]: ゲフォ8kって、AGPは無くてPCI-eに移行しないといけない
のな。すると連動してS-ATAに移行させられてdebian系が
起動しない罠。
FreeBSDでCUDAしたい…。
103 名前：デフォルトの名無しさん mailto:sage [2007/12/09(日) 21:08:47 ]: >debian系が起動しない罠。
いつの時代の人？
104 名前：デフォルトの名無しさん mailto:sage [2007/12/09(日) 23:32:31 ]: woodyでも使ってんのかね
105 名前：デフォルトの名無しさん mailto:sage [2007/12/12(水) 10:42:27 ]: >>102
【GPGPU】NVIDIA CUDA質問スレッド
pc11.2ch.net/test/read.cgi/tech/1190008468/
106 名前：デフォルトの名無しさん mailto:sage [2007/12/24(月) 13:17:16 ]: AMDもCALとBrook+きたようだ
ttp://ati.amd.com/technology/streamcomputing/register.html
107 名前：デフォルトの名無しさん mailto:sage [2007/12/24(月) 13:51:35 ]: vistaだとランタイムたりねぇって怒られる・・
108 名前：デフォルトの名無しさん mailto:sage [2007/12/25(火) 22:09:12 ]: pc.watch.impress.co.jp/docs/2007/1225/kaigai409.htm
109 名前：デフォルトの名無しさん mailto:sage [2007/12/26(水) 08:12:57 ]: べつにハード的な統合は一番最後で構わんのだし
CALとBrook+が出たことで、今後将来的なAMD GPUでもサポートされる
今はこっちを一般的にするほうが課題だな
110 名前：デフォルトの名無しさん mailto:sage [2007/12/29(土) 12:02:21 ]: 次世代（nVIDIA、AMDどっちでも良い）は、奮発して高いGPU買いたいよね。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef