- 1 名前:デフォルトの名無しさん [2007/08/29(水) 17:08:58 ]
- いつの間にやらCPUを超える演算性能を持ってしまったGPUに計算させてみるという
GPGPUについて語りましょう 前スレ GPGPU pc11.2ch.net/test/read.cgi/tech/1128780920/ 関連スレ pc11.2ch.net/test/read.cgi/tech/1167989627/ 参考リンク 総本山? gpgpu.org www.gpgpu.org/ CUDA developer.nvidia.com/object/cuda.html GPUをCPU的に活用するGPGPUの可能性 pcweb.mycom.co.jp/articles/2005/09/06/siggraph2/
- 10 名前:デフォルトの名無しさん [2007/09/02(日) 17:41:22 ]
- わ〜い10ゲットだ!
>>9がんばって〜!
- 11 名前:デフォルトの名無しさん mailto:sage [2007/09/03(月) 04:27:27 ]
- どっかにCUDAのサンプルソースの森とか、CにおけるK&R
みたいな入門書無いの〜?
- 12 名前:デフォルトの名無しさん mailto:sage [2007/09/03(月) 09:09:35 ]
- >>11
CUDAのSDKについてくるサンプルソースじゃダメか? あれはある意味、宝の山だぞ。 まぁ、私程度でよければ知りたい内容によってはここで回答しても構わんが。
- 13 名前:デフォルトの名無しさん mailto:sage [2007/09/03(月) 13:38:19 ]
- CUDAでの基本をまとめてくだしあ
- 14 名前:デフォルトの名無しさん mailto:sage [2007/09/03(月) 14:26:49 ]
- >>13
・元のプログラムがあるなら移植前にきちんと整理 ・GPU上で動く関数からはメインメモリを参照できない。どのデータをGPUに渡すか熟考すべし ・変数名に工夫するなどして、CPU側メモリかGPU側メモリか常に意識するように ・仮令GPUボードを持っていようとも、馴れないうちはエミュレータも活用しよう ・その為にもデバッガを含めて開発環境にも慣れておこう ・サンプルからノウハウまで、それなりに資料はそろっているからきちんと読めば途は拓ける
- 15 名前:デフォルトの名無しさん mailto:sage [2007/09/03(月) 17:27:24 ]
- >サンプルからノウハウまで、それなりに資料はそろっている
URLをお願い
- 16 名前:デフォルトの名無しさん mailto:sage [2007/09/03(月) 19:07:40 ]
- >>15
ttp://developer.nvidia.com/object/cuda.html サンプルはSDKに含まれている。 取り敢えず、bitonicSortとかsimpleTexture辺りは短いから読みやすいかと。 ノウハウはCUDA Programming Guide 1.0に詳しい。 英語が苦手だったら勉強するチャンスだと思ってがんばってくれ。 そうそう、用語の偏りが激しいので要注意で。
- 17 名前:デフォルトの名無しさん mailto:sage [2007/09/03(月) 19:13:15 ]
- CUDAなんかやってもMUDA
- 18 名前:デフォルトの名無しさん mailto:sage [2007/09/03(月) 23:53:16 ]
- CUDAできるカードCUDAさい。
ていうか、どの型番のカード(GPU)からCUDAできるの?
- 19 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 00:27:28 ]
- >>18
GeForceならこの辺。 -- Core Clock (MHz) Memory Clock (MHz) Auxiliary Power Connectors Number of Slots GeForce 8800 Ultra 684 1161 2 2 GeForce 8800 Ultra 612 1080 2 2 ←リファレンス GeForce 8800 GTX 575 900 2 2 ←リファレンス GeForce 8800 GTS 540 840 1 2 GeForce 8800 GTS 500 800 1 2 ←リファレンス GeForce 8600 GTS 710 1000 1 1 GeForce 8600 GTS 675 1000 1 2 GeForce 8600 GTS 675 1000 1 1 ←リファレンス GeForce 8600 GT 590 900 0 1 GeForce 8600 GT 540 700 0 2 GeForce 8600 GT 540 700 0 1 ←リファレンス GeForce 8500 GT 450 400 0 1 GeForce 8500 GT 450 400 0 1 ←リファレンス -- QuadroFXは忘れた。 で、お値段は8600GTSで3万弱、8600GTなら1.5万くらいからメモリ増強版の2.5万程度まで。 それより上にしても並列数は増えるけどクロックは速くならないからピーク性能を狙わないなら コストパフォーマンス的にもサイズ的にも8600GTS/GTでいいかと。 尚、電源に余裕がなくて補助電源コネクタからの供給ができないなら8600GT以下で。
- 20 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 01:11:14 ]
- CUDAらん! 実にCUDAらん!
- 21 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 11:26:30 ]
- 個人的には
>ていうか、どの型番のカード(GPU)からCUDAできるの? っていう質問が出てくること自体、凄く不思議なんだが。 おもいっきり、プログラミングガイドにかいてあるけど。
- 22 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 11:37:45 ]
- プログラミングガイドを読んでないから出てくるんだろ
何が不思議なんだよ
- 23 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 16:08:48 ]
- 英語って時点でばっくれる奴がいることも忘れんでください
致命的だけどな
- 24 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 16:36:38 ]
- >>23
英語だからよく判らないってのは納得できるのだけど、 全体眺めるだけでAppendixAにスペック書いてあるの位は目に留めてほしいなぁ。
- 25 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 16:43:52 ]
- 英語→うわっめんどくせ→2chで聞いたほうがはえーや
という奴だろうな 似たような奴が研究室にいて 「なー、この関数の使い方教えてよ」 とググれば済むことまで効いてくる。俺が必死こいて組んでるときに それで一度ケンカになったが ググれば済むことを効いてくるやつの神経わかんねーぐちすまね
- 26 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 17:02:45 ]
- ぐぐるのも面倒いんだろうきっと
- 27 名前:デフォルトの名無しさん mailto:sage [2007/09/04(火) 21:27:49 ]
- B型?
- 28 名前:デフォルトの名無しさん mailto:sage [2007/09/06(木) 11:13:19 ]
- 血液型と性格に関係はありません。
それはそうと、CUDAでBitslice DES実装したのないかな。
- 29 名前:デフォルトの名無しさん mailto:sage [2007/09/06(木) 12:42:19 ]
- >>28
そうとも言えないよ。アイザック・アジモフに拠れば、「そういうもんだ」という環境で育てばそうなるそうだから。
- 30 名前:デフォルトの名無しさん mailto:sage [2007/09/06(木) 17:08:22 ]
- B型だと思ったらA型でしたー
でもそんなの関係ねぇ!
- 31 名前:デフォルトの名無しさん mailto:sage [2007/09/06(木) 18:11:38 ]
- 血液型信仰(笑)
- 32 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 04:32:57 ]
- ベクトルプロセッサというのが良く分からん
マルチプロセッサと何が違うの?
- 33 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 04:48:32 ]
- ベクトルプロセッサは同時に複数のデータを並列して処理するプロセッサ
それに対して一つのデータを処理するのがスカラープロセッサ マルチプロセッサは一つのコンピュータ内にプロセッサを複数搭載している事
- 34 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 04:49:57 ]
- っ[SIMD]
- 35 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 04:51:51 ]
- SIMDはプロセッサ内におけるベクトルプロセッサ的な要素
- 36 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 05:07:52 ]
- >>33
>ベクトルプロセッサは同時に複数のデータを並列して処理するプロセッサ >それに対して一つのデータを処理するのがスカラープロセッサ >マルチプロセッサは一つのコンピュータ内にプロセッサを複数搭載している事 こんな夜中にレス付いて吹いた スカラープロセッサ*マルチプロセッサ=ベクトルプロセッサ にはならないの? >>34 >SIMD Single Instructionってどのくらいまでならsingleなの? 50行くらいの関数までならsingleなの? まさか、addとかmovとかxorというレベル?
- 37 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 05:16:54 ]
- >スカラープロセッサ*マルチプロセッサ=ベクトルプロセッサ
>にはならないの? ならない >まさか、addとかmovとかxorというレベル? うん
- 38 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 06:05:18 ]
- あらかじめ大量のデータを用意しておいて、
その大量のデータを別の大量のデータに変換する事が一発で出来るという事? うーん、逐次処理には向かないのかなぁ?
- 39 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 07:53:54 ]
- まぁ大体そういう事だね。
最近のほとんどのパソコンのプロセッサにはスカラーとベクトル両方の仕組みが搭載されていて、 適材適所で使い分けられるようになってる。
- 40 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 08:00:18 ]
- >>38
高々4つずつ同時に処理してもSIMD。
- 41 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 08:39:31 ]
- 8192bit VLIWとかならベクトル処理も並列処理も同じアーキテクチャで
実現できるな。並べる命令が同じものならベクトル処理、違うものなら 並列処理。
- 42 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 11:06:59 ]
- GPUでzip解凍すればよくね?
- 43 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 15:14:46 ]
- 違う命令が並べられるならMIMD
- 44 名前:デフォルトの名無しさん mailto:sage [2007/09/07(金) 16:18:32 ]
- GPGPUはSPMD
- 45 名前:デフォルトの名無しさん mailto:sage [2007/09/12(水) 11:34:54 ]
- うへぇ、CUDAの文法がまるっきりCのそれだからつい、騙されて梃子摺ったぜ。
デバイス側のメモリを巧く使うのは難しいな。 しかも、それが動かしてみないと判らないし、エラーメッセージもunspecified failureだし……
- 46 名前:デフォルトの名無しさん mailto:age [2007/09/12(水) 14:06:51 ]
- 昨日の洗脳集会に参加した人は素直に挙手しなさい。
- 47 名前:デフォルトの名無しさん mailto:sage [2007/09/12(水) 15:19:24 ]
- 行きたかったけど行けませんでした。
資料ください
- 48 名前:デフォルトの名無しさん mailto:sage [2007/09/12(水) 15:25:56 ]
- >>46
申し込んだのに定員オーバーで断られた俺が来ましたよ
- 49 名前:デフォルトの名無しさん mailto:sage [2007/09/12(水) 21:36:10 ]
- tokyo-uのやつ?どんな話だったん?
- 50 名前:デフォルトの名無しさん mailto:sage [2007/09/12(水) 22:09:05 ]
- >>49
簡単なレポならここに pc.watch.impress.co.jp/docs/2007/0912/nvidia.htm
- 51 名前:デフォルトの名無しさん mailto:sage [2007/09/12(水) 22:18:23 ]
- 全く行く価値が無かった
単なる宣伝に終始 家でUIUCのコースをマターリ聞いたほうが何倍もマシ courses.ece.uiuc.edu/ece498/al1/Archive/Spring2007/Syllabus.html
- 52 名前:デフォルトの名無しさん mailto:sage [2007/09/12(水) 22:40:07 ]
- >>45
kwsk 資料がプログラミングガイドしかないからどんな情報でも欲しい。
- 53 名前:デフォルトの名無しさん [2007/09/14(金) 00:20:58 ]
- ttp://journal.mycom.co.jp/articles/2007/09/13/nvidia/001.html
>これをTeslaではWarp(ワープ)と呼んでいる。 ワープ(笑
- 54 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 00:35:45 ]
- 日本語ではワープでもいいんじゃないか。
- 55 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 00:57:39 ]
- >>53
どこが笑いどころなの?
- 56 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 01:07:59 ]
- >>53が笑い者
- 57 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 01:20:03 ]
- OS/2でも笑えるんじゃないか。うらやましいヤツメ
- 58 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 02:32:34 ]
- ヲープ(笑)
- 59 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 10:34:46 ]
- まぁ外人相手にワープと言ってもハァ?な顔されるだろうな
- 60 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 11:18:49 ]
- トレッキーに通じないわけが無かろうが。
- 61 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 20:58:34 ]
- CUDAって結局8800以外に何で使えるの?
この後出る予定の8700とか対応するんだろうか。話題ぜんぜん出てこないし
- 62 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 21:05:23 ]
- 個人的には
>CUDAって結局8800以外に何で使えるの? っていう質問が出てくること自体、凄く不思議なんだが。 おもいっきり、プログラミングガイドにかいてあるけど。
- 63 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 21:18:16 ]
- 俺もそれ見たけど、8600では使えないと書いてるところがあった
- 64 名前:デフォルトの名無しさん mailto:sage [2007/09/14(金) 23:25:41 ]
- CUDAはそもそも研究者のオナペットなんだから8800くらい買えよ、安いもんだろ
まさかCUDAが一般に普及するとでも思ってるとか?ねーよw
- 65 名前:デフォルトの名無しさん mailto:sage [2007/09/15(土) 00:16:06 ]
- 8800だけならすぐ廃れるのか
- 66 名前:19 mailto:sage [2007/09/15(土) 01:25:26 ]
- 正直、8800GTXの消費電力と占有スペースを考えたら8600GTSか、いっそ補助電源も要らない8600GTでいいと思う。
#テストするだけならね。コストパフォーマンスも高いことだし。 勿論、チャンピオンデータ狙いなら8800Ultraで頑張ればいいと思うが。 つーか、このスレにも一覧書いておいたのになぁ……
- 67 名前:19 mailto:sage [2007/09/15(土) 01:26:52 ]
- って>63や、どこに8600はダメと書いてあったのかね?
- 68 名前:デフォルトの名無しさん mailto:sage [2007/09/15(土) 07:38:54 ]
- >>66
>>19は実際に動かした情報を基にした一覧なのか?
- 69 名前:19 mailto:sage [2007/09/15(土) 08:36:22 ]
- >>68
ドキュメントに基づいた情報。 実際に動かしたのは次のボード。 -- ELSA 988GTX ELSA 988GTS ELSA 786GTS ELSA 786GT -- ちなみにTeslaボードも入荷次第テストする方向。
- 70 名前:デフォルトの名無しさん mailto:sage [2007/09/15(土) 11:08:22 ]
- 常駐者だったのか。つか、ここ何人くらいで回ってるんだろうw
- 71 名前:19 mailto:sage [2007/09/15(土) 13:51:44 ]
- 常駐というより、巡回しているだけだけどね。
折角だから、nvccの出力(ptx)でも張ってみようか。先ずはソース。 -- #include <cstdio> // WIN版だとリンクにvcを使う所為かiostreamを巧く使えない const int NofThreads = 256; // 32以下なら1warp内で完結、最大512 const int NofBlocks = 256; // 物理ブロック数をオーバーしたら時分割処理される // device側コード #include <cuda_runtime.h> __device__ float dVals[NofBlocks * NofThreads]; // >45も書いている、device側のメモリ __global__ void foo(float ratio) { float vs, vc; unsigned offset = blockIdx.x * blockDim.x + threadIdx.x; // この右辺の変数で何番目のデータスレッドか判る __sincosf(offset * ratio, & vs, & vc); // sincosf()の組み込み命令版 dVals[offset] = vs * vs + vc * vc; } // host(CPU)側コード const float M_PI = 3.14159265358979323846f; int main() { foo<<<NofBlocks, NofThreads>>>(M_PI / (NofBlocks * NofThreads)); // ここで並列起動 float hVals[NofBlocks * NofThreads]; // host(CPU)側メモリ // この場合はcudaMemcpyFromSymbol()を使用(cudaMalloc()した場合はcudaMemcpy()) cudaMemcpyFromSymbol(hVals, dVals, sizeof(* hVals) * NofBlocks * NofThreads); for (unsigned ic = 0; ic < NofBlocks * NofThreads; ++ic) { printf("%g ", hVals[ic]); } fputchar('\n'); return 0; } // 所要時間はCore2Duo 6320 @ 1.86GHzで1秒掛からない程度 // シンプルすぎて時間測定には不向きなので要注意
- 72 名前:19 mailto:sage [2007/09/15(土) 13:53:50 ]
- んで、こっちがnvcc -ptx -O3した出力の抜粋
-- .global .align 4 .b8 dVals[262144]; .entry foo { .reg .u32 $r1,$r2,$r3,$r4,$r5,$r6,$r7,$r8; .reg .f32 $f1,$f2,$f3,$f4,$f5,$f6,$f7; .param .f32 __cudaparm_ratio; .loc 12 10 0 $LBB1_foo: .loc 12 15 0 cvt.u32.u16 $r1, %ctaid.x; // cvt.u32.u16 $r2, %ntid.x; // mul.lo.u32 $r3, $r1, $r2; // cvt.u32.u16 $r4, %tid.x; // add.u32 $r5, $r4, $r3; // cvt.rn.f32.u32 $f1, $r5; // ld.param.f32 $f2, [__cudaparm_ratio]; // id:31 __cudaparm_ratio+0x0 mul.f32 $f3, $f2, $f1; // cos.f32 $f4, $f3; // sin.f32 $f5, $f3; // mul.f32 $f6, $f5, $f5; // mad.f32 $f7, $f4, $f4, $f6; // mov.u32 $r6, dVals; // mul.lo.u32 $r7, $r5, 4; // add.u32 $r8, $r6, $r7; // st.global.f32 [$r8+0], $f7; // id:32 dVals+0x0 exit; // } // foo -- # 解説要るなら言っとくれ
- 73 名前:デフォルトの名無しさん mailto:sage [2007/09/15(土) 14:33:50 ]
- 8800だと、128の演算が並列で行われるのでしょうか?
- 74 名前:デフォルトの名無しさん mailto:sage [2007/09/15(土) 15:22:58 ]
- >>73
warpを理解しろ
- 75 名前:デフォルトの名無しさん mailto:sage [2007/09/19(水) 18:13:38 ]
- cudaで遊ぼうとしてまして、8400GSでサンプルを動かして速さを実感したのですが、
cudaを使ったフリーソフトとかソフトを集めてるサイトとかありませんか? 手始めにmp3エンコーダーのlameのDCT部分をCUFFTで置き換えられないかなと 勉強中なのですが、すでに誰かやってそうで。 公式フォーラムで、Diracデコーダーを実装した人が20倍速くなったと書いてるのでわくわく
- 76 名前:デフォルトの名無しさん mailto:sage [2007/09/19(水) 18:46:15 ]
- あー、8400GSでも動くのか。
しかし、WoodcrestXeonだと恐らく速くなりそうもない罠。
- 77 名前:デフォルトの名無しさん mailto:sage [2007/09/21(金) 23:03:28 ]
- Cgのことはこちらで聞いて言いのでしょうか
ttp://up-sv.ath.cx/up/1/source3/No_0718.txt こういうコードがサンプルであったのですが、中のfor文は動くのでしょうか? 現在GPUが無いところでソースだけ打ち込んでいたのですが少々気になって
- 78 名前:デフォルトの名無しさん mailto:sage [2007/09/22(土) 00:21:54 ]
- >>75
x264に手を入れてくれw
- 79 名前:デフォルトの名無しさん [2007/09/25(火) 01:08:16 ]
- CUDA死亡確認
ttp://pc.watch.impress.co.jp/docs/2007/0925/idf10.htm
- 80 名前:デフォルトの名無しさん mailto:sage [2007/09/25(火) 02:11:48 ]
- PS3でリアルタイムレイトレーシング、デモアプリ公開
IBM:Interactive Ray Tracer for Cell Broadband Engine www.alphaworks.ibm.com/tech/irt IBMより、Cell Broadband Engineで動作するインタラクティブ レイトレーシングのデモアプリがリリースされました。 PS3もしくはIBM QS20 Cell blade上のLinuxで動作します。 リアルタイムレイトレーシングのデモ動画はすでに4月に公開されていたものですが、今回デモアプリが公開されたことで、家庭のPS3でも(Linuxの知識があれば)手軽?に試すことが出来るようになりました。 パフォーマンスは、QS20 1台で1080p 1.6M Triangles時にフレームレート2.7fps程度、QS20を7台使って17fpsとなっています。 ということはPS3を1台使用した場合のフレームレートは1.0fpsぐらいでしょうか、公開されている動画ではPS3を3台使用しています。 pocketnews.cocolog-nifty.com/pkns/2007/09/ps3_b71c.html
- 81 名前:デフォルトの名無しさん mailto:sage [2007/09/25(火) 02:47:39 ]
- 今後数年以内に産業資本主義自体が滅びるからcudaとかps3とか無駄
- 82 名前:デフォルトの名無しさん mailto:sage [2007/09/25(火) 07:04:10 ]
- Larrabeeの行く末ってCellが示してる気がするわ。
描画は遅くて使えない FahじゃX1650XTにも勝てない
- 83 名前:デフォルトの名無しさん mailto:sage [2007/10/02(火) 14:52:31 ]
- >>80
PS3を3台ってどうやってデータ渡してんの? 先を予測して時分割でやってんのか。
- 84 名前:デフォルトの名無しさん mailto:sage [2007/10/02(火) 15:08:24 ]
- >>83
スレ違い。どう見てもCELLスレ向けです。 -- Cellプログラミングしちゃいなよ2 pc11.2ch.net/test/read.cgi/tech/1183091522/
- 85 名前:デフォルトの名無しさん mailto:sage [2007/10/09(火) 20:50:22 ]
- 最近CUDAで遊び始めた者です。
ひとつの変数に複数のスレッドから値を足し込むことをうまくやりたいのですが、 スレッド間の同期が取れていないためか、おかしな値が出てしまいます。 ( 例えば C = A[ty][tx] * B[tx][ty] ) for文を使うとうまくいくのですが、このfor文がボトルネックになってしまい 困っています。 何かうまい方法を知っている方いれば教えていただきたいです。
- 86 名前:デフォルトの名無しさん mailto:sage [2007/10/09(火) 21:50:00 ]
- >>85
【GPGPU】NVIDIA CUDA質問スレッド pc11.2ch.net/test/read.cgi/tech/1190008468/ そのAやBは、ReadOnlyなのか? だったら読み込みに問題はないと思うんだが。
- 87 名前:デフォルトの名無しさん mailto:sage [2007/10/10(水) 18:21:34 ]
- 85です。
例に挙げた式、間違ってました。 C += A[ty][tx] * B[tx][ty] でした。申し訳ない。 for文を使う場合は for(i=0;i<BS;i++) C += A[ty][i] * B[i][ty]; こんな感じです。 iはint型変数、BSはブロックサイズです。 for文を使わないと、各スレッドがそれぞれのタイミングでCの値を参照し、計算結果 を足しこんでいるのでしょうか、Cの値が毎度おかしなものになります。 AとBはReadOnlyです。 86さんの誘導先に似たような事例がありましたので参考にしようと思います。 それにしても、スレッドの並列処理に比べてfor文があまりにも遅くて驚きました。
- 88 名前:デフォルトの名無しさん mailto:sage [2007/10/10(水) 22:57:16 ]
- すいませんCgのことでちょっとお聞きしたいのですが
3次元テクスチャを使ってデータをやりとりしてるのですが どうもメモリが解放されていなくて、徐々にメモリ使用率が上がっていってしまいます 普通CPUで3次元テクスチャを使った場合はメモリ使用量は一定なので GPU側の問題と踏んでいるのですが 同じような症状の方いましたら、解決方法教えてください
- 89 名前:デフォルトの名無しさん mailto:sage [2007/10/10(水) 23:19:54 ]
- すいません↑のは
普通にCPUで〜 です nvidiaのサンプル(opengl two texture sample)を実行してみたところ animationをさせるとメモリが増加していきました。。。 これは仕方が無いのでしょうか…
- 90 名前:デフォルトの名無しさん mailto:sage [2007/10/10(水) 23:43:41 ]
- >>87
Cが一箇所だとどうしても並列動作できないねぇ。 もしできるのであれば乗算の結果を(その場で積算せず)リニアにグローバルメモリに保存しておき、 別の関数でその値をまとめるとかいっそ、CPUに転送してCPUで集計するとか。 ぶっちゃけ、そういう積算が必要なくなるようにアルゴリズムを見直すのが一番だけどね。 # どうせなら誘導先に書いて欲しかった。
- 91 名前:デフォルトの名無しさん mailto:sage [2007/10/11(木) 15:22:23 ]
- Intel 「GPGPUは失敗する(笑)」
pc.watch.impress.co.jp/docs/2007/1011/kaigai392.htm
- 92 名前:デフォルトの名無しさん mailto:sage [2007/10/14(日) 18:16:45 ]
- 二分木で足しこんで行く手はある
- 93 名前:デフォルトの名無しさん mailto:sage [2007/10/30(火) 21:06:02 ]
- 市販GPUを使ってパスワードを高速クラック
japanese.engadget.com/2007/10/29/elcomsoft-gpgpu-password-cracking/
- 94 名前:デフォルトの名無しさん mailto:sage [2007/11/13(火) 18:28:19 BE:10105373-2BP(1)]
- GF8500GT-P256H使うか
- 95 名前:デフォルトの名無しさん mailto:sage [2007/11/13(火) 21:55:28 ]
- CUDA 1.1betaが会員に公開されたみたいね。
x64をサポート、しかしVistaはまだだそうだ。
- 96 名前:デフォルトの名無しさん mailto:sage [2007/11/14(水) 09:45:29 ]
- Linuxは?できれば*BSDもサポートして欲しいが。
- 97 名前:デフォルトの名無しさん mailto:sage [2007/11/15(木) 21:57:28 ]
- GPUつかって
描画と物理演算の二つをやりたいのですが、可能でしょうか。 GPUで物理演算したものを、GPUレイキャスで行う という感じなのですが Cgで片方・片方は出来たのですが、それを同時にするのって見当がつかなくて
- 98 名前:デフォルトの名無しさん mailto:sage [2007/11/18(日) 17:05:58 ]
- AMDの3800シリーズのデモ(PingPong)では玉の動きを物理処理させつつ高度な光源処理を行っています。
- 99 名前:デフォルトの名無しさん mailto:sage [2007/11/18(日) 23:52:33 ]
- >>98
そのサンプルとかありますか? 実際にどう実装しているのか。まだvertex fragmentのシェーダー一つを扱うのにいっぱいいっぱいで
- 100 名前:デフォルトの名無しさん mailto:sage [2007/11/19(月) 12:29:12 ]
- ttp://ati.amd.com/products/pdf/DirectX10.1WhitePaperv1.0FINAL.pdf
ttp://www.4gamer.net/games/044/G004473/20071115005/ DX10.1の発表と同時位に公開されるんじゃないかな? これはDX10.1のデモだし。 ソースが出るとすればATI SDKのページかな。 ttp://ati.amd.com/developer/SDK/Samples_Documents.html システムメモリにアクセス頻発するようなゲーム物理だと WDDM2.1(DX10.1)未対応の場合、GPUがストールしまくりで 実用的ではないらしいけどね。
- 101 名前:デフォルトの名無しさん mailto:sage [2007/11/21(水) 12:55:42 ]
- CUDA 1.1 beta が表に出てきましたよ。
x64サポートされてますよ。 Vis未サポートですよ。
- 102 名前:デフォルトの名無しさん [2007/12/08(土) 12:30:19 ]
- ゲフォ8kって、AGPは無くてPCI-eに移行しないといけない
のな。すると連動してS-ATAに移行させられてdebian系が 起動しない罠。 FreeBSDでCUDAしたい…。
- 103 名前:デフォルトの名無しさん mailto:sage [2007/12/09(日) 21:08:47 ]
- >debian系が 起動しない罠。
いつの時代の人?
- 104 名前:デフォルトの名無しさん mailto:sage [2007/12/09(日) 23:32:31 ]
- woodyでも使ってんのかね
- 105 名前:デフォルトの名無しさん mailto:sage [2007/12/12(水) 10:42:27 ]
- >>102
【GPGPU】NVIDIA CUDA質問スレッド pc11.2ch.net/test/read.cgi/tech/1190008468/
- 106 名前:デフォルトの名無しさん mailto:sage [2007/12/24(月) 13:17:16 ]
- AMDもCALとBrook+きたようだ
ttp://ati.amd.com/technology/streamcomputing/register.html
- 107 名前:デフォルトの名無しさん mailto:sage [2007/12/24(月) 13:51:35 ]
- vistaだとランタイムたりねぇって怒られる・・
- 108 名前:デフォルトの名無しさん mailto:sage [2007/12/25(火) 22:09:12 ]
- pc.watch.impress.co.jp/docs/2007/1225/kaigai409.htm
- 109 名前:デフォルトの名無しさん mailto:sage [2007/12/26(水) 08:12:57 ]
- べつにハード的な統合は一番最後で構わんのだし
CALとBrook+が出たことで、今後将来的なAMD GPUでもサポートされる 今はこっちを一般的にするほうが課題だな
- 110 名前:デフォルトの名無しさん mailto:sage [2007/12/29(土) 12:02:21 ]
- 次世代(nVIDIA、AMDどっちでも良い)は、奮発して高いGPU買いたいよね。
|

|