【GPGPU】くだすれCUDAスレ pert2【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 02/21 05:22 / Filesize : 250 KB / Number-of Response : 931
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2009/10/08(木) 19:29:37 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
www.nvidia.com/cuda

関連スレ
GPUで汎用コンピューティングを行うスレ
pc11.2ch.net/test/read.cgi/tech/1167989627/
GPGPU#3
pc12.2ch.net/test/read.cgi/tech/1237630694/
101 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 12:11:15 ]: NVIDIAのTesla。つーか、Teslaのラック筐体マジお勧め。
漏れなくNVIDIAのサポートがついてくるから。
102 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 12:36:58 ]: >>101
CUDAしたいからtesla　c1060を搭載した機種を買うのは
当然なんだけど、teslaを組み込んだ
ハード全体としてのオススメを知りたいのでした。
ようするにフラクティカだとかELSAだとか爆速だとか、
どこがいいのよっって話です。
teslaのラック筐体ってなに？
タワー型じゃなくてユニット型がいいってこと？
それともteslaの名を冠したサーバーがあるの？

すまんあんま詳しくないんでわからん
103 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 12:53:43 ]: HPC用にTeslaC1060相当を4枚入れた、TeslaS1070っていうラック筐体があるですよ。
当然、PC筐体は別途必要。
PC本体なら、QuadroPlex2200S4ってーのがTeslaS1070にマザボをつけたような仕様だったかと。
ラック筐体じゃなければ、QuadroPlex2200D2がタワー型でGPU2枚挿しのPCになる。
NVIDIAの営業曰く、「GeForceなんてアキバ的発想はやめましょう」ということなので。
# GeForceでいいならELSA辺りがリファレンスボードをそのまま使うから安定しているけどね。
## つーか、QuadroPlex使うような予算があるならソフト開発受注したいぞw
104 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 13:05:58 ]: >>103
ありがと～
調べてみる
105 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 14:48:43 ]: www.supermicro.com/products/system/4U/7046/SYS-7046GT-TRF.cfm?GPU=TC4
これ、自分はアメリカで買った。
国内の代理店でも売ってるとこあるよ。
106 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 15:01:35 ]: >105のPCすげぇ。TeslaC1060が4台も載っている。なのにVGAはMatrox。
107 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 15:20:48 ]: おまえらどんな仕事してんだよ
108 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 15:25:42 ]: 自宅の治安を守る仕事
109 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 15:31:22 ]: >>106
だってサーバーだから。
すんごくうるさいよこのマシン。標準でリモート管理機能が付いているから、
リモートから電源のON/OFFやキーボード、マウス、VGA、IDEポートの
ネットワークリダイレクトができる。
だから管理用IPアドレスだけ設定してサーバールームに入れっぱなし。
110 名前：デフォルトの名無しさん mailto:sage [2009/11/13(金) 21:37:09 ]: >>105
国内のページ見つけたけど
www.able.across.or.jp/catalog/product_info.php?products_id=2919
スペックが書いてあるようで書いてないような、、、
この値段は一体なんの値段なんだろう
111 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 00:42:44 ]: GeForceとQuadroってどう違うんですか？？
112 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 00:49:20 ]: シールが違う。
113 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 01:02:41 ]: >>93-99
色々参考になります。ありがとう

とりあえずそれぞれのやり方で試して処理時間比較してみます。
114 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 01:16:16 ]: >>110
書いてあるじゃん。
7046GT-TRF-TC4はサーバーのベアボーン。
箱、電源、マザーボード、ドライブエンクロージャ、そしてTesla C1060 * 4だけ。
あとはCPU、メモリ、ハードディスクを買ってきて刺してやれば動くってこと。
115 名前：111 mailto:sage [2009/11/14(土) 01:20:18 ]: >>112
それだけですかｗ
ありがとうございました m(_ _)m
116 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 02:51:33 ]: >>109
自宅にサーバールームか。アニメみたいww
117 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 03:30:00 ]: やはりワレワレはコストパフォーマンスの良いものをと考えて…
i7-920、12GB
ASUS　P6T7 WS　nForce200が二個乗り
とりあえず　GTX275あたりを二枚位かな
1000W電源
これでざっと20万コース？
118 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 04:37:05 ]: randってつかえないのですか？
119 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 04:42:01 ]: >>114
そっか単純にCPUもメモリもついてないのか
安いわけだ
120 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 05:12:47 ]: サーバー用のメモリも安くなってきたから、サーバー用でいいかも。
Kingstonの4GB×3本で$350とかだ。
121 名前：デフォルトの名無しさん [2009/11/14(土) 05:32:24 ]: CUDA_SAFE_CALLって必ず必要なのですか？
122 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 05:36:18 ]: > nForce200が二個乗り

おれの場合、O(n^2)だと、使うメモリ帯域<<計算量で、
x16で有る必要は無いなと思ったよ。
123 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 07:48:22 ]: カーネルを実行する際に、引数で、変数を渡すことができますが、多数の数値を配列で渡したい場合、
配列をデバイスにコピーしてから、配列へのポインタを渡すしかないのでしょうか？
オーバーヘッドの少ない、数値の渡し方を差がしているのですが・・・
124 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 08:32:24 ]: 引数で配列のポインタを渡したって、どっちみちホストメモリ→デバイスメモリの
コピーは要るし？
125 名前：デフォルトの名無しさん mailto:sage [2009/11/14(土) 15:41:12 ]: すみません、CULAについて質問です。

Red Hat Enterprise Linux 5.3(64bit)に
まず、CUDA3.2(ドライバ、ツールキット、SDK)をインストール。
(~/CUDA/ 以下。ツールキットは /CUDA/cuda/bin/nvccのようになっている)
その後、CUDA3.2上でCUBLASが動作することを確認しました。（Dgemmを利用）

後に、CULAがあることを知り昨日CULA Basic 1.0をダウンロードし
~/cula/　以下にインストールしました。
（~/cula/lib64/libcula.so）

インストール後表示される
export CULA_ROOT="/home/nakata/cula"
export CULA_INC_PATH="$CULA_ROOT/include"
export CULA_BIN_PATH_32="$CULA_ROOT/bin"
export CULA_BIN_PATH_64="$CULA_ROOT/bin64"
export CULA_LIB_PATH_32="$CULA_ROOT/lib"
export CULA_LIB_PATH_64="$CULA_ROOT/lib64"
126 名前：続き mailto:sage [2009/11/14(土) 15:43:23 ]: 以上を実行後、example/geqrf にある、Makefileを用いて
make build64 を実行すると、
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasDtrmv'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasZswap'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasZaxpy'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasCtrmv'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasZtrmv'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasZcopy'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasCgemv'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasCtrmm'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasCtrsm'
/home/nakata/cula/lib64/libcula.so: undefined reference to `cublasZtrmm'

リファレンスを調べてみると、例えば、cublasにDtrmvが無いように思えます。
これはどのようにすればいいのでしょうか。
127 名前：デフォルトの名無しさん [2009/11/15(日) 15:27:35 ]: en_curr_regionがないってエラー出るんで、調べてたらbreakやcontinueのところでエラー出てるっぽいんだけど、CUDAってbreakやcontinueとの相性悪いのだろうか？
128 名前：デフォルトの名無しさん mailto:sage [2009/11/15(日) 16:54:01 ]: 分岐は罪
129 名前：デフォルトの名無しさん mailto:sage [2009/11/15(日) 20:02:42 ]: 質問です

CUDAを使ったプログラムをCUDA toolkitをインストールせずに実行する方法ってありますか？
130 名前：デフォルトの名無しさん mailto:sage [2009/11/15(日) 20:56:22 ]: 試した事はないけど、driverと実行ファイルがあれば出来るだろうな
131 名前：デフォルトの名無しさん mailto:sage [2009/11/15(日) 21:09:53 ]: よ～し、パパ、CUDAを覚えて会社で活躍しちゃうぞ～！
132 名前：デフォルトの名無しさん mailto:sage [2009/11/16(月) 01:31:49 ]: VCランタイムがあるとして、cudart.dllと、cutil32.dll　だけ必要(Win32)。
133 名前：デフォルトの名無しさん mailto:sage [2009/11/16(月) 01:44:32 ]: >>132
それって再配布できるの？
134 名前：デフォルトの名無しさん mailto:sage [2009/11/16(月) 03:58:07 ]: cudatoolkitのEULA、cudart.dll　はredistributableと書いてあるな
CUTILは、cutil.cppの頭に「何の保証もしねぇよ」って書いてある。CUDAとは別で単なるサポート用なのかな。
ていうかcutil32.dllは無くても動くように書けると思う。ソースみたらくだらないぞこれ
nVidiaのドライバ入れればCUDAも動く、ようにはまだなってないのかな。
135 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 00:52:04 ]: >>134
cudart.dll はCUDAの上位互換を保つために、配布するんだそうだ。
ちなみに、cutil32 or 64 .lib は使わないほうが。。。

ともかく、

cudart's version <= cuda driver's version
の条件が必須
136 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/11/17(火) 01:46:28 ]: cutilはクソすぐる
137 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 01:55:12 ]: いつの間にか団子が２ちゃんのスポンサーになってる・・・

【２ちゃんねる10週年】神秘の「乳団子」の秘密とは？
pc12.2ch.net/test/read.cgi/tech/9240911011/
138 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 05:06:18 ]: Tesla C2050　$2,499　発表になったじゃない。倍精度500-630GFLOPS。
倍精度なら10倍速い、ってどかすか買うお金持ちな人居るんだろうなぁ。
139 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 08:14:48 ]: 今まで散々売られてもいないLarrabeeを盾にして現存のプロセッサと
それを擁護する人たちを馬鹿にしていた癖して
いざ完成が近づいてくると

ディスクリート版には期待していないｷﾘｯ

とか馬鹿にしてるよな。
140 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 09:20:00 ]: おまえは誰と戦って(ry
141 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 20:19:11 ]: 書き込むスレ間違えたが分かっている人はいると思うから問題ない。
142 名前：デフォルトの名無しさん mailto:sage [2009/11/17(火) 20:52:26 ]: >>138
倍精度性能だけ見るとHD5870と同じ性能だというのは本当なのか？
単精度の1/2の性能でいいって言ってるけど
HD5870の単精度性能が数倍早いだけだという噂が
143 名前：デフォルトの名無しさん mailto:sage [2009/11/18(水) 01:33:01 ]: >>142
AMDはなにかを犠牲にしていると思うんだけど何を犠牲にしているの？
144 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/11/18(水) 02:05:20 ]: >>143
たとえばプロセッサエレメントはFP演算とデータの読み書きは排他実行だったりとか
それでなくとも各プロセッサエレメントにぶら下がってる5つの演算ユニットが平均2～3程度しか稼動してないとか
145 名前：デフォルトの名無しさん mailto:sage [2009/11/18(水) 06:05:13 ]: ららびーは倍精度で１TFLOPSとか行くのかな。
Core i7で60GFLOPSくらいだっけ。
146 名前：デフォルトの名無しさん mailto:sage [2009/11/18(水) 08:27:53 ]: >>144
データ読み書きは別スレッドの分が並列に動くだろ。
メモリアクセス性能低いからALU命令の比率が余程高くないと
読み書き速度がネックになるけど。
147 名前：デフォルトの名無しさん mailto:sage [2009/11/18(水) 10:21:58 ]: 初歩的な疑問なのですが
ttp://tech.ckme.co.jp/cuda_const.shtml
のコードのように
__constant__ float g_idata[10000];
とか書いた時，このconstantメモリ領域は
いつ確保されるのでしょうか？

宣言だけ書かれてあっても
host,device共にその領域を使うコードを実行しない限り，
領域確保は行われないと思っていいのでしょうか？
148 名前：デフォルトの名無しさん mailto:sage [2009/11/18(水) 12:05:28 ]: >>147
GPUにはそもそも領域確保と言う概念がありません。
定数メモリ領域も共有メモリ領域もただそこにあるだけなので、宣言はあくまでもコード上のものでしかありません。
149 名前：デフォルトの名無しさん [2009/11/18(水) 15:16:17 ]: 一応タイムシェアリングできてるみたいだけどGPUのメモリ領域の退避はしないの？
150 名前：デフォルトの名無しさん mailto:sage [2009/11/18(水) 18:43:48 ]: CUDAでCPU、GPUを並列に動作させられますか？
CPU GPU 並列 CUDA　あたりで検索しても出てきません。
原理的にできそうな気もするのですが、
GPUで操作させている間はドライバを働かせているので無理なのでしょうか？
151 名前：デフォルトの名無しさん [2009/11/18(水) 18:52:14 ]: スレッドを使えばできますよ。GPUのプログラムは殆んどCPUに負荷をかけません。
152 名前：デフォルトの名無しさん mailto:sage [2009/11/18(水) 22:50:37 ]: >>150
GPUを起動したスレッドを待機状態のまま放置しておけば、他のスレッドでCPU資源を遣り繰りできます。
但し、SPの個数を超えるようなグリッドを食わせると途中で転送処理が入るので要注意。
153 名前：デフォルトの名無しさん [2009/11/19(木) 06:44:52 ]: CentOSで動きますか？
154 名前：デフォルトの名無しさん mailto:sage [2009/11/19(木) 14:51:15 ]: FermiでC言語が使えるってどーいうこと？
155 名前：デフォルトの名無しさん mailto:sage [2009/11/19(木) 17:13:26 ]: >>153
動きます。
156 名前：デフォルトの名無しさん mailto:sage [2009/11/19(木) 19:37:25 ]: fermi用のCコンパイラを用意しましたってことじゃねーの？
157 名前：デフォルトの名無しさん mailto:sage [2009/11/20(金) 19:04:36 ]: スレッド内部でレジスタがどのように使われているかわかりません
変数の数＝レジスタの数という認識をしていたのですが、そうではないようです
どなたかご教授ください
158 名前：デフォルトの名無しさん [2009/11/21(土) 10:30:39 ]: すいません、テクスチャメモリで疑問があります。
よろしければどなたか教えて頂けませんか？
コードは
gpu.fixstars.com/index.php/%E3%83%86%E3%82%AF%E3%82%B9%E3%83%81%E3%83%A3%E3%83%A6%E3%83%8B%E3%83%83%E3%83%88%E3%82%92%E4%BD%BF%E3%81%86
のテクスチャメモリを参照するていう項目のソースをとりあえず勉強がてらコンパイルしてみました。
配列に値を3ずつ入れていって、バインドして、それにtex1Dでアクセスするというだけのものです

13行目にインデクスに3.14fを用いている事から線形補間なしの場合、小数切捨てで3になり
配列[3]の値を読んで、9が返ってくるのは理解できたんですが、線形補間を有りにすると
9と12の間を補間してるはずなのに7.921875なんていう値が帰ってきています。不思議に思ってv2.3のPrograming guideを読んだところ、P.139に記述があり、どうも与えた値が-0.5されているようです。
ので、はじめから+0.5シフトしてやれば正しい値になりそうですが、そもそも何故-0.5されているのかがわかりません。

検索してもぜんぜん出てこないので当たり前な事なのかもしれませんがドツボにハマってしまってわかりません。よろしければどなたか教えて頂けませんか？長文失礼しました
159 名前：デフォルトの名無しさん [2009/11/21(土) 10:32:29 ]: 158です。
上記質問で訂正があります。programming guideのP.139ではなくP.137でした。すいません。
160 名前：デフォルトの名無しさん mailto:sage [2009/11/21(土) 11:49:04 ]: >>158
テクスチャだからとしか言い様が無いような。
配列の[0]の値は0 ～ 1が守備範囲で中心は0.5
...
配列の[i]の値はi ～ i+1が守備範囲で中心はi+0.5
...
配列の[N-1]の値はN-1 ～ Nが守備範囲で中心はN-0.5

N個の値を0～Nの範囲に均等にマッピングするためにこうなっている。
161 名前：デフォルトの名無しさん mailto:sage [2009/11/21(土) 12:40:17 ]: >>160
なるほど、こんな感じか。
buffer[2.5] = 6.0
buffer[3.0] = (buffer[3.5]-buffer[2.5])*0.5 + buffer[2.5] = 7.5
buffer[3.5] = 9.0
buffer[4.0] = (buffer[4.5]-buffer[3.5])*0.5 + buffer[3.5] = 10.5
buffer[4.5] = 12.0

buffer[3.141592653589] = (buffer[3.5]-buffer[2.5])*0.641592653589 + buffer[2.5] = 7.924777960767
あれ？ちょっと違う値だね
162 名前：158 [2009/11/22(日) 15:50:57 ]: >>159,160
ありがとうございます。
なんとなく理由が理解できた気がします。
が、こちらでも計算しましたが
buffer[3.141592653589]=7.924777960767
となって件のサイトの値7.921875とは合わないですね・・・
buffer[9.80665]=27.91995となって27.925781ではないですね・・・
低精度の線形補間というのは有効数字3桁って事なんですかね？
163 名前：デフォルトの名無しさん mailto:sage [2009/11/23(月) 05:07:25 ]: リニアフィルタつきのテクスチャでは、
座標(0,0)てのは左上端のドットが持つ四角い領域の左上端を意味するからね。
ドットの真ん中は座標(0.5, 0.5)になる。
真ん中にそのドットの本来の色（値）がくる。

精度はシラネ。リファレンスマニュアルに何か書いてあると思うけど。
164 名前：デフォルトの名無しさん mailto:sage [2009/11/23(月) 14:39:37 ]: CUDA3.2上で動くTesla1070Sを使っているんだが
doubleでは、sqrtとか動作しない？

//#define DOUBLE double
#define DOUBLE float
__global__ void sqrtTest(DOUBLE *A)
{
int x=threadIdx.x;
(*(A+x))=(DOUBLE)sqrt(*(A+x));
}

みたいにして、実験したんだが、doubleにすると
値がそのまんま帰ってくるんだが　orz
165 名前：デフォルトの名無しさん mailto:sage [2009/11/23(月) 18:16:06 ]: >164
コンパイル時に　-arch=sm_13　はつけてる？
166 名前：デフォルトの名無しさん mailto:sage [2009/11/23(月) 19:09:46 ]: >>165
それだっ！動作しました。
cublasは倍精度で動いたんで、いろいろ調べたんですが。
ありがとうございます。
167 名前：デフォルトの名無しさん mailto:sage [2009/11/24(火) 05:01:59 ]: >>164
CUDAって3．2までいっているの？
つい最近2．3が出たような気がする。
ひょっとして2．3の間違い？
168 名前：デフォルトの名無しさん mailto:sage [2009/11/24(火) 12:40:41 ]: おそらく。
今は3.0のβだね。
169 名前：デフォルトの名無しさん [2009/11/25(水) 03:38:40 ]: newでメモリを確保するのは反則ですか？
170 名前：デフォルトの名無しさん mailto:sage [2009/11/25(水) 06:36:25 ]: >>169
どうやってnewで確保された領域をGPUに転送するの？
171 名前：デフォルトの名無しさん mailto:sage [2009/11/25(水) 10:28:10 ]: >>169
CPU側のメモリでしたら反則ではありません。但し、VCで使う場合は*.cuでnewしてもmsvcrtにリンクできません。
172 名前：デフォルトの名無しさん mailto:sage [2009/11/25(水) 19:49:02 ]: >>169
パフォーマンス求めるなら、論外です。
173 名前：デフォルトの名無しさん mailto:sage [2009/11/25(水) 22:00:21 ]: newでメモリ確保するのがだめならどうやってCPU側のメモリ確保するの?
全部静的確保?
それともcudaHostAllocを使えって話?
174 名前：デフォルトの名無しさん mailto:sage [2009/11/26(木) 06:26:18 ]: メモリ転送ってＳＳＥで高速化されたりするんかな？
だとしたらnewより専用で用意されたものを使ったほうがいいかもね
175 名前：デフォルトの名無しさん mailto:sage [2009/11/26(木) 06:58:15 ]: >>174
メモリ転送ってCPUメモリ間？それともHOSTｰGPU間？
前者だったら高速化はされるけど、後者はDMAでPCIEにダイレクトに転送されるだろうから、
SSEは関係ないんじゃない？
176 名前：デフォルトの名無しさん mailto:sage [2009/11/26(木) 17:12:50 ]: これは・・・

108 名前：デフォルトの名無しさん[sage] 投稿日：2008/07/14(月) 19:24:11
>>106
GPUはWarp単位で同じインストラクションが走るから、要は16人17脚みたいに考えればいい。
メモリアクセスを16人17脚によるパン喰い競争みたいに考えると、自分のパンが目の前にある状態がcoalesced。
そのとき、2,3人パンを喰う必要がなくてもスルーするだけだから問題ない。
処が、二人のパンが入れ違っていたらそこで入れ替える間、みんなが待たされることになるって感じ。
# 判っている人には判るけど、判っていない人には判らない説明だなw

>>107
共有メモリを使うかどうか違うだけだと思うけど。ptx出力させて較べてみたら?

109 名前：デフォルトの名無しさん[sage] 投稿日：2008/07/15(火) 00:26:16
>>108
その説明、いただいてもいいですか？

110 名前：デフォルトの名無しさん[sage] 投稿日：2008/07/15(火) 01:56:27
>>109
本にするならもっと書かせてくれw
Vipのwikiに載せるなら是非やってくれ
金取って講習するのに使うのなら分け前よこせw
177 名前：デフォルトの名無しさん mailto:sage [2009/11/26(木) 19:45:48 ]: 対称行列になるものをGPUに送信したいのだが、うまい方法はない？
一般の場合は、GPU上では対称ではないとみたいのだが
送る際対称になる場合が結構あって、転送時間無駄だなあと。
178 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/11/27(金) 00:42:44 ]: >>175
これじゃないの？
gpu.fixstars.com/index.php/WriteCombine%E3%83%A1%E3%83%A2%E3%83%AA%E3%82%A2%E3%82%AF%E3%82%BB%E3%82%B9%E3%82%92%E9%AB%98%E9%80%9F%E5%8C%96%E3%81%99%E3%82%8B
179 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/11/27(金) 00:47:50 ]: このコードはいろいろ酷いからそのまま使えると思っちゃ駄目よ。
srcのアドレスはこの場合64バイトでアラインメントされてないといけない。
destのほうも最低限16バイトアライン
180 名前：デフォルトの名無しさん mailto:sage [2009/11/27(金) 01:21:10 ]: >>176
なかなか良い説明だなｗ
181 名前：デフォルトの名無しさん mailto:sage [2009/11/27(金) 01:24:20 ]: >>176
あと、競争するコースに分岐があったら、
その分岐に用のある人が２，３人だったとしても全員一応付き合わされた後
本流に戻るというか、そんな感じだな。
182 名前：デフォルトの名無しさん mailto:sage [2009/11/27(金) 14:02:37 ]: >>180,181
あれ、みんな読んでないのかな。
最近ようやくCUDA本がでたわけだけど、
まんまこの文章書いてあるんだよね。
青木先生乙
183 名前：デフォルトの名無しさん mailto:sage [2009/11/27(金) 14:41:15 ]: >>182
絵もついてるしなｗ
184 名前：デフォルトの名無しさん mailto:sage [2009/11/27(金) 19:44:26 ]: 地球シミュレータを蹴散らし一躍脚光を浴びたというのに
中身スカスカなスレだなｗ
185 名前：デフォルトの名無しさん mailto:sage [2009/11/28(土) 02:15:17 ]: CUDAスパコンってそのときだけのものなんじゃない？
研究機関のスパコンは定期的に更新されるもので、更新したら前の代の
ソフトウェア資産はさっぱり使えなくなりましたじゃとても困るだろう。
186 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/11/28(土) 03:50:50 ]: まあG80～GT200世代のコードも一応次のFermiでは動くし
NVIDIAが父さんしない限りはずっと続くんじゃない？
187 名前：デフォルトの名無しさん mailto:sage [2009/11/28(土) 12:16:54 ]: >>182
もうある程度把握しちゃってるからいまさら入門書買ってもとも
思ったけど、どうなんだろ。
188 名前：デフォルトの名無しさん mailto:sage [2009/11/28(土) 12:19:29 ]: >>185
IBMがHPC向けにはCELLやめてOpenCLに舵を切った的なことが書いてある。
ま、TheInquirerの記事は眉唾ではあるけど。
www.theinquirer.net/inquirer/news/1563659/cell-hpc-material

あ、ここCUDAスレだけどまあ似たようなもんということで。
189 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/11/28(土) 14:03:35 ]: ×CellやめてOpenCL
○Cellベッタリのコード書くのやめてOpenCL

段階的には切り捨てることも考えられるが
いきなりOpenCLで他のデバイスとかいっても、資産が無いじゃん
190 名前：デフォルトの名無しさん mailto:sage [2009/11/28(土) 20:47:07 ]: はじめてのCUDAプログラミング
買った人いる？
どうだった？
191 名前：デフォルトの名無しさん mailto:sage [2009/11/28(土) 22:01:41 ]: 図書館に頼んだら陳列は来月からと言われてしまった
192 名前：デフォルトの名無しさん mailto:sage [2009/11/28(土) 23:23:30 ]: 本なんか読まなくても分かるだろ
193 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 00:55:57 ]: 日販は使えない会社だ。
194 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 01:10:09 ]: >>190
思ったより安かったのでぽちってきた。
ASCII.techの特集も買ったけどアクセスの最適化あたりで苦戦中なレベルなので、
どうだった？とか言われても答えられないかもしれない。
195 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 12:11:38 ]: >>184
これ、とんでもない誤報
浮動小数点演算を理解していないバカコミの馬鹿記事

科学技術立国　日本の恥を世界に晒したもの
「ふざけたやつがペンもつな、馬鹿野郎」だ。
196 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 14:01:50 ]: 浮動小数点数
197 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 15:13:49 ]: GTX295と電源買った～
さて、何に使おうw
198 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 15:40:35 ]: っBOINC
199 名前：デフォルトの名無しさん mailto:sage [2009/11/29(日) 15:46:59 ]: >>176
おにいさん、もっと！
200 名前：197 mailto:sage [2009/11/29(日) 18:00:24 ]: smokeParticles.exe の動作が 8600GTS より遅く感じるんだがなぜだー

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef