【GPGPU】くだすれCUDAスレ pert2【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 02/21 05:22 / Filesize : 250 KB / Number-of Response : 931
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2009/10/08(木) 19:29:37 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
www.nvidia.com/cuda

関連スレ
GPUで汎用コンピューティングを行うスレ
pc11.2ch.net/test/read.cgi/tech/1167989627/
GPGPU#3
pc12.2ch.net/test/read.cgi/tech/1237630694/
612 名前：デフォルトの名無しさん mailto:sage [2010/02/19(金) 02:31:33 ]: 俺はNvidiaちゃんを信じるよ

twitter.com/NVIDIAGeForce/status/9265680539
613 名前：デフォルトの名無しさん mailto:sage [2010/02/19(金) 02:32:33 ]: 誤爆った／(^o^)＼
614 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 04:09:26 ]: うちは理論で「***手法より*%高速化して最速!」とかやってないってのもあるけど
GPUで組んだ手法と既存の手法を比べる場合、既存のほうはベーシックにしろと指導された。
複数CPUだとかSSEを使ってガチガチに最適化した手法と比べちゃうと基準が分からなくなるからだと。
他の高速化との差を知りたければその論文と比較しろということだと思う。

CPU最適化して無いなんて糞というのも分かるけど、こういうところもあるということで。
615 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 08:30:23 ]: コードの比較もいろいろだよな。
同じアルゴリズムを採用しても、CPUでも書き手によってGPUでも明らかに差が出てくる。
でもGPUを使う場合、多くの場合はCPUよりも速くなりました。というのが目的な訳で、
CPUの方が速いならあえてGPUを使う必要はないからね。
基準が曖昧になるのもわかるけど、そもそも基準が曖昧な気がするなあ。
場合によってはかなり恣意的になることもあるし・・・・。
616 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 10:07:52 ]: Femiやばいまた延期確定かも
617 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 11:37:52 ]: 一般人が入手できるのは１年後になる可能性もあるらしいね
618 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 11:44:04 ]: なんでそんな度々延期になるの
619 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 12:14:45 ]: >>618
ペーパーロンチで実際開発が
行われていないからだよ
620 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 13:17:36 ]: 今回のケースは大きな欠陥があることを知りながら、小手先の改良でなんとかしようとして
「完成品」を大量生産をして、まとにチップが取れなかったのが原因だろ

１％程度とされる歩留まり率で、１チップ当たり5000ドルの原価
これでは商売にならないね
621 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 13:39:05 ]: 3/19に東工大青木先生がCUDA　Fortranのセミナやるんだって
622 名前：デフォルトの名無しさん mailto:sage [2010/02/20(土) 13:40:57 ]: 関係者の宣伝おつ
623 名前：デフォルトの名無しさん mailto:sage [2010/02/23(火) 08:21:59 ]: 青木先生に集客されたくねえなあ正直
624 名前：デフォルトの名無しさん mailto:sage [2010/02/23(火) 22:06:44 ]: nexusをリモートで動かそうとしたが、ブレークポイントでとまらねぇ・・・。
色々試したがどうにも解決しないので教えてください。

状況としては、nexusのユーザーズガイドに沿って設定。
ためしにnexusサンプル動かそうとしたら、
ランタイムAPIプロジェクトはGetDeviceで引数に０が。
で、次の行で落ちる。
DriveAPIは落ちない。んでホスト側の画面右下に青いポップアップ出て、
ターゲットマシンにコンソール画面出てるのでプログラムは正常に動いてるっぽい。
でもカーネル関数内にブレークポイント置いても止まらず。
自分でSDKサンプルのプロジェクトの設定変えて試しても同じ。

マシン環境はこんな感じ。
ホストマシン
Vista 64bit SP2
.Net3.5 SP1
Host nexus1.0(jan 64bit)
GPU FX570
VC++ 2008 SP1
DirectX10 August 09
CUDA SDK2.3 32bit
CUDA ToolKit2.3 32bit
625 名前：続き mailto:sage [2010/02/23(火) 22:08:57 ]: ターゲットマシン
Vista 64bit SP2
.Net3.5 SP1
Target nexus1.0(jan 64bit)
GTX285
VC++ 2008
DirectX 10 August 09
CUDA SDK2.3 32bit

他に設定としてはEnable Security Serverをfalse
nexus→option→Enable secure connectionをfalseにしてます。
使い方は、ホストマシンでVC起動→プロジェクト読み込み→nexusデバッグ
ターゲットマシンはデバッグモニタ起動のみ。
どこがおかしいのだろう？
626 名前：デフォルトの名無しさん mailto:sage [2010/02/24(水) 22:31:24 ]: Fermi終了したらこのスレも終了するんかなあ
627 名前：デフォルトの名無しさん mailto:sage [2010/02/24(水) 23:16:54 ]: the launch date for GeForce GTX 480 and GTX 470 is March 26
628 名前：デフォルトの名無しさん mailto:sage [2010/02/25(木) 12:42:26 ]: >>627
ペーパーリリースで全世界で１万枚以下の出荷といううわさだけどね
一般人が手に入れられるようになるのは、下手をすると来年
良くて年末という予想がある
629 名前：デフォルトの名無しさん mailto:sage [2010/02/25(木) 13:15:26 ]: やっぱ、シリコン丸ごと改良しないとだめなんか。
半分ダメで256コアでもいいんだけどｗｗ
630 名前：デフォルトの名無しさん mailto:sage [2010/02/25(木) 20:23:58 ]: 俺はNexusインストールすらできなかった
631 名前：デフォルトの名無しさん mailto:sage [2010/02/25(木) 22:02:09 ]: 消費電力280Wだっけ。。。GTX480
632 名前：デフォルトの名無しさん mailto:sage [2010/02/25(木) 23:43:58 ]: アム虫キモ
633 名前：625 mailto:sage [2010/02/26(金) 23:13:31 ]: もうよくわからんからnexusのエミュモードでやることにした。
カーネル関数内でブレークするし、値もちゃんと表示されてそう。

>>630
OS対応してないとか？Vistaか7しかできない。
あとはOSとnexusのbitが違うとか。
634 名前：デフォルトの名無しさん mailto:sage [2010/02/27(土) 19:37:59 ]: >>633
インストーラがVS2008 SP1入れてあるのに読み取ってくれなくて、
インストールができない状態だった。

Microsoftからダウンロードしたばっかりのイメージを使ってインストールしたから
当然SP1はあたっているものかと思っていたらあたっていなかった、っていう初歩的なミスだった。

ちょっくら遊んでくる
635 名前：デフォルトの名無しさん mailto:sage [2010/03/05(金) 11:16:51 ]: 　　　　　　　　 ,. -‐'''''""¨¨¨ヽ
　　　　　　 (.＿＿_,,,... -ｧァﾌ|　　　　　　　　　　あ…ありのまま今　起こった事を話すぜ！
　　　　　 |i i|　　 }!　}} /／|
　　　　　　 |l､{　　j}　/,,ｨ//｜　　　　　　　『おれはNvidiaにARE YOU READY?と言われて
　　　　　　　 i|:!ヾ､_ﾉ／ u {:}//ﾍ　　　　　　　　　　準備していたら準備しているのはNvidiaの方だった』
　　　　　　　 |ﾘ u' }　 ,ﾉ　_,!V,ﾊ |
　　　　／´fト､_{ﾙ{,ィ'ｅﾗ　, ﾀ人　　　　　　　　な…　何を言ってるのか　わからねーと思うが
　　　　 /' 　ヾ|宀| {´,)⌒`/ |<ヽﾄiゝ　　　　　　　　おれも何をされたのかわからなかった
　　　　,ﾞ　／ )ヽ iLﾚ　u' |　| ヾｌﾄﾊ〉
　　　 |／_／　ﾊ !ニ⊇　'／:} 　V:::::ヽ　　　　　　　　頭がどうにかなりそうだった…
　　　 /／二二二7'T'' ／u'　__ /:::::::/｀ヽ
　　　/'´r　-―一ｧ‐ﾞＴ´　'"´ ／::::／-‐ 　＼　　　　128bitメモリバスだとかリネームテクノロジーだとか
　　 / // 　广¨´ 　/'　　／:::::／´￣｀ヽ ⌒ヽ　　　　そんなチャチなもんじゃあ　断じてねえ
　　ﾉ ' /　ノ:::::`ー-､___／:::::／/ 　　　ヽ　　}
_／｀丶　/::::::::::::::::::::::::::￣`ー-{:::...　　　　　　ｲ　もっと恐ろしいものの片鱗を味わったぜ…
636 名前：デフォルトの名無しさん mailto:sage [2010/03/06(土) 00:09:36 ]: GTX480がそこそこ出回るらしい（core数は当初想定よりも少なくなる可能性があるが）
Fermiアーキテクチャを思っていたよりも早い時期に体験出来る可能性が出てきた
637 名前：デフォルトの名無しさん mailto:sage [2010/03/06(土) 20:59:14 ]: Fermi火事出すだろうな
電気食いすぎだ
638 名前：デフォルトの名無しさん mailto:sage [2010/03/07(日) 10:23:33 ]: GF100（GTX480, 470）は高電力でお値段も高めになるだろうから、
Fermiアーキテクチャをとにかく早く試したい人以外はその次のGF104がいいと思う
639 名前：デフォルトの名無しさん mailto:sage [2010/03/07(日) 11:05:46 ]: 半分だけの460とか出ないかな？
640 名前：デフォルトの名無しさん mailto:sage [2010/03/07(日) 11:26:00 ]: この辺りの情報がそれかも知れん

The AMD's Cafe:ローコストなFermiやQuadroについて - livedoor Blog（ブログ）
blog.livedoor.jp/amd646464/archives/51525107.html

まだまだ先のようだ
641 名前：デフォルトの名無しさん mailto:sage [2010/03/07(日) 15:31:52 ]: 売り物にならない奴はQuadro逝きか。
OpenGL市場ってほんと舐められてるな。
ゲイツに縛られない自由なAPIだったはずなのに。
642 名前：デフォルトの名無しさん mailto:sage [2010/03/09(火) 00:29:10 ]: www8.plala.or.jp/b4zabeat/
643 名前：デフォルトの名無しさん mailto:sage [2010/03/09(火) 23:19:41 ]: このレビューは何が言いたいのかよくわからんかった
pc.watch.impress.co.jp/docs/column/nishikawa/20090518_168541.html
644 名前：デフォルトの名無しさん mailto:sage [2010/03/16(火) 00:53:46 ]: CUDA上の命令がどれくらいのクロックで動くかまとめられていませんか？
整数の乗算やら三角関数はプログラミングガイドに載っていたのですが,ほかの命令も知りたいです
645 名前：デフォルトの名無しさん mailto:sage [2010/03/16(火) 08:46:48 ]: 「どのくらい」でいいなら実測すればいいかと
646 名前：デフォルトの名無しさん mailto:sage [2010/03/16(火) 16:42:16 ]: エミュレーションモードでやるとうごくのですが、GPUをつかうと動きません。

const int c = border + (blockDim.x * blockIdx.x + threadIdx.x) * step * 2;
const int r = border + (blockDim.y * blockIdx.y + threadIdx.y) * step * 2;
const int i = 1;
// atomicAdd(&count[0], 1);//ここでは動くのでatomicAddの問題ではない
if(c >= i_width - border || r >= i_height - border) return;
int i_max = -1, r_max = -1, c_max = -1;
float max_val = 0;
for (int ii = i; ii < min(i+2, intervals-1); ii += 1)
for (int rr = r; rr < min(r+2*step, i_height - border); rr += step)
for (int cc = c; cc < min(c+2*step, i_width - border); cc += step) {
float val = getVal(d_m_det, o, ii, cc, rr, i_width, i_height);
if (val > max_val) {
max_val = val, i_max = ii, r_max = rr, c_max = cc;
}
} // Check the block extremum is an extremum across boundaries.
/***********ここでd_iptsにiptを加えてもうごく*********/
// float4 ipt ;
// d_ipts[atomicAdd(&counter, 1)] = ipt;
if (max_val > 0.0004f && i_max != -1 && isExtremum(d_m_det,o, i_max, c_max, r_max, i_width, i_height, intervals)) {
float4 ipt = interpolateExtremum(d_m_det, o, i_max, r_max, c_max, i_width, i_height);
if(ipt.x >= 1)
{
d_ipts[atomicAdd(&counter, 1)] = ipt;//ここの行をコメントアウトすると動く
ipt.x += 1;
}}
最後のif文の中でd_iptsやcountにアクセスするのがだめっぽいのですが・・・
なにかif文を書いたときに同じような症状になった方や、これを見ただけでわかる方いらっしゃったら、教えてください。
よろしくおねがいします。
647 名前：デフォルトの名無しさん mailto:sage [2010/03/16(火) 23:39:20 ]: とりあえず問題になってるatomicAdd(&counter, 1)の戻り値調べようか
648 名前：デフォルトの名無しさん mailto:sage [2010/03/17(水) 00:13:02 ]: counterの宣言にちゃんと__device__は付いているのだろうか・・・
649 名前：646 mailto:sage [2010/03/17(水) 00:40:32 ]: >>647
エミュレーションで確認したところ戻り値はcounterと同じ値になっていました。
実際にGPUでうごかすと、
counterをデバイスからホストへ送るところでunspecific launchとなるか、
永久ループに入るか何かで画面が固まり、ブルースクリーンになって落ちます。

>>648
_device_をつけてグローバル変数(っていうのかわからないけど)として定義しています。
650 名前：デフォルトの名無しさん mailto:sage [2010/03/17(水) 09:55:20 ]: その反応だとアクセス違反のときが多いのだがそんなことないよな？
651 名前：デフォルトの名無しさん [2010/03/17(水) 13:42:58 ]: CUDAでつかうlong doubleってWindowsとLinuxでサイズは違うの？
652 名前：デフォルトの名無しさん [2010/03/18(木) 00:14:29 ]: >>650
アクセス違反ってcounterの位置がおかしいってことですか？
このプログラムをいれずに単にcounterをデバイスからホストに送ることは可能でした(初期値として０をおくっていたので０が帰ってきていました)。

つまり、このプログラムのようにatomicAddをif文とか分岐が多くなるような文章内でつかうと、
今回でいえばcounterのアドレスがかわるということですか？？
653 名前：デフォルトの名無しさん [2010/03/19(金) 07:46:47 ]: パスワードクラックでTeslaがHD5970に完敗

www.geeks3d.com/20100316/radeon-hd-5970-the-ultimate-password-cracking-hardware/
www.geeks3d.com/public/jegx/201003/elcomsoft-wpa-psk-password-test.jpg
654 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 10:12:59 ]: Dual-GPUとSingle-GPUを比べてる時点でアウト
655 名前：デフォルトの名無しさん [2010/03/19(金) 10:34:24 ]: １スロットどうしの比較だから問題ない
656 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 11:09:41 ]: >>655
それを言い出すと、TeslaDが出てくるぞ。ブリッジ自体は1スロットだからなw
657 名前：デフォルトの名無しさん [2010/03/19(金) 11:22:52 ]: はいはい、負け惜しみ
単純な計算性能では圧倒的にラデオンのほうが優れているんだよ
658 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 11:32:44 ]: 比較対象にHD5870が入っていない時点で
なんか違和感があるんだが
659 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 11:37:34 ]: Tesla C1070ってなに？Fermi？
660 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 11:42:09 ]: www.elsa-jp.co.jp/products/hpc/tesla_s1070/index.html
これ
661 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 11:42:32 ]: GT200じゃなかった?
662 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 14:33:49 ]: ttp://developer.nvidia.com/object/gpucomputing.html

CUDA Programming Guideがリンク切れしているんですが
誰か正しいアドレスを知りませんか
663 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 18:21:58 ]: 高い・遅い・熱い
664 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 18:52:10 ]: S1070ってGT200×4の奴だろ。
665 名前：デフォルトの名無しさん [2010/03/20(土) 17:28:11 ]: CUDA 3.0 Downloads
developer.nvidia.com/object/cuda_3_0_downloads.html
666 名前：デフォルトの名無しさん mailto:sage [2010/03/20(土) 18:02:54 ]: CPUでの計算にインテルコンパイラを使いたいのですが、どのようにすればいいのでありまするか？
667 名前：662 mailto:sage [2010/03/20(土) 20:32:56 ]: >>665
ありがとうございます
668 名前：デフォルトの名無しさん mailto:sage [2010/03/20(土) 20:52:01 ]: >>666
nvcc -cで*.cuをコンパイルしたら、できた*.oをiccでリンクすればいい。
Windowsの場合はnvccもiccも別々にオブジェクトを作ることになるからそれをVCでリンク。
669 名前：デフォルトの名無しさん mailto:sage [2010/03/20(土) 21:52:07 ]: 利用者はCUDAなんて独占的技術を求めてませんよね
670 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2010/03/20(土) 22:52:58 ]: まして永久β版のSDKなんて論外
671 名前：デフォルトの名無しさん mailto:sage [2010/03/20(土) 23:30:36 ]: まあ利用者だけが決めるわけでもないのも悲しいけど現実なのよね
672 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 04:48:10 ]: なんか面白いことに使えないかな
もったいない
673 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2010/03/21(日) 08:27:51 ]: 「何かには使える」って言ってるうちは何にも使えないまま終わるんですけどね。
ターゲットアプリケーションがあってはじめて、そのニーズに合わせてハードの機能・性能の拡充が行われうるわけで
今までであればゲームがそうだった。

ウン十並列のデータを同時処理するような用途のニーズが仮に高まってるとしても
それはCPUのSIMD拡張によってもカバーできるでしょ
674 名前：デフォルトの名無しさん [2010/03/21(日) 08:51:43 ]: Linuxでドライバのバージョンを調べる方法を教えてください
675 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 08:58:16 ]: もう少し具体的に聞かないと・・・・。
676 名前：デフォルトの名無しさん [2010/03/21(日) 09:00:06 ]: ドライバのバージョンによって、振る舞いを変えたいので、
UbuntuでGPUのドライバのバージョンをプログラム上から調べる方法を教えてください
677 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 09:22:25 ]: Ubuntu限定な必要があるかどうかはともかく、ドライバ自体のバージョンを知るAPIは用意されていません。
/usr/lib64のディレクトリでlibcuda.so.* のレギュラーファイルを探すのが確実かと思います。
678 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2010/03/21(日) 09:33:40 ]: CUDA実行環境がインストールされてるかどうかを調べてライブラリを遅延ロードできるような仕組みを
標準で用意して欲しいかな
679 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 20:24:40 ]: CUDA3.0
ttp://developer.nvidia.com/object/cuda_3_0_downloads.html
680 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 21:52:46 ]: Fermi対応版か
肝心のブツが手元にまわってくるかも怪しいのに
681 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 22:30:11 ]: deviceQueryがあるじゃん
682 名前：デフォルトの名無しさん mailto:sage [2010/03/22(月) 02:31:14 ]: Fermiは、入手しやすくなるまで松わ。
初物は爆熱で卒倒価格だろうし。
683 名前：デフォルトの名無しさん mailto:sage [2010/03/22(月) 14:26:17 ]: 俺は特攻する
470か480かが問題
そもそも手に入るのか、という話もあるが
684 名前：デフォルトの名無しさん mailto:sage [2010/03/22(月) 15:02:55 ]: そうか。取り合えず貼っておかねばなるまい
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::。:::::::::::::::::::::::::::::::::::::::::::::
:::::::::::::::::::::::::::::::::。::::::...... ...　　 --─-　　:::::::::::::::::::: ..::::: . ..::::::::
:::::::::::::::::...... ....:::::::゜::::::::::..　　（___ ）（___ ）　::::。:::::::::::::::::　゜.::::::::::::
:. .:::::。:::........　.　.::::::::::::::::: _　i/ ＝　＝ヽi　:::::::::::::。::::::::::: . . . ..::::
:::: :::::::::.....:☆彡::::　　　／/[||　　」　　||]　>>683 ::::::::::゜:::::::::: ...:: :::::
　:::::::::::::::::: . . . ..: ::::　/　ﾍ　| |　 ____,ヽ | |　:::::::::::.... .... ..　.::::::::::::::
::::::...゜　.　.:::::::::　　／ヽﾉ　　ヽ＿＿/　　.......　.　.::::::::::::........ ..::::
:.... .... ..　.　　　　く　 /　　　　三三三∠⌒＞:.... .... ..　.:.... .... ..
:.... .... ..:.... .... ..... .... ..　.:.... .... ..　..... .... ..　..... ............. ..　.　........　......
:.... . ∧∧　　∧∧　　∧∧　　∧∧　.... .... ..　.:.... .... ..... .... ..　.
... ..:（　　）ゝ（　　）ゝ（　　）ゝ（　　）ゝ無茶しやがって… ..........
....　 i⌒　/ 　 i⌒　/ 　i⌒　/ 　 i⌒　/　..　..... ................... ..　.　...
.. 　三　 | 　三　 | 　三　 | 　三　|　　... ............. ...........　.　.....
...　 ∪ ∪ 　 ∪ ∪ 　 ∪ ∪ 　∪ ∪　............. ............. ..　........　...
　　三三　　三三　　三三　　　三三
　三三　　三三　　三三　　　三三
685 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 18:34:15 ]: 東工大、気象庁の次世代気象モデルのフルGPU化に成功
pc.watch.impress.co.jp/docs/news/20100324_356466.html

120GPUで3.22TFLOPSか。大変なんだろうけど微妙な数字だな。
686 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 19:27:10 ]: どう微妙なんだい
687 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:00:16 ]: なんか膨大な演算能力は殆ど遊んでいるな。
こういう用途なら演算機減らした方が、電力効率的にはマシになるんじゃ。
688 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:06:08 ]: ha?
689 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:13:50 ]: え？
690 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:16:26 ]: ま、近い将来fermiに置き換わるんだろ
691 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:34:22 ]: >>685
1GPUあたり44.3GFlopsかぁ。維持で対応したって感じだ。
692 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:48:15 ]: 浮動小数点演算速度が3.22TFLOPSなのか？
693 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:48:57 ]: それでもCPUより80倍の実行性能なんだね
694 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:52:14 ]: 6時間の気象モデルが70分で終了するなら
同じ気象モデルを使えばリアルタイム予測が可能？
695 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 23:28:24 ]: 偏微分方程式の数値解法をやる大学院生の演習課題みたいなもんですなw
696 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 00:41:07 ]: 気象問題って、ノード間の影響はどうなの？
TESLAって結局PCI Expressで繋がっているから、
レイテンシが大きそうだな。
697 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 01:59:47 ]: とりあえず運用してノウハウ貯めて、
28nmのFermi2で一気にパワーアップってのがいいんじゃないか？
明確なハズレ世代を大量導入するのはちとどうかと。
698 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 07:32:00 ]: >>687
そういうのは GPU 以外に期待した方がいいんじゃないの？
電力効率なんて気にしたせいでピーク性能が落ちてゲームユーザが買わなくなったら、GPU の市場自体が崩壊するよ。
699 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 14:56:59 ]: >>696
レイテンシを隠蔽するようにcode組んだらしい
700 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 00:39:01 ]: >>699
へー、そーなんだ。
701 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 00:59:41 ]: >>693
これがよくわからんな。
なんで80倍なんだろう？
G200って倍精度の理論値って80Gflops位じゃなかった？
それに対してCPUが10Gflopsだろ。
8倍の間違いじゃないのか？
702 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 03:03:04 ]: techon.nikkeibp.co.jp/article/NEWS/20100324/181319/?ST=lsi
> 「最新のマイクロプロセサとの比較ではなく，チューニングの程度の
> 差もあるため，80倍という数字自体は重要ではない。GPUの活用で
> ケタ違いの性能が得られることを確認できた点に意味がある」（青木氏）

だそうで
703 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 03:12:28 ]: 倍精度もハードウェアで本格対応して500GFLOPSになったんじゃないの
と思ったけどFermi世代からで、G200世代のものは90GFLOPS程度みたいだね。

これで倍精度で44.3GFLOPSなら効率50%近くということになるし
アルゴリズムとかかなり頑張っただろうね。

>>701
シェアードメモリをうまく使ったり、大量のスレッドでノード間のレイテンシを隠蔽したり
帯域がボトルネックになりにくいように出来たからじゃないの。

スカラープロセッサは、流体力学とか多体問題とかの
計算結果を相互に利用しながら並列計算する場合には
帯域がボトルネックになって効率がかなり低くなりがちらしいし、
比較対象のCPUを使ったシステムは効率が10%を下回っていたとかかも。

完全に並列化できて帯域がボトルネックになりにくい演算の場合は
10～20倍という話だったかな。
704 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 05:40:03 ]: >>703
メモリ帯域が問題になるのはよくわかるんだけど、
それも今のNehalemあたりは30GB/sぐらいあるから、
精々teslsaとは5倍くらいだろう。
それだとメモリ転送時間は1/5、計算時間が1/8になるとして、
CPUのメモリ転送時間をA、計算時間をBとすれば、
実行時間は単純にするとC=A+Bになる。
GPUの場合はCg=0.2A+0.125Bになる。
A=10Bとしたとしても5倍程度にしかならない様な気がするなあ。
CPUの場合巨大なキャッシュがあるし、プリフェッチもあるから
その差が縮まるはずなんだけどな。
東工大のクラスのだからCPUのコードがくそだということもなさそうだから、
なんかOpteronのCPU1コアと比較してそうだなあ。

と思っていたら、>>702が書いてくれているね。
705 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 05:49:43 ]: 比較するCPUが遅すぎたわけか
706 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 07:17:15 ]: このcpuの速度は、普通にべたべたfpu演算を書いたときの数字だね。
理研の姫野ベンチ並みのバカコードと対照させても意味がない。

Linpackで最近のcpuをベンチマークすると、理論値の8掛け程度の数字は出る。
TUBAMEのopteronも1コアあたり10GFlops前後。しかも倍精度で。
Linpackに比べて気象エミュは速度が上がらんのは間違いないが、
この青木とやらの記事は全然ダメだ。
nVIDIAが成果としてレファできないレベル。
707 名前：デフォルトの名無しさん [2010/03/26(金) 08:52:49 ]: CPUというのは全然チューニングしてないレファレンスコードだろ。
よく使う手。しかもCPU名すら書いてない。

ベンチマークには２種類ある。嘘か大嘘。
708 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 17:23:46 ]: PPTを見ると、44.3GFLOPSは単精度、倍精度では15GFLOPSだね。
比較のCPUは倍精度で0.5GFLOPS以下で、単精度の44.3GFLOPSと比較し、80倍以上といってるんだね。
青木いい加減にしろよｗ
709 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 21:19:29 ]: これはひどい。
710 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 22:05:03 ]: >>704
この手の計算の場合はCPUのキャッシュやプリフェッチはあまり効果が無いと思うけど
Nehalemだと30GB/s程度メモリ帯域があるのか。

ただCUDAでは単なるメモリ帯域の比較だけでなく、シェアードメモリの利用や
大量のスレッドによるメモリアクセスレイテンシの隠蔽が重要になってくると思う。

>702の記事見たけど、デュアルコア2.4GHzのOpteronの1コアと
TESLA S1070の中の1基の比較なのかな・・・

>>708
倍精度だと思ったら、単精度だったのか・・・
そのpptってどこで公開されているんだろ？
711 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 22:33:58 ]: 倍精度でも30ばいかい？
712 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 01:43:50 ]: なんでみんなプレスリリースくらい読まないの？
不思議

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef