【GPGPU】くだすれCUDAスレ pert2【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 02/21 05:22 / Filesize : 250 KB / Number-of Response : 931
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2009/10/08(木) 19:29:37 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
www.nvidia.com/cuda

関連スレ
GPUで汎用コンピューティングを行うスレ
pc11.2ch.net/test/read.cgi/tech/1167989627/
GPGPU#3
pc12.2ch.net/test/read.cgi/tech/1237630694/
661 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 11:42:32 ]: GT200じゃなかった?
662 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 14:33:49 ]: ttp://developer.nvidia.com/object/gpucomputing.html

CUDA Programming Guideがリンク切れしているんですが
誰か正しいアドレスを知りませんか
663 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 18:21:58 ]: 高い・遅い・熱い
664 名前：デフォルトの名無しさん mailto:sage [2010/03/19(金) 18:52:10 ]: S1070ってGT200×4の奴だろ。
665 名前：デフォルトの名無しさん [2010/03/20(土) 17:28:11 ]: CUDA 3.0 Downloads
developer.nvidia.com/object/cuda_3_0_downloads.html
666 名前：デフォルトの名無しさん mailto:sage [2010/03/20(土) 18:02:54 ]: CPUでの計算にインテルコンパイラを使いたいのですが、どのようにすればいいのでありまするか？
667 名前：662 mailto:sage [2010/03/20(土) 20:32:56 ]: >>665
ありがとうございます
668 名前：デフォルトの名無しさん mailto:sage [2010/03/20(土) 20:52:01 ]: >>666
nvcc -cで*.cuをコンパイルしたら、できた*.oをiccでリンクすればいい。
Windowsの場合はnvccもiccも別々にオブジェクトを作ることになるからそれをVCでリンク。
669 名前：デフォルトの名無しさん mailto:sage [2010/03/20(土) 21:52:07 ]: 利用者はCUDAなんて独占的技術を求めてませんよね
670 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2010/03/20(土) 22:52:58 ]: まして永久β版のSDKなんて論外
671 名前：デフォルトの名無しさん mailto:sage [2010/03/20(土) 23:30:36 ]: まあ利用者だけが決めるわけでもないのも悲しいけど現実なのよね
672 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 04:48:10 ]: なんか面白いことに使えないかな
もったいない
673 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2010/03/21(日) 08:27:51 ]: 「何かには使える」って言ってるうちは何にも使えないまま終わるんですけどね。
ターゲットアプリケーションがあってはじめて、そのニーズに合わせてハードの機能・性能の拡充が行われうるわけで
今までであればゲームがそうだった。

ウン十並列のデータを同時処理するような用途のニーズが仮に高まってるとしても
それはCPUのSIMD拡張によってもカバーできるでしょ
674 名前：デフォルトの名無しさん [2010/03/21(日) 08:51:43 ]: Linuxでドライバのバージョンを調べる方法を教えてください
675 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 08:58:16 ]: もう少し具体的に聞かないと・・・・。
676 名前：デフォルトの名無しさん [2010/03/21(日) 09:00:06 ]: ドライバのバージョンによって、振る舞いを変えたいので、
UbuntuでGPUのドライバのバージョンをプログラム上から調べる方法を教えてください
677 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 09:22:25 ]: Ubuntu限定な必要があるかどうかはともかく、ドライバ自体のバージョンを知るAPIは用意されていません。
/usr/lib64のディレクトリでlibcuda.so.* のレギュラーファイルを探すのが確実かと思います。
678 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2010/03/21(日) 09:33:40 ]: CUDA実行環境がインストールされてるかどうかを調べてライブラリを遅延ロードできるような仕組みを
標準で用意して欲しいかな
679 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 20:24:40 ]: CUDA3.0
ttp://developer.nvidia.com/object/cuda_3_0_downloads.html
680 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 21:52:46 ]: Fermi対応版か
肝心のブツが手元にまわってくるかも怪しいのに
681 名前：デフォルトの名無しさん mailto:sage [2010/03/21(日) 22:30:11 ]: deviceQueryがあるじゃん
682 名前：デフォルトの名無しさん mailto:sage [2010/03/22(月) 02:31:14 ]: Fermiは、入手しやすくなるまで松わ。
初物は爆熱で卒倒価格だろうし。
683 名前：デフォルトの名無しさん mailto:sage [2010/03/22(月) 14:26:17 ]: 俺は特攻する
470か480かが問題
そもそも手に入るのか、という話もあるが
684 名前：デフォルトの名無しさん mailto:sage [2010/03/22(月) 15:02:55 ]: そうか。取り合えず貼っておかねばなるまい
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::。:::::::::::::::::::::::::::::::::::::::::::::
:::::::::::::::::::::::::::::::::。::::::...... ...　　 --─-　　:::::::::::::::::::: ..::::: . ..::::::::
:::::::::::::::::...... ....:::::::゜::::::::::..　　（___ ）（___ ）　::::。:::::::::::::::::　゜.::::::::::::
:. .:::::。:::........　.　.::::::::::::::::: _　i/ ＝　＝ヽi　:::::::::::::。::::::::::: . . . ..::::
:::: :::::::::.....:☆彡::::　　　／/[||　　」　　||]　>>683 ::::::::::゜:::::::::: ...:: :::::
　:::::::::::::::::: . . . ..: ::::　/　ﾍ　| |　 ____,ヽ | |　:::::::::::.... .... ..　.::::::::::::::
::::::...゜　.　.:::::::::　　／ヽﾉ　　ヽ＿＿/　　.......　.　.::::::::::::........ ..::::
:.... .... ..　.　　　　く　 /　　　　三三三∠⌒＞:.... .... ..　.:.... .... ..
:.... .... ..:.... .... ..... .... ..　.:.... .... ..　..... .... ..　..... ............. ..　.　........　......
:.... . ∧∧　　∧∧　　∧∧　　∧∧　.... .... ..　.:.... .... ..... .... ..　.
... ..:（　　）ゝ（　　）ゝ（　　）ゝ（　　）ゝ無茶しやがって… ..........
....　 i⌒　/ 　 i⌒　/ 　i⌒　/ 　 i⌒　/　..　..... ................... ..　.　...
.. 　三　 | 　三　 | 　三　 | 　三　|　　... ............. ...........　.　.....
...　 ∪ ∪ 　 ∪ ∪ 　 ∪ ∪ 　∪ ∪　............. ............. ..　........　...
　　三三　　三三　　三三　　　三三
　三三　　三三　　三三　　　三三
685 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 18:34:15 ]: 東工大、気象庁の次世代気象モデルのフルGPU化に成功
pc.watch.impress.co.jp/docs/news/20100324_356466.html

120GPUで3.22TFLOPSか。大変なんだろうけど微妙な数字だな。
686 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 19:27:10 ]: どう微妙なんだい
687 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:00:16 ]: なんか膨大な演算能力は殆ど遊んでいるな。
こういう用途なら演算機減らした方が、電力効率的にはマシになるんじゃ。
688 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:06:08 ]: ha?
689 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:13:50 ]: え？
690 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:16:26 ]: ま、近い将来fermiに置き換わるんだろ
691 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:34:22 ]: >>685
1GPUあたり44.3GFlopsかぁ。維持で対応したって感じだ。
692 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:48:15 ]: 浮動小数点演算速度が3.22TFLOPSなのか？
693 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:48:57 ]: それでもCPUより80倍の実行性能なんだね
694 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:52:14 ]: 6時間の気象モデルが70分で終了するなら
同じ気象モデルを使えばリアルタイム予測が可能？
695 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 23:28:24 ]: 偏微分方程式の数値解法をやる大学院生の演習課題みたいなもんですなw
696 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 00:41:07 ]: 気象問題って、ノード間の影響はどうなの？
TESLAって結局PCI Expressで繋がっているから、
レイテンシが大きそうだな。
697 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 01:59:47 ]: とりあえず運用してノウハウ貯めて、
28nmのFermi2で一気にパワーアップってのがいいんじゃないか？
明確なハズレ世代を大量導入するのはちとどうかと。
698 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 07:32:00 ]: >>687
そういうのは GPU 以外に期待した方がいいんじゃないの？
電力効率なんて気にしたせいでピーク性能が落ちてゲームユーザが買わなくなったら、GPU の市場自体が崩壊するよ。
699 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 14:56:59 ]: >>696
レイテンシを隠蔽するようにcode組んだらしい
700 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 00:39:01 ]: >>699
へー、そーなんだ。
701 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 00:59:41 ]: >>693
これがよくわからんな。
なんで80倍なんだろう？
G200って倍精度の理論値って80Gflops位じゃなかった？
それに対してCPUが10Gflopsだろ。
8倍の間違いじゃないのか？
702 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 03:03:04 ]: techon.nikkeibp.co.jp/article/NEWS/20100324/181319/?ST=lsi
> 「最新のマイクロプロセサとの比較ではなく，チューニングの程度の
> 差もあるため，80倍という数字自体は重要ではない。GPUの活用で
> ケタ違いの性能が得られることを確認できた点に意味がある」（青木氏）

だそうで
703 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 03:12:28 ]: 倍精度もハードウェアで本格対応して500GFLOPSになったんじゃないの
と思ったけどFermi世代からで、G200世代のものは90GFLOPS程度みたいだね。

これで倍精度で44.3GFLOPSなら効率50%近くということになるし
アルゴリズムとかかなり頑張っただろうね。

>>701
シェアードメモリをうまく使ったり、大量のスレッドでノード間のレイテンシを隠蔽したり
帯域がボトルネックになりにくいように出来たからじゃないの。

スカラープロセッサは、流体力学とか多体問題とかの
計算結果を相互に利用しながら並列計算する場合には
帯域がボトルネックになって効率がかなり低くなりがちらしいし、
比較対象のCPUを使ったシステムは効率が10%を下回っていたとかかも。

完全に並列化できて帯域がボトルネックになりにくい演算の場合は
10～20倍という話だったかな。
704 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 05:40:03 ]: >>703
メモリ帯域が問題になるのはよくわかるんだけど、
それも今のNehalemあたりは30GB/sぐらいあるから、
精々teslsaとは5倍くらいだろう。
それだとメモリ転送時間は1/5、計算時間が1/8になるとして、
CPUのメモリ転送時間をA、計算時間をBとすれば、
実行時間は単純にするとC=A+Bになる。
GPUの場合はCg=0.2A+0.125Bになる。
A=10Bとしたとしても5倍程度にしかならない様な気がするなあ。
CPUの場合巨大なキャッシュがあるし、プリフェッチもあるから
その差が縮まるはずなんだけどな。
東工大のクラスのだからCPUのコードがくそだということもなさそうだから、
なんかOpteronのCPU1コアと比較してそうだなあ。

と思っていたら、>>702が書いてくれているね。
705 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 05:49:43 ]: 比較するCPUが遅すぎたわけか
706 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 07:17:15 ]: このcpuの速度は、普通にべたべたfpu演算を書いたときの数字だね。
理研の姫野ベンチ並みのバカコードと対照させても意味がない。

Linpackで最近のcpuをベンチマークすると、理論値の8掛け程度の数字は出る。
TUBAMEのopteronも1コアあたり10GFlops前後。しかも倍精度で。
Linpackに比べて気象エミュは速度が上がらんのは間違いないが、
この青木とやらの記事は全然ダメだ。
nVIDIAが成果としてレファできないレベル。
707 名前：デフォルトの名無しさん [2010/03/26(金) 08:52:49 ]: CPUというのは全然チューニングしてないレファレンスコードだろ。
よく使う手。しかもCPU名すら書いてない。

ベンチマークには２種類ある。嘘か大嘘。
708 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 17:23:46 ]: PPTを見ると、44.3GFLOPSは単精度、倍精度では15GFLOPSだね。
比較のCPUは倍精度で0.5GFLOPS以下で、単精度の44.3GFLOPSと比較し、80倍以上といってるんだね。
青木いい加減にしろよｗ
709 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 21:19:29 ]: これはひどい。
710 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 22:05:03 ]: >>704
この手の計算の場合はCPUのキャッシュやプリフェッチはあまり効果が無いと思うけど
Nehalemだと30GB/s程度メモリ帯域があるのか。

ただCUDAでは単なるメモリ帯域の比較だけでなく、シェアードメモリの利用や
大量のスレッドによるメモリアクセスレイテンシの隠蔽が重要になってくると思う。

>702の記事見たけど、デュアルコア2.4GHzのOpteronの1コアと
TESLA S1070の中の1基の比較なのかな・・・

>>708
倍精度だと思ったら、単精度だったのか・・・
そのpptってどこで公開されているんだろ？
711 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 22:33:58 ]: 倍精度でも30ばいかい？
712 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 01:43:50 ]: なんでみんなプレスリリースくらい読まないの？
不思議
713 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 03:02:10 ]: >>708
おいおい・・・まじかよ。
かなり酷いなあ。まだ騙すことは出来るかもしれないが、
これがばれてくると偉いことになるぞ。

そういえばNVIDIAのGPUカンファレンスでCPUの2000倍速くなりましたってのがあったが、
Tesrax4、Opteron 2.4GHz 1Coreのものだった。
かなりつっこまれていたよ。
で、GPUは最適化しましたけど、実はCPUは最適化してませんだった。

>>710
この手の計算はどちらかというとストリーミングに近いから、
キャッシュやプリフェッチは十分効くよ。
特にハードウェアプリフェッチはかなり効果的だよ。
ただ、SSEを使ってしまったりすると、計算時間を隠蔽できなくなって、
今度は転送時間を隠蔽する方法を考えなくてはならなくなる。

Nehalemの中でも2000MHzのメモリに対応したものであれば、
48GB/sにもなるよ。このあたりはオーバークロック気味になるので、
コンシューマレベルでしかないけどね。

GPUを使うのを否定はしないが、いい加減嘘に近い誇張は止めてもらいたいものだ。
数倍でもいいだろう。2倍でも2日かかったものが1日で終わるんだぜ。
あんまり速いと仕事が増えるじゃねぇか！
714 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 03:47:59 ]: 嘘は言ってないんだよな
比較対象が微妙すぎるだけで
CPUでも効率を出すのが難しい問題はあるから、両方ともきちんとチューニングした上で比較するのが理想ではある
まあXX倍という数字が一人歩きするのはよくないね
715 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 04:43:39 ]: >>712
そのプレスリリースってどこにあるの？

>>713
この手の計算って常に帯域を使い切っているわけじゃないの？
それならキャッシュの効果は限定的になりそうだけど、プリフェッチはかなり効果ありそう。

journal.mycom.co.jp/news/2010/03/24/055/index.html
> 単一のGPU(Tesla S1070)を用いた際の性能は
> 「単精度ではTSUBAMEに搭載されているOpteron比で最大で100倍を超すレベルを達成、
> 平均でも 44,3GFlopsを達成している。
> 性能が落ちる倍精度でも15GFlops程度を達成しており、
> CPU比では相当高い値を実現した」(青木教授)と説明する。

www.gsic.titech.ac.jp/contents/press_release0324.pdf
> スパコンTSUBAMEの単一GPUを使った計算で
> 44.3GFlops（CPUの1コアに対して約80倍）

これってやっぱり、Tesla S1070の4基を単一GPUと言って
Opteronの1コアと比較している同じパターン・・・？

あまりに酷い誇張はやめてもらわないと、有能な開発者がGPUの性能をそれなりに引き出しても
能力が低いとか言われたり、色々と深刻な事態になりかねない・・・
716 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 04:54:00 ]: 実際、某社でなりかけている。

私の現場では、寧ろ旧世代のCPUを積んだサーバ機をGPUで延命させるってシナリオだから
処理能力は1.5倍でも御の字さw まぁ、実際のところはXeon1core対比で5倍程度は出たから
サーバ機一台で換算してなんとか2倍(5+1*3 vs 4)の数字は出たけど。
717 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 05:08:13 ]: >>715
結局実装アルゴリズムによるけど、
プリフェッチはかなり効くよ。

最後の2行はすごく同意だな。
わかっていない人からすると、GPU使えば数10倍になるはずと思ったりするので、
有能な奴が5倍速い書いたコードを書いたとしても相対的に低いと評価されそうだ。

>>716
たぶんこういう使い方が一番いいのかもね。
718 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 07:21:48 ]: >>715
CPU比ではそうかもしれんが
AMD比ではかなりしょぼくないか？ｗ
719 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 09:10:23 ]: nttxstore.jp/_II_EA13119354
NVIDIA Tesla C2070　ETS2070-C6ER　475,545円（税込)　発売開始日 2010/9/30
720 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 12:09:51 ]: GTX 470欲しいな。でもどうせ瞬殺なんでしょ？
いいよな秋葉原に住んでるおまえらは
721 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 12:47:08 ]: >>716
GPUで延命→鯖予算獲得→新鯖にGPU移植
の流れが理想
722 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 13:51:52 ]: GPGPUでの性能評価の指針って明確に定められないのかね
CPU単一コア，レファレンスコードと比較して何倍速くなったと言っても，
そんな条件で計算すること自体なさそうなんで，意味無い気がするんだが

GPUでチューニングするなら，CPUでもチューニングするべきだろう
723 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 14:00:31 ]: AMDかintelかでめんどくさいからじゃない
724 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 14:34:25 ]: >>722 CPUまでチューニングする必要はないと思うけど、
気象コードがMPIで並列化されてないとも思えないし、1GPU内でも相当の並列化を行ってるんだから、
CPUの1コアのみと比較するのは、ちょっとやりすぎ。
で実際Xeon/X5570と倍精度で比較したら、単一コアで10倍程度、4コアで3倍程度のアドバンテージしかないんじゃない。
ノード単位だと逆に遅くなるとか。120GPUの3.2TFLOPSも単精度だし…、比較自体を都合のいいように、いいとこどりしすぎ。
ベンチマークだけでなく、せっかく実アプリをフルGPU化したのは十分意味があるのに、世間受けを狙いすぎた発表で逆に良識を疑ってしまう。
725 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 15:23:41 ]: 第三者（？）が書いた記事よりも
NVIDIAの発表のほうがまだ信頼できるな。
726 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 16:40:26 ]: 詐欺師の言葉のほうが信頼があるとはこれ如何に
727 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 16:46:56 ]: 詐欺師はお客様に信用されなければいけない。
だから最低限の嘘しかつかない。

大道芸人は嘘をつくたびに金をもらえる。
だからいくらでも嘘をつく。
728 名前：デフォルトの名無しさん [2010/03/27(土) 18:47:44 ]: モックアップＮＶＩＤＩＡとうそつきが多い野心的な学者連中の
たわ言なんて信用できないよな
729 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 19:13:00 ]: ま俺は数字しか信じない
ttp://www.anandtech.com/video/showdoc.aspx?i=3783&p=6
730 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 19:26:53 ]: 数字なんていくらでもいじれるんですよ！
信用のあるデータが欲しいなら自分で実測するしかない
731 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 19:36:26 ]: つまりそのデータを公開しても
誰も信じないってわけね
732 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 19:44:22 ]: その通り！
よく分かってるじゃん
論文だって他人の実験の結果なんて基本誰も信用しないよ
とりあえず自分で再現実験してみるのは常識
733 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 20:09:19 ]: そしてその論文も誰も信用しない
734 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 21:06:02 ]: 利害を共にしない数十人の人が
方法の妥当性を検証し、追試し、同じ結果が出て初めて
ある程度の信用を得る
それでも「ある程度」なのが学問の厳しい所だ
735 名前：デフォルトの名無しさん [2010/03/27(土) 21:40:16 ]: GPUは1コアだと思いますよ。TESRA内でもGPU同士はPCI越しなんで
遅くなると思います。
3000x3000x50って1GPUにおさまるサイズと思うし
736 名前：デフォルトの名無しさん [2010/03/27(土) 21:41:34 ]: 誰も追試できないと思っているから舐めているんだろ。
今後は青木の言うことはハイハイワロスだな。
737 名前：デフォルトの名無しさん [2010/03/27(土) 21:43:30 ]: >>735
それだったら120GPUの意味がないだろ。
あと、Teslaな
738 名前：デフォルトの名無しさん [2010/03/27(土) 21:49:48 ]: いくつかの別な測定を同じ測定かもしれない感じで書くのはテクニックじゃないですか
１GPUで44.3GFLOPSなのに120GPUでなんで3.22TFLOPSなんでしょうか。
739 名前：デフォルトの名無しさん mailto:sage [2010/03/28(日) 09:52:45 ]: Zotac GeForce GTX 480
Amazon.comでPre Order　$499だったから
申し込んでしまったｗ　(米→日転送業者使用)
740 名前：デフォルトの名無しさん mailto:sage [2010/03/28(日) 13:50:46 ]: 結局512spじゃなかったねGTX480
741 名前：デフォルトの名無しさん mailto:sage [2010/03/28(日) 15:30:51 ]: Ultraがくる
742 名前：デフォルトの名無しさん mailto:sage [2010/03/29(月) 03:53:35 ]: >>740
最初から、576にしておけばよかったのにね。
32x18で。2ブロックダメでも512で出せるのに。
743 名前：デフォルトの名無しさん mailto:sage [2010/03/29(月) 08:15:18 ]: そんなことしたらますますイールドが悪くなるわけで。
744 名前：デフォルトの名無しさん [2010/03/29(月) 11:43:02 ]: 1CUDAコア破損しただけで３２個分が台無しになるFermi
512すべて無事なのはほとんどないんだろうな
745 名前：デフォルトの名無しさん mailto:sage [2010/03/29(月) 11:50:30 ]: PS3と同じ作戦でござる。

　　　　＿＿＿＿＿＿＿＿＿＿＿＿
　　　　ヾミ || || || || || || || ,l,,l,,l 川〃彡|
　　　　　V~~''-山┴''''""~ 　　ヾニﾆ彡|　　　　　　　512SPは存在する・・・・・・！
　　　　 /　二ー―''二　　　　　ヾﾆニ┤　　　　　　存在するが・・・
　　　 <'-.,　　￣￣　　 _,,,..-‐､　〉ニﾆ|　　　　　　　今回　まだ　全部有効にするとの
　　　/"''-ﾆ,‐l 　　l`__ニ-‐'''""` /ニ二|　　　　　　　指定まではしていない
　　　|　==＝､!　　`＝====､　　l =ｌべ=|
.　　　| `ーﾟ‐'/　　 `ー‐ﾟ―' 　　l.=lへ|~|　　　　　　　そのことを
　　　 |`ー‐/　　　　`ー――　　H<,〉|=|　　　　　　　どうか諸君らも
　　　 |　　/　　　､　　　　　　 l|__ノｰ|　　　　　　　思い出していただきたい
.　　　| ／`ー　~　′　　＼　　　.|ヾ.ニ|ヽ
　　　 |ｌ　下王l王l王l王lヲ｜　　|　ヾ_,|　＼　　　　　つまり・・・・
. 　　 |　　　　≡　　　　　　　　　|　　 `l　　＼__　　　我々がその気になれば
　　　　!、　　　　　　　　　　 _,,..-'′ ／l　　　 |　~'''　 FermiのSP数は
‐''"￣|　`iｰ-..,,,＿,,,,,....-‐'''"　　／　 |　　　 |　　　 320SP　384SP　ということも
　-―|　　|＼　　　　　　　　　／　　 |　　　　 |　　　可能だろう・・・・・・・・・・ということ・・・・！
　　 |　　 |　＼　　　　　　／　　　 |　　　　　 |
746 名前：デフォルトの名無しさん mailto:sage [2010/03/29(月) 14:07:53 ]: 　　　　　＿＿＿_
　　　　　　　|<三`'ヨ′
　　　　　　_/6|ｰ廿┤
　　　 /l￣　ＫL.三.｣￣h
.　　 /　|　　レ兮y′/ l
　　〈　く　　 ∨ l/　,ｲ　|
　　　＼_,.>、　　　 /,L..｣_
.　0ﾆﾆﾆ)而}ﾆﾆﾆﾆニ),ﾘﾘﾆﾆ)
.　　Ｌ| |＿＿＿__|＿＿__| |
　　 l | |.＿＿＿＿＿＿_| |　　,:
　,　　l ＼ヽ　l　　|　　 , '／　　;'
　:, ____l＿|_|_;_|＿|＿__|_|＿＿　　　;
　　|＼ﾞ;三三ﾞ';三三三,;ﾞ三三＼　;'
　　|＼＼三三ﾞ三ｼﾞｼﾞ三三,''三;'＼,;'　　;'
　　|、＼＼三ﾞ;三三ｼﾞｼﾞ･'三三三;＼　;
　　0ﾄ､＼＼＼;'三三;'三三三;''三三,;'＼
　　　　＼＼＼| 炎炎炎炎炎炎炎炎炎 |
　　　　　＼＼| 二I二二I二二I二二I二 |
　　　　　　　＼ＬI二二I二二I二二I二二｣
　　　　　　　　0｣　　　　　　　　　　　　0｣
747 名前：デフォルトの名無しさん [2010/03/30(火) 10:14:08 ]: NVDIAフォーラムでGTX480の倍精度性能はTeslaの1/4という発言が
ありますがどうなんでしょう
748 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 10:30:27 ]: >>747
おれ、人柱としてぽちったから待っててくれ。
749 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 11:15:36 ]: >>748
俺はお前を待っているぞ
+　　　+
　 ∧＿∧ 　+
　（0ﾟ・∀・）　　　ﾜｸﾜｸﾃｶﾃｶ
　（0ﾟ∪ ∪ +
　と＿_）__）　+
750 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 11:36:18 ]: Quadroと同じ戦略か。
妥当っちゃ妥当だな
751 名前：デフォルトの名無しさん [2010/03/30(火) 12:00:52 ]: EECだけでなく倍精度も性能を劣化させたのか
GPGPUの利点がどんどんなくなってるな
752 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:20:38 ]: >>749
あ、748なんだけど、さすがにTesla買う金は無いのよ。
なんか、GTX480で動かして「明らかに倍精度の性能落としてやがる！！！１１」と
分かるプログラムはどこかにあるかな。
753 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:21:31 ]: Teslaもないと比べようがなくね？

visual profilerの関数の実行時間を比較くらいしか厳密な計測はできなさそう。
754 名前：753 mailto:sage [2010/03/30(火) 12:22:12 ]: リーロードしてなかった、悪気はないんだｗ
755 名前：デフォルトの名無しさん [2010/03/30(火) 12:34:45 ]: NVIDIA_GPU_Computing_SDK/C/bin/linux/release$ ./matrixMul
Processing time: 0.120000 (ms)
Test PASSED

Press ENTER to exit...
あたりを倍精度化してもらえばいいかと
756 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:36:50 ]: >>753
かぶって申し訳ないｗｗ
おれ>>739なんだけど、失敗かな。日本で入手可能になるのを
待ったほうが早くて安かったかもしんないよなorz
757 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:41:40 ]: >>755
おけ、matrixMulでGTX280とGTX480の比較ならやってさしあげられる。
floatのままと、doubleに全部置換した版で。
758 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:50:39 ]: floatは内部で型変換してるからdoubleの方が早いって聞いた事あるんだけど…
759 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:59:07 ]: 倍精度のFMAをひたすら繰り返す感じのカーネルで計測するのがよいかと。
760 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 13:09:51 ]: >>758
どこかのCPUでintをdoubleに変換してたという話かと。
761 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 13:10:18 ]: しかし、480SPとか、AMDはリアル12コアだとか、
時代の進歩は速いものだな。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef