【GPGPU】くだすれCUDAスレ pert2【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 02/21 05:22 / Filesize : 250 KB / Number-of Response : 931
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2009/10/08(木) 19:29:37 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
www.nvidia.com/cuda

関連スレ
GPUで汎用コンピューティングを行うスレ
pc11.2ch.net/test/read.cgi/tech/1167989627/
GPGPU#3
pc12.2ch.net/test/read.cgi/tech/1237630694/
683 名前：デフォルトの名無しさん mailto:sage [2010/03/22(月) 14:26:17 ]: 俺は特攻する
470か480かが問題
そもそも手に入るのか、という話もあるが
684 名前：デフォルトの名無しさん mailto:sage [2010/03/22(月) 15:02:55 ]: そうか。取り合えず貼っておかねばなるまい
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::。:::::::::::::::::::::::::::::::::::::::::::::
:::::::::::::::::::::::::::::::::。::::::...... ...　　 --─-　　:::::::::::::::::::: ..::::: . ..::::::::
:::::::::::::::::...... ....:::::::゜::::::::::..　　（___ ）（___ ）　::::。:::::::::::::::::　゜.::::::::::::
:. .:::::。:::........　.　.::::::::::::::::: _　i/ ＝　＝ヽi　:::::::::::::。::::::::::: . . . ..::::
:::: :::::::::.....:☆彡::::　　　／/[||　　」　　||]　>>683 ::::::::::゜:::::::::: ...:: :::::
　:::::::::::::::::: . . . ..: ::::　/　ﾍ　| |　 ____,ヽ | |　:::::::::::.... .... ..　.::::::::::::::
::::::...゜　.　.:::::::::　　／ヽﾉ　　ヽ＿＿/　　.......　.　.::::::::::::........ ..::::
:.... .... ..　.　　　　く　 /　　　　三三三∠⌒＞:.... .... ..　.:.... .... ..
:.... .... ..:.... .... ..... .... ..　.:.... .... ..　..... .... ..　..... ............. ..　.　........　......
:.... . ∧∧　　∧∧　　∧∧　　∧∧　.... .... ..　.:.... .... ..... .... ..　.
... ..:（　　）ゝ（　　）ゝ（　　）ゝ（　　）ゝ無茶しやがって… ..........
....　 i⌒　/ 　 i⌒　/ 　i⌒　/ 　 i⌒　/　..　..... ................... ..　.　...
.. 　三　 | 　三　 | 　三　 | 　三　|　　... ............. ...........　.　.....
...　 ∪ ∪ 　 ∪ ∪ 　 ∪ ∪ 　∪ ∪　............. ............. ..　........　...
　　三三　　三三　　三三　　　三三
　三三　　三三　　三三　　　三三
685 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 18:34:15 ]: 東工大、気象庁の次世代気象モデルのフルGPU化に成功
pc.watch.impress.co.jp/docs/news/20100324_356466.html

120GPUで3.22TFLOPSか。大変なんだろうけど微妙な数字だな。
686 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 19:27:10 ]: どう微妙なんだい
687 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:00:16 ]: なんか膨大な演算能力は殆ど遊んでいるな。
こういう用途なら演算機減らした方が、電力効率的にはマシになるんじゃ。
688 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:06:08 ]: ha?
689 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:13:50 ]: え？
690 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:16:26 ]: ま、近い将来fermiに置き換わるんだろ
691 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:34:22 ]: >>685
1GPUあたり44.3GFlopsかぁ。維持で対応したって感じだ。
692 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:48:15 ]: 浮動小数点演算速度が3.22TFLOPSなのか？
693 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:48:57 ]: それでもCPUより80倍の実行性能なんだね
694 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 20:52:14 ]: 6時間の気象モデルが70分で終了するなら
同じ気象モデルを使えばリアルタイム予測が可能？
695 名前：デフォルトの名無しさん mailto:sage [2010/03/24(水) 23:28:24 ]: 偏微分方程式の数値解法をやる大学院生の演習課題みたいなもんですなw
696 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 00:41:07 ]: 気象問題って、ノード間の影響はどうなの？
TESLAって結局PCI Expressで繋がっているから、
レイテンシが大きそうだな。
697 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 01:59:47 ]: とりあえず運用してノウハウ貯めて、
28nmのFermi2で一気にパワーアップってのがいいんじゃないか？
明確なハズレ世代を大量導入するのはちとどうかと。
698 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 07:32:00 ]: >>687
そういうのは GPU 以外に期待した方がいいんじゃないの？
電力効率なんて気にしたせいでピーク性能が落ちてゲームユーザが買わなくなったら、GPU の市場自体が崩壊するよ。
699 名前：デフォルトの名無しさん mailto:sage [2010/03/25(木) 14:56:59 ]: >>696
レイテンシを隠蔽するようにcode組んだらしい
700 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 00:39:01 ]: >>699
へー、そーなんだ。
701 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 00:59:41 ]: >>693
これがよくわからんな。
なんで80倍なんだろう？
G200って倍精度の理論値って80Gflops位じゃなかった？
それに対してCPUが10Gflopsだろ。
8倍の間違いじゃないのか？
702 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 03:03:04 ]: techon.nikkeibp.co.jp/article/NEWS/20100324/181319/?ST=lsi
> 「最新のマイクロプロセサとの比較ではなく，チューニングの程度の
> 差もあるため，80倍という数字自体は重要ではない。GPUの活用で
> ケタ違いの性能が得られることを確認できた点に意味がある」（青木氏）

だそうで
703 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 03:12:28 ]: 倍精度もハードウェアで本格対応して500GFLOPSになったんじゃないの
と思ったけどFermi世代からで、G200世代のものは90GFLOPS程度みたいだね。

これで倍精度で44.3GFLOPSなら効率50%近くということになるし
アルゴリズムとかかなり頑張っただろうね。

>>701
シェアードメモリをうまく使ったり、大量のスレッドでノード間のレイテンシを隠蔽したり
帯域がボトルネックになりにくいように出来たからじゃないの。

スカラープロセッサは、流体力学とか多体問題とかの
計算結果を相互に利用しながら並列計算する場合には
帯域がボトルネックになって効率がかなり低くなりがちらしいし、
比較対象のCPUを使ったシステムは効率が10%を下回っていたとかかも。

完全に並列化できて帯域がボトルネックになりにくい演算の場合は
10～20倍という話だったかな。
704 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 05:40:03 ]: >>703
メモリ帯域が問題になるのはよくわかるんだけど、
それも今のNehalemあたりは30GB/sぐらいあるから、
精々teslsaとは5倍くらいだろう。
それだとメモリ転送時間は1/5、計算時間が1/8になるとして、
CPUのメモリ転送時間をA、計算時間をBとすれば、
実行時間は単純にするとC=A+Bになる。
GPUの場合はCg=0.2A+0.125Bになる。
A=10Bとしたとしても5倍程度にしかならない様な気がするなあ。
CPUの場合巨大なキャッシュがあるし、プリフェッチもあるから
その差が縮まるはずなんだけどな。
東工大のクラスのだからCPUのコードがくそだということもなさそうだから、
なんかOpteronのCPU1コアと比較してそうだなあ。

と思っていたら、>>702が書いてくれているね。
705 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 05:49:43 ]: 比較するCPUが遅すぎたわけか
706 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 07:17:15 ]: このcpuの速度は、普通にべたべたfpu演算を書いたときの数字だね。
理研の姫野ベンチ並みのバカコードと対照させても意味がない。

Linpackで最近のcpuをベンチマークすると、理論値の8掛け程度の数字は出る。
TUBAMEのopteronも1コアあたり10GFlops前後。しかも倍精度で。
Linpackに比べて気象エミュは速度が上がらんのは間違いないが、
この青木とやらの記事は全然ダメだ。
nVIDIAが成果としてレファできないレベル。
707 名前：デフォルトの名無しさん [2010/03/26(金) 08:52:49 ]: CPUというのは全然チューニングしてないレファレンスコードだろ。
よく使う手。しかもCPU名すら書いてない。

ベンチマークには２種類ある。嘘か大嘘。
708 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 17:23:46 ]: PPTを見ると、44.3GFLOPSは単精度、倍精度では15GFLOPSだね。
比較のCPUは倍精度で0.5GFLOPS以下で、単精度の44.3GFLOPSと比較し、80倍以上といってるんだね。
青木いい加減にしろよｗ
709 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 21:19:29 ]: これはひどい。
710 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 22:05:03 ]: >>704
この手の計算の場合はCPUのキャッシュやプリフェッチはあまり効果が無いと思うけど
Nehalemだと30GB/s程度メモリ帯域があるのか。

ただCUDAでは単なるメモリ帯域の比較だけでなく、シェアードメモリの利用や
大量のスレッドによるメモリアクセスレイテンシの隠蔽が重要になってくると思う。

>702の記事見たけど、デュアルコア2.4GHzのOpteronの1コアと
TESLA S1070の中の1基の比較なのかな・・・

>>708
倍精度だと思ったら、単精度だったのか・・・
そのpptってどこで公開されているんだろ？
711 名前：デフォルトの名無しさん mailto:sage [2010/03/26(金) 22:33:58 ]: 倍精度でも30ばいかい？
712 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 01:43:50 ]: なんでみんなプレスリリースくらい読まないの？
不思議
713 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 03:02:10 ]: >>708
おいおい・・・まじかよ。
かなり酷いなあ。まだ騙すことは出来るかもしれないが、
これがばれてくると偉いことになるぞ。

そういえばNVIDIAのGPUカンファレンスでCPUの2000倍速くなりましたってのがあったが、
Tesrax4、Opteron 2.4GHz 1Coreのものだった。
かなりつっこまれていたよ。
で、GPUは最適化しましたけど、実はCPUは最適化してませんだった。

>>710
この手の計算はどちらかというとストリーミングに近いから、
キャッシュやプリフェッチは十分効くよ。
特にハードウェアプリフェッチはかなり効果的だよ。
ただ、SSEを使ってしまったりすると、計算時間を隠蔽できなくなって、
今度は転送時間を隠蔽する方法を考えなくてはならなくなる。

Nehalemの中でも2000MHzのメモリに対応したものであれば、
48GB/sにもなるよ。このあたりはオーバークロック気味になるので、
コンシューマレベルでしかないけどね。

GPUを使うのを否定はしないが、いい加減嘘に近い誇張は止めてもらいたいものだ。
数倍でもいいだろう。2倍でも2日かかったものが1日で終わるんだぜ。
あんまり速いと仕事が増えるじゃねぇか！
714 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 03:47:59 ]: 嘘は言ってないんだよな
比較対象が微妙すぎるだけで
CPUでも効率を出すのが難しい問題はあるから、両方ともきちんとチューニングした上で比較するのが理想ではある
まあXX倍という数字が一人歩きするのはよくないね
715 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 04:43:39 ]: >>712
そのプレスリリースってどこにあるの？

>>713
この手の計算って常に帯域を使い切っているわけじゃないの？
それならキャッシュの効果は限定的になりそうだけど、プリフェッチはかなり効果ありそう。

journal.mycom.co.jp/news/2010/03/24/055/index.html
> 単一のGPU(Tesla S1070)を用いた際の性能は
> 「単精度ではTSUBAMEに搭載されているOpteron比で最大で100倍を超すレベルを達成、
> 平均でも 44,3GFlopsを達成している。
> 性能が落ちる倍精度でも15GFlops程度を達成しており、
> CPU比では相当高い値を実現した」(青木教授)と説明する。

www.gsic.titech.ac.jp/contents/press_release0324.pdf
> スパコンTSUBAMEの単一GPUを使った計算で
> 44.3GFlops（CPUの1コアに対して約80倍）

これってやっぱり、Tesla S1070の4基を単一GPUと言って
Opteronの1コアと比較している同じパターン・・・？

あまりに酷い誇張はやめてもらわないと、有能な開発者がGPUの性能をそれなりに引き出しても
能力が低いとか言われたり、色々と深刻な事態になりかねない・・・
716 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 04:54:00 ]: 実際、某社でなりかけている。

私の現場では、寧ろ旧世代のCPUを積んだサーバ機をGPUで延命させるってシナリオだから
処理能力は1.5倍でも御の字さw まぁ、実際のところはXeon1core対比で5倍程度は出たから
サーバ機一台で換算してなんとか2倍(5+1*3 vs 4)の数字は出たけど。
717 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 05:08:13 ]: >>715
結局実装アルゴリズムによるけど、
プリフェッチはかなり効くよ。

最後の2行はすごく同意だな。
わかっていない人からすると、GPU使えば数10倍になるはずと思ったりするので、
有能な奴が5倍速い書いたコードを書いたとしても相対的に低いと評価されそうだ。

>>716
たぶんこういう使い方が一番いいのかもね。
718 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 07:21:48 ]: >>715
CPU比ではそうかもしれんが
AMD比ではかなりしょぼくないか？ｗ
719 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 09:10:23 ]: nttxstore.jp/_II_EA13119354
NVIDIA Tesla C2070　ETS2070-C6ER　475,545円（税込)　発売開始日 2010/9/30
720 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 12:09:51 ]: GTX 470欲しいな。でもどうせ瞬殺なんでしょ？
いいよな秋葉原に住んでるおまえらは
721 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 12:47:08 ]: >>716
GPUで延命→鯖予算獲得→新鯖にGPU移植
の流れが理想
722 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 13:51:52 ]: GPGPUでの性能評価の指針って明確に定められないのかね
CPU単一コア，レファレンスコードと比較して何倍速くなったと言っても，
そんな条件で計算すること自体なさそうなんで，意味無い気がするんだが

GPUでチューニングするなら，CPUでもチューニングするべきだろう
723 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 14:00:31 ]: AMDかintelかでめんどくさいからじゃない
724 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 14:34:25 ]: >>722 CPUまでチューニングする必要はないと思うけど、
気象コードがMPIで並列化されてないとも思えないし、1GPU内でも相当の並列化を行ってるんだから、
CPUの1コアのみと比較するのは、ちょっとやりすぎ。
で実際Xeon/X5570と倍精度で比較したら、単一コアで10倍程度、4コアで3倍程度のアドバンテージしかないんじゃない。
ノード単位だと逆に遅くなるとか。120GPUの3.2TFLOPSも単精度だし…、比較自体を都合のいいように、いいとこどりしすぎ。
ベンチマークだけでなく、せっかく実アプリをフルGPU化したのは十分意味があるのに、世間受けを狙いすぎた発表で逆に良識を疑ってしまう。
725 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 15:23:41 ]: 第三者（？）が書いた記事よりも
NVIDIAの発表のほうがまだ信頼できるな。
726 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 16:40:26 ]: 詐欺師の言葉のほうが信頼があるとはこれ如何に
727 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 16:46:56 ]: 詐欺師はお客様に信用されなければいけない。
だから最低限の嘘しかつかない。

大道芸人は嘘をつくたびに金をもらえる。
だからいくらでも嘘をつく。
728 名前：デフォルトの名無しさん [2010/03/27(土) 18:47:44 ]: モックアップＮＶＩＤＩＡとうそつきが多い野心的な学者連中の
たわ言なんて信用できないよな
729 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 19:13:00 ]: ま俺は数字しか信じない
ttp://www.anandtech.com/video/showdoc.aspx?i=3783&p=6
730 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 19:26:53 ]: 数字なんていくらでもいじれるんですよ！
信用のあるデータが欲しいなら自分で実測するしかない
731 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 19:36:26 ]: つまりそのデータを公開しても
誰も信じないってわけね
732 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 19:44:22 ]: その通り！
よく分かってるじゃん
論文だって他人の実験の結果なんて基本誰も信用しないよ
とりあえず自分で再現実験してみるのは常識
733 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 20:09:19 ]: そしてその論文も誰も信用しない
734 名前：デフォルトの名無しさん mailto:sage [2010/03/27(土) 21:06:02 ]: 利害を共にしない数十人の人が
方法の妥当性を検証し、追試し、同じ結果が出て初めて
ある程度の信用を得る
それでも「ある程度」なのが学問の厳しい所だ
735 名前：デフォルトの名無しさん [2010/03/27(土) 21:40:16 ]: GPUは1コアだと思いますよ。TESRA内でもGPU同士はPCI越しなんで
遅くなると思います。
3000x3000x50って1GPUにおさまるサイズと思うし
736 名前：デフォルトの名無しさん [2010/03/27(土) 21:41:34 ]: 誰も追試できないと思っているから舐めているんだろ。
今後は青木の言うことはハイハイワロスだな。
737 名前：デフォルトの名無しさん [2010/03/27(土) 21:43:30 ]: >>735
それだったら120GPUの意味がないだろ。
あと、Teslaな
738 名前：デフォルトの名無しさん [2010/03/27(土) 21:49:48 ]: いくつかの別な測定を同じ測定かもしれない感じで書くのはテクニックじゃないですか
１GPUで44.3GFLOPSなのに120GPUでなんで3.22TFLOPSなんでしょうか。
739 名前：デフォルトの名無しさん mailto:sage [2010/03/28(日) 09:52:45 ]: Zotac GeForce GTX 480
Amazon.comでPre Order　$499だったから
申し込んでしまったｗ　(米→日転送業者使用)
740 名前：デフォルトの名無しさん mailto:sage [2010/03/28(日) 13:50:46 ]: 結局512spじゃなかったねGTX480
741 名前：デフォルトの名無しさん mailto:sage [2010/03/28(日) 15:30:51 ]: Ultraがくる
742 名前：デフォルトの名無しさん mailto:sage [2010/03/29(月) 03:53:35 ]: >>740
最初から、576にしておけばよかったのにね。
32x18で。2ブロックダメでも512で出せるのに。
743 名前：デフォルトの名無しさん mailto:sage [2010/03/29(月) 08:15:18 ]: そんなことしたらますますイールドが悪くなるわけで。
744 名前：デフォルトの名無しさん [2010/03/29(月) 11:43:02 ]: 1CUDAコア破損しただけで３２個分が台無しになるFermi
512すべて無事なのはほとんどないんだろうな
745 名前：デフォルトの名無しさん mailto:sage [2010/03/29(月) 11:50:30 ]: PS3と同じ作戦でござる。

　　　　＿＿＿＿＿＿＿＿＿＿＿＿
　　　　ヾミ || || || || || || || ,l,,l,,l 川〃彡|
　　　　　V~~''-山┴''''""~ 　　ヾニﾆ彡|　　　　　　　512SPは存在する・・・・・・！
　　　　 /　二ー―''二　　　　　ヾﾆニ┤　　　　　　存在するが・・・
　　　 <'-.,　　￣￣　　 _,,,..-‐､　〉ニﾆ|　　　　　　　今回　まだ　全部有効にするとの
　　　/"''-ﾆ,‐l 　　l`__ニ-‐'''""` /ニ二|　　　　　　　指定まではしていない
　　　|　==＝､!　　`＝====､　　l =ｌべ=|
.　　　| `ーﾟ‐'/　　 `ー‐ﾟ―' 　　l.=lへ|~|　　　　　　　そのことを
　　　 |`ー‐/　　　　`ー――　　H<,〉|=|　　　　　　　どうか諸君らも
　　　 |　　/　　　､　　　　　　 l|__ノｰ|　　　　　　　思い出していただきたい
.　　　| ／`ー　~　′　　＼　　　.|ヾ.ニ|ヽ
　　　 |ｌ　下王l王l王l王lヲ｜　　|　ヾ_,|　＼　　　　　つまり・・・・
. 　　 |　　　　≡　　　　　　　　　|　　 `l　　＼__　　　我々がその気になれば
　　　　!、　　　　　　　　　　 _,,..-'′ ／l　　　 |　~'''　 FermiのSP数は
‐''"￣|　`iｰ-..,,,＿,,,,,....-‐'''"　　／　 |　　　 |　　　 320SP　384SP　ということも
　-―|　　|＼　　　　　　　　　／　　 |　　　　 |　　　可能だろう・・・・・・・・・・ということ・・・・！
　　 |　　 |　＼　　　　　　／　　　 |　　　　　 |
746 名前：デフォルトの名無しさん mailto:sage [2010/03/29(月) 14:07:53 ]: 　　　　　＿＿＿_
　　　　　　　|<三`'ヨ′
　　　　　　_/6|ｰ廿┤
　　　 /l￣　ＫL.三.｣￣h
.　　 /　|　　レ兮y′/ l
　　〈　く　　 ∨ l/　,ｲ　|
　　　＼_,.>、　　　 /,L..｣_
.　0ﾆﾆﾆ)而}ﾆﾆﾆﾆニ),ﾘﾘﾆﾆ)
.　　Ｌ| |＿＿＿__|＿＿__| |
　　 l | |.＿＿＿＿＿＿_| |　　,:
　,　　l ＼ヽ　l　　|　　 , '／　　;'
　:, ____l＿|_|_;_|＿|＿__|_|＿＿　　　;
　　|＼ﾞ;三三ﾞ';三三三,;ﾞ三三＼　;'
　　|＼＼三三ﾞ三ｼﾞｼﾞ三三,''三;'＼,;'　　;'
　　|、＼＼三ﾞ;三三ｼﾞｼﾞ･'三三三;＼　;
　　0ﾄ､＼＼＼;'三三;'三三三;''三三,;'＼
　　　　＼＼＼| 炎炎炎炎炎炎炎炎炎 |
　　　　　＼＼| 二I二二I二二I二二I二 |
　　　　　　　＼ＬI二二I二二I二二I二二｣
　　　　　　　　0｣　　　　　　　　　　　　0｣
747 名前：デフォルトの名無しさん [2010/03/30(火) 10:14:08 ]: NVDIAフォーラムでGTX480の倍精度性能はTeslaの1/4という発言が
ありますがどうなんでしょう
748 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 10:30:27 ]: >>747
おれ、人柱としてぽちったから待っててくれ。
749 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 11:15:36 ]: >>748
俺はお前を待っているぞ
+　　　+
　 ∧＿∧ 　+
　（0ﾟ・∀・）　　　ﾜｸﾜｸﾃｶﾃｶ
　（0ﾟ∪ ∪ +
　と＿_）__）　+
750 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 11:36:18 ]: Quadroと同じ戦略か。
妥当っちゃ妥当だな
751 名前：デフォルトの名無しさん [2010/03/30(火) 12:00:52 ]: EECだけでなく倍精度も性能を劣化させたのか
GPGPUの利点がどんどんなくなってるな
752 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:20:38 ]: >>749
あ、748なんだけど、さすがにTesla買う金は無いのよ。
なんか、GTX480で動かして「明らかに倍精度の性能落としてやがる！！！１１」と
分かるプログラムはどこかにあるかな。
753 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:21:31 ]: Teslaもないと比べようがなくね？

visual profilerの関数の実行時間を比較くらいしか厳密な計測はできなさそう。
754 名前：753 mailto:sage [2010/03/30(火) 12:22:12 ]: リーロードしてなかった、悪気はないんだｗ
755 名前：デフォルトの名無しさん [2010/03/30(火) 12:34:45 ]: NVIDIA_GPU_Computing_SDK/C/bin/linux/release$ ./matrixMul
Processing time: 0.120000 (ms)
Test PASSED

Press ENTER to exit...
あたりを倍精度化してもらえばいいかと
756 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:36:50 ]: >>753
かぶって申し訳ないｗｗ
おれ>>739なんだけど、失敗かな。日本で入手可能になるのを
待ったほうが早くて安かったかもしんないよなorz
757 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:41:40 ]: >>755
おけ、matrixMulでGTX280とGTX480の比較ならやってさしあげられる。
floatのままと、doubleに全部置換した版で。
758 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:50:39 ]: floatは内部で型変換してるからdoubleの方が早いって聞いた事あるんだけど…
759 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:59:07 ]: 倍精度のFMAをひたすら繰り返す感じのカーネルで計測するのがよいかと。
760 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 13:09:51 ]: >>758
どこかのCPUでintをdoubleに変換してたという話かと。
761 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 13:10:18 ]: しかし、480SPとか、AMDはリアル12コアだとか、
時代の進歩は速いものだな。
762 名前：デフォルトの名無しさん [2010/03/30(火) 14:06:01 ]: しかし、性能はGTX295から毛の生えた程度
ていうか、もし倍精度の性能がいまいちだったらGTX480/470より
GTX295を買ったほうが安くていいかもね
763 名前：デフォルトの名無しさん [2010/03/30(火) 14:14:19 ]: 長崎大のようなことをやられたらNVDIAが東工大から呼出をうけて
「２度目はないからな」とか言われても不思議じゃないよね
764 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 15:00:14 ]: >>762
GTX295、5万円くらいだからなぁ。倍精度の性能がGTX280の２倍程度ならば…
GTX295でヨシってことになると。>>757よろしく！
765 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 15:19:12 ]: matrixMulはメインメモリの転送が時間に含まれてるしサイズが小さめ
プログラムが書けるなら1000x1000あたりの性能をお願いします
766 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 15:43:23 ]: >>760
そうなのか？
普通のCPUの構造上浮動小数点演算は、
64bitでやるから型変換をしてると聞いたんだけど
767 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 15:48:57 ]: もしかしてGPUだと話は別なのかな…
768 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 18:34:02 ]: >>766
x86アーキテクチャでは、普通は変数型に関わらず浮動小数点演算は80bitの拡張倍精度で行う。
メモリロード/ストアの際に、変数がfloat型ならfloat型に変換されはするが、
別に大した処理でもないので速度にそんな影響は出なかったと思うが。
769 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 18:46:24 ]: R3000かなんかで64bitint乗算がなくてとかなかったっけ
770 名前：デフォルトの名無しさん mailto:sage [2010/03/30(火) 22:56:03 ]: >>767
GPU だとどころか、倍精度演算器が載ってない CPU だってあるから。
処理系によって話が別。
771 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 02:58:13 ]: device emulationってなくなっちゃうのね
772 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 05:57:59 ]: ちょっと整理。

・x86(fpu)
浮動小数点レジスタが80bitなので、floatを突っ込んでも80bitで演算する。
従って、floatとの変換処理が入るのでdoubleの方が速いことがしばしば。

・x86(sse)
MMXレジスタが汎用なので、floatはfloatのまま演算する。
従って、定数や標準関数でdoubleに汚染されないように気をつければfloatの方が多少速くなる。
また、MMXレジスタにfloatの方が2倍詰め込めるのでベクタ化した場合に2倍速くなる可能性もある。
更に、キャッシュ効率もよくなるのでより速くなるかもしれない。

・GPU(cuda)
単精度レジスタと倍精度レジスタが分かれているんだっけ? 倍精度についてよく知らんのでフォローお願い。
演算器の特性上、単精度の方がずっと高速に演算するし、転送量も当然半分にできる。
応用にも拠るけれど、CPUとのI/Fは単精度で内部だけ倍精度にできると最強かも。
773 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 07:48:43 ]: 64bit版gccだと、-m32オプションをつけない限りもはやx87のコードは吐かないなあ。

>CPUとのI/Fは単精度で内部だけ倍精度にできると最強かも。
これって何回丸めが発生するかによるけど、精度は単精度+αだね。
でもこういうことはよくやるなあ。
データ量を減らしたくて少し精度が欲しい場合は、最終的に欲しいデータはfloatで持っておいて、
計算するときにすべてdouble型のデータにコピーして最後に結果をfloat型に戻す。
この方法をとれば、丸め誤差の発生は一回で済む。
計算の中身が超越関数使ったり、複雑であったりすると結構有効だよ。
その分速度は犠牲になるけど、メモリ帯域が支配的であると余り影響がないな。
G200系だとまだ効果はないだろうけど、Fermiなら結構役に立つんでない？
774 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 11:35:13 ]: >・x86(fpu)
>浮動小数点レジスタが80bitなので、floatを突っ込んでも80bitで演算する。
>従って、floatとの変換処理が入るのでdoubleの方が速いことがしばしば。
doubleは64bitなんだから結局まるめが入るのは同じじゃないの？
775 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 13:02:05 ]: おいおいあれだけCPU側のコードが糞だといっておいて、CPUのこと知らなさすぎだろｗ

floatが遅くなるのは、MSVCが、floatのときは毎回メモリに書き戻すことで精度を32bitに落としてIEEE互換にするコードを出すから
レジスタ間ならfloat/double/long double関係なく80bit
776 名前：デフォルトの名無しさん [2010/03/31(水) 14:32:17 ]: GPUの種類を取得する関数か何かはありませんか？
777 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 14:42:10 ]: >>776
サンプルでついてくるdeviceQueryのソース読んでみれば
778 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 14:44:59 ]: >>776
CUDA APIガイドに書いてあるだろ
779 名前：デフォルトの名無しさん [2010/03/31(水) 15:12:11 ]: そうじゃなくて製品名です
780 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:20:59 ]: 製品名って、ASUSかEVGAか判別したいってこと？？
781 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:26:11 ]: メーカーの判別はどうがんばっても無理だろ
782 名前：デフォルトの名無しさん [2010/03/31(水) 15:32:47 ]: じゃあせめてWindowsかMacかInaxかぐらいわかりませんか？
783 名前：デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:33:23 ]: 製品名って言うくらいだから、ELSA GLADIAC 998 GTX Plus V2 512MBみたいなのじゃないのか。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef