[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 02/21 05:22 / Filesize : 250 KB / Number-of Response : 931
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【GPGPU】くだすれCUDAスレ pert2【NVIDIA】



1 名前:デフォルトの名無しさん mailto:sage [2009/10/08(木) 19:29:37 ]
このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
www.nvidia.com/cuda

関連スレ
GPUで汎用コンピューティングを行うスレ
pc11.2ch.net/test/read.cgi/tech/1167989627/
GPGPU#3
pc12.2ch.net/test/read.cgi/tech/1237630694/

753 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:21:31 ]
Teslaもないと比べようがなくね?

visual profilerの関数の実行時間を比較くらいしか厳密な計測はできなさそう。

754 名前:753 mailto:sage [2010/03/30(火) 12:22:12 ]
リーロードしてなかった、悪気はないんだw

755 名前:デフォルトの名無しさん [2010/03/30(火) 12:34:45 ]
NVIDIA_GPU_Computing_SDK/C/bin/linux/release$ ./matrixMul
Processing time: 0.120000 (ms)
Test PASSED

Press ENTER to exit...
あたりを倍精度化してもらえばいいかと

756 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:36:50 ]
>>753
かぶって申し訳ないww
おれ>>739なんだけど、失敗かな。日本で入手可能になるのを
待ったほうが早くて安かったかもしんないよなorz

757 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:41:40 ]
>>755
おけ、matrixMulでGTX280とGTX480の比較ならやってさしあげられる。
floatのままと、doubleに全部置換した版で。

758 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:50:39 ]
floatは内部で型変換してるからdoubleの方が早いって聞いた事あるんだけど…

759 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 12:59:07 ]
倍精度のFMAをひたすら繰り返す感じのカーネルで計測するのがよいかと。

760 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 13:09:51 ]
>>758
どこかのCPUでintをdoubleに変換してたという話かと。

761 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 13:10:18 ]
しかし、480SPとか、AMDはリアル12コアだとか、
時代の進歩は速いものだな。



762 名前:デフォルトの名無しさん [2010/03/30(火) 14:06:01 ]
しかし、性能はGTX295から毛の生えた程度
ていうか、もし倍精度の性能がいまいちだったらGTX480/470より
GTX295を買ったほうが安くていいかもね

763 名前:デフォルトの名無しさん [2010/03/30(火) 14:14:19 ]
長崎大のようなことをやられたらNVDIAが東工大から呼出をうけて
「2度目はないからな」とか言われても不思議じゃないよね


764 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 15:00:14 ]
>>762
GTX295、5万円くらいだからなぁ。倍精度の性能がGTX280の2倍程度ならば…
GTX295でヨシってことになると。>>757よろしく!

765 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 15:19:12 ]
matrixMulはメインメモリの転送が時間に含まれてるしサイズが小さめ
プログラムが書けるなら1000x1000あたりの性能をお願いします

766 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 15:43:23 ]
>>760
そうなのか?
普通のCPUの構造上浮動小数点演算は、
64bitでやるから型変換をしてると聞いたんだけど

767 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 15:48:57 ]
もしかしてGPUだと話は別なのかな…

768 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 18:34:02 ]
>>766
x86アーキテクチャでは、普通は変数型に関わらず浮動小数点演算は80bitの拡張倍精度で行う。
メモリロード/ストアの際に、変数がfloat型ならfloat型に変換されはするが、
別に大した処理でもないので速度にそんな影響は出なかったと思うが。

769 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 18:46:24 ]
R3000かなんかで64bitint乗算がなくてとかなかったっけ


770 名前:デフォルトの名無しさん mailto:sage [2010/03/30(火) 22:56:03 ]
>>767
GPU だとどころか、倍精度演算器が載ってない CPU だってあるから。
処理系によって話が別。

771 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 02:58:13 ]
device emulationってなくなっちゃうのね



772 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 05:57:59 ]
ちょっと整理。

・x86(fpu)
浮動小数点レジスタが80bitなので、floatを突っ込んでも80bitで演算する。
従って、floatとの変換処理が入るのでdoubleの方が速いことがしばしば。

・x86(sse)
MMXレジスタが汎用なので、floatはfloatのまま演算する。
従って、定数や標準関数でdoubleに汚染されないように気をつければfloatの方が多少速くなる。
また、MMXレジスタにfloatの方が2倍詰め込めるのでベクタ化した場合に2倍速くなる可能性もある。
更に、キャッシュ効率もよくなるのでより速くなるかもしれない。

・GPU(cuda)
単精度レジスタと倍精度レジスタが分かれているんだっけ? 倍精度についてよく知らんのでフォローお願い。
演算器の特性上、単精度の方がずっと高速に演算するし、転送量も当然半分にできる。
応用にも拠るけれど、CPUとのI/Fは単精度で内部だけ倍精度にできると最強かも。

773 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 07:48:43 ]
64bit版gccだと、-m32オプションをつけない限りもはやx87のコードは吐かないなあ。

>CPUとのI/Fは単精度で内部だけ倍精度にできると最強かも。
これって何回丸めが発生するかによるけど、精度は単精度+αだね。
でもこういうことはよくやるなあ。
データ量を減らしたくて少し精度が欲しい場合は、最終的に欲しいデータはfloatで持っておいて、
計算するときにすべてdouble型のデータにコピーして最後に結果をfloat型に戻す。
この方法をとれば、丸め誤差の発生は一回で済む。
計算の中身が超越関数使ったり、複雑であったりすると結構有効だよ。
その分速度は犠牲になるけど、メモリ帯域が支配的であると余り影響がないな。
G200系だとまだ効果はないだろうけど、Fermiなら結構役に立つんでない?


774 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 11:35:13 ]
>・x86(fpu) 
>浮動小数点レジスタが80bitなので、floatを突っ込んでも80bitで演算する。 
>従って、floatとの変換処理が入るのでdoubleの方が速いことがしばしば。 
doubleは64bitなんだから結局まるめが入るのは同じじゃないの?

775 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 13:02:05 ]
おいおいあれだけCPU側のコードが糞だといっておいて、CPUのこと知らなさすぎだろw

floatが遅くなるのは、MSVCが、floatのときは毎回メモリに書き戻すことで精度を32bitに落としてIEEE互換にするコードを出すから
レジスタ間ならfloat/double/long double関係なく80bit


776 名前:デフォルトの名無しさん [2010/03/31(水) 14:32:17 ]
GPUの種類を取得する関数か何かはありませんか?


777 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 14:42:10 ]
>>776
サンプルでついてくるdeviceQueryのソース読んでみれば

778 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 14:44:59 ]
>>776
CUDA APIガイドに書いてあるだろ

779 名前:デフォルトの名無しさん [2010/03/31(水) 15:12:11 ]
そうじゃなくて製品名です

780 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:20:59 ]
製品名って、ASUSかEVGAか判別したいってこと??

781 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:26:11 ]
メーカーの判別はどうがんばっても無理だろ



782 名前:デフォルトの名無しさん [2010/03/31(水) 15:32:47 ]
じゃあせめてWindowsかMacかInaxかぐらいわかりませんか?

783 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:33:23 ]
製品名って言うくらいだから、ELSA GLADIAC 998 GTX Plus V2 512MBみたいなのじゃないのか。

784 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:34:04 ]
>>782
CUDA以前の問題。てか、そのレベルじゃ絶対無理だろ。

785 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:53:38 ]
#ifdef _WIN32

786 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 15:55:08 ]
まさかOpenCLの話か?
#ifdef _apple
とかやった覚えがある。

787 名前:デフォルトの名無しさん [2010/03/31(水) 16:15:17 ]
#ifdef _appleは豆知識だな

788 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 16:44:37 ]
Inax は釣りだろ。782 は偽者じゃないか?
TOTO 向けと別の最適化するのかなw

789 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 19:31:24 ]
水流をGPUでシミュレーションして最適化するのか

790 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 21:04:19 ]
流体シミュレーションはGPGPUのメインテーマだから、まさにうってつけだろう

791 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 21:06:11 ]
OpenCL使えよ馬鹿ども



792 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 21:08:09 ]
日本の便器メーカーは水量削減に血道を上げているからな
いかに少ない水量で、効率良く、かつきっちり排泄物を流しきるか

793 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 21:11:31 ]
便器開発での計算に使用するだけでなく、
便器自体にTeslaを搭載し、
排泄物を画像認識して最適な水流を計算する。

排熱も有効利用できそうだ

794 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 22:39:35 ]
>>793
画像認識のコード書くやつは大変だな

795 名前:デフォルトの名無しさん mailto:sage [2010/03/31(水) 22:42:09 ]
確かに、今は節水ということで一般家庭向けの便器は
流れが悪いといくことを感じるな。

現場では流体演算とかして設計しているのだろうか?

796 名前:デフォルトの名無しさん mailto:sage [2010/04/01(木) 01:09:36 ]
TOTO 節水 シミュレーション でググってみた。
www.toto.co.jp/saiyo/new/techno/person/person_05_2.htm

797 名前:デフォルトの名無しさん mailto:sage [2010/04/01(木) 01:17:06 ]
流体どころか三相全てシミュレートしてるんだな

798 名前:デフォルトの名無しさん mailto:sage [2010/04/01(木) 07:04:31 ]
GTX470が先に発売されるみたいですね。
購入される方いますか。


799 名前:デフォルトの名無しさん mailto:sage [2010/04/01(木) 12:43:41 ]
どうしてcudaはosと密接なのか?
最新のubuntuをいれたくてもいれられへん
理由を教えてくれろ

800 名前:デフォルトの名無しさん mailto:sage [2010/04/01(木) 14:28:01 ]
>>799
ドライバレベルで提供されているから。

801 名前:デフォルトの名無しさん [2010/04/01(木) 19:55:02 ]
>>797
固体ってのが生々しいな。シミュレーションするためにウンコの物性とか
測定したりしたんだろうな。



802 名前:デフォルトの名無しさん mailto:sage [2010/04/01(木) 20:10:39 ]
壊れ方とかがリアルな模型があるとか聞いたことがある。
でも物体の測定データのファイル名とかはなまなましいだろうなw

シミュレーションしているときのSSとかあればいいのに。

803 名前:デフォルトの名無しさん mailto:sage [2010/04/01(木) 21:27:09 ]
たしか法律で、流す水の量は決まってるんだよね。


804 名前:デフォルトの名無しさん mailto:sage [2010/04/02(金) 07:57:34 ]
>>799
たぶん、nvccがgccの進化について行けていないだけだと思う。
バイナリだけなら、最新のUbuntuでも動くよ。

805 名前:デフォルトの名無しさん [2010/04/02(金) 16:58:24 ]
最近のディストリビューションって大抵1年かそこらでサポート終わりじゃん。
1つまえのバージョンにしか入れられないと、半年程度でいれかえなきゃいけないんだよね。
そこらへんを早く何とかしてくれよ。
CentOSとかつかえばいいのかもしれんけど

806 名前:デフォルトの名無しさん mailto:sage [2010/04/03(土) 03:06:19 ]
そこを何とかしてもらいたいね。
俺は古いバージョンのLinuxをVirtualBoxで新しいバージョンのLinux上で動かして、
クロスコンパイルライクなことをしているよ。コンパイルだけなら仮想化環境でも通るからな。

807 名前:デフォルトの名無しさん mailto:sage [2010/04/03(土) 12:32:49 ]
GTX480で倍精度削られたのは本当らしい…

Quadroではどうなるんだろう

808 名前:デフォルトの名無しさん mailto:sage [2010/04/03(土) 14:22:26 ]
今すぐ計算して論文書かなきゃって人以外は↓ここ聞いてからにした方がいいんじゃないかと。
ttp://www.hardocp.com/article/2010/03/26/nvidia_fermi_gtx_470_480_sli_review/7

「当機はまもなく離陸しますw」

809 名前:デフォルトの名無しさん mailto:sage [2010/04/03(土) 14:24:49 ]
>>807
ドイツ語読めないけど、これ?
ttp://www2.hardware-infos.com/news.php?news=3497

810 名前:デフォルトの名無しさん mailto:sage [2010/04/03(土) 22:55:58 ]
Q1.同じGT-240を二枚挿せばCUDAも倍近く早く処理できるようになりますか?
Q2.GDDR5とGDDR3とDDR3でCUDA動画エンコードの処理スピードはどれくらい
違いますか?GDDR3を100として。

811 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 00:22:50 ]
>>810
もう少し具体的に知りたいことを書いた方が答えやすい。

例えば動画エンコード用途に限ると「複数枚挿しはどうよ?」とか、「FermiとかATIとかの中でどれが一番速いか」とか。




812 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 00:38:10 ]
十分具体的だろ・・・。

ソフトウェアによって、複数挿に対応しているかどうかは変わるので、
使いたいソフトについて調べよう。

メモリの速さは重要だけど、GPGPUでは、メモリにアクセスするときの遅延のほうが問題となっている。
ハードウェアの構造的にもGT200系のほうがメモリアクセスが柔軟なので、GTX260あたりを検討してはどうだろう。

813 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 01:19:30 ]
具体的だろと言っておきながらソフトによって変わるとか意味不明

814 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 01:38:58 ]
>>811-812
レスありがとうございます。

CUDAの使用目的:動画エンコのみ。 使用するソフト:MediaCoder
使用するかもしれないソフト:TMPGEncKarmaPlus
現状:AVIUTLでロゴ消しとインタレ解除のプロジェクト→
TMPGEnc4で色γクロップ・リサイズしてHUFFYUVで出力→MediaCoderのx264で。
課題:Q6600でVGAでx264エンコが22fpsしか出ない。1080pだと4fps!orz
MediaCoderにCUDAでH.264エンコできる機能があるので使いたい。
GT240がGDDR3で6000円、GDDR5で7500円〜なので、二台組むより二枚入れた
ほうがいいのかも?
GDDR3とGDDR5でCUDAエンコに殆ど差がないならGDDR3のほうにしたい。
複数枚挿しはどうです?
現状G43/G41/G31なので新しくマザー買わなきゃできないけど…。

>>812
GPGPUやメモリアクセスについて仕組みとか全く知らないのですが、
GTX260はGT240の倍以上の値段だけど、倍の性能あるんですか?
wikiに書いてあるSPとCUDAコア数がどう違うのか分からないので…
もし倍の性能(エンコが倍早くなりそう)ならGT240よりGTX260を選ぶかも
しれません。PXI-EXOが1つですむし。

815 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 01:42:45 ]
>>810
素直にCorei7にしておけ。
GT240じゃ2枚さそうがCorei7の方がマシだ。


816 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 02:30:20 ]
現状CPUを強化したほうがメリット多い
CUDA使うならGTX260以上じゃないとCPUの足を引張る可能性がある

817 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 04:58:16 ]
aviutlでの処理時間考えたらCPU強化の方が妥当だな

818 名前:巻添規制中(810=814) mailto:sage [2010/04/04(日) 06:04:59 ]
>>815
www.techarp.com/showarticle.aspx?artno=520&pgno=7
でみるとi7はQ6600の1.25倍くらい早い
www.katch.ne.jp/~kakonacl/douga/mediacoder/v0.71_cuda.html
でみるとCUDAはQ6600の3.7倍くらい早い
∴CUDAはi7より3倍近く早い…??? CUDAは実写向き?

X58+i7買いたいけど、LGA1155待とうかと。

819 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 09:47:48 ]
>>818
あ〜、俺もこれ使ってcudaエンコしてるけど、Bフレームが4までだったり2passできなかったり
画質はいまいちですよん。たしかにCPUよりは速いとはおもうけど・・・。

新しいバージョンだと改善されてる可能性はあるけどね。

820 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 11:55:03 ]
>>814
GT240の3倍くらいの値段で売られているが、3倍速くなるとはいえないけど、
MediaCoderは複数差対応していなし、GT240を2枚買っても無駄になる。
あたらしくマザー買う予算が削れるならGTX260でもいいかと。

画質もとめるなら、i7ってのは合意。

821 名前:810 mailto:sage [2010/04/04(日) 14:18:33 ]
みなさん色々有難うございます。ググりながら考えてるんですが難しいですね。

>>816>>817
GTX260だと電源交換、i7はM/B&DDR3全部揃えないと…先立つものが…。(ToT)
www.katch.ne.jp/~kakonacl/douga/mediacoder/v0.71_cuda.html の人
は GeForce9600GT(VRAM 512MB)Vista HomePremium(SP2)で実行、CUDAエンコ
でQ6600使用率83%と書いてあるけど、GT240のほうが高速ですよね?
pc.watch.impress.co.jp/docs/column/tawada/20091117_329556.html によると
GeForce 9600 GTの1,800MHz/256bit メモリ帯域幅は57.6GB/sec、
GeForce GT 240のGDDR5/3,400MHz/128bit 54.4GB/sec、
GeForce GT 240のDDR3/2,000MHz/128bit 32GB/sec。
DDR2-667(5.3GB/s) DDR2-800(6.4GB/s)デュアルだと倍。
もしかしてDDR2がボトルネックになる? 
GT240 GDDR3とGDDR5でCUDAエンコの速さの違いどうなんでしょう?
そこらへんが一番気になります。



822 名前:810 mailto:sage [2010/04/04(日) 14:19:49 ]
>>819
最新ではBフレームが16まで、Average/Variable/CBR/2pass/3pass できるみたいだよ。
x264ではAverage/Variableは何故かコマ落ちする。

>>820
SP216&DDR3のGTX260とCUDAコア数96のGT240だと、エンコ速度二倍差が出ます?
PHARAOH 500W電源だとGTX260+Q6600はギリギリかなぁ。

(Q6600+GT240)複数台にするほうが経済的かな? G41とDDR2が1組余ってるし…

823 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 15:38:15 ]
hothardware.com/articleimages/Item1477/san.png
doubleはfloatの1/2*9ってとこか。

Teslaでやって1/2とかだったら、ロックなんだろうな。

824 名前:デフォルトの名無しさん mailto:sage [2010/04/04(日) 17:43:24 ]
これは低すぎるのでOpenCLでDoubleがHWサポート
されてないのではないかと


825 名前:デフォルトの名無しさん mailto:sage [2010/04/05(月) 00:43:36 ]
>>821
GDDR3とGDDR5とでは、メモリ帯域が倍違うので、ストリーム系のアプリでは大きく変わります。
ていうか、このクラスのボードで2枚挿しとか意味がない。

826 名前:デフォルトの名無しさん mailto:sage [2010/04/05(月) 01:09:55 ]
>823−824
むしろ理論値で単精度の5分の1になるはずのRADEONの倍精度が半分程度で済んでる方が気になる

>822
GT240なんてゴミ買うぐらいならいっそ中古のQ9xxxのCPUでも買った方が良くね?


827 名前:デフォルトの名無しさん mailto:sage [2010/04/05(月) 03:39:12 ]
安物買いの銭失いとはこのこと

CUDAに大きな期待を抱かないほうがいい

828 名前:デフォルトの名無しさん mailto:sage [2010/04/05(月) 19:17:53 ]
>>823で、GTX295が285よりもスコア低いのはなぜ?

829 名前:デフォルトの名無しさん mailto:sage [2010/04/06(火) 01:17:45 ]
>>828
単純にGPUを一個しか使っていないからだと思う。
単一GPUなら285の方が速いからね。

830 名前:デフォルトの名無しさん mailto:sage [2010/04/06(火) 08:54:53 ]
>>825
CUDAエンコはストリームと違ってGDDR3もGDDR5殆ど関係無いってさ。
SP数(CUDAコア数)でほとんど性能が決まる。

>>827
最新のMediaCoderでVBRでやってみたらどう?

831 名前:デフォルトの名無しさん mailto:sage [2010/04/06(火) 19:53:29 ]
MLB オバマ始球式




832 名前:デフォルトの名無しさん [2010/04/07(水) 09:15:06 ]
HPC向けGPGPU終わりつつあるな

102 :Socket774 :sage :2010/04/06(火) 23:24:12 ID:n4owrnuu




>>98
> HPC向けはどうなるんだろう?

マキーノの話だとこんなのが。
grape.mtk.nao.ac.jp/~makino/journal/journal-2010-04.html#3
> 一枚5万とかで買うのでない限り GPU は価格性能比では CPU に勝てなくなってしまった

以前はGPUの方が同コストのCPU比で10倍↑とか軽く叩き出してたけど、
CPUはマルチコア化が進みまくり値段下がりまくり…
ハイエンドGPGPU買うよりCPUの方がコスパが良くなってしまった。
基本直線番長のGPGPUよりCPUの方が扱いやすいし、プログラミングも先行きわからない
CUDAやらなくても、今までやってきた事そのままで走るし…

833 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 09:26:05 ]
確かに、OpenMPとかでそれなりに性能出るならそっちの方が超簡単だもんな。

834 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 12:13:09 ]
精度を削って性能を出したマシンで有名になったのにこういう時は倍精度の話だけか

835 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 12:54:34 ]
>>832
マルチコア化が進みまくりって、↓か?当面CUDAエンコの半分にもならんだろう
akiba-pc.watch.impress.co.jp/hotline/20100403/ni_c6176se.html
akiba-pc.watch.impress.co.jp/hotline/20100327/ni_cw3680.html

836 名前:デフォルトの名無しさん [2010/04/07(水) 15:29:03 ]
>>835
CUDAエンコは実用性ゼロと言われているだろ
HPC以外の分野でCUDAを利用している人はいないだろ

837 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 15:31:47 ]
>>834
そこ大事だよな。CPUと違って、倍精度・単精度の使い分けで性能違うもんな。
て、マキーノは昔、計算パスの場所によって計算精度が違う計算機を作ってたもんな

838 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 15:33:36 ]
>>836
エンコの中の人が面倒くさがっているだけなんじゃないの

839 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 15:38:47 ]
>>838
環境を作るのがめんどくさい。
コードを書き換えるのがめんどくさい。
最適化するのがめんどくさい。

840 名前:デフォルトの名無しさん [2010/04/07(水) 15:45:24 ]
>>838
まともなエンコを利用できないという事実が重要

841 名前:デフォルトの名無しさん [2010/04/07(水) 18:57:43 ]
たしかにOpteron12コアX4がFermiと同じ値段ならGPU終わるな。
既存のコードがそのまま動くし。
CUDAでこれ以上の性能が出るアプリは限られている。



842 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 19:05:29 ]
fermiの場合ボッタクリなだけのような。
最終的にはfusionみたいな物に落ち着くだろうけど。
GPUのアーキテクチャとしては変に汎用に振るより
コンパクトな割に暗号解読みたいに得意なものが速い
と言う方が良いだろう。


843 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 20:15:16 ]
>>838

正直エンコにCUDAを適応出来る処理が少なすぎる

844 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 21:02:20 ]
x264の開発者が全員RADE愛好者だったとかいうオチなら面白い

845 名前:デフォルトの名無しさん mailto:sage [2010/04/07(水) 21:05:12 ]
>>839
ペガシスがKarmaPlusに導入したCUDAエンコをTXP4になかなか導入
しないのはそれが原因かw


846 名前:デフォルトの名無しさん [2010/04/08(木) 00:28:04 ]
>>841
メニーコア化が進展すればGPUは終わるよね
実際のところ、全然進んでないからNVは助かっているけど

847 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 00:33:02 ]
メニーコアのメニーの次元が、GPUとCPUじゃ、全然違うしな

848 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 00:52:10 ]
新しいものが出てくるときはチャンスだと思うんだが、このスレではそんな気配かけらもないな。
やっぱり日本人てダメなのかね

849 名前:デフォルトの名無しさん [2010/04/08(木) 00:53:43 ]
だって、HPC向けはコストパフォーマンス悪いし
GeForceは機能削られまくりだし、いまいちなんだよね

850 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 00:56:38 ]
ATOM+IONチップセットで
エンコ爆速になったりしないか

851 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 01:25:40 ]
>>850
動画データの転送には最低でもPenDは必要。

>>848
バカンスの概念が無い日本人はここぞって時に余力が無い。

>>841
4万のマザーに32,480円の8コア載せるより
5千円のマザーに1.6万円の4コア載せて数万のビデオカード挿す方が数倍早い
んだろうし、どっちもムーアの法則どうり進化すればGPUは当分優勢では?



852 名前:デフォルトの名無しさん [2010/04/08(木) 06:07:48 ]
GPUで縁故するとなんであんなに汚いの?

853 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 06:24:22 ]
ソースみたいとわからん。

854 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 06:27:58 ]
SpursEngineでエンコして汚いのはハードのせい
CUDAでエンコして汚い場合はソフトが成熟してないから

855 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 07:03:51 ]
>>851
適材適所ってことだよなー
y=a*x+b を100万個×10万回 みたいな計算には巨大コアはいらない、
小さいコアがたくさんある方が速い みたいな。

856 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 19:19:24 ]
>>851
なぜ今頃ムーアの法則?
成り立たなくなってかなり経つんだが

857 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 19:46:55 ]
え?

858 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 19:53:19 ]
>>856

え?

859 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 21:00:18 ]
>>856
          _......_
     __   /.::::::::::`:.、
  /, - r, /::::i::::ハ:i:::::;::',
  r-'ヽ./イ i::::|イ/' '-ヘl:::i
  ` ー、i { l::::l '"´  ̄ l:::l <またまたwご冗談を
    l! l l::::ト、 r_っ ,ィ:::l
     l  トヽ::l弋ニ<l::::l!
     ゝ- イ`    イ^イ
        |     /-{′

wiredvision.jp/news/200709/2007092021.html
www.itmedia.co.jp/news/articles/0906/18/news006.html


860 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 21:01:30 ]
あと10年ぐらいはどうにかなりそうな気がするけど

861 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 22:27:03 ]
>>856はfreelunchは終わった発言と混同しているに1000ペソ



862 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 22:27:35 ]
>>860
どんだけ低クロックなんだよ、電算機系分野の10年ってものすげぇ進歩するんだぞ

863 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 22:58:17 ]
クロック?
ムーアの法則って集積密度の話じゃなかったっけ

864 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 23:03:27 ]
ムーアの法則なんて、明らかに無理だと分かった時点で
定義の方を変えて無理やり存続させているだけだろ。


865 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 23:14:23 ]
IntelはAMDの様子見して出し惜しみ&殿様商売
「半導体の集積密度は18〜24ヶ月で倍増する」ゆえ
CPUの性能は2年で倍近くになる。1年だと√2倍弱
GPUも同様。

866 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 23:19:44 ]
集積密度≠性能ということをきちんと理解しましょう

867 名前:デフォルトの名無しさん mailto:sage [2010/04/08(木) 23:53:15 ]
GPUで無理矢理あれこれするより、
計算専用のユニットを別途開発した方がいいんじゃないの?と思う
GPUより効率よくできる部分もあるだろうし

868 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 10:42:33 ]

   ∩___∩         |
   | ノ\     ヽ        |
  /  ●゛  ● |        |
  | ∪  ( _●_) ミ       j
 彡、   |∪|   |        J>>867
/     ∩ノ ⊃  ヽ
(  \ / _ノ |  |
.\ “  /__|  |
  \ /___ /


869 名前:デフォルトの名無しさん [2010/04/09(金) 12:48:00 ]
x264がCUDA対応してないことと、AVIUTLでCUDA使えないこと、
MediaCoderのcudaH264Enc.exeの画質をx264並みにするにはビットレートを
何割増しにすればいいのか不明なこと、
PowerDirectorは設定がゴミなこと、

が問題かな


870 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 15:40:20 ]
forums.nvidia.com/index.php?showtopic=165055

Double precision is 1/2 of single precision for Tesla 20-series, whereas double precision
is 1/8th of single precision for GeForce GTX 470/480

871 名前:デフォルトの名無しさん [2010/04/09(金) 17:18:50 ]
倍精度だとteslaの1/4だけと、値段は1/5なんだよね



872 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 17:46:49 ]
ノードの数がGTX480は480でteslaは442なんだよね

873 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 18:47:55 ]
あれ、HD5870でよくね?

874 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 20:10:18 ]
pc.watch.impress.co.jp/docs/news/20100405_359261.html

AMDは単精度しかなかったみたいね


875 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 20:58:04 ]
IEEE754準拠ではない64bit double floatはR7xxの頃からあった。
俺は使ったことないからわからないけど。
少なくともドキュメントには、Radeon HD4xxx を除外するような文言はなかった。

R8xxはIEEE754準拠の命令が結構揃ってるよ。

876 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 21:12:53 ]
なんでラデはFFTのライブラリを出さないのか理由がわかりますか

877 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 21:15:33 ]
つくれば?

878 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 21:23:09 ]
ですよね

879 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 22:31:50 ]
ascii.jp/elem/000/000/513/513385/
秋葉に出たみたいです。どうしようかな。

880 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 22:38:50 ]
熱的にやめとけ。

881 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 22:53:30 ]
売り切れたそうです。GTX480、3枚買った方がいるとか。



882 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 23:04:45 ]
>>875
IEEE754準拠の精度になったのがRV770で
RV670のころからdoubleはサポートされているよ。

883 名前:デフォルトの名無しさん mailto:sage [2010/04/09(金) 23:45:38 ]
3枚とかアホとしかww

884 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 00:08:11 ]
470なら3台行けるかなー

885 名前:デフォルトの名無しさん [2010/04/10(土) 01:56:40 ]
オークションで売るんじゃないか

886 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 02:23:45 ]
PCI-EXx16 3つあるマザーでPCIと交互にあるマザーでCUDAエンコに
使うんだろう。


887 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 05:14:47 ]
結局、倍精度は削られているのかね?
削られていなければ買いたいのだが。

888 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 06:32:49 ]
まだ実測した人はいないみたいですね。スレの人が手に入れるのをまちましょう。

889 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 07:09:42 ]
GTX480じゃ倍精度無効になっているだけで
sandraのベンチのやつはEMUですが

890 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 07:42:43 ]
無効じゃなくて1/4ですよね
ベンチはOpenGLがそうなってるということで


891 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 07:47:12 ]
OpenGLのなにが?



892 名前:デフォルトの名無しさん [2010/04/10(土) 07:59:10 ]
sandraのあれはOpenCLだろ>倍精度無効


893 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 08:04:30 ]
sandraはOpenCLだろうがGLだろうがCUDAだろうがCSだろうがvideorenderingだろうが
ハードで使えなきゃエミュでだすよ

894 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 08:14:32 ]
pc11.2ch.net/test/read.cgi/jisaku/1269857880/740
購入者

895 名前:デフォルトの名無しさん [2010/04/10(土) 08:54:56 ]
>>894
ゲーム目的だったらHD5970を買ったほうがよかったのにね

896 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 10:53:48 ]
M/Bとか貧弱なんでゲーマでもないみたいでなんで2枚も買ったのか

897 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 11:38:52 ]
480/470の倍精度演算削られたのか…
倍精度演算やる人はぼったくり価格のC2050/2070買えってか


898 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 11:45:47 ]
>>897
そのソースはどこ?

899 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 13:34:59 ]
>>897
まぁ、このスレ住人が実際にCUDAで試すのを待とうや。

900 名前:デフォルトの名無しさん mailto:sage [2010/04/10(土) 13:57:02 ]
米アマゾンはまだ発売前になってるね

901 名前:デフォルトの名無しさん mailto:sage [2010/04/11(日) 10:27:23 ]
これだけ出回ってるのに倍精度はおろか単精度の演算を流す人もいないとは



902 名前:デフォルトの名無しさん mailto:sage [2010/04/11(日) 13:02:22 ]
出来る人はこんな所に来ない、つまりここは無能の衆が集う所だから

903 名前:デフォルトの名無しさん mailto:sage [2010/04/11(日) 13:11:46 ]
みんな科研費で買うんじゃない?5月まで待たないと.

904 名前:デフォルトの名無しさん mailto:sage [2010/04/11(日) 13:37:56 ]
無駄遣いはやめてもらうようにこのスレのことも仕分け人に伝えとかないといかんね

905 名前:デフォルトの名無しさん [2010/04/11(日) 13:48:15 ]
科研費が無駄に物価を高騰させてるな
さっさと仕分けされろ

906 名前:デフォルトの名無しさん [2010/04/11(日) 18:10:27 ]
無駄な科学者・技術者は農業や林業にまわって効率を上げてやってほしい。

907 名前:デフォルトの名無しさん mailto:sage [2010/04/12(月) 06:21:08 ]
470ポチった。ついでにCUDAの入門書もポチった。
両方到着は14日予定。おまえらよろしく

>>897
倍精度のテストプログラムか何かあれば提示してくれないか?
手元にGeForce系列VGAが一切ないので一切やったことがないんだ

908 名前:デフォルトの名無しさん mailto:sage [2010/04/12(月) 07:42:29 ]
14日、期待してますよ。

909 名前:デフォルトの名無しさん mailto:sage [2010/04/12(月) 09:50:33 ]
人柱になってくれるのに情報薄くて申し訳ないが
このスレの上の方にあるCUDA公式での行列かけ算コードを倍精度化したものを走らせるのが一番簡単かな?
手持ちがあれば提供したいが

910 名前:時々書いている人 mailto:sage [2010/04/12(月) 13:40:47 ]
未だELSAからボードが来ない……

911 名前:デフォルトの名無しさん [2010/04/12(月) 14:48:20 ]
480のCUDAのベンチマーク結果はどかでみられませんか?
ゲームのベンチだといくらでもみつかるのですが。




912 名前:デフォルトの名無しさん mailto:sage [2010/04/12(月) 15:15:57 ]
             _(こ^)、_
            〃、__ノノ、__,ヽ
              {.っ>  <っト、
            (⌒i  (千于`ー┴'─────┐
         (O人  `ー|                |
           /⌒ヽ(^う 見せられ.      |
           `ァー─イ    ないよ!   |
           /  (0::|__________|
             /\____/
          /   /  ⌒ヽ
      ___/  / ̄ ̄`)  ノ
     (__r___ノ     (.__つ

913 名前:デフォルトの名無しさん mailto:sage [2010/04/12(月) 18:54:31 ]
www.anandtech.com/show/2977/nvidia-s-geforce-gtx-480-and-gtx-470-6-months-late-was-it-worth-the-wait-/6

914 名前:デフォルトの名無しさん mailto:sage [2010/04/12(月) 19:10:50 ]
おk、14日・・・はWin7のセットアップなどもあるから無理として、15日か16日にはテストする


915 名前:デフォルトの名無しさん mailto:sage [2010/04/12(月) 19:23:43 ]
あいかわらず倍精度のベンチはないもののNVIDIAがコンフォームしたって書いてあるね

916 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 08:17:19 ]
マーケティングの理由から倍精度つぶすとかやってくれるぜ全く
くあどろも同じだったら本当に萎えるわ

917 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 08:20:01 ]
やっぱり倍精度は1/4になっているのか。
Teslaだと高いしな。
Nehalemが6コア、8コアになってきて、Opteronは12コアになってきてしまったので、
CUDAの優位性がかなり下がってしまったな。



918 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 08:27:05 ]
nvidiaは1世代分戦略を間違えた希ガス
社運をHPCに賭けるなら、Fermiは倍精度つぶさずにバーゲンするべきだった
CUDAがある程度スタンダードになったことを確認した上で、Fermiの次をぼったくり価格にすれば良かったはず
PCIExpress3.0対応にしてさ

いまならCUDA捨てるの間に合うしなあ ユーザ側が

リネーム商法といい、nvidiaはほんと強気だ

919 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 10:20:40 ]
まじか。書いてあるな。萎えたな。
「NVIDIA has confirmed it - the GTX 400 series' FP64 performance is capped at
1/8th (12.5%) of its FP32 performance, as opposed to what the hardware
natively can do of 1/2 (50%) FP32. 」

920 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 10:21:59 ]
これまでの何倍速くなりました!というのがかなり限定されるのがわかって来たからね。メモリ帯域に関しても確かにCUDAが始まった頃は、CPUの10倍以上あって早かったけど、今はDual CPUだと大差無くなって来ているので、高価なTeslaを入れる意味も無いなあ。
前に誰かが書いていたけど、古いPCの延命のために使うのはありだと思うけど、ちょっと高いよなあ。
歩留まりが悪いのはわかるが。

921 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 10:29:35 ]
結局、Fermiのほどまりは何%くらいで、普通は何%くらいなんですか?



922 名前:デフォルトの名無しさん [2010/04/13(火) 11:55:56 ]
>>921
不明
今後も確実なソースから数値が出る可能性はほぼゼロ

923 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 13:23:11 ]
konozamaだったよ

orz

924 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 13:32:21 ]
>>923
イ`

925 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 16:23:45 ]
>>921
ほどまり???

926 名前:822 [2010/04/13(火) 17:12:13 ]
MediaCoder
CUDAエンコ爆速www
Q6600の6倍早いwww
画質x264と変わらんwww
GTX260でCPU45〜51%使用www

927 名前:デフォルトの名無しさん mailto:sage [2010/04/13(火) 17:29:23 ]
ふどまり

928 名前:デフォルトの名無しさん mailto:sage [2010/04/14(水) 12:24:12 ]
どうやらこのスレが世界初GTX480/470CUDA倍精度性能実測報告スレとなりそうですね

929 名前:907 mailto:sage [2010/04/15(木) 04:57:37 ]
とりあえず470は明日到着予定。
けど、搭載予定のケースが明後日到着予定・・・
うきいいいいい

変な時間に起きてすることがない・・・

930 名前:デフォルトの名無しさん mailto:sage [2010/04/15(木) 05:48:41 ]
瞑想しろ






[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧]( ´∀`)<250KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef