【GPGPU】くだすれCUDAスレ part6【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 05/30 06:39 / Filesize : 210 KB / Number-of Response : 866
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2012/09/23(日) 23:17:47.58 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
toro.2ch.net/test/read.cgi/tech/1314104886/
697 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 00:13:26.20 ]: PS3もちょうどその技術トレンドを読んで企画されたけど、ちょっと早漏すぎたな。
698 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 01:03:30.43 ]: >>689
VRAMのレイテンシは数百クロックもある上にピーク速度でも計算速度より何百倍も遅い
699 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 01:19:34.56 ]: >>697
早漏てw
そこは先駆者として評価してやっていいんじゃないの。十分出回ったしハード的にもソフト的にも注目されて、長めのゲーム機サイクルの中で研究されたんだからアーキテクチャとしては幸せな方でしょ

ソニーさんのビジネス的にどうだったのかは知らんけど
700 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 02:55:08.39 ]: >>698
え、マジで？
>>699
さすがに逆ザヤはNG
701 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 08:04:52.20 ]: サブプロセッサの性能は兎も角、メイン側が遅過ぎ。
メインとサブの間のメモリ空間も狭いし。
あれでよくゲームに活かせたと思うよ。
702 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:50:49.70 ]: >>694
三角関数テーブルって精度的にはどうなん?
多項式補間とかするの?
703 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:54:19.34 ]: 用途によるだろう
704 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:57:35.92 ]: 多項式補間といっても奥が深くてだな……
単なるテイラー展開(途中打ち切り)とよく練られた多項式との差はダンチ

例：
cosx≒1-0.5x^2+0.04166666667x^4-0.00138888889x^6とすると
誤差はx＝±1までで2.4528×10^-5(テイラー展開)。しかし、
cosx≒0.99999981155-0.49999395279x^2
+0.04166666667x^4-0.00138888889x^6とすると
誤差はx＝±1までで2.4528×10^-5(テイラー展開)。しかし、
705 名前：704 mailto:sage [2014/02/08(土) 00:01:16.23 ]: 途中送信してしまったorz
テイラー展開→cosx≒1-0.5x^2+0.04166666667x^4-0.00138888889x^6で、x=±1までの最大誤差2.4528×10^-5
最良近似式→cosx≒0.99999981155-0.49999395279x^2+0.04163632912x^4-0.00134007047x^6で、x=±1までの最大誤差1.8845×10^-7
(出典：www.amazon.co.jp/dp/456301382X)
706 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 01:28:11.34 ]: >>702
私(>694)のところで使うのは周波数空間像の畳み込みだから、三角関数の引き数は格子上の点の距離。
なので、補間の必要もないの。ついでに、cufft相当も自前で実装した。
707 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 04:18:08.80 ]: テイラー展開とか教科書に載ってるだけで、
関数近似の方法としては、ほぼ実用されてねえよ
708 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 04:33:47.29 ]: >>705
URLが見つかりません
709 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 11:00:08.81 ]: 最大誤差が小さくても、cos(0)が0.99999981155になる関数なんて使いたくないな。
0みたいな重要点でおかしな値が出ると致命傷になることが多い。
710 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 11:17:17.06 ]: >>707
テイラー展開の誤差範囲の理論値が明確であるメリットは結構大きい
711 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 12:45:17.63 ]: >>708
URLの最後の)がいらない。
712 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 12:48:31.76 ]: スレ違いかもしらんが、
gccとかのソースを見れば超越関数の実装が分かったりするのかな。

>>708
URLの最後の)がいらない。
713 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 16:15:49.24 ]: >>712
FPUがサポートしている超越関数はソースがないかもね。
iccならSSE版の並列演算用の超越関数が実装されているんだけど。
714 名前：デフォルトの名無しさん [2014/02/13(木) 18:24:19.21 ]: 質問です。CUDAを初めて使おうと思うのですが何を買っていいのかわかりません。
当方プログラマです。整数演算主体の力学シミュレータを自作しています。
その中にある絶望的に激重な評価関数が高速化できたらなぁと夢見ています。
その関数は同じデータセット（200キロバイトくらい）を、さまざまな初期値で評価するのですが、
条件分岐が殆ど発生しないアルゴリズムを発見しました。CUDA 向けなんじゃないかと使ったこともないのに妄想しております。
１回の評価計算そのものがめちゃくちゃ重い（単純に１００万回くらいループさせているだけ）で、
ループさせるプログラムそのものは数キロバイトも無いちっちゃなものです。
715 名前：デフォルトの名無しさん [2014/02/13(木) 18:26:36.46 ]: とりあえず今は手元にある Windows 7 64bits (チップセットはP55) に入れてお試しでCUDAプログラミングし、
C++で書いたシミュレータをCUDA対応に移植するところから始めたいとおもっています。
グラフィック出力を２本使いながらCUDAを使いたいのですが、私はどんなのを買ったらいいのでしょうか？
将来的には研究費をつぎ込むつもりですが、今は衝撃的に貧乏なので予算３万以内で。
716 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 18:39:59.33 ]: ＞グラフィック出力を２本使いながらCUDAを使いたいのですが
ここんとこ詳しく。あとPCも。
まあビデオカードを1枚買うか2枚買うかくらいの違いでしかないとは思うけど。
717 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 18:43:12.82 ]: >>714
CUDA積んでるGPUのリスト
https://developer.nvidia.com/cuda-gpus
この中から予算の許す限り良い奴を買えばいい

CUDA開発用のSDKは公開されてるから環境に合わせてインスコするんだ
https://developer.nvidia.com/cuda-toolkit

導入方法やサンプルコードはググるか>>1-2を参照

……もっとも釣りじゃなければの話だが
718 名前：デフォルトの名無しさん [2014/02/13(木) 19:14:47.30 ]: 早速レスが。有難うございます。

>>716 マザボは P7P55D ってので、PCI-Express 2.0 16X が２本あるのですが、
今はRadeon ２枚で４画面（1920x1200x2 と 1280x1024x2）出してます。
そのうちの片方を nvidia にしたいと考えてます。画面出力との併用って難しいでしょうか？

>>717 色々ありますよね・・・。今は技術の練習として試そうと思うのですが、
GTX 660 を選択しようかとおもってるのですが、それはやめとけ、こっちがいいよ、とかありますか？
719 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 19:26:36.61 ]: >>714
その目的なら、PC買う前にまず本当にCUDA向きなのか、
実際に自分がそのプログラムを組むことはできるか、
などをクラウドで実験してみてはどうだろうか

Amazon EC2
aws.amazon.com/jp/ec2/

1時間CUDAマシンを借りるのに1ドルもかからない。
720 名前：716 mailto:sage [2014/02/13(木) 22:54:51.79 ]: >>718
Radeon/Geforceの混在かぁ。ごめん俺はわからない。
1枚で画面出力とCUDA計算の併用自体はできる（長い間計算しっぱなしにせず、
ある程度の間隔で制御が戻るようにすれば。
計算しっぱなしでもタイムアウトしない範囲なら表示が完全に固まるわけではないし）。

GTX660でいいんじゃないかな。あるいはコスト抑えたいならもっと下でも。
ローエンドGPUでの実行時間がわかればCUDA Core数の比較で上位GPUにしたときの時間の見当もつくし。
あと2/18に28nmのMaxwell世代のGTX750が発売されるらしいという話もあるけど。
721 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 22:58:14.70 ]: >>719と同じくEC2を推す
高いグラボ買って大して高速化できませんでしたじゃ目も当てられない
722 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:16:31.67 ]: >>719 有難うございます。実は仰る話は第二段階として既に計画していました。
ここがクリアしたら第三段階として本格的な予算を投じて
大量のGPUインスタンスを使って計算するかもしれないです。

でもその前に第一段階として、CUDAにあわせてソースを書き換えたり、
必要に応じてアルゴリズムも修正しなくてはならないと考えており、
そのトライ＆エラーに例えば一ヶ月かかっちゃうなら安い奴を買ったほうがいいかな、
とりあえず３万円程度で使い倒してみようかな、と考えている次第です。
723 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:23:35.47 ]: >>721
そんな事情もあって3万円くらいで、なにがいいのかなと。
724 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:50:08.03 ]: しれっとアルゴリズムを発見したとか言うよねーｗ
725 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:51:06.60 ]: 連投すみません。 >>720 なるほどー。
最終的には256ビット幅でアルゴリズムを最適化するつもりだったので、
本当にメモリバスが256ビット幅なら、2/18まで待ってみようかな。

画面出力とCUDA計算の併用はそんなに心配しなくても良さそうなんですね。
Radeonとは、だめもとで混在させてみるつもりです。ありがとうございます。
726 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:54:53.63 ]: >>724
そんな言い方は野暮なんじゃね。何事も思いつきからでそ
失敗の責任を追うのは彼自身なんだしw
727 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:57:20.97 ]: >>724
結構たいへんでしたよ？要約すると、とあるトポロジーのハッシュを計算する問題なのですが、
条件分岐だらけのソースを、ごり押しで全パターン計算させたほうが結果的に高速らしい、ということが判ったのです。
ただ、現時点では「高速らしい」という段階でしかなく、本当に早いんだということは実際にやって見せるしかない状態です。
728 名前：716 mailto:sage [2014/02/14(金) 00:42:20.93 ]: >>725
Maxwellについては2/18のは28nmのままだし本気出せるSDKもしばらく先だろうから
たぶん結局Kepler買うことになり待つ意味は薄いと思います。
ただ一応知っておいたほうがいいと思って言ってみただけで。

あと整数演算オンリーならFermiが効率いいかもしれないけど今更Fermiに
合わせて作るというのもなんかロマンがないんですよね…
729 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 01:15:43.13 ]: スレチになっちゃうけどRadeon積んでるならOpenCLで試せばいいような気が。
Radeonのほうが速いだろうし。
730 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 01:45:09.56 ]: OpenCLは尚更ロマンがないな
旬ならkaveriでHSAか？といっても所詮ミドルレンジAPUだしなあ
731 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 05:30:04.44 ]: もっと野暮なんだけど、たった百万回×二百KBの演算ならCPUでごり押しした方が速い肝酢。
732 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 07:03:57.86 ]: 整数演算ならRadeonのほうが数倍速いよ。
CUDAもOpenCLも対して変わらん。
733 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 07:06:11.60 ]: >>722
本当に真面目にEC2の価格と比較・検討してみたのか疑問なんだが。
1日24時間ぶっ通しで使うわけでもあるまい。

あと、CUDA用のコードがエラーなく意図どおりの計算結果を出すかどうかは、
CUDA対応グラボを使わなくてもデバイスエミュレーションモードで確認できる。
それで動くか確認してからEC2で計算速度を実験すれば、かなり費用を抑えられると思うぞ。

まぁ、これも単なるひとつの手段でしかないし、
グラボを買う目的がCUDAだけでない場合もあるだろうから、
これ以上EC2を押したりはしない。
734 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 07:33:44.94 ]: CUDA 6.0RC公開きた
https://developer.nvidia.com/rdp/cuda-60-rc-toolkit-download
735 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 11:21:51.56 ]: なんかCUDA excelとかあるな
736 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 15:42:58.52 ]: >>960
最近のなら
www.nicovideo.jp/watch/sm22874825
737 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 15:45:25.73 ]: 誤爆orz
738 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 19:32:15.90 ]: GPUは1スレッドあたりの速度はCPUの何百倍も遅い
最低でも32ブロック×数百スレッド以上の並列計算できるような問題でないと力を発揮できない
739 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 22:12:19.68 ]: >>714
本当にCUDA初心者で、且つ上手く行った後に予算が着くなら
使い捨てにするつもりで1万5千円ぐらいの中古のGTX 580を
買ったほうがいいよ。下手なKeplerより速いし。
740 名前：デフォルトの名無しさん [2014/02/16(日) 17:30:13.79 ]: MAXWELL世代はL2キャッシュが大幅に増えるらしい。これはどういう効果を生むの？
videocardz.com/49557/exclusive-nvidia-maxwell-gm107-architecture-unveiled

GM107 L2 cache has 2MB. GK107's cache has 256KB.
741 名前：デフォルトの名無しさん mailto:sage [2014/02/16(日) 19:06:36.41 ]: というかキャッシュを増やさないと、
開き続けている演算能力とメモリ帯域のギャップがますます開いてしまう。
742 名前：デフォルトの名無しさん mailto:sage [2014/02/16(日) 20:26:20.43 ]: メモリ周りをチューニングしなくても
そこそこ性能がでる感じなのかな
743 名前：デフォルトの名無しさん mailto:sage [2014/02/17(月) 13:05:08.54 ]: いろんな変更があるんだろうけど
研究や論文あさってみると階層化されたスケジューラとレジスタファイルの相乗効果と思われる

ちょっと古いがこれがわかりやすいかも
www.cs.utexas.edu/users/mgebhart/papers/MICRO_Slides.pdf

www.cs.virginia.edu/~skadron/Papers/gebhart_tocs.pdf

L2は大型warpのプリフェッチに使われる予感
744 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 01:53:21.57 ]: CUDAの本でてた。
https://gihyo.jp/dp/ebook/2014/978-4-7741-6361-1
買わなくてもサンプルコード落とせた。
745 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 18:05:06.36 ]: Maxwellはkelperより速くなってるの？
Fermiのほうがいいという悲しいことになってない？
746 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 19:11:00.32 ]: CUDAって1PASSしか使えないけど、将来2PASS使えるようにならないのかね
CUDAエンコが速いなら、その速さを活かして2PASSでエンコしたいんだが
747 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 20:54:45.20 ]: 何のソフトの話だよ。そういうのは作者に言え。
748 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 21:20:39.06 ]: >>746
お前がCUDAで2PASSでエンコ作ればOKだろ

>>745
一般デスクトップ向けはGPGPUより素直にゲームに注力したほうが良いような気がするからな
749 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 21:37:41.19 ]: >>747
外人だから無理

>>748
ドライバがCUDAでの2PASSエンコに対応していない
だからどんなソフトでもCUDAで2PASSエンコは出来ない
750 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 21:45:32.45 ]: ドライバが？なんか根本的な勘違いがありそうだな
それPureVideoの話じゃないの？

cudaに向いてるかどうかを別にすれば、マルチパスってのはストリームに対して複数回の処理を走らせる事を指す言葉に過ぎない。なのでドライバは関係無い
751 名前：デフォルトの名無しさん mailto:sage [2014/02/24(月) 13:03:48.10 ]: Starting LU Decomposition (CUDA Dynamic Parallelism)
GPU Device 0: "GeForce GTX 750 Ti" with compute capability 5.0

GPU device GeForce GTX 750 Ti has compute capabilities (SM 5.0)
Compute LU decomposition of a random 1024x1024 matrix using CUDA Dynamic Paralle
lism
Launching single task from device...
GPU perf(dgetrf)= 4.607 Gflops
Checking results... done
Tests suceeded
------------------------------------------------------------------------------
starting hyperQ...
GPU Device 0: "GeForce GTX 750 Ti" with compute capability 5.0

> Detected Compute SM 5.0 hardware with 5 multi-processors
Expected time for serial execution of 32 sets of kernels is between approx. 0.330s and 0.640s
Expected time for fully concurrent execution of 32 sets of kernels is approx. 0.020s
Measured time for sample = 0.053s

C:\ProgramData\NVIDIA Corporation\CUDA Samples\v6.0\Bin\win64\Release>
752 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 05:37:37.16 ]: これって750TiでもhyperQ,Dynamic Parallelism使えるってこと？
753 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 05:44:00.90 ]: yes
754 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 06:09:03.50 ]: そうか。すごいな。使うだけならGT640も使えるんだっけ？
755 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 09:50:04.54 ]: うん
756 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 11:18:45.60 ]: 公式みると750tiはCompute Capability3.0になってるけど使えるの？
640は3.5だから合ってるけど
757 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 12:14:54.40 ]: 750TiはCC5.0です
CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "GeForce GTX 750 Ti"
CUDA Driver Version / Runtime Version 6.0 / 6.0
CUDA Capability Major/Minor version number: 5.0
Total amount of global memory: 2048 MBytes (2147483648 bytes)
( 5) Multiprocessors, (128) CUDA Cores/MP: 640 CUDA Cores
GPU Clock rate: 1163 MHz (1.16 GHz)
Memory Clock rate: 2750 Mhz
Memory Bus Width: 128-bit
L2 Cache Size: 2097152 bytes
Maximum Texture Dimension Size (x,y,z) 1D=(65536), 2D=(65536, 65536),
3D=(4096, 4096, 4096)
Maximum Layered 1D Texture Size, (num) layers 1D=(16384), 2048 layers
Maximum Layered 2D Texture Size, (num) layers 2D=(16384, 16384), 2048 layers
Total amount of constant memory: 65536 bytes
Total amount of shared memory per block: 49152 bytes
Total number of registers available per block: 65536
Warp size: 32
Maximum number of threads per multiprocessor: 2048
Maximum number of threads per block: 1024
Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
Max dimension size of a grid size (x,y,z): (2147483647, 65535, 65535)
Maximum memory pitch: 2147483647 bytes
Texture alignment: 512 bytes
Concurrent copy and kernel execution: Yes with 1 copy engine(s)
Run time limit on kernels: Yes
Integrated GPU sharing Host Memory: No
758 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 12:35:53.56 ]: 公式が間違ってるってことか
安いし買ってみるかな
759 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 13:52:11.35 ]: ついでにここでやってた32bit integer bit shiftのスループットやってみたら
68とか半端な数字になった
けどkepler(GK110 tesla以外)の倍だねSMあたり
blogs.yahoo.co.jp/natto_heaven/32775349.html

Clock: 1163000 KHz, # of MPs: 5
Elapsed Time: 2774.579102 milliseconds
# of Threads: 1024, # of SHLs : 1099511627776
Throughput: 68.147981
760 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 14:39:08.09 ]: https://devtalk.nvidia.com/default/topic/690631/cuda-programming-and-performance/so-whats-new-about-maxwell-/post/4127010/#4127010
https://devblogs.nvidia.com/parallelforall/5-things-you-should-know-about-new-maxwell-gpu-architecture/

shared が64KB使えるってか専用になったみたい
761 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 02:29:33.00 ]: >>748
OpenCL対応ソフトが地味に増えていってる状況でGPGPU性能削るとか自殺行為だろ
762 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 03:47:16.71 ]: GPGPU性能と言っても色々あるけどFermi→Keplerのときトータルでは削られたのでは。
2年前とはOpenCL/CUDAの対応状況が違うってことかね。
個人的にはMaxwellでGPGPU寄りに振ってくれると嬉しいんだけどね。
763 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 05:18:44.03 ]: >>759見ればkepler（３２）で削られてたbitshiftもtesla同様に64に増えてるし
どこをみてgpgpu削られてたって言ってるわけ
764 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 10:46:20.93 ]: keplerん時にゲーム向けチップから倍精度が削られた事くらいか
765 名前：762 mailto:sage [2014/03/02(日) 11:22:55.08 ]: >>763は俺に言ってるの？
766 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 14:07:18.50 ]: IDがないから誰が誰だかわからねーよw
767 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 15:31:43.89 ]: keplerは倍精度削り過ぎだろ。
fermi以下とか酷過ぎる。
768 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 15:52:36.88 ]: 気持ちは分かるが倍精度は単にGPUとして使いたい層には無意味どころか足引っ張る要素だしな
TITAN的な選択肢が今後も提供されるなら別に文句ないけどな
欲を言えば、もうちょい安い製品でも倍精度残したチップ用意してくれれば盤石かな
769 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 19:03:02.96 ]: FermiではTeslaの倍精度が単精度の1/2、GeForceではその1/4の1/8
KeplerではTeslaの倍精度が単精度の1/3、GeForceではその1/8の1/24

TeslaとGeForceの比率をKeplerでも1/4にするとか、
あるいはデフォでは1/8でもNVIDIAコントロールパネルで設定すると1/4
とか、そういう中間的な選択肢が欲しい。
770 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 19:39:04.95 ]: >>769
そういうの出したらtesla売れないから出さないよ。

俺は絶対性能は630や650クラスでいいから開発用にフルスペックのが欲しい
ECC, GPUDirect, TCCDriver, Hyper-Q, DPなどが使えるやつ。
できればTeslaのflops/B比等が同じで、そのまま倍数かければ
Teslaパフォーマンス特性がだいたい予測できるようなやつ。
771 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 22:31:53.98 ]: >>770
それいいね。

あとは同じ価格帯のボードが新世代で性能が
落ちるってのがなければいいんだけれど。
772 名前：デフォルトの名無しさん mailto:sage [2014/03/03(月) 19:45:26.63 ]: >>768
ゲーム用VGAとGPGPU用ボードの２つを出せば良いんだよ
（VGAでたとえるなら、ゲーム用VGAのGFとプロ用VGAのQuadroみたいに)
ゲーム用にGPGPUを強化しても、ゲーマーにはあんまり価値がなく、そして爆熱になるだけし
まぁ、GPGPU用の値段はゲーム用よりだいぶ高くなるだろうが
773 名前：デフォルトの名無しさん mailto:sage [2014/03/03(月) 20:12:15.14 ]: >>772
それ現状のまま(GeForceとTesla)じゃね？
774 名前：デフォルトの名無しさん mailto:sage [2014/03/03(月) 21:21:49.23 ]: ワラタ
775 名前：デフォルトの名無しさん mailto:sage [2014/03/03(月) 21:27:12.11 ]: ロー･ミッドクラスVGA派生GPGPUはイラネで、今のteslaラインナップなんだろう
776 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 10:00:41.96 ]: 数年前までGPGPUは安いのが売りだったのに今じゃ高級品だもんなー。
そのうちIntelに負けるんじゃん。
777 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 19:25:35.73 ]: いまは、中GPGPU性能以下(低価格)でいいなら、AMDのHSA APUでって感じじゃない
メモリーコピーいらんでお手軽にGPGPUできそうだし
そして低GPGPU性能でいいならIntelのiGPUで良いやだろう
778 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 20:38:12.99 ]: いやぜんぜん
779 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 20:40:03.72 ]: 開発環境とトライバがだめだめで低シェアなAMDは論外
780 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 21:09:46.72 ]: Xeon Phiがどれだけ使い物になるかで状況が変わってくるだろうな。
781 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 21:15:20.73 ]: >>780
HPCシステムズ「ぶっちゃけ製品として尖り過ぎてて使いづらいんだよゴルァ！」
www.hpc.co.jp/benchmark20121113.html
↓
HPCシステムズ「まあ場合によってはコンパイルし直すだけで使える……かな？」
www.hpc.co.jp/benchmark20130409.html
782 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 21:46:24.18 ]: チューニングすればテレサと同じぐらいのレベルか
783 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 23:35:20.92 ]: つか、HSAでプログラミングしてみたいんだけど、
SDKか何か配布されてるわけ？
784 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 23:53:05.20 ]: hsa sdkでググるだけで公式ヒットしたけど、斜め読みではどうしろっていうのかはぶっちゃけよく分からんかったなあ
シミュまで提供されてるようで、興味はあれどもkaveri機を組んでまで遊ぶ気力もなく
785 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 00:35:12.84 ]: 書籍出してほしいなぁ。
786 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 14:00:02.54 ]: >>696

昔「計算が遅いからメモリでなんとかしよう」
今「メモリが遅いから計算でなんとかしよう」
将来「何通りか計算結果をあらかじめ予想しとこう」
787 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 20:12:09.63 ]: amdのapp sdk使えばかってにやってくれるでしょ
788 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 20:39:30.22 ]: ha?
789 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 22:09:53.32 ]: へ？
790 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 23:44:06.91 ]: amdのコンパイラ使えばメインメモリとGPUのメモリをシームレスにみてくれるってことだよ
そんなこともわからんのかバカちんが
791 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 23:48:39.83 ]: 予想の斜め下の返しきたなw
そらな、もしHSAでシームレスじゃなかったら吹くがな
792 名前：デフォルトの名無しさん mailto:sage [2014/03/06(木) 06:39:04.19 ]: dgpuじゃhsaは使えない

ナライラナイ
793 名前：デフォルトの名無しさん mailto:sage [2014/03/08(土) 06:28:48.56 ]: APUが、DDR3でもいいからクワッドアクセスすれば多少はましになる筈

DDR4や次世代になればさらにましになる
794 名前：デフォルトの名無しさん mailto:sage [2014/03/08(土) 06:39:39.30 ]: 750tiの方が面白いわ
795 名前：デフォルトの名無しさん mailto:sage [2014/03/15(土) 13:06:52.12 ID:M4J1N6EC]: devblogs.nvidia.com/parallelforall/cudacasts-episode-18-cuda-6-0-unified-memory/
CUDACasts Episode 18: CUDA 6.0 Unified Memory
796 名前：デフォルトの名無しさん mailto:sage [2014/03/19(水) 12:10:13.01 ID:6v1SjmcP]: DELLとかHPのWSについているTeslaは他のPCでやっぱり使えないのかな
797 名前：デフォルトの名無しさん mailto:sage [2014/03/19(水) 20:14:26.71 ID:PnfH7c65]: リモートデスクトップかsshdでいいじゃん（いいじゃん）

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef