【GPGPU】くだすれCUDAスレ part6【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 05/30 06:39 / Filesize : 210 KB / Number-of Response : 866
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2012/09/23(日) 23:17:47.58 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
toro.2ch.net/test/read.cgi/tech/1314104886/
669 名前：デフォルトの名無しさん mailto:sage [2014/02/02(日) 14:43:19.21 ]: 　　　　　　☆ ﾁﾝ　　　　　ﾏﾁｸﾀﾋﾞﾚﾀ～
　　　　　　　　　　　　　　　　　　　　　　　　ﾏﾁｸﾀﾋﾞﾚﾀ～
　　　　 ☆　ﾁﾝ　　〃　 ∧＿∧　　　／￣￣￣￣￣￣￣￣￣￣￣￣￣
　　　　　ヽ　＿＿_＼（＼・∀・）　＜　データまだ～？
　　　　　　＼＿／⊂　⊂＿ )　　＼＿＿＿＿＿＿＿＿＿＿＿＿＿
　　　　　／￣￣￣￣￣￣／|
　　　　　　　|￣￣￣￣￣￣￣|　 |
　　　　　　　|　 CPU・GPU　　|／
670 名前：デフォルトの名無しさん mailto:sage [2014/02/02(日) 14:56:23.47 ]: GPUはバス幅を狭くすることでコストダウンを図ってるんだから仕方ないな。

それこそ、バス幅求めるならベクトル計算機でも使えと。全レジスタに対して本当の同時操作が出来るぞ。
671 名前：デフォルトの名無しさん mailto:sage [2014/02/02(日) 15:07:43.13 ]: >>669
現状を表す最適なAA乙ｗ
672 名前：デフォルトの名無しさん mailto:sage [2014/02/02(日) 15:12:44.27 ]: このアンバランスな状態を解消できるのはプロセスルールが物理的限界に到達した後だろうな。
673 名前：デフォルトの名無しさん mailto:sage [2014/02/02(日) 15:20:27.01 ]: しかしその頃には光コンピュータが実用化されていたのだった……

速さが足りない！！
674 名前：デフォルトの名無しさん mailto:sage [2014/02/02(日) 15:40:48.83 ]: 俺が遅い・・・俺がスロウリィ?!
675 名前：デフォルトの名無しさん [2014/02/03(月) 04:25:07.11 ]: HOLY隊員のクーダーです
676 名前：デフォルトの名無しさん mailto:sage [2014/02/03(月) 15:22:21.17 ]: FFTぐらいしか応用が思いつかねぇ。
677 名前：デフォルトの名無しさん mailto:sage [2014/02/03(月) 18:10:49.48 ]: >>676
FFTに向いているなら自動的に円周率計算もバリバリなはずだが、ググっても
「円周率の小数点以下8000兆桁めをGeForceで求める方法」
(www.4gamer.net/games/120/G012093/20130323002/)
といった話ぐらいしか出てこねぇ……
678 名前：デフォルトの名無しさん mailto:sage [2014/02/03(月) 18:28:29.72 ]: 音声処理におけるFIRフィルタを想定してるぜ・・・。
679 名前：デフォルトの名無しさん mailto:sage [2014/02/03(月) 21:38:24.39 ]: 世間が持てはやすのがFLOPS値ばかりだから一向に帯域増える方向にいかんな
680 名前：デフォルトの名無しさん mailto:sage [2014/02/03(月) 22:19:44.58 ]: 帯域はコストが高く付くからな。

バランス取ろうと思ったら、途端に価格が跳ね上がる。
一般人じゃ手の届かない価格になるよ。
681 名前：デフォルトの名無しさん mailto:sage [2014/02/03(月) 22:47:08.60 ]: >>680
別にHPC用なら値段高くても買う奴いるじゃんか……
682 名前：デフォルトの名無しさん mailto:sage [2014/02/04(火) 07:24:40.49 ]: 普及してて値段が安いからGPGPUがもてはやされてるわけでさ。

値段が高くなればベクトル計算機のプロセッサをPC向けに販売して使ったほうが良いって。
683 名前：デフォルトの名無しさん mailto:sage [2014/02/04(火) 21:02:06.21 ]: >>669
わらった。
GPGPUの一般用途での最大の問題点はCPU<=>GPU間データ転送。一般用途ではそれを解消したAMDのAPUでHSAする方が良いからな
いくらGPUがすごくても、メモリ転送に時間掛かってはお手軽に使えないからな
684 名前：デフォルトの名無しさん mailto:sage [2014/02/04(火) 21:43:04.69 ]: kaveri出たらHSA酷使した絶賛ベンチが次々と出てnvidia叩きレスで溢れかえると思ったら思いのほか静かで不思議
685 名前：デフォルトの名無しさん mailto:sage [2014/02/04(火) 23:20:40.89 ]: >>683
データ転送せず極力内部で計算するようにしても結局GPU側の帯域で足引っ張られる
780Tiで単精度5.76Tflopsに対して330GB/sだから足回りが70倍も遅い
686 名前：デフォルトの名無しさん mailto:sage [2014/02/04(火) 23:27:45.03 ]: >>684
言い出しっぺの法則
>>685
だが待ってほしい
70倍遅いなら70倍転送せずに計算すればトントンではないだろうか
687 名前：デフォルトの名無しさん mailto:sage [2014/02/05(水) 00:00:22.86 ]: HSA使ってみたいんだけど、具体的にどうすればいいの？
VisualStudioで始められる？？
688 名前：デフォルトの名無しさん mailto:sage [2014/02/05(水) 02:10:41.38 ]: CPUGPU間の転送が足を引っ張ってるってイメージはないな
シェアードメモリやキャッシュ以外のVRAM・GPU間がただただ遅いのだ
689 名前：デフォルトの名無しさん mailto:sage [2014/02/05(水) 11:28:09.07 ]: レイテンシ？
690 名前：デフォルトの名無しさん mailto:sage [2014/02/05(水) 17:37:53.61 ]: 基本的にI/Oが遅いんだよ。
これが何とかなったらいいけど、何とかするとコストがかさむから一般向けでは無理。
691 名前：デフォルトの名無しさん mailto:sage [2014/02/05(水) 21:02:36.68 ]: 一般向=>一般向CUDA用途==スパコン
692 名前：デフォルトの名無しさん mailto:sage [2014/02/05(水) 21:49:04.57 ]: なぜそうなる。数十万でも買うのかよ。
693 名前：デフォルトの名無しさん mailto:sage [2014/02/06(木) 10:48:02.20 ]: 重ーい超越関数をバリバリ使う計算ならメモリ転送はさほど器にしなくて良いのでは。
694 名前：デフォルトの名無しさん mailto:sage [2014/02/06(木) 11:35:48.47 ]: 三角関数がそこそこ速いから最初に三角関数テーブルを作っておいて纏めて計算するんだけど、
キャッシュに乗らないとべらぼうに遅くなるw。
695 名前：デフォルトの名無しさん mailto:sage [2014/02/06(木) 23:35:46.17 ]: 今や、テーブルにしてメモリから読み出すよりも、
手前で計算で作ったほうが速いからなｗ
696 名前：デフォルトの名無しさん mailto:sage [2014/02/06(木) 23:44:44.46 ]: 昔「計算が遅いからメモリでなんとかしよう」
今「メモリが遅いから計算でなんとかしよう」
将来「？？？」
697 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 00:13:26.20 ]: PS3もちょうどその技術トレンドを読んで企画されたけど、ちょっと早漏すぎたな。
698 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 01:03:30.43 ]: >>689
VRAMのレイテンシは数百クロックもある上にピーク速度でも計算速度より何百倍も遅い
699 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 01:19:34.56 ]: >>697
早漏てw
そこは先駆者として評価してやっていいんじゃないの。十分出回ったしハード的にもソフト的にも注目されて、長めのゲーム機サイクルの中で研究されたんだからアーキテクチャとしては幸せな方でしょ

ソニーさんのビジネス的にどうだったのかは知らんけど
700 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 02:55:08.39 ]: >>698
え、マジで？
>>699
さすがに逆ザヤはNG
701 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 08:04:52.20 ]: サブプロセッサの性能は兎も角、メイン側が遅過ぎ。
メインとサブの間のメモリ空間も狭いし。
あれでよくゲームに活かせたと思うよ。
702 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:50:49.70 ]: >>694
三角関数テーブルって精度的にはどうなん?
多項式補間とかするの?
703 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:54:19.34 ]: 用途によるだろう
704 名前：デフォルトの名無しさん mailto:sage [2014/02/07(金) 23:57:35.92 ]: 多項式補間といっても奥が深くてだな……
単なるテイラー展開(途中打ち切り)とよく練られた多項式との差はダンチ

例：
cosx≒1-0.5x^2+0.04166666667x^4-0.00138888889x^6とすると
誤差はx＝±1までで2.4528×10^-5(テイラー展開)。しかし、
cosx≒0.99999981155-0.49999395279x^2
+0.04166666667x^4-0.00138888889x^6とすると
誤差はx＝±1までで2.4528×10^-5(テイラー展開)。しかし、
705 名前：704 mailto:sage [2014/02/08(土) 00:01:16.23 ]: 途中送信してしまったorz
テイラー展開→cosx≒1-0.5x^2+0.04166666667x^4-0.00138888889x^6で、x=±1までの最大誤差2.4528×10^-5
最良近似式→cosx≒0.99999981155-0.49999395279x^2+0.04163632912x^4-0.00134007047x^6で、x=±1までの最大誤差1.8845×10^-7
(出典：www.amazon.co.jp/dp/456301382X)
706 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 01:28:11.34 ]: >>702
私(>694)のところで使うのは周波数空間像の畳み込みだから、三角関数の引き数は格子上の点の距離。
なので、補間の必要もないの。ついでに、cufft相当も自前で実装した。
707 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 04:18:08.80 ]: テイラー展開とか教科書に載ってるだけで、
関数近似の方法としては、ほぼ実用されてねえよ
708 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 04:33:47.29 ]: >>705
URLが見つかりません
709 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 11:00:08.81 ]: 最大誤差が小さくても、cos(0)が0.99999981155になる関数なんて使いたくないな。
0みたいな重要点でおかしな値が出ると致命傷になることが多い。
710 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 11:17:17.06 ]: >>707
テイラー展開の誤差範囲の理論値が明確であるメリットは結構大きい
711 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 12:45:17.63 ]: >>708
URLの最後の)がいらない。
712 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 12:48:31.76 ]: スレ違いかもしらんが、
gccとかのソースを見れば超越関数の実装が分かったりするのかな。

>>708
URLの最後の)がいらない。
713 名前：デフォルトの名無しさん mailto:sage [2014/02/08(土) 16:15:49.24 ]: >>712
FPUがサポートしている超越関数はソースがないかもね。
iccならSSE版の並列演算用の超越関数が実装されているんだけど。
714 名前：デフォルトの名無しさん [2014/02/13(木) 18:24:19.21 ]: 質問です。CUDAを初めて使おうと思うのですが何を買っていいのかわかりません。
当方プログラマです。整数演算主体の力学シミュレータを自作しています。
その中にある絶望的に激重な評価関数が高速化できたらなぁと夢見ています。
その関数は同じデータセット（200キロバイトくらい）を、さまざまな初期値で評価するのですが、
条件分岐が殆ど発生しないアルゴリズムを発見しました。CUDA 向けなんじゃないかと使ったこともないのに妄想しております。
１回の評価計算そのものがめちゃくちゃ重い（単純に１００万回くらいループさせているだけ）で、
ループさせるプログラムそのものは数キロバイトも無いちっちゃなものです。
715 名前：デフォルトの名無しさん [2014/02/13(木) 18:26:36.46 ]: とりあえず今は手元にある Windows 7 64bits (チップセットはP55) に入れてお試しでCUDAプログラミングし、
C++で書いたシミュレータをCUDA対応に移植するところから始めたいとおもっています。
グラフィック出力を２本使いながらCUDAを使いたいのですが、私はどんなのを買ったらいいのでしょうか？
将来的には研究費をつぎ込むつもりですが、今は衝撃的に貧乏なので予算３万以内で。
716 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 18:39:59.33 ]: ＞グラフィック出力を２本使いながらCUDAを使いたいのですが
ここんとこ詳しく。あとPCも。
まあビデオカードを1枚買うか2枚買うかくらいの違いでしかないとは思うけど。
717 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 18:43:12.82 ]: >>714
CUDA積んでるGPUのリスト
https://developer.nvidia.com/cuda-gpus
この中から予算の許す限り良い奴を買えばいい

CUDA開発用のSDKは公開されてるから環境に合わせてインスコするんだ
https://developer.nvidia.com/cuda-toolkit

導入方法やサンプルコードはググるか>>1-2を参照

……もっとも釣りじゃなければの話だが
718 名前：デフォルトの名無しさん [2014/02/13(木) 19:14:47.30 ]: 早速レスが。有難うございます。

>>716 マザボは P7P55D ってので、PCI-Express 2.0 16X が２本あるのですが、
今はRadeon ２枚で４画面（1920x1200x2 と 1280x1024x2）出してます。
そのうちの片方を nvidia にしたいと考えてます。画面出力との併用って難しいでしょうか？

>>717 色々ありますよね・・・。今は技術の練習として試そうと思うのですが、
GTX 660 を選択しようかとおもってるのですが、それはやめとけ、こっちがいいよ、とかありますか？
719 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 19:26:36.61 ]: >>714
その目的なら、PC買う前にまず本当にCUDA向きなのか、
実際に自分がそのプログラムを組むことはできるか、
などをクラウドで実験してみてはどうだろうか

Amazon EC2
aws.amazon.com/jp/ec2/

1時間CUDAマシンを借りるのに1ドルもかからない。
720 名前：716 mailto:sage [2014/02/13(木) 22:54:51.79 ]: >>718
Radeon/Geforceの混在かぁ。ごめん俺はわからない。
1枚で画面出力とCUDA計算の併用自体はできる（長い間計算しっぱなしにせず、
ある程度の間隔で制御が戻るようにすれば。
計算しっぱなしでもタイムアウトしない範囲なら表示が完全に固まるわけではないし）。

GTX660でいいんじゃないかな。あるいはコスト抑えたいならもっと下でも。
ローエンドGPUでの実行時間がわかればCUDA Core数の比較で上位GPUにしたときの時間の見当もつくし。
あと2/18に28nmのMaxwell世代のGTX750が発売されるらしいという話もあるけど。
721 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 22:58:14.70 ]: >>719と同じくEC2を推す
高いグラボ買って大して高速化できませんでしたじゃ目も当てられない
722 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:16:31.67 ]: >>719 有難うございます。実は仰る話は第二段階として既に計画していました。
ここがクリアしたら第三段階として本格的な予算を投じて
大量のGPUインスタンスを使って計算するかもしれないです。

でもその前に第一段階として、CUDAにあわせてソースを書き換えたり、
必要に応じてアルゴリズムも修正しなくてはならないと考えており、
そのトライ＆エラーに例えば一ヶ月かかっちゃうなら安い奴を買ったほうがいいかな、
とりあえず３万円程度で使い倒してみようかな、と考えている次第です。
723 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:23:35.47 ]: >>721
そんな事情もあって3万円くらいで、なにがいいのかなと。
724 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:50:08.03 ]: しれっとアルゴリズムを発見したとか言うよねーｗ
725 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:51:06.60 ]: 連投すみません。 >>720 なるほどー。
最終的には256ビット幅でアルゴリズムを最適化するつもりだったので、
本当にメモリバスが256ビット幅なら、2/18まで待ってみようかな。

画面出力とCUDA計算の併用はそんなに心配しなくても良さそうなんですね。
Radeonとは、だめもとで混在させてみるつもりです。ありがとうございます。
726 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:54:53.63 ]: >>724
そんな言い方は野暮なんじゃね。何事も思いつきからでそ
失敗の責任を追うのは彼自身なんだしw
727 名前：デフォルトの名無しさん mailto:sage [2014/02/13(木) 23:57:20.97 ]: >>724
結構たいへんでしたよ？要約すると、とあるトポロジーのハッシュを計算する問題なのですが、
条件分岐だらけのソースを、ごり押しで全パターン計算させたほうが結果的に高速らしい、ということが判ったのです。
ただ、現時点では「高速らしい」という段階でしかなく、本当に早いんだということは実際にやって見せるしかない状態です。
728 名前：716 mailto:sage [2014/02/14(金) 00:42:20.93 ]: >>725
Maxwellについては2/18のは28nmのままだし本気出せるSDKもしばらく先だろうから
たぶん結局Kepler買うことになり待つ意味は薄いと思います。
ただ一応知っておいたほうがいいと思って言ってみただけで。

あと整数演算オンリーならFermiが効率いいかもしれないけど今更Fermiに
合わせて作るというのもなんかロマンがないんですよね…
729 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 01:15:43.13 ]: スレチになっちゃうけどRadeon積んでるならOpenCLで試せばいいような気が。
Radeonのほうが速いだろうし。
730 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 01:45:09.56 ]: OpenCLは尚更ロマンがないな
旬ならkaveriでHSAか？といっても所詮ミドルレンジAPUだしなあ
731 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 05:30:04.44 ]: もっと野暮なんだけど、たった百万回×二百KBの演算ならCPUでごり押しした方が速い肝酢。
732 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 07:03:57.86 ]: 整数演算ならRadeonのほうが数倍速いよ。
CUDAもOpenCLも対して変わらん。
733 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 07:06:11.60 ]: >>722
本当に真面目にEC2の価格と比較・検討してみたのか疑問なんだが。
1日24時間ぶっ通しで使うわけでもあるまい。

あと、CUDA用のコードがエラーなく意図どおりの計算結果を出すかどうかは、
CUDA対応グラボを使わなくてもデバイスエミュレーションモードで確認できる。
それで動くか確認してからEC2で計算速度を実験すれば、かなり費用を抑えられると思うぞ。

まぁ、これも単なるひとつの手段でしかないし、
グラボを買う目的がCUDAだけでない場合もあるだろうから、
これ以上EC2を押したりはしない。
734 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 07:33:44.94 ]: CUDA 6.0RC公開きた
https://developer.nvidia.com/rdp/cuda-60-rc-toolkit-download
735 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 11:21:51.56 ]: なんかCUDA excelとかあるな
736 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 15:42:58.52 ]: >>960
最近のなら
www.nicovideo.jp/watch/sm22874825
737 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 15:45:25.73 ]: 誤爆orz
738 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 19:32:15.90 ]: GPUは1スレッドあたりの速度はCPUの何百倍も遅い
最低でも32ブロック×数百スレッド以上の並列計算できるような問題でないと力を発揮できない
739 名前：デフォルトの名無しさん mailto:sage [2014/02/14(金) 22:12:19.68 ]: >>714
本当にCUDA初心者で、且つ上手く行った後に予算が着くなら
使い捨てにするつもりで1万5千円ぐらいの中古のGTX 580を
買ったほうがいいよ。下手なKeplerより速いし。
740 名前：デフォルトの名無しさん [2014/02/16(日) 17:30:13.79 ]: MAXWELL世代はL2キャッシュが大幅に増えるらしい。これはどういう効果を生むの？
videocardz.com/49557/exclusive-nvidia-maxwell-gm107-architecture-unveiled

GM107 L2 cache has 2MB. GK107's cache has 256KB.
741 名前：デフォルトの名無しさん mailto:sage [2014/02/16(日) 19:06:36.41 ]: というかキャッシュを増やさないと、
開き続けている演算能力とメモリ帯域のギャップがますます開いてしまう。
742 名前：デフォルトの名無しさん mailto:sage [2014/02/16(日) 20:26:20.43 ]: メモリ周りをチューニングしなくても
そこそこ性能がでる感じなのかな
743 名前：デフォルトの名無しさん mailto:sage [2014/02/17(月) 13:05:08.54 ]: いろんな変更があるんだろうけど
研究や論文あさってみると階層化されたスケジューラとレジスタファイルの相乗効果と思われる

ちょっと古いがこれがわかりやすいかも
www.cs.utexas.edu/users/mgebhart/papers/MICRO_Slides.pdf

www.cs.virginia.edu/~skadron/Papers/gebhart_tocs.pdf

L2は大型warpのプリフェッチに使われる予感
744 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 01:53:21.57 ]: CUDAの本でてた。
https://gihyo.jp/dp/ebook/2014/978-4-7741-6361-1
買わなくてもサンプルコード落とせた。
745 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 18:05:06.36 ]: Maxwellはkelperより速くなってるの？
Fermiのほうがいいという悲しいことになってない？
746 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 19:11:00.32 ]: CUDAって1PASSしか使えないけど、将来2PASS使えるようにならないのかね
CUDAエンコが速いなら、その速さを活かして2PASSでエンコしたいんだが
747 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 20:54:45.20 ]: 何のソフトの話だよ。そういうのは作者に言え。
748 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 21:20:39.06 ]: >>746
お前がCUDAで2PASSでエンコ作ればOKだろ

>>745
一般デスクトップ向けはGPGPUより素直にゲームに注力したほうが良いような気がするからな
749 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 21:37:41.19 ]: >>747
外人だから無理

>>748
ドライバがCUDAでの2PASSエンコに対応していない
だからどんなソフトでもCUDAで2PASSエンコは出来ない
750 名前：デフォルトの名無しさん mailto:sage [2014/02/22(土) 21:45:32.45 ]: ドライバが？なんか根本的な勘違いがありそうだな
それPureVideoの話じゃないの？

cudaに向いてるかどうかを別にすれば、マルチパスってのはストリームに対して複数回の処理を走らせる事を指す言葉に過ぎない。なのでドライバは関係無い
751 名前：デフォルトの名無しさん mailto:sage [2014/02/24(月) 13:03:48.10 ]: Starting LU Decomposition (CUDA Dynamic Parallelism)
GPU Device 0: "GeForce GTX 750 Ti" with compute capability 5.0

GPU device GeForce GTX 750 Ti has compute capabilities (SM 5.0)
Compute LU decomposition of a random 1024x1024 matrix using CUDA Dynamic Paralle
lism
Launching single task from device...
GPU perf(dgetrf)= 4.607 Gflops
Checking results... done
Tests suceeded
------------------------------------------------------------------------------
starting hyperQ...
GPU Device 0: "GeForce GTX 750 Ti" with compute capability 5.0

> Detected Compute SM 5.0 hardware with 5 multi-processors
Expected time for serial execution of 32 sets of kernels is between approx. 0.330s and 0.640s
Expected time for fully concurrent execution of 32 sets of kernels is approx. 0.020s
Measured time for sample = 0.053s

C:\ProgramData\NVIDIA Corporation\CUDA Samples\v6.0\Bin\win64\Release>
752 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 05:37:37.16 ]: これって750TiでもhyperQ,Dynamic Parallelism使えるってこと？
753 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 05:44:00.90 ]: yes
754 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 06:09:03.50 ]: そうか。すごいな。使うだけならGT640も使えるんだっけ？
755 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 09:50:04.54 ]: うん
756 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 11:18:45.60 ]: 公式みると750tiはCompute Capability3.0になってるけど使えるの？
640は3.5だから合ってるけど
757 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 12:14:54.40 ]: 750TiはCC5.0です
CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "GeForce GTX 750 Ti"
CUDA Driver Version / Runtime Version 6.0 / 6.0
CUDA Capability Major/Minor version number: 5.0
Total amount of global memory: 2048 MBytes (2147483648 bytes)
( 5) Multiprocessors, (128) CUDA Cores/MP: 640 CUDA Cores
GPU Clock rate: 1163 MHz (1.16 GHz)
Memory Clock rate: 2750 Mhz
Memory Bus Width: 128-bit
L2 Cache Size: 2097152 bytes
Maximum Texture Dimension Size (x,y,z) 1D=(65536), 2D=(65536, 65536),
3D=(4096, 4096, 4096)
Maximum Layered 1D Texture Size, (num) layers 1D=(16384), 2048 layers
Maximum Layered 2D Texture Size, (num) layers 2D=(16384, 16384), 2048 layers
Total amount of constant memory: 65536 bytes
Total amount of shared memory per block: 49152 bytes
Total number of registers available per block: 65536
Warp size: 32
Maximum number of threads per multiprocessor: 2048
Maximum number of threads per block: 1024
Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
Max dimension size of a grid size (x,y,z): (2147483647, 65535, 65535)
Maximum memory pitch: 2147483647 bytes
Texture alignment: 512 bytes
Concurrent copy and kernel execution: Yes with 1 copy engine(s)
Run time limit on kernels: Yes
Integrated GPU sharing Host Memory: No
758 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 12:35:53.56 ]: 公式が間違ってるってことか
安いし買ってみるかな
759 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 13:52:11.35 ]: ついでにここでやってた32bit integer bit shiftのスループットやってみたら
68とか半端な数字になった
けどkepler(GK110 tesla以外)の倍だねSMあたり
blogs.yahoo.co.jp/natto_heaven/32775349.html

Clock: 1163000 KHz, # of MPs: 5
Elapsed Time: 2774.579102 milliseconds
# of Threads: 1024, # of SHLs : 1099511627776
Throughput: 68.147981
760 名前：デフォルトの名無しさん mailto:sage [2014/02/26(水) 14:39:08.09 ]: https://devtalk.nvidia.com/default/topic/690631/cuda-programming-and-performance/so-whats-new-about-maxwell-/post/4127010/#4127010
https://devblogs.nvidia.com/parallelforall/5-things-you-should-know-about-new-maxwell-gpu-architecture/

shared が64KB使えるってか専用になったみたい
761 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 02:29:33.00 ]: >>748
OpenCL対応ソフトが地味に増えていってる状況でGPGPU性能削るとか自殺行為だろ
762 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 03:47:16.71 ]: GPGPU性能と言っても色々あるけどFermi→Keplerのときトータルでは削られたのでは。
2年前とはOpenCL/CUDAの対応状況が違うってことかね。
個人的にはMaxwellでGPGPU寄りに振ってくれると嬉しいんだけどね。
763 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 05:18:44.03 ]: >>759見ればkepler（３２）で削られてたbitshiftもtesla同様に64に増えてるし
どこをみてgpgpu削られてたって言ってるわけ
764 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 10:46:20.93 ]: keplerん時にゲーム向けチップから倍精度が削られた事くらいか
765 名前：762 mailto:sage [2014/03/02(日) 11:22:55.08 ]: >>763は俺に言ってるの？
766 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 14:07:18.50 ]: IDがないから誰が誰だかわからねーよw
767 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 15:31:43.89 ]: keplerは倍精度削り過ぎだろ。
fermi以下とか酷過ぎる。
768 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 15:52:36.88 ]: 気持ちは分かるが倍精度は単にGPUとして使いたい層には無意味どころか足引っ張る要素だしな
TITAN的な選択肢が今後も提供されるなら別に文句ないけどな
欲を言えば、もうちょい安い製品でも倍精度残したチップ用意してくれれば盤石かな
769 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 19:03:02.96 ]: FermiではTeslaの倍精度が単精度の1/2、GeForceではその1/4の1/8
KeplerではTeslaの倍精度が単精度の1/3、GeForceではその1/8の1/24

TeslaとGeForceの比率をKeplerでも1/4にするとか、
あるいはデフォでは1/8でもNVIDIAコントロールパネルで設定すると1/4
とか、そういう中間的な選択肢が欲しい。
770 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 19:39:04.95 ]: >>769
そういうの出したらtesla売れないから出さないよ。

俺は絶対性能は630や650クラスでいいから開発用にフルスペックのが欲しい
ECC, GPUDirect, TCCDriver, Hyper-Q, DPなどが使えるやつ。
できればTeslaのflops/B比等が同じで、そのまま倍数かければ
Teslaパフォーマンス特性がだいたい予測できるようなやつ。
771 名前：デフォルトの名無しさん mailto:sage [2014/03/02(日) 22:31:53.98 ]: >>770
それいいね。

あとは同じ価格帯のボードが新世代で性能が
落ちるってのがなければいいんだけれど。
772 名前：デフォルトの名無しさん mailto:sage [2014/03/03(月) 19:45:26.63 ]: >>768
ゲーム用VGAとGPGPU用ボードの２つを出せば良いんだよ
（VGAでたとえるなら、ゲーム用VGAのGFとプロ用VGAのQuadroみたいに)
ゲーム用にGPGPUを強化しても、ゲーマーにはあんまり価値がなく、そして爆熱になるだけし
まぁ、GPGPU用の値段はゲーム用よりだいぶ高くなるだろうが
773 名前：デフォルトの名無しさん mailto:sage [2014/03/03(月) 20:12:15.14 ]: >>772
それ現状のまま(GeForceとTesla)じゃね？
774 名前：デフォルトの名無しさん mailto:sage [2014/03/03(月) 21:21:49.23 ]: ワラタ
775 名前：デフォルトの名無しさん mailto:sage [2014/03/03(月) 21:27:12.11 ]: ロー･ミッドクラスVGA派生GPGPUはイラネで、今のteslaラインナップなんだろう
776 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 10:00:41.96 ]: 数年前までGPGPUは安いのが売りだったのに今じゃ高級品だもんなー。
そのうちIntelに負けるんじゃん。
777 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 19:25:35.73 ]: いまは、中GPGPU性能以下(低価格)でいいなら、AMDのHSA APUでって感じじゃない
メモリーコピーいらんでお手軽にGPGPUできそうだし
そして低GPGPU性能でいいならIntelのiGPUで良いやだろう
778 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 20:38:12.99 ]: いやぜんぜん
779 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 20:40:03.72 ]: 開発環境とトライバがだめだめで低シェアなAMDは論外
780 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 21:09:46.72 ]: Xeon Phiがどれだけ使い物になるかで状況が変わってくるだろうな。
781 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 21:15:20.73 ]: >>780
HPCシステムズ「ぶっちゃけ製品として尖り過ぎてて使いづらいんだよゴルァ！」
www.hpc.co.jp/benchmark20121113.html
↓
HPCシステムズ「まあ場合によってはコンパイルし直すだけで使える……かな？」
www.hpc.co.jp/benchmark20130409.html
782 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 21:46:24.18 ]: チューニングすればテレサと同じぐらいのレベルか
783 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 23:35:20.92 ]: つか、HSAでプログラミングしてみたいんだけど、
SDKか何か配布されてるわけ？
784 名前：デフォルトの名無しさん mailto:sage [2014/03/04(火) 23:53:05.20 ]: hsa sdkでググるだけで公式ヒットしたけど、斜め読みではどうしろっていうのかはぶっちゃけよく分からんかったなあ
シミュまで提供されてるようで、興味はあれどもkaveri機を組んでまで遊ぶ気力もなく
785 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 00:35:12.84 ]: 書籍出してほしいなぁ。
786 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 14:00:02.54 ]: >>696

昔「計算が遅いからメモリでなんとかしよう」
今「メモリが遅いから計算でなんとかしよう」
将来「何通りか計算結果をあらかじめ予想しとこう」
787 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 20:12:09.63 ]: amdのapp sdk使えばかってにやってくれるでしょ
788 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 20:39:30.22 ]: ha?
789 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 22:09:53.32 ]: へ？
790 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 23:44:06.91 ]: amdのコンパイラ使えばメインメモリとGPUのメモリをシームレスにみてくれるってことだよ
そんなこともわからんのかバカちんが
791 名前：デフォルトの名無しさん mailto:sage [2014/03/05(水) 23:48:39.83 ]: 予想の斜め下の返しきたなw
そらな、もしHSAでシームレスじゃなかったら吹くがな
792 名前：デフォルトの名無しさん mailto:sage [2014/03/06(木) 06:39:04.19 ]: dgpuじゃhsaは使えない

ナライラナイ
793 名前：デフォルトの名無しさん mailto:sage [2014/03/08(土) 06:28:48.56 ]: APUが、DDR3でもいいからクワッドアクセスすれば多少はましになる筈

DDR4や次世代になればさらにましになる
794 名前：デフォルトの名無しさん mailto:sage [2014/03/08(土) 06:39:39.30 ]: 750tiの方が面白いわ
795 名前：デフォルトの名無しさん mailto:sage [2014/03/15(土) 13:06:52.12 ID:M4J1N6EC]: devblogs.nvidia.com/parallelforall/cudacasts-episode-18-cuda-6-0-unified-memory/
CUDACasts Episode 18: CUDA 6.0 Unified Memory
796 名前：デフォルトの名無しさん mailto:sage [2014/03/19(水) 12:10:13.01 ID:6v1SjmcP]: DELLとかHPのWSについているTeslaは他のPCでやっぱり使えないのかな
797 名前：デフォルトの名無しさん mailto:sage [2014/03/19(水) 20:14:26.71 ID:PnfH7c65]: リモートデスクトップかsshdでいいじゃん（いいじゃん）
798 名前：デフォルトの名無しさん mailto:sage [2014/03/21(金) 17:28:21.60 ID:o3B7shKW]: >>796
つかえるだろ。
799 名前：796 mailto:hanage [2014/03/22(土) 13:50:01.60 ID:a7qFo8sx]: Quadroではロックされているとかで使えないと
聞いたので、teslaKもかな？と思った。
結局やめて違うの買った。

ドライバ当てただけでは機能はしないんだな、
これからCUDAインストールして勉強する。
800 名前：デフォルトの名無しさん mailto:sage [2014/03/23(日) 16:48:53.07 ID:cHhuAXVO]: >>799
今時そんな金のかかることはしない。
801 名前：デフォルトの名無しさん mailto:sage [2014/03/27(木) 00:14:27.49 ID:tCKsDtJy]: メモリ周りが多少良くなるみたいだね。
www.4gamer.net/games/251/G025177/20140326091/
802 名前：デフォルトの名無しさん mailto:sage [2014/03/27(木) 00:20:01.21 ID:wFte/jmz]: ありゃ、Maxwellの次はVoltaじゃなかったっけと思ったけどよく読んだらPascalが割り込む形か。
803 名前：デフォルトの名無しさん mailto:sage [2014/03/27(木) 00:44:33.58 ID:Csq19V+D]: PCでのGPGPUはHSAだからな
Nvはスパコンなんかの非PCでがんばるしかないよな
804 名前：デフォルトの名無しさん mailto:sage [2014/03/27(木) 11:19:08.87 ID:2lNl+T/o]: むしろHPCから組込みまで同じCUDAが使えますが
すでに
805 名前：デフォルトの名無しさん mailto:sage [2014/03/27(木) 20:42:05.46 ID:Mbz0VA5O]: PCはVGAレスが普通になってきているからね
わざわざVGAをつける奴ってゲーマーや業務のCAD関係する奴とかで
GPGPUのためにNvのVGAつける奴ってどれぐらいいるんだろ。
806 名前：デフォルトの名無しさん mailto:sage [2014/03/27(木) 20:58:44.66 ID:hvZ/Tb80]: >>805
あとVGAつけるのはエンコード目的とかでIntelのLGA2011を使用している奴とかかな
807 名前：デフォルトの名無しさん mailto:こいつめちゃおもろいsage [2014/03/27(木) 21:35:27.25 ID:FegESPkl]: 日本で一番Xeon Phiを無駄にしている系男子wとかもいるしな
808 名前：デフォルトの名無しさん mailto:sage [2014/03/28(金) 12:57:34.82 ID:TDRfQ9dS]: >>805
ﾉｼ
809 名前：デフォルトの名無しさん mailto:sage [2014/03/29(土) 16:39:32.17 ID:b7K/xNj3]: 世の中には面白い事考えるもんがおるのう

www.otb-japan.co.jp/dmpr/GPU/gpgpu-xeonPhi-E5-Hybrid.html
810 名前：デフォルトの名無しさん mailto:sage [2014/03/29(土) 16:44:00.72 ID:4Sjmsqlf]: こりゃ面白いな。
試してみたいｗ

ってかOpenACCってもうリリースされてるの？？
811 名前：デフォルトの名無しさん mailto:sage [2014/03/29(土) 23:56:49.50 ID:lTQLq19d]: >>809
やっべ、ちょっと欲しいなって思っちゃった
値段を見て熱は冷めた
812 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 00:00:27.97 ID:stl8pn1Y]: 値段ﾜﾛﾀｗ
813 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 00:12:47.34 ID:tTPtoH97]: >>812
むしろこの構成で高く付かない方がおかしいｗ
大雑把にはXeonで13万、Xeon Phiで37万、Taslaで39万掛かる感じ
（更に8x 4GB DDR3 1600 ECC Reg.で10万掛かってるけどな！）
814 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 00:31:08.95 ID:stl8pn1Y]: ひゃぁ～ｗ
815 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 02:22:44.74 ID:QNfBIqKl]: >>813
eBayとかだと自作の方が安くなりそうだな。
といってもtesla K20だけで20万はCUDAらない。
816 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 09:37:11.81 ID:stl8pn1Y]: じつにCUDAらん。
817 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 11:50:35.47 ID:tTPtoH97]: >>815
まあ超ハイスペックだと自作のほうが安くつくしな
ただ、Xeon Phiは一般販売されてなかった気がするんだが……
818 名前：デフォルトの名無しさん mailto:反エジソン陣営sage [2014/03/30(日) 15:11:23.08 ID:CQoCQWvX]: そうだったのか。
まあ買って、単純に付けるだけでは動かんからな。
セッティングがめんどくさそう。
ttp://www.sekaimon.com/i221402553263
819 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 18:21:35.60 ID:c0GW3Y/e]: >>817
アメリカだと通販で売ってるよ。
820 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 19:47:56.88 ID:/wxEDZQQ]: >>819
アメリカの金持ちPC自作erはPhiを使ってPC自作するからか
へたれ日本ではそんなことする奴いないだろからな
821 名前：デフォルトの名無しさん mailto:反エジソン陣営sage [2014/03/30(日) 21:20:53.45 ID:wRKHa685]: それPCやない、WSかHPCや!!
TITANの3wayに比べれば敷居低いと思う。
822 名前：デフォルトの名無しさん mailto:sage [2014/03/30(日) 23:10:13.83 ID:MguGVXnW]: 自作ショップで普通はおいてないだけで
注文だせは取り寄せできるんじゃない？
Teslaに比べてもニッチだろうから。
823 名前：デフォルトの名無しさん mailto:sage [2014/03/31(月) 00:35:49.63 ID:icX96Vv2]: インテルがばら売りを許していない少なくとも日本では
824 名前：デフォルトの名無しさん mailto:sage [2014/03/31(月) 01:26:50.30 ID:r13zbHe8]: へーそうだったのか。
まあコンパイラも追加で買わないといけないし、
そこそこの資金は要求されるから、そういうもんかもね。
825 名前：デフォルトの名無しさん mailto:sage [2014/03/31(月) 02:07:17.65 ID:oafVDW+W]: >>820
よりどりみどりだよ。
https://www.google.com/webhp#q=xeon+phi&tbm=shop
826 名前：デフォルトの名無しさん mailto:sage [2014/03/31(月) 02:42:33.40 ID:oafVDW+W]: >>825のリンク、勝手にwww.google.co.jpにリダイレクトされちゃうな。
827 名前：デフォルトの名無しさん mailto:sage [2014/03/31(月) 20:18:51.35 ID:6pmx6lUa]: 気が向いたらXeon Phiも付けてみたいよね。
これって現行の普通のi7だと厳しいのかね。
828 名前：デフォルトの名無しさん [2014/04/16(水) 08:25:39.12 ID:gbx/TG/2]: ブラボ4枚差しを今週には購入予定だが、cuda並列はむずかしいのかね？
おススメのＨＰか本はあるのかね
829 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 08:31:11.50 ID:1cVHCjMz]: きみらって皆採掘が目的なの？１０年やって元がとれるくらい？
830 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 09:10:52.39 ID:Im3wLyAK]: >>829
今から採掘に回るとかただの情弱じゃねーかｗ
単純にゲームとプログラミングのためだよ
831 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 11:53:39.91 ID:7M5hcjK/]: 6の正式版が出た
832 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 16:32:35.94 ID:oaV0pcFq]: >>828
The CUDA Hanbook に書いてあったかも。
CUDA by Exampleにもちょっとだけ書いてあったかも。
gtc-ondemandにもなんかあったような。
曖昧で申し訳ない。
833 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 19:54:40.11 ID:GTugkpJK]: 5000円以下ぐらいの適当な安いビデオカードって
CUDA使うぐらいならCPUで全部計算した方が速い感じなの？
例えば
AUS 210-SL-TC1GD3-L
とか
834 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 20:08:41.61 ID:3pKdyFk1]: 多分誰も答えてくれないと思います。
835 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 20:22:53.52 ID:Wy9kGQMK]: まずGPGPUの基本から勉強しましょう。
836 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 20:38:13.05 ID:Im3wLyAK]: >>833
一応CUDAコアは付いているようだな……＞AUS 210-SL-TC1GD3-L(GeForce 210)
www.nvidia.co.jp/object/product_geforce_210_jp.html
同じ「計算」でも、GPGPUが効く分野とそうじゃない分野があるけどな
837 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 21:36:19.29 ID:1cVHCjMz]: 同じ値段のCPUとGPUを比較した場合
500並列くらいまではCPUの方が勝ってるが10000並列だとGPUの方が圧倒的になる感じ。
838 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 21:43:51.00 ID:NtFft60O]: IntelがきっちりCPU向けに並列化したコードならxeonも速いよ、GPUメーカーの圧倒的数字は幻想だよせいぜい2倍だよ、みたいな主張をphiの宣伝時にやってて首を傾げたな
その理屈ならxeon倍積みましょう、って宣伝すりゃええやろと

結局、極端なオーダーではやっぱりGPUやphiの方が有利なケースがあるんだろうなと理解したけど
839 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 22:00:14.31 ID:Im3wLyAK]: 例の奴貼っておきますね。どうしても問題の性質や書き方やコンパイラに
依存する部分が大きいからな……
www.hpc.co.jp/benchmark20121113.html
www.hpc.co.jp/benchmark20130201.html
www.hpc.co.jp/benchmark20130329.html
840 名前：デフォルトの名無しさん mailto:sage [2014/04/16(水) 22:46:25.66 ID:3pKdyFk1]: やっぱこの人たちすごいな。
久々に見て回ったらK40の新機能のGPU Boostが他で使えるとか見つけてしまった。
水冷化してないけど試してみるか。
841 名前：デフォルトの名無しさん mailto:sage [2014/04/27(日) 14:27:08.90 ID:KCo2Uyz6]: cuda 6.0正式リリースきた
https://developer.nvidia.com/cuda-downloads
842 名前：デフォルトの名無しさん mailto:sage [2014/04/28(月) 03:07:08.53 ID:eSg57KtL]: もしかしなくても、
また面倒くさいことこの上ない初期設定をしないといけないのか。
インストールとVS2012で拡張子変えて保存するだけで動くようになって欲しいよ。
エラーがでると、どの設定がミスったのかバカには分からんのですよ。
843 名前：デフォルトの名無しさん mailto:sage [2014/04/28(月) 11:41:14.51 ID:eFT4bAhD]: >>842
自分が使ってるVSは2008 Pro SP1, 2010 Pro, 2012 Pro UP4 だけど、
CUDA Toolkit 入れた後、
新規プロジェクトなら「NVIDIA -> CUDA X.X」だけで、
既存のプロジェクトなら古いCUDA Tookkitと新しいのを両方入れて
プロジェクトを右クリックで「ビルドのカスタマイズ(B)...」すれば動くよ。
少なくとも CUDA Toolkit 4.x -> 5.0 -> 5.5 RC -> 5.5 -> 6.0RC -> 6.0 はこの方法でできた。
844 名前：デフォルトの名無しさん mailto:sage [2014/04/29(火) 07:51:06.18 ID:xH63q4tk]: >>843
VS ExpressだとNsight入らないんじゃない?
845 名前：デフォルトの名無しさん mailto:sage [2014/04/29(火) 21:03:18.01 ID:AVMxK0NV]: 大して変わってないくせに開発環境変えるなよな
846 名前：デフォルトの名無しさん mailto:sage [2014/05/03(土) 04:22:53.23 ID:qVaKcd2l]: これまで開発したプログラムをmaxwellアーキテクチャーで動作させるには
5.5までのtoolkitでptxを吐かせるのか、6.0に移行するしかない模様。
847 名前：デフォルトの名無しさん mailto:sage [2014/05/04(日) 16:05:09.46 ID:/x2IsFFD]: >>846
3月末に、カーネルを15種類連続実行するプログラムを、
CUDA Toolkit 5.5でFermi(CC=2.0/2.1)用コンパイルした物、
Kepler(CC=3.0/3.5)用にコンパイルした物、
CUDA Tooklit 6.0でMaxwell(CC=5.0)用にコンパイルした物の3つで、
GeForce 750 + NSIGHT Visual Studio Editonで「All」でプロファイル採ってみた。
いずれの場合も、ほとんど速度が変わらなかったよ。

だから、無理にMaxwell(CC=5.0)用にする必要は無いかも。
848 名前：デフォルトの名無しさん mailto:sage [2014/05/06(火) 20:16:14.86 ID:OXY1qxhv]: >>847
これ
docs.nvidia.com/cuda/maxwell-compatibility-guide/#axzz30vrhsMg6
は釣りってこと? Σ(-д -;)
849 名前：デフォルトの名無しさん mailto:sage [2014/05/07(水) 05:55:14.20 ID:OEkku2Ok]: >>848
>>846 で合ってると思う。
Gxx→FermiやFermi→Keplerのときも、
新アーキテクチャ非対応な古いToolkitで作ったcubinは使えなかったはず。
850 名前：デフォルトの名無しさん mailto:sage [2014/05/10(土) 00:08:49.78 ID:YhiaKf7O]: Jetson買った人いる？
851 名前：デフォルトの名無しさん mailto:sage [2014/05/10(土) 01:02:28.38 ID:sYRhNUSv]: Jetsonってなんだと思ってぐるぐるしたら、NvidiaのRasPiか
RasPiより性能大分良いんだろうが、でも、2万超えは高いな
852 名前：デフォルトの名無しさん mailto:sage [2014/05/10(土) 16:02:02.59 ID:p0Sddlo6]: 自動車用じゃん。スレチだろ
853 名前：デフォルトの名無しさん mailto:sage [2014/05/10(土) 20:33:48.55 ID:/nRhPCsz]: べつに限定されてはいない

組み込み用といだけ
854 名前：デフォルトの名無しさん mailto:sage [2014/05/12(月) 23:57:23.84 ID:LAs79Y1U]: この手の奴にBTデフォでついてんのみたことない
今後の組み込みの方向性的に必須なのに
855 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 00:15:45.25 ID:CSl2SJJR]: CUDA Tooklit を6.0にしたらGPU稼働率が下がったんだけど気のせい?
856 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 00:29:27.71 ID:Iv7eBFJt]: >>855
Ver変えたら能率が大きく違ったりするのはよくあることだからなあ……
857 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 01:44:04.16 ID:CSl2SJJR]: CUDA Tooklit を5.0から6.0にしたら
数値計算プログラムの挙動がおかしくなったorz
おんなじような事になった人いますか?
858 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 04:13:33.08 ID:CSl2SJJR]: 連投すんません。数値計算上の安定化を入れたら解決しました。
浮動少数演算の癖がこれまでと違うのかも・・・。
859 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 12:29:21.30 ID:pJVewP3A]: 安定化って何したんですか？
860 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 12:54:09.60 ID:X1Xq41se]: ja.wikipedia.org/wiki/%E6%95%B0%E5%80%A4%E7%9A%84%E5%AE%89%E5%AE%9A%E6%80%A7
861 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 14:08:06.19 ID:CSl2SJJR]: >>859
非線形最小二乗法のプログラムで、
一回の反復で更新する解の量を少し減らしたら安定しました。
CPUプログラムよりもGPUプログラムの場合に、
初期値からとんでもなく離れていってしまう場合が多いように感じます。
862 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 14:15:03.11 ID:CSl2SJJR]: >>859
en.wikipedia.org/wiki/Nelder%E2%80%93Mead_method
4. Expansion
のパラメータγを通常2とするところ、
1.9-2.0の間で初期値に応じて変化させるようにしました。
863 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 15:22:39.27 ID:pJVewP3A]: >>860-862
サンクス
誤差の拡大を抑えるってことなんですね
でもCUDAバージョンの違いで問題が出るってなんだろ？
へんな最適化がされてしまってるのかなあ
864 名前：デフォルトの名無しさん mailto:sage [2014/05/13(火) 20:36:41.53 ID:ckwx0yCj]: 演算の挙動が論理的に変わるような変更ってあったっけ？
865 名前：デフォルトの名無しさん mailto:sage [2014/05/17(土) 07:57:45.29 ID:jeRfV2R/]: developer.download.nvidia.com/compute/cuda/6_0/rel/docs/CUDA_6_Performance_Report.pdf

CUDA 6 Report

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef