【GPGPU】くだすれCUDAスレ part6【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 05/30 06:39 / Filesize : 210 KB / Number-of Response : 866
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2012/09/23(日) 23:17:47.58 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
【GPGPU】くだすれCUDAスレ part5【NVIDIA】
toro.2ch.net/test/read.cgi/tech/1314104886/
21 名前：デフォルトの名無しさん mailto:sage [2012/10/09(火) 00:35:20.42 ]: テクスチャフィルレートが相当すると言えなくもないけど、フォーマットによって変わるから参考にしかならない
概算はTex数×コアクロック（シェーダクロックではない）で見積もれる

テクスチャメモリを使うとテクスチャキャッシュを通るから、汎用のキャッシュがない上にコアレスアクセスの条件が厳しいG80～GT21xでは有効だった
Fermiはテクスチャユニット数の比率が減らされた上に、テクスチャキャッシュより汎用キャッシュの方が大容量になったので、むしろ遅くなることもあった
完全に予想だが、Keplerは（線形補間やテクスチャ端の丸め処理を手動でやる必要がなければ）おそらくテクスチャメモリを使っても使わなくてもそんなに変わらない
22 名前：17 mailto:sage [2012/10/09(火) 00:40:24.46 ]: >>20
そのGPUは最新世代のKeplerアーキテクチャだね。

Keplerの前のFermi世代からはメモリ階層が大きく改変されて、
テクスチャ転送に最適化された上りのパスがなくなった。

pc.watch.impress.co.jp/img/pcw/docs/359/423/06.jpg

依然としてテクスチャL1キャッシュを利用できるメリットはあるけどね。

いずれにせよ、内部バスがどれくらいの帯域であるかは公開されていないと思うよ。
クロスバスイッチ接続で調停しながらでもあるから、ちゃんとした数字も出せないだろうし。
Fermiからはキャッシュが噛むようになったから、なおさら。

仮定と実測の両輪でうまく最適化して詰めていくことが醍醐味だろうね。
面倒だけど･･･ｗ
まぁ、ハード屋やってると、こういうのは楽しい。

フィルレートはグラフィックスにおいて、画像の画素を埋めていく（フィル）する速さのことだから、
グラフィックス処理用のROPユニットの能力が影響してくると思うし、あまり参考にはならないかもね。

www.nvidia.com/content/PDF/product-comparison/Product-Comparison-Quadro-mobile-series.pdf

しかし、このGPU、CUDAコア数に対してメモリ帯域が残念すぎないか？
Keplerアーキ自体が以前と比べてそういう傾向あるけど、それにしてもヒドイｗ
キャッシュがあるから大丈夫なんかな？
どうであれ、演算/ロード比が相当大きくないと性能出すの難しいかもね。
23 名前：デフォルトの名無しさん mailto:sage [2012/10/09(火) 19:04:03.29 ]: >>21
> 概算はTex数×コアクロック（シェーダクロックではない）で見積もれる

ありがとうございます。

Tex数というのはテクスチャユニットの数ですかね。
今自分のチップにどれくらいの数が乗ってるか調べてます。

>>22
> しかし、このGPU、CUDAコア数に対してメモリ帯域が残念すぎないか？
> Keplerアーキ自体が以前と比べてそういう傾向あるけど、それにしてもヒドイｗ

そうなんですか。
ThinkPad で CUDA 使えるイイ奴といったらこれしかなかったもので。

> どうであれ、演算/ロード比が相当大きくないと性能出すの難しいかもね。

がんばります。
24 名前：デフォルトの名無しさん mailto:sage [2012/10/12(金) 16:08:53.39 ]: PTXでブロックまたがってすべてのスレッドでグローバルメモリの同期やりたい時ってmembar.glでいいんだよね多分。
25 名前：デフォルトの名無しさん mailto:sage [2012/10/13(土) 23:43:36.29 ]: ホスト側のコードだけを書いた cu ファイルと、
デバイス側のコードだけを書いた ptx ファイルとをリンクして
ひとつの exe ファイルを作る方法はあるでしょうか。

もしあれば、やり方を教えてください。
26 名前：デフォルトの名無しさん [2012/10/14(日) 00:10:02.48 ]: >>25
ホスト側が面倒になるけどDriver APIとか
27 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 01:00:51.58 ]: >>26
やはりそれしかないですか・・・
28 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 01:04:08.72 ]: なんでそんなことをしたいのかが気になる。
29 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 01:52:04.34 ]: >>28
ptx のアセンブラコードを理解する必要がでてきました。
「PTX: Parallel Thread Execution ISA Version 2.3」のPDFは読んでますが、
やはり実際にアセンブラコードを書いたりして実験しないと難しいです。

そこで、nvcc が cu ファイルに書かれたカーネル関数を、
どのようなアセンブラコードにコンパイルするのか、
そのアセンブラコードに変更を施したら結果はどのように変わるか、
などの実験をいろいろやっています。

今はカーネル関数が書かれた cu ファイルを nvcc で ptx ファイルにコンパイルし、
ホスト側で Driver API を使ってそれをロードして実行しています。

ptx ファイルを多少いじるだけなら再コンパイルの必要は無く、
また cu ファイルを多少いじるだけでも、こちらの再コンパイルだけで済みます。
しかしカーネル関数の引数を変えたり、使うデータを変えたりするなら、
ホスト側のコードも供に再コンパイルする必要があり、手間がかかります。
実験が数回くらいならいいですが、何回もやってるとけっこう面倒です。

nvcc host.cpp dev.ptx などと一気にコンパイルできたらさぞ快適だろうなと思い、
質問した次第です。
30 名前：デフォルトの名無しさん [2012/10/14(日) 01:55:27.84 ]: Makefile
31 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 02:04:07.01 ]: >>30
あぁ、そっちでコンパイルするファイルやコンパイル方法を制御するわけですね。

挑戦してみます。
32 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 04:55:38.24 ]: PTXのコードをインラインアセンブラを使って直接cuファイルの
中にかけばいいじゃん。
33 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 09:11:24.52 ]: >>32
知りませんでした。
「NVIDIA CUDA C Programming Guide Version 4.2」を「inline」で検索してみましたが、
__noinline__ や __forceinline__ の記述しかなかったです。
どこに詳細が載っているのでしょうか。

他にも、ptx のコードを cu ファイル内に書くのでしたら、
文字列として書いた ptx コードの先頭アドレスを適当な変数に入れて、
cuModuleLoadData 関数でロードすることでも実現できますね。

ただ問題は、それだと C 言語で書いたカーネル関数が、
nvcc によってどのような ctx コードにコンパイルされるか、
という部分が調べられない事です。
34 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 09:16:31.85 ]: >>33
つ developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/Using_Inline_PTX_Assembly_In_CUDA.pdf

試してないけど、nvccが出力したPTXのコードをインラインアセンブラの形式で
書き換えることも出来るんじゃない?
35 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 09:35:03.51 ]: >>34
ありがとうございます。
なんというか、少々独特のインラインアセンブラ構文ですね。

今の環境より実験がやりやすくなるか調べてみます。
36 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 14:53:23.16 ]: >>35
GCCのインラインアセンブリ構文がこういうのだよ
37 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 15:28:15.65 ]: >>36
d.hatena.ne.jp/wocota/20090628/1246188338
これ見ると、たしかに同じですね。

インラインアセンブラはその昔 VC++ でしか使ったことがなかったもので
38 名前：デフォルトの名無しさん mailto:sage [2012/10/14(日) 20:42:43.14 ]: インラインアセンブラは今回の目的には合いませんでした。

インラインアセンブラ自体は問題なく使えて、なかなか面白いのですが、
nvcc で出力した ptx のコードをそのままインラインにしたのでは使えず、
けっこうな修正を余儀なくされます。

なかなか慣れないこともあって作業量はむしろ増えてしまうので、
今回は make を使ってやる方向でがんばってみます。
（こちらだと、今までの延長線上の考え方で何とかいけるので）

みなさん、ありがとうございました。
39 名前：デフォルトの名無しさん mailto:sage [2012/10/16(火) 07:24:30.85 ]: CUDA5で美味しい事あるの？
40 名前：デフォルトの名無しさん mailto:sage [2012/10/16(火) 07:37:48.25 ]: >>39
新機能を使わないんだったら全然美味しくない。
CUDA5でビルドしたらかなり遅くなった。
41 名前：デフォルトの名無しさん [2012/10/16(火) 09:54:43.52 ]: CUDA 5 Production Release Now Available
CUDA Downloads | NVIDIA Developer Zone
developer.nvidia.com/cuda/cuda-downloads
42 名前：デフォルトの名無しさん mailto:sage [2012/10/16(火) 22:33:51.56 ]: 早く５の報告しやがれ
43 名前：デフォルトの名無しさん mailto:sage [2012/10/17(水) 03:16:50.02 ]: 4Gamer.net ― NVIDIA，「CUDA 5」を正式発表。第2世代Kepler「GK110」に向けた準備が整う
www.4gamer.net/games/076/G007660/20121016013/
44 名前：デフォルトの名無しさん mailto:sage [2012/10/17(水) 08:26:25.67 ]: >>42
普通に動いてるよ。
45 名前：デフォルトの名無しさん mailto:sage [2012/10/17(水) 23:16:16.73 ]: >>43
Nsightはプロファイラーも付いてるのか。
こりゃいい。
46 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 10:47:37.44 ]: >>43
読んでみたけど
これはGeＦｏｒｃｅ切り捨てってこと？

今まで十分遊んだろ
これからはまともにGPGPUしたかったら、金出してTesla買えや
ていう風に読める
47 名前：やんやん ◆yanyan72E. mailto:sage [2012/10/18(木) 12:03:55.32 ]: それは、Kepler発表の時からゲーム用のKepler1と
GPGPU向けのKepler2があるってことになってた。
Kepler1があまりにGPGPUに向いてなくてGeforce680あたりを
買った人はがっかりしてたよ。
48 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 12:23:14.57 ]: >>43
Eclipse用のNsightも出てLinuxやMacでも開発しやすくなるのは大きいかも。

>>46
Dynamic ParallelismはGK110以降での対応でMaxwell世代ではコンシューマ向けでも対応するのでは？
GPUDirectはクラスタ向けの機能で差別化されても仕方ない気がする。
49 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 15:18:50.07 ]: >>47
ゲーマーにGPGPUっていらんだろうからな
要らないのを付けて高い値段･高消費電力になって売れないものになるなら削れだろ
CUDAする奴はとんがったことする奴だろ。そんな奴ならKepler2のTeslaぐらい買うだろうからな
買えない貧乏人はAMDのradeonに移行しろだな
50 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 19:01:56.13 ]: Mac はどうか知らんが、Linux は Windows 版に比べて、
どうしてもドライバのチューニングが徹底されていない感じがする。

SDK 内のサンプルを動かしてみても、
Windows 上で動かしたときより明らかにフレーム数が落ちる。
51 名前：やんやん ◆yanyan72E. mailto:sage [2012/10/18(木) 19:34:39.18 ]: そりゃ、いくらDRIが実装されたからといってX11なんていう
太古のグラフィックAPI使ってるんだから、そんなもんじゃないの？
本気を出させたければWayland待ち。
52 名前：デフォルトの名無しさん mailto:sage [2012/10/18(木) 19:55:50.80 ]: >>51
遅いのはCUDAじゃなくて、その結果を表示する
グラフィックスライブラリの方ってこと？

確かに、フレーム数が低いと分かって時点で Linux パーティション消したから、
グラフィックスを伴わない純粋な計算で比較したことはないなぁ

今度ためしてみよ
53 名前：やんやん ◆yanyan72E. mailto:sage [2012/10/18(木) 22:37:06.54 ]: フレーム数計る時点で、グラフィックカードに描画させてるんだよね？
その描画をグラフィックス・ライブラリが足引っぱってるんじゃないかってこと
CUDA自身はプログラムをGPGPU用のアセンブリ言語に変えて
GPGPUに実行させるだけだから、あまり差が出るとは考えにくい。
54 名前：デフォルトの名無しさん mailto:sage [2012/10/19(金) 00:22:17.74 ]: そう言えば Yellow Dog Linux for CUDA 使ってる人いる？
どんな感じなの？
55 名前：デフォルトの名無しさん mailto:sage [2012/10/19(金) 12:39:47.00 ]: Linuxなら、GUI止めないとカーネルによっては処理速度ががた落ちする。
使えるGVRAMも激減する。
56 名前：デフォルトの名無しさん mailto:sage [2012/10/19(金) 19:37:02.47 ]: CUDA + GUIつっても、サンプルでXが関わるところなんてウィンドウの枠だけじゃないか？
あとはOpenGLで描画されていると思うが
57 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 00:42:13.70 ]: >>55
Windowsのほうがガタ落ちだし、使えるメモリも少ない。
グラフィックスを使うと遅くなるのはXの問題だから。
58 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 16:27:41.31 ]: dynamic parallelism は GeForce じゃ無理なんですか
59 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 17:35:11.22 ]: うん。
60 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 17:41:18.83 ]: 調べたなかではＧＤＲＡＭのみのように見えるんだけど、
テスラだとＬ１、Ｌ２、シェアードメモリもＥＣＣ保護されてるの？
それともＬ１、Ｌ２くらいの容量なら気にしなくてもいいのかな？
61 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 20:24:55.79 ]: レジスタも。
62 名前：デフォルトの名無しさん mailto:sage [2012/10/20(土) 20:47:40.75 ]: >>58
今のところTesla K20のみだったはず
63 名前：デフォルトの名無しさん mailto:sage [2012/10/22(月) 20:36:15.81 ]: 一般人向けは2014年まで待てとか遅すぎる
64 名前：デフォルトの名無しさん mailto:sage [2012/10/22(月) 21:06:37.69 ]: GK110はいつになったら一般向けで出てくるのやら…
65 名前：デフォルトの名無しさん mailto:sage [2012/10/22(月) 23:32:49.15 ]: >>64
ないと思うのは俺だけか
66 名前：デフォルトの名無しさん mailto:sage [2012/10/22(月) 23:35:31.31 ]: >>65
gtx780とかじゃないか？
来年の春だった気がする。
67 名前：デフォルトの名無しさん mailto:sage [2012/10/23(火) 04:53:17.04 ]: GTX 780はKepler1の改良版だって聞いたぞ。
68 名前：デフォルトの名無しさん mailto:sage [2012/10/23(火) 08:47:20.31 ]: 一般人向けでダイナミックなんちゃらが使えるのはMaxwellからとか

AMDが2013年中に簡単にOpenCL対応アプリをかけるようにしてきたらどうするんだろ
69 名前：デフォルトの名無しさん mailto:sage [2012/10/23(火) 16:30:26.65 ]: NVIDIA Visual Profiler v4.2をCentos6.2で使おうとしてるんだけど、

No Timeline
Application timeline is required for the analysis.

と出て解析できない。
調べたらLD_LIBRARY_PATHに/usr/local/cuda/lib64やらを追加せよとあったんでやってみたけど状況変わらず。
どなたか同様な症状に出くわした方はいらっしゃいませんか？
70 名前：デフォルトの名無しさん mailto:sage [2012/10/23(火) 22:26:20.49 ]: >>69
CUDAプログラミングはまだまだ敷居が高いね･･･
71 名前：デフォルトの名無しさん mailto:sage [2012/10/24(水) 10:52:47.74 ]: nvcc ***.cu -O2 -Xcompiler -O2
のようにO2を重ねるのは無意味ですか？
前者のO2はGPU用，後者のO2はCPU用と勝手に思っていたんですが，
同じ事を繰り返しているような気がしてきました．
72 名前：デフォルトの名無しさん mailto:sage [2012/10/24(水) 12:32:18.86 ]: >>71
意味があるのか、どのような意味があるのかまでは分からんが、
とりあえず、「同じ事を繰り返しているのかどうか」については、
出力されたファイルを比較すれば直ぐに分かると思うぞ。

バイナリで比較してもいいし、アセンブラコードで比較してもいい。
73 名前：71 mailto:sage [2012/10/24(水) 13:25:43.83 ]: ptxで２つある場合，前者のみ，後者のみ，両方無い場合を比較しましたが，
冒頭の***.iファイルの名前が微かに違うのみで差はありませんでした．
両方消しても差が出ないのは？ですが，
重ねても意味は無さそうであることが分かりました．

>>71
ありがとうございました．
74 名前：デフォルトの名無しさん mailto:sage [2012/10/24(水) 14:43:07.65 ]: >>73
今のgccのディフォルトが-O2相当なんで、書かなくても変わらないのはその所為。
試しに、-O3とか-O1との組み合わせを試してみたら?
75 名前：デフォルトの名無しさん [2012/10/25(木) 04:28:58.35 ]: 登録ユーザーサイトが復旧したよ
76 名前：デフォルトの名無しさん mailto:sage [2012/10/25(木) 21:42:51.21 ]: k20はやっぱり高いな。
38万だそうだ。
20万切ってくれないと買えない。
77 名前：デフォルトの名無しさん mailto:sage [2012/10/27(土) 22:36:10.01 ]: dynamic parallelism対応のGeforce（GTX8XX?)が出たら
画像とか動画を扱うソフトは瞬く間にCUDA完全対応になるのかね?
78 名前：デフォルトの名無しさん mailto:sage [2012/10/28(日) 00:23:20.16 ]: んなわけない
79 名前：デフォルトの名無しさん mailto:sage [2012/10/28(日) 00:40:32.58 ]: dynamic parallelismができるからCUDAが劇的に簡単になるわけじゃないから。
Reductionとかで効果はあるけど。
80 名前：デフォルトの名無しさん mailto:sage [2012/10/28(日) 03:58:28.19 ]: そもそもReductionはマルチパスにしないで
2パスで済ませた方がいいのは、
CUDAのreductionトレーニングでも明らか
81 名前：デフォルトの名無しさん mailto:sage [2012/10/29(月) 13:40:34.37 ]: CUDAのプログラム作って動かしたいです
自分のMacbookは、グラフィックのチップがIntel GMA X3100なんですけど、
NVIDIAじゃないとCUDAは使えないんですか？
82 名前：デフォルトの名無しさん mailto:sage [2012/10/29(月) 15:35:40.18 ]: ここで聞いて良いのか分からないので、不適切なら誘導お願いします。

GeForceの省電力の状態(P0～P12)をGetLastInputInfo-GetTickCountに
応じて切り替えるようなソフトを作りたいのですが、
P0～P12を切り替えるAPI関数はありませんか?
83 名前：デフォルトの名無しさん mailto:sage [2012/10/29(月) 18:51:19.74 ]: NVAPIをhackすればできる
84 名前：デフォルトの名無しさん mailto:sage [2012/10/31(水) 14:40:39.17 ]: CUDAカーネルの中で呼び出す関数に特定の処理を入れるとカーネル自体が読み込まれなくなります
具体的にはプロファイラで実行時間見てみるとカーネル自体が表示されず、一瞬で動作終了する状況です
一応、その特定の処理の部分をコメントアウトするときちんと実行されます（当然正しい結果は出ませんが）
こういったことはどういう状況で起こり得るのでしょうか？
85 名前：デフォルトの名無しさん mailto:sage [2012/10/31(水) 14:43:09.18 ]: >>84
カーネル呼び出した時にエラーが起きてるんでしょ。
エラーチェックしていないんじゃないの?
86 名前：デフォルトの名無しさん mailto:sage [2012/10/31(水) 14:54:52.27 ]: >>84
cudaGetLastError()は何と言っている?
87 名前：デフォルトの名無しさん mailto:sage [2012/10/31(水) 14:58:04.91 ]: >>85
即レスありがとうございます
正にその通りでした。単にメモリの要求量がおかしかっただけみたいです
初歩的すぎるミスに自己嫌悪…
88 名前：デフォルトの名無しさん [2012/10/31(水) 16:49:46.93 ]: NVIDIAR Nsight? Visual Studio Edition 3.0 CUDA Preview
Nsight Visual Studio Edition Early Access | NVIDIA Developer Zone
https://developer.nvidia.com/rdp/nsight-visual-studio-edition-early-access
89 名前：デフォルトの名無しさん [2012/11/03(土) 02:08:23.38 ]: Nvidia Geforce forum is back from the dead
www.fudzilla.com/home/item/29337-nvidia-geforce-forum-is-back-from-the-dead
90 名前：デフォルトの名無しさん mailto:sage [2012/11/07(水) 15:17:37.33 ]: CRS形式の行列格納サンプルコードってどこかにない？
91 名前：デフォルトの名無しさん mailto:sage [2012/11/07(水) 15:59:46.17 ]: いくらでもあるだろ
圧縮方法を理解できたらサンプルもいらんな

1 2 3 4
2 5 6 7
3 6 8 9
4 7 9 10
92 名前：デフォルトの名無しさん mailto:sage [2012/11/08(木) 02:56:28.41 ]: >>91
圧縮方法はわかったんですがコードに上手く起こすことができなくて困っていたんです。何かいいサンプルがあれば教えていただけると助かります。
93 名前：デフォルトの名無しさん mailto:sage [2012/11/08(木) 10:51:49.85 ]: 馬鹿には無理。
94 名前：デフォルトの名無しさん [2012/11/12(月) 06:21:00.64 ]: CUDA5は既存のGPUに入れると遅くなるの？
95 名前：デフォルトの名無しさん mailto:sage [2012/11/12(月) 14:32:24.27 ]: 研究室でCUDA用にGTX680搭載PCの導入が決定してしまったんだが評判悪いとはいえ流石に今使ってる560Tiよりは性能いいよね？
96 名前：デフォルトの名無しさん mailto:sage [2012/11/12(月) 23:48:40.00 ]: Tesla K20きたぞ
97 名前：95 mailto:sage [2012/11/13(火) 01:28:48.03 ]: >>96
予算処理上の都合だったらしい。
98 名前：デフォルトの名無しさん mailto:sage [2012/11/13(火) 03:25:03.66 ]: 最近プログラム入門した
CUDAとか聞くとワクワクするけど物理の知識も科学の知識も特にないので
数百万スレッド並列で処理するネタが思いつけなくて悲しい思いになる
もっとちゃんと勉強しておけば良かった
99 名前：デフォルトの名無しさん mailto:sage [2012/11/13(火) 05:46:01.18 ]: 京が3位に
100 名前：デフォルトの名無しさん [2012/11/13(火) 06:14:28.20 ]: 東工大の学生たちはもうGK110貰ってるの？
101 名前：デフォルトの名無しさん mailto:sage [2012/11/13(火) 23:01:28.72 ]: Intelがついに来るぞ
pc.watch.impress.co.jp/docs/news/20121113_572526.html

ソースの改変が少しでパラレル計算ができるとのことだが、実際の所どうなんだろうね。
102 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 00:25:44.33 ]: >>101
nVIDIAが押されて、もうちっと貧乏客を引き込むマーケティングをやってくれんかな。

一般のビデオカードで定格の80%までクロックを公式に落とせかつその速度なら
GPGPUの動作を保証。
これを是非やってほしい。仲がよいベンダーがいくつかあるし。
103 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 16:56:20.91 ]: 開発環境やソフトウェアの安定性とか含めて、XeonPhi強そうだなぁ
104 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 18:03:25.42 ]: XeonPhiは高いぞ
安いGPUは安い
Tesla買うならXeonPhiのほうがよさそうだが
105 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 19:32:13.13 ]: 半年ぐらいしたら、$500くらいのローエンドXeon Phiが出るだろうから、純粋にアクセラレータとしてのteslaは厳しいかもなあ。
106 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 20:08:20.86 ]: Phi触ってみてぇ。
OpenMPで簡単マルチコアプログラミング♪

スレッドオーバーヘッドが小さいことを願う･･･
107 名前：デフォルトの名無しさん [2012/11/14(水) 20:25:15.46 ]: SSEとかAVXみたいなのをちゃんと使える人じゃないと
TESLAのような性能はでないよ。
512bit演算命令が命だから。

ただのロジックを複数スレッド回したい人なら、
TESLAより速いかもね。かなりの無駄だが(笑)
108 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 20:30:01.47 ]: 512bit演算命令ってのがあるのか？
AVXでも256bitだが・・・
109 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 20:32:10.61 ]: VPUてので512ビット命令を処理するようだな
110 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 20:33:10.12 ]: ま、経験上はベクトル命令はCUDAよりは扱いやすいよ
111 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 20:37:54.55 ]: うん、イントリンシックでベクトリ処理書くの楽♪
条件分岐がめんどいけど、LNIはマスクレジスタをサポートしてたからだいぶ楽に書けそう。
しかも512bitもあるなんて最高すぐる。

あー、Phi触りてぇ～。
112 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 21:32:04.73 ]: OEM向け1000個ロットでXeon Phi 5110Pが2650ドル
らすぃ
なんか価格でもTeslaやばそうだな

Intel，スーパーコンピュータ向けアクセラレータ「Xeon Phi 5110P」発表。60基のx86コアを1チップ上に集積
ttp://www.4gamer.net/games/049/G004963/20121111001/
113 名前：デフォルトの名無しさん [2012/11/14(水) 21:33:53.30 ]: むしろ値下げ合戦になればよい。
114 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 21:47:31.12 ]: 合戦になるほど数競争起きる市場でもないべ
115 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 21:53:57.69 ]: CUDAの強み：先行者利益、CUDAが一応動く環境が多め、設計製造がGPUと共用なので低コスト
Xeon Phiの強み：たぶん使いやすさ

って感じだと思う。HPCを本気でやる人たちはXeon Phiのほうに目がいくんじゃないかな。
Xeon Phiはそれはそれで制約があるんだろうけど、CUDAよりは融通が利きそうだから。

Geforce持ってるしCUDAで遊ぶのはいいけどXeon Phi買うとかありえんわっていう一般人としては、
KeplerはあきらめるとしてMaxwellで再びFermi並にGeforceにもGPGPUの機能を盛り込んでほしいと思う。

しかしFermiのときにNVIDIAはCUDA使いの増殖とCUDAアプリの誕生の期待をこめて
Fermiにもそれなりに機能を持たせたんだと思う。しかし今後CUDAをうまく活用するアプリが
HPC以外で出てくるかというと、結構諦めモードなんじゃないかと。
つまりMaxwellもGeforce製品はGPGPU捨ててくるんちゃうかと。
つまりCUDA使いのおまいらがんばってくださいおながいします
116 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 21:56:39.37 ]: 長文の上に間違えてーらorz
Fermiにもそれなりに機能を持たせたんだと思う→Geforceにもそれなりに機能を持たせたんだと思う
117 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 22:59:58.87 ]: >>115
nVIDIAの株を空売りすれば儲かるということか。
118 名前：デフォルトの名無しさん mailto:sage [2012/11/14(水) 23:57:37.97 ]: phiはCPUに内蔵させるGPUコアと共通化させて
コスト落としつつマーケットシエア取る作戦かな？

そしたら、本気でnVidia終わるな
119 名前：デフォルトの名無しさん mailto:sage [2012/11/15(木) 00:11:23.74 ]: >>112
Phi、扱い易そうだな。
ベクタ演算器処理の記述法が気になるとこだし、
nVidiaがアセンブラのように複雑ってディスってたけど、
イントリンシック記述だったら簡単だし、
条件分岐のマスクまでサポートしてくれたら文句なしだ。

これ、マジで触ってみたいな。
120 名前：デフォルトの名無しさん mailto:sage [2012/11/15(木) 04:26:43.84 ]: CUDAは開発環境タダだけどXeon PhiはIntel Compiler必須だよね
121 名前：デフォルトの名無しさん mailto:sage [2012/11/15(木) 05:55:49.56 ]: ものいりだねえ、 Phi

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef