【GPGPU】くだすれCUDAスレ part5【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 2chのread.cgiへ]
Update time : 05/18 03:52 / Filesize : 192 KB / Number-of Response : 722
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん [2011/08/23(火) 22:08:06.09 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
ttp://developer.nvidia.com/category/zone/cuda-zone

関連スレ
GPGPU#5
ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/

前スレ
【GPGPU】くだすれCUDAスレ【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/
【GPGPU】くだすれCUDAスレ pert2【NVIDIA】
ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/
【GPGPU】くだすれCUDAスレ pert3【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/
【GPGPU】くだすれCUDAスレ pert4【NVIDIA】
ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
549 名前：デフォルトの名無しさん mailto:sage [2012/03/15(木) 21:25:56.04 ]: >>548
・取り敢えずsyncしか使ってないけど問題になったことはない。
・全スレッドから共有メモリへの書き込みを行なうのは多分遅くなるんじゃないかな?
・どちらで書いても同じこと。普通のCPUのような分岐とは違うことを判っていればOK。
550 名前：548 mailto:sage [2012/03/15(木) 22:39:42.94 ]: >>549
ありがとうございます!!
一個目の_syncthreads()と__threadfence_block()の件ですが、
syncだけだと今日うまくいかなかったもので。
ただ他のバグの影響なども考えられるのでもうちょっと調べてみます。
551 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 04:06:36.41 ]: >>548
・__syncthreads()は__threadfence_block()相当の処理を
含んでいた気がするけど気のせいかも。

・全スレッドで同じメモリにアクセスするのはたとえfermiでも遅くなるはず。

・カーネル内部で_syncthreads()使う必要があるなら
　returnは使っちゃ駄目だろう。
552 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:10:45.37 ]: いまだにアプリ開発環境すらまともに構築できてない・・・
visual studio 2008でやろうと思って一応ビルドは通ったけど
実行するとまずcutil32.dllがありませんって出た。
次にcutil.dllをデバッグ.exeと同じフォルダに置き実行！！

CUDA version is insufficient for CUDART version.
ってなる・・・orz

まずなにからはじめるべきですか？
553 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:17:42.17 ]: ちなみに.cuの中身は拾ってきたちょっと複雑なコード

#include <stdio.h>
#include <cutil.h>

int main( int argc, char** argv )
{
CUT_DEVICE_INIT(argc, argv);
CUT_EXIT(argc, argv);
return 0;
}

・・・・・orz
#include <stdio.h>
#include <cutil.h>

int main( int argc, char** argv )
{
return 0;
}

これに書き換えると
プログラムが完成し、エラーもなく実行もできる
554 名前：デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:51:20.83 ]: GPUドライバのアップデート
555 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 01:39:06.58 ]: >>554
ありがとうございました！！！！！！！！！！
動いた！！！！！！！！
556 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 08:54:13.85 ]: おおｗ
よかったな！
557 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 12:49:24.04 ]: >LINK : /LTCG が指定されましたが、コードの生成は必要ありません。リンクコマンドラインから /LTCG を削除し、リンカの性能を改善してください。
と表示されるのですがリンクコマンドラインは固定されて編集できません。
解決方法はありますか？
558 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 13:37:04.85 ]: >>577
補足：
開発環境はVisualStudio2008
cuda ver 2.3
559 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 14:59:10.69 ]: windowsを窓から投げ捨てろ
560 名前：509 mailto:sage [2012/03/17(土) 15:16:23.02 ]: そんなことして道歩いてる人の頭に当たっちゃったら大変ですよ
561 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 15:44:28.84 ]: 角に当たったら痛そうだもんね・・・
562 名前：デフォルトの名無しさん mailto:sage [2012/03/17(土) 18:01:09.23 ]: >>557
リンカ -> 最適化 -> リンク時のコード生成 (/LTGG)
C/C++ -> 最適化 -> プログラム全体の最適化 (/GL)
Visual Studio 2008 の使い方なのでスレが違うかも。
563 名前：デフォルトの名無しさん mailto:sage [2012/03/18(日) 15:04:39.12 ]: >>562
ありがとうございます。

CUDA-Zの実行結果はどのように見たらいいですか？
日本のサイトが全然ないです。
564 名前：デフォルトの名無しさん mailto:sage [2012/03/18(日) 15:07:18.71 ]: >>563です
すみません。解決しました。
565 名前：デフォルトの名無しさん mailto:sage [2012/03/21(水) 21:06:39.97 ]: コンスタントメモリキャッシュへのアクセスはバンクコンフリクトとかないんでしょうか？？
566 名前：デフォルトの名無しさん mailto:sage [2012/03/21(水) 22:20:52.26 ]: >>565
そりゃキャッシュはバンクになってないからねー
567 名前：565 mailto:sage [2012/03/21(水) 22:44:39.32 ]: >>566
おお、やっぱり。
できるだけコンスタントメモリ使うようにしまつ。
568 名前：デフォルトの名無しさん mailto:sage [2012/03/21(水) 23:02:34.40 ]: アドレスが静的に解決できないというのが前提だけど
16ポートのSRAMなんてコスト的に不可能だからマルチバンク以外無いんじゃないの？
569 名前：デフォルトの名無しさん [2012/03/22(木) 00:27:08.40 ]: Fermi以前はコンスタントメモリ使う意味あったけど、
Fermi以降はL2キャッシュとあんまり変わらない印象
570 名前：デフォルトの名無しさん [2012/03/22(木) 22:48:01.36 ]: GTX680が発表されたけど、CUDA的には好ましくない方向の進化が多い。。
571 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:03:25.80 ]: チップ名　　　　　GTX 680　　　GTX 580
GPC*1　　　　　　4　　　　　　　　4
SM*2　　　　　　　8　　　　　　　　16
CUDAコア　　　1536　　　　　　　512
テクスチャーユニット　128　　　　64
ROPユニット　　　32　　　　　48
ベースクロック*3　　1.006GHz　　　772M/1.544GHz
ブーストクロック　　　1.058GHz　　－
メモリー転送レート　6.008Gbps　4.008Gbps
メモリー容量　　　GDDR5 2048MB　　GDDR5 1536MB
メモリーバス幅　　　256ビット　　384ビット
メモリー転送速度　192.26GB／秒　192.4GB／秒
製造プロセス　　　　28nm　　　40nm
補助電源端子　　　　6ピン×2　　8ピン＋6ピン
推奨電源ユニット出力　550W　600W
TDP*4　　　　　195W　　244W
572 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:06:16.47 ]: GK104はミドルレンジだからGK110は全体的に上回ってくるでしょ
573 名前：デフォルトの名無しさん [2012/03/22(木) 23:16:01.94 ]: 　　kepler誕生おめ！
　　　　　　　　　　.o゜*。o
　　　　　　　　　／⌒ヽ*゜*
　　　∧_∧　／ヽ　　）｡*o　　ｯﾊﾟ
　　 (・ω・)丿゛￣￣' ゜
.　ノ/　 /
　　ノ￣ゝ
574 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:21:31.67 ]: Keplerｷﾀ━━━━━━(ﾟ∀ﾟ)━━━━━━ !!!!!
575 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:22:01.12 ]: gen3じゃないんだっけ？
576 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:42:00.14 ]: >>570
もともとはミドルレンジでグラフィック向けだったから仕方ない気もする。
予想以上にグラフィック方面に舵を切ったという感はあるけど。

このままグラフィック向けとGPGPU向けで大きく分かれていくのではないかという心配はあるかな。
577 名前：デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:53:32.45 ]: 1SM = 192コアか。おっそろしいなあ。
578 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:00:34.24 ]: nVidia始まったな。
579 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:17:06.29 ]: >>577
warp の扱いどうなるんかな。。。
580 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:54:42.91 ]: >>579
ttp://pc.watch.impress.co.jp/docs/column/kaigai/20120322_520640.html
> 32スレッドのWARPに同じ命令を実行する、この基本は、Keplerでも変わっていない。
らしいから、変わらないんじゃないかな。

GF104/114のSMには48コアと2ワープスケジューラ、4ワープディスパッチャで
GK104のSMXには192コアと4ワープスケジューラ、8ワープディスパッチャになっている。

その上レジスタ数は倍、L1キャッシュ/シェアードメモリはそのままってことは
GF104/114よりさらにピーキーになっているのかな？
581 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 01:01:32.84 ]: >>580
あれ？
コンスタントキャッシュって無くなった？
L1/L2キャッシュがその役割を担ってる？
ということはFermiからか･･･
582 名前：デフォルトの名無しさん [2012/03/23(金) 01:06:15.11 ]: 48コアが192コアになったのに
レジスタは2倍、
共有メモリは据え置き。

どーすんだこれ。。
583 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 01:54:37.82 ]: レジスタ足りんくなりそうな。
584 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 04:09:37.63 ]: Keplerはクロック落としてパイプラインを浅くする設計

演算器のレイテンシが小さくなるならレジスタの消費量は変わらない
Fermiの18cycleは頭おかしすぎた
これが例えば6cycleにになればレイテンシ隠蔽に必要なスレッド数が1/3になるから問題ない
585 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 04:14:42.78 ]: x86 CPUと同じ道を辿ってるのか
586 名前：デフォルトの名無しさん [2012/03/23(金) 15:07:43.87 ]: 誰か２６次元計算してくれ、1000ｺｱくらいじゃマジに足らんぞｗ
587 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 15:59:10.59 ]: float a[1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1] = NULL;
*a += 1;
588 名前：デフォルトの名無しさん [2012/03/23(金) 17:47:27.55 ]: こんにちは
国際暗号学会のプレプリントサーバにこんな論文があがってました

Usable assembly language for GPUs: a success story
Daniel J. Bernstein, et. al.
eprint.iacr.org/2012/137

GPUのことはさっぱりわかりませんが、なにかこのスレの足しにでもなれば幸いです
それでは
589 名前：デフォルトの名無しさん mailto:sage [2012/03/23(金) 20:49:13.93 ]: >584
グローバルメモリアクセスのレイテンシ隠匿とか、ループが遅いとかの情報が頭にあったんで
今まで深く考えず1024スレッド突っ込んでたんだけど、
スレッド減らしてループ回すような構造にしたほうがいい、って解釈でいいんだろうか？
590 名前：デフォルトの名無しさん mailto:sage [2012/03/25(日) 02:00:59.95 ]: >>588
PTXよりもっとネイティブ寄りのアセンブラ言語qhasm-cudasmを使って
パフォーマンスクリティカルな場面で力を発揮(nvccの148％)するよ！って話かな？
暗号学会で発表されるんだね。
591 名前：デフォルトの名無しさん mailto:sage [2012/03/25(日) 20:09:00.66 ]: メモリアクセスに対する演算の比率を上げないと、性能をフルに発揮できないことは分かったんですが、
具体的にどれくらいの比まで高めるべきかの目標はどうやって決めればイイでしょうか？？
592 名前：デフォルトの名無しさん mailto:sage [2012/03/26(月) 10:43:34.08 ]: 理論性能（カタログ値）がでるまで頑張れば良いのでは？

それからグローバルメモリーのアクセス速度が，カタログ値の何％になっているのかも
チェックすべきだと思う．
593 名前：591 mailto:sage [2012/03/26(月) 18:59:54.70 ]: >>592
ありがとうございます！
やはり、

理論性能が出ない → ボトルネックを割り出して改善 → 先頭に戻る

のループで追い込んでいくやり方ですね。
594 名前：デフォルトの名無しさん mailto:sage [2012/03/27(火) 00:14:52.50 ]: 本を読んで、Visual Profilerを知ったのですが、
ひょっとして今はParallel Nsightで同じことができるでしょうか？
595 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 05:31:51.00 ]: GTX 680駄目すぎるわ
死んだ
596 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 06:40:03.41 ]: まだ未公開？
ttp://developer.download.nvidia.com/compute/cuda/4_2/rc/toolkit/cudatoolkit_4.2.6_win_64.msi
ttp://www.abload.de/img/desktop_2012_03_27_22wif3f.png
PTX ISA3.0
597 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 08:00:17.14 ]: warp shuffle
598 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:36:38.09 ]: VLIWの腐ったようなアーキテクチャになったくさいな
599 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:51:03.77 ]: どのへんが？
600 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:54:22.36 ]: 斜め読みしたうえで完全にESPだが
命令は各スロットごとに別という点でVLIWでデータパスはSIMDみたいに独立とみた
ソフトウェア的にはもちろん別スレッドとして書けるみたいな
全然違ったらごめんね
601 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 13:35:57.98 ]: いやPTXレベルの命令だから全然関係ないね
>>598-600は忘れてくれ
602 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 21:20:01.15 ]: やっぱりGCNと同じでshuffle入れてきたな。
603 名前：デフォルトの名無しさん mailto:sage [2012/03/28(水) 22:40:28.29 ]: CUDA C Programming Guide Version 4.2
74p.
Table 5-1. Throughput of Native Arithmetic Instructions (Operations per Clock Cycle per Multiprocessor)
いろいろやばすぎるな。
604 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 11:33:59.98 ]: >>589
いまさらだが
物理レジスタが足りてるなら同時に多数スレッドを保持しておけるが
複雑なカーネルだとレジスタは不足しがち
605 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 12:27:07.17 ]: >604があるから時として64ビットアドレッシングより32ビットアドレッシングの方が有利なんだよね。
606 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 18:48:17.20 ]: Visual studio2010、CUDA4.1、Windows7 64bitではじめようと思ったんだけど、ネットで拾ったプログラムとか動かすとcutil_inline.hが見つからないって出る。
これってどうすればいいの？
607 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 19:47:51.42 ]: >>606
GPU Computing SDKをインストールしてパスを通す
608 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/03/29(木) 22:36:38.83 ]: スレタイがイイね。
くだすれくーだすれｗ
609 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/06(金) 21:14:51.29 ]: なんでGPGPUはみんな同じようなアプリしかつくらないん？
想像力が欠如してるから他人の猿真似ばかりしてんの？

GTX680の性能を生かすアプリ教えろ
610 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/06(金) 21:37:23.28 ]: >>609
邪魔
611 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/06(金) 22:02:22.54 ]: わりぃなぁ。そんじょそこらにはないアプリ作っているんだが公表できないんだわ。
612 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/06(金) 22:56:59.64 ]: 恥ずかしいやつが湧いたな
613 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 01:09:23.67 ]: >>609
BOINCでもやってな
なんぼぶん回しても次から次へ宿題出してくれるから
614 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 10:44:11.21 ]: 数値流体力学シンポジウムにでも参加すれば良いぞ♪
615 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 19:20:32.56 ]: 公表できないと言ってるけど、どうせCUDA ZONEに登録されてるようなものだろ？
外人の真似と負け惜しみしかできないの？

素人だからよくわからないけど、欧米に対して技術面で遅れているから
この分野で日本に有名な人がいないでしょ？
自称一流の教授に俺の書き込み見せてあげて
616 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 23:56:42.42 ]: だから数値流体力学シンポジウムにでも参加すれば？

この分野では例えば東京工大の青木先生が有名だが
617 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 23:57:49.78 ]: ちなみに 615
618 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/07(土) 23:58:19.73 ]: あれ？

ちなみに６１５は大学生か？？
619 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 00:08:49.21 ]: 大学生なら，物理や力学関係の学会に参加すれば，GPGPUを使った
シミュレーションの研究結果が報告されていることがわかるはず♪

高卒なら縁はないが．．．
620 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 00:11:11.59 ]: 大学生がこんな幼稚な文章書いてたら日本終っちまうぞｗ
621 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 09:03:46.81 ]: GTX480である程度大きなサイズをホストからデバイスに転送するのに3回に2回ぐらいセグメンテーションエラーで落ちる。
うまく行くとなんの問題もなく実行できる。
デバイス側でメモリ確保ができてないみたいなんだが、こんなもんなのかね？
622 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 09:17:09.30 ]: そのカードでモニターを表示させているとか？
623 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 12:09:14.45 ]: ケプラーの倍精度計算は速くなったの？
それとも以前と同じ？
624 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 12:27:33.01 ]: HPC向けがでてみないと分からんけど
GTX680じゃSPに対して1/24だよ
625 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 15:32:40.75 ]: www.tml.tkk.fi/~timo/HPG2009/
レイトレは最適化するとスペックなりのパフォーマンスだな680
626 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 20:11:08.50 ]: >>622
表示させている。
それがダメなのかな？
627 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/08(日) 21:17:10.19 ]: ２枚さして，一枚はディスプレイ用
もう一枚は演算用にしないと，一枚では負荷に耐えられないのでは？
628 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 00:35:51.46 ]: みんなすごいね
せいぜい準備して
九九の掛け算一括処理くらいしかできないよ
629 名前：営利利用に関するLR審議中＠詳細は自治スレへ [2012/04/10(火) 00:59:53.96 ]: CUDAを学ぼうとするからそうなるんだと思うよ。
何か問題があって、それをCUDAで解こう！って始めた方が早く習得できる。
630 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 16:05:07.35 ]: >>624
それって今までよりも遅いってこと？
どこかに倍精度のベンチマークの比較はありませんか？
631 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 16:47:44.33 ]: 今研究室でGTX680か580のどっちかを買おうって話になってるんだけど
CUDA的にはどっちがいいと思う？
一任されて困ってる・・・
632 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 17:43:14.82 ]: floatかdoubleか。
あと整数演算も遅くなったらしい。
テスラ売るためとはいえ、なんかいやーんな感じ
633 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 18:28:46.60 ]: > 631

両方買う．

が，テスラの方が安定していると聞いているよ（速度は若干GTXより落ちるが）
634 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 18:32:30.11 ]: >>631
迷わず580かと。

680はレジスタとか整数演算・論理演算のスループットとか色々と問題になりそう。
それに最新の正式版Toolkit 4.1のプログラミングガイド見てもKepler載っていないし・・・

>>632
グラフィック性能のワットパフォーマンスを上げるためというのが一番じゃないかな。
635 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 19:03:34.66 ]: >>631
勉強用に1枚2枚買うって話ならGTX580だろうね。
１．資料がぜんぜん揃ってないKeplerを今買ってもしょうがない。
２．GPGPUとしての性能がGTX580のほうが「上」
（完全上位互換というわけではないし処理にもよるしスペック上FLOPSでは負けてはいるが）

GTX680のグラフィック・GPGPU性能を調べる ≪ dokumaru
dokumaru.wordpress.com/2012/03/27/gtx680-spec/

10数枚買って研究室全体に大量導入…なら先生が決めるよね。
両方買ってもいい。でもそれならKeplerは対応するToolkitが出てからでも遅くはないかと。
あるいは一刻一秒を争うならなおさらKeplerは冒険かと。
636 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/10(火) 20:08:49.43 ]: 今はまだ早いGK110をまて
5月にイベントあるから、そこでなんかあるかも
637 名前：営利利用に関するLR審議中＠詳細は自治スレへ mailto:sage [2012/04/11(水) 16:27:30.42 ]: Teslaはメモリ容量が良いよね
GTXだと計算領域が足りないよ・・・
638 名前：デフォルトの名無しさん [2012/04/11(水) 23:21:32.32 ]: FLOPS/MBで見ると、Teslaでも全然足りない。
639 名前：デフォルトの名無しさん mailto:sage [2012/04/12(木) 07:21:34.36 ]: 何の計算？？
640 名前：デフォルトの名無しさん [2012/04/13(金) 04:19:22.20 ]: 倍精度計算が主なのですが、Ivyと680と580、どれがコストパフォーマンス的にお薦めですか？
641 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 09:48:41.62 ]: IvyはCUDA動かないよ。
642 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:12:31.27 ]: 言語の問題じゃなくて、プログラムはこれから作るから倍精度計算をわんさかやろうと思うんだけどどれがいいかなあ？
程度の話じゃないかと。
643 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:17:18.06 ]: そういうことか。
超並列に対応できるのであればGPUのほうがイイね。
644 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:27:10.68 ]: えっ！？
ここCUDAのスレだよね？

てか、Ocelotとかどうなのかな。
645 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 12:45:42.72 ]: 倍精度計算が中心なら、CPUで最適化するのが一番。
例えば近似計算のようにGPUの単精度で近づけてから、
CPUの倍精度で収束させるとかならありだけど。
646 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 16:13:12.61 ]: cuda zoneがメンテナス中・・・
647 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 17:11:45.77 ]: toolkit4.2が来るのかな
648 名前：デフォルトの名無しさん mailto:sage [2012/04/13(金) 18:28:30.79 ]: >>640
GPU用の倍精度プログラムを書く気があるならTeslaにしとけ。
コストが厳しいならRadeonの最上位にしとけ。
649 名前：デフォルトの名無しさん mailto:sage [2012/04/14(土) 01:50:49.98 ]: sdk 4.1とtoolkit 4.1インストールしたんだけど
アンインストールせずにそのまま
sdk 2.3とtoolkit２．３をインストールしたらコンパイルやリンクの挙動とかおかしくなりますか？

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef