1 名前:デフォルトの名無しさん [2011/08/23(火) 22:08:06.09 ] このスレッドは、他のスレッドでは書き込めない超低レベル、 もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。 CUDA使いが優しくコメントを返しますが、 お礼はCUDAの布教と初心者の救済をお願いします。 CUDA・HomePage ttp://developer.nvidia.com/category/zone/cuda-zone 関連スレ GPGPU#5 ttp://hibari.2ch.net/test/read.cgi/tech/1281876470/ 前スレ 【GPGPU】くだすれCUDAスレ【NVIDIA】 ttp://pc12.2ch.net/test/read.cgi/tech/1206152032/ 【GPGPU】くだすれCUDAスレ pert2【NVIDIA】 ttp://pc12.2ch.net/test/read.cgi/tech/1254997777/ 【GPGPU】くだすれCUDAスレ pert3【NVIDIA】 ttp://hibari.2ch.net/test/read.cgi/tech/1271587710/ 【GPGPU】くだすれCUDAスレ pert4【NVIDIA】 ttp://hibari.2ch.net/test/read.cgi/tech/1291467433/
549 名前:デフォルトの名無しさん mailto:sage [2012/03/15(木) 21:25:56.04 ] >>548 ・取り敢えずsyncしか使ってないけど問題になったことはない。 ・全スレッドから共有メモリへの書き込みを行なうのは多分遅くなるんじゃないかな? ・どちらで書いても同じこと。普通のCPUのような分岐とは違うことを判っていればOK。
550 名前:548 mailto:sage [2012/03/15(木) 22:39:42.94 ] >>549 ありがとうございます!! 一個目の_syncthreads()と__threadfence_block()の件ですが、 syncだけだと今日うまくいかなかったもので。 ただ他のバグの影響なども考えられるのでもうちょっと調べてみます。
551 名前:デフォルトの名無しさん mailto:sage [2012/03/16(金) 04:06:36.41 ] >>548 ・__syncthreads()は__threadfence_block()相当の処理を 含んでいた気がするけど気のせいかも。 ・全スレッドで同じメモリにアクセスするのはたとえfermiでも遅くなるはず。 ・カーネル内部で_syncthreads()使う必要があるなら returnは使っちゃ駄目だろう。
552 名前:デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:10:45.37 ] いまだにアプリ開発環境すらまともに構築できてない・・・ visual studio 2008でやろうと思って一応ビルドは通ったけど 実行するとまずcutil32.dllがありませんって出た。 次にcutil.dllをデバッグ.exeと同じフォルダに置き実行!! CUDA version is insufficient for CUDART version. ってなる・・・orz まずなにからはじめるべきですか?
553 名前:デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:17:42.17 ] ちなみに.cuの中身は拾ってきたちょっと複雑なコード #include <stdio.h> #include <cutil.h> int main( int argc, char** argv ) { CUT_DEVICE_INIT(argc, argv); CUT_EXIT(argc, argv); return 0; } ・・・・・orz #include <stdio.h> #include <cutil.h> int main( int argc, char** argv ) { return 0; } これに書き換えると プログラムが完成し、エラーもなく実行もできる
554 名前:デフォルトの名無しさん mailto:sage [2012/03/16(金) 20:51:20.83 ] GPUドライバのアップデート
555 名前:デフォルトの名無しさん mailto:sage [2012/03/17(土) 01:39:06.58 ] >>554 ありがとうございました!!!!!!!!!! 動いた!!!!!!!!
556 名前:デフォルトの名無しさん mailto:sage [2012/03/17(土) 08:54:13.85 ] おおw よかったな!
557 名前:デフォルトの名無しさん mailto:sage [2012/03/17(土) 12:49:24.04 ] >LINK : /LTCG が指定されましたが、コードの生成は必要ありません。リンク コマンド ラインから /LTCG を削除し、リンカの性能を改善してください。 と表示されるのですがリンク コマンド ラインは固定されて編集できません。 解決方法はありますか?
558 名前:デフォルトの名無しさん mailto:sage [2012/03/17(土) 13:37:04.85 ] >>577 補足: 開発環境はVisualStudio2008 cuda ver 2.3
559 名前:デフォルトの名無しさん mailto:sage [2012/03/17(土) 14:59:10.69 ] windowsを窓から投げ捨てろ
560 名前:509 mailto:sage [2012/03/17(土) 15:16:23.02 ] そんなことして道歩いてる人の頭に当たっちゃったら大変ですよ
561 名前:デフォルトの名無しさん mailto:sage [2012/03/17(土) 15:44:28.84 ] 角に当たったら痛そうだもんね・・・
562 名前:デフォルトの名無しさん mailto:sage [2012/03/17(土) 18:01:09.23 ] >>557 リンカ -> 最適化 -> リンク時のコード生成 (/LTGG) C/C++ -> 最適化 -> プログラム全体の最適化 (/GL) Visual Studio 2008 の使い方なのでスレが違うかも。
563 名前:デフォルトの名無しさん mailto:sage [2012/03/18(日) 15:04:39.12 ] >>562 ありがとうございます。 CUDA-Zの実行結果はどのように見たらいいですか? 日本のサイトが全然ないです。
564 名前:デフォルトの名無しさん mailto:sage [2012/03/18(日) 15:07:18.71 ] >>563 です すみません。解決しました。
565 名前:デフォルトの名無しさん mailto:sage [2012/03/21(水) 21:06:39.97 ] コンスタントメモリキャッシュへのアクセスはバンクコンフリクトとかないんでしょうか??
566 名前:デフォルトの名無しさん mailto:sage [2012/03/21(水) 22:20:52.26 ] >>565 そりゃキャッシュはバンクになってないからねー
567 名前:565 mailto:sage [2012/03/21(水) 22:44:39.32 ] >>566 おお、やっぱり。 できるだけコンスタントメモリ使うようにしまつ。
568 名前:デフォルトの名無しさん mailto:sage [2012/03/21(水) 23:02:34.40 ] アドレスが静的に解決できないというのが前提だけど 16ポートのSRAMなんてコスト的に不可能だからマルチバンク以外無いんじゃないの?
569 名前:デフォルトの名無しさん [2012/03/22(木) 00:27:08.40 ] Fermi以前はコンスタントメモリ使う意味あったけど、 Fermi以降はL2キャッシュとあんまり変わらない印象
570 名前:デフォルトの名無しさん [2012/03/22(木) 22:48:01.36 ] GTX680が発表されたけど、CUDA的には好ましくない方向の進化が多い。。
571 名前:デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:03:25.80 ] チップ名 GTX 680 GTX 580 GPC*1 4 4 SM*2 8 16 CUDAコア 1536 512 テクスチャーユニット 128 64 ROPユニット 32 48 ベースクロック*3 1.006GHz 772M/1.544GHz ブーストクロック 1.058GHz − メモリー転送レート 6.008Gbps 4.008Gbps メモリー容量 GDDR5 2048MB GDDR5 1536MB メモリーバス幅 256ビット 384ビット メモリー転送速度 192.26GB/秒 192.4GB/秒 製造プロセス 28nm 40nm 補助電源端子 6ピン×2 8ピン+6ピン 推奨電源ユニット出力 550W 600W TDP*4 195W 244W
572 名前:デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:06:16.47 ] GK104はミドルレンジだからGK110は全体的に上回ってくるでしょ
573 名前:デフォルトの名無しさん [2012/03/22(木) 23:16:01.94 ] kepler誕生おめ! .o゜*。o /⌒ヽ*゜* ∧_∧ /ヽ )。*o ッパ (・ω・)丿゛ ̄ ̄' ゜ . ノ/ / ノ ̄ゝ
574 名前:デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:21:31.67 ] Keplerキタ━━━━━━(゚∀゚)━━━━━━ !!!!!
575 名前:デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:22:01.12 ] gen3じゃないんだっけ?
576 名前:デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:42:00.14 ] >>570 もともとはミドルレンジでグラフィック向けだったから仕方ない気もする。 予想以上にグラフィック方面に舵を切ったという感はあるけど。 このままグラフィック向けとGPGPU向けで大きく分かれていくのではないかという心配はあるかな。
577 名前:デフォルトの名無しさん mailto:sage [2012/03/22(木) 23:53:32.45 ] 1SM = 192コアか。おっそろしいなあ。
578 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:00:34.24 ] nVidia始まったな。
579 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:17:06.29 ] >>577 warp の扱いどうなるんかな。。。
580 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 00:54:42.91 ] >>579 ttp://pc.watch.impress.co.jp/docs/column/kaigai/20120322_520640.html > 32スレッドのWARPに同じ命令を実行する、この基本は、Keplerでも変わっていない。 らしいから、変わらないんじゃないかな。 GF104/114のSMには48コアと2ワープスケジューラ、4ワープディスパッチャで GK104のSMXには192コアと4ワープスケジューラ、8ワープディスパッチャになっている。 その上レジスタ数は倍、L1キャッシュ/シェアードメモリはそのままってことは GF104/114よりさらにピーキーになっているのかな?
581 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 01:01:32.84 ] >>580 あれ? コンスタントキャッシュって無くなった? L1/L2キャッシュがその役割を担ってる? ということはFermiからか・・・
582 名前:デフォルトの名無しさん [2012/03/23(金) 01:06:15.11 ] 48コアが192コアになったのに レジスタは2倍、 共有メモリは据え置き。 どーすんだこれ。。
583 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 01:54:37.82 ] レジスタ足りんくなりそうな。
584 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 04:09:37.63 ] Keplerはクロック落としてパイプラインを浅くする設計 演算器のレイテンシが小さくなるならレジスタの消費量は変わらない Fermiの18cycleは頭おかしすぎた これが例えば6cycleにになればレイテンシ隠蔽に必要なスレッド数が1/3になるから問題ない
585 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 04:14:42.78 ] x86 CPUと同じ道を辿ってるのか
586 名前:デフォルトの名無しさん [2012/03/23(金) 15:07:43.87 ] 誰か26次元計算してくれ、1000コアくらいじゃマジに足らんぞw
587 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 15:59:10.59 ] float a[1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1][1] = NULL; *a += 1;
588 名前:デフォルトの名無しさん [2012/03/23(金) 17:47:27.55 ] こんにちは 国際暗号学会のプレプリントサーバにこんな論文があがってました Usable assembly language for GPUs: a success story Daniel J. Bernstein, et. al. eprint.iacr.org/2012/137 GPUのことはさっぱりわかりませんが、なにかこのスレの足しにでもなれば幸いです それでは
589 名前:デフォルトの名無しさん mailto:sage [2012/03/23(金) 20:49:13.93 ] >584 グローバルメモリアクセスのレイテンシ隠匿とか、ループが遅いとかの情報が頭にあったんで 今まで深く考えず1024スレッド突っ込んでたんだけど、 スレッド減らしてループ回すような構造にしたほうがいい、って解釈でいいんだろうか?
590 名前:デフォルトの名無しさん mailto:sage [2012/03/25(日) 02:00:59.95 ] >>588 PTXよりもっとネイティブ寄りのアセンブラ言語qhasm-cudasmを使って パフォーマンスクリティカルな場面で力を発揮(nvccの148%)するよ!って話かな? 暗号学会で発表されるんだね。
591 名前:デフォルトの名無しさん mailto:sage [2012/03/25(日) 20:09:00.66 ] メモリアクセスに対する演算の比率を上げないと、性能をフルに発揮できないことは分かったんですが、 具体的にどれくらいの比まで高めるべきかの目標はどうやって決めればイイでしょうか??
592 名前:デフォルトの名無しさん mailto:sage [2012/03/26(月) 10:43:34.08 ] 理論性能(カタログ値)がでるまで頑張れば良いのでは? それからグローバルメモリーのアクセス速度が,カタログ値の何%になっているのかも チェックすべきだと思う.
593 名前:591 mailto:sage [2012/03/26(月) 18:59:54.70 ] >>592 ありがとうございます! やはり、 理論性能が出ない → ボトルネックを割り出して改善 → 先頭に戻る のループで追い込んでいくやり方ですね。
594 名前:デフォルトの名無しさん mailto:sage [2012/03/27(火) 00:14:52.50 ] 本を読んで、Visual Profilerを知ったのですが、 ひょっとして今はParallel Nsightで同じことができるでしょうか?
595 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 05:31:51.00 ] GTX 680駄目すぎるわ 死んだ
596 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 06:40:03.41 ] まだ未公開? ttp://developer.download.nvidia.com/compute/cuda/4_2/rc/toolkit/cudatoolkit_4.2.6_win_64.msi ttp://www.abload.de/img/desktop_2012_03_27_22wif3f.png PTX ISA3.0
597 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 08:00:17.14 ] warp shuffle
598 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:36:38.09 ] VLIWの腐ったようなアーキテクチャになったくさいな
599 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:51:03.77 ] どのへんが?
600 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 10:54:22.36 ] 斜め読みしたうえで完全にESPだが 命令は各スロットごとに別という点でVLIWでデータパスはSIMDみたいに独立とみた ソフトウェア的にはもちろん別スレッドとして書けるみたいな 全然違ったらごめんね
601 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 13:35:57.98 ] いやPTXレベルの命令だから全然関係ないね >>598-600 は忘れてくれ
602 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 21:20:01.15 ] やっぱりGCNと同じでshuffle入れてきたな。
603 名前:デフォルトの名無しさん mailto:sage [2012/03/28(水) 22:40:28.29 ] CUDA C Programming Guide Version 4.2 74p. Table 5-1. Throughput of Native Arithmetic Instructions (Operations per Clock Cycle per Multiprocessor) いろいろやばすぎるな。
604 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 11:33:59.98 ] >>589 いまさらだが 物理レジスタが足りてるなら同時に多数スレッドを保持しておけるが 複雑なカーネルだとレジスタは不足しがち
605 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 12:27:07.17 ] >604があるから時として64ビットアドレッシングより32ビットアドレッシングの方が有利なんだよね。
606 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 18:48:17.20 ] Visual studio2010、CUDA4.1、Windows7 64bitではじめようと思ったんだけど、ネットで拾ったプログラムとか動かすとcutil_inline.hが見つからないって出る。 これってどうすればいいの?
607 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 19:47:51.42 ] >>606 GPU Computing SDKをインストールしてパスを通す
608 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/03/29(木) 22:36:38.83 ] スレタイがイイね。 くだすれくーだすれw
609 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/06(金) 21:14:51.29 ] なんでGPGPUはみんな同じようなアプリしかつくらないん? 想像力が欠如してるから他人の猿真似ばかりしてんの? GTX680の性能を生かすアプリ教えろ
610 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/06(金) 21:37:23.28 ] >>609 邪魔
611 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/06(金) 22:02:22.54 ] わりぃなぁ。そんじょそこらにはないアプリ作っているんだが公表できないんだわ。
612 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/06(金) 22:56:59.64 ] 恥ずかしいやつが湧いたな
613 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 01:09:23.67 ] >>609 BOINCでもやってな なんぼぶん回しても次から次へ宿題出してくれるから
614 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 10:44:11.21 ] 数値流体力学シンポジウムにでも参加すれば良いぞ♪
615 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 19:20:32.56 ] 公表できないと言ってるけど、どうせCUDA ZONEに登録されてるようなものだろ? 外人の真似と負け惜しみしかできないの? 素人だからよくわからないけど、欧米に対して技術面で遅れているから この分野で日本に有名な人がいないでしょ? 自称一流の教授に俺の書き込み見せてあげて
616 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 23:56:42.42 ] だから数値流体力学シンポジウムにでも参加すれば? この分野では例えば東京工大の青木先生が有名だが
617 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 23:57:49.78 ] ちなみに 615
618 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/07(土) 23:58:19.73 ] あれ? ちなみに615は大学生か??
619 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 00:08:49.21 ] 大学生なら,物理や力学関係の学会に参加すれば,GPGPUを使った シミュレーションの研究結果が報告されていることがわかるはず♪ 高卒なら縁はないが...
620 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 00:11:11.59 ] 大学生がこんな幼稚な文章書いてたら日本終っちまうぞw
621 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 09:03:46.81 ] GTX480である程度大きなサイズをホストからデバイスに転送するのに3回に2回ぐらいセグメンテーションエラーで落ちる。 うまく行くとなんの問題もなく実行できる。 デバイス側でメモリ確保ができてないみたいなんだが、こんなもんなのかね?
622 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 09:17:09.30 ] そのカードでモニターを表示させているとか?
623 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 12:09:14.45 ] ケプラーの倍精度計算は速くなったの? それとも以前と同じ?
624 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 12:27:33.01 ] HPC向けがでてみないと分からんけど GTX680じゃSPに対して1/24だよ
625 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 15:32:40.75 ] www.tml.tkk.fi/~timo/HPG2009/ レイトレは最適化するとスペックなりのパフォーマンスだな680
626 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 20:11:08.50 ] >>622 表示させている。 それがダメなのかな?
627 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/08(日) 21:17:10.19 ] 2枚さして,一枚はディスプレイ用 もう一枚は演算用にしないと,一枚では負荷に耐えられないのでは?
628 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 00:35:51.46 ] みんなすごいね せいぜい準備して 九九の掛け算一括処理くらいしかできないよ
629 名前:営利利用に関するLR審議中@詳細は自治スレへ [2012/04/10(火) 00:59:53.96 ] CUDAを学ぼうとするからそうなるんだと思うよ。 何か問題があって、それをCUDAで解こう!って始めた方が早く習得できる。
630 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 16:05:07.35 ] >>624 それって今までよりも遅いってこと? どこかに倍精度のベンチマークの比較はありませんか?
631 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 16:47:44.33 ] 今研究室でGTX680か580のどっちかを買おうって話になってるんだけど CUDA的にはどっちがいいと思う? 一任されて困ってる・・・
632 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 17:43:14.82 ] floatかdoubleか。 あと整数演算も遅くなったらしい。 テスラ売るためとはいえ、なんかいやーんな感じ
633 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 18:28:46.60 ] > 631 両方買う. が,テスラの方が安定していると聞いているよ(速度は若干GTXより落ちるが)
634 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 18:32:30.11 ] >>631 迷わず580かと。 680はレジスタとか整数演算・論理演算のスループットとか色々と問題になりそう。 それに最新の正式版Toolkit 4.1のプログラミングガイド見てもKepler載っていないし・・・ >>632 グラフィック性能のワットパフォーマンスを上げるためというのが一番じゃないかな。
635 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 19:03:34.66 ] >>631 勉強用に1枚2枚買うって話ならGTX580だろうね。 1.資料がぜんぜん揃ってないKeplerを今買ってもしょうがない。 2.GPGPUとしての性能がGTX580のほうが「上」 (完全上位互換というわけではないし処理にもよるしスペック上FLOPSでは負けてはいるが) GTX680のグラフィック・GPGPU性能を調べる ≪ dokumaru dokumaru.wordpress.com/2012/03/27/gtx680-spec/ 10数枚買って研究室全体に大量導入…なら先生が決めるよね。 両方買ってもいい。でもそれならKeplerは対応するToolkitが出てからでも遅くはないかと。 あるいは一刻一秒を争うならなおさらKeplerは冒険かと。
636 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/10(火) 20:08:49.43 ] 今はまだ早いGK110をまて 5月にイベントあるから、そこでなんかあるかも
637 名前:営利利用に関するLR審議中@詳細は自治スレへ mailto:sage [2012/04/11(水) 16:27:30.42 ] Teslaはメモリ容量が良いよね GTXだと計算領域が足りないよ・・・
638 名前:デフォルトの名無しさん [2012/04/11(水) 23:21:32.32 ] FLOPS/MBで見ると、Teslaでも全然足りない。
639 名前:デフォルトの名無しさん mailto:sage [2012/04/12(木) 07:21:34.36 ] 何の計算??
640 名前:デフォルトの名無しさん [2012/04/13(金) 04:19:22.20 ] 倍精度計算が主なのですが、Ivyと680と580、どれがコストパフォーマンス的にお薦めですか?
641 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 09:48:41.62 ] IvyはCUDA動かないよ。
642 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:12:31.27 ] 言語の問題じゃなくて、プログラムはこれから作るから倍精度計算をわんさかやろうと思うんだけどどれがいいかなあ? 程度の話じゃないかと。
643 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:17:18.06 ] そういうことか。 超並列に対応できるのであればGPUのほうがイイね。
644 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 10:27:10.68 ] えっ!? ここCUDAのスレだよね? てか、Ocelotとかどうなのかな。
645 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 12:45:42.72 ] 倍精度計算が中心なら、CPUで最適化するのが一番。 例えば近似計算のようにGPUの単精度で近づけてから、 CPUの倍精度で収束させるとかならありだけど。
646 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 16:13:12.61 ] cuda zoneがメンテナス中・・・
647 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 17:11:45.77 ] toolkit4.2が来るのかな
648 名前:デフォルトの名無しさん mailto:sage [2012/04/13(金) 18:28:30.79 ] >>640 GPU用の倍精度プログラムを書く気があるならTeslaにしとけ。 コストが厳しいならRadeonの最上位にしとけ。
649 名前:デフォルトの名無しさん mailto:sage [2012/04/14(土) 01:50:49.98 ] sdk 4.1とtoolkit 4.1インストールしたんだけど アンインストールせずにそのまま sdk 2.3とtoolkit2.3をインストールしたらコンパイルやリンクの挙動とかおかしくなりますか?