【GPGPU】くだすれCUDAスレ【NVIDIA】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 05/09 17:28 / Filesize : 215 KB / Number-of Response : 912
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：デフォルトの名無しさん mailto:sage [2008/03/22(土) 11:13:52 ]: このスレッドは、他のスレッドでは書き込めない超低レベル、
もしくは質問者自身何が何だが分からない質問を勇気を持って書き込むスレッドです。
CUDA使いが優しくコメントを返しますが、
お礼はCUDAの布教と初心者の救済をお願いします。

CUDA・HomePage
www.nvidia.com/cuda

関連スレ
【GPGPU】NVIDIA CUDA質問スレッド
pc11.2ch.net/test/read.cgi/tech/1190008468/
GPUで汎用コンピューティングを行うスレ
pc11.2ch.net/test/read.cgi/tech/1167989627/
GPGPU#2
pc11.2ch.net/test/read.cgi/tech/1188374938/
403 名前：デフォルトの名無しさん [2009/02/07(土) 16:57:19 ]: 超解像のような考え方は昔からあるようだな

フリーソフトImageD2
www.tiu.ac.jp/~zohzemi/imgD2/index.html

これは時間軸方向にも参照するものだ。
NVIDIAのMOTIONDSPと同じ考え方だな。
西川善司の大画面☆マニア第113回超解像
av.watch.impress.co.jp/docs/20090120/dg113.htm

この方法は数フレームを参照することで低解像な映像のブレから情報量をアップさせるようだが、
この方法だとシーンチェンジやめまぐるしく動く映像では逆効果でめちゃくちゃな映像になるのではないか？
（これは上記のフリーソフトの別ページでも注意点として載っていた）
でも東芝などの日本の各社がやってる1フレームだけで行う超解像はそもそも無理がある。だから不自然な画質になったり、情報量が逆に消失したりする。
Lanczosなどでそのままアプコンしたほうがずっと情報量あるし自然な画質だ。比較してみれば一発で分かる。
plusd.itmedia.co.jp/lifestyle/articles/0812/24/news031_2.html
ここの元画像を720×480にし、それをAVIUTLなどでLanczosでフルHDにしたもののほうがずっと綺麗。
超解像は単純な処理だから柵とか崩れてるし、文字も駄目だし、元からあった情報を処理によって消しちゃう副作用のほうが強い。
超解像、超解像と目新しくいって盛り上げようとしたいのは分かるが、こんなのはまやかしだよ。

www1.axfc.net/uploader/Li/so/24824.zip&key=pass
比較用画像もうｐしておいた

一方、数フレームでやる方法は計算が大変だが、シーンチェンジや盛大な動きの問題さえクリアすればかなり使えそうではある。
MOTIONDSPや↓はそのあたりちゃんとクリアしているのだろうか？
www.flashbackj.com/red_giant/instant_hd_advanced/
404 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 17:01:19 ]: 10年ぐらい前にカーネギメロン大学で勉強してた頃に超解像のプログラム作れっていう課題を出されたことがある
405 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 17:34:44 ]: ちょー解像は判ったからマルチすんなや。
406 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 20:13:09 ]: >>403
スレ違いじゃない？
GPGPU 向きな処理なのは確かだし、そもそも Cell なり SpursEngine は GPU じゃないし。
画像処理スレとかあったと思うよ？
407 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 23:45:41 ]: アメリカのメロン大学は一応名門だけど日本校はどうなんだ？
408 名前：デフォルトの名無しさん mailto:sage [2009/02/08(日) 01:05:45 ]: >>404
なにその高レベルな課題
俺の大学時代と雲泥の差
409 名前：デフォルトの名無しさん mailto:sage [2009/02/08(日) 02:58:06 ]: 超解像の原理が未だに理解出来ません
複数の映像フレームの同じポイントの色の出現頻度に一番高い色を適用するってことですか？
410 名前：デフォルトの名無しさん mailto:sage [2009/02/08(日) 13:45:42 ]: は？今の超解像って、時間軸の補完までやってるのか？
411 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/02/08(日) 13:52:05 ]: MPEGの原理は主にフレーム間差分をとってJPEG圧縮なんで、それを改めてチェックしたところで・・・
412 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/02/08(日) 21:06:32 ]: >>407
神戸のハーバーランドの近くにあるあれか？
兵庫県の財政圧迫してるらしいよ。
学生少なくて撤退の噂もあります

同じビルの同じ階に神戸電子専門学校の学校法人が経営する大学院がある。
何を勘違いしたのか兵庫県立大学も情報科学の大学院を神戸市内に置いてる。

神戸という都市に何を求めてるのか、理解不能である。

たしかに古くからの工業都市で組み込みソフト屋の数がそれなりにいるのはわかる。
最大の勘違いは、日本のITドカタは職場を離れて大学院に通えるほど裕福ではないことだ。
413 名前：デフォルトの名無しさん [2009/02/08(日) 21:49:03 ]: 俺はてっきり、ラーメン大学とか、洗車大学と同じノリで、
神戸電子専門学校が作ったヒト寄せパンダだと思ってた。
ってか別法人なのか?
学生少なくて、って言う前に、派遣のワーキングプア、
デジタル土方に成る為にわざわざ苦労して大学通う馬鹿
が神戸のどこに居るんだよっ?

俺が居るよ…orz
414 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/02/08(日) 22:51:22 ]: 兵庫県もネギメロンなんて誘致するくらいなら神戸大に寄附講座でも作ったほうがよかったんじゃね？
現状兵庫県内で優秀な学生がいるんだし。

おっと、「学生」の枠で括ると近くの中高一貫校のほうがよっぽど・・・
415 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 09:41:15 ]: 情報系の大学院は多すぎるよな
旧帝でも定員割れする世の中なのに

このうえ西和彦が秋葉に大学院作るんだから馬鹿としか
416 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 12:50:30 ]: >>411
誰がMPEGの話をしてるの?
誰も君の知識を披露してくれなんて頼んでないよ?

圧縮で壊れるったって圧縮率によるし、位相が生き残ってりゃ理論的には解像度は上げられる。
圧縮率によっては壊れた分が回復するだけかも知れないけどな。
417 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 14:21:54 ]: 誰がMPEGの話をしてるの?
誰も君の知識を披露してくれなんて頼んでないよ?
418 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 15:40:30 ]: それを言うなら、なんでいきなり超解像の話になったんだろ？
419 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 15:43:20 ]: メロン日本校のカリキュラムを見たけど、ウンコすぎて話にならねぇｗ
こりゃ学生もこねーわ
420 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/02/09(月) 18:02:06 ]: >>416-417
だれも連投してくれなんて頼んでないよ？
421 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/02/09(月) 18:06:41 ]: GPGPU向けの画像・動画関連のソフトってどれも速さばかり求めて品質は二の次だな
ウンコなエンコーダだとRGB/YUV変換で腐る
一番腐るのは量子化だろうけどな
422 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 18:25:28 ]: Geforceは何気にGTXシリーズで初めて64bitに対応してるけど
演算装置は１個しかないｗ
並列処理が得意な分野でfloatだけで済むようなものはほぼ無いだろｗ
423 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 19:05:29 ]: >>420
連投じゃなくて別人
2ch歴長いんだからそれくらい分かれ
424 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 20:42:10 ]: 甘いな。floatでも速ければ使い物になる用途は結構あるもんだよ。
例えば、近似計算なんかはfloatで近似させてからdoubleで更に近づけることもできるしね。
425 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 21:56:34 ]: そういや西和彦もこっちの出身だな。確か甲陽から和田大
だから、落ちこぼれか。そもそも博士余りで高学歴ワープアPD
が社会問題に成ってる今日この頃に、大学院新設とかもうね
アボガドバナナ…。
鴨葱メロンと言えば、金出教授もこっちの出身だったな。
沢山カメラ使って超解像みたいな論文も有ったような無かったような。
426 名前：デフォルトの名無しさん mailto:sage [2009/02/13(金) 13:06:41 ]: >>425
お前、自分の考えまとめるの下手だな。
427 名前：デフォルトの名無しさん mailto:sage [2009/02/13(金) 13:31:44 ]: まあ、CUDAは英文のドキュメントが読めてある程度知能がないと
使えないからな。

スレ違いの話で盛り上がるのも分かるな。バカばっかりだしw
428 名前：デフォルトの名無しさん [2009/02/13(金) 17:06:53 ]: CUDA版のTripcode Explorerができたみたいですね。最適化に期待します。
tripper.kousaku.in/
download.kousaku.in/trip/Tripcode-Explorer-CUDA-test1.zip
429 名前：,,・´∀｀・,,）っ-●◎○ mailto:!sage [2009/02/13(金) 18:13:51 ]: ようこそ、バーボンハウスへ。
このテキーラはサービスだから、まず飲んで落ち着いて欲しい。

うん、「絶対に動かない」んだ。済まない。
仏の顔もって言うしね、謝って許してもらおうとも思っていない。

でも、このネタプログラムを見たとき、君は、きっと言葉では言い表せない
「ときめき」みたいなものを感じてくれたと思う。
殺伐とした世の中で、そういう気持ちを忘れないで欲しい、そう思って
５分ででっちあげたんだ。

じゃあ、注文を聞こうか。

--------------------
1M超のバイナリファイルに何が詰まってるか疑問な人は、テキストエディタで開いてみればいいよ＞＜
430 名前：デフォルトの名無しさん mailto:sage [2009/02/13(金) 23:27:26 ]: CUDAはコアレスと分岐の扱いを把握すれば、やりたいことは大体クリア出来ると思われ。
431 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/02/14(土) 00:05:15 ]: 結局プレディケートなんだよね。
SMあたりの命令デコーダは1基だからSP毎に別々のフローを実行することができない。

Larrabee（Ct）なら分岐は容易に表現できる。
432 名前：デフォルトの名無しさん mailto:sage [2009/02/14(土) 01:58:51 ]: >>431
プレディケードって？？
433 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/02/14(土) 11:48:56 ]: えーとね、たとえば
if (cond) {
　　funcA();
} else {
　　funcB();
}
なんてコードがあるとしよう。
普通のCPU向けのCだと、 cond の条件にしたがって、funcA()を実行するブロック、
あるいはfuncB()を実行するブロックにジャンプする。
すなわち命令ポインタを操作してコードを飛ぶ。

CUDAにおいてはシェーダマルチプロセッサ一つにたいし、命令デコーダは1つしかない。
にもかかわらず、condは要素ごとに変わるわけで、条件分岐先はSPごとにバラバラになる可能性がある。
んで、そこで使うのがプレディケートなわけだけど、簡単にいえば、ifとelseの両方を通るようにする。
funcAとfuncBをインライン展開して、条件ビットで選択的に実行するコードに展開する。
んで、各要素に対して、実行するか実行しない（あるいは実行結果を反映しない）かを選択的に行うわけだ。
並列度の高いプロセッサではよく使われる方法だ。

んで、こっからはこのアプローチの弱点。
問題はif-elseを何重にも組み合わせたり、switch文を多用する場合、総当たりにかかる計算時間量が
並列化によるパフォーマンスメリットを相殺し、逆に遅くなるケースもある。
並列処理を諦めて素直に要素ごとに逐次処理をさせてくれたほうがかえって効率がいいかもしれない。

しかしCUDAってそのへんの融通がきかないんだよね。基本的に【並列処理しか記述できない】から。
正確には逐次処理は専用のプリミティブなんかを使って限定的に逐次処理はやれるけど記述面では
かえって面倒になる。
GPUで不得意な処理はCPUでやれってアプローチだからそのへんの融通を利かせる気は無いらしい。
434 名前：デフォルトの名無しさん mailto:sage [2009/02/14(土) 11:57:31 ]: CUDAで困るのはその点のほかに、並列数を途中で変えられないこともあるよね。
一度ホストに処理を戻すと遅くなりかねないし、共有メモリが失われてしまうし。
私の関わっているプロジェクトでは演算処理が中心なので、ある程度融通が利いてくれないとね。
435 名前：デフォルトの名無しさん mailto:sage [2009/02/15(日) 06:24:49 ]: 前にも有ったけど、条件分岐したら負け。
Crayだってそうだったじゃん。
436 名前：デフォルトの名無しさん mailto:sage [2009/02/15(日) 12:43:21 ]: CPUだとforループが多重になる部分をGPUに
丸投げすればいいんでしょ？
3項演算子程度は実行して欲しいけど
437 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/02/15(日) 16:42:36 ]: > forループが多重になる部分

重要なのは回数であって多重かどうかはあまり関係ないです。
32の倍数であることは有る程度重要かな

一番重要なのは依存関係がないこと。
たとえばループを逆順で実行しても結果が等価であったりとかね。

240 SP（30 SM）を使えるとすれば、フルに使うには、最低960程度の演算が並列実行可能である必要があります。
ただし、全部のSMでまったく同じ処理をする必要はないです。
438 名前：デフォルトの名無しさん [2009/02/15(日) 17:06:37 ]: >一番重要なのは依存関係がないこと。
そうだね。そのためiCotの時も関数型言語の並列化
に七転八倒してたね。
今ならerlangで良いんじゃね? CUDAスレでこんなこと
言うのも何だけど、Cライクな手続き型言語だとどうして
もすぐに壁にぶつかってしまって、スケーラビリティが
出せない。もしくは出そうとするとプログラマの負担が
重過ぎる。
個人的には今更lispやprologに復活されたくはないけど。
439 名前：デフォルトの名無しさん mailto:sage [2009/02/15(日) 17:15:56 ]: >>438
そう、わかったよ
じゃあ俺様がCUDA用erlang処理系書いてやる
440 名前：デフォルトの名無しさん mailto:sage [2009/02/15(日) 17:57:47 ]: ループを並列処理に展開するのって自動化出来そうだけど
441 名前：デフォルトの名無しさん mailto:sage [2009/03/04(水) 19:00:05 ]: >>424
おいおい調子に乗って嘘つくな。
「簡単にできるぜ！」っとか鼻高々なのはいいけどそんなのないよ。
442 名前：デフォルトの名無しさん mailto:sage [2009/03/05(木) 00:44:05 ]: >>441
いや数値計算なら反復法とか1次連立方程式の陰解法で使えるだろ
443 名前：デフォルトの名無しさん mailto:sage [2009/03/05(木) 00:59:48 ]: また自信満々な人の嘘つき合戦ですか？
444 名前：デフォルトの名無しさん mailto:sage [2009/03/05(木) 01:00:38 ]: なんだよ微分方程式、というか積分使うのか。
積分を近似計算といっていいのか？
実用内ではあると思うけど、それもfloat(7)からdouble(16)だろ。何回ループするつもりなんだよ。
445 名前：デフォルトの名無しさん mailto:sage [2009/03/05(木) 03:47:40 ]: 積分を近似計算と言ってはいけない理由がわからん。
446 名前：デフォルトの名無しさん mailto:sage [2009/03/05(木) 06:23:04 ]: 数値計算なら兎も角、シミュレーション関係なら大いに有り得る話だな。
自分が知っていることが全てではないと認めることができれば世界は広がるのに。
447 名前：デフォルトの名無しさん mailto:sage [2009/03/05(木) 20:24:13 ]: 他人を否定することでしか自分を正当化できない、ということか。
448 名前：デフォルトの名無しさん mailto:sage [2009/03/05(木) 21:39:34 ]: >>447
数値計算と近似計算の違いを教えてくれませんか？
449 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 04:35:50 ]: >>448
1+1=2となるのは、数値計算ではあるが近似計算ではない。
450 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 08:57:12 ]: CUDA 2.1 Notebook Drivers for Windows
ttp://forums.nvidia.com/index.php?showtopic=91157

βだけども
451 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 14:44:51 ]: >>446
とすると、貴方の世界ではシミュレーションとは近似計算をしてるってことですか？
452 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 15:05:56 ]: 物理にしろ確率モデルにしろコンピュータシミュレーションは近似計算だろ
453 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 15:08:22 ]: 整数演算は近似計算ではありません。
454 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 15:15:06 ]: approximationの意味分かってるの
455 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 15:38:46 ]: なんかめんどくさそうな人がいっぱいいますね。
どうでもいいですが、早いところストリーム用のプログラミング手法を確立して、ストリームに特有な技法を紹介する本を出してくださいな。
456 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 16:26:22 ]: どうして煽りを入れる人ほど知識が足りないんだろう？
457 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 17:11:04 ]: >>456
知識が足りないから煽るじゃないですかね？
そういう低脳な人は「煽ることしか出来ないよね」っとも言いますけど。
そんなことどうでもいいんで「ストリームんグ・プログラミング技法」とかいうブログを早く作ってくださいな。

「approximationの意味分かってるの」とかめんどくさそうな人との議論とかいかめしい顔した人が言う哲学に興味はないんで。
458 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 17:14:51 ]: ↑
低脳な人の煽りの見本
459 名前：デフォルトの名無しさん [2009/03/06(金) 18:03:55 ]: 458 名前：デフォルトの名無しさん [sage] 投稿日： 2009/03/06(金) 17:14:51
↑
低脳な人の煽りの見本
460 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 19:56:54 ]: プログラム板なんだから少しはプログラム出せって
461 名前：デフォルトの名無しさん [2009/03/06(金) 20:18:50 ]: ↑
低脳な人の煽りの見本
462 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 20:40:17 ]: ↑
低脳な人の煽りの見本
↓
463 名前：デフォルトの名無しさん [2009/03/06(金) 20:41:28 ]: >>448
1+1=2となるのは、数値計算ではあるが近似計算ではない。
464 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 22:21:12 ]: VIPのまとめWikiに書いたこともあるが、今はネタがない。

あーそうそう、x16バスに繋がった8800GTの方がx8バスに繋がったGTX280よりも速かったってこと位か。
但し、転送量が多目の用途だからだとは思うが。
465 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/06(金) 22:22:16 ]: VIPPERプログラミングスレの派生なのかここ？
466 名前：デフォルトの名無しさん mailto:sage [2009/03/06(金) 22:23:45 ]: 大丈夫、私はvipには書いていないw
でも何故かまとめWikiには複数投稿している罠。
467 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 02:00:17 ]: 自分が知らない事はWeb見て知ったかぶらないで馬鹿げたレスする暇で
amazonで本の一冊でも買えばいいのに。

ところでCUDAで性能だすためのまとまった日本語の文書ないかな？
468 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 02:22:11 ]: そもそもCUDAに関して有用な日本語資料がなくね？
公式でさえ日本語マニュアルはあんなだったし。
469 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/07(土) 02:25:00 ]: 大丈夫、英語資料すらろくなのないから。
470 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 02:30:32 ]: やはり本家のドキュメントにあたるしかないのか。
めんどくせー。環境の開発もいいけどドキュメントの整備も力入れてほしいわ。
471 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/07(土) 07:18:34 ]: 逆に日本語ドキュメントがあっても大して意味無いよ。
IntelのプログラミングマニュアルなんていまだにPentium 4のことしか書いてないぞ。
日本法人仕事しなさすぎる。

CUDAを勉強するより前に英語アレルギーを克服したほうが何かと良くなるかも。
472 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 07:55:47 ]: 英語アレルギーってなに？
473 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 08:25:11 ]: そう言いたくなるくらい、英語から目を背ける人は世の中に意外と多い。
474 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 08:45:27 ]: 俺の場合英語と日本語だと読むスピードが１０倍～１００倍違うorz.
475 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 11:19:36 ]: 母国語でないと読むスピードが遅いだけじゃなく小さなとこで思い
違いがでてきて結局後からまた参照したりして嫌だ。
476 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 11:23:45 ]: 技術的文書に機械翻訳はどの程度通用するんだろ。奇想天外な訳になってしまうのかな。連投ｽﾏｿ
477 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/07(土) 11:41:59 ]: 英文学読めって言ってるんじゃないんだし、書ける・話せるも別問題。
技術ドキュメントの英語なんて、有る程度形式ばった言い回ししかやらないので
単語を摘み出すだけでも回数を重ねればそこそこ意味はわかるようになると思う。

慣れてくれば技術系ニュースサイトとかも読んでみたり。
478 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 11:51:27 ]: だんごさんはどーゆーサイトみてますか
スレ違い申し訳ない
479 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/07(土) 12:17:36 ]: Intelの開発者ブログとかRSSに入れてる
480 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 22:13:23 ]: 団子はGPGPU嫌いなんじゃなかったの？
481 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/07(土) 22:18:46 ]: 逆に、好きな奴いるのか？
非生産的で変態だけど性能のために仕方なく使う類のモノだろ
482 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 22:22:35 ]: おれもGPGPUなんて嫌いだな。
開発したことあるけどPSシリーズも大嫌い。
483 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/08(日) 08:31:15 ]: x86でいうMMX/SSEって、分岐が除去できるとか直列方向のパフォーマンスメリットがあった。
GPGPUって並列方向のスループットありきで、ホスト側のコードでお膳立てしてやらないといけない。
484 名前：デフォルトの名無しさん [2009/03/08(日) 19:46:25 ]: >非生産的で変態だけど
それってintelアーキのことじゃん。昔からずっと言われ続けてることだが。
mc68kやsparc,mipsの方がよっぽど素直に書ける。

けど市場規模のために仕方無く使わされてる。
485 名前：デフォルトの名無しさん mailto:sage [2009/03/08(日) 20:10:12 ]: アセンブラはmc68とx86しかやったことないけど、
mc68はかきやすかったな～。

欲を言えば16本すべて汎用レジスタだったらよかったんだけどｗ
486 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/09(月) 01:10:52 ]: >>484
あー？
メモリアドレッシングモードが貧弱すぎるんだけどー？
まじうけるー？
ﾊﾟﾈｪっすよ
487 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 01:20:53 ]: インテルに慣れきってるとそう思うかもね。
どうせ団子はインテル一筋なんだろ？w
488 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/09(月) 02:18:43 ]: > mc68とx86
その時代だと8086だろ。「x86」って基本的に32ビット以降のことを言うと思うんだけど。
32ビットだとぜんぜん自由度が違うっしょ。セグメントなんて使わなくていいし。
4GBの論理メモリ空間をリニアにアドレッシングできるし。
んで、案の定ローエンドサーバだけにとどまらずHPCもx86に惨敗して虫の息じゃないか
古くからあるRISCなんて。
MIPSも組み込みに逃げたけどARMに食われたね。

それはともかくSSE・MMXも経験ない男の人がCUDAなんて・・・

さて、CUDAの話なんだけど、基本的に最小の演算単位は32ビット×32のSIMDで
メモリロード・ストアも、各要素ごとに計算してscattering/gathering機構付きの
ロード・ストアユニットで、
このへんはCUDAのアーキテクチャマニュアルにも載ってる通り。

従来SIMDって基本的に連続的に並べないと性能出ないけど、
CUDAは動的にベクトルを再構成することで、一気に柔軟性が向上した。

逆にこの強力なロード・ストアユニットを載せたせいで、連続したデータに対する
ロードストアの効率が悪くなってね。
一時変数をどっかに置いとこうとした場合にも、32要素ごとにバラバラにアドレスを計算する
scattering/gathering機構つきのロード・ストアユニットに通す羽目になる。
これじゃエネルギー効率的にもよくないでしょ。

んで、レジスタにそのまま保持すればいいじゃないってことで、それで
1つのシェーダコアあたりのレジスタファイルが、32KBとか64KBみたいな巨大なことになってる。
それにしても一般のCPUのL1キャッシュよりレイテンシの大きいレジスタファイルって一体・・・
489 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 02:50:28 ]: 団子の脳みそがx86のアーキテクチャで凝り固まってて、現代風のプログラミングパラダイムについて来れないってことだろ。
あと１０年もすればおまえの持ってる小手先業などは博物館の展示資料でしかないし、おまえの能書きなど頑固オヤジの戯言同じなるだろう。
インテルのブログで洗脳されまくっちゃうのもいいけど、アーキテクチャマニュアル云々よりも団子が頭の切り替えをできるかどうかのほうが問題なんじゃないの？
490 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 02:57:29 ]: 現代風のプログラミングパラダイムって何だ？
491 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/09(月) 03:33:26 ]: 斜め上をいく愚言に感謝する。

しかしながらscattering/gatheringによる柔軟なアクセスはSIMDの新時代を切り拓くものだ。
実際Intelも2～3年先のSIMD拡張では256ビット、512ビットと幅が広くなってるため、
AoS/SoAの変換をいかに効率よくこなすかがテーマになってくる。
（ちなみにLarrabeeにはscatter/gather命令そのものを導入する）

このへんはむしろCISC的なプロセッサの美学だと思うがね。
AltiVecとかCellのSPEでなら何十命令かかる命令を1命令でこなす。
1クロックサイクルスループットでこなせない命令を実装しないのがRISCだろ。
モダンなCPUではパイプラインの前半部分のほうがALU自体よりもコストがかかるしまってるから
それで処理単位がリッチなCISCのほうが効率がよくなってるわけさ。
このへんは　gimpo.2ch.net/test/read.cgi/i4004/1220728356/76あたりと同意見

しかしさ、16要素とか32要素とか、全部バラバラのアドレスだとしてみ？
とてもワーストケースで要素数分だけメモリアクセスが必要だぜ。
RISCの守備範囲じゃねーよ

んで、個人的にCUDAの問題は、scatter/gatherスカラ命令を備えないことなんだよね。
常に32並列単位で演算しないといけない。それで小回りがきかない。
スカラレジスタでアドレス指定するベクトル単位のロード・ストアと
scatter/gather
Larrabeeあたりがまさにこれをやってるわけだが。

> あと１０年もすればおまえの持ってる小手先業などは博物館の展示資料でしかないし、おまえの能書きなど頑固オヤジの戯言同じなるだろう。

残念だが俺は流行りものの言語・フレームワークには目がない。
Ruby On Railsとか大好きだし。むしろ高級言語をより効率的に使うためにマシン語レベルで理解する必要があるんだよ。
たとえばさ、LLって性能的にはネイティブマシン語より遅いから、LL向けのJITコンパイラ書きたいとするじゃん。
どうしてもアセンブラの知識は必要なんだよね。もちろん業務じゃないよ。
ということでプロ高級言語er、趣味マシン語er
それでARM語もx86語もそれなりにたしなんでおきたいわけ。
492 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/09(月) 03:37:32 ]: ○んで、個人的にCUDAの問題は、スカラ命令を備えないことなんだよね。
493 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 03:52:38 ]: 頑固オヤジの戯言ごとと同じになるだろう。

ニート相手に５行も書くの面倒だから誤字脱字なおすのも面倒だよな。
「CISC的」とかいう概念がもう古いパラダイムってこと。
おまえみたいな純粋な「消費者」の戯言などどうでもいいけど、ストリームなのに128/256bits単位とか全く鼻糞だろ。
ストリーム演算やってるのに、「スカラ演算もやりたい！」「アドレッシング！」という考え自体を改めたほうがいいと思うけどね。

どうでもいいけど、ストリーミング・プログラミングの小技を集めたブログをはよ作ってよ。
C#だとスニペットというんだったか？そういうイディオム集みたいのでもいいから。
494 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/09(月) 03:59:04 ]: Intelの中の人のブログって言っても、本当に自社製品のプログラミングがらみの話題って
月に1回出るかどうかのレベルだぜ
次期Windowsの話題だったり、XMLやLLなんかのWebまわりの技術がどうこうだったり。
中の人の興味のあることが書いてあるって感じだけど、頭の悪い技術系ゴシップサイト
よりはよっぽど為になる。さすが半導体総合メーカーだわって思うわ。

NVIDIAのニュースも購読してたけど本当に自社製品向けのコンピュータグラフィックスのノウハウとか
グラフィックよりの物理演算が中心で、そっち方面はそんなに深入りする気はないので読む価値なしと。
（そっち方面で食ってる人ごめんなさいね）
495 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/09(月) 04:01:57 ]: >>493
> どうでもいいけど、ストリーミング・プログラミングの小技を集めたブログをはよ作ってよ。
> C#だとスニペットというんだったか？そういうイディオム集みたいのでもいいから。
ﾌﾟﾌﾟﾌﾟﾌﾟﾌﾟ
496 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/09(月) 04:11:02 ]: ソースコード例文をいんたーねっつで検索してきてコピペをするのが
プログラミングだと思ってる人はそう言うのに本質を求めるよね。
いや、いいんだけどね。
俺とて業務では最高級の言語から低級言語で書かれたライブラリを使わせてもらってる立場だし。
497 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/09(月) 04:43:49 ]: ちなみにマルチコアとかSIMDを使いこなして最適化コード書いたりできる人間は稀少性があるから
長い目でみれば食いっぱぐれしないよ。

今でこそ団塊COBOLerの後釜需要があったりするくらいだし
（徐々にJavaや.NETに置き換わってるので将来性を考えれば微妙だが）

自動並列化ランタイム環境使えばいいとか言うだろ？
そう言う考えの三流プログラマは食いっぱぐれる。間違いなく。
じゃあその並列化ランタイムは誰が書くんだと。書きもしないのに沸いてくるのかと。
最近流行のJavaScriptのJIT部分のコードでも見てみればいい。各CPU用のバイトコードの山だ。

その点、覚えさせれば小学生でも出来るような、コードをコピペして貼り合わせる能力なんて誰が評価するんだよ。
知識が無いと難しい作業こそ高い市場価値がある。

CUDAはまだ市場として育ってないがな。とがってる分、苦手なことが多すぎて。
498 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 05:31:36 ]: 俺の団子が火を吹くぜ！
499 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/09(月) 05:54:25 ]: っていうか、電子の移動度の限界とか云々でクロックが上がらないのでフリーランチ終焉、
SIMDやマルチコアを明示的に使いこなさないと性能出ませんよ
これ以上1スレッドの負荷の重たいソフト書くなよ、なんて、何年も前から言われてることなのに
「価値がなくなる」だとか何を妄言はいてるんだか。
10年後に100GHｚとか200GHzとかいくのかよ。
数十コアとか数百コアになって最適化屋の需要拡大することはあっても、縮小することなんてねーよ

要するにSIMD・マルチコア使いは10年先もナウい。ﾊﾟﾈｪ
500 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 06:07:53 ]: 最適化できる奴は別にたくさん要らないよなぁ・・・
結局ライブラリ作って終わりだし。
そういうライブラリがなかったり高額だったら、誰も使わないからあまり流行らないわけで、どんどん忘れ去れていく技術なだけだしなぁ・・・
GPUとは関係ないけど、MSの提唱してる技術とかかなり不発が多くて流行らずに忘れ去れてるの多いでしょ。
（スカラの）マルチコアとライバル関係だけど、運が悪いとGPU（ストリーム）の方が流行らずに終わってしまうことだってある。PCってのはそういう世界だったよな。
どうでもいいけど人柱がんばってよ
501 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/09(月) 06:10:54 ]: せいぜいコードコピペで済む単発案件こなしてなよ
希少価値のある技術には見えないがね。

どっちかというとコピペプログラミングこそ自動化できそうだけどなぁ
お絵かきツールだけでプログラムのフロー書くASTERIAみたいなツールも出てきてるし
502 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/09(月) 06:52:27 ]: 既にゲーム業界では下っ端レベルからそういう技術が要求されるようになってるけどね
PS3とか360やってるところなら半ば強制だぜ
脳天気でいられるのは高級言語屋とローエンド組み込みCPUソフト技術者くらい

CUDAは流石に今のポジション以上の普及はないと思うよ
「汎用」ってものをわかってない。
503 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/09(月) 07:00:18 ]: GPGPUの【GP】に関してならLarrabeeに食われるだろうね。
たとえば普通のCを使うとして、たとえばtime.hすら使えないのがCellのSPEなら
CUDAはそれ以前の問題だし
504 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 07:01:11 ]: スニペットとかコピペってのは、結局コードのモジュール化ってことでしょ。
オブジェクト指向による再利用促進とも言うけど、それは時代の流れって言うよりもう当たり前じゃないのか？
IDEとか便利だし、かゆいところは自分でコード書けばいいんじゃないか。
今の時代、３０分で作れるのに一からメモ帳作る奴はよっぽどバカでしょ。
505 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 07:03:23 ]: ああ抜けてた。

コピペって簡単に言うけど、典型コードの再利用なわけでだからこそメモ帳アプリが３０分で作れる威力があるんだけど。
506 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 07:05:53 ]: そういえば、ム板でコテ名乗ってるのは団子ぐらいしかいないよね？他にいるの？
507 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/09(月) 07:23:14 ]: >>504
コピペの単純工程をやるプログラマもいれば
ライブラリを書くプログラマもいるわけで

法律事務所のアルバイトと弁護士くらいの格差は出てくるかもね
いや、既に出来てるか
508 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 09:07:28 ]: >>505
使い回しでメモ帳に30分ってかかりすぎだろ。3分でやれよ。
テキストコントロール配置してファイル読み書き機能付けるだけで終わりだろ
IDEの雛形だけでほぼ完成なんだからさ

それともGREP機能でも搭載するのか？
509 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 09:12:15 ]: 30秒だろ

#include <stdlib.h>
int main(void) { system("notepad.exe"); return 0; }

再発明する価値もない。
510 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 09:20:05 ]: 無いものを作る、あるいは既にあるものをより良くすることに知的労働の価値があるわけで
劣化コピーの再発明で金とるなど馬鹿の所業だろ。
511 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 09:42:01 ]: >>509
ワロタｗ
512 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 10:28:29 ]: 30分で作れる程度のエディタなんて誰も使いたくないな
513 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 12:06:54 ]: なんでおまえらはそのうちいい情報を提供してくれそうな人を叩くんだよ
514 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 12:13:14 ]: いい情報を提供するのが自分じゃないと気がすまないからさ。
そのために全体が遅延しても問題なし。
515 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 12:28:58 ]: CUDAは既存の一握りのプログラムの再発明のためデバイス・言語処理系だろ。
性能はともかく効率CUDAでできることは普通のCPUでもできる。
より高いスループットを得るためにこそある。
プログラミング対象を選ぶし、性能を出すには工夫がいる。

テキストエディタの話じゃないけど、生産性を言い訳にして自分で創意工夫が出来ない奴には不向き。
516 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 12:38:56 ]: ,,・´∀｀・,,）っ-○◎●　に嫉妬してるだけじゃね？
517 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 13:34:37 ]: まぁ、団子は必ずしも間違ってはいないからな。
CUDAに未来はないかもしれないけれど、OpenCLはAMDも担いでいるからもう少し生き延びるだろうし。
518 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/09(月) 19:05:27 ]: OpenCL（笑）

なんかの魔法の言語のように思ってないか？
OpenCLは「GPU版Java」じゃない。
共通化されてるのは言語の基本仕様の部分だけで、細かいところは処理系依存。

んでもって、CUDAやCAL/Brook+のプログラミングの敷居を高くしてるのは言語処理系じゃなくて
少ないスクラッチパッドメモリとレイテンシの大きいメモリと
やたら小回りが利かないベクタ演算ユニット、その他諸々のGPUのパイプライン・・・
要するにシェーダコアの構成そのものにあるのであって、それが解消されない限り
CPUを置き換えて普及していくことなどあり得ない。

普通のCPUと同じ定番言語のC/C++言語をまがりなりにもサポートしてるのに
業界の評価のお寒いCellを見れば、課題は言語じゃなくて汎用プロセッサとしての
柔軟性にあることくらいわかるだろ？

その意味、OpenCLを効率良く実行できるのはよりCPUに近いLarrabeeだと思うよ。
というか本質的にOpenCLなんて要らない。
どうせCellなんかと同じくハード専用にカリカリにチューニングしなきゃいけないんだし。
519 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 19:35:29 ]: >>518
世の中それほどぎりぎりのチューニングまではしないけどちょっとは速く走って欲しいなんて用途が結構あるのよ。
で、私自身はOpenCLはAMDが必死こいてアピールしているだけで実際には普及しないと思っているのよね。
どうせLarrabee出て来る頃にはCtも来ているだろうから、NVIDIAもAMDも青息吐息でしょ。

まぁ、CUDAスレなんだからLarrabeeの待つ未来を語るのは程々にしましょ。
520 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/09(月) 19:58:15 ]: 期待してなんか無いよ。
Cellと同じくニッチ市場を食い合うだけ。
521 名前：デフォルトの名無しさん mailto:sage [2009/03/09(月) 20:55:32 ]: ゲーム屋の意見としては、SPUの数とメモリが倍あったらCellも悪くないと思う。
あとはメモリのバンド幅か。
柔軟性もあったら嬉しいけどね（整数や分岐とか）。
522 名前：デフォルトの名無しさん mailto:sage [2009/03/10(火) 04:01:00 ]: >期待してなんか無いよ。
おっと、だんごさんの悪口はそこまでだ
523 名前：デフォルトの名無しさん [2009/03/11(水) 03:05:50 ]: >やたら小回りが利かないベクタ演算ユニット、その他諸々のGPUのパイプライン・・・
Crayだってそうだったじゃん。Personal CrayとしてCUDAは良く出来てると
思うけど。
メモリの不自由な階層は何とかしてくれ、と思うけど。Cray同様、IPも持って
一般I/Oも出来て欲しい。
あと出張先でデモ出来るように、CUDAの動くnVidia GPU載ったサブノート
が出てくれないと…。学会発表しようにも、デスクトップ担いで持参しなきゃ
ならんってのは勘弁。
524 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/11(水) 03:24:55 ]: つ[Asus N10]
525 名前：デフォルトの名無しさん mailto:sage [2009/03/11(水) 11:31:57 ]: つ[新Mac Book]
526 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/11(水) 22:47:25 ]: いや、でも、アカデミック畑の人の求める特化型プロセッサって一般のニーズとかけ離れてると思うよ。
CellやGRAPE-DRでワードやエクセルが動くかっつーの。

当たり前だけどアカデミック色の薄いアプリケーションって書く人少ないのよね。
サンプル探しにCUDA-Zone逝っても「なんとか論文ps.gz」みたいなのしかないし
527 名前：デフォルトの名無しさん mailto:sage [2009/03/11(水) 23:01:58 ]: ここにアカデミック色の殆どないアプリケーションを書いている人が居るんだが、
残念なことに特定用途向けだし契約の都合もあるんで公開できないんだわさ。
528 名前：デフォルトの名無しさん mailto:sage [2009/03/11(水) 23:04:35 ]: アカデミック色って例えば何？
ブラックホールのシミュレーションとか？
529 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/11(水) 23:08:18 ]: 俺も書いてたよ
NVIDIAの営業さんじきじきに頼まれたがめんどくさくなった
530 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/11(水) 23:09:07 ]: >>528
そういえばGRAPEのコミュニティではCUDAはやたら受けが良いらしいね。
531 名前：デフォルトの名無しさん [2009/03/12(木) 19:48:28 ]: >>523
モバイルCUDA環境が欲しくてN10jc買った
性能は
./nbody -benchmarkで16.472GFLOP/s
./nbodyでタイトルバーにでるやつだと80GFLOP/sくらい
532 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/12(木) 21:20:13 ]: 割と出るんだね

大学時代にやった熱力学シミュレーションのレポートをまた引っ張り出してきてCUDAで実装してみるかな。
Rubyで書いたらアホみたいに遅くてC++で書き直した覚えがある。
533 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 01:33:06 ]: Rubyで書いてCより性能でればいいのにね。無理言うなって感じだが
534 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 01:52:39 ]: アルゴリズムが悪いんじゃないの。
535 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/13(金) 01:58:40 ]: まさに「グリッド」（格子点）だよ。
アホみたいに並列化しないと性能出ないCUDAには向いた問題
536 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/13(金) 02:20:43 ]: RubyはCでかかれたインタプリタであって、
1語句ごとにループ・switch文で処理を行う以上
それ自体の致命的な遅さはどうしようもない。

YARVとかJRubyなら多少速いかも知れんが
本家はまだJIT以前の問題だし。
Matz氏はXbyak見て「いずれは考えなきゃいけない」的なこと言ってたんだけどね。
537 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 02:50:22 ]: 団子の中の人って、大学逝ってたんだ。

>>531
意外とやるな。電池で動いてそれなら上出来だと思う。
ARM+DSPでは桁違いに負けてると思う。しかし、所詮
ネトブクに毛が生えただけなのに、ThinkPad Xシリーズ
より重いのか。
Linux対応はどない? EeePCのLinux対応はすこぶる良
かったから期待してるのだが。
538 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 08:17:53 ]: >>537
CentOS5.2はおk
サウンドは自分でドライバ当てる必要あり
無線LANは認識してる
（ドライバ入れてないから使えるかどうかは不明
あとはカメラと指紋認証が使えないくらい

他の鳥は試してないからわからん

BIOSでHT切れないのが気持ち悪い
539 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 10:27:16 ]: >>537
金を気にしないならネットブックは辞めたほうがいい。
1024x600は割と不便。

EeeUbuntuなら、最初からEeePC向けのカメラやBluetoothの設定ユーティリティが
インストール済みだが。
540 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 22:33:58 ]: >Matz氏はXbyak見て「いずれは考えなきゃいけない」的なこと言ってたんだけどね。

いつ？

>YARVとかJRubyなら多少速いかも知れんが
>本家はまだJIT以前の問題だし。

YARVはすでにRuby本家だけど？
541 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/13(金) 22:38:08 ]: >>540
www.rubyist.net/~matz/20070116.html#p04
542 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 22:41:31 ]: 参考になるかもしれない、じゃん
543 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 23:25:23 ]: >>541
リンク先読んだが、Xbyakじゃなくて「Gecko 3.0にはJIT付きJavaScriptエンジンが添付されるということだが」が、将来の参考になるという風にしか読めないんだが・・・
2007年の時点なら、Matz氏がRuby用のJITについて参考にするという文脈なら、XbyakじゃなくてYARVのJITが暗黙でしょ。
544 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/13(金) 23:50:07 ]: 別に"へるみエンジン"を検討してるなんて言ってないが
「JIT」としか言ってねーよ
545 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 00:21:40 ]: JITじゃなくて、「「いずれは考えなきゃいけない」的」と「参考になるかもしれない」は違うだろって話でしょ？
あと、
>YARVはすでにRuby本家だけど？
についてはノーコメントのなの？
546 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/14(土) 00:33:17 ]: YARVはJIT実装があったろ？
あれこそ亜流だけど
547 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/14(土) 00:39:52 ]: >>545
ちなみにYARVとか鬼車のJITは環境非依存の中間コードに変換するだけであって
CPUネイティブじゃないよ。
んで更にそのバイトコードをインタプリタで動かしてる。

ネイティブコードのJITに言及したのは↓だけ

> _ [言語] IA32(x86)JITアセンブラ Xbyak
548 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/14(土) 00:41:52 ]: ま、Rubyが動かせそうなGPUはLarrabeeが最初で最後だろうな
549 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 01:01:14 ]: いつJITの実装の話になったんだ。
話そらすのが上手いなｗｗ

そもそもMatz氏はXbyakについて「「いずれは考えなきゃいけない」的」な事は言ってないので（参考にするのはGecko 3.0の方）、>>541以降のお団子さんのコメントは見当違い。
550 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/14(土) 01:08:02 ]: Xbyakを採用するなんて俺は言ってないし君が勝手に勘違いしただけでしょ
551 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/14(土) 01:14:17 ]: もともとはRubyがC++よりクソ遅いって当たり前の話だろ。
スクリプト言語が静的コンパイル言語を超えられる訳がない
それだけのことよ
552 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 02:39:35 ]: 団子、いい加減にしろ。最近のお前はオカシイぞ。
形式言語より、日本語勉強し直せ。マジで。
コミュ力無さ過ぎ。
553 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/14(土) 02:50:01 ]: 自分が思考短絡してるのを棚に上げて他人を避難するｳﾞｧｶがいると聞いて
554 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 03:08:30 ]: 自己紹介、乙。
そんなヴァカ呼んでないから、「避難」してこい。
555 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 04:45:16 ]: テンプレ入りか
> Matz氏はXbyak見て「いずれは考えなきゃいけない」的なこと言ってたんだけどね。
556 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 04:46:34 ]: コテ団子の相手はするな。キチガイになっちまうぞ！
557 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 05:44:29 ]: >>553
自分の技術力をいくら上げても、無責任な発言ばかりしていると誰も君のことを信用しなくなるよ。気をつけたほうがいいと思う。
558 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/14(土) 11:15:53 ]: 「JIT」について話してるのに
一番近くにある単語「Xbyak」を「検討」ということにしたがる思考短絡ぶりがゆとり脳
559 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/14(土) 11:18:59 ]: Matz氏はXbyak見て（JITの仕組みを）「いずれは考えなきゃいけない」的なこと言ってたんだけどね。

これでいいかな？
560 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/03/14(土) 11:46:40 ]: 温度分布の立体グラフをExcelでプロットしたいんだが、なんかいい方法ある？
俺もゆとりだからCSVで吐き出して読み出すとか原始的な方法しか思いつかない
561 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 12:10:49 ]: 隔離スレなのか、ここはw
562 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 15:18:59 ]: >>560
Excelなんかを使いたいなら、csvでいいんでない?

つーか、団子もそれに噛み付く奴も自分の言葉が足りてないことに気付けよ。
563 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 18:37:07 ]: ここはグダスレじゃないぽ
564 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/03/14(土) 18:39:25 ]: くだをまくスレです
565 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 20:57:56 ]: どのスレでもゆとり脳の団子が来ると荒れる。
そして人がいなくなる。
566 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 21:02:45 ]: まだゆとりがどうのこうの言ってる時代錯誤な奴がいるのか
567 名前：デフォルトの名無しさん [2009/03/14(土) 21:06:25 ]: おまえはヒマになると２ｃｈ開いてるだろ？ｗ
568 名前：デフォルトの名無しさん mailto:sage [2009/03/14(土) 21:29:38 ]: お前は○○だろ

↑↑自分がそうだから他人も同じだと思っている奴の決まり文句
569 名前：デフォルトの名無しさん mailto:sage [2009/03/15(日) 01:33:02 ]: ○○な>>568
570 名前：デフォルトの名無しさん mailto:sage [2009/03/16(月) 00:57:27 ]: Vista x64
Device 0: "GeForce 9600M GT"
4096 bodies, total time for 100 iterations: 663.110 ms
= 2.530 billion interactions per second
= 50.602 GFLOP/s at 20 flops per interaction
571 名前：デフォルトの名無しさん mailto:sage [2009/03/27(金) 14:21:17 ]: >>567
暇じゃなくても開いてるわボケ
572 名前：デフォルトの名無しさん mailto:sage [2009/03/27(金) 14:35:28 ]: 忙しいときほど2ch開いちゃう、ふしぎっ
573 名前：デフォルトの名無しさん mailto:sage [2009/03/30(月) 08:24:15 ]: ■後藤弘茂のWeekly海外ニュース■
KhronosがGDCでGPUやCell B.E.をサポートするOpenCLのデモを公開
pc.watch.impress.co.jp/docs/2009/0330/kaigai497.htm
574 名前：デフォルトの名無しさん mailto:sage [2009/04/02(木) 02:16:00 ]: 素人質問で恐縮ですが……
Tesla C870を手に入れたのでCUDAで画像処理をしようとしているのですが、
CUDAでテクスチャフィルタリングユニットの機能を使うにはどうすればいいですか？
○○の○ページを嫁！で構いませんので、教えて下さい。
575 名前：,,・´∀｀・,,）っ-●◎○ mailto:sage [2009/04/02(木) 02:20:44 ]: tex.filterMode = cudaFilterModePoint;
576 名前：デフォルトの名無しさん mailto:sage [2009/04/02(木) 05:33:53 ]: ＞Tesla C870を手に入れたのでCUDAで画像処理をしようとしているのですが、
あー、8800GTXからアナログ回路を減らしてメモリを増やした、最早今となっては1万円ちょっとで買える
8800GTと数割程度しか能力の変わらない癖に値段は10倍以上と言う代物ですね。

テクスチャ関係は私はやってないからお役に立てませんがw
577 名前：デフォルトの名無しさん mailto:sage [2009/04/02(木) 19:49:08 ]: MV探すのに16x16のSADをCUDAで計算してるんだけど、なんでこんなに遅いんですか？
578 名前：デフォルトの名無しさん mailto:sage [2009/04/02(木) 23:51:01 ]: 組み方が悪いんでしょ。
579 名前：デフォルトの名無しさん mailto:sage [2009/04/03(金) 00:09:14 ]: SADするのに、組み方どうこうとかあるんですか？
テクスチャ使ってるのに、なんかキャッシュミス多い感じだし。。。
580 名前：デフォルトの名無しさん mailto:sage [2009/04/03(金) 00:29:06 ]: >>575
ありがとうございます。
cudaFilterModePointでググったら、それらしいものが見つかりました。
ttp://forum.nvidia.co.jp/EokpControl?&tid=10733&event=QE0004
これから勉強します。
581 名前：デフォルトの名無しさん mailto:sage [2009/04/03(金) 10:15:13 ]: >>579
コードも晒さず、自分の無知を曝け出し、文句だけ言うなんて、馬鹿なの?
582 名前：デフォルトの名無しさん mailto:sage [2009/04/08(水) 12:16:06 ]: なんでこう沸点低いの？馬鹿なの？
583 名前：デフォルトの名無しさん mailto:sage [2009/04/14(火) 20:59:29 ]: ION採用ミニデスクトップAcer AspireRevo、オンライン予約開始
japanese.engadget.com/2009/04/14/ion-acer-aspirerevo/
584 名前：デフォルトの名無しさん mailto:sage [2009/04/15(水) 18:41:51 ]: Mac用の2.1ってツールちゃんと入ってる？
585 名前：デフォルトの名無しさん mailto:sage [2009/04/16(木) 23:29:47 ]: 誰かN10JでCUDA使ってる人いる？
N10Jにtool kitインスコしようとすると失敗するんだけど。。。
586 名前：デフォルトの名無しさん mailto:sage [2009/04/18(土) 23:08:34 ]: 今、ブロック数を増やして並列度をあげてみるといったことを
作った行列の積の計算にあててみようと思ったんだが

tech.ckme.co.jp/cuda_diff.shtml
に書いてるブロックを複数使った場合の問題は、カーネル内でブロック間の同期を
とる方法が存在しない点である。そのため、下記のプログラムでは、1回計算するたびに、
カーネルを終了し同期をとっている。

というのは1回毎の計算をホストにコピーしてやりたい回数分ループさせるというので
いいのかな？
587 名前：デフォルトの名無しさん mailto:sage [2009/04/19(日) 00:37:24 ]: >>586
いちいちホストにデータ転送してたら時間もったいないでしょ？

つか参考にしてるページ見たけど、かなり酷いコードなんだが。。。
>>586が何をしたいかが具体的に判らないから、アドバイスしづらい。
588 名前：デフォルトの名無しさん mailto:sage [2009/04/19(日) 02:08:47 ]: １ブロックの最大スレッド数を使った計算じゃ、GPUの処理速度がCPUに対して上回らなかったので
ブロック数を増やして計算しようと思ったんですが、１ブロック制限に到達した時、どうやって次のブロックに
移動すんのかが、記述の仕方がかなりよくわからないんです。

dim3 grid(16, 1, 1);
dim3 threads( 512, 1, 1);

testKernel<<< grid, threads, mem_size*2+sizeof( float)*2 >>>( d_idata, d_odata);

カーネルのほうの計算にこの値を元に何か記述すればいいとはわかってるんですが・・・
何か参考になるとこありませんか？
589 名前：デフォルトの名無しさん mailto:sage [2009/04/19(日) 03:34:08 ]: >>588
大いに勘違いしている希ガス。
先ず第一に、>586のサイトは参考にならない。
第二に、スレッド数は必ずしも多いほど速いと言う訳ではないし、共有メモリは使わないで済むなら使わない方がいい。
第三に、行列の積の計算なら、NVIDIAのプログラミングガイドにそれなりのサンプルがある。
590 名前：デフォルトの名無しさん mailto:sage [2009/04/19(日) 21:23:36 ]: >>589
レスサンクス、ガイドとＳＤＫもう一回見てきます
591 名前：デフォルトの名無しさん mailto:sage [2009/04/20(月) 22:01:56 ]: CUDAスレって何でこんなに勢いが弱いの？
592 名前：デフォルトの名無しさん mailto:sage [2009/04/20(月) 23:13:01 ]: ぶっちゃけ2年後位には廃れてると思うからやる気がしない
日本語資料少ないし

.netでもやってる方がつぶしがきく
593 名前：デフォルトの名無しさん mailto:sage [2009/04/21(火) 14:56:41 ]: そうか、ＧＰＧＰＵだと他にまともな環境はないだろ
594 名前：,,・´∀｀・,,）っ-○◎○ mailto:sage [2009/04/21(火) 20:06:27 ]: GPUにこだわる意味がないっていう
595 名前：デフォルトの名無しさん [2009/04/21(火) 20:59:48 ]: みんなcellで思い知っただろ？
そういうことだ。
596 名前：,,・´∀｀・,,）っ-○◎○ mailto:sage [2009/04/22(水) 05:34:39 ]: .NETかGPGPUか選べる立場なら前者でいいんでない？
宗教上の理由でGPUの中でしか選択できない人がいるのももちろん知っております
597 名前：,,・´∀｀・,,）っ-○◎○ mailto:sage [2009/04/22(水) 05:44:26 ]: 強いて言えばOpenCLか？
www.nvidia.com/object/io_1240224603372.html
598 名前：デフォルトの名無しさん mailto:sage [2009/04/22(水) 12:06:34 ]: ドトネトなんてLinuxで動かないじゃん。
*BSDでも動かない。糞。

とにかくGCCで動くようにしろよ。話はそれからだ。
599 名前：デフォルトの名無しさん mailto:sage [2009/04/22(水) 16:21:07 ]: .NETはmonaで動くだろ
600 名前：デフォルトの名無しさん mailto:sage [2009/04/22(水) 16:25:47 ]: ﾓﾅｰ
601 名前：デフォルトの名無しさん mailto:sage [2009/04/22(水) 17:03:27 ]: .NETはMONOで動くが、GCCで.NETアプリってコンパイルできたっけ？
602 名前：,,・´∀｀・,,）っ-○◎○ mailto:sage [2009/04/22(水) 22:19:21 ]: CUDAかC#かって、ベクトルが全然別ですがな

>>601
Mono入れたらmcsってコンパイラが使えるようになるはずだが。。。
貴殿はGCCに入ってないという理由でPerlやPHPをも嫌うのですか？
603 名前：デフォルトの名無しさん mailto:sage [2009/04/22(水) 22:45:40 ]: 問題はなぜこのスレは勢いがないのかってことだ
604 名前：デフォルトの名無しさん mailto:sage [2009/04/22(水) 23:07:34 ]: CUDAとOpenCLの認識の仕方として、
抽象レイヤ的にこんな感じかな？？

APP
--------
C/C++
--------
OpenCL
--------
CUDA
--------
driver and runtime
605 名前：,,・´∀｀・,,）っ-○◎○ mailto:sage [2009/04/23(木) 06:04:45 ]: >>603
見た目簡単そうに見えて実は使いづらくて、本質はCellよりも更に応用分野は厳しいからね。

「CPUの数十倍とか言ってたけど全然遅いじゃん！」で、使い方を理解しないままみんな匙j投げる
いや、使い方がわかったところで、その正しい使い方が、本質的に目的のアプリケーション向きじゃなかったり。
606 名前：デフォルトの名無しさん mailto:sage [2009/04/23(木) 07:22:35 ]: そうそう、その演算だけに絞れば確かに速いんだけど、アプリケーション全体で見るとXeonに勝てなかったりね。
ボードメーカ側も自覚しているらしく、私の客先でのCUDA開発は2チップGPUボード4枚挿しするところまでいってしまっているし。
607 名前：デフォルトの名無しさん mailto:sage [2009/04/23(木) 09:11:40 ]: どうせララビーも期待外れに終るさ
608 名前：デフォルトの名無しさん mailto:sage [2009/04/23(木) 16:09:19 ]: nv社員乙ｗ
609 名前：デフォルトの名無しさん mailto:sage [2009/04/23(木) 20:57:12 ]: Larrabeeは、たかがx86、されどx86だな

Atomに毛が生えたような小規模なx86コアが数十コアあったら何が出来る？
汎用プロセッサとしては程度が知れてる分、逆に落胆しようがない。
良くも悪くも身の丈以上の期待はされてないからな。
610 名前：デフォルトの名無しさん mailto:sage [2009/04/23(木) 21:20:24 ]: 流れをぶった切るが
GeforceはCELLより変態的な構造って認識でおk？
611 名前：,,・´∀｀・,,）っ-○◎○ mailto:sage [2009/04/23(木) 21:43:53 ]: 餅は餅屋
612 名前：デフォルトの名無しさん mailto:sage [2009/04/23(木) 23:47:54 ]: 色々調べて見たけど結局CUDAのsuper piはまだ出てないんだな
CPUとGPUの比較が出来ると思ったのに
613 名前：デフォルトの名無しさん mailto:sage [2009/04/24(金) 05:23:51 ]: むしろスーチーパイがもっとリアルにぬるぬる動けば…
614 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/04/24(金) 06:37:53 ]: ＞スッチーのπ
まで読んだ

とりあえずPTXの自己コンパイルは最低限だろ

どっかの営業さんが言うにさ
「たとえCPUより速くなくとも、CPUでやってる仕事を肩代わりしてやることが
出来るだけでも使う価値があるんじゃないでしょうか」

いや、それのお膳立てのためにCPU時間食うから本末転倒なのよ。
615 名前：デフォルトの名無しさん mailto:sage [2009/04/24(金) 06:44:16 ]: ＞「たとえCPUより速くなくとも、CPUでやってる仕事を肩代わりしてやることが
＞出来るだけでも使う価値があるんじゃないでしょうか」

そういうことを臆面もなく語る営業マンを一人知っているんだけどw
同一人物と考えてよさそうだな。
616 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 00:58:56 ]: 肩代わりしてやるなんて大それたことを無理に言い張るから、おかしくなるんだよね。
重要なのは、ＣＰＵとＧＰＵとが各々の得意分野を担当し、住み分けをすることだろう。
ＧＰＵは汎用計算に向いていないのだから無理にＧＰＵを使わずＣＰＵを使えばいいし、
３Ｄゲームや科学技術計算などＧＰＵの方が効率的な計算でＧＰＵを使えばいいんだよ。

いわゆるアインシュタインとタイピストの喩えだ。
アインシュタインが優れた物理学論文を清書してもらうためにタイピストを雇ったら、
なんとまあそのタイピストよりアインシュタインの方がタイプが速かったとしよう。
じゃあ、そのタイピストを解雇すべきか？答えは否だ。タイプはタイピストに任せ、
アインシュタインは少しでも長い時間、優れた物理理論を考え出すことに費やすべきだ。
それが最も効率がいい。
617 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 01:48:13 ]: >>615
営業ならだいたい同じこと言うんじゃねぇか？
618 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 03:57:19 ]: >>616
>答えは否だ。
いや、答えは科研費の額によるだろうｗ
619 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 05:08:45 ]: >>616
タイピストに指示だすのに、タイプするのと同じような時間がかかるから問題なんじゃね？
620 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/04/25(土) 06:42:29 ]: 清書する段階で更に考えても無駄だろう
621 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 15:20:06 ]: CPUを管理職、GPUを部下に例えてみよう。
CPUからGPUへの指示の中身が足りなかったりすると
CPU-GPU間のやりとりが増えてしまい遅くなる。
CPUから指示する内容がGPUの能力を超えると
なかなか結果が返ってこない。

逆にCPUの能力が低いとGPUへの指示や対応が遅くなる。
GPUの仕事に信用がおけないとCPU側でのチェックが
必要となり負荷となる。
GPUはCPUほど守備範囲は広くないし経験も少ない。

よいCPUやGPUを入手するには予算が必要である。
またCPU、GPUを動かし続けるには経費がかかる。（電気代、冷却設備）
あまり負荷をかけるとうるさくなったり、たまに壊れたりする。
overclockによる故障は保証の範囲外であることに注意。
622 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 15:22:15 ]: GPUのIPコアが強化されれば良いんだが。
それをしようとして、intelに待ったを掛けられたんかな。
623 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 16:40:02 ]: チップセットのバスライセンスと何の関係が？
624 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 18:21:57 ]: たとえ話にすると細部の理解が必要ないから生半可な知識でも初心者が騙せて優越感に浸れてうめぇw

っていつも思う。
625 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 21:11:34 ]: CPUとGPUは、お互いに交わる方向で
じきに差は無くなるんだろ
GPUいらねでおわりじゃねーの
626 名前：デフォルトの名無しさん mailto:sage [2009/04/25(土) 21:13:38 ]: 昔GPGPUスレに書いたが、別のパラメータで同じコンテキストの処理をするようなときに
高速に処理できるのがGPUの利点。
別々のコンテキストが必要なら、丁度良いマルチプロセシングの環境を探しなさい。

どちらも歩み寄っているようだけど、ゲーム屋的には、現行世代機的なトランジスタ
バランスのマシンが次世代にも欲しいところ。
627 名前：626 mailto:sage [2009/04/25(土) 21:15:48 ]: >>625
似たようなコストで作れるならな。
見当付いてるなら特許とって今すぐ始めるのがいいぞ。
628 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/04/25(土) 22:56:05 ]: GTX280って28SMじゃなかったか？
629 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/04/25(土) 22:57:21 ]: 260のほうか
280は30か
630 名前：デフォルトの名無しさん mailto:sage [2009/04/26(日) 17:16:50 ]: >>619
常識的に考えてそんなことは起こらんだろ。
仮にタイピストに指示だすのにタイプするのと同じくらい時間がかかるなら、
それはこの喩えが適用できないケースだってだけの話だろう。

ＧＰＵに命令だすのにＧＰＵで計算するのと同じくらいＣＰＵ時間がかかるなら、
そりゃＧＰＵを使うのが不適切なケースだってだけのこと。

>>620
いや、清書してもらうのは既に考え出した理論であって、アインシュタインは
タイピストが清書してる間に次の理論を考えるんだよ。
631 名前：デフォルトの名無しさん mailto:sage [2009/04/26(日) 17:24:31 ]: たとえ話にすると細部の理解が必要ないから生半可な知識でも初心者が騙せて優越感に浸れてうめぇw

っていつも思う。
632 名前：,,・´∀｀・,,）っ-○◎○ mailto:sage [2009/04/26(日) 17:34:27 ]: >>631に全面的に同意
633 名前：デフォルトの名無しさん mailto:sage [2009/04/26(日) 18:23:11 ]: >>624
>>631
634 名前：デフォルトの名無しさん mailto:sage [2009/04/26(日) 23:38:55 ]: >>625
ジョンカーマックが昔言ってたわな。それ。
ま、今は宇宙大好きっ子になっちまったが。
635 名前：デフォルトの名無しさん mailto:sage [2009/04/27(月) 01:38:03 ]: >>630
GPUを使うのが不適切なケースばっかりなのが問題。
636 名前：デフォルトの名無しさん mailto:sage [2009/04/27(月) 09:13:30 ]: アインシュタインは一人しかいないけど、CPUとGPUがアインシュタインとタイピストのような関係なら、
CPU増やせばいいんじゃね？無理にGPUにしなくても。
637 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/04/27(月) 21:24:06 ]: なんにも出来ないのになんでも出来ますと宣伝してるから問題なわけで。
638 名前：デフォルトの名無しさん mailto:sage [2009/04/28(火) 09:16:56 ]: そらあんた、ドラッグレーサーをそれなりに走らせるためには適当なコースとそこまで運ぶためのトランスポーターと
燃料などの消耗品が必要になりますがな。

>>638
>631
639 名前：デフォルトの名無しさん mailto:sage [2009/04/28(火) 12:52:26 ]: >>637 団子
自己紹介、乙。
640 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/04/28(火) 21:36:19 ]: だんごやさんだよ
だんごせんもんてんだよ
641 名前：デフォルトの名無しさん [2009/04/29(水) 15:05:31 ]: AviUtlがCUDAに対応するのを待つか…
642 名前：デフォルトの名無しさん mailto:sage [2009/04/30(木) 21:33:03 ]: 某フィルタでシェーダで書いたより遥かに遅くて駄目だしされたような
643 名前：デフォルトの名無しさん mailto:sage [2009/05/03(日) 00:16:21 ]: 今日、CUDASDK入れてみた。CudaSetup-2.1とNVIDIA_SDK10_CUDA_2.10の入れる順番なのか
環境変数でコンパイルエラー、何度かやっているうちになんとか、サンプルが起動できるようになった。
SDKのサンプルはどこにインストールしているんだ　アホか C:\に持ってきた。
サンプルへのパスを追加してやっとコンパイル、起動できた。
644 名前：デフォルトの名無しさん mailto:sage [2009/05/03(日) 00:24:59 ]: >>643
2.1のサンプルって意味不明なとこおかれるよね。
VistaのUAC対策かと勝手に思ってるけど。
645 名前：デフォルトの名無しさん mailto:sage [2009/05/03(日) 06:12:04 ]: NVIDIAは昔っから何でもそう。
ドライバも一旦C:\に展開してからインスコしてくださりやがる。
まぁ、GCCやそれ用のライブラリが、スペースの入ったパスを
嫌うからかも試練。
646 名前：デフォルトの名無しさん mailto:sage [2009/05/04(月) 00:48:26 ]: 2.0はちゃんとProgram Files配下に置かれてたよ。
647 名前：デフォルトの名無しさん mailto:sage [2009/05/04(月) 23:00:36 ]: >>635
ＧＰＵはゲームや科学技術計算では実績をあげているので、
不適切なケースばかりではないだろう。

>>636
アインシュタインという不世出の天才物理学者と
タイピストという（当時は）いくらでもいた職業を
比較しているのが、この喩えの肝なんだよ。

ＣＰＵのコアを１個増やすより、ＧＰＵのＳＰを１個
（１０個でもいい）増やす方が、ずっと簡単だろう。
648 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/05/04(月) 23:23:48 ]: 別にCPUコアなんて年間何億個でも量産できるだろ
649 名前：デフォルトの名無しさん mailto:sage [2009/05/05(火) 05:38:26 ]: タイピストが何人もいても意味無いだろｗ
650 名前：デフォルトの名無しさん mailto:sage [2009/05/05(火) 22:12:00 ]: こんなコア橋の下に捨てますよ!
651 名前：デフォルトの名無しさん mailto:sage [2009/05/06(水) 08:41:31 ]: Compute Capability 1.3 の GeForce って、GTX だけ?
GTS とかはだめなの?
ファンがうるさいのはやだな～
652 名前：デフォルトの名無しさん mailto:sage [2009/05/06(水) 12:29:08 ]: GTSは9800シリーズのリネーム
653 名前：デフォルトの名無しさん mailto:sage [2009/05/09(土) 23:52:17 ]: 初歩的なこと聞くけど、これってグラボ一台でもできるよね？
表示用と別にCUDA専用のグラボって必要？
654 名前：デフォルトの名無しさん mailto:sage [2009/05/10(日) 06:05:44 ]: >>653
その程度が分からないと厳しいかと思いますよ。
分からなくても、やってみて駄目だったら買い足すってことで問題ないと思うけど。
655 名前：デフォルトの名無しさん mailto:sage [2009/05/10(日) 12:20:36 ]: >>653
ttp://ja.wikipedia.org/wiki/CUDA#.E3.83.8F.E3.83.BC.E3.83.89.E3.82.A6.E3.82.A7.E3.82.A2
656 名前：デフォルトの名無しさん mailto:sage [2009/05/10(日) 18:27:35 ]: >>655
赤くなっている。。。
GTS250持っているからできると思ったんだけど、二台必要なのかな？
GPUGRIDに参加しようかと思ったらドライバ入れてるのにCUDA対応のデバイスが見つかりませんっていわれるし・・・・。
657 名前：デフォルトの名無しさん mailto:sage [2009/05/10(日) 20:56:39 ]: 1台でも使える。
ただ処理中に画面が固まってOSが制御不能になることがある。
658 名前：デフォルトの名無しさん mailto:sage [2009/05/10(日) 21:24:34 ]: >>657
うーん、CUDAがちゃんと入ったかどうか確認する方法ってありますか？
659 名前：デフォルトの名無しさん mailto:sage [2009/05/11(月) 15:35:15 ]: PyCUDAなんてあるのか、おもしろそう
660 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2009/05/11(月) 20:57:31 ]: RuCUDAが必要だな
661 名前：デフォルトの名無しさん mailto:sage [2009/05/11(月) 21:41:12 ]: >>656
参加したいGPUGRIDがどんなのか分からんが、
もし、倍精度浮動小数点の演算が必要なものなら、
GTX200シリーズじゃないと無理。

ちなみに、モニタがつながっているかPhysX指定がされてないと、
CUDAでデバイス列挙されないぽい。
662 名前：デフォルトの名無しさん mailto:sage [2009/05/12(火) 01:29:13 ]: Py損とかルビィとか手続き型スクリプト言語は向かんだろ。
ocamlとか、Earlangとかの関数型言語をGPGPU対応に
した方が御利益は大きいんじゃね?

並列計算の場合、副作用とか、計算の依存関係が有ると
性能出ないんで…。
663 名前：デフォルトの名無しさん mailto:sage [2009/05/12(火) 22:31:21 ]: Earlang（笑）
664 名前：デフォルトの名無しさん mailto:sage [2009/05/16(土) 00:29:01 ]: 統計解析ソフト「R」用のパッケージ「gputools」：
ttp://cran.r-project.org/web/packages/gputools

これのWindows版バイナリを作ってくださるネ申はいらっしゃいませんでしょうか。　m(ﾟ-ﾟ；)ｶﾐｻﾏ…
665 名前：デフォルトの名無しさん mailto:sage [2009/05/16(土) 10:27:22 ]: >>660
こんなのはあるみたいですが
ruby-opencl.rubyforge.org/
666 名前：デフォルトの名無しさん mailto:sage [2009/05/18(月) 17:38:13 ]: GPUの計算部分で
レジスタを多く使っちゃうようにコンパイラで最適化されちゃうんだけど
部分的に無効にする方法はありませんか？
667 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/05/18(月) 20:36:57 ]: volatile
668 名前：デフォルトの名無しさん mailto:sage [2009/05/18(月) 23:05:56 ]: >>667
？volatileは最適化から外すだけで、レジスタには適応されるっしょ

つか>>666 のレジスタ使ったら嬉しくない事ってのが想像できない。。。
669 名前：デフォルトの名無しさん mailto:sage [2009/05/18(月) 23:42:16 ]: >>648
ＳＰだって年間何億個でも量産できるけど。

>>649
誰も、ＧＰＵを何個も用意しろとは言ってない。
670 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/05/18(月) 23:56:12 ]: >>668　volatile __shared__
671 名前：デフォルトの名無しさん mailto:sage [2009/05/19(火) 09:21:51 ]: >666の動機によっては__shared__では何の解決にもならないような。
確認していないけれど、恐らくレジスタを使い回さずに消費しまくる方が速いんだろうねぇ。
672 名前：デフォルトの名無しさん mailto:sage [2009/05/26(火) 14:36:24 ]: SP2＋未公開パッチで7RC以上に軽くなってるよ

Windows Vista SP3 Part1
pc12.2ch.net/test/read.cgi/win/1241571715/225
673 名前：デフォルトの名無しさん mailto:sage [2009/05/26(火) 14:38:56 ]: ｺﾞﾊﾞｰｸ
674 名前：デフォルトの名無しさん mailto:sage [2009/05/29(金) 18:11:27 ]: SSE　４コアフルに使ったら
最上位品でも大差ないｗ
675 名前：デフォルトの名無しさん mailto:sage [2009/05/30(土) 15:06:57 ]: code.google.com/p/thrust/
>Thrust is a CUDA library of parallel algorithms with an interface resembling the C++ Standard Template Library (STL).
676 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/05/30(土) 18:16:26 ]: きた！STLきた！これで勝つる！　　

ないない
677 名前：デフォルトの名無しさん mailto:sage [2009/05/30(土) 21:28:10 ]: brookみたいだな。
678 名前：デフォルトの名無しさん [2009/06/02(火) 17:20:15 ]: 仮想マシン上でCUDAのインストールに成功した方はいらっしゃいますか？
当方、ホストOS：Vista、ゲストOS：Ubuntu8.04です。
仮想マシンであるUbuntu上で、NVIDIAドライバ: NVIDIA-Linux-x86-180.22-pkg1.runを起動してみました。
すると、「 You do not appear to have an NVIDIA GPU supported by the 180.22 NVIDIA Linux graphics driver installed in this system」とエラーがでました。
GPUは、GeForce 9800 GTです。どなたか、アドバイスお願いします。
679 名前：デフォルトの名無しさん mailto:sage [2009/06/02(火) 17:50:02 ]: 仮想マシンは無理
680 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 02:45:20 ]: >>675
合計なんかCUDAでやって早くなるのか？
681 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/06/03(水) 02:49:18 ]: 分割統治法は並列化の基本だな
682 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 10:53:10 ]: 合計求めるのは苦労したなぁ。
結局、分割数(128とか256とか)置きに足していって、その結果はPCで足した記憶がある。
683 名前：デフォルトの名無しさん mailto:sag [2009/06/03(水) 11:18:35 ]: とりあえず公式の３つをインストールしたのですがTMPGEncで確認できませんみたいなことを言われました。
インストールするだけではcudaの恩恵を与れないのでしょうか?
684 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 11:31:01 ]: すいません、直ぐ解決しましたorz
ｸﾀﾞがちゃんと動いているか確認したいのですが方法はありますでしょうか？
685 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 11:57:52 ]: >>684
SDKをインストールしたのなら、サンプルもインストールしてビルドしてみよう。サンプルが動けば、大丈夫。
# 特に、deviceQueryは便利。
686 名前：デフォルトの名無しさん [2009/06/03(水) 14:12:00 ]: こんにちは。CUDA初心者です。質問があります。
Visual C++ 2008、CUDA tool kit ver2.1、CUDA SDK ver2.1
で、サンプルのsimpleCUBLASをビルドすると、
1>LINK : fatal error LNK1181: 入力ファイル 'cutil32D.lib' を開けません。
と出ます。
そこで、CUDA SDKのlibを調べたところ、
cutil64D.libがあり、32のほうはありませんでした。
この場合、どうすればビルドできるのでしょうか？
687 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 15:00:01 ]: リリースバージョンをリンクする。
688 名前：デフォルトの名無しさん [2009/06/03(水) 16:01:01 ]: リリース構成でビルドしたところ、今度は、
1>LINK : fatal error LNK1181: 入力ファイル 'cutil32.lib' を開けません。
と出ました。
CUDA SDKには、64があり、32はありません。
32と64の違いって一体何なのでしょうか・・・
689 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 16:17:51 ]: パスが通ってないんだろ
690 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 17:07:17 ]: OSが64bitだと、32bitのCUDAライブラリはインストールされなかったような。
691 名前：デフォルトの名無しさん [2009/06/03(水) 17:07:40 ]: ご回答ありがとうございます。
パスが通っていないということですが、
「パスを通す」について、詳しく説明していただけませんか？
知識不足で申し訳ありません；；
692 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 17:43:34 ]: 環境を名に使ってるかによるが、
Visual Studioだとプロジェクトのプロパティからインクルードするファイルがあるディレクトリのパスと、
libがあるディレクトリのパスをついかする
linuxだとコンパイラのオプションに追加する

詳しくはぐぐれ
693 名前：デフォルトの名無しさん [2009/06/03(水) 18:04:37 ]: 何度も回答していただきありがとうございます。
リンカの追加ライブラリを調べたところ、
ちゃんと、SDKのcommon/libが指定されてました。
しかし、この中には、cutil32.libではなく、64があります。
ということは、690さんのおっしゃるとおり、
32bitのCUDAライブラリはインストールされなかったということなのでしょうか？
もしそうでしたら、サンプルプログラムは64bitに対応してないが、
自分でプログラムを作る分には、上記のようなエラーはでないということでしょうか？
694 名前：デフォルトの名無しさん mailto:sage [2009/06/03(水) 23:53:30 ]: サンプルのリンカ設定を編集して64bitのライブラリをリンクすればいいんじゃね？
695 名前：デフォルトの名無しさん [2009/06/04(木) 13:12:53 ]: アクティブソリューションプラットフォームとプラットフォームをWin32からx64へ変更したところ、
エラーがなくなりました。
そのかわり、
1>------ ビルドのスキップ: プロジェクト: simpleCUBLAS ------
1>
========== ビルド: 0 正常終了または最新の状態、0 失敗、1 スキップ ==========
とスキップしてしまいました。
何が原因なのでしょうか・・・
696 名前：デフォルトの名無しさん [2009/06/04(木) 18:26:30 ]: threadIdx.xがうまく値を返さなく困っています。
最小のプログラミングだと　ちゃんとした値を確認できるんですけど、
規模のあるプログラム書いた物では、threadIdx.xをみると最大でも1000以内の数値が40000を超えていたりします。

かなりラフな書き方していて、グローバル変数使いまくってるのが意見ないのでしょうか？
__device__　 kouzoutai[2000];//グローバル変数
とか宣言しまくって搭載メモリーを超えちゃってるかもしれませんが、その時は明確なエラーとか出ますか？
697 名前：デフォルトの名無しさん mailto:sage [2009/06/04(木) 19:59:22 ]: エラーは基本的に出ない
698 名前：デフォルトの名無しさん mailto:sage [2009/06/05(金) 09:08:24 ]: >>696
threadIdxはプログラムで変更できないと思うが。
どうやってthreadIdx.xを「みる|確認できる」としたのか知らんが、その手段を確認すべきでは?
ptx出力を眺めればthreadIdx.xをコピーした先で壊してたりするのが分かるんじゃない?
グローバル変数にたった2000要素くらいなんてことないと思うが、巨大な構造体でも置いてるの?
あーそれから、メモリをオーバフローしてもコンパイルエラーも実行時エラーも出ないどころか、
突然システムごとフリーズするかもしれないから覚悟しておいてね。
699 名前：デフォルトの名無しさん [2009/06/06(土) 17:41:22 ]: >>501
　　　？
　　∧∧
　 (´･ω)
　_｜⊃／(＿＿＿
／ヽ_(＿＿＿_／
￣￣￣￣￣￣￣
700 名前：デフォルトの名無しさん mailto:sage [2009/06/07(日) 01:25:14 ]: 寝た子を起こしたなw
701 名前：デフォルトの名無しさん [2009/06/08(月) 08:06:10 ]: >>699
　　！
　 ∧∧
　(･ω･ )
　_| ⊃／(＿＿
／ヽ-(＿＿_／
￣￣￣￣￣￣
702 名前：デフォルトの名無しさん mailto:sage [2009/06/08(月) 20:11:26 ]: 　
　　あ"
　 ∧∧
　(◎ω◎)
　_| う／(＿＿
／ヽ-(＿＿_／
￣￣￣￣￣￣
703 名前：デフォルトの名無しさん [2009/06/09(火) 23:30:40 ]: >>701
　　　　　ｵﾊﾖｰ!!
　　　　∧∧ ∩
　　　 (`･ω･)/
　　　⊂　　ノ
　　　　(つノ
　　　　 (ﾉ
　＿＿_／(＿＿_
／　　(＿＿＿／
￣￣￣￣￣￣
704 名前：デフォルトの名無しさん mailto:sage [2009/06/10(水) 20:07:54 ]: 質問。
グリッド・ブロック・スレッドのカーネル側での計算への応用方法が
よくわからないのですが・・・・特に動きです。

const unsigned int tid =blockIdx.x * blockDim.x + threadIdx.x;
がスレッドＩＤを示しているというのはわかるのですが・・・

for(int x=0;x<height;x++)
for(int y=0;y<width;y++){
　　　　　　　　sum=sum+tex2D(tex, x, y)*((float)(cos((M_PI*((x*width+y)+0.5)*tid)/number)));

}
outputdata[tid]=sum;

の中で、tidはどういう働きをしてるんでしょうか？
特に回収する配列であるoutputdataの動きが知りたいです。
わかる方ご教授お願いします・・・
705 名前：デフォルトの名無しさん [2009/06/12(金) 04:58:52 ]: >>703
　 ∧,,∧
　( `･ω･)　ｳｰﾑ…ここは？
　/　∽ |
　しー-Ｊ
706 名前：デフォルトの名無しさん mailto:sage [2009/06/12(金) 09:52:33 ]: >>704
何が判らんのか判らん。
tidが個別のデータスレッドの番号を指すように働くことが判っているなら、

その番号でoutputdataにアクセスしていることくらい判りそうなもんだが。

仮に、blockDimが4でgridDimが2だとしたら、blockIdxは0か1、threadIdxは0から3になるわけで。
つまりはtidは0から7になるわけだな。

つーか、VIPのWikiにも情報があるよ。
vipprog.net/wiki/%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E8%A8%80%E8%AA%9E/CUDA.html
707 名前：デフォルトの名無しさん [2009/06/13(土) 00:18:28 ]: >>730
カウンター3連打って言うけどスローで見るとカウンター2発に追撃1発って感じ
まあそれでも凄いって言うか、何この異次元映像ｗ
もはや芸術的とか圧倒的とかそういうレベルを超越していて笑いしか出てこないわけだが？ｗｗｗ
しかもメディナは立ち上がるしｗｗ不死身かｗｗｗｗ
この試合はボクシング以外の何か別の競技だわｗｗｗｗｗｗｗｗ
708 名前：デフォルトの名無しさん mailto:sage [2009/06/13(土) 00:24:10 ]: 誤爆すまそ
俺が代わりに言っといてやったぜ
709 名前：デフォルトの名無しさん mailto:sage [2009/06/13(土) 01:35:36 ]: CUBLASに加えてCULAPACKとか用意して欲しい
LU分解もできない環境なんて
710 名前：デフォルトの名無しさん [2009/06/13(土) 04:07:09 ]: GPGPUはDirectX11で花開くんだろ。
エンコード高速化対応お待ちしております。

DirectX 11講座（中編）
非ゲーマーのアナタのパソコンも
DirectX 11演算シェーダーでスーパーコンピューターに変身する！
game.watch.impress.co.jp/docs/series/3dcg/20090327_79998.html
GPGPUの場合は、組んだGPGPUプログラムがATIかNVIDIAのどちらかでしか動かない、
踏み絵的な「ATI対NVIDIA」なのだ。
これではGPGPUの進化、発展、普及が望めない。
そこでGPGPUの標準化プラットフォームが強く望まれるようになった。
このGPGPU標準プラットフォームを、Windows環境下で提供しようと出てきたのがDirectX 11ということになる。
DirectX 11は、このGPGPUの標準プラットフォームとして「DirectX Copmute Shader」（演算シェーダー）を提供する。

演算シェーダーでなにができるのか
game.watch.impress.co.jp/img/gmw/docs/079/998/html/3dd1103.jpg.html
711 名前：デフォルトの名無しさん mailto:sage [2009/06/13(土) 08:42:36 ]: >>710
エンコードって意外に並列処理できる箇所少ないんだけど。。。CUDAでどのベンダも対応してこないのはそのため。
Compute Shader出てきても状況は変わらないと気が
712 名前：デフォルトの名無しさん mailto:sage [2009/06/14(日) 15:19:59 ]: それマルチ
713 名前：デフォルトの名無しさん mailto:sage [2009/06/14(日) 18:56:21 ]: 今日本屋見てきたけど
CUDAの入門書とかって無いね。
世の中にはあるのかな。
714 名前：デフォルトの名無しさん [2009/06/16(火) 16:56:23 ]: __device__ int particle_position[30][30][50][30];
__device__ int particle_position_num[30][30][50];
　：
とか
__device__ __constant__ float K_dWpress;
　：
な感じで、結構たくさんグローバル変数をデバイス側に作ってるんだが、
これって、CUDA的にやっていい手法？てか数次元配列ってカーネル関数内で普通のcっぽくアクセスできる？

とりあえずメモリは足りるみたいだから、デバイスホスト間でのデータ転送は基本的にしなくて、
結果のみホスト側に持ってきたいんだけど。

コンパイルエラーはないけど、カーネル起動させたあとエラーが出て、
一瞬画面が消える。
715 名前：714 [2009/06/16(火) 17:22:05 ]: 追記
ちなみに、Emuモードだと問題なく終了できます。
716 名前：デフォルトの名無しさん mailto:sage [2009/06/16(火) 17:29:37 ]: >>714
CUDAはメモリ管理なんてしないから、デバイス側の変数がどれだけあるのか自分で把握すること。
一瞬画面が消えるのは表示用とCUDA用を同じGPUでやっている所為だと思われ。
もっと酷いときはフリーズするから要注意で。
717 名前：デフォルトの名無しさん [2009/06/16(火) 23:29:13 ]: CUDA初心者です。

サンプルをいじくっているのですが、いくつかわからないことがあり質問させてください。

①テクスチャメモリ
キャッシュが効くからグローバルメモリよりも高速との事ですが、
時間を計ってみるとグローバルメモリと変わらない・・・。
どのような用途で使用するのでしょうか？

②異なるカーネル関数の同時実行
ブロック、スレッド数を決めてカーネル関数を実行しますが、
cudaThreadSyncrinize関数やメモリコピー関数を呼ばなければ
同期待ちはしないですよね？
であれば、カーネル関数を2つ書いたときに同時実行するのでしょうか？
マニュアルを見る限りではできないようですが、会社の先輩が出来るというのでホントかなと。

お分かりの方宜しくお願いいたします。
718 名前：デフォルトの名無しさん mailto:sage [2009/06/16(火) 23:32:51 ]: 俺も初心者だが。

1. 線形補完できるよ！速度面で違わないなら、それ以上はどう違うのか知らん。

2. なんか俺の動かしてる感触だと同時実行してる気がする。少なくともCPUとGPUで同期はしていないよ。
719 名前：717 [2009/06/16(火) 23:59:21 ]: >>718

サンクス。

①は線形補間機能があるのは存じていますが、
補間せず生データを使用したいものでして・・・。

②は自分でも本家CUDAZONEで調べてみましたが、どうもできないっぽいです。

forums.nvidia.com/index.php?showtopic=84740&hl=cudaStreamSynchronize

このスレの前にもありましたね。
よく見てませんでした、すみません。
cudaStream～って何のためにあるんだか。
720 名前：デフォルトの名無しさん mailto:sage [2009/06/19(金) 00:40:24 ]: CUDAを始めようかと考えていますが、下記の様な処理はCUDAで速くなりますか？
721 名前：デフォルトの名無しさん mailto:sage [2009/06/19(金) 00:55:31 ]: function hoge(const b:string):boolean;
begin
result:=true;
end;
722 名前：デフォルトの名無しさん mailto:sage [2009/06/19(金) 00:58:07 ]: >>720
すみません、間違えて書き込んでしまいました。
改めて、
typedef struct _table_t {
float x,float y, float z;
} table_t;

typedef sturct _vec {
float vector[4];
} vec;

typedef union _vtemp_t {
vec V[3], table_t data[4];
} vtemp_t;

table_t DATA[100];(DATAにいろいろと情報をが入っている)
vtemp_t temp;
temp.data[0] = DATA[15];
temp.data[1] = DATA[43];
temp.data[2] = DATA[11];
temp.data[3] = DATA[80];
(tempのメンバdataにＤＡＴＡの値をランダムに代入)
メンバdataがもつ、x､y､z情報をメンバVにx､y､z毎にまとめたいです。例えばこんな感じに。
V[0] = {data[0].x, data[1].x, data[2].x, data[3].x};
V[1] = {data[0].y, data[1].y, data[2].y, data[3].y};
V[2] = {data[0].z, data[1].z, data[2].z, data[3].z};
CellとかSSEならSIMDを使って出来ると思いますが、CUDAでも速くなるなら、
CUDAをやってみようかと思っています。
723 名前：デフォルトの名無しさん mailto:sage [2009/06/19(金) 01:25:58 ]: それ計算じゃなくてただのメモリ転送じゃん。 CUDAでやることじゃないよ。
724 名前：デフォルトの名無しさん [2009/06/20(土) 14:41:38 ]: Mac でCUDAをやろうとしています。
/Developer/CUDA/lib/にあるライブラリをライブラリのサーチパスに含めるには
どの環境変数を設定すればよいのでしょうか？
LD_LIBRARY_PATHに追加してみたのですが、サーチしてくれません
725 名前：デフォルトの名無しさん mailto:sage [2009/06/20(土) 14:43:15 ]: >>724
DYLD_LIBRARY_PATH
726 名前：デフォルトの名無しさん [2009/06/20(土) 15:02:09 ]: >>725
早速の回答ありがとうございます。
DYLD_LIBRARY_PATH に追加してみたのですがやはりうまくいきません。
ちなみに-Lで指定すればうまくいきます。
727 名前：デフォルトの名無しさん mailto:sage [2009/06/20(土) 18:11:27 ]: Coalesced、Non-Coalescedって簡単にいうとどういうこと？
728 名前：デフォルトの名無しさん mailto:sage [2009/06/20(土) 18:14:29 ]: >>108
729 名前：デフォルトの名無しさん mailto:sage [2009/06/20(土) 18:18:03 ]: >>728
よくわからん
730 名前：デフォルトの名無しさん mailto:sage [2009/06/20(土) 20:19:04 ]: ttp://noridon.seesaa.net/article/105559613.html
731 名前：デフォルトの名無しさん mailto:sage [2009/06/20(土) 21:42:57 ]: 大前提として、ブロック内でデバイスメモリにアクセスするアドレスが連続していたら、コアレス。
んで対応アーキテクチャによってスレッド単位でアドレスが連続している必要があったりする。

まぁ簡単に言うと、バス幅有効活用できまっせ適な使い方をイメージすればいいかと。
なんでそのバス幅でアクセスできるアラインを考える事になる。
732 名前：デフォルトの名無しさん mailto:sage [2009/06/20(土) 23:08:40 ]: >>726
実行時じゃなくて、ビルド時のリンクのこと？
DYLD_LIBRARY_PATHは関係ないから-Lでやってね。
733 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 01:03:25 ]: >>726
LIBRARY_PATHでできなかったっけ？
734 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 06:52:13 ]: 配列で最初と最後の変数だけ別の処理をしたいのですが、
どのように書けばよいのでしょうか？
従来のプログラムの場合、配列がa[N]だったばあい、
for(i=1;i<N-1;i++)と書けばよいのですが、
CUDAのカーネルで処理する場合どのようにすればよいのでしょうか？
735 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 07:45:47 ]: >>734
とりあえず、現状のカーネル書いてくれれば教えやすいのに
736 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 14:51:04 ]: NVIDIAが配布しているということで、PhysXの質問をさせて下さい。

キネマティックなアクターが物体と接触した時に受ける力の取得方法が分かりません。
ご存知の方がいらっしゃいましたらご教示下さい。
737 名前：734 [2009/06/21(日) 17:50:38 ]: >>735
例えば、今は

__global__ void test(int thread_size, int one_size, float *res_d)
{
    int bx = blockIdx.x;
    int tx = threadIdx.x;
    int pos = bx * thread_size + tx;
    if (pos==0)
        res_d[pos] = cos(res_d[pos]);
    else
        res_d[pos] = sin(res_d[pos]);
}

このように、if文で0とN-1の場合だけ別の処理をするようにしているのですが、if文は遅くなるので、避けたいのですが。

具体的にやりたいのは、3次元の偏微分方程式を解く際の境界条件部分の計算です。
この場合各面、各辺、各頂点合わせてif文が20個以上になってしまいます。

何か良い方法はないでしょうか？
738 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 18:12:51 ]: >>737
最初と最後だけ別の処理なら、そこはCPUに任せて、
残りをGPUにやらせればいいと思うけど、それじゃだめなん？
posを+1して、並列数をN-2にすればいけそうだと思うけど。

あと、そのソースだと N-1 の処理が別になってない気がするのと、
posがN以上かどうかのチェックが無いのが気になる。
（ソースは単に省略しただけで、チェックはそもそも必要ないように組んでるのかも知れないが）
739 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 18:53:40 ]: >>737
一般的にアセンブリレベルで分岐をなくしたいときは、こんなテクニックを使ったりする。

// i == Nのときだけsinをcosにする

float s = sin(なんとか);
floac c = cos(なんとか);
int b = i == N; // true が (int)1に変換されることを期待する
return (c * i) + (s * (1 - i));

もちろん3行目は実装依存なので、プロセッサのマニュアル見ながらいちいち確認はした方がいいんだが、
だいたいのプロセッサで使えるテクニック。
740 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 19:09:54 ]: >>737
それだと全てのパターンでsinとcosの両方が計算されるから

float s = sin(なんとか + b * PI / 2);

にすれば？
741 名前：740 mailto:sage [2009/06/21(日) 19:11:22 ]: ごめん安価ミスった

>>740は>>739へのレスです
742 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 19:37:25 ]: CUDAにはsincosねーの？
また三項演算子でいいんじゃねーの？
743 名前：デフォルトの名無しさん mailto:sage [2009/06/21(日) 23:01:37 ]: >>737
あらかじめ、特殊条件について位相を補正しときゃいいんじゃないの？と思うのは俺だけ？
744 名前：デフォルトの名無しさん mailto:sage [2009/06/22(月) 00:12:40 ]: >>736
PhysXスレがゲーム製作技術にあるからそっち行け
745 名前：736 mailto:sage [2009/06/22(月) 01:52:13 ]: >>744
誘導ありがとうございます
746 名前：デフォルトの名無しさん mailto:sage [2009/06/22(月) 10:53:08 ]: >>742
あるよ。但し、ストリームプロセッサに一個しか超越関数演算機がないから使い方間違うと遅くなるけど。
747 名前：デフォルトの名無しさん mailto:sage [2009/06/23(火) 08:26:25 ]: >>746
超越関数演算機なんてハード的に存在したっけ？倍精度演算機じゃなくて？
748 名前：デフォルトの名無しさん mailto:sage [2009/06/23(火) 14:47:11 ]: >>747
SFU(Super Function Unit)がある。
ただし、4SPで共有で、>>747のいうように8SPで共有するのは倍精度演算器。

sin()、cos()、tan()は確かに遅いけど、
sinとcosについては__sinf()と__cosf()を使えば、
精度は悪くなるけど1op/clockでできる。
除算以外の算術演算が8op/clockでできることを考えたらそれでも遅いことには変わりないけど。
749 名前：デフォルトの名無しさん mailto:sage [2009/06/23(火) 15:22:26 ]: 超越関数がレイテンシ1なんて凄いね
SFUだけ100倍のクロック数とか
してるのかなぁ
750 名前：デフォルトの名無しさん mailto:sage [2009/06/23(火) 18:30:15 ]: www.khronos.org/opencl/
OpenCL 1.0 リリース
751 名前：デフォルトの名無しさん mailto:sage [2009/06/23(火) 18:36:49 ]: First OpenCL demo on a GPU
www.youtube.com/watch?v=r1sN1ELJfNo
752 名前：デフォルトの名無しさん mailto:sage [2009/06/23(火) 18:43:26 ]: www.nvidia.com/object/cuda_opencl.html

ドライバ一式は登録しないといけないようだ
753 名前：デフォルトの名無しさん mailto:sage [2009/06/23(火) 21:47:02 ]: >>748
SFUなんてあったのか、しらなかった。DPみたいに実行はSPと並行してできるのかな？
754 名前：デフォルトの名無しさん mailto:sage [2009/06/24(水) 07:13:15 ]: やっとFortran対応の話出てきたけど、有料なんかね
PGI and NVIDIA Team To Deliver CUDA Fortran Compiler
ttp://eu.st.com/stonline/stappl/cms/press/news/year2009/t2399.htm
755 名前：デフォルトの名無しさん mailto:sage [2009/06/24(水) 07:18:14 ]: ていうかいつのまにかに2.3のベータ出てたのか
756 名前：デフォルトの名無しさん mailto:sage [2009/06/26(金) 12:01:06 ]: GTX 285でようやくおれのようなへっぽこでも普通にcpuを凌駕するコードが書けるように
なったようだね。

後は（値段はともかく）消費電力が下がってくれれば、大ブレイクしそう。
757 名前：デフォルトの名無しさん mailto:sage [2009/06/27(土) 12:19:52 ]: ３００Wなんてクアッドコアマシンを４台くらいクラスタリングしたような消費電力だからな
758 名前：デフォルトの名無しさん mailto:sage [2009/07/01(水) 03:13:56 ]: >おれのようなへっぽこでも普通にcpuを凌駕する
だったらCPU要らんがな。
むしろCPU<->GPU間の通信がボトルネックなので、CPU無くして
GPUに直接I/O繋げられるようにしろや！
759 名前：デフォルトの名無しさん mailto:sage [2009/07/01(水) 21:14:50 ]: >>758
それなんていうTesla?
760 名前：デフォルトの名無しさん mailto:sage [2009/07/01(水) 23:30:38 ]: >>759
それTesｌaでもない。
761 名前：デフォルトの名無しさん [2009/07/02(木) 07:45:08 ]: CUDAで乱数を効率的に生成する方法を教えてください
762 名前：デフォルトの名無しさん mailto:sage [2009/07/02(木) 09:23:34 ]: >>761
コアごとに違う種から乱数生成すればいいんじゃね？
763 名前：デフォルトの名無しさん [2009/07/03(金) 00:25:57 ]: 質問なんですが、SDKに付いてたサンプルをmakeしようとしたところ
以下のようなエラーが出てうまくいきません、何か足りないものがあるのでしょうか

/usr/bin/ld: cannot find -lXi
collect2: ld はステータス 1 で終了しました
make[1]: *** [../../bin/linux/release/nbody] エラー 1

OSはfedora10です。色々初心者なのでどうかお願いします。
764 名前：デフォルトの名無しさん mailto:sage [2009/07/03(金) 00:52:49 ]: libXiというパッケージをインストールできないかね
俺もfedoraはよく記憶にないんだが
765 名前：デフォルトの名無しさん [2009/07/03(金) 07:55:20 ]: >>764
libXiというのがインストールされていないということだったのですか
早速インストールしたいと思います。どうもありがとうございました。
766 名前：デフォルトの名無しさん [2009/07/05(日) 04:21:12 ]: teslaとgeforceって何が違うの？
767 名前：デフォルトの名無しさん mailto:sage [2009/07/05(日) 05:03:33 ]: OpenGL向けかDirectX向けか
768 名前：デフォルトの名無しさん mailto:sage [2009/07/05(日) 10:40:00 ]: >>767
それquadroとgeforceでしょ。

>>766
teslaはhpc専用ボードで、ディスプレイの出力ポートがない。
NVIDIAがボードの製造まで一貫して行ってて、テストもしっかり通している…らしい。
あとメモリが4GB乗ってる。
769 名前：デフォルトの名無しさん mailto:sage [2009/07/06(月) 09:01:42 ]: CUDAというよりハードウェアの話なんですが質問させてください

TESLA C1060をMM3500に刺したいんですが、この状態だとBIOSが拝めません
ビープ音「－・・（長短短）」って音がするんでAwardで調べたらビデオアダプタ不良らしい
マザーボードだけを他のに変えたら正しく起動するので、電源やTESLAが悪いわけではなさそうです
TESLAなしのMM3500だけならUbuntuのBoot CDからMemtestが走るとこまで行きました
770 名前：デフォルトの名無しさん mailto:sage [2009/07/06(月) 09:34:48 ]: スレ違いどころか板違いだ
判ってるなら該当板いけよ
771 名前：デフォルトの名無しさん mailto:sage [2009/07/06(月) 22:26:16 ]: >>769
買ったとこに聞いた方が良いかと...
772 名前：デフォルトの名無しさん mailto:sage [2009/07/07(火) 00:46:08 ]: >>772
ありがとう　まずはVIAにメールしてみます
773 名前：NVIDIAの営業の受け売りw mailto:sage [2009/07/07(火) 09:05:04 ]: ・GeForce
NVIDIAはパーツ選択にはノータッチ。各社さんが勝手に安い部品を積んでいるから動作しなくても当然。
プロならそんなアキバ的発想はやめて、QuadroFXかTeslaを使ってください。
・QuadroFX
NVIDIAの厳しいテスト基準に合格した高品質の出力を保証しているから決して安くありません。
プロにも安心してお使いいただけます。
・Tesla
QuadroFX以上に品質に重点を置いてテストを行なっています。HPCにはこれ以外の選択肢はありえません。
774 名前：デフォルトの名無しさん mailto:sage [2009/07/07(火) 09:07:57 ]: >>768
OpenGL向けもDirectX向けもないよ。>773にもある通り、NVIDIAがテストしているかどうかの違い。
なんせ、GeForceの製造販売を行なっているELSAの営業の前で堂々と>773みたいなことを仰ってる。
10倍の価格差も、当然ということなのでしょう。
775 名前：デフォルトの名無しさん mailto:sage [2009/07/07(火) 22:07:57 ]: そりゃカノプーが手を引くわけだよな
どうしたってGeForceは価格競争になっちまう
776 名前：デフォルトの名無しさん mailto:sage [2009/07/08(水) 00:28:37 ]: 不特定多数の客向けのプログラムでGPGPUを使うコードを書くやつはアホウ、ってことだな。
777 名前：デフォルトの名無しさん [2009/07/08(水) 06:57:16 ]: 全てアホウと決め付けるのはねぇ
　中には超やばいものを開発するかもよ（世界は広い）

特にロシア東欧は要注意！
778 名前：デフォルトの名無しさん mailto:sage [2009/07/09(木) 00:40:40 ]: >>777
アホウと言っているのが、nVIDIAの営業ってことだよ。
779 名前：デフォルトの名無しさん mailto:sage [2009/07/11(土) 00:02:30 ]: 「阿呆」とは言わなかったけれど、「動かなくても当然ですから」くらいのことは言ってたなぁ。
780 名前：デフォルトの名無しさん mailto:sage [2009/07/11(土) 00:17:01 ]: 今月末に CUDA2.3 が出るとさ。

PGI compiler 9.0 は2週間体験できるから、Fortran で単純な行列積の
コードを書いて試してみたけど、Core2 Quad + GeForce9800GTX で
CUDA 2.0 という古い組み合わせのせいか，
!$acc region の設定の効果が全く現れなかった。

pgf95 -ta=nvidia:cc11 matrix.f
というコマンドでいいと思うんだけど。
781 名前：デフォルトの名無しさん [2009/07/11(土) 19:31:18 ]: CUDA用の姫野ベンチをGTX285で実行しようとしたのですけど動きませんでした。
何が原因かわかりません、どなたかわかる方いらっしゃいましたらお願いします。
782 名前：デフォルトの名無しさん mailto:sage [2009/07/11(土) 20:08:49 ]: 原因はわかりますが、何をお願いされているのかわかりません。
783 名前：デフォルトの名無しさん [2009/07/11(土) 21:19:47 ]: その原因について詳しく教えて頂きたいのですが
784 名前：デフォルトの名無しさん mailto:sage [2009/07/11(土) 22:37:16 ]: >>783
原因なら簡単ですよ。
あんたが人間じゃなくて人だからです。
785 名前：デフォルトの名無しさん mailto:sage [2009/07/11(土) 23:13:59 ]: 動くかどうかも保障してないものが普及するとか思ってるのか？
786 名前：デフォルトの名無しさん mailto:sage [2009/07/11(土) 23:20:06 ]: >>785
>779のことを言っているのなら、QuadroFXとTeslaがあるから大丈夫だと思っている
頭に蛆が涌いているとしか思えないNVIDIAの営業に言ってあげてください。

無駄だけどw
787 名前：デフォルトの名無しさん mailto:sage [2009/07/15(水) 19:53:47 ]: visual profilerについて質問です
プロファイラの項目GPUTimeを見ると全体で3000くらいなのですが、
プログラム中で cutCreateTimer( &timer) を使って計測すると 18ms～60msのバラけた値が出ます
これってどちらが正しい値なのでしょうか？
788 名前：デフォルトの名無しさん mailto:sage [2009/07/15(水) 21:31:07 ]: >>781
バイナリのCUDA SDK1.1だからだろ
789 名前：デフォルトの名無しさん mailto:sage [2009/07/15(水) 23:02:02 ]: >>787
cutCreateTimer()の実装を見てみた?
790 名前：デフォルトの名無しさん mailto:sage [2009/07/20(月) 19:00:37 ]: Fixtarsの資料面白いね、祝日に更新ご苦労さんだわ
この調子で本家資料全部訳してくれないかなｗ
ttp://gpu.fixstars.com/index.php/CUDA%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0TIPS
791 名前：デフォルトの名無しさん mailto:sage [2009/07/22(水) 08:05:55 ]: 2.3来たね、やっと64bit版で32bitコンパイルできるようになった
792 名前：デフォルトの名無しさん mailto:sage [2009/07/23(木) 13:44:49 ]: Mac版の2.3.0ドライバーインストールしてみたら、一回目libcuda.dylibだけ入らなかったことに気付かなくて、全然見当違いの所で原因探してて苦労したよ。
一発で入るようにしてください、nVidia様
793 名前：デフォルトの名無しさん mailto:sage [2009/07/25(土) 22:10:54 ]: ttp://www.nv-info.com/cuda_for_highschool/

20年前の高校生は参加しちゃダメかな?
794 名前：デフォルトの名無しさん mailto:sage [2009/07/25(土) 22:13:36 ]: Teslaプレゼントしろよ
相変わらず一貫してないな
795 名前：デフォルトの名無しさん [2009/07/26(日) 23:27:14 ]: CUDAで動くトリップ検索ツール頂ける方いらっしゃいませんか
796 名前：デフォルトの名無しさん [2009/07/27(月) 00:50:11 ]: ﾉｼ
797 名前：デフォルトの名無しさん mailto:sage [2009/07/27(月) 03:25:45 ]: 【レポート】中高生がCUDAにチャレンジ! NVIDIAがGPUコンピューティングの体験イベント開催 | パソコン | マイコミジャーナル
journal.mycom.co.jp/articles/2009/07/27/cuda/index.html
798 名前：デフォルトの名無しさん mailto:sage [2009/07/27(月) 10:10:10 ]: >>795
あれ？まだ誰も作ってなかったの？
799 名前：デフォルトの名無しさん mailto:sage [2009/07/27(月) 10:43:20 ]: あと6年早ければ・・・
800 名前：デフォルトの名無しさん mailto:sage [2009/07/27(月) 11:08:28 ]: >>798
らしいです
801 名前：デフォルトの名無しさん mailto:sage [2009/07/27(月) 22:53:08 ]: じゃぁ俺が作るか。
まずはCUDA無いバージョンのソースがあるURL教えてｗ
802 名前：デフォルトの名無しさん mailto:sage [2009/07/28(火) 00:02:52 ]: まあ、待て屋。
803 名前：デフォルトの名無しさん mailto:sage [2009/07/28(火) 00:07:41 ]: >>802
それはラデ用のしかなかったような…
804 名前：デフォルトの名無しさん mailto:sage [2009/07/28(火) 00:11:46 ]: CUDA無しを所望のようだからこれで良くね？
CPU用のコードも当然あるよ。
805 名前：デフォルトの名無しさん mailto:sage [2009/07/28(火) 00:17:31 ]: >>804
nVIDIAのVGAしか持ってないんだorz
806 名前：デフォルトの名無しさん mailto:sage [2009/07/28(火) 00:22:33 ]: >>805は>>795か？
俺は>>801に向けて書いたんだが・・・
807 名前：デフォルトの名無しさん mailto:sage [2009/07/28(火) 00:26:42 ]: >>806
あ、はい。
俺は>>805であり、>>795です。

ID出てないと面倒だね
808 名前： ◆hEpdoZ.tHU mailto:sage [2009/07/28(火) 06:51:10 ]: >>807
トリップ使ってけれw
809 名前： ◆DokuomoeW. mailto:sage [2009/07/28(火) 16:50:48 ]: >>808
おｋ

>>807です
810 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/07/29(水) 21:19:39 ]: Larrabee向けのソースコードなら多分あるんだがｗｗｗｗｗ
811 名前： ◆DokuomoeW. mailto:sage [2009/07/30(木) 12:59:13 ]: まだ手元にある定額給付金で
ラデ買ってくるかな…

それも一つの選択肢
812 名前： ◆DokuomoeW. mailto:sage [2009/07/31(金) 21:10:00 ]: かつてTripcode ExplorerのCUDA版があったらしいね
でも、今はもう消えてる…
813 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/07/31(金) 21:52:43 ]: ギコハハハ
814 名前：デフォルトの名無しさん mailto:sage [2009/07/31(金) 22:14:27 ]: >>812
がはは！それはネタだからーw
815 名前： ◆DokuomoeW. mailto:sage [2009/07/31(金) 23:11:08 ]: >>814
そうなんだｗｗｗｗｗｗ
816 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/07/31(金) 23:31:10 ]: ふふふ
817 名前：デフォルトの名無しさん mailto:sage [2009/08/01(土) 05:48:13 ]: あらあらふふふ
818 名前：デフォルトの名無しさん mailto:sage [2009/08/01(土) 07:37:39 ]: これでいいじゃん
tmkk.hp.infoseek.co.jp/tripper/
819 名前：デフォルトの名無しさん mailto:sage [2009/08/02(日) 20:49:45 ]: ３００Wも消費する物体を数週間動かすとは恐ろしいｗ
820 名前：デフォルトの名無しさん mailto:sage [2009/08/03(月) 07:25:23 ]: shared memoryって,CPUで言うL1キャッシュみたいなもん？？
821 名前：デフォルトの名無しさん mailto:sage [2009/08/03(月) 08:04:31 ]: >>818
これって使うとどれくらい寿命減るの？
作った人って絶対に高負荷かけて石を壊そうとしてるよね・・・
822 名前：デフォルトの名無しさん mailto:sage [2009/08/03(月) 15:36:31 ]: >>821
なにいってるの・・・
まあたしかにファンがクソだと熱で死ぬ可能性はあるが
823 名前：デフォルトの名無しさん mailto:sage [2009/08/04(火) 03:54:01 ]: >>820
大分違う。つーか、CPUとは考え方を変えないと使いこなせないよ。
824 名前：デフォルトの名無しさん mailto:sage [2009/08/04(火) 10:08:33 ]: >>820
CPUで言うレジストリみたいなもんだ
825 名前： ◆DokuomoeW. mailto:sage [2009/08/04(火) 13:52:22 ]: >>818
for Macだ…と
826 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/08/04(火) 21:07:21 ]: Windows用に直せるだろこんなん。（と言ってやらない）
827 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/08/04(火) 22:06:06 ]: Vistaだと困ったことに、描画に支障ない程度に負荷調整しないとAeroが死ぬｗｗｗ
828 名前：デフォルトの名無しさん mailto:sage [2009/08/08(土) 22:45:00 ]: だれかトリップ生成のアルゴリズム説明して？
趣味でCUDA処理のコード書いてみたいからー

>>818のコード読めって話だけど、ハッシュとか暗号系はアルゴリズム知ってないと、時間かかるんでお願いします。
829 名前：デフォルトの名無しさん mailto:sage [2009/08/08(土) 23:22:43 ]: 309 名前：◆cZfSunOs.U []： 2009/06/19(金) 11:46:10 ID:MLNb4KfK0 (17)
生キー指定以外の12桁以上「##～」形式も将来の拡張用にしておきましょう．
で，まとめ:

if (length $handle_pass >= 12)
{
my $mark = substr($handle_pass, 0, 1);
if ($mark eq '#' || $mark eq '$')
{
if ($handle_pass =~ m|^#([[:xdigit:]]{16})([./0-9A-Za-z]{0,2})$|)
{
$GB->{TRIPSTRING} = substr(crypt(pack('H*', $1), "$2.."), -10);
}
else
{
# 将来の拡張用
$GB->{TRIPSTRING} = '???';
}
}
else
{
use Digest::SHA1 qw(sha1_base64);
$GB->{TRIPSTRING} = substr(sha1_base64($handle_pass), 0, 12);
$GB->{TRIPSTRING} =~ tr/+/./;
}
}
else
{
# 従来形式
}
830 名前：デフォルトの名無しさん mailto:sage [2009/08/08(土) 23:23:28 ]: インデント消えたorz
831 名前：デフォルトの名無しさん mailto:sage [2009/08/08(土) 23:25:49 ]: Kernel用のCRYPTを自前実装しないといけないのか・・
832 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/08/09(日) 00:05:13 ]: C++用のコード晒してみる。これは実際に某ツールで使ってる。

char* trip_sha1(const char* key) {
SHA1Context sha1;
SHA1Reset(&sha1);
SHA1Input(&sha1, reinterpret_cast<const uint8_t*>(key), std::strlen(key));
uint8_t digest[SHA1HashSize];
SHA1Result(&sha1, digest);

static char cryptresult[13]; /* encrypted result */
static const char base64mod[] = /* 0..63 => ascii-64 */
"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789./";
cryptresult[0] = base64mod[digest[0] >> 2];
cryptresult[1] = base64mod[(digest[0] << 4 | digest[1] >> 4) & 0x3F];
cryptresult[2] = base64mod[(digest[1] << 2 | digest[2] >> 6) & 0x3F];
cryptresult[3] = base64mod[digest[2] & 0x3F];
cryptresult[4] = base64mod[digest[3] >> 2];
cryptresult[5] = base64mod[(digest[3] << 4 | digest[4] >> 4) & 0x3F];
cryptresult[6] = base64mod[(digest[4] << 2 | digest[5] >> 6) & 0x3F];
cryptresult[7] = base64mod[digest[5] & 0x3F];
cryptresult[8] = base64mod[digest[6] >> 2];
cryptresult[9] = base64mod[(digest[6] << 4 | digest[7] >> 4) & 0x3F];
cryptresult[10] = base64mod[(digest[7] << 2 | digest[8] >> 6) & 0x3F];
cryptresult[11] = base64mod[digest[8] & 0x3F];
cryptresult[12] = 0;
return cryptresult;
}
833 名前：デフォルトの名無しさん mailto:sage [2009/08/09(日) 00:36:34 ]: ｓｈ１のCUDA版くらいありそうだけど
834 名前：828 mailto:sage [2009/08/09(日) 00:38:07 ]: ご両人、コードさんくす～
実はC住人なんで（汗

蛇足だが関数内のstaticの使い方が気持ち悪いです（笑

さー昔しらべたSHA-1の資料でもひっぱってくるかー
835 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/08/09(日) 01:53:23 ]: オリジナルのcrypt(3)でもchar配列はstaticでとってるんだよな
たしかにキモイ

std::stringとか使ってみ？
CUDAに移植できへんで？
836 名前：デフォルトの名無しさん mailto:sage [2009/08/09(日) 01:56:33 ]: 笑えるくらいきれいなワンツーｗ
837 名前：デフォルトの名無しさん mailto:sage [2009/08/09(日) 01:57:37 ]: ごば
838 名前：デフォルトの名無しさん mailto:sage [2009/08/09(日) 13:04:04 ]: CUDAでrandは使えない？
839 名前：デフォルトの名無しさん mailto:sage [2009/08/09(日) 13:11:14 ]: >>838
使えないよ。自分で用意しないと。
840 名前：デフォルトの名無しさん mailto:sage [2009/08/09(日) 13:25:21 ]: CUDA上でのSHA1の実装というとこのあたりか？
forums.nvidia.com/index.php?showtopic=102349
841 名前：デフォルトの名無しさん mailto:sage [2009/08/10(月) 22:49:48 ]: r0,g0,b0,r1,g1,b1,r2,....

というようなグローバルメモリにあるchar型の配列に対して、GPU側からuchar4型変数で

{r0,g0,b0,r1} {r1,g1,b1,r2},....

というようにアクセスすることは可能でしょうか？
842 名前：デフォルトの名無しさん mailto:sage [2009/08/11(火) 01:04:40 ]: y*4+x
843 名前：841 mailto:sage [2009/08/11(火) 01:59:08 ]: あーこれじゃ駄目だった
ごめんなさい、忘れてください
844 名前：828 ◆TripEQ.VNLIV mailto:sage [2009/08/11(火) 21:13:55 ]: だめだー
SHA1と総当り攻撃じゃ現実的じゃない。。。
4桁適合ならまだ使える感じorz
845 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 13:47:21 ]: 誰かRADEON HD48xx向けのCUDAドライバ開発してないの？
846 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 14:23:41 ]: >>845
どちらかというと
AMD Accelerated Video Transcoding（AVT）

では？
847 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 16:05:07 ]: いや、CUDA互換機能つけて
CUDA対応ソフトを使えるようにならんかなーと。
848 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 17:49:44 ]: >>847
OpenCLじゃだめですか？
849 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 17:50:52 ]: ラッパー作ってくれるならいいけど・・・
既存のソフトでCUDAにしか対応してないやつとか
CUDA以外の開発環境が整わなさすぎて、見切り発車でCUDA使いたいなとか
あるんで。
850 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 18:44:14 ]: CUDAってOpenCL取り込んでたような……気のせい？
851 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/08/21(金) 20:13:56 ]: CUDAは環境。

OpenCLは言語・フレームワークで、CUDA向けのプログラムを記述出来る物のひとつ。
従来の「CUDA言語」は "C for CUDA" という扱いになった。
852 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 20:36:51 ]: x64でCUDAをしようと思ったんだけど，vitual studioでプロジェクトが作れない．
CUDA_VS_Wizard_W64.2.0を入れて，
CUDA64WinAppはテンプレートとして表示されるようになったが，
選択してもうまく生成されない．
CUDAWinApp(32bit)の方はうまく生成される．

64bitで開発してる方や，
症状の原因がわかりそうな方，ご教授願う．
853 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 21:00:40 ]: おっと，自己解決．
スレ汚しスマソ．
854 名前：デフォルトの名無しさん mailto:sage [2009/08/21(金) 23:07:09 ]: >>853
いや、教えてよ（笑）
855 名前：デフォルトの名無しさん mailto:sage [2009/08/23(日) 20:28:04 ]: 共有メモリのBank Conflictがいまいちわからないのですが、
同じ配列のアドレス(添え字)に複数のスレッドが同時にアクセスしなければいよいのでしょうか？
856 名前：デフォルトの名無しさん mailto:sage [2009/08/26(水) 07:21:12 ]: 最近のマザボってPCIEx16が普通に2,3個あるよな
ところで違う世代のGeForce9800、GTX280とかを積んだ場合
CUDAはどちらのGPUも使ってくれるの？
857 名前：デフォルトの名無しさん mailto:sage [2009/08/26(水) 09:24:02 ]: >>856
CUDAはGPUチップを一つだけしか使えない。
どれを使うかは、cudaSetDevice()で指定しないといけない。
サンプルの、MultiGPUを参照のこと。
858 名前：デフォルトの名無しさん mailto:sage [2009/08/26(水) 18:32:52 ]: ということは，
最近のグラボ一枚にGPUが2つ積んであるヤツでも，
GPUを指定してやらないといけないのか．
859 名前：デフォルトの名無しさん mailto:sage [2009/08/26(水) 18:39:49 ]: そそ、しかも1スレッド1GPUに拘束される。
860 名前：デフォルトの名無しさん mailto:sage [2009/08/26(水) 19:17:17 ]: >>858
未確認だけど、SLIの場合はドライバで1つのGPUに見せかけるらしい。
2チップを積んでいるカードは内部でSLI接続されているらしいし、
1デバイスの場合と同じでもいいかもしれない。
861 名前：デフォルトの名無しさん mailto:sage [2009/08/26(水) 23:51:13 ]: SLIとCUDAは同時使用できないとかじゃないのか？
862 名前：デフォルトの名無しさん mailto:sage [2009/08/27(木) 00:10:58 ]: forum.nvidia.co.jp/EokpControl?&tid=11178&event=HE0004
* SLIグループ内の各GPUは個別に列挙されるようになったため、
計算アプリケーションはSLIがグラフィックス向けに有効になっている
場合でも、マルチGPUの性能を活用することができます。

と、リリースノートにはあるね
863 名前：デフォルトの名無しさん mailto:sage [2009/08/27(木) 00:25:41 ]: >>862
2.3からはSLIの場合でもCUDAからは個別に見えるように変更なのか。

SLIでゲームの中でPhysXとかCUDAを使う場合とかは特定のチップに負荷が集中して
そのせいで利用効率が落ちたりしないのかな？
864 名前：デフォルトの名無しさん mailto:sage [2009/08/27(木) 01:23:53 ]: プログラマが生理整頓するか，
CUDAさんよろしくお願いしますするか，どっちがいいかってことか．
でも，一度の演算に対して，1コアにスレッドが重複しない限りは，
無駄に複数のGPUに処理を分配する必要性はないよな．
演算の命令ごとにGPUを切り替えるなら，効果はありか．
SLIの場合って，GPUのRAMは共有されるのか？

>>859
GPUはGPU内の大量のコアがそれぞれ1スレッドずつ受け取る仕組みじゃないのか？
1スレッド1GPUって並列演算ってレベルじゃねーぞ．
865 名前：デフォルトの名無しさん mailto:sage [2009/08/27(木) 03:53:53 ]: >>864
「スレッドを受け取る」っていう意味がわからんのだが。
CPUの１スレッドがGPU１個使って、そのGPUが複数スレッドを実行する。
866 名前：デフォルトの名無しさん mailto:sage [2009/08/27(木) 04:59:54 ]: >>865
CPUのスレッドなのね．
スレッドのことをGPUのハードウェアスレッドかと勘違いしてた･･･orz
867 名前：デフォルトの名無しさん [2009/09/01(火) 18:44:53 ]: CUDAがでてきた2005年当時は、シングルコアの限界も見えてきて、それなら

有り余るグラフィックボードの性能を、3Ｄレンダリングや、フォトショップフィルタなど、ゲーム以外にも有効活用と歌ってたけど

あれよあれよという間に、インテルCPUがマルチコア化してきて、そっちの方が上記の用途に、大きな効果があり、メインになってきて、

結局グラフィックボードは、結局またGPUはゲーム以外に用なしになったなｗ
868 名前：デフォルトの名無しさん [2009/09/01(火) 19:21:06 ]: U-BASICってバージョンアップしないの？
869 名前：デフォルトの名無しさん mailto:sage [2009/09/01(火) 19:38:01 ]: >>867
コンシューマーはそうかもしれんけど、エンタープライズはまた少し違うんじゃない？じゃなきゃNVIDIAもTESLAなんて作らんよ。
870 名前：デフォルトの名無しさん mailto:sage [2009/09/01(火) 20:10:53 ]: ああシールの貼り替えで10倍の金を取るために始めたアレか
871 名前：デフォルトの名無しさん mailto:sage [2009/09/01(火) 23:00:56 ]: >>870
本気でそう思ってるなら偏狭すぎる。少しは頭使えよ
872 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 00:04:27 ]: >>869
むしろ、nVIDIAはTESLA以外作りようが無かったんでしょ。
だってCPU作れないんだもん。
873 名前：デフォルトの名無しさん [2009/09/02(水) 02:29:04 ]: NVIDIA は、2009年8月17日、業界標準の線形代数ライブラリ、LAPACK を、超並列処理の NVIDIA CUDA 対応 GPU に最適化した実装「CULA」のベータ版が EM Photonics 社からリリースされたと発表した。
LAPACK ルーチンは何百万人もの開発者が活用し、数値物理学、構造力学、電子設計オートメーションなどさまざまな問題の解決に役立てられている。
CULA により、ワークステーションやデータセンターで使われている NVIDIA Tesla GPU の力を活用し、クアッドコア CPU 1個の場合でパフォーマンスを最大10倍に引き上げることが可能になるとされる。
EM Photonics には、CULA Basic、CULA Premium、CULA Commercial からなる CULA tools という製品ファミリがある。CULA ライブラリとは、LAPACK ルーチンの実装の1つで、GPU の能力を活用して高速に処理が行えるようにしたもの。
LAPACK というのは線形代数でよく使われる関数の集合体で、科学分野や工学分野で活用されている。科学分野や工学分野の問題は線形モデルで近似できることが多いため、線形代数ルーチンで解が得られる。
CULA は、NVIDIA GPU が持つ超並列 CUDA アーキテクチャを活用し、LAPACK ルーチンの多くを高速で処理できる。
874 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 08:05:49 ]: >>872
それ以外作りようがなかったからって…事前事業でやってるんじゃないんだぞ？「しょうがなくTESLA作る」とかありえないんだよ。純粋に、戦略的なマーケティングの結果だろ。
875 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 08:10:12 ]: >>874
× 事前
◯ 慈善
876 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 09:31:55 ]: 戦略的なマーケティングの結果、マザボは作れてもCPUは作れないNVIDIAは仕方なしに、
TESLAをでっち上げたわけですね、判ります。
877 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 12:41:59 ]: CPUは作れないってどういう意味で言ってるんだろ
x86互換プロセッサなんて作れるところはいくらでもある
ただライセンスの問題なダケ
あとはマーケットな
878 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 12:46:20 ]: x86互換プロセッサぐらいなら大学の授業でFPGAに実装したことあるぞ
879 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 12:51:56 ]: 互換なんてダレでも作れるべ
性能はムリだが
880 名前：デフォルトの名無しさん mailto:age [2009/09/02(水) 12:58:32 ]: DXCSがくるからCUDAはもういらないかもー
881 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 12:59:56 ]: 作るだけならVIAにだってできる
882 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 13:07:09 ]: ↑↑お前出来ないだろｗ
883 名前：408 mailto:sage [2009/09/02(水) 14:49:32 ]: NVIDIAってCUDA捨てたん？
ここ1年ぐらい見る限りすげーやる気なさそうなんだけど。
884 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 15:18:52 ]: 捨ててないけどやることないだけだろ
885 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 17:51:42 ]: 今はOptiXに期待
886 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 18:43:14 ]: news.developer.nvidia.com/2009/08/nexus-visualstudio-based-gpu-development.html

おまいら，
9月30日以降に期待ですよ．
887 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 21:10:27 ]: CUDAで最適化したいプログラムに条件分岐満載で
実際の演算部分がほとんどなくてDate並列化できそうもないときって
あきらめるしかないのかな･･･。
888 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/09/02(水) 22:49:22 ]: www.atmarkit.co.jp/fcoding/articles/parallel/03/para03a.html

Fixstarsのエンジニアからの有り難い言葉
889 名前：デフォルトの名無しさん mailto:sage [2009/09/02(水) 23:43:18 ]: 条件分岐でシーケンスを発生させる事そのものが目的でなけりゃ、
何か手はあるんでないの？
何しようとしてるか知らんけど、今使ってるアルゴリズムに以外に
GPU向きの手がないか調べてみたらいいんでない？
890 名前：デフォルトの名無しさん mailto:sage [2009/09/03(木) 15:42:37 ]: やっぱりx86コアが100個も200個もあるほうがいいんじゃね？
891 名前：デフォルトの名無しさん mailto:sage [2009/09/03(木) 17:29:08 ]: >>889
なるほど
もっとソースを読んで見るよ。

あとCUDAについてのオススメの文献あるかな？
892 名前：デフォルトの名無しさん mailto:sage [2009/09/03(木) 21:47:44 ]: >>891
GPU Gems3。訳本はアホみたいに高いが、英語でよければネットで公開されてる。途中までだけど。
893 名前：デフォルトの名無しさん mailto:sage [2009/09/03(木) 21:52:19 ]: >>890
そりゃそうかもしれんが、コスト見合わんだろ。
894 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/09/03(木) 22:31:48 ]: x86のほうが性能マシな演算用途こそ、GPUが何百台あってもコスト的に見合わないんじゃないかと
895 名前：デフォルトの名無しさん mailto:sage [2009/09/03(木) 22:43:05 ]: >>892
thx
でかい書店いって立ち読みして検討するかな。

>>894
そうとも限らない。
32bit単精度浮動小数点を扱えるプロセッサが数百個あるわけで、
プログラムの仕方によっては高速化する。
まあ向き不向きがあるのは事実だし、どっちが良いとは決め付けられない。
896 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/09/03(木) 22:47:43 ]: 向き不向きでいえばGPUに向いてない（というか使うことすらできない）演算の方が圧倒的に多い。
897 名前：デフォルトの名無しさん mailto:sage [2009/09/04(金) 01:37:54 ]: 円周率の計算とかに使えればいいじゃん。
898 名前：,,・´∀｀・,,）っ-○○○ mailto:sage [2009/09/04(金) 02:08:24 ]: なにそれ誰が得するの？
899 名前：デフォルトの名無しさん [2009/09/04(金) 02:10:35 ]: 円周率を100万桁まで暗記してる人が、あれ？次なんだったっけって言って調べられる
900 名前：デフォルトの名無しさん mailto:sage [2009/09/04(金) 05:48:21 ]: GPUが今後発展するなら、GPUに向いたアルゴリズムが開発されてくるでしょう。
でも、普通のCPUが高速化してくるので、結局特定の分野しか使えないのかもね。まさにハードウェアアクセラレータ。
901 名前：デフォルトの名無しさん mailto:sage [2009/09/04(金) 16:30:49 ]: 全く依存性がなく並列に計算できるものに向いてるんだっけ？
あんまり計算用途には向いてない気もするんだけど。
902 名前：デフォルトの名無しさん mailto:sage [2009/09/04(金) 17:05:27 ]: 実際高速化されてるものもあるんだし、得している奴はいるだろ
903 名前：デフォルトの名無しさん mailto:sage [2009/09/04(金) 17:31:22 ]: 粒子法では，GPUかなり美味しいです＾＾
904 名前：デフォルトの名無しさん mailto:sage [2009/09/04(金) 17:34:46 ]: 画像や文字のパターンマッチングにもそれなりに使えるよ。
905 名前： ◆TripEQ.VNLIV mailto:sage [2009/09/04(金) 21:24:41 ]: 実は一般ユーザーが恩恵を受ける事はほとんどない事実。。。
906 名前：デフォルトの名無しさん mailto:sage [2009/09/04(金) 22:19:54 ]: ATI臭くなってきたぞ，このスレ
907 名前：デフォルトの名無しさん mailto:sage [2009/09/05(土) 01:41:57 ]: ATIのGPUでCUDAが使えるならともかく使えないのに、
なぜかCUDAスレでATIの話題がされる不思議。
908 名前：デフォルトの名無しさん mailto:sage [2009/09/05(土) 04:37:45 ]: ATOM３３０搭載PCでCUDAなグラボを付けたら幸せになりますか？
909 名前：デフォルトの名無しさん mailto:sage [2009/09/05(土) 05:32:50 ]: >>908
気持ち次第です。
910 名前：デフォルトの名無しさん mailto:sage [2009/09/05(土) 07:55:02 ]: NVIDIAへの財務次第です
911 名前：408 mailto:sage [2009/09/05(土) 09:50:44 ]: あきらかに落ち目でしょNVIDIA

[ 新着レスの取得/表示 (agate) ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef