【C++】高速化手法【SSE】

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 05/23 20:39 / Filesize : 188 KB / Number-of Response : 807
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【C++】高速化手法【SSE】

1 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 02:55:36 ]: C++やインラインアセンブラ、SSEなどによる高速化の手法
について語りましょう。
2 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 03:00:35 ]: まずはi++は++iにしろよ。
3 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 03:02:26 ]: それで速度があがるならな
4 名前：デフォルトの名無しさん [2005/10/27(木) 03:07:02 ]: Intelのコンパイラ買って開発したほうがいいんじゃね？
ヘタに素人が最適化なんてやるより
5 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 03:07:39 ]: アルゴリズムよりメモリアクセスが最大のボトルネックだったりする。
結局レジスタやキャッシュを意識するのが重要になってくる。
6 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 03:09:50 ]: >>4
コンパイラを変えるんじゃなくてパフォーマンスの解析ツールを
買わないとダメじゃないかな。
コンパイラ自体はVC7も用途によっては悪くないし。
7 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 03:14:21 ]: >>6
VC++はプロファイラがついてると思うが
8 名前：デフォルトの名無しさん [2005/10/27(木) 03:14:44 ]: 今月のCマガ買って読め。
9 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 03:21:52 ]: STL使うなら自分で同じような物を作ったほうが高速。
10 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 03:24:25 ]: その心は？
11 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 03:26:35 ]: なんでいきなりSTLが・・・
12 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 04:41:40 ]: 主要部分をasmで書き直せばＯＫ
13 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 05:59:50 ]: >>7
VC++のプロファイラは、普通に一通りの機能を備えているのに、使われないんだよね。

VC.NET用だと、Compuware(Numega)がプロファイラを無償で提供してくれてるよ。
VC++6.0まで、TrueTimeは売り物だったのにねぇ。
14 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 06:01:00 ]: >1
>>12

インラインアセンブラよりも、組込み関数を使ったほうがいいことが多い。
・コンパイラが最適化をしてくれる
・プログラムの記述が楽で、修正しやすい。
という2つの大きなメリットがあるよ。
15 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 06:01:56 ]: なおVC系の場合、
組込み関数をインライン展開する
というオプションを有効にしてしまうと、
インライン展開されてしまい、最適化されない
という直感的ではない結果になるので、確認しながらやりましょう。
16 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 06:02:27 ]: VCにプロファイラがあるなんて気づかなかった
というか2chで聞いたら無いっていわれてずっと信じてた
17 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 06:09:25 ]: VC7でなくなったんだっけか
18 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 11:13:28 ]: >>13
>使われないんだよね。
GUIに罠が仕掛けてあるからじゃまいか？
19 名前：デフォルトの名無しさん [2005/10/27(木) 11:23:51 ]: SSE2が付いてるマシンではインラインアセンブラで書かれた処理を実行したいけど、
それ以外のマシンでは普通のC++で書かれた処理を実行したいと言うような場合、
どうすればいい？
20 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 11:25:47 ]: 開始時に判別して関数ポインタで入れ替え
21 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 11:29:20 ]: やっぱそれしかないか。
関数のインライン化されにくいなぁとか、
C++のメンバ関数だと面倒だなぁとか思ったんで。
22 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 12:25:13 ]: >>21
インスタンスをやたら作る必要が無いならファクトリーパターンで作り分けしてもらうという逃げ方もある。
23 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 16:10:52 ]: んなややこしいことしなくても、マクロ使って1つのソースから2つのオブジェクトを吐かせればいい。

関数ポインタだってコストかかるので、1つずつの関数を切り替えるのではなく、
2通りのプログラムを1つのプログラムに押し込むくらいの気持ちで、
もっとmain関数に近いところから切り替えてしまおう。
24 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 23:22:49 ]: インテルコンパイラってプリフェッチ命令を挿入するとか言ってるけど
プリフェッチって入れても効果ほとんど無いよね？
あとこれからPen3コアをベースにしたCPUになっていくからPen4用に
最適化はしないほうがいい？
25 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 23:26:27 ]: >>24
場合によるだろ。prefetch命令はL2へのロードのアルゴリズムを
変更するので、場合によってはメモリのレイテンシを劇的に減らす
事が出来る。というかintelのpdf嫁。
26 名前：デフォルトの名無しさん mailto:sage [2005/10/28(金) 03:13:27 ]: prefetch命令を使って具体的に速度改善を説明する本とかないのかな。
サンプルコードとか載せてるのがあったら欲しい。
Webでも以外と情報無いし。
27 名前：デフォルトの名無しさん [2005/10/31(月) 20:11:01 ]: STL like Template based coding with MMX/SSE extension
www.codeproject.com/useritems/STL_like_coding_with_MMX.asp

Intel IPP
Iten OpenCV
そのまま使えば高速じゃん
28 名前：デフォルトの名無しさん [2005/11/10(木) 03:07:31 ]: >>27
なんだこれ。
マトリクスとかImageとか扱えるものなのか。
結構みんな使ってるんだろーか。
29 名前：デフォルトの名無しさん [2005/11/10(木) 05:49:34 ]: クイックソート以外の例えばマージソートやバルブソートなどはどのようなときに使うのでしょうか？
30 名前：デフォルトの名無しさん mailto:sage [2005/11/10(木) 07:43:42 ]: >>29
クイックソートは万能ではない。
特にソートする要素数が少ないときには他の方法が早い。
また、安定でないという欠点もある。（マージソートは安定）
31 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 01:17:48 ]: >>29じやないんだが
>また、安定でないという欠点もある。（マージソートは安定）

これどーゆー意味なんよ？
高速化のスレだから速度の事を言ってるのか？
32 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 01:53:10 ]: >>31
ソートで不安定といったら
比較関数の評価で重みが重複した場合に順序関係が保存されない
ことだと思うが…(;´Д｀)
33 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 07:49:51 ]: >>31
>>31
>>31
34 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 13:33:13 ]: 出席番号順にソート済みの身体測定データを身長順にソートしたいとする。
ただし、同身長の人間がいる場合は出席番号の若い順に並んだままになっていて欲しい。
そういうときは「安定したソート」の出番よ。
クイックソートだと出席番号はバラバラになるからな。

まあ「安定した速度」って点でもマージソートはなかなかのもんだと思うけど
それにしても
35 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 13:36:35 ]: それは、キーの指定が悪い。
36 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 13:47:58 ]: >>31
基本情報の資格でも取ったほうがいいお
言葉が通じないと頭良くても吸収できないでしょ
37 名前：デフォルトの名無しさん mailto:sage [2005/11/11(金) 20:59:00 ]: >>35
ソートで大小の評価を、
身長だけではなく、出席番号も加味してやればいい
と言いたいのだろう。

でもね、出席番号がついてなかったら、どーするの?
38 名前：デフォルトの名無しさん mailto:sage [2005/11/12(土) 02:14:44 ]: 一般的にソート前のインデックス順序を比較で使えばいい
二次キーとして出席番号があるならそれを使えばいいし
39 名前：デフォルトの名無しさん mailto:sage [2005/11/12(土) 17:04:32 ]: インデックスがついていなかったら?
40 名前：デフォルトの名無しさん mailto:sage [2005/11/12(土) 18:46:58 ]: アドレスで比較すればいいだろ馬鹿か？
41 名前：デフォルトの名無しさん mailto:sage [2005/11/13(日) 16:52:40 ]: アドレスで比較? なに馬鹿いってるの?
42 名前：デフォルトの名無しさん mailto:sage [2005/11/13(日) 19:38:41 ]: IntelのライブラリはAMDでワザと遅くなるようにしてそうなんで
一般向けには使ってません
43 名前：デフォルトの名無しさん mailto:sage [2005/11/14(月) 02:57:33 ]: 高速なメモリコピーするにはmemcpy?
それともキャシュ無視するためにSSEとか利用するのか?
44 名前：デフォルトの名無しさん mailto:sage [2005/11/14(月) 07:00:54 ]: memcpyの実装はたくさんあるから一概には言えないぞ。

最もシンプルなのは1バイトずつコピーしているし、
コンパイラによってはインライン展開どころか組込み関数として処理しちゃうぞ。
45 名前：43 mailto:sage [2005/11/15(火) 02:12:42 ]: へぇー、組み込み関数(SSE?)で処理しちゃうのか。
ネットで調べてたらSSEのレジスタ4つにまず読んで、それを
また4つ書き出すとレイテンシとやらを隠蔽できるとかなんとか
あったけどそんな感じかな。
とりあえずmemcpy使っておきます。
46 名前：デフォルトの名無しさん mailto:sage [2005/11/15(火) 15:00:39 ]: 組込み関数の意味がわかってない希ガス。
47 名前：デフォルトの名無しさん mailto:sage [2005/11/15(火) 17:17:53 ]: 関係ないけど __divdi3 は組み込み関数なんだろうか。
48 名前：・∀・)っ-●◎○- ◆Pu/ODYSSEY mailto:sage [2005/12/11(日) 17:53:45 ]: 直にCPUの命令またはその組み合わせに展開してしまえる関数だね。

組み込み関数の利用は#pragma intrinsic で明示できるよ。
逆に出来ない場合は組み込み関数として用意されてないといえる。」

ぶっちゃけIntel C++のオートベクトライズなんてあんま役に立たない。
処理を並列化できるところは明示的にMMX/SSEの組み込み関数
使って最適化したほうがいい。
CPUの動きを知り尽くしてレジスタカラーリングしてくれるから
へたなアセンブリコード書くより速い。

あとIntel C++なんかは、インライン関数を基本的に展開しない。
STL使ったら重いってことは結構ある。
ただし __forceinliceは受け付ける。

VC2005はcpuidとかローテート命令まで組み込み関数として使える
ようになったから、アセンブラ嫌いにはかなりフレンドリーになった希ガス。
49 名前：デフォルトの名無しさん mailto:sage [2005/12/12(月) 08:14:59 ]: ローテートはVC6の頃から組み込み関数であった希ガス。
50 名前：デフォルトの名無しさん mailto:sage [2006/01/30(月) 17:07:08 ]: 2005は8bit版や16bit版も用意されてる
msdn2.microsoft.com/library/hd9bdb82(en-US,VS.80).aspx
51 名前：デフォルトの名無しさん [2006/02/13(月) 23:04:16 ]: 　　　　　　　　　　　　　　　　　　　　　￤
　　　　　　　　　　　　　　　　＼　　　　　|
　　　　　　　　　　　　　　　　　＼　　　人　　／
　　　　　　　　　　　　　　　　　　　　メ´　　ヾ　 _,－'
　　　　　　　　　　　　　　　－―＜　 , -､　て＿
　　　　　　　　C++とSSE！　　　 ) /　/　(´
　　　　　　　　　　　　　　　　/　/　⌒ ､
　　　　　　　　　　　　　　　　　(⌒Ｖ　,'´｀ヽ
　　　　　　　　ﾄ､　　　 ,ﾍ　　　ヽ　　!　　:〉
　　　　　　　　ﾄ､ヽ　　 / /!　　 / 　､ﾞーｧ'
　　　　　　　　|,ﾉ　´￣｀　ヾ!　　/　　 /｀~´
　　　　　　　 ,'　＞　　＜　ﾞ,　/　　 /
　　　　　 l 　､ー―:ｧ　　i/　　 /
　　　　　ﾞ､　Ｙ⌒/　　,/　　/
　　　　　　　　｀''ｧ‐`ｰ'　　　　　/
　　　　　　　　 /　i　　　　　　／
52 名前：デフォルトの名無しさん [2006/02/14(火) 09:28:47 ]: だんごって何の仕事してんの？
53 名前：デフォルトの名無しさん [2006/02/14(火) 17:36:10 ]: .NEETでFA
54 名前：デフォルトの名無しさん [2006/02/17(金) 12:53:20 ]: 倍精度実数、うらやましいなー
55 名前：デフォルトの名無しさん mailto:sage [2006/05/10(水) 23:25:12 ]: constで最適化が促進させられる理由ってなんでそ？
56 名前：55 mailto:sage [2006/05/10(水) 23:28:03 ]: 書き込むスレ間違えました。失礼しました。
57 名前：デフォルトの名無しさん [2006/06/03(土) 15:41:51 ]: [1] 授業単元：数値計算法
[2] 問題文(含コード&リンク)： ①f (x) = cos (x) - x2 = 0 の根のうち、0 < x < 1 を満たすものを2分法で求める
初期値 a, b が入力でき、 6桁推定された解と関数 f (x) を呼びだした回数を出力するようにしなさい。
[3] 環境
　[3.1] OS： WindowsＸＰ
　[3.2] コンパイラ名とバージョン： VC 6.0
　[3.3] 言語： C
[4] 期限： (2006年06月08日まで

よろしくお願いします
58 名前：デフォルトの名無しさん mailto:sage [2006/06/03(土) 20:12:46 ]: やべっ二分法って何だっけ
忘れちゃったよ
59 名前：デフォルトの名無しさん mailto:sage [2006/06/03(土) 21:02:27 ]: >>58
カップラーメンを従来の1.5倍の速度で完成させる最適化技法
60 名前：デフォルトの名無しさん mailto:sage [2006/06/06(火) 23:05:22 ]: 調理時間の短いラーメンほど短時間で伸びる
61 名前：デフォルトの名無しさん mailto:sage [2006/06/07(水) 02:49:26 ]: グルテンを加えるといい
62 名前：デフォルトの名無しさん [2006/06/08(木) 20:36:36 ]: 麩になっちまう
63 名前：デフォルトの名無しさん [2006/06/11(日) 01:52:05 ]: 即値で掛け算する場所を書き直してみたら？
64 名前：デフォルトの名無しさん mailto:sage [2006/06/11(日) 13:36:33 ]: PenMのSSE2って遅くね？
65 名前：・∀・）っ-○◎● ◆toBASh.... [2006/06/11(日) 14:11:11 ]: デコーダがネック。複合デコーダパスだからね。
汎用＆MMレジスタベース命令と交互に配置するとデコーダネックを隠蔽できる。

Yonahでは解消されてる。てかめちゃくちゃスループットいい
66 名前：デフォルトの名無しさん mailto:sage [2006/06/11(日) 21:19:38 ]: じゃあPenMだったら無条件でSSE2不使用、ってコーディングはもうしちゃ駄目だね。
67 名前：デフォルトの名無しさん mailto:sage [2006/06/12(月) 05:21:20 ]: そもそもYonahな時点でPenMじゃないし。
つかPenMって3年前から更新されてない一昔前のチップだろ。
68 名前：デフォルトの名無しさん mailto:sage [2006/06/12(月) 05:50:51 ]: ド忘れされてるDothanとi915萌え
YonahもBanias、Dothanと同様Pentium-Mですよ。
ただ発表後にPentiumブランド消失と絡んでIntel Coreとも名付けられちゃったが。
ブランド展開がまだよく分からんのでこの先どうなるか知らんが
69 名前：デフォルトの名無しさん mailto:sage [2006/06/12(月) 23:51:39 ]: 面白い話題なんでもっと調べたいんですが、
いい本ないでしょうか？

やっぱりパターソン＆ヘネシーですか？
70 名前：デフォルトの名無しさん mailto:sage [2006/06/20(火) 21:14:25 ]: メーカのドキュメント
71 名前：デフォルトの名無しさん [2006/10/12(木) 18:47:05 ]: SSEはコンパイラが自動的に使ってくれるのですか？
72 名前：デフォルトの名無しさん mailto:sage [2006/10/12(木) 20:00:52 ]: コンパイラによる。VCだとスカラ演算のみ。
自動ベクトル化が可能なコンパイラはgcc4.0系とかiccとかPGIとか。
73 名前：デフォルトの名無しさん [2006/10/20(金) 02:49:00 ]: SSEで最適化してもメモリアクセスのほうがボトルネックになんね？
キャッシュとかよく分かんねけどメモリよりキャッシュを意識せな
いかんのだろうけど。
74 名前：デフォルトの名無しさん mailto:sage [2006/10/20(金) 03:06:04 ]: 処理の内容によるんじゃない？
動画の画像処理みたいにプリフェッチの予測が当たりやすい処理だと
メモリ帯域の方がボトルネックになってる感じはしない。
他の分野についてはわかりません。
75 名前：デフォルトの名無しさん mailto:sage [2006/10/20(金) 03:50:56 ]: >>73
同じデータを色々な組み合わせで何度も使う場合
キャッシュをうまく効かせるのが腕の見せ所。
76 名前：デフォルトの名無しさん mailto:sage [2006/10/20(金) 09:13:41 ]: 誰かSSEのプリフェッチをどう使えばいいのかまとめてくれ。
77 名前：デフォルトの名無しさん mailto:sage [2006/10/20(金) 14:58:09 ]: めちゃくちゃ大雑把に話せば、
メモリを使う100クロック前くらいで
64byteごとに1回プリフェッチ命令を置く。
どの命令がいいかは、全部試して速いのを採用。

詳しくは、たくさんコードを書いてから
キャッシュについて勉強してくれ。
俺も勉強せねば・・・。
78 名前：デフォルトの名無しさん mailto:sage [2006/10/25(水) 11:25:01 ]: GPUと組み合わせ使うて場合って
GPUができる計算はみんななげちゃうって方針でいいの？

低次元行列計算はDirextXでできるみたいだから、
DirextXになげちゃおかと思ってるのだけど
79 名前：デフォルトの名無しさん mailto:sage [2006/10/26(木) 03:45:06 ]: >>78
DirectXは誰が動かしていると思っているの?
ユーザプロセスは?
OSカーネルは?
80 名前：デフォルトの名無しさん [2006/11/11(土) 01:02:00 ]: インテルのペンティアムプロセッサのマシン語で
高速化を勉強できる良い入門書みたいなのあったら教えてください
ホント、よろしくお願いします。
　　　　　　　　　
このとおり！m(_ _;)m m(-.-;)m m(_ _;)m
81 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 01:24:25 ]: >>4
82 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 01:40:00 ]: そうおっしゃらず。。
なにとぞ、お願いします～m(_ _;;)m
83 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 08:03:04 ]: >>83
いやマジで、下手な本買うよりiccのアセンブラ出力眺めた方がよっぽど勉強になるって。
84 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 10:14:57 ]: なるほど、そういう意味でしたか。
85 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 12:12:26 ]: >>80
MMXテクノロジ最適化テクニック(ISBN4-7561-0797-4)の5章
86 名前：80 mailto:sage [2006/11/11(土) 22:35:35 ]: >>85さん、ありがとうございます。
早速書店で探してみます。m(_ _)mﾍﾟｺﾘ
87 名前：【凶】【488円】 [2007/01/01(月) 10:52:18 ]: SSEでどこか参考になるサイトはありませんか？
88 名前：デフォルトの名無しさん mailto:sage [2007/01/01(月) 12:07:08 ]: つ[google]
89 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:18:09 ]: 最近のコンパイラはSSEなどは指定しなくても自動的に使ってくれるのでしょうか？
90 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:30:46 ]: ではまず最近のコンパイラの定義から（ｒｙ
91 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:32:37 ]: >>89
そういうコンパイラもあります。
92 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:34:43 ]: インテルコンパイラです
93 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:36:58 ]: 自動的に使うようになってると、SSEがないCPUでは動作しないのでは。
94 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:59:08 ]: O3を指定した場合、自動的に検出され使われる
95 名前：デフォルトの名無しさん [2007/01/08(月) 19:03:58 ]: 　 _ 　∩
(　ﾟ∀ﾟ)彡　オッサン！オッサン！
　⊂彡
96 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 19:07:29 ]: ここってこんなに人居たんだ
97 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 19:28:09 ]: >>95
オマイの駄洒落のほうが・・
98 名前：・∀・）っ-{}@{}@{}@ mailto:sage [2007/01/08(月) 20:10:18 ]: /Qx*とか/Qax*なしで使うことってあったっけ？
とりあえずboost:mt19937はICCのオートベクトライズでやたら速くなるが
99 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 20:31:21 ]: Auto-vectorization in GCC
ttp://gcc.gnu.org/projects/tree-ssa/vectorization.html
100 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 20:47:28 ]: AMD64向けだと強制的に使ってくれる。

自動ベクトル化は知らん。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef