【C++】高速化手法【SSE】

[表示 : 全て最新50 1-99 101- 201- 2chのread.cgiへ]
Update time : 04/29 12:09 / Filesize : 46 KB / Number-of Response : 221
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

【C++】高速化手法【SSE】

1 名前：デフォルトの名無しさん mailto:sage [2005/10/27(木) 02:55:36 ]: C++やインラインアセンブラ、SSEなどによる高速化の手法
について語りましょう。
46 名前：デフォルトの名無しさん mailto:sage [2005/11/15(火) 15:00:39 ]: 組込み関数の意味がわかってない希ガス。
47 名前：デフォルトの名無しさん mailto:sage [2005/11/15(火) 17:17:53 ]: 関係ないけど __divdi3 は組み込み関数なんだろうか。
48 名前：・∀・)っ-●◎○- ◆Pu/ODYSSEY mailto:sage [2005/12/11(日) 17:53:45 ]: 直にCPUの命令またはその組み合わせに展開してしまえる関数だね。

組み込み関数の利用は#pragma intrinsic で明示できるよ。
逆に出来ない場合は組み込み関数として用意されてないといえる。」

ぶっちゃけIntel C++のオートベクトライズなんてあんま役に立たない。
処理を並列化できるところは明示的にMMX/SSEの組み込み関数
使って最適化したほうがいい。
CPUの動きを知り尽くしてレジスタカラーリングしてくれるから
へたなアセンブリコード書くより速い。

あとIntel C++なんかは、インライン関数を基本的に展開しない。
STL使ったら重いってことは結構ある。
ただし __forceinliceは受け付ける。

VC2005はcpuidとかローテート命令まで組み込み関数として使える
ようになったから、アセンブラ嫌いにはかなりフレンドリーになった希ガス。
49 名前：デフォルトの名無しさん mailto:sage [2005/12/12(月) 08:14:59 ]: ローテートはVC6の頃から組み込み関数であった希ガス。
50 名前：デフォルトの名無しさん mailto:sage [2006/01/30(月) 17:07:08 ]: 2005は8bit版や16bit版も用意されてる
msdn2.microsoft.com/library/hd9bdb82(en-US,VS.80).aspx
51 名前：デフォルトの名無しさん [2006/02/13(月) 23:04:16 ]: 　　　　　　　　　　　　　　　　　　　　　￤
　　　　　　　　　　　　　　　　＼　　　　　|
　　　　　　　　　　　　　　　　　＼　　　人　　／
　　　　　　　　　　　　　　　　　　　　メ´　　ヾ　 _,－'
　　　　　　　　　　　　　　　－―＜　 , -､　て＿
　　　　　　　　C++とSSE！　　　 ) /　/　(´
　　　　　　　　　　　　　　　　/　/　⌒ ､
　　　　　　　　　　　　　　　　　(⌒Ｖ　,'´｀ヽ
　　　　　　　　ﾄ､　　　 ,ﾍ　　　ヽ　　!　　:〉
　　　　　　　　ﾄ､ヽ　　 / /!　　 / 　､ﾞーｧ'
　　　　　　　　|,ﾉ　´￣｀　ヾ!　　/　　 /｀~´
　　　　　　　 ,'　＞　　＜　ﾞ,　/　　 /
　　　　　 l 　､ー―:ｧ　　i/　　 /
　　　　　ﾞ､　Ｙ⌒/　　,/　　/
　　　　　　　　｀''ｧ‐`ｰ'　　　　　/
　　　　　　　　 /　i　　　　　　／
52 名前：デフォルトの名無しさん [2006/02/14(火) 09:28:47 ]: だんごって何の仕事してんの？
53 名前：デフォルトの名無しさん [2006/02/14(火) 17:36:10 ]: .NEETでFA
54 名前：デフォルトの名無しさん [2006/02/17(金) 12:53:20 ]: 倍精度実数、うらやましいなー
55 名前：デフォルトの名無しさん mailto:sage [2006/05/10(水) 23:25:12 ]: constで最適化が促進させられる理由ってなんでそ？
56 名前：55 mailto:sage [2006/05/10(水) 23:28:03 ]: 書き込むスレ間違えました。失礼しました。
57 名前：デフォルトの名無しさん [2006/06/03(土) 15:41:51 ]: [1] 授業単元：数値計算法
[2] 問題文(含コード&リンク)： ①f (x) = cos (x) - x2 = 0 の根のうち、0 < x < 1 を満たすものを2分法で求める
初期値 a, b が入力でき、 6桁推定された解と関数 f (x) を呼びだした回数を出力するようにしなさい。
[3] 環境
　[3.1] OS： WindowsＸＰ
　[3.2] コンパイラ名とバージョン： VC 6.0
　[3.3] 言語： C
[4] 期限： (2006年06月08日まで

よろしくお願いします
58 名前：デフォルトの名無しさん mailto:sage [2006/06/03(土) 20:12:46 ]: やべっ二分法って何だっけ
忘れちゃったよ
59 名前：デフォルトの名無しさん mailto:sage [2006/06/03(土) 21:02:27 ]: >>58
カップラーメンを従来の1.5倍の速度で完成させる最適化技法
60 名前：デフォルトの名無しさん mailto:sage [2006/06/06(火) 23:05:22 ]: 調理時間の短いラーメンほど短時間で伸びる
61 名前：デフォルトの名無しさん mailto:sage [2006/06/07(水) 02:49:26 ]: グルテンを加えるといい
62 名前：デフォルトの名無しさん [2006/06/08(木) 20:36:36 ]: 麩になっちまう
63 名前：デフォルトの名無しさん [2006/06/11(日) 01:52:05 ]: 即値で掛け算する場所を書き直してみたら？
64 名前：デフォルトの名無しさん mailto:sage [2006/06/11(日) 13:36:33 ]: PenMのSSE2って遅くね？
65 名前：・∀・）っ-○◎● ◆toBASh.... [2006/06/11(日) 14:11:11 ]: デコーダがネック。複合デコーダパスだからね。
汎用＆MMレジスタベース命令と交互に配置するとデコーダネックを隠蔽できる。

Yonahでは解消されてる。てかめちゃくちゃスループットいい
66 名前：デフォルトの名無しさん mailto:sage [2006/06/11(日) 21:19:38 ]: じゃあPenMだったら無条件でSSE2不使用、ってコーディングはもうしちゃ駄目だね。
67 名前：デフォルトの名無しさん mailto:sage [2006/06/12(月) 05:21:20 ]: そもそもYonahな時点でPenMじゃないし。
つかPenMって3年前から更新されてない一昔前のチップだろ。
68 名前：デフォルトの名無しさん mailto:sage [2006/06/12(月) 05:50:51 ]: ド忘れされてるDothanとi915萌え
YonahもBanias、Dothanと同様Pentium-Mですよ。
ただ発表後にPentiumブランド消失と絡んでIntel Coreとも名付けられちゃったが。
ブランド展開がまだよく分からんのでこの先どうなるか知らんが
69 名前：デフォルトの名無しさん mailto:sage [2006/06/12(月) 23:51:39 ]: 面白い話題なんでもっと調べたいんですが、
いい本ないでしょうか？

やっぱりパターソン＆ヘネシーですか？
70 名前：デフォルトの名無しさん mailto:sage [2006/06/20(火) 21:14:25 ]: メーカのドキュメント
71 名前：デフォルトの名無しさん [2006/10/12(木) 18:47:05 ]: SSEはコンパイラが自動的に使ってくれるのですか？
72 名前：デフォルトの名無しさん mailto:sage [2006/10/12(木) 20:00:52 ]: コンパイラによる。VCだとスカラ演算のみ。
自動ベクトル化が可能なコンパイラはgcc4.0系とかiccとかPGIとか。
73 名前：デフォルトの名無しさん [2006/10/20(金) 02:49:00 ]: SSEで最適化してもメモリアクセスのほうがボトルネックになんね？
キャッシュとかよく分かんねけどメモリよりキャッシュを意識せな
いかんのだろうけど。
74 名前：デフォルトの名無しさん mailto:sage [2006/10/20(金) 03:06:04 ]: 処理の内容によるんじゃない？
動画の画像処理みたいにプリフェッチの予測が当たりやすい処理だと
メモリ帯域の方がボトルネックになってる感じはしない。
他の分野についてはわかりません。
75 名前：デフォルトの名無しさん mailto:sage [2006/10/20(金) 03:50:56 ]: >>73
同じデータを色々な組み合わせで何度も使う場合
キャッシュをうまく効かせるのが腕の見せ所。
76 名前：デフォルトの名無しさん mailto:sage [2006/10/20(金) 09:13:41 ]: 誰かSSEのプリフェッチをどう使えばいいのかまとめてくれ。
77 名前：デフォルトの名無しさん mailto:sage [2006/10/20(金) 14:58:09 ]: めちゃくちゃ大雑把に話せば、
メモリを使う100クロック前くらいで
64byteごとに1回プリフェッチ命令を置く。
どの命令がいいかは、全部試して速いのを採用。

詳しくは、たくさんコードを書いてから
キャッシュについて勉強してくれ。
俺も勉強せねば・・・。
78 名前：デフォルトの名無しさん mailto:sage [2006/10/25(水) 11:25:01 ]: GPUと組み合わせ使うて場合って
GPUができる計算はみんななげちゃうって方針でいいの？

低次元行列計算はDirextXでできるみたいだから、
DirextXになげちゃおかと思ってるのだけど
79 名前：デフォルトの名無しさん mailto:sage [2006/10/26(木) 03:45:06 ]: >>78
DirectXは誰が動かしていると思っているの?
ユーザプロセスは?
OSカーネルは?
80 名前：デフォルトの名無しさん [2006/11/11(土) 01:02:00 ]: インテルのペンティアムプロセッサのマシン語で
高速化を勉強できる良い入門書みたいなのあったら教えてください
ホント、よろしくお願いします。
　　　　　　　　　
このとおり！m(_ _;)m m(-.-;)m m(_ _;)m
81 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 01:24:25 ]: >>4
82 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 01:40:00 ]: そうおっしゃらず。。
なにとぞ、お願いします～m(_ _;;)m
83 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 08:03:04 ]: >>83
いやマジで、下手な本買うよりiccのアセンブラ出力眺めた方がよっぽど勉強になるって。
84 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 10:14:57 ]: なるほど、そういう意味でしたか。
85 名前：デフォルトの名無しさん mailto:sage [2006/11/11(土) 12:12:26 ]: >>80
MMXテクノロジ最適化テクニック(ISBN4-7561-0797-4)の5章
86 名前：80 mailto:sage [2006/11/11(土) 22:35:35 ]: >>85さん、ありがとうございます。
早速書店で探してみます。m(_ _)mﾍﾟｺﾘ
87 名前：【凶】【488円】 [2007/01/01(月) 10:52:18 ]: SSEでどこか参考になるサイトはありませんか？
88 名前：デフォルトの名無しさん mailto:sage [2007/01/01(月) 12:07:08 ]: つ[google]
89 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:18:09 ]: 最近のコンパイラはSSEなどは指定しなくても自動的に使ってくれるのでしょうか？
90 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:30:46 ]: ではまず最近のコンパイラの定義から（ｒｙ
91 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:32:37 ]: >>89
そういうコンパイラもあります。
92 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:34:43 ]: インテルコンパイラです
93 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:36:58 ]: 自動的に使うようになってると、SSEがないCPUでは動作しないのでは。
94 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:59:08 ]: O3を指定した場合、自動的に検出され使われる
95 名前：デフォルトの名無しさん [2007/01/08(月) 19:03:58 ]: 　 _ 　∩
(　ﾟ∀ﾟ)彡　オッサン！オッサン！
　⊂彡
96 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 19:07:29 ]: ここってこんなに人居たんだ
97 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 19:28:09 ]: >>95
オマイの駄洒落のほうが・・
98 名前：・∀・）っ-{}@{}@{}@ mailto:sage [2007/01/08(月) 20:10:18 ]: /Qx*とか/Qax*なしで使うことってあったっけ？
とりあえずboost:mt19937はICCのオートベクトライズでやたら速くなるが
99 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 20:31:21 ]: Auto-vectorization in GCC
ttp://gcc.gnu.org/projects/tree-ssa/vectorization.html
100 名前：デフォルトの名無しさん mailto:sage [2007/01/08(月) 20:47:28 ]: AMD64向けだと強制的に使ってくれる。

自動ベクトル化は知らん。
101 名前：サイザー専用JAVA演習場　その２ [2007/01/08(月) 21:17:02 ]: 次スレまできた。飽きっぽい俺が良く続くもんだ。Σ(´∀｀;)
どうぞよろしくお願いします。
102 名前：デフォルトの名無しさん mailto:sage [2007/01/29(月) 08:23:39 ]: www.intel.co.jp/jp/developer/download/index.htm
ここにあるインストラクションセット表って、
SSE3以降のものも載ってます？
103 名前：デフォルトの名無しさん mailto:sage [2007/02/07(水) 20:57:03 ]: SSE3は載ってたと思う。SSSE3は知らん
104 名前：デフォルトの名無しさん mailto:sage [2007/02/09(金) 01:09:07 ]: gcc 4.1.1をMinGW gcc 3.4でコンパイルして使っています。
自分の使っているCPU向けに最適化をしようと、
-O2 -march=pentium-m -msse2 -mfpmath=sse
上のオプションを付けてLame 3.97をコンパイルしたところ、最後の
-mfpmath=sse
を外した方が速いという結果になってしまいました。
CPUはCeleron Mを使っています。

Cerelon Mでは、実数演算ではSSEではなく80387を使った方が速いのでしょうか。
SSE命令を使った方が一見速そうに見えるのですが・・・。
105 名前：・∀・）っ-○◎● ◆DanGorION6 mailto:sage [2007/02/10(土) 01:07:28 ]: BaniasかDothanかYonahかにもよるけど、SSEはあんまり得意じゃないよMは
106 名前：104 mailto:sage [2007/02/10(土) 16:29:40 ]: >>105
Dothanコアです。

MはSSEが得意ではないのですね。参考になりました。
参考までに、姫野ベンチでも実験したところ、こちらは-mfpmath=sseありの方が速かったので、
コードに依るかも知れません。
107 名前：・∀・）っ-○◎● ◆DanGorION6 mailto:sage [2007/02/10(土) 21:00:29 ]: Pentium M系アーキテクチャでSSE*が遅いのはデコーダがネックになってるらしい。
Complex Decoderのみでデコードされるから、倍精度は浮動小数が速くても不思議じゃない

Pentium MのFPUは加減算・乗算毎に倍精度×１、単精度×2だけど
x87とSSEスカラ演算だと単精度はクロックあたり1、SSEのパックド演算だと2つは
発行できるから、単精度ならまだ使う価値があるね。
108 名前：デフォルトの名無しさん mailto:sage [2007/02/10(土) 21:59:57 ]: 演算ユニットの構成は

Port 0: x87ADD x87&SSE-MUL
Port 1: SSE-ADD(SP Only)

よってクロック毎に実行できる最大値は
x87-SP: 1
SSE-SP: 4
SSE-DP: 1
109 名前：デフォルトの名無しさん mailto:sage [2007/02/12(月) 16:51:08 ]: んでもSSE使うように最適化オプションつけた方が
遅くなるってのは不思議だよなぁ。
早くならないってことはあっても遅くなるってのはなぁ・・・
タスクスイッチのときにXMMレジスタも全部退避するようになるから？
そういやXMMレジスタまで対比するか否かってOSはどうやって知ってるの?
110 名前：デフォルトの名無しさん mailto:sage [2007/02/12(月) 16:58:01 ]: >>109
そもそも初期状態でFPUセットになっているのなら、SSEを使うだけで切り替えコストが発生する。
111 名前：・∀・）っ-○◎● ◆DanGorION6 mailto:sage [2007/02/12(月) 17:01:00 ]: まあ、Complexデコーダパス命令だから、の一言なんだが
待避のオーバーヘッドなんてたかがしれてる

MXCSRレジスタってあるじゃん
112 名前：・∀・）っ-○◎● ◆DanGorION6 mailto:sage [2007/02/12(月) 17:01:45 ]: >>110
それXMMレジスタじゃなくてMMレジスタの話では
113 名前：デフォルトの名無しさん mailto:sage [2007/02/12(月) 17:41:09 ]: でもSISDならデコードも速い。
単純にコンパイラが最適化しきれてないだけじゃないのか。
そもそも104氏が何の処理をさせてたのか書いてないから
イマイチ議論のしようがない気もする。

おそらく人間が書けばDothanでもSSEの方が速いとは思う。
114 名前： ◆0uxK91AxII mailto:sage [2007/02/12(月) 21:16:30 ]: >>109
＞XMMレジスタまで対比するか否か
hira.main.jp/wiki/pukiwiki.php?__save_init_fpu()%2Flinux2.6
115 名前：・∀・）っ-○◎● ◆DanGorION6 mailto:sage [2007/02/17(土) 17:12:17 ]: Core 2 (Merom)ベースのCeleron Mももう出たし
116 名前：デフォルトの名無しさん [2007/02/19(月) 20:47:39 ]: 二つの符号付及び符号無し 64bit 整数の乗算、
さらには 128bit 整数同士の乗算などは
SSE/SSE2/SSE3 命令群を使うことで高速化できるのでしょうか？

そもそもこれらの命令は SIMD 目的であって
ビット幅の長い演算が目的ではないので、
見当違いでしょうか？
117 名前：・∀・）っ-○◎● ◆DanGorION6 mailto:sage [2007/02/20(火) 00:30:25 ]: 64ビット同士の整数乗算は素直にｘ64命令セット使えと思うが。。。

16×16の積算・積和演算があるから組み合わせればいくらでも可能だ罠
118 名前：デフォルトの名無しさん [2007/02/21(水) 14:03:24 ]: 海外旅行での現地のATMでのキャッシングって、
キャッシング枠ですか？それともショッピング枠ですか？
以前現金主義の友人がどうしても両替商見つからなくて
現地のATMでキャッシングしたら、日本に帰ってきて
ショッピングとして明細に出てたって聞いたんですが。
119 名前：デフォルトの名無しさん mailto:sage [2007/02/21(水) 15:09:23 ]: >>118
ATMによる。スレ違い。
120 名前：デフォルトの名無しさん mailto:sage [2007/02/25(日) 13:31:40 ]: 誤爆じゃないのか
121 名前：デフォルトの名無しさん [2007/03/02(金) 21:40:36 ]: 浮動小数点モデルを　/fp:fast　にする
精度は落ちるが
122 名前：デフォルトの名無しさん mailto:sage [2007/03/03(土) 09:27:27 ]: マルチタスク/マルチスレッドで、セマフォを長時間握ったまま返さない奴とか見つける、とかは
やっぱプロファイラとかで動的解析しないと分らんよね。
そんなの静的解析でどうにかなるもんじゃないか・・・。
123 名前：デフォルトの名無しさん [2007/06/04(月) 18:02:04 ]: doubleは2つ同時にしか実行できないのか？
124 名前：デフォルトの名無しさん [2007/06/04(月) 18:08:28 ]: >>123
日本語よろ！
125 名前：デフォルトの名無しさん mailto:sage [2007/06/04(月) 18:54:23 ]: だぶる先生らいふのことだろ。
常識的に考えて。
126 名前：デフォルトの名無しさん mailto:sage [2007/09/28(金) 23:10:54 ]: ダブル先(の)生ライフ？
127 名前：デフォルトの名無しさん mailto:sage [2007/10/01(月) 19:33:27 ]: >>123
C++でおｋ
128 名前： ◆0uxK91AxII mailto:sage [2007/10/01(月) 23:04:52 ]: >>123
一つのみも可。
ex) addsd
129 名前：デフォルトの名無しさん mailto:age [2007/12/31(月) 11:50:57 ]: 下がり過ぎ
130 名前：デフォルトの名無しさん mailto:sage [2008/11/08(土) 21:50:37 ]: SSEで大部分が記述された
正規表現エンジンって知りませんか？
131 名前：デフォルトの名無しさん mailto:sage [2008/11/09(日) 00:12:17 ]: 闇雲にSSEを使えば速くなるってもんじゃないし、そんな阿呆な代物ないでしょ。
# 速度に寄与する肝腎な箇所に使っているってことなら話は別だが。
132 名前：デフォルトの名無しさん mailto:sage [2008/11/09(日) 01:43:59 ]: sseで正規表現・・・どこで使ったものやら
133 名前：デフォルトの名無しさん mailto:sage [2008/11/10(月) 14:07:10 ]: SSEって並列処理や積和なんかが1命令化で速くなる。
端からデータを舐めていくような処理はあまり効果ないよ。
特に検索には向かない。
134 名前：デフォルトの名無しさん mailto:sage [2008/11/10(月) 14:17:20 ]: bit列のマッチングはどう？
1bitずつずらしたのをxorしてall 0になったかどうか調べるとか
135 名前：デフォルトの名無しさん mailto:sage [2008/11/10(月) 21:40:31 ]: strlenをSSE2でやる人がいるくらいだし、その応用でstrchr/strstrのような単純な検索はできると思う。
ただ、正規表現となるとうまく使うのは難しいと思う。
136 名前：デフォルトの名無しさん mailto:sage [2008/11/18(火) 03:23:27 ]: sse4.2じゃないのか
137 名前：,,・´∀｀・,,）っ-●◎○ [2008/12/21(日) 11:48:46 ]: 固定文字列部分を抽出してBoyer-Moore法とかで検索するのが良く使われる方法。
strstrなんかはSIMDを使った力技検索に置き換えることができる。

>>136
確かにあれは速いようだ
138 名前：,,・´∀｀・,,）っ-●◎○ [2008/12/21(日) 11:51:30 ]: 固定文字列部分ならともかく「大部分」をSIMDに置き換えることに意味はない。
文字クラス程度ならSSE4.2で一括判定みたいなのも可能になるかと思うけど
139 名前：デフォルトの名無しさん mailto:sage [2008/12/21(日) 12:13:43 ]: つうかそんなのAltiVecでとうの昔にやられてる事だしな。
Intelは必要な命令(シャッフル、MIN/MAXなど)が揃うまでにどれだけかかるんだ。
ルーチンごとにSSE1があるか、2があるかと判定しなくちゃいけなくて面倒くさい。
140 名前：,,・´∀｀・,,）っ-●◎○ [2008/12/21(日) 12:18:35 ]: Macのこと言ってるのか？
SSE3以上使える前提できめうちで組めるからかえって楽だろｗ

大体にAltiVecに文字列比較命令なんてねーよ。
汎用レジスタ－SIMDレジスタ間のダイレクト転送命令ないし
レジスタ値を比較してbranchフラグを更新する命令もない。

そもそも更新が停まってるだけだろ。
141 名前：,,・´∀｀・,,）っ-●◎○ [2008/12/21(日) 12:30:26 ]: SSE2の16バイト単位の文字列同時比較なんてこれだけだぞ
（MMX(SSE)での8バイト同時比較でもこいつの64bit版を使えばいい）
pcmpeqb → pmovmskb → test → branch

SSE4.1だと
pcmpeqb→ptest→branchでおｋ

AltiVecだとpmovmskb相当のことをMSBの縮約いちいちマスク＆シフトを繰り返した上
いったんメモリにストアしてから汎用レジスタで読み直さないといけない。
pmovmskbなんてIntelプロセッサでは1サイクルでこなせる処理だがAltiVecなんて
ここだけで何十サイクルもかかる。

なにかと俺がコケにしてるCell SPEのほうがまだ使えるよ。
SPUにはMSBじゃなくてLSBのビット縮約命令がある。

要するに
AltiVec＝保守されてない時代遅れの命令セット
俺も使ってたからよくわかるよ。
142 名前：,,・´∀｀・,,）っ-●◎○ [2008/12/21(日) 12:47:01 ]: 俺の経験上文字列サーチでAltiVec使うと遅くなるケースのほうが多い。
だからMacOSでもstrcpy/memcpyみたいな分岐の必要ない操作に限ってだけAltiVecが内部的に使われてる。
143 名前：デフォルトの名無しさん mailto:sage [2008/12/21(日) 13:31:59 ]: 同時比較でいいならロードして比較してvec_all_eq()するだけじゃね？
ストアと読み出しはいらん。
144 名前：,,・´∀｀・,,）っ-○◎● mailto:sage [2008/12/21(日) 18:51:16 ]: ＞vec_all_eq()
あのさー、それ複合関数だから。

ではマスク生成＋縮約＋ストア＋汎用レジスタにロードって操作を1つの組込関数に纏めただけ。
1インストラクションで済んでるわけではない。

アセンブリコード読んだことある？無いだろうけど。

CPUネイティブのベクトル比較命令であるvcmpequb自体は、SIMDレジスタ上にマスクを生成するのみ。
マッチしたのか、マッチしてないのか、マッチした場合、どこの位置でマッチしたのかっていう判定は
汎用レジスタ側でやるしかないんだよ。
145 名前：デフォルトの名無しさん mailto:sage [2008/12/21(日) 19:51:08 ]: お前こそvcmpequbの仕様を読んだ事あるのかと。

> The CR6 is set according to whether all, some, or none of the elements compare equal.
146 名前：デフォルトの名無しさん mailto:sage [2008/12/21(日) 19:59:03 ]: 最近論調がおとなしくなってきて改心したのかと思えば、
内心人を見下してるのは変わってないんだよな。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef