- 1 名前:デフォルトの名無しさん mailto:sage [2005/10/27(木) 02:55:36 ]
- C++やインラインアセンブラ、SSEなどによる高速化の手法
について語りましょう。
- 29 名前:デフォルトの名無しさん [2005/11/10(木) 05:49:34 ]
- クイックソート以外の例えばマージソートやバルブソートなどはどのようなときに使うのでしょうか?
- 30 名前:デフォルトの名無しさん mailto:sage [2005/11/10(木) 07:43:42 ]
- >>29
クイックソートは万能ではない。 特にソートする要素数が少ないときには他の方法が早い。 また、安定でないという欠点もある。(マージソートは安定)
- 31 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 01:17:48 ]
- >>29じやないんだが
>また、安定でないという欠点もある。(マージソートは安定) これどーゆー意味なんよ? 高速化のスレだから速度の事を言ってるのか?
- 32 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 01:53:10 ]
- >>31
ソートで不安定といったら 比較関数の評価で重みが重複した場合に順序関係が保存されない ことだと思うが…(;´Д`)
- 33 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 07:49:51 ]
- >>31
>>31 >>31
- 34 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 13:33:13 ]
- 出席番号順にソート済みの身体測定データを身長順にソートしたいとする。
ただし、同身長の人間がいる場合は出席番号の若い順に並んだままになっていて欲しい。 そういうときは「安定したソート」の出番よ。 クイックソートだと出席番号はバラバラになるからな。 まあ「安定した速度」って点でもマージソートはなかなかのもんだと思うけど それにしても
- 35 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 13:36:35 ]
- それは、キーの指定が悪い。
- 36 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 13:47:58 ]
- >>31
基本情報の資格でも取ったほうがいいお 言葉が通じないと頭良くても吸収できないでしょ
- 37 名前:デフォルトの名無しさん mailto:sage [2005/11/11(金) 20:59:00 ]
- >>35
ソートで大小の評価を、 身長だけではなく、出席番号も加味してやればいい と言いたいのだろう。 でもね、出席番号がついてなかったら、どーするの?
- 38 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 02:14:44 ]
- 一般的にソート前のインデックス順序を比較で使えばいい
二次キーとして出席番号があるならそれを使えばいいし
- 39 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 17:04:32 ]
- インデックスがついていなかったら?
- 40 名前:デフォルトの名無しさん mailto:sage [2005/11/12(土) 18:46:58 ]
- アドレスで比較すればいいだろ馬鹿か?
- 41 名前:デフォルトの名無しさん mailto:sage [2005/11/13(日) 16:52:40 ]
- アドレスで比較? なに馬鹿いってるの?
- 42 名前:デフォルトの名無しさん mailto:sage [2005/11/13(日) 19:38:41 ]
- IntelのライブラリはAMDでワザと遅くなるようにしてそうなんで
一般向けには使ってません
- 43 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 02:57:33 ]
- 高速なメモリコピーするにはmemcpy?
それともキャシュ無視するためにSSEとか利用するのか?
- 44 名前:デフォルトの名無しさん mailto:sage [2005/11/14(月) 07:00:54 ]
- memcpyの実装はたくさんあるから一概には言えないぞ。
最もシンプルなのは1バイトずつコピーしているし、 コンパイラによってはインライン展開どころか組込み関数として処理しちゃうぞ。
- 45 名前:43 mailto:sage [2005/11/15(火) 02:12:42 ]
- へぇー、組み込み関数(SSE?)で処理しちゃうのか。
ネットで調べてたらSSEのレジスタ4つにまず読んで、それを また4つ書き出すとレイテンシとやらを隠蔽できるとかなんとか あったけどそんな感じかな。 とりあえずmemcpy使っておきます。
- 46 名前:デフォルトの名無しさん mailto:sage [2005/11/15(火) 15:00:39 ]
- 組込み関数の意味がわかってない希ガス。
- 47 名前:デフォルトの名無しさん mailto:sage [2005/11/15(火) 17:17:53 ]
- 関係ないけど __divdi3 は組み込み関数なんだろうか。
- 48 名前:・∀・)っ-●◎○- ◆Pu/ODYSSEY mailto:sage [2005/12/11(日) 17:53:45 ]
- 直にCPUの命令またはその組み合わせに展開してしまえる関数だね。
組み込み関数の利用は#pragma intrinsic で明示できるよ。 逆に出来ない場合は組み込み関数として用意されてないといえる。」 ぶっちゃけIntel C++のオートベクトライズなんてあんま役に立たない。 処理を並列化できるところは明示的にMMX/SSEの組み込み関数 使って最適化したほうがいい。 CPUの動きを知り尽くしてレジスタカラーリングしてくれるから へたなアセンブリコード書くより速い。 あとIntel C++なんかは、インライン関数を基本的に展開しない。 STL使ったら重いってことは結構ある。 ただし __forceinliceは受け付ける。 VC2005はcpuidとかローテート命令まで組み込み関数として使える ようになったから、アセンブラ嫌いにはかなりフレンドリーになった希ガス。
- 49 名前:デフォルトの名無しさん mailto:sage [2005/12/12(月) 08:14:59 ]
- ローテートはVC6の頃から組み込み関数であった希ガス。
- 50 名前:デフォルトの名無しさん mailto:sage [2006/01/30(月) 17:07:08 ]
- 2005は8bit版や16bit版も用意されてる
msdn2.microsoft.com/library/hd9bdb82(en-US,VS.80).aspx
- 51 名前:デフォルトの名無しさん [2006/02/13(月) 23:04:16 ]
- U
\ | \ 人 / メ´ ヾ _,−' −―< , -、 て_ C++とSSE! ) / / (´ / / ⌒ 、 (⌒V ,'´`ヽ ト、 ,ヘ ヽ ! :〉 ト、ヽ / /! / 、゙ーァ' |,ノ ´ ̄` ヾ! / /`~´ ,' > < ゙, / / l 、ー―:ァ i/ / ゙、 Y⌒/ ,/ / `''ァ‐`ー' / / i /
- 52 名前:デフォルトの名無しさん [2006/02/14(火) 09:28:47 ]
- だんごって何の仕事してんの?
- 53 名前:デフォルトの名無しさん [2006/02/14(火) 17:36:10 ]
- .NEETでFA
- 54 名前:デフォルトの名無しさん [2006/02/17(金) 12:53:20 ]
- 倍精度実数、うらやましいなー
- 55 名前:デフォルトの名無しさん mailto:sage [2006/05/10(水) 23:25:12 ]
- constで最適化が促進させられる理由ってなんでそ?
- 56 名前:55 mailto:sage [2006/05/10(水) 23:28:03 ]
- 書き込むスレ間違えました。失礼しました。
- 57 名前:デフォルトの名無しさん [2006/06/03(土) 15:41:51 ]
- [1] 授業単元: 数値計算法
[2] 問題文(含コード&リンク): @f (x) = cos (x) - x2 = 0 の根のうち、0 < x < 1 を満たすものを2分法で求める 初期値 a, b が入力でき、 6桁推定された解と関数 f (x) を呼びだした回数を出力するようにしなさい。 [3] 環境 [3.1] OS: WindowsXP [3.2] コンパイラ名とバージョン: VC 6.0 [3.3] 言語: C [4] 期限: (2006年06月08日まで よろしくお願いします
- 58 名前:デフォルトの名無しさん mailto:sage [2006/06/03(土) 20:12:46 ]
- やべっ 二分法って何だっけ
忘れちゃったよ
- 59 名前:デフォルトの名無しさん mailto:sage [2006/06/03(土) 21:02:27 ]
- >>58
カップラーメンを従来の1.5倍の速度で完成させる最適化技法
- 60 名前:デフォルトの名無しさん mailto:sage [2006/06/06(火) 23:05:22 ]
- 調理時間の短いラーメンほど短時間で伸びる
- 61 名前:デフォルトの名無しさん mailto:sage [2006/06/07(水) 02:49:26 ]
- グルテンを加えるといい
- 62 名前:デフォルトの名無しさん [2006/06/08(木) 20:36:36 ]
- 麩になっちまう
- 63 名前:デフォルトの名無しさん [2006/06/11(日) 01:52:05 ]
- 即値で掛け算する場所を書き直してみたら?
- 64 名前:デフォルトの名無しさん mailto:sage [2006/06/11(日) 13:36:33 ]
- PenMのSSE2って遅くね?
- 65 名前:・∀・)っ-○◎● ◆toBASh.... [2006/06/11(日) 14:11:11 ]
- デコーダがネック。複合デコーダパスだからね。
汎用&MMレジスタベース命令と交互に配置するとデコーダネックを隠蔽できる。 Yonahでは解消されてる。てかめちゃくちゃスループットいい
- 66 名前:デフォルトの名無しさん mailto:sage [2006/06/11(日) 21:19:38 ]
- じゃあPenMだったら無条件でSSE2不使用、ってコーディングはもうしちゃ駄目だね。
- 67 名前:デフォルトの名無しさん mailto:sage [2006/06/12(月) 05:21:20 ]
- そもそもYonahな時点でPenMじゃないし。
つかPenMって3年前から更新されてない一昔前のチップだろ。
- 68 名前:デフォルトの名無しさん mailto:sage [2006/06/12(月) 05:50:51 ]
- ド忘れされてるDothanとi915萌え
YonahもBanias、Dothanと同様Pentium-Mですよ。 ただ発表後にPentiumブランド消失と絡んでIntel Coreとも名付けられちゃったが。 ブランド展開がまだよく分からんのでこの先どうなるか知らんが
- 69 名前:デフォルトの名無しさん mailto:sage [2006/06/12(月) 23:51:39 ]
- 面白い話題なんでもっと調べたいんですが、
いい本ないでしょうか? やっぱりパターソン&ヘネシーですか?
- 70 名前:デフォルトの名無しさん mailto:sage [2006/06/20(火) 21:14:25 ]
- メーカのドキュメント
- 71 名前:デフォルトの名無しさん [2006/10/12(木) 18:47:05 ]
- SSEはコンパイラが自動的に使ってくれるのですか?
- 72 名前:デフォルトの名無しさん mailto:sage [2006/10/12(木) 20:00:52 ]
- コンパイラによる。VCだとスカラ演算のみ。
自動ベクトル化が可能なコンパイラはgcc4.0系とかiccとかPGIとか。
- 73 名前:デフォルトの名無しさん [2006/10/20(金) 02:49:00 ]
- SSEで最適化してもメモリアクセスのほうがボトルネックになんね?
キャッシュとかよく分かんねけどメモリよりキャッシュを意識せな いかんのだろうけど。
- 74 名前:デフォルトの名無しさん mailto:sage [2006/10/20(金) 03:06:04 ]
- 処理の内容によるんじゃない?
動画の画像処理みたいにプリフェッチの予測が当たりやすい処理だと メモリ帯域の方がボトルネックになってる感じはしない。 他の分野についてはわかりません。
- 75 名前:デフォルトの名無しさん mailto:sage [2006/10/20(金) 03:50:56 ]
- >>73
同じデータを色々な組み合わせで何度も使う場合 キャッシュをうまく効かせるのが腕の見せ所。
- 76 名前:デフォルトの名無しさん mailto:sage [2006/10/20(金) 09:13:41 ]
- 誰かSSEのプリフェッチをどう使えばいいのかまとめてくれ。
- 77 名前:デフォルトの名無しさん mailto:sage [2006/10/20(金) 14:58:09 ]
- めちゃくちゃ大雑把に話せば、
メモリを使う100クロック前くらいで 64byteごとに1回プリフェッチ命令を置く。 どの命令がいいかは、全部試して速いのを採用。 詳しくは、たくさんコードを書いてから キャッシュについて勉強してくれ。 俺も勉強せねば・・・。
- 78 名前:デフォルトの名無しさん mailto:sage [2006/10/25(水) 11:25:01 ]
- GPUと組み合わせ使うて場合って
GPUができる計算はみんななげちゃうって方針でいいの? 低次元行列計算はDirextXでできるみたいだから、 DirextXになげちゃおかと思ってるのだけど
- 79 名前:デフォルトの名無しさん mailto:sage [2006/10/26(木) 03:45:06 ]
- >>78
DirectXは誰が動かしていると思っているの? ユーザプロセスは? OSカーネルは?
- 80 名前:デフォルトの名無しさん [2006/11/11(土) 01:02:00 ]
- インテルのペンティアムプロセッサのマシン語で
高速化を勉強できる良い入門書みたいなのあったら教えてください ホント、よろしくお願いします。 このとおり!m(_ _;)m m(-.-;)m m(_ _;)m
- 81 名前:デフォルトの名無しさん mailto:sage [2006/11/11(土) 01:24:25 ]
- >>4
- 82 名前:デフォルトの名無しさん mailto:sage [2006/11/11(土) 01:40:00 ]
- そうおっしゃらず。。
なにとぞ、お願いします〜m(_ _;;)m
- 83 名前:デフォルトの名無しさん mailto:sage [2006/11/11(土) 08:03:04 ]
- >>83
いやマジで、下手な本買うよりiccのアセンブラ出力眺めた方がよっぽど勉強になるって。
- 84 名前:デフォルトの名無しさん mailto:sage [2006/11/11(土) 10:14:57 ]
- なるほど、そういう意味でしたか。
- 85 名前:デフォルトの名無しさん mailto:sage [2006/11/11(土) 12:12:26 ]
- >>80
MMXテクノロジ最適化テクニック(ISBN4-7561-0797-4)の5章
- 86 名前:80 mailto:sage [2006/11/11(土) 22:35:35 ]
- >>85さん、ありがとうございます。
早速書店で探してみます。m(_ _)mペコリ
- 87 名前: 【凶】 【488円】 [2007/01/01(月) 10:52:18 ]
- SSEでどこか参考になるサイトはありませんか?
- 88 名前:デフォルトの名無しさん mailto:sage [2007/01/01(月) 12:07:08 ]
- つ[google]
- 89 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:18:09 ]
- 最近のコンパイラはSSEなどは指定しなくても自動的に使ってくれるのでしょうか?
- 90 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:30:46 ]
- ではまず最近のコンパイラの定義から(ry
- 91 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:32:37 ]
- >>89
そういうコンパイラもあります。
- 92 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:34:43 ]
- インテルコンパイラです
- 93 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:36:58 ]
- 自動的に使うようになってると、SSEがないCPUでは動作しないのでは。
- 94 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 18:59:08 ]
- O3を指定した場合、自動的に検出され使われる
- 95 名前:デフォルトの名無しさん [2007/01/08(月) 19:03:58 ]
- _ ∩
( ゚∀゚)彡 オッサン!オッサン! ⊂彡
- 96 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 19:07:29 ]
- ここってこんなに人居たんだ
- 97 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 19:28:09 ]
- >>95
オマイの駄洒落のほうが・・
- 98 名前:・∀・)っ-{}@{}@{}@ mailto:sage [2007/01/08(月) 20:10:18 ]
- /Qx*とか/Qax*なしで使うことってあったっけ?
とりあえずboost:mt19937はICCのオートベクトライズでやたら速くなるが
- 99 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 20:31:21 ]
- Auto-vectorization in GCC
ttp://gcc.gnu.org/projects/tree-ssa/vectorization.html
- 100 名前:デフォルトの名無しさん mailto:sage [2007/01/08(月) 20:47:28 ]
- AMD64向けだと強制的に使ってくれる。
自動ベクトル化は知らん。
- 101 名前:サイザー専用JAVA演習場 その2 [2007/01/08(月) 21:17:02 ]
- 次スレまできた。飽きっぽい俺が良く続くもんだ。Σ(´∀`;)
どうぞよろしくお願いします。
- 102 名前:デフォルトの名無しさん mailto:sage [2007/01/29(月) 08:23:39 ]
- www.intel.co.jp/jp/developer/download/index.htm
ここにあるインストラクションセット表って、 SSE3以降のものも載ってます?
- 103 名前:デフォルトの名無しさん mailto:sage [2007/02/07(水) 20:57:03 ]
- SSE3は載ってたと思う。SSSE3は知らん
- 104 名前:デフォルトの名無しさん mailto:sage [2007/02/09(金) 01:09:07 ]
- gcc 4.1.1をMinGW gcc 3.4でコンパイルして使っています。
自分の使っているCPU向けに最適化をしようと、 -O2 -march=pentium-m -msse2 -mfpmath=sse 上のオプションを付けてLame 3.97をコンパイルしたところ、最後の -mfpmath=sse を外した方が速いという結果になってしまいました。 CPUはCeleron Mを使っています。 Cerelon Mでは、実数演算ではSSEではなく80387を使った方が速いのでしょうか。 SSE命令を使った方が一見速そうに見えるのですが・・・。
- 105 名前:・∀・)っ-○◎● ◆DanGorION6 mailto:sage [2007/02/10(土) 01:07:28 ]
- BaniasかDothanかYonahかにもよるけど、SSEはあんまり得意じゃないよMは
- 106 名前:104 mailto:sage [2007/02/10(土) 16:29:40 ]
- >>105
Dothanコアです。 MはSSEが得意ではないのですね。参考になりました。 参考までに、姫野ベンチでも実験したところ、こちらは-mfpmath=sseありの方が速かったので、 コードに依るかも知れません。
- 107 名前:・∀・)っ-○◎● ◆DanGorION6 mailto:sage [2007/02/10(土) 21:00:29 ]
- Pentium M系アーキテクチャでSSE*が遅いのはデコーダがネックになってるらしい。
Complex Decoderのみでデコードされるから、倍精度は浮動小数が速くても不思議じゃない Pentium MのFPUは加減算・乗算毎に倍精度×1、単精度×2だけど x87とSSEスカラ演算だと単精度はクロックあたり1、SSEのパックド演算だと2つは 発行できるから、単精度ならまだ使う価値があるね。
- 108 名前:デフォルトの名無しさん mailto:sage [2007/02/10(土) 21:59:57 ]
- 演算ユニットの構成は
Port 0: x87ADD x87&SSE-MUL Port 1: SSE-ADD(SP Only) よってクロック毎に実行できる最大値は x87-SP: 1 SSE-SP: 4 SSE-DP: 1
- 109 名前:デフォルトの名無しさん mailto:sage [2007/02/12(月) 16:51:08 ]
- んでもSSE使うように最適化オプションつけた方が
遅くなるってのは不思議だよなぁ。 早くならないってことはあっても遅くなるってのはなぁ・・・ タスクスイッチのときにXMMレジスタも全部退避するようになるから? そういやXMMレジスタまで対比するか否かってOSはどうやって知ってるの?
- 110 名前:デフォルトの名無しさん mailto:sage [2007/02/12(月) 16:58:01 ]
- >>109
そもそも初期状態でFPUセットになっているのなら、SSEを使うだけで切り替えコストが発生する。
- 111 名前:・∀・)っ-○◎● ◆DanGorION6 mailto:sage [2007/02/12(月) 17:01:00 ]
- まあ、Complexデコーダパス命令だから、の一言なんだが
待避のオーバーヘッドなんてたかがしれてる MXCSRレジスタってあるじゃん
- 112 名前:・∀・)っ-○◎● ◆DanGorION6 mailto:sage [2007/02/12(月) 17:01:45 ]
- >>110
それXMMレジスタじゃなくてMMレジスタの話では
- 113 名前:デフォルトの名無しさん mailto:sage [2007/02/12(月) 17:41:09 ]
- でもSISDならデコードも速い。
単純にコンパイラが最適化しきれてないだけじゃないのか。 そもそも104氏が何の処理をさせてたのか書いてないから イマイチ議論のしようがない気もする。 おそらく人間が書けばDothanでもSSEの方が速いとは思う。
- 114 名前: ◆0uxK91AxII mailto:sage [2007/02/12(月) 21:16:30 ]
- >>109
>XMMレジスタまで対比するか否か hira.main.jp/wiki/pukiwiki.php?__save_init_fpu()%2Flinux2.6
- 115 名前:・∀・)っ-○◎● ◆DanGorION6 mailto:sage [2007/02/17(土) 17:12:17 ]
- Core 2 (Merom)ベースのCeleron Mももう出たし
- 116 名前:デフォルトの名無しさん [2007/02/19(月) 20:47:39 ]
- 二つの符号付及び符号無し 64bit 整数の乗算、
さらには 128bit 整数同士の乗算などは SSE/SSE2/SSE3 命令群を使うことで高速化できるのでしょうか? そもそもこれらの命令は SIMD 目的であって ビット幅の長い演算が目的ではないので、 見当違いでしょうか?
- 117 名前:・∀・)っ-○◎● ◆DanGorION6 mailto:sage [2007/02/20(火) 00:30:25 ]
- 64ビット同士の整数乗算は素直にx64命令セット使えと思うが。。。
16×16の積算・積和演算があるから組み合わせればいくらでも可能だ罠
- 118 名前:デフォルトの名無しさん [2007/02/21(水) 14:03:24 ]
- 海外旅行での現地のATMでのキャッシングって、
キャッシング枠ですか?それともショッピング枠ですか? 以前現金主義の友人がどうしても両替商見つからなくて 現地のATMでキャッシングしたら、日本に帰ってきて ショッピングとして明細に出てたって聞いたんですが。
- 119 名前:デフォルトの名無しさん mailto:sage [2007/02/21(水) 15:09:23 ]
- >>118
ATMによる。スレ違い。
- 120 名前:デフォルトの名無しさん mailto:sage [2007/02/25(日) 13:31:40 ]
- 誤爆じゃないのか
- 121 名前:デフォルトの名無しさん [2007/03/02(金) 21:40:36 ]
- 浮動小数点モデルを /fp:fast にする
精度は落ちるが
- 122 名前:デフォルトの名無しさん mailto:sage [2007/03/03(土) 09:27:27 ]
- マルチタスク/マルチスレッドで、セマフォを長時間握ったまま返さない奴とか見つける、とかは
やっぱプロファイラとかで動的解析しないと分らんよね。 そんなの静的解析でどうにかなるもんじゃないか・・・。
- 123 名前:デフォルトの名無しさん [2007/06/04(月) 18:02:04 ]
- doubleは2つ同時にしか実行できないのか?
- 124 名前:デフォルトの名無しさん [2007/06/04(月) 18:08:28 ]
- >>123
日本語よろ!
- 125 名前:デフォルトの名無しさん mailto:sage [2007/06/04(月) 18:54:23 ]
- だぶる先生らいふのことだろ。
常識的に考えて。
- 126 名前:デフォルトの名無しさん mailto:sage [2007/09/28(金) 23:10:54 ]
- ダブル先(の)生ライフ?
- 127 名前:デフォルトの名無しさん mailto:sage [2007/10/01(月) 19:33:27 ]
- >>123
C++でおk
- 128 名前: ◆0uxK91AxII mailto:sage [2007/10/01(月) 23:04:52 ]
- >>123
一つのみも可。 ex) addsd
- 129 名前:デフォルトの名無しさん mailto:age [2007/12/31(月) 11:50:57 ]
- 下がり過ぎ
|

|