- 128 名前:名前は開発中のものです。 mailto:sage [2005/11/06(日) 20:09:03 ID:ILzm4zH3.net]
- >>122
メモリアクセスは32ビット境界ごとに行ってるから 境界を跨ぐと2度フェッチしなければならない。 1度で済む32ビット境界にalignしたほうがいい。 >ちなみに私の場合、条件分岐は、加算合成系での >RGB値それぞれのオーバーフローを防ぐためのif()文三つでした。 >if ( r>255 ) r=255; みたいな。 これは是非MMXでpaddsbとかを使いたいね つかMMXとかSSEとか、Intelんとこにあるpdf読んでると面白いぞ。 浮動小数の掛け算ってこんなにはえーんだー、とかw imulがレイテンシ/スループット=14/3に対してmulpsは6/2で終わってしまう。 整数の掛け算1つより浮動小数の掛け算4つのほうが高速とか凄い世界になったもんだ ちょっと前にSSEで最適化ちょっとやったことあるけど物凄いスピードが出て驚いた。 ループ回数が単純に1/4になるのがでかかったなぁ
|

|