- 373 名前:,,・´∀`・,,)っ-○◎● mailto:sage [2009/02/22(日) 01:40:14 ]
- prefetch*はキャッシュライン単位だぞ。
あと、Core MAやAMD K8以降ではL1キャッシュの1ラインは64byteなんで。 シーケンシャルリードなら同一ラインの後続ブロックもL1から続けて読めるから >>369の想定する用途では全然問題ないと思うんだが。 シーケンシャルとか定ストライドなどのパターン性のあるアクセスなんかだと いまのCPUではキャッシュ自体が自動的に先読みしてレイテンシ隠蔽してくれる機会がある。 ベクトル長伸ばしちゃうとそれはそれで厄介だぜ 座標を表すのですら、単精度だとx, y, zであと1要素分余らせたりすることが珍しくない。 現状のSSEの実装ではpermute演算はそこまで強力じゃないので128bitが妥協点だったのでは?
|

|