- 642 名前: ◆MERIKEN4.k mailto:sage [2012/11/14(水) 15:16:17.63 ID:mDY3eRDW0]
- で、あれから色々試してみて、Bitslice DES用の一時変数はローカルメモリに
おかないと全く速度が出ないことが分かりました。ローカルメモリは ワークグループ内で共有されるので、Bitslice DESを8個のスレッドで 並列処理するように書き換えてやりました。 その後、さらに性能を上げるためにAMD APP Profilerで解析してみました。 あんまり期待してなかったwのですが、非常に使いやすいです。 で、気になっていたOccupancy Analysisを行なってみたら、 案の定ローカルメモリ(LDS)の使い過ぎであることが判明しました。 www.meriken2ch.com/files/2012-11-13-AMD-APP-profiler.jpg
|

|