x86命令の所要クロック計測スレPart3

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 2chのread.cgiへ]
Update time : 05/10 01:37 / Filesize : 162 KB / Number-of Response : 530
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：1 ◆.MeromIYCE mailto:sage [2007/01/10(水) 12:32:46 ]: ゆるゆる～っと実測していきましょう。

過去ログ
x86命令の所要クロック計測スレPart2
pc10.2ch.net/test/read.cgi/tech/1136527588/l50
x86命令の所要クロック計測スレ
pc8.2ch.net/test/read.cgi/tech/1103609337/l50

関連スレ
アセンブラ…　(゜□゜) ↑アッー！↓
pc10.2ch.net/test/read.cgi/tech/1148402614/l50
MMX SSE 3D NOW!のプログラミング
pc10.2ch.net/test/read.cgi/tech/1085749218/l50
CPUアーキテクチャについて語れ 5
pc9.2ch.net/test/read.cgi/jisaku/1159238563/l50
【Penryn】次世代モバイルCPU雑談ｽﾚ 3【Nehalem】
pc9.2ch.net/test/read.cgi/notepc/1160039483/l50
もしくは、自作板にて「次世代」でスレタイ検索

まとめサイト（過去ログ置き場）
www.wikihouse.com/x86clocker/index.php?FrontPage
267 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 16:45:34 ]: >>262
あるだろう
268 名前：248 mailto:sage [2007/04/01(日) 17:07:41 ]: ここで真相を明かしますよ。今日の日付けを考えてみろ、と。

という冗談はさておいて。
そもそも元質がCでって書いているんだから、C++で書いてある時点で>248はネタだって判るでしょうに。
269 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/01(日) 17:10:04 ]: >>268を翻訳

「max/minが関数名と重なってるからstd::ネームスペース指定してみたけど
二重に誤爆しちゃったみたい。俺ってお馬鹿♪」
270 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 17:56:56 ]: 条件付movとか、フラグ→マスクみたいな一般的な方法ではなく
SSE2が最初に出てくるようなミーハーイッテル馬鹿は初心者を笑えないだろ…
271 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 18:23:00 ]: >>270
見苦しい。
272 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 18:28:49 ]: >>271
団子よ、IDが出ないからといって見苦しい自演するな。
273 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 18:41:39 ]: 無意味な喧嘩すんなよ。
匿名掲示板上で自分のアイデンティティ探ししてると、
（自作板に２名ほどいるけど）本物の精神疾患になるぞ。
274 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 18:51:22 ]: おまえ自作板見てないだろ？
275 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 18:56:01 ]: >>243-275
スレ違い
276 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 19:03:28 ]: Ｏ原ネタ振れよｗｗ
277 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/01(日) 19:35:46 ]: >>272
アホすｗｗｗ

>>270
SSE2じゃなくてSSEまでのサポートで使えるけど。
CMOVならPentium Pro以上が要求される。
Pentium/PMMXは切り捨ててよくてPPro/P2は切り捨てちゃだめって基準は理解できない。
CMOVは対応する組み込み関数あったっけ？コンパイルオプションやインライン
ASMくらいしか使う手段なかったと思うが。

どうせSSE未サポートのx86互換チップなんて今後発売される見込み無いんだし
x64ではSSE2までは標準ISAに入ってるんだから覚えておいていいと思うけど。

ハードウェアの投機実行機構に任せるより下手すりゃ遅くなるような
ビットマスク生成とかの厨コーディングより、いま市場に出回ってるCPUの
大半で使える最速の方法を知ってたほうがよっぽど役に立つだろ。
278 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 19:53:13 ]: この粘着力は酉付いてなくても真性だとわかる
279 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 20:33:12 ]: MACヲタもそうだが酉なしで粘着する奴はもう一線越えてるからな
280 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 20:38:45 ]: 無能よかまし
無能は情報として価値が無い
281 名前：デフォルトの名無しさん mailto:ということにしたいのですねsage [2007/04/01(日) 20:42:30 ]: >>270が言ってるのはset命令だろ。
そこでSSEとかCMOVとか言ってる時点で話が見えてない。

CMOVの組み込み関数はVCの64bitモードになかったっけ。
32bitで使えないならあんま意味ないけどな。
282 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 21:15:58 ]: 無能は価値がないけど嘘吐きは有害
283 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 21:27:04 ]: >>280
>>282
なんかヤなことでもあったのか？
284 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/01(日) 21:34:37 ]: >>281の脳内では「条件付きMOV」と「CMOV」は別モノらしい

set命令って何？
_mm_set_ssならmovssに展開されるだけだよ。
むろんemmintrin.hなんて要求されない
285 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/01(日) 21:37:20 ]: >>282
だよね。SSEしか要求しないのに生成コードすら読まずに
SSE2だなんていう嘘つきは要らない子だね。
286 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 21:46:07 ]: 今日付いたレスは全部嘘
287 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/01(日) 21:55:15 ]: インラインASM的にはこうか？

__asm {
movss xmm0, DWORD PTR [a]
movss xmm1, DWORD PTR [b]
movss xmm2, xmm0
maxss xmm0, xmm1
minss xmm2, xmm1
movss DWORD PTR [min], xmm0
movss DWORD PTR [max], xmm2
}

x87スタック←→XMMレジスタは普通の方法使えばメモリに書き出して読み直すので
その分オーバーヘッドが生じるが、
arch=sseでコンパイルしてれば浮動小数演算はほとんどXMMレジスタ上で行うことができる。

んで、SSE2命令なんてどこに必要なの？ねぇ、教えて？

>>286
だよね。「SSE2が必要」ってのはどーみても綿貫ネタだよね。
288 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 22:01:37 ]: >>284
SETcc r/m8
289 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/01(日) 22:24:59 ]: mov eax, [a]
mov edx, [b]
sub eax edx
setg（以下まんどくせ。movsxって結構オーバーヘッドなかったっけ？

MMXまんせー（uint32のとき
Core2とかならXMMレジスタ使った方がいいかもよEMMSのオーバーヘッド省けるし

movd mm0, [a]
movd mm1, [b]
movd mm2, mm0
pcmpgtd mm0, mm1
pand mm2, mm0
pandn mm0, mm1
movd [max], mm2
movd [min], mm0
emms
290 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 22:37:26 ]: このグラフの目盛は13クロック前後かな?
pc.watch.impress.co.jp/docs/2007/0329/intel_8.jpg
291 名前：デフォルトの名無しさん mailto:sage [2007/04/02(月) 00:46:40 ]: 相当な粘着だな
292 名前：デフォルトの名無しさん mailto:sage [2007/04/02(月) 01:30:13 ]: うちの団子が粘着でごめんなさいm(＿)m
293 名前：デフォルトの名無しさん mailto:sage [2007/04/02(月) 01:33:03 ]: 粘りけのない団子なんて食えたもんじゃない
294 名前：デフォルトの名無しさん mailto:sage [2007/04/02(月) 01:35:07 ]: と背景雑音どもが申しております
295 名前：デフォルトの名無しさん mailto:sage [2007/04/02(月) 01:38:50 ]: 　　　_, ._
　（　ﾟ Дﾟ）
　　( つ旦O
　　と＿)_)
296 名前：デフォルトの名無しさん mailto:sage [2007/04/02(月) 10:24:01 ]: SET命令やビット命令を最後に使ったのは何時だったか
297 名前：デフォルトの名無しさん mailto:sage [2007/04/02(月) 16:21:18 ]: つまらん事で荒れたのを久々に見たなぁ・・・

スレ違いだ他池ボケで済むだけなのに。
298 名前：デフォルトの名無しさん mailto:sage [2007/04/02(月) 17:31:52 ]: スレ違いな質問にも答えずにはいられないのが教えたがり君クオリティ
299 名前：デフォルトの名無しさん mailto:sage [2007/04/03(火) 00:09:42 ]: おまえらがつまらんことやってるからWolfdaleのESベンチの結果が違うスレに貼られたじゃないか
300 名前：デフォルトの名無しさん mailto:sage [2007/04/03(火) 00:24:54 ]: 速ｗ
pc11.2ch.net/test/read.cgi/mac/1159817811/608
301 名前：1 ◆.MeromIYCE mailto:sage [2007/04/03(火) 12:45:37 ]: >>238
これは嬉しい！

>>300
速すぎて、クロック測定ルーチンがポシャってないか不安なくらい。

Intel、45nmプロセスの次期CPU「Penryn」の詳細を公開
pc.watch.impress.co.jp/docs/2007/0329/intel.htm
とりあえずMeromとの比較まとめ。

L2キャッシュは1.5倍の6MB、12MB版もあり。ダイサイズは25%縮小。新たにSSE4が載る。
SSEのShuffle系の命令の遅さが改善される。
整数/FP共に除算の性能が上がる。FPUの平方根も高速化。
FSBクロックが上がり、プリフェッチにも手が入る。
省電力機能のDPD、シングルスレッド性能のためのEDA。

Yonahの消費電力はなぜ少ないのか
pc.watch.impress.co.jp/docs/2005/0831/kaigai208.htm
Deep Power Downは、YonahのEnhanced Deeper Sleepと何が違うんだ？
まさか、YonahのDC4ステートがMeromになかったのか。
Enhanced Dynamic Accelerationは、IDAの改良版だろうか。

"Radix 16"の16は何だろう。>>300を見ると相変わらず8bit単位でクロック数が変わっている。
命令のデコードが速くなるという記述もあるが、divのuOP数も減るのか？
今まではちまちまやっていたのを、16bitいっぺんにやるから速いということかね。

引きずってる弱点もあるだろうけど、十分に洗練されてきたと感じる。
302 名前：デフォルトの名無しさん mailto:sage [2007/04/03(火) 13:41:42 ]: >>301
＞"Radix 16"の16は何だろう。
見えてきたPenryuとNehalemの「革新性」 (1/2)
plusd.itmedia.co.jp/pcuser/articles/0704/02/news067.html
で元麻布の言ってる事が確かなら、「基数を16にした除算器（Radix-16 divider）」

しかし予想外に新要素が多いね。
シュリンク+SSE4ぐらいかと思ってたんだが。
こらAMDきつくなりそう…
303 名前：1 ◆.MeromIYCE mailto:sage [2007/04/03(火) 14:40:04 ]: >>302
基数が16ってのは16進法で筆算するような感じなのかな。
クロック数の変動から、256進法と思っていたが、単に商を8bitで区切って
その区切りごとに演算を早目に終わるという感じか。

Nehalemは、単純にIPCで見て素直な上がり方をするのかなあ。
P6と違う味のするコアでPenrynを完全に超えてくれたら嬉しい。
304 名前：デフォルトの名無しさん mailto:sage [2007/04/03(火) 16:31:14 ]: つまりは４ビット単位の部分商を一気に計算してるんだろ
305 名前：デフォルトの名無しさん mailto:sage [2007/04/03(火) 20:13:26 ]: >>301
>速すぎて、クロック測定ルーチンがポシャってないか不安なくらい。
>>128のMeromの半分だし妥当では?

>Deep Power Downは、YonahのEnhanced Deeper Sleepと何が違うんだ？
>まさか、YonahのDC4ステートがMeromになかったのか。

>Yonahの消費電力はなぜ少ないのか
>pc.watch.impress.co.jp/docs/2005/0831/kaigai208.htm
>その段階に入ると、Yonahは、新たに設けられたEnhanced Deeper Sleep「DC4」と呼ばれるステイトに入る。
>これは、Deeper Sleepよりさらに電圧を下げるステイトだ。
>Enhanced Deeper Sleepでは、CPUコアを再起動しないですむ、コア保持(Core retention)レベルに最低限必要な電圧にまで下げる。

スライドを見る限りではこのコア保持レベルより更に電圧を下げるという話みたいね。
306 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/03(火) 21:49:44 ]: 自習で暇だったからランダムなfloat値1億個の入った配列を読み出して
最大値と最小値を求めるプログラム書いて時間潰してた。

案の定だが、SSEベクトル＞SSEスカラ＞＞＞＞＞＞x87
fcmov*って大して速くないんだな
307 名前：デフォルトの名無しさん mailto:sage [2007/04/03(火) 22:54:19 ]: こいつは半端に知識ある癖してどこまで理解出来てるのかさっぱりだな。
CMOVは速いんじゃなくて最悪の状態でも遅くなりにくいんだぞ。
原理くらい知ってるだろうに。
308 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/04(水) 05:09:26 ]: うん、それで？
309 名前：デフォルトの名無しさん mailto:sage [2007/04/04(水) 06:49:23 ]: >>307
稚拙な煽りだな。
310 名前：デフォルトの名無しさん mailto:sage [2007/04/04(水) 07:39:57 ]: 落ち着け。つくづく痛い子だな。
306は内容が無いだろ。チラシの裏にでも書くんでなければせめて分り切った事でも考察入れろと。
311 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/04(水) 07:51:45 ]: こんなもんで
せろり2GHz

x87+CMOV 1100msec
SSE(スカラ) 320msec
SSE(ベクタ) 230msec
312 名前：デフォルトの名無しさん mailto:sage [2007/04/04(水) 21:21:14 ]: 80/32(bit)より遅いね。
doubleの場合と分岐を使う場合はどうだろう。
313 名前：1 ◆.MeromIYCE mailto:sage [2007/04/06(金) 23:39:33 ]: >>190のを試すのと、fsqrtとfdivのレイテンシ測定をやりたいんだが、
何かやる気出ないなあ・・・。

NehalemにはSMTが載るらしいが、数年後なら4～16スレッドに
備える意味があると踏んだのだろうか。
まあ、サーバー用途とかだろうけど。

SMTの効果だが、NetBurstと同等くらいはあるのではないだろうか。
ネトバは元々スカスカだから、SMTで資源を有効利用できる。
とはいえ、SSEのレイテンシで見ると、実はCore2よりもネトバの方が
スループットに対してレイテンシが短い（パイプライン充填率が高い）。
Nehalemでは、きっちり4命令/clkをコンスタントに供給してくるだろうし。

これはつまり、Core2の効率が悪いと言っていることになるが、
実際にあれだけ強化したCore2がK8の20%増ししか速くないのだから、
発揮できていない潜在パワーはかなりあるはずだ。
（これは別にCore2の設計が悪いという意味ではない）
314 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/06(金) 23:48:21 ]: 命令フェッチ帯域が狭いからそれを拡充しないことにはね（Penrynでは改良してくるはず）
315 名前：1 ◆.MeromIYCE mailto:sage [2007/04/07(土) 00:09:44 ]: >>305
え、コア保持しないん！？

>>311
float1億個といったら400MBじゃんか。
それでもメモリネックにならないのか。
cmovは１個に20clk以上かかってるぞ。
比較-フラグ-移動のレイテンシが長いんだろうなあ。

いずれしても、これからの時代はFPUを使う意味がないね。
316 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/07(土) 01:05:52 ]: ちなみにCで書いてコンパイルしただけ。（SSEだけIntrinsicsを利用）
っていうかISAがスタックベースだからどうしても命令が多くなるのでしょう
一方SSEだとこんだけ。

movss xmm2, [ecx+Offset]
maxss xmm0, xmm2
minss xmm1, xmm2

ちなみに手動でアンロールしたら同じ環境でスカラ280ms, ベクタ200msくらいになった。
キャッシュは128KBだしFSBは400MHｚ、メモリはよくわからん。
プリフェッチは使ってない（てかあんま意味なさそう）
317 名前：デフォルトの名無しさん mailto:sage [2007/04/07(土) 05:48:00 ]: ソース希望。

って、SSE版は掲載済みか。
318 名前：・∀・）っ-○◎● mailto:釣りウマーsage [2007/04/07(土) 09:08:29 ]: ループの内側はこんだけ。

//FP版
if (a[i] > fMax) fMax = a[i];
else if (a[i] < fMin) fMin = a[i];

//SSEスカラ版
__m128 sa = _mm_load_ss(&a[i])
xmax = _mm_max_ss(xmax, sa);
xmin = _mm_max_ss(xmin, sa);

//SSEベクタ版
__m128 pa = _mm_load_ps(&a[i])
xmax = _mm_max_ps(xmax, pa);
xmin = _mm_max_ps(xmin, pa);
319 名前：317 mailto:sage [2007/04/07(土) 09:29:14 ]: お、THX!

それはいいけど、いい加減そのメルアドはやめなさいよ。
320 名前：・∀・）っ-○◎● mailto:sage [2007/04/07(土) 10:04:21 ]: どうでもいいけど_mm_min*だな
321 名前：デフォルトの名無しさん mailto:sage [2007/04/09(月) 13:16:33 ]: 折角だから実測してみた。
>Intel(R) Xeon(TM) CPU 3.40GHz [fpu vme de pse tsc msr pae mce cx8 apic mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe lm pni monitor ds_cpl est tm2 cid xtpr]
>gcc (GCC) 3.4.6 20060404 (Red Hat 3.4.6-3)

>gcc -O3 -std=c99
if (p[ic] > vMax) vMax = p[ic];
if (p[ic] < vMin) vMin = p[ic];
0.61 sec #fucomして普通にjne/jmpで分岐
if (p[ic] > vMax) vMax = p[ic];
else if (p[ic] < vMin) vMin = p[ic];
0.64 sec #fucomしてあっちこっちにjmp
>gcc -msse2 -O3 -std=c99
if (p[ic] > vMax) vMax = p[ic];
if (p[ic] < vMin) vMin = p[ic];
0.91 sec #fucomiしてfcmovnbe
if (p[ic] > vMax) vMax = p[ic];
else if (p[ic] < vMin) vMin = p[ic];
0.90 sec #maxはfucomiして普通に分岐、minはfucomiしてfcmovnbe
__m128 tmp = _mm_load_ss(& p[ic]);
xMax = _mm_max_ss(xMax, tmp);
xMin = _mm_min_ss(xMin, tmp);
0.18 sec #movss, maxss, minss
__m128 tmp = _mm_load_ps(& p[ic]);
xMax = _mm_max_ps(xMax, tmp);
xMin = _mm_min_ps(xMin, tmp);
0.13 sec #movaps, maxps, minps

SSEの方はどっちも>311とは綺麗にクロック比になっている辺り。
それから察すると、>311はホントにfcmov使ってたんだろか。
つーか、fcmov遅過ぎ。
322 名前：デフォルトの名無しさん mailto:sage [2007/04/09(月) 13:24:06 ]: わかりにくいから数字だけ書き直しとこ。

0.61sec fpu分岐版
0.64sec fpu分岐版(else if)
0.91sec fpu fcmov版
0.90sec fpu fcmov版(else if)
0.18sec sse scalar版
0.13sec sse vector版
つーか、sse vector > sse scalar >>>> fpu分岐 >> fpu fcmov ってか?
323 名前：・∀・）っ-○◎● mailto:sage [2007/04/11(水) 00:36:28 ]: 16bit整数×1億個で計測（10回回してるので10倍になってます）
gcc 3.3 i686-cygwin Celeron 2GHz(Northwood) FSB400MHz

非SIMD
3078ms -O3
1890ms -O3 -funloll-all-loops
3860ms -O3 -funloll-all-loops -msse
3892ms -O3 -funloll-all-loops -march=pentium4

-msse以上のオプションを指定すると無条件でCMOV使う感じ？

あと、参考までに
SSE(64bit SIMD)
2172ms -O3 -msse
1812ms -O3 -funloll-all-loops -msse
1750ms -O3 -funloll-all-loops -march=pentium4

SSE2(128bit SIMD)
1422ms -O3 -msse2
1407ms -O3 -funloll-all-loops -msse2
1313ms -O3 -funloll-all-loops -march=pentium4

Pentium4って倍速ALUだから非SIMDでもそこそこ速い？
324 名前：デフォルトの名無しさん mailto:sage [2007/04/11(水) 10:11:53 ]: VTune9キター
ところでこのスレで使ってる人います・・？
325 名前：デフォルトの名無しさん mailto:sage [2007/04/11(水) 10:25:48 ]: 団子先生なら買う！！！
326 名前：デフォルトの名無しさん mailto:sage [2007/04/11(水) 12:37:18 ]: VTune使いこなせてない漏れもいますよ。

処で>321だけど、流石にiccだとintrinsic使わないソースでもでもmaxps使ってくれるのね。
尤も、ループ回数が4の倍数じゃないときのロジックがおまけについてくるけど。
それと、詳細の数値忘れたけど(出先の)2coreXeon(3GHz)だとicc -fastで0.12secは掛かってた。
クロック差を考えると速いんだけど、-parallelにしたら却って遅くなってやんの。

>>323
ふむ、cmovも遅いのね。
327 名前：デフォルトの名無しさん mailto:sage [2007/04/14(土) 09:06:21 ]: 確か予測分岐はランダムな入力に対して学習しない、つまり予測を変えないから1/2の確率で的中するんだよな。
対してcmovは予測が無いから投棄が無い代わりに速くならない。

という事はフラグが余裕を持って決まっていればいいんじゃないかと思うんだが。
ただフラグレジスタが一つしかないから有効に使える場面が少なそうだ。
328 名前：デフォルトの名無しさん mailto:sage [2007/04/14(土) 09:22:54 ]: あと予測をことごとく裏切る、つまり短いスパンで規則性のある入力に対してはcmovが有効だろう。
cmovは分岐テーブルも汚さないだろうから、ベンチマークではなく実際のプログラムではこれも効いてくるかも知れない。
329 名前：・∀・）っ-○◎● mailto:sage [2007/04/16(月) 23:46:01 ]: そーいや、最大最小の問題は回数重ねると分岐パターンが収束してくわな。
NetBurstで32bit整数だと完全に汎用ALU＞SIMDだね。
PMAXSD/PMAXUDまだ使えないから余計に不利。
330 名前：・∀・）っ-○◎● mailto:sage [2007/04/18(水) 01:28:48 ]: CellのSPEの分岐ヒント命令っていいね
ある程度のコードの長さがあって分岐の十数クロック前に
ヒントを与えていれば、ミスを完全に防げる。

x86でフラグを更新しないのってleaとかSIMD演算命令くらいだが、
どうせSIMD使うならいっそ分岐先を両方実行してしまえばいいというジレンマ。
Penrynは拡販命令のスループットが大分よくなってるみたいなので
使い甲斐はありそう。
331 名前：デフォルトの名無しさん [2007/04/20(金) 21:21:15 ]: 沖縄県の方へ（命に関わる注意事項です）

沖縄県での選挙ですが、どうか民主党だけは避けてください。県民の生命に関わる可能性があります。
民主党の最大の公約は一国二制度（※）ですが、一度「一国二制度　沖縄　三千万」で検索をお願いします。
この際、民主党のＨＰで調べても良いです。以下の注釈↓と矛盾することは書いてないはずですから…

※一国二制度
　簡単に言えば沖縄を中国と日本の共有物にし、そこに3000万人の中国人を入植させます。
　（つまり沖縄人口の 96% を中国人にして、実質、沖縄を中国人の居住地とします。）
　さらに「自主」の名の下、沖縄で有事が起きても自衛隊は干渉できません。
　3000万人の中国人が、少数派となった130万人の日本人に何をしても、です。
　そして反日教育を受けた中国人の反日感情の強さは、ほとんどの日本人の理解を超えるものです。

今回の選挙で民主党が勝った場合、「自主」「発展」を連呼しつつ段階的に進めていくことになります。
自主と言っても、自主を認めるのが「住人の96%が中国人となった」後だということに気をつけてください。
発展と言っても、新沖縄の少数派となった「少数民族日本人」の発展ではないことに気をつけてください。
332 名前：デフォルトの名無しさん mailto:sage [2007/04/21(土) 03:40:43 ]: 民主党といえば、民主党の公認候補が毎日のように22時過ぎまで駅前で名前を連呼しているんだが
あれは問題ないんだろうか。
333 名前：デフォルトの名無しさん mailto:sage [2007/04/21(土) 16:25:49 ]: >332
通勤路では公明党と共産党がやってた。
調べたわけじゃないけど、拡声器を使わなければいいんじゃないかな。

使ってたら…シラネ。
(禁止行為にも地域差があるかもしれない)
334 名前：・∀・）っ-○◎● mailto:sage [2007/04/21(土) 19:32:21 ]: スレ違いだろうが
アレだ、香港・澳門が厨国に返還されて、東アジアにおける資本主義諸国と共産主義大国間の
物流の橋渡しをする地域が無くなってしまった（台湾-厨国間の貿易拠点もなくなってしまった）。

沖縄を香港・澳門に変わる貿易拠点として解放すればいいという主張は以前からある。
335 名前：デフォルトの名無しさん mailto:sage [2007/04/22(日) 05:24:07 ]: 負け癖は抜けませんがみんすです
336 名前：デフォルトの名無しさん mailto:sage [2007/04/22(日) 12:18:18 ]: 仮に開放するにしても、下手なやり方だと日本にはいいことなさそうだな。
337 名前：デフォルトの名無しさん mailto:sage [2007/04/22(日) 13:12:20 ]: Intelの最適化マニュアル
www.intel.com/design/processor/manuals/248966.pdf
によると
Meromでのpaddq/psubqのスループット-レイテンシは 1-2 になっている

download.intel.com/technology/architecture/new-instructions-paper.pdf
の SSE4 Vectorizing Compiler and Media Accelerators から
64bit比較命令のpcmpgtqだけがPenrynに実装されない

Penrynでpaddq/psubqの改善はないと考えていいのだろうか？
338 名前：1 ◆.MeromIYCE mailto:sage [2007/04/24(火) 10:27:24 ]: >>337
64bitCPUなのに64bit加算が苦手なのか？
add reg64,reg64 は、さすがにレイテンシ1でできると思うけど、
内部的には32bit*2段パイプで実現しているのかもね。

PenMでpaddqは3-2とのことだが、測定してみたら2-2に見える。
padddやporと混ぜてもレイテンシが3にはならなかった。
（ただ、混ぜたときのクロック数は不規則で、素直な命令ではない様子）
Meromでも、普通の命令の中では実質レイテンシ1で使えるんじゃないかな。
pcmpgtqが実装されないなら、paddqの改善はしてない方が自然だ。
339 名前：デフォルトの名無しさん [2007/04/26(木) 21:06:20 ]: www.watch.impress.co.jp/akiba/hotline/20070421/image/ssc24.html
340 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 14:59:09 ]: AMD Family 10h Processors 最適化ガイドが公開された
developer.amd.com/devguides.jsp
www.amd.com/us-en/assets/content_type/white_papers_and_tech_docs/40546.pdf
341 名前：・∀・）っ-○◎● mailto:sage [2007/05/05(土) 18:11:16 ]: movapsにもレイテンシ2クロックかかんのかよ
342 名前：デフォルトの名無しさん mailto:sage [2007/05/05(土) 18:38:13 ]: > 64bitCPUなのに64bit加算が苦手なのか？
AMD64の仕様自体が64bit苦手仕様だろw
343 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 07:11:07 ]: しょぼｗ
344 名前：デフォルトの名無しさん mailto:sage [2007/05/06(日) 13:28:51 ]: コアが増えるなら別にいいんじゃね。
345 名前：デフォルトの名無しさん [2007/05/06(日) 18:36:40 ]: ダンゴさんが書き込むとスレが引き締まるな
346 名前：デフォルトの名無しさん mailto:sage [2007/05/07(月) 20:31:45 ]: L2レイテンシ9だって？
347 名前：デフォルトの名無しさん mailto:sage [2007/05/07(月) 21:12:45 ]: なんかブロック図が想像してたのと違う。

Core－SRQ,XBar－HT,MC
　　　　　　　|
　　　　　　L3

と思ってたのに

Core－L3－SRQ,XBar－HT,MC

に見える。
盛大な勘違いだったのだろうか。
348 名前：デフォルトの名無しさん mailto:sage [2007/05/07(月) 21:34:21 ]: >>346
3(L1) + 9(L2) = 12
ではなくて？
これだとWindsorと変わらない気がするが。
Brisbaneから改良されたんかな。

347はやっぱ盛大な勘違いだった模様。
journal.mycom.co.jp/articles/2006/06/20/computex01/001.html
と「L3とメモリは同時にアクセス出来る」という話を聞いて勝手に予想してたんだけど、
この図のCBってMCとかHTが繋がってるXBARとは別なんだね。
journal.mycom.co.jp/special/2007/x2-65nm/015.html
こっちで大原もちゃんと言ってた…。
349 名前：デフォルトの名無しさん mailto:sage [2007/05/09(水) 15:30:34 ]: 適当なスレがないのでスレ違いを覚悟で質問します。
AMD64のアドレッシングモードのうち、レジスタオフセットに変位が付く形
はIA32と同じ32ビットまでしかできません。

これを64ビットの変位にまで拡張しなかったのは、必要ないからと判断
されたからなのでしょうか？レガシーx86の時のような問題は起きてこな
いのでしょうか？
350 名前：デフォルトの名無しさん mailto:sage [2007/05/09(水) 15:34:26 ]: 例えば分かりやすい例を挙げてみます。

2Gバイト超の配列を宣言したとして、その添え字に2GBを超える値を指定
してアクセスしたとします。すると、レジスタオフセットは32ビットまでしか使えま
せんので、2つのレジスタを使って

MOV RAX, 配列のベースアドレス
MOV RBX, 変位
MOV RCX, [RAX + RBX * n]

のような形になると思います。冗長になりませんか？
351 名前：デフォルトの名無しさん mailto:sage [2007/05/09(水) 16:37:18 ]: MOV RCX,[RAX+imm64]みたいな命令がほしいってこと？
本当にいると思う？
352 名前：デフォルトの名無しさん mailto:sage [2007/05/09(水) 16:44:52 ]: >>351
そうそうそんな奴があればいいなと思ってました。
まあ無くてもコンパイラが>>350みたいなコードに展開してくれるし
レジスタは多めなので問題はないと思うのですが、あってもいいような
気がします。

というのは私はよくCやC++のコンパイラでコンパイルしたコードをデバッグ
モードで眺めるのが好きなのですが、BSSやDATA領域の変数を
アクセスするコードが結構頻繁に出てくるのです。そういうのが>>351の
ように書けたらすっきりすると思うのです。

まあいろいろ解析して不要と判断したのでしょうけどね。
353 名前：デフォルトの名無しさん mailto:sage [2007/05/09(水) 16:50:23 ]: とくにAMD64やEM64Tは広大なメモリ領域を自由にアクセスできるように
なるわけじゃないですか。

まあこんな事にはそうそうならないと思うけどスタック領域に2GB超の配列を確保
する事もあるかもしれません。そういう場合に便利だと思うのです。

まあ配列と言えば大抵添え字でアクセスするので決め打ちの添え字で
ハードコーディングする機会は少ないと言えば少ないのでしょうけど。
354 名前：デフォルトの名無しさん mailto:sage [2007/05/09(水) 17:10:44 ]: >スタック領域に2GB超
エエエエ゜Д゜
355 名前：デフォルトの名無しさん mailto:sage [2007/05/09(水) 18:48:11 ]: >>353
いや、だからイミディエイトで±2GB以上のオフセットが必要なシーンがどれだけあるのよ？
使うかどうかも分からん命令を命令マップのどこにアサインするのよ？
命令マップに座席を用意したとしても、64bitのイミディエイトを命令に
組み込めば、命令が8バイト伸びるってのも忘れちゃならんよ。
＃ISAの設計の世界には「アイは高くつく」という格言があってだね...。
356 名前：デフォルトの名無しさん mailto:sage [2007/05/09(水) 19:26:49 ]: 個人的にはイミディエイト値の扱いなんて POWER 並みで十分だと思う。
アセンブラは読みにくくなるけど。
357 名前：1 ◆.MeromIYCE mailto:sagePPGZ面白すぎ [2007/05/10(木) 00:14:29 ]: pc.watch.impress.co.jp/docs/2007/0509/tawada103.htm
以前の予想通り200MHzのアップだったな。IDA。
現実的な線だった。

しかし、MeromなどモバイルCPUの涙ぐましい省電力機能を見るにつけ、
Vista憎いという心が強まる。
実際、切れるサービス切ったら非使用時のCPU使用率はXP程度とかに落ちないのかね。
358 名前：デフォルトの名無しさん mailto:sage [2007/05/10(木) 00:31:39 ]: ユーザーが操作してない間は自由に動いてて構わないと思うけど。
ノートとかはプロフィールで軽くしてるだろうし、
ユーザーから見える情報が増えて心配の種が増えているだけでは。

まあどちらにしてもWINの不明瞭部分が多いだけだろ。
359 名前：138 mailto:sage [2007/05/10(木) 01:46:57 ]: やっぱりIDAショボーンだった…
kernel 2.6.25あたりで対応きぼんぬ
360 名前：デフォルトの名無しさん mailto:sage [2007/05/10(木) 03:10:39 ]: 地雷の965でしか動かさせないとなると怖いなぁ・・・
361 名前：デフォルトの名無しさん mailto:sage [2007/05/10(木) 16:39:46 ]: >>347
(Core0-3 + L3)が独立小島でDRAMアクセスを含めた外の領域はL3を通して接続って形に見えるね。
スケーラビリティーを考えると妥当なやりかたにも思える。
コア領域とノースブリッジ領域の分離を明確にしたというか。
362 名前：デフォルトの名無しさん mailto:sage [2007/05/12(土) 22:02:04 ]: >>361
しかしクロックや電圧供給ってCore0-3とL3+NBで分かれてたと思うんだけどねえ。
L3の位置もコアに挟まれてるんじゃなくてダイの端だし、一番遠いコアだとアクセス効率悪すぎる気もするのだが。
363 名前：デフォルトの名無しさん mailto:sage [2007/05/27(日) 23:56:38 ]: IntelのCPUはNaN(非数)に対する演算が遅いという事なので、
加算、乗算、除算命令のクロック数を計測するプログラムを作成してみました。
ついでに非正規化数(デノーマル数)や∞の場合も調べてます。

www.wikihouse.com/x86clocker/index.php?plugin=attach&pcmd=open&file=nan2.zip&refer=Upload

NaNの演算がかなり遅いというのはx87の場合だけで、
SSE,SSE2は遅くならないみたいですね。
プログラムを作成しない人にとってはNaNなんてどうでもいいことですが、
プログラムを作成する人にとっては、
プログラムを組んでみて、実行したら異常に時間がかかり、
やっと結果が出たと思ったら、途中で桁落ちしててNaNや∞だったなんて事は
ある事だと思います。
364 名前：デフォルトの名無しさん mailto:sage [2007/05/27(日) 23:58:00 ]: ●Core2Duoの結果
vender:GenuineIntel CPUID:6F6
x87 SSE SSE2
3.0 3.0 3.0 clk : 正規化数 + 正規化数 = 正規化数
5.0 4.0 5.0 clk : 正規化数 * 正規化数 = 正規化数
32.0 18.0 32.0 clk : 正規化数 / 正規化数 = 正規化数
182.2 3.0 3.0 clk : 非数 + 正規化数 = 非数
184.2 4.0 5.0 clk : 非数 * 正規化数 = 非数
185.2 6.0 6.0 clk : 非数 / 正規化数 = 非数
193.2 3.0 3.0 clk : 非数 + 非数 = 非数
195.2 4.0 5.0 clk : 非数 * 非数 = 非数
196.2 6.0 6.0 clk : 非数 / 非数 = 非数
205.2 152.2 152.2 clk : 正規化数 + 非正規化数 = 正規化数
393.5 152.2 152.2 clk : 非正規化数 + 非正規化数 = 非正規化数
397.5 151.2 152.2 clk : 非正規化数 * 正規化数 = 非正規化数
438.3 162.2 175.2 clk : 非正規化数 / 正規化数 = 非正規化数
182.2 3.0 3.0 clk : +∞ + 正規化数 = +∞
181.2 4.0 5.0 clk : +∞ * 正規化数 = +∞
185.2 6.0 6.0 clk : +∞ / 正規化数 = +∞
181.2 3.0 3.0 clk : +∞ + +∞ = +∞
181.2 4.0 5.0 clk : +∞ * +∞ = +∞
365 名前：デフォルトの名無しさん mailto:sage [2007/05/28(月) 00:10:44 ]: Opteron146でやってみた。
vender:AuthenticAMD CPUID:F71
x87 SSE SSE2
4.0 4.0 4.0 clk : 正規化数 + 正規化数 = 正規化数
4.0 4.0 4.0 clk : 正規化数 * 正規化数 = 正規化数
20.0 16.0 20.0 clk : 正規化数 / 正規化数 = 正規化数
4.0 4.0 4.0 clk : 非数 + 正規化数 = 非数
4.0 4.0 4.0 clk : 非数 * 正規化数 = 非数
20.0 16.0 20.0 clk : 非数 / 正規化数 = 非数
4.0 4.0 4.0 clk : 非数 + 非数 = 非数
4.0 4.0 4.0 clk : 非数 * 非数 = 非数
20.0 16.0 20.0 clk : 非数 / 非数 = 非数
4.0 4.0 4.0 clk : 正規化数 + 非正規化数 = 正規化数
147.0 141.9 141.9 clk : 非正規化数 + 非正規化数 = 非正規化数
147.0 141.9 141.9 clk : 非正規化数 * 正規化数 = 非正規化数
163.0 153.9 157.9 clk : 非正規化数 / 正規化数 = 非正規化数
4.0 4.0 4.0 clk : +∞ + 正規化数 = +∞
4.0 4.0 4.0 clk : +∞ * 正規化数 = +∞
20.0 16.0 20.0 clk : +∞ / 正規化数 = +∞
4.0 4.0 4.0 clk : +∞ + +∞ = +∞
4.0 4.0 4.0 clk : +∞ * +∞ = +∞
366 名前：363 mailto:sage [2007/05/28(月) 00:21:12 ]: >>365
さすがOpteronはx87で非数、∞を使っても遅くならないですね。
367 名前：363 mailto:sage [2007/05/28(月) 00:55:04 ]: よく見るとOpteronは正規化数 + 非正規化数 = 正規化数でも遅くならないんですね。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef