x86命令の所要クロック計測スレPart3

x86命令の所要クロック計測スレPart3 at TECH

99:1 ◆.MeromIYCE
07/02/06 07:04:51
初代スレの398でやったdivのレイテンシ測定をするプログラムを作ったので、
色々なCPUで試してみてくださいまし。
URLﾘﾝｸ(www.wikihouse.com)

Dothanでの結果は、こんな感じ。
除数大↓　被除数大→
15 23 39 39 39 - - -
15 15 23 39 39 39 - -
15 15 23 23 39 39 39 -
15 15 23 23 39 39 39 39

>>95
Windows生ハムの遅さを高速なmelonプロセッサがおおまかカバー、
melonプロセッサがWindows生ハムの素晴らしい機能を引き出す、
ってか。
いや、Vistaの話じゃないですよ。

100:デフォルトの名無しさん
07/02/06 10:43:10
Opteron146(Socket939 core=Venus)の結果をば。
除数大↓　被除数大→
40 40 40 40 40 - - -
40 40 40 40 40 40 - -
40 40 40 40 40 40 40 -
40 40 40 40 40 40 40 40

101:デフォルトの名無しさん
07/02/06 11:53:40
Pentium 4 630 Prescott 90 nm
CPUID F.4.3

除数大↓　被除数大→
68 68 67 68 68 - - -
69 71 67 68 69 69 - -
69 69 69 69 70 68 70 -
69 69 70 73 71 71 69 69

102:デフォルトの名無しさん
07/02/06 13:10:50
Pentium 4 631 CedarMill 65nm
CPUID F.6.5

除数大↓　被除数大→
84 88 88 87 87 - - -
88 88 88 88 88 87 - -
87 88 87 87 87 87 88 -
87 87 87 87 88 87 88 88

103:デフォルトの名無しさん
07/02/06 13:42:24
Athlon XP-M 1800+ Thoroughbred Low Power
除数大↓　被除数大→
41 41 41 41 41 - - -
41 41 41 41 41 41 - -
41 41 41 41 41 41 41 -
41 41 41 41 41 41 41 41

K6-2 400MHz Chomper Extended
除数大↓　被除数大→
19 19 19 19 19 - - -
19 19 19 19 19 19 - -
19 19 19 19 19 19 19 -
19 19 19 19 19 19 19 19

104:デフォルトの名無しさん
07/02/06 15:07:00
動かしてみるに吝かではないのだけれど、CPUの情報もプログラムで拾って表示してくれると便利だと思う。
それと、Linux版が欲しいとか贅沢も言ってみる。

ってことで、手元のCeleron 2GHz(という以外判らない)
除数大↓　被除数大→
51 51 51 51 51 - - -
51 51 51 51 51 51 - -
51 51 51 51 51 51 51 -
51 51 51 51 51 51 51 51

105:デフォルトの名無しさん
07/02/06 17:56:32
Celeron　1.7GHz(Willamette-128K)

除数大↓　被除数大→
50　50　50　50　50　-　-　-　
50　50　50　50　50　50　-　-　
50　50　50　50　50　50　50　-　
50　50　50　50　50　50　50　50　

106:デフォルトの名無しさん
07/02/06 18:00:28
Opteron144(Venus)だけど>>100と同じ結果

107:デフォルトの名無しさん
07/02/06 18:19:44
Pentium II

除数大↓　被除数大→
39 39 39 39 39 - - -
39 39 39 39 39 39 - -
39 39 39 39 39 39 39 -
39 39 39 39 39 39 39 39

108:デフォルトの名無しさん
07/02/06 18:23:44
Conroe

除数大↓　被除数大→
17 25 33 41 41 - - -
10 17 25 33 41 41 - -
10 10 17 25 41 41 41 -
10 10 10 17 41 41 41 41

109:1 ◆.MeromIYCE
07/02/06 22:02:53
みなさんありがとう。
小さい数の割り算だと速くなるのはPenM～Core2だけみたいだね。
Pen4はステッピングが進むにつれて遅くなってくなあ。これがネトバだよな。好きだ。
K7/K8が、PenMの遅いところと同等程度。意外と速くないが、整数はこんなものか。
K6-2は低クロックとはいえさすが。今にして思えば味のある石だった。
PenIIがPenMと似た数字なのが面白い。PenMも地味にいい改良してるよなあ。

>>104
↓こういうのを表示できるようにして、後でアップします。
GenuineIntel Family:6 Model:D Stepping:6

Linuxは誰かにコンパイルしてもらいたいが、それにしてもVC++のインラインアセンブラはまずい。
アセンブラ部をNASM用にすることは可能だと思うので、ちょっと挑戦してみる。

>>108
あれ！？ConroeのrdtscってFSBクロックとか聞いたけどちゃんと測れるのか。
PenMの改善点を洗練させた感じだ。
基本的に被除数が32bitに収まる場合を高速化してるみたいだな。

Yonahのときに、割り算が速くなるという話があったが、Core2も同じか？
持ってる人Yonahの測定お願いします。

110:デフォルトの名無しさん
07/02/06 22:05:10
YonahとBaniasの計測がほしいね。それで完璧。

111:・∀・）っ-○◎● ◆DanGorION6
07/02/06 22:41:06
GCCなら-masm=intelオプションでほぼそのまんま移植できた希ガス

112:・∀・）っ-○◎● ◆DanGorION6
07/02/06 22:42:54
ほれPentium M（Banias）

除数大↓　被除数大→
39 39 39 39 39 - - -
39 39 39 39 39 39 - -
39 39 39 39 39 39 39 -
39 39 39 39 39 39 39 39

113:1 ◆.MeromIYCE
07/02/06 22:50:46
>>112
マジで！！！？？

114:デフォルトの名無しさん
07/02/06 22:52:44
今までの計測結果を見ると、
Banias->Dothanで大きな除算の改良が入ったように見える。
除数によって大きくlatencyが変化しているのはConroeのみなので、
もしかすると、Yonahから除数側の改良が入ったのかも知れず。
Yonahの計測結果ﾏﾀﾞｰ??

115:デフォルトの名無しさん
07/02/06 23:13:16
いや、除数側の改良もDothanからか。
Yonahでの発表は厳密にはウソってことでFA?

116:デフォルトの名無しさん
07/02/06 23:19:49
AMDFAM10について考察希望
ｽﾚﾘﾝｸ(jisaku板:557番),558,606-609,644-646

最新版はsvnで
svn co svn://gcc.gnu.org/svn/gcc/trunk/gcc/config/i386

117:1 ◆.MeromIYCE
07/02/06 23:26:08
>>99の測定は、下のコードと、そこからdiv ebxを抜かしたコードとの
差をdiv命令のレイテンシとしている。
lp:
add eax,xa ; xa,xdはメモリ
mov edx,xd ; 被除数は毎回破壊されるので毎回読み込む
div ebx
mov esi,eax ; レジスタをクリアして、かつ依存関係を保たせるあがき
neg eax
add eax,esi
dec ecx
jnz lp

いちおうPenMでは正しい結果を出してると思うけど（以前の測定でも散々追試してるし）、
ループ処理がそれなりに重いのでCPUによっては微妙かもしれないと不安になってきた。
もう少しいい処理・わかりやすいループのアイデアある？
まず、ループをアンロールというのはやろうと思う。

118:1 ◆.MeromIYCE
07/02/06 23:50:27
>>115
いや、Yonahの発表からすると、Yonahの時点でCore2の速さだったんじゃない？
どうも新しいCPUはレイテンシが微増する傾向があるみたいなので、
Yonah（PenMと同じ世代）がCore2（新しい）より速いということも考えられる。
>>108を見ると、PenMを改良したものからピッタリ2clk遅くなっている感じだ。

>>116
コンパイラの対応からK8Lの特徴を読み取ろうというのか。
costを見ればいいのかな。コンパイラに必要な情報というのはいい情報かも。。

119:デフォルトの名無しさん
07/02/07 01:43:41
Merom T5600
除数大↓　被除数大→
17 25 33 41 41 - - -
10 17 25 33 41 41 - -
10 10 17 25 41 41 41 -
10 10 10 17 41 41 41 41

Pentium M 1.40GHz
除数大↓　被除数大→
39 39 39 39 39 - - -
39 39 39 39 39 39 - -
39 39 39 39 39 39 39 -
39 39 39 39 39 39 39 39

Athlon 64 X2 4800
除数大↓　被除数大→
40 40 40 40 40 - - -
40 40 40 40 40 40 - -
40 40 40 40 40 40 40 -
40 40 40 40 40 40 40 40

Sempron 3000+(Socket A)
除数大↓　被除数大→
41 41 41 41 41 - - -
41 41 41 41 41 41 - -
41 41 41 41 41 41 41 -
41 41 41 41 41 41 41 41

120:デフォルトの名無しさん
07/02/07 06:02:45
>>109
> あれ！？ConroeのrdtscってFSBクロックとか聞いたけどちゃんと測れるのか。

C1E等でクロック倍率が下がっている時でも
FSB１カウントにつきTSCは最高クロック倍率（
E6600なら9）ずつカウントアップする仕様みたい。
どんな時でもrdtscを２回実行すると、その差は必ず
(E6600の場合)9の倍数になる。

2コアでほぼ同時にrdtscを実行すると2コアともほぼ近い値が返ってきたが、
MBのBIOSをアップデートしたら、2コアで全く異なる値が返るようになってしまった。
その後、WinXPのデュアルコアパッチを入れたら2コアでほぼ近い値が返るようになった。

121:1 ◆.MeromIYCE
07/02/07 08:09:24
>>120
なるほど！数字としては今までと同じで、精度がコアの倍率分だけ悪くなっているのか。
2コアで同じ時計を持てるのは嬉しいが、やはりクロック単位の測定にはちょっと痛いな。

カウンタはどこにあるのだろう？
マザーボードのBIOSで影響するということはCPUの外だとも思えるが、
それだと2コアで異なる値が返ることがあるという現象に説明がつかない。
カウンタはコア毎にあって、CPUが起動するときに合わせるのかな？

>>99
CPUIDを表示するのと、>>117で言ったアンロール（2回）をやったのをアップし直した。
アドレスは同じ。

122:デフォルトの名無しさん
07/02/07 08:39:01
Core Duo T2400 1.83GHz
除数大↓　被除数大→
14 22 30 38 38 - - -
7 14 22 30 38 38 - -
7 7 14 22 38 38 38 -
7 7 7 14 38 38 38 38

123:122
07/02/07 08:45:22
更新されてたの気づかなかった
同じ環境

GenuineIntel Family:8 Model:E Stepping:6
除数大↓　被除数大→
15 23 31 39 39 - - -
8 15 23 31 39 39 - -
8 8 15 23 39 39 39 -
8 8 8 15 39 39 39 39

124:デフォルトの名無しさん
07/02/07 11:35:52
>>100を本日アップ分で再計測

AuthenticAMD Family:1 Model:7 Stepping:F
除数大↓　被除数大→
39 39 39 39 39 - - -
39 39 39 39 39 39 - -
39 39 39 39 39 39 39 -
39 39 39 39 39 39 39 39

125:・∀・）っ-{}@{}@{}@ ◆DanGorION6
07/02/07 13:10:10
ソース読んだ
FamilyとStepping逆じゃね？

126:デフォルトの名無しさん
07/02/07 13:18:45
Core 2 Duo E6300

GenuineIntel Family:6 Model:F Stepping:6
除数大↓　被除数大→
20 30 39 48 48 - - -
12 20 30 39 48 48 - -
12 12 20 30 48 48 48 -
12 12 12 20 48 48 48 48

127:デフォルトの名無しさん
07/02/07 15:33:54
>>126 この結果ってCPUのクロック倍率が落ちた状態じゃないかな？
EISTやC1Eで自動的にクロック倍率が落ちるので、
FSB同期のrdtscでクロック数を計測するのはいろいろと面倒かも。

128:デフォルトの名無しさん
07/02/07 17:56:51
Merom T5600
GenuineIntel Family:6 Model:F Stepping:6
除数大↓　被除数大→
18 26 34 42 42 - - -
11 18 26 34 42 42 - -
11 11 18 26 42 42 42 -
11 11 11 18 42 42 42 42

PentiumM 1.4GHz
GenuineIntel Family:5 Model:9 Stepping:6
除数大↓　被除数大→
39 39 39 39 39 - - -
39 39 39 39 39 39 - -
39 39 39 39 39 39 39 -
39 39 39 39 39 39 39 39

Athlon 64 X2 4800
AuthenticAMD Family:2 Model:3 Stepping:F
除数大↓　被除数大→
39 39 39 39 39 - - -
39 39 39 39 39 39 - -
39 39 39 39 39 39 39 -
39 39 39 39 39 39 39 39

Sempron 3000+
AuthenticAMD Family:0 Model:A Stepping:6
除数大↓　被除数大→
39 39 39 39 39 - - -
39 39 39 39 39 39 - -
39 39 39 39 39 39 39 -
39 39 39 39 39 39 39 39

129:デフォルトの名無しさん
07/02/07 21:51:56
>>103再計測。やっぱFamilyとStepping逆だね。
AuthenticAMD Family:6 Model:8 Stepping:1
除数大↓　被除数大→
39 39 39 39 39 - - -
39 39 39 39 39 39 - -
39 39 39 39 39 39 39 -
39 39 39 39 39 39 39 39

AuthenticAMD Family:5 Model:8 Stepping:C
除数大↓　被除数大→
18 18 18 18 18 - - -
18 18 18 18 18 18 - -
18 18 18 18 18 18 18 -
18 18 18 18 18 18 18 18

130:デフォルトの名無しさん
07/02/07 22:33:58
GenuineIntel Family:6 Model:8 Stepping:6
除数大↓　被除数大→
38 38 38 38 38 - - -
38 38 38 38 38 38 - -
38 38 38 38 38 38 38 -
38 38 38 38 38 38 38 38

131:1 ◆.MeromIYCE
07/02/08 00:02:01
>>123
二度手間ごめん。しかも結果違うorz
おそらく>123の方が正解。
これで、Core2のdivはYonahを2clk遅くしたものだとわかった。
Banias→荒削りのDothan→完成形のYonah→Meromの変化が面白い。

>>124 >>129
これも結果が異なるのか。やはり測定法に問題ありだな。
>>123 >>130とは逆にクロック数が減っているが、ALUパワーの差、かな。
K6-2も（当時としては）ALUが強い。対してP6系は総合的に速い割にALUは弱い。
2つのループの差からクロック数を求めているため、div以外の特徴も混ざってしまう。。

>>125
うあ～！俺のDothanはFamilyとSteppingが同じだから気がつかなかったよ。
指摘サンクス。後でこっそり修正しておきます。

>>127
確かに>126は2割、>128は1割だけクロック数が増えているな。
CPUのクロックが落ちても（今までのCPUと違って）rdtscのクロックは変わらないということか。
ただ、誤差が1～2割というのはSpeedStepにしては少ない感じがする。
ある程度のタイミングで補正はしてくるのか？

測定した人たちへ：毎度ヘボプログラムでごめんなさい。

132:1 ◆.MeromIYCE
07/02/08 00:40:35
>>128のMeromってよく見たら>>108の1clk増しじゃん。。

ここ見たらCore2のレイテンシは18～42clk（>>128と同じ）と書いてあるのだが、
URLﾘﾝｸ(www.agner.org)
こっちを見ると17clk（>>108と同じ）と書いてあり、
URLﾘﾝｸ(aceshardware.com)
マジでどっちが正しいのかわからない。

133:デフォルトの名無しさん
07/02/08 02:58:10
>>126-127 >>131
EIST と C1E を切って測定してみました。

GenuineIntel Family:6 Model:F Stepping:6
除数大↓　被除数大→
18 26 34 42 42 - - -
11 18 26 34 42 42 - -
11 11 18 26 42 42 42 -
11 11 11 18 42 42 42 42

134:1 ◆.MeromIYCE
07/02/08 20:40:15
>>133
順当な結果ですね。

単純にedx=0, eax=1, ebx=1としてdiv ebxを連続実行すれば
1÷1のレイテンシが求まるから、それを基準にすればいいかな。
でも、大体結果は出ているし、またバグ出すと嫌なので
ここらで手を引きます。

後藤弘茂によると、ノート用Core 2 ExtremeはIDAナシのようだ。
こういうところからIDAの思想が若干見えるか？

135:・∀・）っ-○◎● ◆DanGorION6
07/02/08 21:32:04
YorkfieldでHTが有効ってことになると、Nehalemがトレースキャッシュ型
アーキテクチャであるという仮説の有力性は揺らぐね。
トレースキャッシュはHTの必須条件だと思ってたが違うってことになるわけだし。

フェッチ・プリデコード帯域を倍にして交互にデコードすれば従来アーキでもいける？

136:デフォルトの名無しさん
07/02/09 01:18:43
SMTの実装にトレースキャッシュが必須ってこたないでしょ。
Power5なんかはx86と比べるとデコーダ負荷が低いとはいえ、普通のキャッシュのままSMTやってるし。

137:デフォルトの名無しさん
07/02/09 01:55:15
>>135
命令の切り出しの方がネックじゃなかったっけ？

138:デフォルトの名無しさん
07/02/09 01:59:28
>>134
多分 HTT有効だと一部のアプリの性能が低下するってのと同じ問題が起きるよなあ
厳密には IDAがあるのに上手く活かされずシングルスレッド性能が向上しないだけど

至極真っ当且つナイスな技術なのにソフトウェアが台無しにするという。。。
ユーザーがHALT命令を制御できればなあー
将来的にはハイエンドサーバーみたいにCPUパーティションの動的な変更もできる様になると尚良し

139:デフォルトの名無しさん
07/02/10 13:49:18
>>138
HLTをユーザモードに解放するメリットは何?
計測目的ならDOSとかRING0で計測すればいいだけだし、
OSスケジューラの都合ならHLTでコアを止めるよりもsleepしてOSに任せたほうがいいし。

140:デフォルトの名無しさん
07/02/12 04:32:58
URLﾘﾝｸ(journal.mycom.co.jp)

141:デフォルトの名無しさん
07/02/12 07:17:18
PentiumってOutOfOrderだったっけ？

142:デフォルトの名無しさん
07/02/12 19:30:56
P5はインオーダー

143:デフォルトの名無しさん
07/02/12 20:51:15
URLﾘﾝｸ(pc.watch.impress.co.jp)
>P5では、5ステージのパイプラインで、最大2命令を並列実行していた。
>次のP6では、最大3個のx86命令をuOPsに変換し、アウトオブオーダ実行。
P5でスーパースカラを初実装。
P6でアウトオブオーダを初実装。
だな。

つーかそもそもスーパースカラとアウトオブオーダは別系統の技術だった
と思うけど（まあセットで実装されることが多いが）、大原は混同してないか？

>筆者のテクニカルライターとしての鼎の軽重を問われかねない。
駄目じゃんｗ

144:デフォルトの名無しさん
07/02/13 00:53:54
in-order発行のtypoだと信じておこうｗ

つか、out-of-order発行（in-order完了）じゃ
いわゆるふつーのout-of-orderじゃん

145:デフォルトの名無しさん
07/02/13 06:08:15
out-of-order終了ｗ
カチャカチャな動作をする予想ｗ

146:デフォルトの名無しさん
07/02/13 06:41:12
>鼎の軽重
怪電波を飛ばすのが生業のような方々にそんな物問いませんからｗｗｗ

147:デフォルトの名無しさん
07/02/17 23:33:25
連載ｵﾜﾀよ

148:デフォルトの名無しさん
07/02/17 23:41:28
第194回 Core MicroArchitectureをもうすこし(18)
URLﾘﾝｸ(journal.mycom.co.jp)

長かったな…

149:・∀・）っ-○◎● ◆DanGorION6
07/02/18 00:06:52
↓次のネタ大胆予想

150:・∀・）っ-○◎● ◆DanGorION6
07/02/18 00:14:42
「Core Microarchitectureをさらにもう少し」

addの例はおかしいだろ。
ニーモニックからバイトコードへの変換はアセンブラがやるもので
この辺のデコードだけなら楽にこなせるはずだ。
プレフィックスも少ないし。
このへんだけ見ればx86ってコンパクトだなと思う。

むしろ2～3バイトopcodeまわりがテラカオス

151:デフォルトの名無しさん
07/02/18 00:30:46
>>149
今回のことで懲りたので、たぶん非PCの話題とか、誰にも突っ込まれ
ない（というか誰も興味ない）話題でお茶を濁すと見た。

152:デフォルトの名無しさん
07/02/18 00:33:28
> Pentium Proの世代は、命令の発行とその実行まではOut-of-Orderながら、
> 命令の完了(実行結果の書き戻し)はIn-Orderという構成で、
> これが完全にOut-of-OrderになるのはNetBurst Architecture(や、
> P6をベースにアーキテクチャを作り直したBanias Architecture)からになるのだが、

NetBurstやBaniasがOut-of-Order完了な訳ないじゃん。

153:デフォルトの名無しさん
07/02/18 00:37:57
ハイパースレッディングは考え様によってはOut-of-Order完了だな

154:デフォルトの名無しさん
07/02/18 00:42:44
Out-Of-Order完了ｗｗｗ

155:デフォルトの名無しさん
07/02/18 14:54:15
>>153
NetBurstはそれでもいいけど、Baniasは違うよなあ

156:デフォルトの名無しさん
07/02/18 15:18:22
もうなんか大原って中途半端な知識で言い切るんだよね。だから色々
突っ込まれる。IPC=3だって、「他の可能性もあるが俺はこう思う」と
最初から言えばそこまで突っ込まれないのに、言い切ってしまう。
で、後から「実は他の可能性もあるし、俺はそれも知っていた」と言い訳
するんだよなｗ

一度初心に戻って勉強しなおせよ。

157:デフォルトの名無しさん
07/02/18 16:39:17
初心に戻ろうと思い、裸になって学校へ行こうと電車に乗ったら捕まりました。

158:デフォルトの名無しさん
07/02/18 20:28:54
>>156
それがライターの仕事
後藤や本田や(中略)安藤だって(以下略
ブログとセカンドオピニオンで補足するだけマシじゃね

159:デフォルトの名無しさん
07/02/18 20:35:53
URLﾘﾝｸ(www.amd.com)

> Q: What are some of the advanced features of the AMD-K5 Microprocessor?
>
> A: ・4-issue core with full out-of-order execution and completion

この辺を見て「Out-of-Order完了」という言葉を使っているのかな。
AMDは、内部RISC命令の実行結果をROBに書き込んだ時点で
内部RISC命令の実行完了という意味で書いているのだろうが、
そういう意味だったらPentium ProもOut-of-Order完了だし。

160:デフォルトの名無しさん
07/02/18 20:57:34
>>158
それでも後藤と大原じゃ、大きく違うがな。

二人が同じに見えるなら、それはそれで見る目が無いよ。

161:158
07/02/19 00:48:00
何だか、何を書いても叩かれそうだからライターの格付けはしないが。
素人にわかるように説明するのに「～かも知れない」ばっか使うわけにはいかないよねって話。
でも、あの特集記事が叩かれるのもわかるんだよね。
「K8はそんなに悪くない。むしろよく見える。」な結論ありき丸出しの記事だったもん。
IPCなんて言葉は使わずに>>38 >>41 >>43-44みたいなことを適当に書いておけば良かった。

162:デフォルトの名無しさん
07/02/20 00:26:13
まぁ、でもネタを提供してくれる分にはとてもありがたく思ってるよ。

163:デフォルトの名無しさん
07/02/20 00:47:19
>> 162
それ大原のこのスレに対する台詞でしょ??

164:1 ◆.MeromIYCE
07/02/20 17:19:34
>>148
結局、Core2のIPCが3だという主張以外はまっとうで普通な内容だったな。
本来ならば、この記事を肴にしてSSE4やそれ以降の命令の実装についてとか
32byteフェッチ3命令パイプのK8Lと16byteフェッチ4命令パイプのCore2の比較とか
色々このスレで議論できたはずなのに、ちょっと惜しい感じだ。
プロならちゃんとやれとも思うが、色々事情があってこういう格好になってしまったのだろう。

数年前と比べて、CPUの話題が減ってきてるような気がするんだよなあ・・・。
時代の流れか、それとも単に俺が手持ちのPentiumMに飽きてきただけか。

165:デフォルトの名無しさん
07/02/20 18:41:07
みっなおそう、みなおそう、CPUを見直そう
Core2Duo機に買い替えろ
みっつもりっだみつもりだ

166:デフォルトの名無しさん
07/02/20 19:49:18
4gamerの第5回目以降の下書きメモ帳代わりにmycomを利用した大原たん

さっさと4亀連載の続き書けや(ﾟﾛﾟ)ﾓﾙｧ!!・・・・・書いてくださいお願いしますm(_ _)m

167:デフォルトの名無しさん
07/02/21 00:31:05
4gamerの記事は比較的よくできているね。
あれでゲームはやってもCPUに詳しくなかった層が入るのにはちょうどよいだろう。

168:デフォルトの名無しさん
07/02/21 09:27:01
【ネガティブ派遣根性チェック】

3つ以上、思い当たる点があればアナタの性格はひん曲がっており、ネガティブ負け組人生を歩んでいます。

□派遣先の人事権のある社員の意見はたとえ間違っていてもマンセーする
□派遣先から「いつまでもここで仕事してくださいね(安い金でｗ)」と言われて嬉しい
□自社に仕事を持ち帰れるように言われるとムカつく
□自社で仕事なんてできるわけがない
□派遣労働の問題点の話題が出ると感情剥き出しにして反論する
□派遣労働の問題を指摘する人は嫌いだ
□派遣先には仕事だけでなく自分のプライベートについても指示して欲しい
□自分の月額金額を知らないのは当然だ
□派遣先社員より自分の生涯収入が低いのは当然だ
□派遣先とに尻尾を振り、いつまでも派遣を続けることが大切だ

169:デフォルトの名無しさん
07/02/24 00:32:24

170:デフォルトの名無しさん
07/02/26 00:22:15
セカンド・オピニオン、新シリーズ来ました。
第195回 OS小論:OSの構造をもう少し考えてみる(1)
URLﾘﾝｸ(journal.mycom.co.jp)

「もう少し」とついているのが不安をかきたてる…

171:デフォルトの名無しさん
07/02/26 00:31:44
「もうすこし」ではないから安心しろ。

172:デフォルトの名無しさん
07/02/26 05:16:52
>誰を恨むわけにもいかないんですが
このスレの住人恨む気満々だなwww
ここの住人はサイレントマジョリティーではないはずだが、考慮されている様子。

173:デフォルトの名無しさん
07/02/26 09:26:09
大原先生ごめんなさいｗ

174:デフォルトの名無しさん
07/02/26 12:33:04
全部>>173が悪いんです！！

175:デフォルトの名無しさん
07/02/26 21:27:43
ぬこ成分だけで全て許してしまえる

いや記事にも期待してるけどスレ違いだな

176:デフォルトの名無しさん
07/02/26 22:34:09
iいろんな意味で役に立ってるから今度ファンレター送るね。
つかHansと知り合いつのが改めて驚き。

177:デフォルトの名無しさん
07/03/01 22:15:13
Barcelona Architecture: AMD on the Counterattack
URLﾘﾝｸ(www.anandtech.com)

178:デフォルトの名無しさん
07/03/02 21:38:33
Hammer-Infoで紹介されていたリンクをﾒﾓ

レジスタ間接分岐の高速化手法 (PDF)
URLﾘﾝｸ(www.mtl.t.u-tokyo.ac.jp)

179:デフォルトの名無しさん
07/03/02 23:53:07
生活支援てw

180:デフォルトの名無しさん
07/03/06 02:27:17
> 他所様の出版社から出ている内容をここで引用するわけにもいきませんので

著作権 (著作者が云々、文化が云々という建前で出版社やレコード会社の利益を最大化するための道具であり既得権益)
を、本音の方の意味で遵守すると正当な引用すらできなくなっちゃうのか

181:デフォルトの名無しさん
07/03/07 01:24:37
439 ：デフォルトの名無しさん：2007/03/07(水) 01:18:11
狂ったようにx86命令の所要クロックを計測するスレ Part3
ｽﾚﾘﾝｸ(tech板)

と紹介されたが、スレタイに「狂ったように」が付いてなくて失望した

182:デフォルトの名無しさん
07/03/07 16:07:02
そこは絶望しないと

183:デフォルトの名無しさん
07/03/07 22:01:10
これか

【激遅】AppleGCC【絶望】
ｽﾚﾘﾝｸ(tech板)l10

184:デフォルトの名無しさん
07/03/08 01:05:22
>Intelは80386以降で、4レベルのProtection Ringという概念を導入した(Photo01)。
80286以降だろ。大丈夫か？

185:デフォルトの名無しさん
07/03/08 01:18:51
相変わらずツッコミきっつー

186:デフォルトの名無しさん
07/03/08 07:56:57
VAX/VMS が仮想記憶をインプリメントした初めてのOSだとか [1]、
4 level ring が VAX 由来だとか [2]、ほかにも色々間違っとるぞ。

[1] Wikipedia によると商用では 1961年の Burroughs B5000 が最初らしい。
研究用だと、さらに数年さかのぼる。
IBM の汎用機も VAX/VMS よりずっと以前に仮想記憶をサポートしてるはず。
VAX は 1970年代終りなので、ずっとずっと新しい。
[2] よく知らんが、たぶん MULTICS 由来。

187:デフォルトの名無しさん
07/03/08 12:59:43
80386の仮想記憶ってほとんどMULTICSそのままだよな。

188:デフォルトの名無しさん
07/03/08 19:08:02
80386は仮想記憶やページングのアーキテクチャだけは割と新しいからな

189:デフォルトの名無しさん
07/03/10 02:37:09
>>188
話の流れを分かってない。
MULTICS由来ってのは286から導入されたセグメンテーション機構の話。

386から入ったページング機構はインテルにしては(?)素直で作りで良い
んだが、TLBにASIDがないのがちと古い感じ。

190:デフォルトの名無しさん
07/03/12 01:03:57
流れ断ち切るようでスマソ。質問。

VCExpressコンパイラでローカル変数として配列等大量にオブジェクトを定義している関数内部で

関数入口：sub esp, ローカル変数のサイズ分
関数出口：add esp, ローカル変数のサイズ分

と展開されたコードがあります。
このコードが有る場合、パフォーマンス大幅に落ちるから気をつけてくださいな、と上司から言われたんですが、
何処に根拠があるのかサッパリで悩んでます。
パフォーマンスは落ちるものなのでしょうか

自分なりの答え：
スタック領域使うからレジスタで演算するよりも速度が落ちる？

191:デフォルトの名無しさん
07/03/12 01:25:39
>>190
まずは実測してくれまいか？

192:デフォルトの名無しさん
07/03/12 01:42:35
スタックの先頭は通常キャッシュにのってるから速いが
沢山スタックを消費すると追いやられる
そのことを言ってるんだと思う

メモリ沢山使う＆アクセス頻度が低い
ならば、メモリはヒープからとったほうがいいかもしれない。

あ、ちゃんと実測してね。思い込みはダンゴの元。

193:・∀・）っ-○◎● ◆DanGorION6
07/03/12 01:48:04
スタックを大量に使うこと自体はそんなに問題じゃないと思う
push. pop大量にするわけじゃあるまいし。

194:・∀・）っ-○◎●
07/03/12 01:50:13
>>192
ヒープに載っけても結局同じだけメモリ食うんだがｗ

まだ直線的に並んでたほうがassociativityの制約に引っかかりにくいｗ
机上論だがｗ

195:デフォルトの名無しさん
07/03/12 02:01:11
call by value -> call by reference

196:デフォルトの名無しさん
07/03/12 02:05:51
ここは計測スレなのに最近自作○C板のCPUスレと同種の話ばっかりじゃない?
自作○C板は自作○C板で同種のスレがたくさんある。もっと独自路線を出してほしい。
つか、どこでも読める理論話のぼり返しはほどほどにしてひたすら計測しろよと。

197:・∀・）っ-○◎●
07/03/12 02:18:37
しかしAgner氏の計測を覆すような発見もそうそう無いんだよな

命令レベルじゃなくて何かのプログラムコードレベルで
ボトルネックを分析するとか？

198:デフォルトの名無しさん
07/03/12 02:25:27
マジでダンゴ来た・・・もうオワリだ・・・

199:・∀・）っ-○◎●
07/03/12 02:44:07
最初からいるだろ
x86じゃないけどCellのスループット計測結果なら出せるよ

200:デフォルトの名無しさん
07/03/12 03:06:29
早く貼れ

201:デフォルトの名無しさん
07/03/12 03:07:19
いや、やっぱり貼るな
CELLネタは荒れる

202:・∀・）っ-○◎●
07/03/12 03:08:55
>>1が許可したら貼る。
てかCellスレあるし

203:デフォルトの名無しさん
07/03/12 14:43:18
トリップ外すな、ハゲ。

204:デフォルトの名無しさん
07/03/12 14:55:40
○◎●であぼーんは基本だろ？

205:デフォルトの名無しさん
07/03/12 19:38:51
URLﾘﾝｸ(homepage1.nifty.com)

206:デフォルトの名無しさん
07/03/12 20:50:00
いつもの
URLﾘﾝｸ(journal.mycom.co.jp)

と、65nmAthlonのL2キャッシュレイテンシについての考察
URLﾘﾝｸ(journal.mycom.co.jp)

207:1 ◆.MeromIYCE
07/03/13 12:23:41
>>181
実際狂ったように測定していなくてゴメン。

>>190
アセンブラレベルでは、sub esp, ローカル変数のサイズ分はただの引き算だから、
1clkで終わってしまう簡単な処理だ。
でも、マルチタスクOSで動かす以上、Windows側のメモリ管理で時間がかかるとか？
今時間ないので後で実測したい。

>>202
256KBのLSのレイテンシとピーク帯域、FP_SIMDのレイテンシ・スループットを希望。
x86じゃないけど、自分で実測したデータなら誰も文句言わんでしょ。

>>206
レイテンシ測定はここ。
URLﾘﾝｸ(journal.mycom.co.jp)

何で生データを載せてくれないだ。くそっ。意味わからんグラフばっか載せやがって・・・。
キャッシュラインサイズの64byte以下のstrideで速くなるのは当然として、
それ以上のstrideで変化しているのは単にCPUの機嫌が悪かっただけと予想。
内部構造が変わったかどうかはわからないが、レイテンシが増えたのは確実だ。

208:1 ◆.MeromIYCE
07/03/13 12:51:01
コンパイラの出力を見て初めて知ったこと。
or ecx, -1 (83 c9 ff) という3byteでecxに32bitの-1を入れることができる。
1byteの-1は32bitに符号拡張される。
まあ、xor ecx,-1 はnot ecx でいいし、高速化に使う機会はないかな。

>>196
ネタ切れ、というのが主な原因なんだけど、
実際クロック測定は、何を測定するか考えて、実際に測定して、考察して書き込む、
という手順を踏まなければならない。
そして、そのそれぞれが、思った以上にめんどくさい/難しい。

そこで、何を測定するかだけでも思いついたら書いてくれ、って前から言ってるけど。。
あと、cpu-zのレイテンシ測定の全CPU分を集結させたいと思っている。
このスレでも何度か上がってるけど、いざ90nmK8のデータが欲しいと思っても、
どこにあったかわからなかったので。

URLﾘﾝｸ(www.wikihouse.com)
とりあえずここに、手元にあった分だけ固めてアップしておく。
あとでちゃんと整形して上げます。

209:・∀・）っ-○◎●
07/03/13 19:32:13
スループットなら倍精度以外はほとんど1だよ。

SPEのLSはレイテンシ6だよ。Coppermineがレイテンシ6だったから
今のCore 2も、独立キャッシュにしてL2のエントリ数削れば
それくらいいけるんじゃないのって思うと萎える。
んなわけで、レジスタが128本もあるから、必要なデータは展開して
しまった方がいいわけだ。

AltiVecでVSIUパス命令に相当する整数演算命令はレイテンシ2、
あとの命令（VCIU、VPERM相当）は大体レイテンシ4。
あと、浮動小数はfma（積和算）で6、faddで4。

逆数を求めるfrestなんかも4で処理出来、fmaと組み合わせれば
レイテンシ10・スループット2で除算ができてしまうんだけど、
estimate(推定値)というぐらいだから精度は絶望的に低いと
思ってくださいな。
それなりに精度の高い除算をやろうと思えばソフトでやるしかない。
平方根も同じく。

210:・∀・）っ-○◎●
07/03/13 19:48:30
LS間の「ピーク帯域」に関しては、ロード・ストアはoddパイプで処理されるから
1クロックに1命令。

ロードかストアを発行×3.2GHzだから51.2GB/secでしょう
DMA転送中はどうだかまだ調べてない

SPE-SPEのDMA転送帯域とかならこのへん
URLﾘﾝｸ(www-128.ibm.com)

211:・∀・）っ-○◎●
07/03/13 19:56:22
てか、IBMの図におもっきし51.2GBって書いてあるじゃんｗｗ

212:・∀・）っ-○◎●
07/03/13 20:01:29
レジスタが128本だから1レジスタ指定に7ビット。
4オペランド命令で28ビットも使ってるからOpcodeは4ビット。
（上1ビットはopcodeサイズの区別に使うから実質3ビット）

そういえばPentium 4もμOPsレベルではレジスタ数は128だか256だかでしたな。

213:デフォルトの名無しさん
07/03/13 20:01:51
80286の間違いは訂正なしか。だめだなこりゃ。

214:デフォルトの名無しさん
07/03/13 20:45:51
精度の高い除算のやり方はは3DNow/SSEと同じ。
doubleも命令の組み合わせで一通り出来るけどスループットとレイテンシを考えると…。

それでもこれだけ割り切ったプロセッサでdoubleが扱えるだけ幸せ。

215:・∀・）っ-○◎●
07/03/13 23:09:18
なんつーか、普通のプロセッサ用に書いたコードがことごとく使えない
エントリポイントのmain型さえ置き換えればどうにかなると思ってたら
1から書き直しなんだよね。

それでもprintfなどがそのまま使える分マシ
（PPEで動くヘルパースレッド向けにDMA転送して処理してる？）

216:デフォルトの名無しさん
07/03/14 01:37:23
spe_printf()は遅い悪寒。
#って、スレ違いだがね。

217:・∀・）っ-○◎●
07/03/16 23:26:50
ネタがないな

218:デフォルトの名無しさん
07/03/16 23:48:45
暇ならXLATの所要クロックについて語ってくれ。
とか適当な事を言ってみる。

219:デフォルトの名無しさん
07/03/17 04:43:37
x86_64命令の所要クロック計測まだー

220:・∀・）っ-○◎●
07/03/17 05:08:51
同じじゃねーかｗｗｗｗ（NetBurst以外

221:1 ◆.MeromIYCE
07/03/18 21:50:08
>>209
レスが遅れてすまん。
まあ、大体素直な感じだな。

x86のキャッシュはマルチタスクに対応するための複雑なメモリ管理や
L1L2（ものによってはL3も）の多重階層で、かなりレイテンシが増えているよな。
それを考えればCellのLSは順当な性能だ。

x86にLSを載せたらどうだろう。
256KBでレイテンシ6、128bit/clkという性能で、更にL1L2キャッシュは今まで通りとする。
LSは新SSE命令で明示的に使う必要があるが、使えば効果は大きいと思う。
（L1とLSの両方に高速な配線をつなぐのは技術的に困難か？）

レジスタは128bit*128で2KBか。
こんなにあると、コーディングにまた別の感覚が必要になるなあ。

>>219
実際問題、普通にパソコン買うと32bitのWindowsVistaになっちゃうんだよね。
64bitの計測ができるのは、だいぶ先の話になりそうだ・・・。

222:・∀・）っ-○◎●
07/03/18 22:06:52
帯域がもう少し広ければトレースキャッシュくらいに使えるんじゃないかなと思ったり。

223:・∀・）っ-○◎●
07/03/19 02:01:23
ロード・ストア命令が16バイト単位でしか読めないから、多段階ルックアップテーブル
作ろうと思ったら各要素16バイトでパディングしないといけない。
ストアがさらに厄介で、含まれる16バイト領域をロードしてからマスクして値を重ね合わせ
格納する。
16バイト境界をまたがってた日なんか目も当てられませんな。

スカラなプロセッサ由来でスカラ－ベクタの交換も柔軟にこなせるx86+SSEの
使いやすさを認識するためにも使ってみるべきプロセッサですな。

224:デフォルトの名無しさん
07/03/19 02:57:39
スレ違いだし今更気づくような内容でもないだろう。
本当にAltiVec使った事あるのか？
手順が若干簡略化されてるだけでAltiVecもやるべき事は同じじゃないか。

225:・∀・）っ-○◎●
07/03/19 03:37:14
スカラプロセッサの補助としてベクトル演算器があるのと、
スカラ演算までベクトル演算器でやらなりゃならないのとは根本的に違うだろ。
AltiVecではアドレス演算はスカラ演算器で行い、ベクトル演算はデータの
処理のみに専念できる。このへんはx86と同じ。
AltiVecはせいぜいベクトル-スカラ間の値直接交換がないくらいで、
いったんL1に書き出して読み出すだけでいい。

SPUにはスカラデータを扱う命令そのものがない。
1バイト単位はおろか4バイト単位のロードすらない。
（そのくせアドレス生成や条件分岐ではベクトルの第一ワードでしか使えない）
16バイト単位で読み出して適宜シフトしなきゃいけない。
このへんがスカラ演算が圧倒的に遅いと言われる要因。

226:デフォルトの名無しさん
07/03/19 04:22:02
>>221
> x86にLSを載せたらどうだろう
レジスタ同様にタスクスイッチ時にデータを退避するのか？
それともロックして占有するのか?

227:1 ◆.MeromIYCE
07/03/19 10:12:27
>>226
仮にやるとしたら、ロックするのがいいかな。
オーバーレイなんかも同時に2アプリで使えないことだし、
エンコやゲーム専用と考えれば。

でもやっぱりマルチタスクできないのは不便だよな。
OS側でも工夫のしようはあると思うが、
そうまでして使う価値があるかは正直疑問だし。

228:・∀・）っ-○◎●
07/03/19 21:00:40
L1キャッシュよりレイテンシの大きいローカルストアよりも
拡張XMMレジスタファイル256本のほうがまだありがたいような。
imm8を使って各レジスタを指定。

229:デフォルトの名無しさん
07/03/19 23:40:14
スケジューラが詰まらないならその方がありがたいです。
レイテンシ分くらい依存命令を離しているつもりなのにストールすると悔しい。

230:デフォルトの名無しさん
07/03/24 00:59:06
リアルモードの割り込みベクタのことIDTなんていう呼び方してたっけ？

231:・∀・）っ-○◎●
07/03/24 01:10:07
Interrupt Descriptor Table

そのまんまの意味だな

232:デフォルトの名無しさん
07/03/24 01:12:47
いや、だからリアルモードの割り込みベクタテーブルとプロテクトモードのIDTはちょっと違うもんだろ、って話じゃ？

233:デフォルトの名無しさん
07/03/24 03:18:03
英語が理解できないのはつらそうだな。

234:デフォルトの名無しさん
07/03/28 15:47:10
どうして団子リオンはトリップつけてないのか。

235:デフォルトの名無しさん
07/03/28 16:08:32
>>230
intelの文書ではリアルモードの割り込みベクタテーブルを実アドレスモードIDTとよんでいる

236:・∀・）っ-○◎●
07/03/29 00:41:01
>>234
漏れてるから

237:デフォルトの名無しさん
07/03/29 03:14:36
ありゃ、お漏らししちゃってたのか。

238:デフォルトの名無しさん
07/03/29 09:03:33
Intel Penryn and Nehalem 45nm Processor Update
URLﾘﾝｸ(www.legitreviews.com)
The New Technologies and Features

Super Shuffle Engine キター

239:デフォルトの名無しさん
07/03/29 09:57:21
Emulatorの友

240:・∀・）っ-○◎●
07/03/30 01:40:45
> Super Shuffle Engine

128ビットシャッフルのスループット改善ですか

241:デフォルトの名無しさん
07/03/30 01:45:33
>>240
団子ちゃん、こっちのスレでお呼びがかかってるよ。
ｽﾚﾘﾝｸ(tech板)

242:デフォルトの名無しさん
07/03/31 01:47:05
>>235
どの文書？

243:デフォルトの名無しさん
07/04/01 10:32:22
スレ違いならごめん。

C言語で以下のようなソースがあったとして、
if( a < b ){
　min=a;
　max=b;
}else{
　min=b;
　max=a;
}

if( a < b )のかわりにif( a <= b )としても問題ないけど、この２つで出力
されるアセンブラソースや所要クロックに差は出るかな？
intなら同じだけどfloatでは差が出るとか有り得る？

244:デフォルトの名無しさん
07/04/01 11:05:39
>>243
コードの差は出るかもしれないし出ないかもしれない。
その周辺のコードによっても変わるし、勿論コンパイラによっても変わる。

245:・∀・）っ-○◎●
07/04/01 11:23:10
別スレ逝った方がいいよ。
「うちの使ってるコンパイラでASMコードの出力の仕方が解らないので教えてください」

SSE使えば比較文自体排除できる罠。floatだとこんだけ。

__m128 xa = _mm_set_ss(a);
__m128 xb = _mm_set_ss(b);
_mm_store_ss(&max, _mm_max_ss(xa. xb));
_mm_store_ss(&min, _mm_min_ss(xa. xb));

246:デフォルトの名無しさん
07/04/01 11:27:17
>>243
速度を気にするなら条件分岐を排除
同確率の二択はほぼどちらかが失敗する

247:デフォルトの名無しさん
07/04/01 11:34:00
どうも有難うございました。

248:デフォルトの名無しさん
07/04/01 11:55:50
まぁ、そんな細かいことが気になるならc++で
min = std::min(a, b);
max = std::max(a, b);
とでもすればいいだろうよ。

249:・∀・）っ-○◎●
07/04/01 12:05:11
細かいことが気になるならmin/max関数なんて使わない

250:デフォルトの名無しさん
07/04/01 12:53:36
なるほど、団子には皮肉が通じないわけだ。

251:デフォルトの名無しさん
07/04/01 13:15:01
つーかそれ、素で間違ったのに皮肉と言い訳してるのと見分けが
つかないから、皮肉なら皮肉でちゃんと分かるようにしないとｗ

252:デフォルトの名無しさん
07/04/01 13:19:50
明らかに皮肉とわかるのに
団子がいるスレは一段と引き締まるな

253:デフォルトの名無しさん
07/04/01 13:23:45
>>248みたいなことを言う馬鹿や初心者は結構いるぞ。
つまりそういう人間と君みたいな天才は区別が付かないんだよｗ
せっかく天才なんだから周りに勘違いされないようにした方が
幸せだと思っただけさ。気に障ったら許してくれｗ

254:デフォルトの名無しさん
07/04/01 13:38:16
( ﾟдﾟ)ノﾄﾞｿﾞー
ｽﾚﾘﾝｸ(tech板:411番)

255:デフォルトの名無しさん
07/04/01 14:20:42
どうもごめんなさいでした。

256:・∀・）っ-○◎●
07/04/01 14:21:23
>>253
基本的に同意
でも多分std::maxとかって書いておけば最適な命令に置き換えてくれると勘違いしてる
初心者なんじゃないだろうか。
皮肉だ皮肉だとと必死に自己弁護してることからも明らか

>>254
Hacker's Delight日本語訳発行以降、
半端な知識で「MSBをシフトすれば分岐が排除できる＝速い」と思いこんで
改悪コード書く厨が増えたよな。

257:デフォルトの名無しさん
07/04/01 14:43:29

　　　　　　　　　　　　半　　端　　な　　知　　識　　　　　　　　

258:・∀・）っ-○◎●
07/04/01 15:06:04
皮肉だ皮肉だと自己弁護してるのが特にそうだね

259:デフォルトの名無しさん
07/04/01 16:07:16
いくら初心者でもmin,maxが最適な命令に置き換わるなんて発想はありえない。
ちょっとひねくれすぎ。

260:デフォルトの名無しさん
07/04/01 16:08:54
団子が昔そうだったとか？

261:デフォルトの名無しさん
07/04/01 16:32:03
ダンゴの言うことはホント正しいよね
歯向かうのは馬鹿

262:デフォルトの名無しさん
07/04/01 16:34:42
どう考えてもmin,maxが最適な命令に置き換わるなんてありえないな。
誰に吹き込まれたか知らないが、勝手な妄想はよしたほうがいい。

263:・∀・）っ-○◎●
07/04/01 16:35:02
>>243がかかるクロック数を短くしたいという目的があって質問したのは
明らかなわけだが

細かいこととは、かかる処理時間を少しでも短くすることなわけで
min/max関数が最適な命令に置き換わるという勘違いでもしてないかぎり
出来ないレスだと思うけどねこれは

248 ：デフォルトの名無しさん：2007/04/01(日) 11:55:50
まぁ、そんな細かいことが気になるならc++で
min = std::min(a, b);
max = std::max(a, b);
とでもすればいいだろうよ。

>>259-260 ←見苦しい弁解だな

264:デフォルトの名無しさん
07/04/01 16:40:20
言葉遣いや性格には問題ありだが。。。

265:・∀・）っ-○◎●
07/04/01 16:41:07
>>262
組み込み関数として最適化ができるアーキテクチャ・処理系はあるよ。
x86では、知る限りでは無いけど（マクロ版ならまだ最適化される余地あるかも）

266:デフォルトの名無しさん
07/04/01 16:41:52
>>264
まず団子が正しいことを認めろよ。
言い訳がましい。

267:デフォルトの名無しさん
07/04/01 16:45:34
>>262
あるだろう

268:248
07/04/01 17:07:41
ここで真相を明かしますよ。今日の日付けを考えてみろ、と。

という冗談はさておいて。
そもそも元質がCでって書いているんだから、C++で書いてある時点で>248はネタだって判るでしょうに。

269:・∀・）っ-○◎●
07/04/01 17:10:04
>>268を翻訳

「max/minが関数名と重なってるからstd::ネームスペース指定してみたけど
二重に誤爆しちゃったみたい。俺ってお馬鹿♪」

270:デフォルトの名無しさん
07/04/01 17:56:56
条件付movとか、フラグ→マスクみたいな一般的な方法ではなく
SSE2が最初に出てくるようなミーハーイッテル馬鹿は初心者を笑えないだろ…

271:デフォルトの名無しさん
07/04/01 18:23:00
>>270
見苦しい。

272:デフォルトの名無しさん
07/04/01 18:28:49
>>271
団子よ、IDが出ないからといって見苦しい自演するな。

273:デフォルトの名無しさん
07/04/01 18:41:39
無意味な喧嘩すんなよ。
匿名掲示板上で自分のアイデンティティ探ししてると、
（自作板に２名ほどいるけど）本物の精神疾患になるぞ。

274:デフォルトの名無しさん
07/04/01 18:51:22
おまえ自作板見てないだろ？

275:デフォルトの名無しさん
07/04/01 18:56:01
>>243-275
スレ違い

276:デフォルトの名無しさん
07/04/01 19:03:28
Ｏ原ネタ振れよｗｗ

277:・∀・）っ-○◎●
07/04/01 19:35:46
>>272
アホすｗｗｗ

>>270
SSE2じゃなくてSSEまでのサポートで使えるけど。
CMOVならPentium Pro以上が要求される。
Pentium/PMMXは切り捨ててよくてPPro/P2は切り捨てちゃだめって基準は理解できない。
CMOVは対応する組み込み関数あったっけ？コンパイルオプションやインライン
ASMくらいしか使う手段なかったと思うが。

どうせSSE未サポートのx86互換チップなんて今後発売される見込み無いんだし
x64ではSSE2までは標準ISAに入ってるんだから覚えておいていいと思うけど。

ハードウェアの投機実行機構に任せるより下手すりゃ遅くなるような
ビットマスク生成とかの厨コーディングより、いま市場に出回ってるCPUの
大半で使える最速の方法を知ってたほうがよっぽど役に立つだろ。

次ページ