x86命令の所要クロック計測スレPart3

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 2chのread.cgiへ]
Update time : 05/10 01:37 / Filesize : 162 KB / Number-of Response : 530
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

1 名前：1 ◆.MeromIYCE mailto:sage [2007/01/10(水) 12:32:46 ]: ゆるゆる～っと実測していきましょう。

過去ログ
x86命令の所要クロック計測スレPart2
pc10.2ch.net/test/read.cgi/tech/1136527588/l50
x86命令の所要クロック計測スレ
pc8.2ch.net/test/read.cgi/tech/1103609337/l50

関連スレ
アセンブラ…　(゜□゜) ↑アッー！↓
pc10.2ch.net/test/read.cgi/tech/1148402614/l50
MMX SSE 3D NOW!のプログラミング
pc10.2ch.net/test/read.cgi/tech/1085749218/l50
CPUアーキテクチャについて語れ 5
pc9.2ch.net/test/read.cgi/jisaku/1159238563/l50
【Penryn】次世代モバイルCPU雑談ｽﾚ 3【Nehalem】
pc9.2ch.net/test/read.cgi/notepc/1160039483/l50
もしくは、自作板にて「次世代」でスレタイ検索

まとめサイト（過去ログ置き場）
www.wikihouse.com/x86clocker/index.php?FrontPage
152 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 00:33:28 ]: > Pentium Proの世代は、命令の発行とその実行まではOut-of-Orderながら、
> 命令の完了(実行結果の書き戻し)はIn-Orderという構成で、
> これが完全にOut-of-OrderになるのはNetBurst Architecture(や、
> P6をベースにアーキテクチャを作り直したBanias Architecture)からになるのだが、

NetBurstやBaniasがOut-of-Order完了な訳ないじゃん。
153 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 00:37:57 ]: ハイパースレッディングは考え様によってはOut-of-Order完了だな
154 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 00:42:44 ]: Out-Of-Order完了ｗｗｗ
155 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 14:54:15 ]: >>153
NetBurstはそれでもいいけど、Baniasは違うよなあ
156 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 15:18:22 ]: もうなんか大原って中途半端な知識で言い切るんだよね。だから色々
突っ込まれる。IPC=3だって、「他の可能性もあるが俺はこう思う」と
最初から言えばそこまで突っ込まれないのに、言い切ってしまう。
で、後から「実は他の可能性もあるし、俺はそれも知っていた」と言い訳
するんだよなｗ

一度初心に戻って勉強しなおせよ。
157 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 16:39:17 ]: 初心に戻ろうと思い、裸になって学校へ行こうと電車に乗ったら捕まりました。
158 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 20:28:54 ]: >>156
それがライターの仕事
後藤や本田や(中略)安藤だって(以下略
ブログとセカンドオピニオンで補足するだけマシじゃね
159 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 20:35:53 ]: www.amd.com/jp-ja/Processors/TechnicalResources/0,,30_182_861_1036~1667,00.html

> Q: What are some of the advanced features of the AMD-K5 Microprocessor?
>
> A: ・4-issue core with full out-of-order execution and completion

この辺を見て「Out-of-Order完了」という言葉を使っているのかな。
AMDは、内部RISC命令の実行結果をROBに書き込んだ時点で
内部RISC命令の実行完了という意味で書いているのだろうが、
そういう意味だったらPentium ProもOut-of-Order完了だし。
160 名前：デフォルトの名無しさん mailto:sage [2007/02/18(日) 20:57:34 ]: >>158
それでも後藤と大原じゃ、大きく違うがな。

二人が同じに見えるなら、それはそれで見る目が無いよ。
161 名前：158 mailto:sage [2007/02/19(月) 00:48:00 ]: 何だか、何を書いても叩かれそうだからライターの格付けはしないが。
素人にわかるように説明するのに「～かも知れない」ばっか使うわけにはいかないよねって話。
でも、あの特集記事が叩かれるのもわかるんだよね。
「K8はそんなに悪くない。むしろよく見える。」な結論ありき丸出しの記事だったもん。
IPCなんて言葉は使わずに>>38 >>41 >>43-44みたいなことを適当に書いておけば良かった。
162 名前：デフォルトの名無しさん mailto:sage [2007/02/20(火) 00:26:13 ]: まぁ、でもネタを提供してくれる分にはとてもありがたく思ってるよ。
163 名前：デフォルトの名無しさん mailto:sage [2007/02/20(火) 00:47:19 ]: >> 162
それ大原のこのスレに対する台詞でしょ??
164 名前：1 ◆.MeromIYCE mailto:sage [2007/02/20(火) 17:19:34 ]: >>148
結局、Core2のIPCが3だという主張以外はまっとうで普通な内容だったな。
本来ならば、この記事を肴にしてSSE4やそれ以降の命令の実装についてとか
32byteフェッチ3命令パイプのK8Lと16byteフェッチ4命令パイプのCore2の比較とか
色々このスレで議論できたはずなのに、ちょっと惜しい感じだ。
プロならちゃんとやれとも思うが、色々事情があってこういう格好になってしまったのだろう。

数年前と比べて、CPUの話題が減ってきてるような気がするんだよなあ・・・。
時代の流れか、それとも単に俺が手持ちのPentiumMに飽きてきただけか。
165 名前：デフォルトの名無しさん mailto:sage [2007/02/20(火) 18:41:07 ]: みっなおそう、みなおそう、CPUを見直そう
Core2Duo機に買い替えろ
みっつもりっだみつもりだ
166 名前：デフォルトの名無しさん mailto:sage [2007/02/20(火) 19:49:18 ]: 4gamerの第5回目以降の下書きメモ帳代わりにmycomを利用した大原たん

さっさと4亀連載の続き書けや(ﾟﾛﾟ)ﾓﾙｧ!!・・・・・書いてくださいお願いしますm(_ _)m
167 名前：デフォルトの名無しさん mailto:sage [2007/02/21(水) 00:31:05 ]: 4gamerの記事は比較的よくできているね。
あれでゲームはやってもCPUに詳しくなかった層が入るのにはちょうどよいだろう。
168 名前：デフォルトの名無しさん [2007/02/21(水) 09:27:01 ]: 【ネガティブ派遣根性チェック】

3つ以上、思い当たる点があればアナタの性格はひん曲がっており、ネガティブ負け組人生を歩んでいます。

□派遣先の人事権のある社員の意見はたとえ間違っていてもマンセーする
□派遣先から「いつまでもここで仕事してくださいね(安い金でｗ)」と言われて嬉しい
□自社に仕事を持ち帰れるように言われるとムカつく
□自社で仕事なんてできるわけがない
□派遣労働の問題点の話題が出ると感情剥き出しにして反論する
□派遣労働の問題を指摘する人は嫌いだ
□派遣先には仕事だけでなく自分のプライベートについても指示して欲しい
□自分の月額金額を知らないのは当然だ
□派遣先社員より自分の生涯収入が低いのは当然だ
□派遣先とに尻尾を振り、いつまでも派遣を続けることが大切だ
169 名前：デフォルトの名無しさん [2007/02/24(土) 00:32:24 ]
170 名前：デフォルトの名無しさん mailto:sage [2007/02/26(月) 00:22:15 ]: セカンド・オピニオン、新シリーズ来ました。
第195回 OS小論:OSの構造をもう少し考えてみる(1)
journal.mycom.co.jp/column/sopinion/195/

「もう少し」とついているのが不安をかきたてる…
171 名前：デフォルトの名無しさん mailto:sage [2007/02/26(月) 00:31:44 ]: 「もうすこし」ではないから安心しろ。
172 名前：デフォルトの名無しさん mailto:sage [2007/02/26(月) 05:16:52 ]: >誰を恨むわけにもいかないんですが
このスレの住人恨む気満々だなwww
ここの住人はサイレントマジョリティーではないはずだが、考慮されている様子。
173 名前：デフォルトの名無しさん mailto:sage [2007/02/26(月) 09:26:09 ]: 大原先生ごめんなさいｗ
174 名前：デフォルトの名無しさん mailto:sage [2007/02/26(月) 12:33:04 ]: 全部>>173が悪いんです！！
175 名前：デフォルトの名無しさん mailto:sage [2007/02/26(月) 21:27:43 ]: ぬこ成分だけで全て許してしまえる

いや記事にも期待してるけどスレ違いだな
176 名前：デフォルトの名無しさん mailto:sage [2007/02/26(月) 22:34:09 ]: iいろんな意味で役に立ってるから今度ファンレター送るね。
つかHansと知り合いつのが改めて驚き。
177 名前：デフォルトの名無しさん mailto:sage [2007/03/01(木) 22:15:13 ]: Barcelona Architecture: AMD on the Counterattack
www.anandtech.com/cpuchipsets/showdoc.aspx?i=2939&p=4
178 名前：デフォルトの名無しさん mailto:sage [2007/03/02(金) 21:38:33 ]: Hammer-Infoで紹介されていたリンクをﾒﾓ

レジスタ間接分岐の高速化手法 (PDF)
www.mtl.t.u-tokyo.ac.jp/publications/paper/2005/J05-thesis-toyoshim.pdf
179 名前：デフォルトの名無しさん mailto:sage [2007/03/02(金) 23:53:07 ]: 生活支援てw
180 名前：デフォルトの名無しさん mailto:sage [2007/03/06(火) 02:27:17 ]: > 他所様の出版社から出ている内容をここで引用するわけにもいきませんので

著作権 (著作者が云々、文化が云々という建前で出版社やレコード会社の利益を最大化するための道具であり既得権益)
を、本音の方の意味で遵守すると正当な引用すらできなくなっちゃうのか
181 名前：デフォルトの名無しさん mailto:sage [2007/03/07(水) 01:24:37 ]: 439 ：デフォルトの名無しさん：2007/03/07(水) 01:18:11
狂ったようにx86命令の所要クロックを計測するスレ Part3
pc11.2ch.net/test/read.cgi/tech/1168399966/

と紹介されたが、スレタイに「狂ったように」が付いてなくて失望した
182 名前：デフォルトの名無しさん [2007/03/07(水) 16:07:02 ]: そこは絶望しないと
183 名前：デフォルトの名無しさん mailto:sage [2007/03/07(水) 22:01:10 ]: これか

【激遅】AppleGCC【絶望】
pc11.2ch.net/test/read.cgi/tech/1173267844/l10
184 名前：デフォルトの名無しさん mailto:sage [2007/03/08(木) 01:05:22 ]: >Intelは80386以降で、4レベルのProtection Ringという概念を導入した(Photo01)。
80286以降だろ。大丈夫か？
185 名前：デフォルトの名無しさん mailto:sage [2007/03/08(木) 01:18:51 ]: 相変わらずツッコミきっつー
186 名前：デフォルトの名無しさん mailto:sage [2007/03/08(木) 07:56:57 ]: VAX/VMS が仮想記憶をインプリメントした初めてのOSだとか [1]、
4 level ring が VAX 由来だとか [2]、ほかにも色々間違っとるぞ。

[1] Wikipedia によると商用では 1961年の Burroughs B5000 が最初らしい。
研究用だと、さらに数年さかのぼる。
IBM の汎用機も VAX/VMS よりずっと以前に仮想記憶をサポートしてるはず。
VAX は 1970年代終りなので、ずっとずっと新しい。
[2] よく知らんが、たぶん MULTICS 由来。
187 名前：デフォルトの名無しさん mailto:sage [2007/03/08(木) 12:59:43 ]: 80386の仮想記憶ってほとんどMULTICSそのままだよな。
188 名前：デフォルトの名無しさん mailto:sage [2007/03/08(木) 19:08:02 ]: 80386は仮想記憶やページングのアーキテクチャだけは割と新しいからな
189 名前：デフォルトの名無しさん mailto:sage [2007/03/10(土) 02:37:09 ]: >>188
話の流れを分かってない。
MULTICS由来ってのは286から導入されたセグメンテーション機構の話。

386から入ったページング機構はインテルにしては(?)素直で作りで良い
んだが、TLBにASIDがないのがちと古い感じ。
190 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 01:03:57 ]: 流れ断ち切るようでスマソ。質問。

VCExpressコンパイラでローカル変数として配列等大量にオブジェクトを定義している関数内部で

関数入口：sub esp, ローカル変数のサイズ分
関数出口：add esp, ローカル変数のサイズ分

と展開されたコードがあります。
このコードが有る場合、パフォーマンス大幅に落ちるから気をつけてくださいな、と上司から言われたんですが、
何処に根拠があるのかサッパリで悩んでます。
パフォーマンスは落ちるものなのでしょうか

自分なりの答え：
スタック領域使うからレジスタで演算するよりも速度が落ちる？
191 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 01:25:39 ]: >>190
まずは実測してくれまいか？
192 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 01:42:35 ]: スタックの先頭は通常キャッシュにのってるから速いが
沢山スタックを消費すると追いやられる
そのことを言ってるんだと思う

メモリ沢山使う＆アクセス頻度が低い
ならば、メモリはヒープからとったほうがいいかもしれない。

あ、ちゃんと実測してね。思い込みはダンゴの元。
193 名前：・∀・）っ-○◎● ◆DanGorION6 mailto:sage [2007/03/12(月) 01:48:04 ]: スタックを大量に使うこと自体はそんなに問題じゃないと思う
push. pop大量にするわけじゃあるまいし。
194 名前：・∀・）っ-○◎● mailto:sage [2007/03/12(月) 01:50:13 ]: >>192
ヒープに載っけても結局同じだけメモリ食うんだがｗ

まだ直線的に並んでたほうがassociativityの制約に引っかかりにくいｗ
机上論だがｗ
195 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 02:01:11 ]: call by value -> call by reference
196 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 02:05:51 ]: ここは計測スレなのに最近自作○C板のCPUスレと同種の話ばっかりじゃない?
自作○C板は自作○C板で同種のスレがたくさんある。もっと独自路線を出してほしい。
つか、どこでも読める理論話のぼり返しはほどほどにしてひたすら計測しろよと。
197 名前：・∀・）っ-○◎● mailto:sage [2007/03/12(月) 02:18:37 ]: しかしAgner氏の計測を覆すような発見もそうそう無いんだよな

命令レベルじゃなくて何かのプログラムコードレベルで
ボトルネックを分析するとか？
198 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 02:25:27 ]: マジでダンゴ来た・・・もうオワリだ・・・
199 名前：・∀・）っ-○◎● mailto:sage [2007/03/12(月) 02:44:07 ]: 最初からいるだろ
x86じゃないけどCellのスループット計測結果なら出せるよ
200 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 03:06:29 ]: 早く貼れ
201 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 03:07:19 ]: いや、やっぱり貼るな
CELLネタは荒れる
202 名前：・∀・）っ-○◎● mailto:sage [2007/03/12(月) 03:08:55 ]: >>1が許可したら貼る。
てかCellスレあるし
203 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 14:43:18 ]: トリップ外すな、ハゲ。
204 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 14:55:40 ]: ○◎●であぼーんは基本だろ？
205 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 19:38:51 ]: homepage1.nifty.com/herumi/diary/0703.html#6
206 名前：デフォルトの名無しさん mailto:sage [2007/03/12(月) 20:50:00 ]: いつもの
journal.mycom.co.jp/column/sopinion/197/

と、65nmAthlonのL2キャッシュレイテンシについての考察
journal.mycom.co.jp/special/2007/x2-65nm/
207 名前：1 ◆.MeromIYCE mailto:sage [2007/03/13(火) 12:23:41 ]: >>181
実際狂ったように測定していなくてゴメン。

>>190
アセンブラレベルでは、sub esp, ローカル変数のサイズ分はただの引き算だから、
1clkで終わってしまう簡単な処理だ。
でも、マルチタスクOSで動かす以上、Windows側のメモリ管理で時間がかかるとか？
今時間ないので後で実測したい。

>>202
256KBのLSのレイテンシとピーク帯域、FP_SIMDのレイテンシ・スループットを希望。
x86じゃないけど、自分で実測したデータなら誰も文句言わんでしょ。

>>206
レイテンシ測定はここ。
journal.mycom.co.jp/special/2007/x2-65nm/013.html

何で生データを載せてくれないだ。くそっ。意味わからんグラフばっか載せやがって・・・。
キャッシュラインサイズの64byte以下のstrideで速くなるのは当然として、
それ以上のstrideで変化しているのは単にCPUの機嫌が悪かっただけと予想。
内部構造が変わったかどうかはわからないが、レイテンシが増えたのは確実だ。
208 名前：1 ◆.MeromIYCE mailto:sage [2007/03/13(火) 12:51:01 ]: コンパイラの出力を見て初めて知ったこと。
or ecx, -1 (83 c9 ff) という3byteでecxに32bitの-1を入れることができる。
1byteの-1は32bitに符号拡張される。
まあ、xor ecx,-1 はnot ecx でいいし、高速化に使う機会はないかな。

>>196
ネタ切れ、というのが主な原因なんだけど、
実際クロック測定は、何を測定するか考えて、実際に測定して、考察して書き込む、
という手順を踏まなければならない。
そして、そのそれぞれが、思った以上にめんどくさい/難しい。

そこで、何を測定するかだけでも思いついたら書いてくれ、って前から言ってるけど。。
あと、cpu-zのレイテンシ測定の全CPU分を集結させたいと思っている。
このスレでも何度か上がってるけど、いざ90nmK8のデータが欲しいと思っても、
どこにあったかわからなかったので。

www.wikihouse.com/x86clocker/index.php?plugin=attach&pcmd=open&file=cpuz.zip&refer=Upload
とりあえずここに、手元にあった分だけ固めてアップしておく。
あとでちゃんと整形して上げます。
209 名前：・∀・）っ-○◎● mailto:sage [2007/03/13(火) 19:32:13 ]: スループットなら倍精度以外はほとんど1だよ。

SPEのLSはレイテンシ6だよ。Coppermineがレイテンシ6だったから
今のCore 2も、独立キャッシュにしてL2のエントリ数削れば
それくらいいけるんじゃないのって思うと萎える。
んなわけで、レジスタが128本もあるから、必要なデータは展開して
しまった方がいいわけだ。

AltiVecでVSIUパス命令に相当する整数演算命令はレイテンシ2、
あとの命令（VCIU、VPERM相当）は大体レイテンシ4。
あと、浮動小数はfma（積和算）で6、faddで4。

逆数を求めるfrestなんかも4で処理出来、fmaと組み合わせれば
レイテンシ10・スループット2で除算ができてしまうんだけど、
estimate(推定値)というぐらいだから精度は絶望的に低いと
思ってくださいな。
それなりに精度の高い除算をやろうと思えばソフトでやるしかない。
平方根も同じく。
210 名前：・∀・）っ-○◎● mailto:sage [2007/03/13(火) 19:48:30 ]: LS間の「ピーク帯域」に関しては、ロード・ストアはoddパイプで処理されるから
1クロックに1命令。

ロードかストアを発行×3.2GHzだから51.2GB/secでしょう
DMA転送中はどうだかまだ調べてない

SPE-SPEのDMA転送帯域とかならこのへん
www-128.ibm.com/developerworks/power/library/pa-cellperf/
211 名前：・∀・）っ-○◎● mailto:sage [2007/03/13(火) 19:56:22 ]: てか、IBMの図におもっきし51.2GBって書いてあるじゃんｗｗ
212 名前：・∀・）っ-○◎● mailto:sage [2007/03/13(火) 20:01:29 ]: レジスタが128本だから1レジスタ指定に7ビット。
4オペランド命令で28ビットも使ってるからOpcodeは4ビット。
（上1ビットはopcodeサイズの区別に使うから実質3ビット）

そういえばPentium 4もμOPsレベルではレジスタ数は128だか256だかでしたな。
213 名前：デフォルトの名無しさん mailto:sage [2007/03/13(火) 20:01:51 ]: 80286の間違いは訂正なしか。だめだなこりゃ。
214 名前：デフォルトの名無しさん mailto:sage 行列積の人です [2007/03/13(火) 20:45:51 ]: 精度の高い除算のやり方はは3DNow/SSEと同じ。
doubleも命令の組み合わせで一通り出来るけどスループットとレイテンシを考えると…。

それでもこれだけ割り切ったプロセッサでdoubleが扱えるだけ幸せ。
215 名前：・∀・）っ-○◎● mailto:sage [2007/03/13(火) 23:09:18 ]: なんつーか、普通のプロセッサ用に書いたコードがことごとく使えない
エントリポイントのmain型さえ置き換えればどうにかなると思ってたら
1から書き直しなんだよね。

それでもprintfなどがそのまま使える分マシ
（PPEで動くヘルパースレッド向けにDMA転送して処理してる？）
216 名前：デフォルトの名無しさん mailto:sage [2007/03/14(水) 01:37:23 ]: spe_printf()は遅い悪寒。
#って、スレ違いだがね。
217 名前：・∀・）っ-○◎● mailto:sage [2007/03/16(金) 23:26:50 ]: ネタがないな
218 名前：デフォルトの名無しさん mailto:sage [2007/03/16(金) 23:48:45 ]: 暇ならXLATの所要クロックについて語ってくれ。
とか適当な事を言ってみる。
219 名前：デフォルトの名無しさん mailto:sage [2007/03/17(土) 04:43:37 ]: x86_64命令の所要クロック計測まだー
220 名前：・∀・）っ-○◎● mailto:sage [2007/03/17(土) 05:08:51 ]: 同じじゃねーかｗｗｗｗ（NetBurst以外
221 名前：1 ◆.MeromIYCE mailto:sage [2007/03/18(日) 21:50:08 ]: >>209
レスが遅れてすまん。
まあ、大体素直な感じだな。

x86のキャッシュはマルチタスクに対応するための複雑なメモリ管理や
L1L2（ものによってはL3も）の多重階層で、かなりレイテンシが増えているよな。
それを考えればCellのLSは順当な性能だ。

x86にLSを載せたらどうだろう。
256KBでレイテンシ6、128bit/clkという性能で、更にL1L2キャッシュは今まで通りとする。
LSは新SSE命令で明示的に使う必要があるが、使えば効果は大きいと思う。
（L1とLSの両方に高速な配線をつなぐのは技術的に困難か？）

レジスタは128bit*128で2KBか。
こんなにあると、コーディングにまた別の感覚が必要になるなあ。

>>219
実際問題、普通にパソコン買うと32bitのWindowsVistaになっちゃうんだよね。
64bitの計測ができるのは、だいぶ先の話になりそうだ・・・。
222 名前：・∀・）っ-○◎● mailto:sage [2007/03/18(日) 22:06:52 ]: 帯域がもう少し広ければトレースキャッシュくらいに使えるんじゃないかなと思ったり。
223 名前：・∀・）っ-○◎● mailto:sage [2007/03/19(月) 02:01:23 ]: ロード・ストア命令が16バイト単位でしか読めないから、多段階ルックアップテーブル
作ろうと思ったら各要素16バイトでパディングしないといけない。
ストアがさらに厄介で、含まれる16バイト領域をロードしてからマスクして値を重ね合わせ
格納する。
16バイト境界をまたがってた日なんか目も当てられませんな。

スカラなプロセッサ由来でスカラ－ベクタの交換も柔軟にこなせるx86+SSEの
使いやすさを認識するためにも使ってみるべきプロセッサですな。
224 名前：デフォルトの名無しさん mailto:sage [2007/03/19(月) 02:57:39 ]: スレ違いだし今更気づくような内容でもないだろう。
本当にAltiVec使った事あるのか？
手順が若干簡略化されてるだけでAltiVecもやるべき事は同じじゃないか。
225 名前：・∀・）っ-○◎● mailto:sage [2007/03/19(月) 03:37:14 ]: スカラプロセッサの補助としてベクトル演算器があるのと、
スカラ演算までベクトル演算器でやらなりゃならないのとは根本的に違うだろ。
AltiVecではアドレス演算はスカラ演算器で行い、ベクトル演算はデータの
処理のみに専念できる。このへんはx86と同じ。
AltiVecはせいぜいベクトル-スカラ間の値直接交換がないくらいで、
いったんL1に書き出して読み出すだけでいい。

SPUにはスカラデータを扱う命令そのものがない。
1バイト単位はおろか4バイト単位のロードすらない。
（そのくせアドレス生成や条件分岐ではベクトルの第一ワードでしか使えない）
16バイト単位で読み出して適宜シフトしなきゃいけない。
このへんがスカラ演算が圧倒的に遅いと言われる要因。
226 名前：デフォルトの名無しさん mailto:sage [2007/03/19(月) 04:22:02 ]: >>221
> x86にLSを載せたらどうだろう
レジスタ同様にタスクスイッチ時にデータを退避するのか？
それともロックして占有するのか?
227 名前：1 ◆.MeromIYCE mailto:sage測定はまた今度 [2007/03/19(月) 10:12:27 ]: >>226
仮にやるとしたら、ロックするのがいいかな。
オーバーレイなんかも同時に2アプリで使えないことだし、
エンコやゲーム専用と考えれば。

でもやっぱりマルチタスクできないのは不便だよな。
OS側でも工夫のしようはあると思うが、
そうまでして使う価値があるかは正直疑問だし。
228 名前：・∀・）っ-○◎● mailto:sage [2007/03/19(月) 21:00:40 ]: L1キャッシュよりレイテンシの大きいローカルストアよりも
拡張XMMレジスタファイル256本のほうがまだありがたいような。
imm8を使って各レジスタを指定。
229 名前：デフォルトの名無しさん mailto:sage [2007/03/19(月) 23:40:14 ]: スケジューラが詰まらないならその方がありがたいです。
レイテンシ分くらい依存命令を離しているつもりなのにストールすると悔しい。
230 名前：デフォルトの名無しさん mailto:sage [2007/03/24(土) 00:59:06 ]: リアルモードの割り込みベクタのことIDTなんていう呼び方してたっけ？
231 名前：・∀・）っ-○◎● mailto:sage [2007/03/24(土) 01:10:07 ]: Interrupt Descriptor Table

そのまんまの意味だな
232 名前：デフォルトの名無しさん mailto:sage [2007/03/24(土) 01:12:47 ]: いや、だからリアルモードの割り込みベクタテーブルとプロテクトモードのIDTはちょっと違うもんだろ、って話じゃ？
233 名前：デフォルトの名無しさん mailto:sage [2007/03/24(土) 03:18:03 ]: 英語が理解できないのはつらそうだな。
234 名前：デフォルトの名無しさん mailto:sage [2007/03/28(水) 15:47:10 ]: どうして団子リオンはトリップつけてないのか。
235 名前：デフォルトの名無しさん mailto:sage [2007/03/28(水) 16:08:32 ]: >>230
intelの文書ではリアルモードの割り込みベクタテーブルを実アドレスモードIDTとよんでいる
236 名前：・∀・）っ-○◎● mailto:sage [2007/03/29(木) 00:41:01 ]: >>234
漏れてるから
237 名前：デフォルトの名無しさん mailto:sage [2007/03/29(木) 03:14:36 ]: ありゃ、お漏らししちゃってたのか。
238 名前：デフォルトの名無しさん mailto:sage [2007/03/29(木) 09:03:33 ]: Intel Penryn and Nehalem 45nm Processor Update
www.legitreviews.com/article/480/3/
The New Technologies and Features

Super Shuffle Engine キター
239 名前：デフォルトの名無しさん mailto:sage [2007/03/29(木) 09:57:21 ]: Emulatorの友
240 名前：・∀・）っ-○◎● mailto:sage [2007/03/30(金) 01:40:45 ]: > Super Shuffle Engine

128ビットシャッフルのスループット改善ですか
241 名前：デフォルトの名無しさん mailto:sage [2007/03/30(金) 01:45:33 ]: >>240
団子ちゃん、こっちのスレでお呼びがかかってるよ。
pc11.2ch.net/test/read.cgi/tech/1137540671/
242 名前：デフォルトの名無しさん mailto:sage [2007/03/31(土) 01:47:05 ]: >>235
どの文書？
243 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 10:32:22 ]: スレ違いならごめん。

C言語で以下のようなソースがあったとして、
if( a < b ){
　min=a;
　max=b;
}else{
　min=b;
　max=a;
}

if( a < b )のかわりにif( a <= b )としても問題ないけど、この２つで出力
されるアセンブラソースや所要クロックに差は出るかな？
intなら同じだけどfloatでは差が出るとか有り得る？
244 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 11:05:39 ]: >>243
コードの差は出るかもしれないし出ないかもしれない。
その周辺のコードによっても変わるし、勿論コンパイラによっても変わる。
245 名前：・∀・）っ-○◎● mailto:sage [2007/04/01(日) 11:23:10 ]: 別スレ逝った方がいいよ。
「うちの使ってるコンパイラでASMコードの出力の仕方が解らないので教えてください」

SSE使えば比較文自体排除できる罠。floatだとこんだけ。

__m128 xa = _mm_set_ss(a);
__m128 xb = _mm_set_ss(b);
_mm_store_ss(&max, _mm_max_ss(xa. xb));
_mm_store_ss(&min, _mm_min_ss(xa. xb));
246 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 11:27:17 ]: >>243
速度を気にするなら条件分岐を排除
同確率の二択はほぼどちらかが失敗する
247 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 11:34:00 ]: どうも有難うございました。
248 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 11:55:50 ]: まぁ、そんな細かいことが気になるならc++で
min = std::min(a, b);
max = std::max(a, b);
とでもすればいいだろうよ。
249 名前：・∀・）っ-○◎● mailto:sage [2007/04/01(日) 12:05:11 ]: 細かいことが気になるならmin/max関数なんて使わない
250 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 12:53:36 ]: なるほど、団子には皮肉が通じないわけだ。
251 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 13:15:01 ]: つーかそれ、素で間違ったのに皮肉と言い訳してるのと見分けが
つかないから、皮肉なら皮肉でちゃんと分かるようにしないとｗ
252 名前：デフォルトの名無しさん mailto:sage [2007/04/01(日) 13:19:50 ]: 明らかに皮肉とわかるのに
団子がいるスレは一段と引き締まるな

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef