ユー!Cellプログラミ ..
[2ch|▼Menu]
175:デフォルトの名無しさん
07/01/22 02:34:55
URLリンク(kfs3.ncsa.uiuc.edu)
とりあえずこれを参考にしよう!

176:デフォルトの名無しさん
07/01/22 02:40:30
URLリンク(www.power.org)
これも参考になりそうだ!

177:デフォルトの名無しさん
07/01/22 02:47:13
ふむふむ、SPEのLSのアドレスは32bitの実行アドレスとしてあらわされるんだな!
実行アドレス?まあいいか。

178:デフォルトの名無しさん
07/01/22 02:49:42
他のSPEのLSにDMAするには、その32bitの実行アドレスのLSへのポインタがいるのだな!

179:デフォルトの名無しさん
07/01/22 02:50:49
そうか、だからDMAの前にmailで通信するのだな。

180:デフォルトの名無しさん
07/01/22 03:03:48
spu_writechは、SPU チャネルにデータを書き込む関数か。
MFC_WrTagMaskっていうチャネルがあるのかな?そうっぽいずら。

181:デフォルトの名無しさん
07/01/22 03:13:05
spu_read_in_mboxっていうのは、着てるメールを受け取るのね。眠い。また明日。

182:デフォルトの名無しさん
07/01/22 23:13:01
今日はちょっとDMAから離れて、条件分岐をif文無しでやる方法を学んだ。

183:デフォルトの名無しさん
07/01/22 23:25:26
URLリンク(www.power.org)
19ページ
分岐後の両方の計算をしておいて、分岐をなくすというやつ。
これってパイプラインの深いx86のcpuでも効果ありそうな気がするけど
どうなんだろうか。


184:デフォルトの名無しさん
07/01/23 01:08:26
x86でも効果あるし、実際使われてるよ。リンク先読んでないけど。

100を使うか200を使うかみたいのはコンパイラが値の差分でやるし、
aかbかみたいのもコンパイラオプションで強制すればcmovを使う。

でも効果があるのは予測出来なくてかつ超単純な演算に限られるから、
コンパイラが自動で行う事はあまり出来ない。

予測出来る場合は予測分岐でペナルティを無くせるし、
式が長いと両方計算するのは無駄。

ってことで、そこまで追いつめられる程の技量のあるプログラマは
当然各自意識してプログラミングする事になる。

ただ実際にはそこを考える前にアルゴリズムを見直す方が
何倍も何十倍も効果がある。

185:デフォルトの名無しさん
07/01/23 02:53:48
>184
すごく詳しく教えてくれてありがとう!

最後の部分だけど確かに条件分岐を減らしてみても、今の自分がやってる計算では
速度にほとんど影響なかった。普通にif文使わないのが面白かったのでやってみたけど
こだわって書いた割にはあまり甲斐がなかったなあ。

だから本当に速度出そうと思ったらプロファイルをやることが必要だなあと実感。
プロファイルの仕方もぼちぼちやっていこう!

186:デフォルトの名無しさん
07/01/23 04:11:15
条件分岐を減らすためにややこしくなったり、
プログラムサイズが増えて、キャッシュを圧迫なんて事もあるしな。

もしチューニングにこだわったプログラムを書きたくなったら、
Grate Code Vol.2を読むべし。まぁ>>184の言う通り、
アルゴリズムを見直したりするのが先だろうけど。

187:デフォルトの名無しさん
07/01/23 11:33:14
1. アルゴリズム&データ構造 ← データ構造を忘れない
2. 急所を探してそこだけチューニング
2.1 インラインとかマクロとか
2.2 intrinsicを利用
2.2 アセンブラを使う
キャッシュ&パイプラインを意識する&レジスタをうまく使う
間違ってもプログラム全体をチューニングしたりしない様に

188:デフォルトの名無しさん
07/01/23 16:00:10
うおー、みんなありがとう。このスレはなんかいい人ばっかだなあ。
チューニングとかって、具体的にどうやればいいかってcellで初体験
だから、わからないことが多くて、でも面白いね。

例えばパイプラインを意識したチューニングとか具体的にどうすれば
いいのかまだわかってないんだよね。speはアウトオブオーダーがない
から、それを意識しろとかね。とりあえず、本は入手してみるよ!


189:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/01/23 23:02:51
IA-32のMMXやSSEでもマスク生成命令あるけど、プレディケーションのためじゃない。
なぜなら普通に分岐予測ハードに頼った方がよっぽど効率がいいから。



190:sage
07/01/24 10:25:56
SPEとSPEとの間でDMAってできる?

191:デフォルトの名無しさん
07/01/24 18:42:50
自SPEと他SPEならできる。

まだ試してないから嘘言ってたらすまん。

192:デフォルトの名無しさん
07/01/24 22:33:22
SPE間の転送速度を実測するコードとかが公開されてます。
URLリンク(kfs3.ncsa.uiuc.edu)

やっぱcellの強みのひとつは、このリングバスの速い転送速度だと思うので
LS間の転送を習得したいのです!

193:デフォルトの名無しさん
07/01/24 22:49:31
ちょっとずつだけど勉強してくぞ!
spu_read_in_mbox
とにかく来たメールを読み込むのね。


194:デフォルトの名無しさん
07/01/24 23:05:24
spu_mfcdma32
spu_mfcstat

たいていこの二つは組でつかわれているんだよなあ。spu_mfcstatは転送を
待つか待たないかってことかな。このブロックのタイプをどう選ぶかが
ものによって重要な予感…。



195:デフォルトの名無しさん
07/01/24 23:08:24
spu_mfcdma32
spu_mfcstat

たいていこの二つは組でつかわれているんだよなあ。spu_mfcstatは転送を
待つか待たないかってことかな。このブロックのタイプをどう選ぶかが
ものによって重要な予感…。



196:デフォルトの名無しさん
07/01/25 00:07:18
URLリンク(kfs3.ncsa.uiuc.edu)

適当に眺めていたが、なかなか簡単にはわかんね。

PPEのプログラムから、順を追ってかないとだめそうだ。

ほんちゃんの帯域測定するためのDMAの前にいくつかDMAをやってて、
わかりにくい。

今日わかったこと
転送前に転送のためのいくつかの情報をmail or DMAで転送。
その後に本格的にDMA。


197:デフォルトの名無しさん
07/01/25 09:49:39
spe_get_ls でLSのアドレスを取得できるみたいだね。

198:デフォルトの名無しさん
07/01/25 16:09:41
>197
情報ありがとう!その関数で検索かけいいブログ見つけました。
URLリンク(blogs.yahoo.co.jp)

あとspe_get_lsはSPE run time libraryで解説が載ってるのですな。
URLリンク(www-306.ibm.com)

sonyのC/C++拡張のpdfしかみてなかったんで、こっちに気づけてよかった。

199:デフォルトの名無しさん
07/01/27 20:07:42
196と198の2つのSPEーSPE間のDMA転送をみて、ようやくわかってきた。

198のほうは、PPEとSPEがメール通知をしながら転送に必要な情報を取得しつつ、
SPE間のDMA転送をしている。

196のほうは、PPEであらかじめDMAに必要な情報を取得してしまって、それを
各SPEに先に送って、後はSPEにやらせるという感じかな(?)。

一回プログラムが始まったら、SPEで勝手にやってもらうというのが自分の
理想なので、196のほうを本格的にみていこうかな。ちょっとこっちは長いんだけどね。


200:デフォルトの名無しさん
07/01/31 04:53:02
ソニーがPS3のコストダウンに着手,「65nm世代の製造技術でCellの量産を開始した」
URLリンク(techon.nikkeibp.co.jp)

201:デフォルトの名無しさん
07/02/02 15:23:39
1台辺り3万円以上の赤字って言われてるからコスト削っても値下げはないな。

202:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/02 22:22:17
店頭レベルでなら現状4万切るところも出てるが

203:デフォルトの名無しさん
07/02/02 23:14:23
めも:うんどーずのeclipse+CDTでPS3に接続
 ビルド:sambaでマウント。ssh/rshでホストベース認証(ssh-agentとかでも可?)、ビルドのコマンドにssh/rsh
 デバッグ:新し目のgdbのソース(cygwinのパッケージのはだめ)をビルド、--target=powerpc64-ps3-linuxとか。ホストでgdbserver


204:デフォルトの名無しさん
07/02/04 04:42:06
LS間のdmaのレイテンシは、約100ns。core 2 duoのコア間はL2キャッシュ
介するならその10分の1…。
LS間のdmaでは、データは一回メインメモリにマップされて、それからdmaされるようだ。
なんで直でLS間で通信できないんだろうか。せっかくリングバスでつながっているのに。
たぶんメールのやりとりはできるんけど。

LS間の直の転送って自分が知らないだけでできるんだろうか?

205:デフォルトの名無しさん
07/02/04 04:53:08
204の疑問から、SPE間のデータ転送は、PPEを介して(結局メインメモリを介して)
やってもかわんないなあと今思っとります。データの転送量でいえばむしろへるし。

というのは、全SPE(6個)に全SPEと通信させたとして、6×6=36の通信が発生するのに対して、
全SPE→PPE→全SPEなら6(全SPE→PPE)+6(全SPE→PPE)=12の通信ですむから。

うーん、やっぱマルチコアは通信のことを考えるのがやっかいだ〜。


206:デフォルトの名無しさん
07/02/04 11:54:37
なんのこっちゃ?

207:デフォルトの名無しさん
07/02/04 14:03:32
>>205
Broadcastやりたいならpoint-to-pointは検討する迄もないだろ

208:デフォルトの名無しさん
07/02/04 14:15:55
>>204
LS間のDMAは、直に行っているぞ。
それから、PPE<->SPE より SPE<->SPEの方が高速。
SPE<->SPEは片方向の場合、理論値25.6GB/sに近い速度がでる。


209:デフォルトの名無しさん
07/02/04 17:14:49
>207
そうなんだけど、main memory<->lsのレイテンシよりls<->lsのほうが断然早い
と思い込んでたからそれに期待したのです。もし転送データ量自体は大して多くないなら、
多少転送量の無駄使いになっても、結局早く転送できるのでいいかと思ってたということです。

>208
いままでいくつか資料見てきたんですけど、ls-lsのDMAはメインメモリにマップされて、
転送というのしかみたことがないのです。以下の11ページなんかがその例。

URLリンク(www.internetconference.org)

実際のls<->lsのdmaのレイテンシは、main memory<->lsレイテンシと同じオーダーなので
そういうことだと思っています。以下でそれぞれのレイテンシが出てたはずです。

URLリンク(hpc.pnl.gov)

たしかにls<->lsのほうがほぼLSの帯域一杯使えるという点でははやいんですけど、
それほど多くないデータをちょくちょくやりとりしたいというときには、最低限通信にか
かるかかるレイテンシのほうが重要になってくると思うのです。

そのレイテンシにしても、ls<->lsのほうが、main memory<->lsよりも2倍くらい早いので、
いいんですけど、10−50倍並みの早いのを期待してたんで、ちょっと残念という感じです。


210:208, 209
07/02/04 17:43:29
実はにゅーらるねっとをCellでやろうと思ってます。
ちょっと特殊な用途を勝手に想定していたんで皆さん混乱させたかも。
ごめんなさい。

以下興味のあるひとは読んでみて下さい。

にゅーらるねっとはユニットが連絡しあうことで情報処理を行います。
Cellでやる場合、このユニットをSPEに振り分けて計算させるのがいいと思います。
ユニット同士の連絡のデータ量というのは、画像とか音楽のエンコードに比べると
、全然少ないと思うんですけど、連絡は常にしないといけないのです。

そうすると、リングバスの広い帯域で大容量データ転送というより、SPE間で
レイテンシの少ないこまごました通信をしたいということになるわけです。



211:デフォルトの名無しさん
07/02/04 20:26:43
ニューロン6個ってことは無いだろうから
ユニット一個に数百個のニューロンが含まれるとすると
256KBのLSではかなり辛くない?
それはさておき
一塊を複数のSPEで処理するのは(完全結合だと)通信が多過ぎて無理っぽい
もし多層モデルなら各層をSPEに割り当ててパイプライン的に処理した方が速かろう
いずれにせよ通信量が減る構成or構造を考えないとそっちがネックになるべ?

212:デフォルトの名無しさん
07/02/05 00:57:24
>> 209
真面目にやる気がある人みたいなんで
漏れが知ってる限りのことは教えてやろう

>ls-lsのDMAはメインメモリにマップされて、転送というのしかみたことがないのです。
メインメモリにマップされるってのは嘘だ。正しくは、実効アドレス空間にマップ、だな。
実体がメインメモリにあるんじゃない。メモリマップドI/Oみたいなもんよ。

まああれだ。IBMの記事とかにもたまに怪しいのがあるぐらいなんだから、
そーゆー怪しい所の記事をうのみにするのは、、、な。

で、問題のレイテンシだが、元々リングバスなんて帯域は広くても
レイテンシには弱いはずだな。それにSPEの物理的な距離の差でも
レイテンシは変わるはずなんじゃないか? 測ったことはないが。

あとちなみに、DMAだと128バイトってマジックナンバーがあるから
それに合わせた設計すると、転送量に気持ち余裕ができるぞ。


213:デフォルトの名無しさん
07/02/05 02:03:07
MMIOってのが解ってないんじゃ?
ぶっちゃけた言い方すれば、EAにマップされたSPU1のLSがあって、
SPU2がそのアドレスにDMA転送かけるってのは、(メインメモリは関係無く)
SPU1のLSに対する読み書きをするって事。
転送先のアドレスがメインのDRAMなりVRAMなり他のデバイスのメモリなりレジスタにマップされてれば、それぞれへの読み書きになる。

所で実際にニューロン1つにプロセッサ1個必要なら、EIBより外部バス(PS3ならGbEとか?)の方が問題になりそうな。知らんけど。

214:208, 209
07/02/08 03:03:05
>211
まだ最終的にいくつユニットをつかうとか決めてないんだけど、
なるべく多くのユニットでやって見たいなと思ってます。LSの容量の問題があるけど、
ユニット自身の計算している間に、DMAで次のユニットのデータをロード
するような仕組みでいけば、LSの問題は一応解消できるかなと思ってます。
面倒くさそうだけど…。

>>212、213
私、はずかしながらMMIOというものをわかっていませんでした。了解です。

PS3でクラスタ組むということもちょっと考えているんだけど、たぶんGbE
のレイテンシ(10μsオーダー?)なら、そこそこいけると思ってます。
とりあえず1台でできたら、次にやろうかな。きっとその頃にはPS3も安くなってるでしょう…。

215:209
07/02/09 03:40:26
あ、名前らん間違ってた

216:デフォルトの名無しさん
07/02/09 17:07:17
なにこのスパイの暗号みたいなスレ

217:デフォルトの名無しさん
07/02/10 02:04:40
>ユニット自身の計算している間に、DMAで次のユニットのデータをロード
>するような仕組みでいけば、LSの問題は一応解消できるかなと思ってます。

俺もこれやりたい。
libspe2には一応オーバレイの仕組みもあるけど、
そういうことをDMA使って自分でやりたいんだよね。
自分で組めばオーバレイのダブルバッファリングができるはずなので。
でもリンカのスクリプトとかわけわからんwwww
どっかに資料ないかなあ・・・

218:デフォルトの名無しさん
07/02/10 13:53:41
>>217
どこが分からないのかが分からないのであれだが
URLリンク(cell.fixstars.com)
これにセカンドバッファへの転送開始,バッファ切り替え,待ち,&ループ
を追加したんじゃダメなの?

219:デフォルトの名無しさん
07/02/10 15:26:18
>>214 がやりたかったのは多分そういう単純な
バッファリング(ダブルである必要は無いが)だろうな。

>>217 はテキスト、つまりプログラム断片を動的に読み込みたいんだろ。
グローバル変数とかが要らないんだったら、テキストセグメントの
アドレス指定してELFつくればなんとかなるんじゃね?
つか、libspe2にそんな機能あるの? リファレンスには載って
なかったような気がするが


220:デフォルトの名無しさん
07/02/10 18:02:24
オーバーレイなんて百害とまではいかないが一利ないよ。

221:デフォルトの名無しさん
07/02/10 18:32:34
>>219
CBE SDK2.0のISOイメージの中にあるpdfの、
cpbprg00.pdf (Software Development Kit 2.0 Programmer's Guide Version 1.0)
これの4章に説明があるよ。
IBMのサンプルコードにもoverlayっていうのがある。
一応テストしてみたけど、それなりに高価なのでループの中の関数には使えないな。(当然か)
ゲームループの中で数十回タスク切り替えする程度なら十分使えそうだけど。

222:デフォルトの名無しさん
07/02/10 22:34:51
>>220
分散メモリ環境だと
 データ常駐,コード取っ替え引っ換え
 コード常駐,データ取っ替え引っ換え
のどちらかでやるのが速そう
コード&データを取っ替え引っ換えってのもあるけど

223:デフォルトの名無しさん
07/02/11 00:48:16
使用頻度多い方を常駐させればよいと思いますよ。
動的に変更できるように設計しましょう。

224:デフォルトの名無しさん
07/02/11 20:02:48
使用頻度とサイズの両方考えた方がベターなような
だとすると大抵はデータ常駐になるか

225:209
07/02/11 22:14:11
引き続きLS間のDMAを試しております。
DMA転送をさせるられるようになってきたけど、まだいろいろ苦闘しております。
なんでかというと、SPE間の同期をとりつつうまく転送するというのが
簡単そうでなかなか難しい。

やっていて感じたのが、個々のSPEの演算の進み具合はかなりバラけるよう。
先入観で、きっと大して同期とらなくてもおんなじ演算させてりゃ勝手にあ
うだろうと思ってたら、甘かった。




226:209
07/02/11 22:21:11
あとDMA転送するデータ量がそんなに多くない場合、DMA転送のバックで
計算させて時間を稼ごう(レイテンシを隠蔽しよう)とかしても、ほとんど
演算時間の短縮に効果がないということが少しづつ判明して参りました。
100ns前後の遅延は、10の7乗回積み重なってやっと1秒だし。

将来、ネットワークを大きくしたときトラフィックが膨大に増える
可能性があるので、本格的な最適化はそのときにしようと思っとります。

227:デフォルトの名無しさん
07/02/11 22:57:07
サンプルコードやライブラリ等を集めたHPでも、誰か作らんの?
俺は、そもそもPS3買う予定もない人間なんだが。

228:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/11 23:47:10
PS3買ってきたけどFedoraとYDLどっちがいい?

229:デフォルトの名無しさん
07/02/12 00:06:57
YDLの利点はLANの設定がほとんど要らないなのとLibspe辺りが始めから入ってる位
Linux慣れてるならFedoraを薦める
詳しくはLinux板見るベシ

230:デフォルトの名無しさん
07/02/12 00:07:52
Yaneurao Dynamiclink Library

231:デフォルトの名無しさん
07/02/12 13:34:54
>230
ハァ?

232:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/12 15:55:41
YDL落とした。
こんがり焼けました。

233:デフォルトの名無しさん
07/02/12 18:17:06
PS3が焼けたのか?w

234:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/12 18:20:06
VH

235:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/12 18:24:47
ミスった


S端子接続って画質よくなる?
アプコン使ってVGAに接続してるんだけど。

ちなみにHDMI対応ディスプレイなんてものはうちにはない。


まあ普段はtelnetで十分ですよね

236:デフォルトの名無しさん
07/02/12 18:33:38
sshで十分

237:デフォルトの名無しさん
07/02/12 19:01:30
VNCで

238:デフォルトの名無しさん
07/02/13 01:01:33
sshに一票。
ただしビデオ叩くのはちゃんとディスプレイからログインしないと駄目。

239:209
07/02/13 06:07:50
LS間のDMAのデータ転送がようやくできてきた。
もうバスエラーが出まくって、なんで?なんで?って大変だったです。

データ転送する前にSPE間で同期をとる必要があって、そんなことは
やったことがないのでとりあえず適当にやってみるが、ちょっとでも
穴があると、みんな勝って気ままにどっかへいってしまう。
幼稚園児を整列させるようです。

DMAのありのと無しの計算からレイテンシを見積もると、約15ns。
おー、早いなあ。
ただ、SPEの数を3、4…と増やしていくと、計算時間は、レイテンシ以上に
増加していく。
原因ははっきり調べてないけど、同期に時間がかかっているんだろう。

240:209
07/02/13 06:13:48
まだまだ同期や通信のレイテンシを減らすことはできそうだけど、
トータルの計算時間中の通信時間がいまでも十分小さいので、とりあえず
これでよしとしよう。わーい。

241:デフォルトの名無しさん
07/02/13 09:29:35
>ただ、SPEの数を3、4…と増やしていくと、計算時間は、レイテンシ以上に
増加していく。
リングバスの(衝突/混雑の)せいじゃなく?

242:デフォルトの名無しさん
07/02/13 10:24:18
>>240
おめ&がんがれ、応援してるぞ
徹夜のようだが無理すんなよ

243:209
07/02/13 17:18:31
>>241
SPEが4個の時、DMAキューは最大12なんだけど、リングバスの最大DMAキューと
同じだから、多分4つまでは飽和しないと思うんだ。でも、2、3、4…と増やすにつれ
レイテンシはだんだん増加するから多分同期のせいだと思うんだ。調べられたら
調べてみます。

>>242
あんた体まで心配してくれるなんてなんていい人なんだ!
ちなみに早起きしただけだから、大丈夫だよ!

244:デフォルトの名無しさん
07/02/14 08:24:32
圧縮機能つきDMACをSPE使って誰か作ってくれ

245:デフォルトの名無しさん
07/02/14 10:10:09
>>243
遅レスだけど、かなり単純なDMAダブルバッファのサンプルコードがBEハンドブックにあるよ。
URLリンク(www-128.ibm.com)
Cell Broadband Engine programming handbook
同期とったりとかは別に考えないとだけど。


246:デフォルトの名無しさん
07/02/15 01:10:13
Cellの開発費削減だってね。

247:デフォルトの名無しさん
07/02/15 02:38:50
>>246
まぁ45nmはなかなか厳しいので正しい判断ではあるよな。

248:デフォルトの名無しさん
07/02/15 09:09:21
開発費ではなく製造ラインへの投資だろ。

249:デフォルトの名無しさん
07/02/15 09:31:16
45nmに限らず、プロセスルール競争はIntel帝国対IBM連合に台湾だからね。
投資効率考えたら当然ではあるんだが、日本の景気が良いうちにソニーにかぎらず
ここら辺の先端技術でリードできる立場になっておいて欲しい所。

250:デフォルトの名無しさん
07/02/15 10:11:41
とりあえずはIBM連合あたりに任せればいいんじゃないかな。

251:209
07/02/15 22:04:53
IBMはPower6とは別に、Intelのメニーコアへの対抗として、
CELLをつづけてくれればいいんだけどなあ。

まあIntelのやつはもともとCELLに触発された部分が大きいのかも知れないけれど

これからこのCPUは先細りするといわれるとプログラムのやる気がちょっとダウンするなあ。



252:デフォルトの名無しさん
07/02/16 01:10:23
もっと前から作ってんだろw

253:デフォルトの名無しさん
07/02/16 01:19:35
45nmについてはIntelもIBMも2年以上前から言ってたけどねぇ

254:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/16 01:28:04
IBMはeDRAM発表したね
Inteも欲してる技術じゃなかろうか

255:デフォルトの名無しさん
07/02/16 12:37:29
>>251
どんどん先細るよ。45nmの次が32nmくらい(プ

256:デフォルトの名無しさん
07/02/16 13:00:21
それでも今後三年間?で3000億円規模の半導体投資なわけだから、
カスタムやマイナーチェンジなんかも楽勝では。
いままでは65nm工場開発と、Cellの研究開発で5000億でしょ?
その二つ得た今となっては45nm研究しない分物凄い潤沢資金なはずだが。
あとIntelの奴はそれこそ専用用途にしかつかえないっぽいが。

257:デフォルトの名無しさん
07/02/16 14:01:28
CISCもこれからはRISCだからと謂われていたけれど復活したじゃん。
メニーもヘテロも本格的には出て来たばかりでどちらがなんてまだ分からないと思うけど。

258:デフォルトの名無しさん
07/02/16 17:24:58
URLリンク(pc.watch.impress.co.jp)

259:209
07/02/17 00:02:39
倍精度強化かつメモリ強化(3倍容量)のCELLとか、でても
すんげーたかいんだろうなあ…。

たとえば、65nmのcore 2 quadのXeonなら
倍精度50Gで、たぶん30-40万くらいで買えるでしょ。

強化型CELLは倍精度100Gflopsで100万じゃかえんだろうなあ…。
PS3に乗るわけないしなあ。

260:デフォルトの名無しさん
07/02/17 02:24:52
Blue/Gene買うやつはいないっていいたいの?w

261:デフォルトの名無しさん
07/02/17 12:16:24
今のcellでも1個で倍精度20Gflopsあるのにね。

262:デフォルトの名無しさん
07/02/17 13:40:35
>>259=209
なぜそんなに高くなると思うの?

263:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/17 14:05:47
PCベースのワークステーションより数が出ないぶん部品は高い。

何が高いって、XDRメモリが高い。
数が出ない云々以前に、RAMBUS利権もあるし。

メモリコントローラがオンダイでXDR-DRAMきめうちだから、FB-DIMMなんかは無理。


264:デフォルトの名無しさん
07/02/17 15:18:13
現状でもCellの先にSDRAM繋がってるワークステーションあるのにねぇ。

265:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/17 15:35:52
ダイレクトに接続できたっけ?

CellアクセラレータボードがXDR 1GB(ダイレクト)+DDR2 4GB(I/Oコントローラ経由)
だった気が。

266:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/17 15:42:25
まぁそもそもXDRとかFB-DIMMじゃないと帯域が足りないと思われ。



267:209
07/02/17 20:54:38
>>262
90nmのIBMCELLサーバーでも200万位するでしょ。それがさらに量産効果が
でにくそうな倍精度強化版CELLじゃあもっと価格がはね上がりそうな気が…。
あとメモリも高いんすね。

100Gflops欲しかったら、PS3を5台買えばいいか。20万くらいだしね。
単精度なら約1Tflops!

268:デフォルトの名無しさん
07/02/18 01:59:19
ハード以外のコストを考えなくていい次元に住んでるなら
その方がいいと思われ。

269:262
07/02/18 01:59:35
あ,でるかどうかも分からないメモリ強化版のCellの話なのに
高くなると推定するのが不思議だったんで訊いたんだわ
つまり周りがどうなるかの見当が付いているのかな?と

今のCellの単なる倍精度版なら今と同程度かちょっと高い位になると
考えるのが当然だけど

270:デフォルトの名無しさん
07/02/18 02:08:17
何が当然なんだか

271:269
07/02/18 02:12:09
>>270
何か他の考え方が?

272:デフォルトの名無しさん
07/02/18 09:07:09
さてそれでそのPC3で組んだ高性能マシンを何につかっているのかね?


273:デフォルトの名無しさん
07/02/18 09:25:31
>>267
出血サービスのPSというかたち以外でCellが庶民の手の届く価格で
販売されることはないというのが普通の考え方だよね。
65nmは倍精度強化版onlyみたいなことになると楽しいんだけど。

C2Dの2.5GHzで20Gflopsあるのに、わざわざPS3でクラスタ組もう
とする貴方はとってもマゾヒスト。

274:209
07/02/18 14:19:24
>>272,273
趣味でCELLで大規模な科学技術計算やってみたいなあと思ってんだけど、
冷静にCELLとcore 2で価格と手間を天秤にかけると、微妙なんだよね。

去年は、CELLに対して脳内にかなりお花畑が広がってたんで、何も疑問も持たず
CELLのプログラミングとか勉強してたんだけど、最近のcore 2の性能とシュリンクの
進み具合を見ていると、天秤が今水平に近づいている感じ。

それでもやろうっていうのは、CELLはやっぱいじってると面白いというのと
まだLSの構造にわずかに可能性を感じているというのが理由。あとは手軽に扱える値段かな。





275:209
07/02/18 14:35:10
CELLいじるまで細かいレイテンシなんか気にしたことなかったから、
それをいろんなCPUと比べたり、プログラミングに反映させたりするのが
すごく面白かったし勉強になった。

で、いじってみた結果、用途によって、CELLは向き不向きが激しいことがわかってきた。
倍精度ではCore2と価格性能比が倍くらいしか違わない。


276:デフォルトの名無しさん
07/02/18 16:24:51
某板よりコピペ
多数のオブジェクトの衝突判定を並列化する方法


移動後の座標をボクセルに振り分ける。
1つのボクセル内に存在するキャラを総当たりで衝突判定。

処理の順序としては、移動、振り分け、衝突判定、衝突処理。
これで処理を並列化できる。

もう少し詳しく言えば、衝突判定をしやすくするために、
ボクセルに振り分ける時点で座標値などをボクセルごとの一時バッファに複製しておく。
これにより巨大なバッファをLSにロードする必要がなくなる。

衝突の連鎖については次フレームに回す。それで結果的には再帰処理になる。

普通は移動後に振り分けるというより
ボクセル内のオブジェクトを管理するバッファを常設しておいて
移動でボクセル外に出たときだけバッファの更新をするでしょ。

277:デフォルトの名無しさん
07/02/18 16:31:41
ダンゴの人のブログにも書かれてるけど、Coreなどは汎用で性能が出るからな。
SPEはタイト過ぎるから、用途派生のCPUを作ってくれなきゃ中途半端で手が出ない気がする。
それはそれで、また別の問題が……

278:・∀・)っ-○◎●創聖のダンゴリオン ◆DanGorION6
07/02/18 16:45:08
正規表現エンジンのSIMD実装の論文とかってないよね?
なんつーか、オートマトンを順番に辿っていくような処理はベクトル演算は不向きっつーか
分岐が致命的に痛い。

279:デフォルトの名無しさん
07/02/18 16:55:48
しかしゲハと何も変わらん雑談スレだな

280:デフォルトの名無しさん
07/02/18 21:13:52
>>279
そう思うならこのスレ来ないほうが君のため。

281:デフォルトの名無しさん
07/02/18 23:17:13
>>275
論文書きたいならCell。
Cellでこんなこともできました、こうやって速くしました、で論文になるよ。
科学技術計算の結果の方が必要なんだったらCore2のほがいいかな。

282:209
07/02/18 23:53:40
>>281
Cellでやっただけで論文になるというのが、そんなんでいいの?って気が
はじめはしてたんだけど、最近成り立ちそうな気がしてきました。

たとえばニューラルネットの話だけど、コアにどのようにユニットを割って
どのような通信をさせるかというのは、以外に簡単じゃない。

結合がないユニットを担当するSPE間では通信の必要がない。また結合があるユニットは
同じSPEで計算させたほうが情報を共有できていい。でも各SPEはなるべく同数の
ユニットを割り振るほうがいい。

これを決めるにはCellのアーキテクチャが関わってきて、同じマルチコアでも
たとえばcore 2だと状況が変わってくると思う。めんどくさくもあり、面白くもあり。

こういうことが実行するプログラムによっても、パラメータによっても変わってくる。

283:209
07/02/18 23:55:45
まあもうそういう議論はしつくされてるかもしれないけど、実機で実際に
それを試してみるというのは意味はありそうですな。

284:デフォルトの名無しさん
07/02/19 03:10:34
>>274
そうそう、やっぱCELLはいじってて面白いんだよ。

ヘテロコアの可能性も感じるしね。
CELL自体が商業的に成功するかどうかはわからないけど。


285:・∀・)っ-○◎● ◆DanGorION6
07/02/19 04:46:29
商業的には既に終わってるぽ
URLリンク(www.vgcharts.org)

いや俺も買ったんだけどさ。マゾだから。

286:デフォルトの名無しさん
07/02/19 12:34:54
終わってると言うよりまだ始まってない感じ

287:デフォルトの名無しさん
07/02/19 15:35:47
始まってないことを今は終わってるって言うのか?

288:デフォルトの名無しさん
07/02/19 18:00:20
>>278
正規表現をSIMDで効率的に動かす方法か。
4並列の手動投機実行みたいな事は出来ないのかな。

289:デフォルトの名無しさん
07/02/19 21:22:04
CPUの寿命は10年単位でみないとわからない。
お前にはそれがわかってない

290:デフォルトの名無しさん
07/02/19 22:55:16
25年は基本アーキティクチャを変える必要がないと豪語したAlphaは...

291:209
07/02/19 23:11:51
>>289
cellの命運を決めるものは、なんになるだろう。

自動並列化コンパイラが完成したら、cellは成功するだろうか?

PS3がPS2並に普及が必要だろうか?

cellのアーキテクチャがすでに成功を決定付けているだろうか?またはその逆に
失敗を決定付けているだろうか?

cellの家電搭載化が必要だろうか?

linuxでのcellのppeとspeのフル稼働化、エコシステムの構築が必要だろうか?

292:209
07/02/19 23:14:02
個人的には、PS3の高スペックlinuxパソコン化が、かなり需要があって普及の手助け
になる気がする。5万円でハイスペックで、Blue ray付きのPCがかえるとなったら
mac並に選択肢にはいるんではなかろうか。RSX&メモリ開放とSPE活用さえできれば、
実現できそうだけど、ありえないのかなあ。

293:デフォルトの名無しさん
07/02/20 00:55:40
Linuxインスコできるようにしたのは快挙だと思うんだけどSCEはそれを全然前に出さないんだよね。
なんか裏ワザっぽい扱いのままで。もったいない。

294:デフォルトの名無しさん
07/02/20 01:00:22
Linux前面に出して本体が売れても、ゲームが売れなきゃ赤字が増えるだけだからな。

295:デフォルトの名無しさん
07/02/20 01:07:56
結局、SPE を使った実用的or面白いソフトってあるのか?

296:・∀・)っ-○◎● ◆DanGorION6
07/02/20 01:15:58
将棋とかのAI組むにはCellってどうなんだろうね
そういうゲーム出てきてないけど
定石をBDメディアに大量に入れておいて探索するだけ?それじゃつまらんな。


297:デフォルトの名無しさん
07/02/20 11:37:30
CELLプログラミングって、ClearSpeedのプログラミングと似たところがあるんだよね。
ClearSpeedのコンパイラ自体は使い物にならないんだけど。

298:デフォルトの名無しさん
07/02/20 18:36:14
メモリが少なすぎるからなぁ。せめて倍はつんで欲しかった。 
単純なCPUでメインメモリの多い箱○にインスコした方が性能でるだろ。


299:デフォルトの名無しさん
07/02/20 19:11:48
>>298
何をするのかによるのでそれは言い難い。

300:デフォルトの名無しさん
07/02/20 21:24:49
>>296
向いてるような向いてなさそうな...どうなんだろ?

分散して同時並行して調べることができるなら
単一のCPUつかうよりも深読みとかできそうだ

将棋とかのルールに沿ってコマを動かすって
けっこう細かい if がつらなると思うんだけど
そういう処理って Cell は苦手そうだし

あと同じような局面で過去にあったかどうか調べるのに
メモリがたくさんいりそう

どれもプログラムの作り方次第かもしれないが


301:デフォルトの名無しさん
07/02/20 22:31:40
整数条件を外した緩和問題をうまく構成して悪手を枝刈りしまくる、
という方向なら結構いけるかも?

302:デフォルトの名無しさん
07/02/21 01:35:16
Cellで将棋はネタとして検討してみたが、本読んだり、Bonanzaの話を見ている
限りだと、Cellを使っても爆発的な強さは得られないように感じた。
計算量増えたところで読める深さはたかがしれてる。
現状だと、棋譜からDB構築も含めた質の良い評価関数の作成の方が効果は高そう。

>>301
去年の将棋大会で(初出場で)優勝したBonanzaは枝刈りしていないらしい。

ちなみに、ソースも公開されてる。これをCellに落とし込むだけならそんなに
難しくないと思う。コンピュータ同士で対戦させるためのプロトコルも
定義されているから興味のある人は調べてみるといい。


303:デフォルトの名無しさん
07/02/21 01:38:57
でも、やる価値が無いとは思わないよ。
これで飯食えないかなー?と真面目に検討した結果、計算量によって
圧倒的な強さを得るのは難しそう、と感じただけ。

リバーシの感覚で気軽に考えたのが甘かった。

304:デフォルトの名無しさん
07/02/21 02:08:14
>>303
将棋はチェスよりも難しいぞ・・・

305:・∀・)っ-○◎● ◆DanGorION6
07/02/21 02:32:48
取った駒を置けるからチェスよりも計算量が莫大になるんだよな。

306:デフォルトの名無しさん
07/02/21 02:38:33
>>305
あと、駒をひっくり返すか返さないかも

307:デフォルトの名無しさん
07/02/21 16:59:13
口を開けば「セルが……、セルは……」と話す男がいた。www
スレリンク(gamenews板)

308:デフォルトの名無しさん
07/02/21 17:05:36
ゲハの空気の読めなさは流石隔離。

309:デフォルトの名無しさん
07/02/22 10:28:40
ゲームニュースでないの?

310:・∀・)っ-○◎● ◆DanGorION6
07/02/22 23:13:28
>>306
実質、不成を選択できるのは香と桂と銀だけだけどな。
香と桂は次に動かすときには必ず成らないといけないからさほど状態爆発はしない。
銀は敢えて成らないのも戦法としてある。



311:デフォルトの名無しさん
07/02/23 01:57:27
後の打ち歩詰めを避けるための不成りってのも(理論的には)有るから
他の駒でも常に成ると決めてしまうわけにはいかない

312:・∀・)っ-○◎● ◆DanGorION6
07/02/23 02:26:23
プロでも不成は対局でけっこううっかりやるね

歩はならなかったら成らなかったで前に1ますしか進めないから状態は増えないな。
飛車角も同じ。成ると動きが増えるが、成らなかったからむしろ動きの可能性が収束するだけ

ちなみに成らないと次に動けない位置に達したら確実に成らないといけないし
そういうところに打つのも駄目。反則負けになる。


やっぱり銀だね。成るか成らないかで戦局が大きく変わることがある。。




313:デフォルトの名無しさん
07/02/23 12:49:39
飛車角は成らない理由ある?
歩の「打ち歩詰めを避ける」ってのもよく判らんし。

314:デフォルトの名無しさん
07/02/23 14:55:22
歩に限らんだろ
手持ちが歩だけで、
最後の一手で歩を打って詰みになってしまうとき
わざと成らないで逃げ道作って詰めるときはある

315:デフォルトの名無しさん
07/02/23 17:03:59
>>312
団子は探索型のプログラム書いたことないの?
飛車だろうが角だろうが成る/不成で状態数は増えるぞ

316:・∀・)っ-○◎● ◆DanGorION6
07/02/23 17:56:34
>>313
羽生氏ですら稀にあるよ。
うっかりだとか、裏返す暇がなかったとか。反則にはならない。

古畑任三郎のネタであったな。
後一手で飛車成で勝負が決まるところを
飛車の裏に被害者の血痕がついてたがために
別の方向に動かして・・・・

成らなかったところで動きが増えないだけだからむしろ状態は絞られるだろ

317:・∀・)っ-○◎● ◆DanGorION6
07/02/23 20:15:38
>>314
それは突き歩詰めと言う奴では?
べつに、と金になったら詰めないわけじゃないだろ。

うっかり二歩のほうがむしろ怖い

318:デフォルトの名無しさん
07/02/23 23:15:41
駒の種類として「歩」と「と」は区別する必要があるから状態数は増える
(局面の状態=駒の種類と位置)
あそうか.将棋のルールを知らないんだw

319:・∀・)っ-○◎● ◆DanGorION6
07/02/23 23:22:14
コンピュータ将棋で成らないことを仮定する必要なんて無いじゃん
桂・香・銀以外は不成のパターンは無視していいに等しい

320:デフォルトの名無しさん
07/02/23 23:28:50
そんな風に仕様を勝手に断定するからバグが(ry

321:デフォルトの名無しさん
07/02/23 23:40:23
将棋プログラムはそれはそれで面白いんだけどさ
今の流れはあまりに Cell と関係ないような

一般的な将棋プログラムの話ならこっちだと思う

おまいら最強の将棋プログラムしてみろよ part5
スレリンク(tech板)


322:・∀・)っ-○◎● ◆DanGorION6
07/02/23 23:46:12
>>320
だから、成れば動きが増えても減らない駒で自ら不成として可能性を狭めても
自分のクビをしめるだけで相手に弊害はない。むしろ手が絞り込めちゃう。
「と金」をとろうが「歩」をとろうが持ち駒になるのは歩だしね。

俺が知る限りではコンピュータ将棋で不成を選択できるのは3種類だけだよ。


>>321には胴衣

323:デフォルトの名無しさん
07/02/24 00:44:16
AHO 相手の手の合法性のチェックはどうやってするんだ?

324:・∀・)っ-○◎● ◆DanGorION6
07/02/24 02:25:40
動きそのものは桂馬・飛車・角よりもナイト・クィーンのほうが自由度高いしね
将棋も持ち駒うてなかったらおそらく解法はチェス同等かそれより簡単になるとオモ

325:デフォルトの名無しさん
07/02/24 02:29:41
>>324
それは将棋というゲームのルールですかという疑問

つか、将棋の話はストップ 続きは>>321で。

326:デフォルトの名無しさん
07/02/24 02:55:21
馬鹿にかまってスレを無駄に消費するより
NG登録しましょう


327:デフォルトの名無しさん
07/02/25 01:59:16
表か裏かの情報なんてせいぜい1ビットのフラグで表せるし、その程度の
情報が増えるくらいのことを状態爆発とは言わない

どんだけ効率の悪いコード書いてるんだよ

328:デフォルトの名無しさん
07/02/25 02:04:28
いやフラグとか記述方法とかそういう問題ではないんだけど、ひょっとしてプログラムとか書いた事ない?

329:デフォルトの名無しさん
07/02/25 02:10:33
いやそれはお前だろ
たとえば歩を成らずに進める可能性を考慮してどれだけ状態が増えるんだよ
前にしか進まないだろ

330:デフォルトの名無しさん
07/02/25 02:44:09
マジで逝ってるのか…

331:デフォルトの名無しさん
07/02/25 02:47:23
それともお前の脳内ルール上の歩は斜め後ろにでも移動できるのか


332:デフォルトの名無しさん
07/02/25 02:48:49
だからそういう問題じゃないって…

333:デフォルトの名無しさん
07/02/25 02:52:26
たとえばRPGのキャラクタは経験値という状態を表すだけで16777216種類のデータが必要か?
それがわからないならプログラム向いてないよ。



334:デフォルトの名無しさん
07/02/25 02:57:48
だからデータ量の問題じゃないって…アルゴリズム計算量が見積もれない方がよっぽどヤバイと思われ

335:デフォルトの名無しさん
07/02/25 02:59:41
327はこの手のプログラムを書いたことが無いんだよ。

336:デフォルトの名無しさん
07/02/25 03:04:20
アルゴリズム計算量が、歩を成らずに進めた場合を想定すると、しない場合に比べて
どれだけ上がるのか説明してみてくれ

337:デフォルトの名無しさん
07/02/25 03:17:09
所詮口だけか(笑)


338:デフォルトの名無しさん
07/02/25 03:25:06
自分がアホなこと逝ってる所為だとは思わないのか
FSMを構成してみればわかるだろが

339:デフォルトの名無しさん
07/02/25 03:34:19
真性アフォがいると聞いて飛んできました。

340:デフォルトの名無しさん
07/02/25 03:40:55
歩ってかならず成らないとダメじゃなかったっけ?

341:デフォルトの名無しさん
07/02/25 03:48:35
ダメじゃない
ただ歩は成っておいた方が状態数(選択肢)が増やせるし、成った事によるpruningも発生しない

342:デフォルトの名無しさん
07/02/25 03:55:08
わかってるじゃないか。
成らない可能性を考慮しようがするまいが大して状態数は増えないんだろ結局。

343:デフォルトの名無しさん
07/02/25 04:03:23
個々の駒の動き自体は元々チェスより少ないくらいだ
持ち駒という概念が状態数を爆発させる最大の要因であって
成って損のない駒が成るか成らないかなんてことに拘る方がアホ


344:デフォルトの名無しさん
07/02/25 04:10:06
なんか成りあがれるのが歩だけだと思ってるのか、このアホは?

345:デフォルトの名無しさん
07/02/25 04:17:58
成らないほうがいいこともある駒は銀桂香くらいだが?
駒の復活による計算量の爆発に比べれば遙かに小さい

見積もりも出来てないのはお前だろアホ


346:デフォルトの名無しさん
07/02/25 04:23:41
>駒の復活による計算量の爆発に比べれば遙かに小さい

だから何?

347:デフォルトの名無しさん
07/02/25 04:24:50
チェスのQueenよりも表裏の2状態がある飛車や角の方が
とれる動き方の状態が多いとが本気で思ってそうだなこの馬鹿


348:デフォルトの名無しさん
07/02/25 04:29:35
飛角歩を不成とするようなのは最初から定石パターンからは除外される
素人はこれ以上反論しても無駄だからオムツ替えて寝ろ


349:デフォルトの名無しさん
07/02/25 04:45:06
駒の動かし方しか考えてなさそうなんだけど、もういいや寝るよ

350:デフォルトの名無しさん
07/02/25 04:56:38
GKの内ゲバスレはここですか?

将棋の探索アルゴリズムを本当に複雑化させてるのは持ち駒を打つとき。
持ち駒というやつは盤上の空きのどこにでも打てる(歩・香・桂馬には若干の制限がある)
盤上の駒を動かすより遙かにオーダに大きい。
成ると駒の動き方が変わることなんて問題としちゃ小さい小さい

351:デフォルトの名無しさん
07/02/25 05:14:26
チェスは駒がどんどん減っていくから次の手はどんどん無くなっていくし
オセロも置ける場所が減っていく。白黒合わせて60手までで必ず終わる。

将棋は局面が進んでも盤上に取った駒を復活させることができるからなかなか収束しない。
だから将棋のアルゴリズムは、定石パターンと照らし合わせて絞り込むことが重要になる。

愚直に総当たり検索なんてやってたらいくらリソースあっても足りない。
削れる枝は大胆に削るのが鉄則。

表か裏かでいちいち状態数云々考える時点でアルゴリズムのセンスなし。


352:デフォルトの名無しさん
07/02/25 05:17:18
そんなこと以前にSPE+LSじゃ探索なんて出来ねーよ。
既存のソースは使い物にならないし
かといってPS3向けに最適化する暇人もいないだろう。

353:デフォルトの名無しさん
07/02/25 05:39:08
結論:みんな口だけ

354:デフォルトの名無しさん
07/02/25 05:51:29
PPE単体でもCele600MHzくらいのパフォーマンスは有りそうだし
少ないとは言っても200MBくらいのメモリは使えるんだし
PCの数年前の将棋ソフトくらいに匹敵する強さにはなるだろう。

355:デフォルトの名無しさん
07/02/25 11:35:29
>>352
まぁ考え方は根本的に変えなけりゃダメだろうな。
たとえば局面評価にしても、ここがこうだから何点などという手続き的な
やり方じゃなく、ひとつの評価関数(どんな複雑なものになるかわからんが)に
落とし込んで、整数条件を緩和して上界を求める、とか。

356:デフォルトの名無しさん
07/02/25 14:07:48
そこでモンテカルロ将棋ですよ

357:デフォルトの名無しさん
07/02/25 19:54:50
やっぱりここは最良優先探索だろう
PPEでキューを管理して
SPEで次のノード探索タスクを並列して実行すれば
幅も深さも適当な探索ができる気がする

358:デフォルトの名無しさん
07/02/26 00:44:12
将棋も将棋のソフトも全然わかんないんだけど、演算速度が例えば100倍早いと
つよくなるものなの?処理に使える時間が重要?覚えておくパターン数が重要?

359:デフォルトの名無しさん
07/02/26 02:55:03
思考時間が無限にかかるCPUは最弱といわれるだろうから
当然短時間でより多くの処理ができる方が強いということになるだろうな。

まあメモリ640kbのZ80マシンでも将棋ソフトは作れたんだしなんかは作れるだろ。

360:デフォルトの名無しさん
07/02/26 04:26:30
ちょっとまて
普通の将棋には制限時間というものがあるお

361:デフォルトの名無しさん
07/02/26 04:57:44
そうなんだ。ググレカスです。わたしは。

362:デフォルトの名無しさん
07/02/26 20:56:43
普通の将棋ってのが公式のなんかルールですかね。
時間制限ありでやったことはほとんどないんでわからんですよ。

363:デフォルトの名無しさん
07/02/26 23:54:22
第17回世界コンピュータ将棋選手権 URLリンク(www.computer-shogi.org)
の場合「持ち時間は25分とする」とルールに書いてある

364:デフォルトの名無しさん
07/02/27 00:58:27
世界コンピュータ将棋選手権に PS3 で参加!とか格好いいな

365:デフォルトの名無しさん
07/02/27 04:35:48
それで優勝したらもう大変

366:デフォルトの名無しさん
07/02/27 04:49:23
次スレは将棋板でおk?

367:デフォルトの名無しさん
07/02/27 05:45:45
CellがintelやらAMDやらのCPUに将棋で勝ったら、もう失敗作だとゲハで
叩かれないですむだろうか(涙)

368:デフォルトの名無しさん
07/02/27 09:18:14
ゲハがいくら頑張ってもここの連中には効かないというか
そんなところに当たり判定は無いというか。

369:デフォルトの名無しさん
07/02/27 10:28:54
頑張って俺様スパコンしてるのだろうから、あまり可哀想なこと言うなよ。

370:デフォルトの名無しさん
07/02/28 02:29:37
同じプログラム使えばより強くなるんでは。8コアだし。

371:デフォルトの名無しさん
07/02/28 03:40:05
SPEはそれなりに考えて組まないとパフォーマンスを発揮できないが、Core2辺りだと
Intelコンパイラ使って何も考えなくてもパフォーマンスが得られることもあるからなぁ。

372:デフォルトの名無しさん
07/02/28 08:30:47


373:デフォルトの名無しさん
07/02/28 11:45:30
共有メモリじゃないからマルチスレッドと言ってもコードは大違い<CELL

374:デフォルトの名無しさん
07/02/28 16:59:30
マルチスレッドは普通メモリ共有してるものだけを指すんじゃね。
奇天烈なCellプログラミングは最早マルチプロセスだと思う。

375:デフォルトの名無しさん
07/03/01 01:11:17
すげーガイめっけ
URLリンク(moss.csc.ncsu.edu)

376:ps3cluster
07/03/01 01:38:35
さて、ps3クラスタをのんびり〜つくリはじめてみようと思います。
目標はクラスタで大規模数値計算。
計算はニューラルネット。単体で動かす分は大体できた。



377:ps3cluster
07/03/01 01:46:15
ニューラルネットを作るのもいろいろ、紆余曲折がありました。
一番やっかいだったのはコア間の同期と通信。
送ったはずなのにたま〜にとどいてなくて、悩んで数日。
メモリの一貫性(というのか?)を身をもって体験しました…。

378:ps3cluster
07/03/01 01:56:18
他にもいろいろ面白いことが。
最適化の作業ってはじめての経験でしたが、ループアンロールというのを
やってみたところ、ある部分ではもんすごいはやく(大体8倍)なって、びっくり。

あとどうしてもスカラで分岐でしかかけないところがあって、やっぱり遅くて
ここも将来何とかできないかなあとは思ってます。


次ページ
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

5370日前に更新/102 KB
担当:undef