【オセロ,将棋】ボードゲーム Part3【囲碁,War】

【オセロ,将棋】ボードゲーム Part3【囲碁,War】 at GAMEDEV

[前50を表示]
100:535
20/02/10 20:30:44.20 RVFxecd9.net
軽く計算してみたけど8TBのHDDをもってしても12～13手くらいしか全記憶できないっぽいな
うーむ

101:535
20/02/10 21:09:48.48 RVFxecd9.net
盤面情報と勝率情報をテーブル分けてidでjoinする方向で検討。
親子関係もテーブルに持つようにするかも。

102:310
20/02/10 21:49:59.84 88R3xHqQ.net
F5f6の筋また死亡。
死亡復活を繰り返して３回目くらいに復活安定した筋もあるので、まだまだかかるかも（汗
というか、こういう作業が面倒臭い。

103:535
20/02/11 15:02:56.99 5mcWafyZ.net
C++からpostgre sqlにテストデータを1件登録することに成功した。
夢が広がるなぁ

104:535
20/02/11 19:46:16.02 5mcWafyZ.net
テーブル定義は段々固まってきたけどどういう順序で探索ツリーを展開するか一番肝心なところが決まってない。

105:535
20/02/11 21:32:51.43 5mcWafyZ.net
探索が進むほど有望な局面を選択できるようにしたいがやはりMCTS系の探索だろうか？

106:310
20/02/11 21:43:38.70 gp4irkBy.net
F5f6の筋復活（汗
その代わり、F5d6E6f4とF5f6E6d6（対称形）に差が出てきて、評価値がずれた。
F5f6E6d6の棋譜をすべてF5f6E6f4に変換して、Bookにはf4系とd6系の２種類登録
しているので、ここの間では差が生じないが、例えばF5f4E3～の筋からたまたま
F5d6E6d6とかに合流してくると、その棋譜については対称変換しないので、差が
生じてしまうという事になるかなと気が付いて、対称変換で差が生じている棋譜を
Bookから逆生成してみたところ結構な件数が…というか、ざっくり見積もって既に
３万件超え。どうやって復旧するか悩むところ。というか、おそらくこれやったらまた
F5f6の筋が死亡しそうな予感。これから対策を考えます。むむむ。
そのほか、部分的に遡って完全読み切りした時に、そこまでたどり着いていない
筋の方が良い評価値になってしまうという、Bookに生じる矛盾を解消する処理を追加。
こちらは結構綺麗にできた。

107:310
20/02/12 00:35:06 Gx8MvMLI.net
対称形の合流問題、一応のプログラムできた…と思う。

ロジック的には色々なやり方があるのだけど、処理時間とどこまでやるのかという
ところが悩みどころ。今のままで動かすか、どうするか。

ちょっと悩みたいので一旦ペンディング。

108:310
20/02/12 22:15:37 Gx8MvMLI.net
一晩寝かしてプログラム破棄（汗

もともとある対称盤面の処理ロジックを生かして、F5筋しかない棋譜をC4/D3/E6に
対称変換する事で、根本的に解決しようという方向になりました。副作用はBookが
４倍に膨れるのと、F5スタート限定だった評価関数のエラーがいったん大きくなって
しまうために、学習しなおさなければならない事です。

やってみたら、Bookサイズでかすぎてメモリーギリギリ。仕方がないので６０手目まで
作っていたBookを４０手目までに限定。あと敢えて残して（意図的に作って）あった、
２４手目以降のベストではない分岐も別途保存して一回削除しました。

メモリ６４G以上欲しい…。スレッドは１６くらいで十分なので。

109:535
20/02/12 23:03:00 OxY0+llC.net
メモリ欲しいですよね～。

110:535
20/02/12 23:12:45.08 OxY0+llC.net
Ryzen Threadripper 3990Xに最適化したDDR4-3600 256GBメモリキットがG.SKILLから
URLﾘﾝｸ(www.gdm.or.jp)

111:535
20/02/13 20:29:06.20 t0qxkX+C.net
今更だけど、メモリよりHDDのほうがでかいわけだが、全部メモリに乗らないとするとどうやってプログラム組めばいいか悩ましいな。
ホント今更だけど。

112:310
20/02/15 00:33:20.86 aU7p7RKo.net
スピードが必要な部分はメモリーに無いといかんわけで。
今は探索でBookを参照しているので、Bookアクセスには速度が必要なわけで。
Bookは重要だけど棋譜は既に重要ではないわけで。
棋譜はSDDに移そうかなと思っていたりします。
どうせ要所要所で保存しているわけだし、都度読み込めばみたいな。
（HDDは遅すぎるので論外かと）
ただ…今のロジックがメモリー前提なのと、棋譜ですら読み込みに数秒かかる
状態なので、できればメモリーに置いときたい。そもそも、大した容量じゃないし。
自分の場合、本体でBook読み込むのと、同時にZebraと突き合わせながら間違い
箇所探しで掘り進める用に、Bookを確認するプログラムも同時に動かしていて、
そちらでも同じサイズのBookを読み込まざるを得ないので、16Gのメモリーが
あっても、半分くらいに抑えておかないといけないという問題があります。
頭の片隅にバイナリファイルのランダムアクセスってのがちょこっとだけありますが、
それって自分用DBを作るようなものなので、悩み中。とはいえ、最終的にもしオセロ
の対戦プログラムにするのなら、今ほど探索時間気にするわけでもなし、動作環境
として要求するメモリー量が大きすぎるのもなんだかなぁと思っていたりもします。

113:310
20/02/15 00:35:39.59 aU7p7RKo.net
そんな事より、対称形サポートして棋譜作っていたら、またF5f6系が全滅して
途方に暮れていたところで、知らぬ間に復活していたり。間違い可能性高い
パブリックドロー筋が復活したと思ったら、またダメだったり。
まだ棋譜作成が足りていないという事実に直面しています。

114:310
20/02/18 00:26:29.87 xu5XdmKn.net
対称形サポートでBookはだいぶ良くなって来た感じですが、完全読み切りの探索時間
が遅くなった。まだ新しい教師データに対して学習不足なんだと思いますが、どこまで
復活するか。
残り３０手読み切り時間がかかりすぎる。棋譜作成のプログラムの方は、ほぼ出来上
がってしまったので、動作具合を見ているだけになっている。何か探索高速化のネタは
無いものか。
PC一つ買って、そちらでオセロの棋譜作成させながら、別の何かの開発を始める時な
のかも知れない。

115:535
20/02/18 00:27:41.65 kv2P7/8Y.net
とりあえずモンテカルロ1000poで10～50手打ち進めてその局面で100000po回して結果の黒番の勝利回数、スコアの合計を収集するプログラムを作成。
あんまりいい方法じゃないとはおもうけどこれだというアイディアもないしこれで一回やってみます。

116:535
20/02/18 21:44:13 kv2P7/8Y.net
マシンパワー欲しいすな。
3990xでも足りないかも。

アルゴリズム見直せと言われそうだが。

117:535
20/02/18 22:28:54 kv2P7/8Y.net
まーでも310さんも言ってるけど計算にマシン取られるとヒマですね。
AWSとか使うのも面白いかもしれないけどいかんせん金が…

118:535
20/02/20 18:12:42.14 YadOsXz6.net
夜中動かすとファンがうるさくてねれないorz
やっぱaws…
でも金が…

119:535
20/02/20 20:15:56.39 BvOV7XJR.net
でもまあ、コロナでいつポックリいくともわからないならいっそ3990x買っちゃうってのも考えようによってはなくなないな。

120:310
20/02/20 22:03:32.96 KuvbYeZk.net
たぶん感染経路不明な感染者が１０００人超えたらテレビも飽きてきて
めっきり話題にならなくると思うなｗ

121:535
20/02/20 22:44:26.40 BvOV7XJR.net
70499種類の盤面のモンテカルロ勝率スコアデータが取れました。
これをもとにDNNをトレーニングしてみます。

122:535
20/02/21 21:02:31 /4d3LiPl.net
やっぱ素のモンテカルロに勝てない！！！
どうしてなんだ…

123:535
20/02/21 22:56:34.67 /4d3LiPl.net
単に白番有利説が急浮上ｗｗｗ

124:535
20/02/22 00:47:13.32 j5uEDLd9.net
いや、ちがうっぽい。
うーん。

125:535
20/02/22 17:03:42.93 j5uEDLd9.net
キター！素のモンテカルロに勝ち越しました！
黒番　31勝20敗
白番　32勝19敗

126:535
20/02/22 20:31:10 j5uEDLd9.net
モンテカルロが間違える局面で間違いを訂正してそれをDNNに学習させる方法ないかなぁ

127:310
20/02/22 21:32:51.12 wHsEFeMN.net
間違える局面が特定できているて、間違えた手を訂正できるんなら、
訂正後から対戦再開させて、その棋譜で局面DB更新して、学習するとか。
特定できていなくても、基本強化学習は、対戦→DB更新＆学習の
繰り返しで、徐々に間違いを訂正していく方法。もうちょっと工夫する
ならε-Greedyなどの手法で既存の棋譜の途中で無理やり別の手に
分岐させていく。その手が悪くても、「悪い手である」という認識を学習
させる事ができる。
線形計画だとモデルが上手くできていないと学習が飽和しちゃうけど、
DNNだったらある程度うまく学習してくれるかも。

128:535
20/02/22 21:53:22.17 j5uEDLd9.net
>>127
特定も訂正も現状できてないですね。
それよりひどいバグを発見して >>115で取ったデータが全て台無しになる可能性が…

129:535
20/02/22 22:00:44.31 j5uEDLd9.net
あかん、なんか全然おかしいorz
ちゃんと見直さないと…

130:535
20/02/22 22:22:49.38 j5uEDLd9.net
データ取りからやり直しますorzorzorz

131:310
20/02/23 00:56:57.70 9FygPBnT.net
間違い探しを続けるうちに、何故Zebraの評価値の方がまともに見えるか問題に
突き当りました。で、評価関数を手数毎に６０種類に分割している事で、学習データ
が不足しているとか、スムージングしていないために、２手前の自分の番の盤面との
差分が取れないとかの問題があるのかなぁと思い立ちまして…。
また、４対称採用した事で学習時間も４倍になってしまいまして…。
思い切って、評価関数を１つにまとめてみたらどうだろうと思い立って、専用の学習
プロジェクトを作ってやってみました。通常数百回学習しないとまともな学習ができ
ないのですが、２０回学習したところで、意外とフィットしてしまいました。学習時間も
少し減ってる気がする。
一旦評価関数の癖を変えたほうが強化学習も進むかなと思い、とりあえず本番採用
してみました。気持ち速度も速くなった気がしています。もっとも、評価関数の学習具合
によってαβのorderingも変わって速度が変わったりするので、今後学習を積み重ね
て、過学習気味になったりした時にどうなるのかは不明。
これから数日動かしてみて、良かったらこっちにしようかと思います。強いオセロAIを
作るのなら、対戦してどっちが強いとかやるのが本来なのですが、特にそういう目標も
現状あるわけでなし（汗

132:310
20/02/23 01:08:08.23 9FygPBnT.net
>>127に捕捉しとくと、
自分はGreedyな手法の精度をあげるために、浅い探索（９手）と組み合わせて、
評価値が少しだけ悪い手とか、Book登録ないのに評価値が良いとか、いくつかの
基準の訂正ロジックを作って、明らかに悪い手を排除したGreedy法をとって、
既存の棋譜に対して順次分岐を生成していく事で、Bookを埋めて行っています。
分岐は１３手読みで作成していますが、この分岐も間違いがそれなりにあるため、
間違いを積み上げているのではないかという懸念もあります（汗
オセロの場合、黒白両者とも最善の場合、引き分けに収束する可能性が濃厚なため
初手から最善引き分けとなるツリーについては、先頭側からこのGreedy法で分岐を
生成し、また（後ろから）確定読み切りを優先して実行する事で、引き分け手順だけ
優先的に精度を上げています。
評価関数作るのに、こういう制約をつけた方法が良いのかは不明です。現に極端に
形勢が傾いた盤面の読み切りは、学習データが不足しているために、引き分け盤面
よりずっと時間がかかるように感じています。

133:310
20/02/23 03:01:39.99 9FygPBnT.net
げげ。>>131の奴、本番に入れて学習させたらうまく動かん…。
原因箇所は特定できたけど、そもそもBook分だけで学習していて、後半の棋譜から
教師データ作ってなかったので、件数が大幅に違う。後ろ１５手分が抜けている。
が、これが入ると学習の途中で無限ループに入ってしまう。
何かのオーバフローなんだと思うけど、今は原因不明orz

134:310
20/02/23 10:00:35.35 9FygPBnT.net
たぶんなおった。
学習の進行具合インジケータの＊印の数を作るところでオーバーフローして
延々と＊を表示し続けてるだけだったｗ
こういうところで適当にint使っているのがいかん。
と、怪しそうなところをsize_tに直したら、整合性が取れなくなってワーニングの嵐ｗ
適当にsize_tにすればよいというものでもなかったｗ

135:535
20/02/23 22:36:15.39 xJvwRHu1.net
オーバーフローが嫌だからついlong longを使ってしまうｗ
メモリ余計に食うけど。

136:535
20/02/24 18:53:46 S84dSY4F.net
タイルゲーム、完全解析した後でもそれなりに楽しめる不思議。自力では勝てないからな。
そういやconnect4より複雑で完全解析されててネットで遊べるゲームってなにかあるのかな？

137:535
20/02/25 20:37:07.39 10rOW9ls.net
データ取りなおしたので再度DNN学習させてみます。
ついでにネットワーク少し大きくしてみます。

138:535
20/02/26 20:24:56 LbNvrAvP.net
なんかDNNほぼ最悪の手を打つんだが…
真逆の学習させちまったか？

139:535
20/02/26 20:40:14 LbNvrAvP.net
試しに評価値に*-1してみたがやっぱり悪い手を打つ。
真逆ってわけでもないのか？
わけわからん

140:535
20/02/26 20:50:37.02 LbNvrAvP.net
モンテカルロ木探索の部分が間違ってたっぽい

141:535
20/02/26 21:22:57 LbNvrAvP.net
うーん、なんかアルファ碁Leeみたいに、数手前の手順を学習データとして食わせるといいかもなぁ。
石がぶつかってる時の判断がちょっとおかしいんだよなぁ

142:535
20/02/26 21:35:19 LbNvrAvP.net
もうヒューリスティックもモリモリ入れちゃおうかなぁ

143:535
20/02/27 19:12:50 7f4H7cqb.net
お、微妙に勝ち越している。
でも微妙すぎｗ

144:535
20/02/27 21:11:32 7f4H7cqb.net
先制攻撃を仕掛ける体制が整っているかどうかの判定が今後の課題ですね。

145:535
20/03/01 21:57:12 X+Ti9n7n.net
先制攻撃を仕掛けた時に反撃で逆に取られる確率とか学習させたら駄目かなぁ？

146:535
20/03/02 06:27:35.74 Td8MIT1I.net
ある局面に対し、それぞれの点が黒の地になる確率のベクタを返すようにDNNを学習したらどうだろう？

147:535
20/03/03 21:11:27.98 PL4UDoSq.net
前回はスコア差を評価値に学習させましたが、今回は勝率で学習させてみます。
結局セオリー通りがいいのかもしれないので。
ホントはスコア最大化はぜひともやりたいんだけど。

148:535
20/03/04 20:23:35.42 Q7ItuMwb.net
勝率で学習させたら黒番は勝ち越してますが、白番は負け越してますね。
白番でも勝てると思いましたが。

149:535
20/03/04 20:44:28.42 Q7ItuMwb.net
うお、バグ発見ｗ
DNNが全く働いてなかったｗｗ
黒番で勝ち越したのはたまたまやなこれは。

150:535
20/03/04 21:10:05 Q7ItuMwb.net
うーん、石をくっつけて打つなぁ
もっとばらけさせたほうがいいと思うんだけど。

151:535
20/03/04 21:14:38 Q7ItuMwb.net
うーん、石がくっついているか離れているか標準偏差のようなものを出して学習パラメータに渡すとか

152:535
20/03/04 21:17:15 Q7ItuMwb.net
ホントはあんま手動で特徴量出そうとするのよくないアイディアなんだろうけど。

153:535
20/03/04 21:43:12 Q7ItuMwb.net
結局モンテカルロの勝率データだけだとだめっぽくて、いろんな戦略の中からより良いものを探すようにしたいなぁ

154:535
20/03/04 22:34:42 Q7ItuMwb.net
あれ、黒番、白番ともダブルスコアで勝ち越してる？？
まだ対局数少ないからあれだけど。

155:310
20/03/04 22:39:44.37 XCbeW9Ri.net
自分は、最近、学習効率アップさせようと入れていたヒューリスティックなロジックは
見つけ次第外す方向だったりします。
棋譜作成の元ネタだけは、結構たくさん手動で追加していますが、見つけ次第追加
みたいなやり方で、偏りが出そうな気がするのと、手動追加だと入力ミスも結構あって
面倒なので、どこかで後続棋譜が少ない手順を順次自動で追加していくようにしちゃ
おうかなと思ったりしています。ただ、本当に見てるだけになっちゃうのがちょっと嫌。
そんな事より、棋譜作成のペースが速すぎて、逆順での読み切り（スコア確定）が
追い付かない。

156:535
20/03/05 20:28:15.73 P4JeNRVF.net
黒番 188勝 48敗
白番 176勝 55敗
めっちゃ勝ってる！！

157:535
20/03/05 20:45:33.61 P4JeNRVF.net
結局ポスグレ全く使ってないというｗ
ま、当面ポスグレは保留かなぁ

158:535
20/03/05 21:05:27 P4JeNRVF.net
とりあえず、この新しいAIで勝率データ取りなおして更に学習させるスパイラルへもっていくか。

159:535
20/03/06 20:19:27.94 1GJjUnMY.net
うお、人間(俺)に勝った!
まぐれっぽいけど

160:310
20/03/06 21:29:36.82 76Zol1eh.net
小人閑居して不善をなす…
評価関数の学習周りをいじっていたら、学習エラーが大きく（４～５倍）なってしまった。
オプティマイザーをAdamにしてみたのが悪かったのか（バグ？）、それとも他にいじった
ところが悪かったのか。オプティマイザーを戻して、追加学習してみたけど、全然もとに
戻らない。
と言いながら、色々と溜まっていた懸案も機能追加してしまった。
結局、どうにも直らないのでウェイトを一旦クリアしてRMSpropで再学習してる最中です。
明日の朝にはまともになっているかなぁ。

161:310
20/03/06 21:39:02.84 76Zol1eh.net
行列パッケージEigenにユーザ拡張のサポート無し機能がいくつか追加されていて、
その中にTensorクラスがある事に気づいた。
速度は期待できないけど、もう一度DCNNやってみようかなぁ。
つか、もう一台PCがあれば、棋譜が既にあるので、テストできるんだよなぁ。

162:310
20/03/06 22:53:37 76Zol1eh.net
RMSpropで一から学習しなおしで、もうすぐ２０エポックだけど、順調な感じ。
前回同様２０回＋αも回せば結構よいところに行きそうな感じ。

おかしかった時は、もともとの場所から離れて、変な局所解にトラップされていた
ような感じになっていたんだよなぁ。現状のAdamのコードにバグがあるのか調べ
たいけど、もともと参考にしたサイトが見つからない。今見つかるやつはChainerの
類の疑似コードらしく、ちょっとやそっとでは解読できないレベルの記号の羅列orz

163:535
20/03/07 01:06:05 NIcvsU6/.net
モンテカルロ＋ヒューリスティックAIにも勝利！！
いい感じだ。

164:535
20/03/07 21:53:01 NIcvsU6/.net
あーもう、計算時間かかりすぎ！
あと3～4日は計算回さないとデータが集まらない。

こんなときスレッドリッパー3990xがあれば…

165:535
20/03/07 22:30:53.08 NIcvsU6/.net
ぶっちゃけ1週間かかる計算が1日で終わるとしたら3990x買うのもありなんじゃないか…？？？
金がないけど。

166:310
20/03/07 22:53:18 6tZRBA6n.net
まあまあ。

自分は棋譜作成開始して、既に数年経ってる気がする（汗
途中データ飛んだりしているから、実際はもっと長い。

だんだんコツがわかって収集速度は加速的に高速化してきているけど、
今度はメモリー溢れが恐怖。

167:535
20/03/10 21:38:55.27 IkE5Ol6x.net
データもぼちぼち溜まったしDNN学習に移ります。

168:310
20/03/11 19:25:55.84 N0CjcdIm.net
Eigen UnsupportedのTensorクラスを見つけて、またぞろDCNNに興味が沸いて来ま
した。で、思い出しがてらウェブを眺めていました。前回断念したのは畳み込み層の
計算を行列で行うためのim2colのロジックを高速に行う方法が見つからなかったから
だと思い出しました（汗
しかし、気が付いてしまいました。所詮８×８のマスの定型変換で、汎用性いらないので
６４ビットのローテーションとマスク値とのandというビット演算で、前処理ができてしまい
ます。そのあとで行列に変換すれば良いだけの事でした。つまりim2col関数はいらん。
もう少しDCNNの最新動向をフォローしてから、同じ棋譜を学習させて試してみたいと
思います。

169:535
20/03/11 20:59:47.72 kvcp7+Sq.net
DNN学習、損失もいい感じで減ってきました。
素のモンテカルロとの対戦に移ります。

170:535
20/03/11 21:02:33.51 kvcp7+Sq.net
実を言えば私は畳み込みはやってないんですな。
全結合でやってます。

171:535
20/03/11 21:13:45.28 kvcp7+Sq.net
お、
黒番 7勝2敗
白番 9勝0敗
これは期待が高まる！！！

172:535
20/03/11 22:57:19.64 kvcp7+Sq.net
黒番 22勝3敗
白番 20勝5敗
いいね～いいね～

173:535
20/03/11 23:19:03.17 kvcp7+Sq.net
そろそろソースコードのバージョン管理とかやったほうがいいのかなぁ
GitHubとか

174:310
20/03/12 00:31:25.32 CNvjXxHZ.net
GitHubとかよーわからんのだけど、コメント適当だったり、変数や関数名の英語が
変だったりするソース公開する度胸ないのを言い訳に、調べようとしていない（汗

175:名前は開発中のものです。
20/03/12 00:34:39.55 TwK5c7NK.net
プライベートプロジェクトにすればいい。昔はパブリックだけプロジェクト数無制限だったけど今はプライベートも無制限。

176:310
20/03/12 00:39:06 CNvjXxHZ.net
情報ありがとうございます。
ちと調べてみます。

前みたいにソースもデータも丸ごと飛んだら困るので。

177:名前は開発中のものです。
20/03/12 10:02:43.61 c8m7GwVr.net
GitHubの前にGitを使おう
使えるようになってからでいいよ、GitHubは

178:535
20/03/12 19:58:09.43 so1xRnaL.net
ありゃ、
黒番111勝 29敗
白番105勝 33敗
おもったほどじゃなかったorz

179:535
20/03/13 22:42:10.14 vmr0Tb8m.net
業を煮やしてヒューリスティックを実装した。
さてどうなるか。

180:535
20/03/13 23:28:51.32 vmr0Tb8m.net
ちなみにヒューリスティックの内容は石がぶつかってないときは相手の石からも自分の石からも一間以上離して打つというもの。

181:535
20/03/14 18:49:30.64 z7EfFQTc.net
くそーうまく行かねー

182:535
20/03/14 23:30:28.50 z7EfFQTc.net
あーなんか気が抜けちゃったな
次のアイディアもないし

183:310
20/03/16 00:36:34.84 FpZgJFeI.net
しばらくは棋譜の遡りを優先しようと思っていたのですが、やっぱり暇ができると
どうしても何かやりたくなってしまい、結局序盤中盤の貪欲法絡みのブラッシュアップ
をしてしまい、またまた遡り対象の棋譜を増殖させています（汗。
DLやろうか、将棋AIの勉強しようかと思い立ち、将棋AIの本などを買い込んでつらつら
眺めていたら、実現確率探索なるものを見つけてしまいました。遷移確率は評価値の
Softmaxで作れる気がしています。現在、前方の打ち切りはProbCutでやっていますが、
途中の１つの盤面の評価値が酷い状態だと、その時点で問答無用でカット対象となって
しまう懸念があります。その点、実現確率探索の方が多少ロバストなのかなぁと。逆に、
手が広い局面では探索深さが浅くなってしまう悪影響も想定できます。
とはいえ、中盤探索のロジック自体は多少の改良で済むのですが、置換表使って中盤
探索の結果を終盤探索のオーダリングに使うところは結構修正が必要な気がします。
最悪反復深化をまるっとあきらめなきゃならないかも知れません。あと、なぜか評価値
に＋１～２程度の手番加算がついたみたいになっている事から、探索深さを揃えられ
ないと、そっちからも悪影響が出る可能性があります。
かなり大幅な変更と、テストが必要なので、ちょっと躊躇しています。
プロジェクト全体コピーして別プロジェクト建てるレベルです。むむむ。

184:535
20/03/17 21:33:11.60 7xvLqO5q.net
DNN評価値の上位7手を初手から全展開するというのをやろうとしたのですが、意外とDNNの計算が重たいですね。
すぐにメモリ溢れるだろうとみていたのですが、牛歩のような計算の進み具合で、溢れるまでかなり時間かかりそうです。

185:535
20/03/17 22:41:35.63 7xvLqO5q.net
60万局面展開するのに33分かかる。
遅い。

186:535
20/03/17 22:44:36.96 7xvLqO5q.net
DNN使わないと100万局面展開するのに4秒ｗｗｗ
うーむ

187:310
20/03/18 00:47:20.72 Wk4mfxEa.net
結局、実現確率探索に取り掛かってしまいました（汗
新規ソリューション作ってコピペ始めたところで、いずれ評価関数を整数化したかった
事を思い出して、あちこち修正開始となりました。
一応、普通のDepthバージョンと同じ深さになるように調整して、速度比較してみるつもり。

188:535
20/03/18 20:17:58.60 4pnoWutQ.net
DNNの評価値上位7手を全展開してポスグレに詰めるのを実行に移すべきかどうか迷ってる。
一応そのつもりで８TBのHDDもポスグレも用意したんだけど、あんまりいいアイディアに思えなくなってきたというか。

189:310
20/03/18 23:45:39.14 Wk4mfxEa.net
実現確率探索の中盤探索、プロトタイプのαβ版を作って癖を見ています。
実現確率は、評価値のSoftmaxで各要素を足して１．０になるように正規化するより、
最大値が１．０になるようにした方が使いやすいです。というのも、最大値をひたすら
追った枝の終了条件が綺麗に決まって最大深さを指定できるようになるからです。
１．０そのままだと終わらないので、例えば０．５にしておくと、深さｎにしたい時は１÷２＾ｎ
が閾値になります。０．１の時は１÷１０＾ｎです。まあ、なんでもよいという事です。
後は各要素の差のつき具合を決める定数を調整すると、評価値が悪い手について、
どこまで探索の深さを確保するのかが決まります。ここが職人的作業なのがネック。
絞ると爆速。∞だと、ただの全幅探索になります。
速度は結構出てるのですが、調整ミスると全くダメみたいな様子が見え隠れしていて、
本当に常に使えるのか、まだ心配です。おそらくProbCutでも同じような問題がおきて
いるんじゃないかと思いますが。
次は置換表ですが、合流が発生した時の実現確率がルートによって違うので、その
時の置換表の評価値を使って良いのか悩みどころです。また、上述のように最大探索
深さを調整できるので、反復進化的に閾値を下げて行く事が可能性です。そうすると、
反復深化的に使いたくなるのが人情ですが、オーダリングにどのように反映するのが
良いのか。これも悩みどころだったりします。
要するにあと１週間くらいは遊べそうです（笑）

190:310
20/03/18 23:56:29.62 Wk4mfxEa.net
あと、裏で棋譜作成進行中ですが、評価関数の学習時に、既存データに対する
エラーが増加を始めて、過学習の傾向を示しているのですが、例えばFFOの盤面
のように教師データ中に現れない盤面に対するエラーは減少しています。
状況的には、極端な石差がついている盤面の評価値が、石差ほどの評価値になって
おらず、じわじわと汎化が進んでいる一方、±０近傍の盤面は既に多いため、過学習
気味になっているのかなぁと推測しています。
とはいえ、非常に気持ち悪いです。
というわけで、ちょっと工夫をして石差が大きい棋譜を優先的に遡りチェック対象にしたり、
新規の自己対局するときに石差が大きくなる（悪い）進行も作るようにする事で、ほんの
少しですが、石差が大きい棋譜が増えるようにしてみました。まあ気休めです。

191:310
20/03/19 23:17:05 opMYHtHc.net
実現確率探索の中盤探索ができました。置換表と並列処理のところまでです。
反復深化→読み切り処理までです。置換表というか、オーダリング処理を結構修正。

反復深化まではそこそこ機能していますが、置換表経由で読み切り処理の高速化が
性能が出ません。置換表経由で、中盤探索の結果を用いて終盤探索のオーダリング
をするところで、置換表データの不足があったり、オーダリングの間違いが生じて、
無駄な探索をしているように思います。

とすると、これは読み切り処理を前提とすると結構致命的な問題な気がします。
もちろん、まだバグや仕様ミスの可能性もありますが。というわけで、Solver関係には
使えない可能性が出てきました。

また、評価関数で実現確率を導いているので、浅い段階での間違いに対して、探索
対象をロックしてしまいやすく、深く探索していっても間違いがなかなか改まらない
傾向が見受けられます。

まあ、仮にダメでも、新バージョンにする過程で、これまでペンディングしていた細かい
修正ができますし、既存タイプの中盤探索も作ってあるので、このまま進めてみます。

192:535
20/03/20 23:24:37.61 7lhYYUd2.net
DNNの上位7手を幅優先に展開していき200万局面を上限にストップ
展開したものをminmaxで評価値を再計算。
その結果をDNNに学習させようとしています。
ポスグレの出番はいまのところないｗ

193:310
20/03/21 02:31:57.66 XYOBIhf/.net
実現確率探索で、探索幅広げる方向の反復を試してみましたが効果はあまりなし。
単体で使用するとかなり早いのですが、置換表使った探索との相性がいまいち。
とりあえずSolverまで作って速度計測していますが、既存の反復深化より遅く、反復
深化無しよりは若干早いという感じで、単体の速度を利用して幅を思いっきり広げて
みましたが、こちらは逆に遅くなるという体たらく。
置換表周りでどこか間違いがあるのかなぁという気もしていますが、今のところ不明。
Solver周りでの活用は一旦置いといて、自己対局で使ってみる事にします。

194:535
20/03/21 17:30:57.63 cG9Ai74P.net
メモリ欲しい…
256GBくらい

195:535
20/03/21 18:19:45.50 cG9Ai74P.net
えー駄目だ負けるorz orz orz
なんで駄目なの？？？

196:535
20/03/21 18:23:26.64 cG9Ai74P.net
今回のはかなり期待してたのにorz orz orz

197:535
20/03/22 12:02:13 upkGajEt.net
棋譜見ると素のモンテカルロの動きが思っているよりずっといい。
なんでだろう？

198:310
20/03/28 00:29:51 vtZj/mQ8.net
実現確率探索というか、ソース全体見直し版が、だいたいできました。
まだデバッグ全部済んだわけではありませんが、後はログメッセージなんかの
細かいところくらいの修正かなと。

実現確率探索自体は、棋譜作成にフックを入れる感じでの使用にとどめていますが、
しばらく動かして、結果がよさそうなら切り替えようかなと思います。というか、対戦版
作るときには、中盤探索は実現確率探索で行くと思います。

で、実現確率探索と呼んでいますが、実際のところは違います。本来の実現確率は
「プロ棋譜など別途棋譜集から、よく出てくる手を回帰分析で確率化したもの」で、
よく出る手については深く探索しましょうという内容です。自分の奴は、確率を１手読み
の評価値から生成しています。１手読みにした理由は、差分計算で速く計算できる
からです。というわけで、本来は別の名前にした方が良いのですが、ネーミングセンス
が無いので放置です（笑）

他にも、本来と違う形で実装してるけど、放置してある名前が結構ありますorz

199:535
20/03/28 21:52:44.02 XqE/6uS7.net
囲碁AIでKatagoという凄く強いAIがあるのですがライフゲーム囲碁に流用できないかと思い始めた。

200:310
20/03/28 22:16:21.29 vtZj/mQ8.net
見直し版のチェックを本番やりながら進めてます。
今のところ、学習の速度が３０％程度ダウンしたものの、終盤探索の速度が
３０～５０％高速化している感じ。どちらも原因不明。

201:310
20/03/31 00:30:27 1mhY2vrp.net
見直し版で、遡りチェックで無駄な処理を見つけて直しました。
更に速度アップして、トータル５０％強の速度アップとなりました。
まだ探索自体の速度は上がってませんが、まだ無駄があったとは。

202:310
20/04/01 23:58:19.45 SRR0rDGm.net
急に探索自体の速度アップを思い立ちまして、いくつか実行。
ヒープ領域に作っていたオーダリング処理をスタック領域に来るように修正。
置換表のHash関数の修正で、置換表のキーエントリーの偏りを減らす。
これらにより更に高速化して、トータルで前バージョンの倍速近くなった感じです。
残り２６手探索処理が１時間に９０件弱→１６０件くらい。
あと、もうちょっとやってみたい事があります。

203:名前は開発中のものです。
20/04/02 03:15:04.40 iWlfdZP3.net
katago聞いたことない
alpha zeroは使わないの？

204:535
20/04/02 19:14:11.82 9cAiWeM1.net
deep mindのオリジナルのalpha zeroは公開されてないはず。
github行くとクローンがいくつかあるけど。
katagoはKGSってネット碁会所で最高段位9dで打ってる。

205:535
20/04/02 20:00:58.76 9cAiWeM1.net
でも当たり前だけどkatagoも相当高度なプログラムなので流用するのはかなり難しそう。

206:535
20/04/02 21:24:35.34 9cAiWeM1.net
あかん、やっぱkatago相当難しい。
githubから簡単そうな奴探してお茶を濁すか…

207:310
20/04/06 22:33:27 eOx9NvDZ.net
更に少し高速化しました。

オーダリングのvectorをスタック領域の配列に変更する部分ですが、並列探索部分
にも適用しました。配列も&でアドレス渡せばSTLのalgorism周りが使えるの知りました(^^;
スレッド間でのlockも他の処理と一緒にできるので、オーバーヘッドはありません。
あと、地味にセーブの時間がかかっていたので、回数減らしました。

残り２６手１０００件で１０時間半が、５時間４０～５０分くらいまで来ました。平均２０秒強。
残り２５手の読み切りができていてBookで時短しているので、まったくの新規棋譜の
読み切りはもっと遅くなります。

sort部分も何とかならないかと思いましたが、もともと３２件以下（オセロはたまたま
ですが次の手の上限は３２）は挿入ソートになっているようです。コピペで挿入ソート
を組んで、速度比較してみましたが、有意差は出ませんでした。

件数少ない時に早くかつ安定ソートな方法が他にないか調べてみようかと思います。

208:535
20/04/10 20:40:22.22 KcO1uf/C.net
今これ見てます。
URLﾘﾝｸ(github.com)
libraryをビルド通るところまで行ったんだけどpythonでそのライブラリ読み込むと以下のようなエラーになる。
K:\alpha-zero-gomoku-master\test>python library_test.py
Traceback (most recent call last):
File "library_test.py", line 6, in <module>
from library import Gomoku, MCTS
File "../build\library.py", line 15, in <module>
import _library
ImportError: DLL load failed: 指定されたモジュールが見つかりません。

209:名前は開発中のものです。
20/04/12 04:59:53.78 DFViLwjz.net
その環境の内容見てないから詳しくはわからないけど…原因は大体これ
1. 読み込もうとしているdllが適切なパスに存在してるか
2. 読み込むdllは64bitか32bitか（ビルド構成と一致していないとダメ

210:535
20/04/12 10:52:42 lk7abFDy.net
32bitか64bitかは64bitしか選べないみたいです。
適切なパスに存在しているかというのはどうやってしらべればよいでしょうか。
library.pyと_library.pydをカレントディレクトリに置いたりもしてみたのですが駄目でした。

ちなみにこれはswigというのを使っていてC++をpythonから読めるようにしているようです。
library.pyと_library.pydが生成されてlibrary.pyから_library.pydをインポートするときにこけています。

211:名前は開発中のものです。
20/04/13 02:33:11.01 q8ASrlIp.net
github見てみましたが、中国人が下で同じような質問してますね
buildディレクトリにコンパイルされたファイルを配置しないと駄目なようです
Pythonとかライブラリのバージョンも書いてあるので合わせたほうがいいかもですね
URLﾘﾝｸ(github.com)

212:535
20/04/13 20:06:39 E8a4txq0.net
ありがとうございます。
今python が3.6だったので3.7にしてみようとしたらpytorchがpipで入らず苦戦しています。

213:535
20/04/13 20:47:56.22 E8a4txq0.net
結局python 3.8.2を入れたんですが駄目っぽいorz
やっぱ無理にでも3.7にすべきか…

214:535
20/04/14 20:06:25 ezpleFZl.net
python 3.7.6を試してみましたが駄目。
pytorchももう1.1手に入らないっぽい。
手詰まりです。

215:535
20/04/14 23:01:32 ezpleFZl.net
>>208 動いたらめっちゃよさそうなんだけど悔しいな～

216:名前は開発中のものです。
20/04/15 20:25:07.80 4FzrEabb.net
Ruby なら、require/load で相対パスで指定されたときに、ファイルを検索する時の場所は、$LOAD_PATH だけど、
Python にはそういうパスが無いのか？
これで、site_ruby, vendor_ruby などが、ずらずらと表示される
ruby -e 'puts $LOAD_PATH'
Python は、よく知らないけど、import _library
で、拡張子 .pyd まで探してくれるのか？
_library.pyd

217:535
20/04/15 21:11:30 rifVao0V.net
レスありがとうございます。

ファイルを検索する場所はsys.pathというのがあるみたいです。
表示させたら以下のようになりました。

['K:\\temp\\alpha-zero-gomoku-master_orig\\test',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37\\python37.zip',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37\\DLLs',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37\\lib',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37\\lib\\site-packages',
'..\\build']

import _library.pyd はエラーになりました。

218:535
20/04/15 21:32:18.35 rifVao0V.net
ん、neural_network_test.pyは動いた。
どういうことだ？？？

219:535
20/04/15 21:34:10.97 rifVao0V.net
import libraryの前にimport torchをつければいいのか？？？もしかして

220:535
20/04/15 21:42:29.92 rifVao0V.net
うおお、動いたっぽい！！！！
ありがとうございます！！

221:535
20/04/15 21:59:07.45 rifVao0V.net
leaner_test.py train 動きました！！
GUIが起動してポチポチ自己対局を始めました！！
これは期待が高まる！！

222:535
20/04/15 22:01:14 rifVao0V.net
とりあえず、五目並べでちゃんと強くなるかどうか2～3日学習させてみます。

223:535
20/04/15 22:19:15.19 rifVao0V.net
ん、GPUの使用率が1%くらいから上がりませんね。
でも0%じゃないからちゃんと使ってんのかな…

224:535
20/04/15 22:36:14 rifVao0V.net
お、早くも石が中央に寄り始めた？？
そうだとしたら凄い。

225:535
20/04/15 22:48:39 rifVao0V.net
しかし、4すら止めないｗ。
ホントに0からの学習なんだなぁ

226:535
20/04/16 19:32:35 y39ZfUyK.net
お、凄い！たった一日で五目並べっぽくなってる！
たまにそっぽ打つのは乱数でランダムな手を打つようになってるんでしょうね。

227:名前は開発中のものです。
20/04/16 19:37:25 y39ZfUyK.net
うお、早くも人間（俺）に勝った！！
あり得ね～～～！！！

228:名前は開発中のものです。
20/04/16 19:38:07 y39ZfUyK.net
ヤバイ、これはヤバイｗｗ

229:535
20/04/16 19:40:53.49 y39ZfUyK.net
15路という非常に広い盤面でここまで早く強くなるとは…

230:535
20/04/16 19:44:25.68 y39ZfUyK.net
もう五目並べの学習は十分ですね。
となると次のステップはライフゲーム囲碁か囲連星を移植ですね。

231:535
20/04/16 19:54:51.08 y39ZfUyK.net
ライフゲーム囲碁はパスを実装しないといけないからまずは9路囲連星かなぁ

232:535
20/04/16 20:15:49.42 y39ZfUyK.net
すぐにでもコード書き始めたくなるけどぐっと我慢して >>208のソースを少し読み解かねば。。。

233:535
20/04/16 21:57:22 y39ZfUyK.net
あれ、モチベすげー湧いてくると思ったのに意外とそうでもないな…
仕事で疲れてんのかな…

234:535
20/04/18 17:12:26 FJQxs35t.net
実はライフゲーム囲碁を移植しようとしてたのですがパスの実装がやはり意外と難しそうです
9路囲連星に転進しようかな

235:535
20/04/18 20:23:03 dW+TeRwf.net
は～目の前に理想のalpha zeroがあるというのになぜかモチベが湧いてこない、踏ん張りがきかない。
さぼりモードに入りつつあるorz。
ていうか思ってるより移植が工数かかる作業なのかもしれない。

236:535
20/04/19 14:29:45.72 w4GEcYV8.net
9路囲連星はコードを消失していたので19路囲連星を移植してます。

237:535
20/04/19 17:44:45 w4GEcYV8.net
多分移植完了した。バグが無ければ。
学習フェーズへ移項します。

238:535
20/04/19 17:58:16 w4GEcYV8.net
うーん。これGUIの盤のひろさとプログラム上での盤の広さが違いますね。
まあ論理的には整合性は取れているので見た目だけの問題なので放置。

239:535
20/04/19 18:02:39 w4GEcYV8.net
まだ学習始めたばっかなので全然見当違いのところに打ちまくるの見てて切ないｗ
でもまあ、五目並べではわずか一日で人間（俺）に勝てるところまで来たのだから期待して待ちましょう。

240:535
20/04/19 18:42:21.72 w4GEcYV8.net
メモリ10GBくらい使ってる。
思ったよりでかい。

241:535
20/04/19 21:12:09.10 w4GEcYV8.net
GPUのファンが五月蠅い。
タスクマネージャーだと1%とかなのに。
タスクマネージャーじゃ使用率ちゃんと測れないのかな？

242:535
20/04/20 18:56:48 fRC4t5vc.net
強くなってないと思ったら致命的なバグがorz
勝敗データをパイソンに渡す個所にバグがあったようです。
丸一日の学習がパーorz

243:535
20/04/20 21:27:15 fRC4t5vc.net
ん、付けにははねよを覚えたっぽい？
だとしたら凄い。

244:535
20/04/21 20:44:10.63 JovHD0OJ.net
１日学習させたけど強くなってるように見えませんね
15路五目並べと19路囲連星じゃ勝手が違うか
とりあえず1週間位は粘ってみます

245:535
20/04/22 18:48:41 mXEm0GNy.net
強くなってませんね。
完全なランダムでないにせよ。
もう少し様子見します。

246:535
20/04/22 20:21:27.03 mXEm0GNy.net
は～じれったい。ハード性能があと10000倍くらいあればな～

247:535
20/04/22 20:23:13.93 mXEm0GNy.net
むしろ一生懸命７並ばないようにしているとさえ思えるｗ
バグなのかなぁ

248:310
20/04/22 20:43:03.08 ZptezZKq.net
相変わらず棋譜作成中。
プログラムはそれなりに改良しているつもりだけど、成果は全くなし。
まあ、思いついて試すのが楽しいんだけどね。
つか、逆順探索での棋譜訂正。やってるそばからあまりに間違っている筋を
見つけて、修正かける過程で、新しい棋譜どんどん増えて、バックログがどんどん
増えていく地獄になっています。まだまだ重要な分岐でも間違いというか未探索
が多すぎる。
手作業で修正箇所見つけるの面倒なので、延々やらないといけないけど、
ε-Greedy的な何か導入しようかなぁと思い始めています。

249:535
20/04/22 21:56:00 mXEm0GNy.net
お、もしかしてポン抜き覚えたか？
しかしこの学習速度で線形の速度で強くなるとしたらとてもじゃないが時間かかりすぎるが、
ある地点から爆発的に強くなったりしないのかなぁ

250:310
20/04/22 22:21:38 ZptezZKq.net
あるところまでは、間違いは間違いと学習するための時間かも知れませんね。

251:535
20/04/23 18:58:28.20 ynaVt4IB.net
うーん、少し囲連星っぽくなってきてるかなぁ？
ま、当分様子見かな。

252:535
20/04/23 21:04:31.79 ynaVt4IB.net
でもまあディープラーニングってルールも知らないネットワークが勝敗結果だけで強くなるって凄いことだよな。
人間がルール知らずに勝敗結果だけで強くなろうとしたら発狂するｗ

253:535
20/04/24 19:11:09 aNVKQhdF.net
囲連星本来の棋譜とはまだまだ程遠いけど、何かをつかみつつあるような気配がする。。。
様子見続行。

254:535
20/04/24 19:47:38 aNVKQhdF.net
あーネットワークの層増やしてみたいな。
囲連星は7目並べだから7層がちょうどよかったかも…
今デフォルトの4層でやってるんだけど。
でもいまさら後に引けないか。

255:310
20/04/24 19:50:11 wU9GyZ2x.net
DCNNなら層数よりもフィルタ数の方が大事かも。

256:535
20/04/24 19:55:02 aNVKQhdF.net
まじすか
現状でもフィルタは256（デフォルト）とかなり贅沢に使ってるんですが。。。
オリジナルの作者もフィルタ数が大事と思ったのかもしれませんね。

257:310
20/04/24 22:19:55 wU9GyZ2x.net
>>256
２５６フィルタあるんなら流石に大丈夫そうだね。

258:535
20/04/25 21:48:41.17 wwp+rt8W.net
やっぱ9路囲連星にしとけばよかったかな～
でもいまさら後に引けない…orz

259:535
20/04/26 17:31:58 73Aw05p/.net
うーむ、進むべきか引き返すべきか段々悩ましくなってきた。
まあもうちょい様子見続行か。。。

260:535
20/04/26 19:51:54 73Aw05p/.net
知性の芽生えみたいなものを全く感じないわけじゃないから打ち切るのも躊躇われるが、
いかんせん成長速度が遅いんだよなぁ。ウーム悩ましい。

261:535
20/04/27 17:44:36.98 bKact/KJ.net
囲めば石取れることはわかってるっぽいんだよなぁ
もう少し粘ろう

262:535
20/04/27 21:17:34 bKact/KJ.net
あーパソコン複数台ほしいなぁ
でも置き場所がないからなぁ
となるとAWSとかGCPとかかなぁ
でもあれ、金がやばいらしいからなぁ

263:535
20/04/27 21:37:15 bKact/KJ.net
囲連星もやりたいけど、ライフゲーム囲碁もやりたいんだよなぁ。
>>208のやつはパス実装するのが難しいからなんか別の奴探してこようかなぁ。
ルール的にはオセロのクローンから移植すればライフゲーム囲碁移植しやすいはず。

264:535
20/04/28 19:29:54.42 VfQhex7P.net
打ち筋は確かに改善されてるような気がするんだよなぁ。
ただ、あまりに上達が遅い。

265:535
20/04/28 20:06:48.30 VfQhex7P.net
何で五目並べはあんなうまく行くんだろう？
やっぱ複雑度が全然違うのだろうか？

266:535
20/04/30 18:36:10 6uxMdcsM.net
どんなに早くてもleela zeroが強くなるのに必要だったぐらいの時間はかかるのかもしれないなこれ…

267:535
20/05/02 20:07:05.00 ppsdwWbz.net
あかん、超長期戦になりそうorz
マシンパワーがあと10000倍あればorz

268:535
20/05/03 19:21:36 6By0oz27.net
らちが明かないので19路囲連星はいったん止めて9路囲連星に移行します。
でもいつかは戻ってきたい。
I shall return.

269:535
20/05/03 22:42:03 6By0oz27.net
お、9路囲連星は結構強くなるかも。
早くもランダムではない何かを感じる。

270:535
20/05/03 23:03:31.98 6By0oz27.net
もしかしたら19路囲連星は層の数が足りなかったってことなのかも。
9路囲連星は6層でやってます。
5目並べが4層でうまく行ったから7目並べの囲連星なら6層かな？と思ったのですが当たりだったかも。

271:535
20/05/03 23:32:54 6By0oz27.net
これは…
明らかに知性がある…

272:535
20/05/05 17:29:46.91 3PlXxhBg.net
おっとバグがあったorz
でもこれで行けるはず。

273:535
20/05/06 10:40:38 Oyc/dCE2.net
うおお、公式ボットに勝った～
凄い！！

274:535
20/05/06 15:40:57 Oyc/dCE2.net
しかしalpha zero てこの手のゲームの最終解答にちかいな。
単に移植しただけで既存ボットに勝つとは。

275:535
20/05/07 19:53:48 LRbJj7fv.net
学習が進んだので既存ボットと対戦してみましたが、大幅に負け越しますね。。。
過学習？

276:535
20/05/07 20:07:16 LRbJj7fv.net
うーん、わからん。層数をさらに増やして学習させてみようかな…
囲碁AIにならって20層くらい一気にいってみるかな…

277:535
20/05/07 20:19:50 LRbJj7fv.net
チャネル数　384
層数 20

の超ビッグネットワークで再挑戦します。

278:535
20/05/07 20:59:06 LRbJj7fv.net
ん、CPU使用率が上がらない？
ネットワークでかすぎたか？

279:535
20/05/07 21:03:55 LRbJj7fv.net
GPUのメモリが溢れてるっぽいorz
しょうがない、小さくするか。

280:535
20/05/07 21:25:17 LRbJj7fv.net
GTX 1080 でもメモリ足らんとかorz
気安くいってくれるぜ

281:535
20/05/07 21:27:42 LRbJj7fv.net
バッチサイズもでかくしたのまずかったっぽい

282:535
20/05/07 22:52:16.50 LRbJj7fv.net
うーん、もしかしたらCPUはあんま必要なくてGPUに金使ったほうがいいのかもしれないな。これは。

283:535
20/05/08 20:21:50 vYlFFPu/.net
層増やしたけどあんまうまく行ってないのかなぁ。
それともまだまだ学習が足りないだけなのか…

284:310
20/05/09 00:56:41.26 tOwbW1Pp.net
棋譜作成触りすぎるとなかなかはかどらなくなるので、しばし回しっぱなし。
そろそろBookが巨大化しすぎているので、メモリーからSDDに移せないか検討中。
concurrent_unordered_mapを自作した経緯があるので、同じような感じでランダム
アクセスなDB化をしてます。確定分は探索で使うのでメモリーにおいて、速度を
必要としないアクセスをDBにしようかなと。
巨大Bookの作成処理の類を並列処理にしているので、何とか並列にできないかと
色々やっていますが、色々と罠がある。複数プロセスからの並列更新はあきらめた
けど、単一プロセスからの並列更新でロック範囲がまだいまいち。
専門書買ってコード見て勉強した方が早いんだろうけど、まあ、しばらく楽しみます。

285:535
20/05/12 21:24:42.90 autiDqQV.net
1ゲームすら勝てない…
何が悪いんだ？

286:535
20/05/12 21:56:06 autiDqQV.net
いままで新旧のAIを比較するとき10戦中6勝以上でAI更新にしてたのを50戦中30勝以上で更新にしてみます。
もしかしたら試行回数が少なすぎて弱くなっていてもAI更新してたかもしれないので。

287:310
20/05/12 23:05:51.81 AcB4a3UT.net
うぬぬ。DB化は並列諦めてみたけど、やはり更新が遅すぎる。
もうちょっと工夫してみるけど。

288:535
20/05/14 19:16:54 7UgQPtyV.net
ただ待ってるだけってのもつらいな。
結果も出ないし。

289:535
20/05/15 18:59:37.53 55GCUZ0E.net
心が折れそうorz

290:535
20/05/15 19:20:34.85 55GCUZ0E.net
自己対局みてると結構強そうに見えるだけどな。
公式AIと対局すると勝てねんだよな。

291:535
20/05/15 19:53:09.72 55GCUZ0E.net
ギブアップです。
何か次のこと考えよう。

292:名前は開発中のものです。
20/05/16 11:39:42 n0PK2vlL.net
AlphaGoは計算資源をコスト度外視で使って1000年分対局してるから……

293:名前は開発中のものです。
20/05/16 15:42:40 G8tru4l4.net
IT掲示板群 URLﾘﾝｸ(x0000.net)

学術の巨大掲示板群 - アルファ・ラボ URLﾘﾝｸ(x0000.net)<)
UIライブラリ (C#, 2D) を作ったよ
URLﾘﾝｸ(x0000.net)
連続と離散を統一した！
URLﾘﾝｸ(x0000.net)
4Dエンジン
URLﾘﾝｸ(x0000.net)
matrixのライブラリ
URLﾘﾝｸ(x0000.net)
ある強力なFor関数
URLﾘﾝｸ(x0000.net)
SQLライブラリ
URLﾘﾝｸ(x0000.net)

294:535
20/05/16 18:10:49.03 BsSPHqoG.net
>>292
　　　　／￣⌒⌒ヽ
　　　 | ／￣￣￣ヽ
　　　 | |　　／　＼|
　　　　.| |　　　 ´　｀　|
　　　 (6　　　　つ　/　　　ちくしょう・・・
　　　　.| 　　/ ／⌒⌒ヽ
　　　 |　　　＼　￣ノ
　　　　 |　　　　　/￣
　 ,冖　,､　冖　　 /　／/　　　　　 ,. - ―-　､
　`,-.　-､'ヽ' └ｧ --'､　〔／　/　　＿／　　　　　　ヽ
　ヽ_'_ﾉ)_ﾉ　　 `r＝_ﾉ　　　 /　／　　　　　　,.ﾌ^ー- j
　 ,冖　,､　　　,へ　　　 /　 ,ｨ　　　　　／　　　　　　＼
　`,-.　-､'ヽ' 　く <´　　　7_／/　　　　 / 　　　 _／^　　､`､
　ヽ_'_ﾉ)_ﾉ　　　　＼>　　　　/ 　　　 /　　　／　_　､,.;j ヽ|
　　　n　　　　　「 |　　　　　/. 　　　　|　　　　 -'''"　=-{_ヽ{
　　　ｌｌ　　　　　|｜ .,ﾍ　　/　　 ,-､　　|　　,r' ／￣‐-..,ﾌ!
　　　ｌl　　　　　ヽ二ノ__　｛　　/ ﾊ `l／　 i'　i 　　＿　　｀ヽ
　　　ｌ|　　　　　　　 _| ﾞっ　￣フ.rｿ　　　　 i' l　　r'　,..二''ｧ ,ﾉ
　　　|l　　　　　　　 (,･_,ﾞ> 　／ { '　ﾉ　　　　 l　 /''"´　〈/ /
　　　ｌl　　　　　,冖　,､　 >　 >-' 　　　 ;:　|　 !　　　　i　{
　　　ｌ|　　　　`,-.　-､'ヽ' 　＼ l　　 l 　　 ;. ｌ｜　　　|　!
　　　|ｌ　　　　ヽ_'_ﾉ)_ﾉ　　ﾄー-.　　 !. 　　 ; |. | ,. -､,...､| :l
　　　ｌl　　　　　,冖　,､　|＼/　　　ｌ　　 ; l　ｉ　　 i　 | l
　　　ｌｌ　　　　`,-.　-､'ヽ' iヾ　l　　　 l　　;: ｌ｜　　{　j {
　　　|ｌ　　　　ヽ_'_ﾉ)_ﾉ　 {　　 |. 　　　ゝ　 ;:i'　｀ｰ‐-'　}
.　ｎ.　ｎ.　ｎ　　　　　　　　l　　|　　　::.　　＼ヽ､__ 　　　ﾉ
　 |!　 |! 　|!　　　　　　　　 l　 |　　　 ::. 　　　`ー-｀ニ''ﾌﾞ
　 o　 o 　o　　　　　　,へ　l　　　　　 :.　　　　　　　　　|

295:535
20/05/18 18:55:35 ErVFXYqV.net
次のアイディアもなくすっかりさぼりモード

296:310
20/05/18 21:57:15.59 lyHQ6R5E.net
Hash関数変更
DBのハッシュキーの効率が悪かったので、ちょっと考えてみた。
今まではshuffle_epi8でバイト単位シャッフルしていたのを、BMIのpextでビット単位の
シャッフルと、rotateしたものを、xorでまとめていく方法。以前よりは、ちょっと良くなった
気がする。
何をもってよくなったかの指標が欲しくなり、ネットを探索したけど、数値指標みたいなの
は見つからない。確率論の誕生日問題の反対みたいな状況なのでしばらく考えてみる。
要するに、１万人くらいの生徒がいる学校で、誰一人誕生日ではない日が何％くらい存在
するのかという類の問題です。
また、そう考えてみると、現状では直観よりかなり未使用キーが多い気がしています。
xorを繰り返してビットのオンオフをすると、いずれ立っているビット数が３２個を平均と
した正規分布（二項分布）になって、一様分布にならないのではないかという疑念が。
正規分布だと、中央に近いところは重複しやすく、立っているビット数が０とか６４とか
の出現確率が下がる事になります。xor繰り返すと正規分布に本当に近づいていくのか、
ちょっと検証してみたい。

次ページ