【オセロ,将棋】ボードゲーム Part3【囲碁,War】
at GAMEDEV
[前50を表示]
150:535
20/03/04 21:10:05 Q7ItuMwb.net
うーん、石をくっつけて打つなぁ
もっとばらけさせたほうがいいと思うんだけど。
151:535
20/03/04 21:14:38 Q7ItuMwb.net
うーん、石がくっついているか離れているか標準偏差のようなものを出して学習パラメータに渡すとか
152:535
20/03/04 21:17:15 Q7ItuMwb.net
ホントはあんま手動で特徴量出そうとするのよくないアイディアなんだろうけど。
153:535
20/03/04 21:43:12 Q7ItuMwb.net
結局モンテカルロの勝率データだけだとだめっぽくて、いろんな戦略の中からより良いものを探すようにしたいなぁ
154:535
20/03/04 22:34:42 Q7ItuMwb.net
あれ、黒番、白番ともダブルスコアで勝ち越してる??
まだ対局数少ないからあれだけど。
155:310
20/03/04 22:39:44.37 XCbeW9Ri.net
自分は、最近、学習効率アップさせようと入れていたヒューリスティックなロジックは
見つけ次第外す方向だったりします。
棋譜作成の元ネタだけは、結構たくさん手動で追加していますが、見つけ次第追加
みたいなやり方で、偏りが出そうな気がするのと、手動追加だと入力ミスも結構あって
面倒なので、どこかで後続棋譜が少ない手順を順次自動で追加していくようにしちゃ
おうかなと思ったりしています。ただ、本当に見てるだけになっちゃうのがちょっと嫌。
そんな事より、棋譜作成のペースが速すぎて、逆順での読み切り(スコア確定)が
追い付かない。
156:535
20/03/05 20:28:15.73 P4JeNRVF.net
黒番 188勝 48敗
白番 176勝 55敗
めっちゃ勝ってる!!
157:535
20/03/05 20:45:33.61 P4JeNRVF.net
結局ポスグレ全く使ってないというw
ま、当面ポスグレは保留かなぁ
158:535
20/03/05 21:05:27 P4JeNRVF.net
とりあえず、この新しいAIで勝率データ取りなおして更に学習させるスパイラルへもっていくか。
159:535
20/03/06 20:19:27.94 1GJjUnMY.net
うお、人間(俺)に勝った!
まぐれっぽいけど
160:310
20/03/06 21:29:36.82 76Zol1eh.net
小人閑居して不善をなす…
評価関数の学習周りをいじっていたら、学習エラーが大きく(4〜5倍)なってしまった。
オプティマイザーをAdamにしてみたのが悪かったのか(バグ?)、それとも他にいじった
ところが悪かったのか。オプティマイザーを戻して、追加学習してみたけど、全然もとに
戻らない。
と言いながら、色々と溜まっていた懸案も機能追加してしまった。
結局、どうにも直らないのでウェイトを一旦クリアしてRMSpropで再学習してる最中です。
明日の朝にはまともになっているかなぁ。
161:310
20/03/06 21:39:02.84 76Zol1eh.net
行列パッケージEigenにユーザ拡張のサポート無し機能がいくつか追加されていて、
その中にTensorクラスがある事に気づいた。
速度は期待できないけど、もう一度DCNNやってみようかなぁ。
つか、もう一台PCがあれば、棋譜が既にあるので、テストできるんだよなぁ。
162:310
20/03/06 22:53:37 76Zol1eh.net
RMSpropで一から学習しなおしで、もうすぐ20エポックだけど、順調な感じ。
前回同様20回+αも回せば結構よいところに行きそうな感じ。
おかしかった時は、もともとの場所から離れて、変な局所解にトラップされていた
ような感じになっていたんだよなぁ。現状のAdamのコードにバグがあるのか調べ
たいけど、もともと参考にしたサイトが見つからない。今見つかるやつはChainerの
類の疑似コードらしく、ちょっとやそっとでは解読できないレベルの記号の羅列orz
163:535
20/03/07 01:06:05 NIcvsU6/.net
モンテカルロ+ヒューリスティックAIにも勝利!!
いい感じだ。
164:535
20/03/07 21:53:01 NIcvsU6/.net
あーもう、計算時間かかりすぎ!
あと3〜4日は計算回さないとデータが集まらない。
こんなときスレッドリッパー3990xがあれば…
165:535
20/03/07 22:30:53.08 NIcvsU6/.net
ぶっちゃけ1週間かかる計算が1日で終わるとしたら3990x買うのもありなんじゃないか…???
金がないけど。
166:310
20/03/07 22:53:18 6tZRBA6n.net
まあまあ。
自分は棋譜作成開始して、既に数年経ってる気がする(汗
途中データ飛んだりしているから、実際はもっと長い。
だんだんコツがわかって収集速度は加速的に高速化してきているけど、
今度はメモリー溢れが恐怖。
167:535
20/03/10 21:38:55.27 IkE5Ol6x.net
データもぼちぼち溜まったしDNN学習に移ります。
168:310
20/03/11 19:25:55.84 N0CjcdIm.net
Eigen UnsupportedのTensorクラスを見つけて、またぞろDCNNに興味が沸いて来ま
した。で、思い出しがてらウェブを眺めていました。前回断念したのは畳み込み層の
計算を行列で行うためのim2colのロジックを高速に行う方法が見つからなかったから
だと思い出しました(汗
しかし、気が付いてしまいました。所詮8×8のマスの定型変換で、汎用性いらないので
64ビットのローテーションとマスク値とのandというビット演算で、前処理ができてしまい
ます。そのあとで行列に変換すれば良いだけの事でした。つまりim2col関数はいらん。
もう少しDCNNの最新動向をフォローしてから、同じ棋譜を学習させて試してみたいと
思います。
169:535
20/03/11 20:59:47.72 kvcp7+Sq.net
DNN学習、損失もいい感じで減ってきました。
素のモンテカルロとの対戦に移ります。
170:535
20/03/11 21:02:33.51 kvcp7+Sq.net
実を言えば私は畳み込みはやってないんですな。
全結合でやってます。
171:535
20/03/11 21:13:45.28 kvcp7+Sq.net
お、
黒番 7勝2敗
白番 9勝0敗
これは期待が高まる!!!
172:535
20/03/11 22:57:19.64 kvcp7+Sq.net
黒番 22勝3敗
白番 20勝5敗
いいね〜いいね〜
173:535
20/03/11 23:19:03.17 kvcp7+Sq.net
そろそろソースコードのバージョン管理とかやったほうがいいのかなぁ
GitHubとか
174:310
20/03/12 00:31:25.32 CNvjXxHZ.net
GitHubとかよーわからんのだけど、コメント適当だったり、変数や関数名の英語が
変だったりするソース公開する度胸ないのを言い訳に、調べようとしていない(汗
175:名前は開発中のものです。
20/03/12 00:34:39.55 TwK5c7NK.net
プライベートプロジェクトにすればいい。昔はパブリックだけプロジェクト数無制限だったけど今はプライベートも無制限。
176:310
20/03/12 00:39:06 CNvjXxHZ.net
情報ありがとうございます。
ちと調べてみます。
前みたいにソースもデータも丸ごと飛んだら困るので。
177:名前は開発中のものです。
20/03/12 10:02:43.61 c8m7GwVr.net
GitHubの前にGitを使おう
使えるようになってからでいいよ、GitHubは
178:535
20/03/12 19:58:09.43 so1xRnaL.net
ありゃ、
黒番111勝 29敗
白番105勝 33敗
おもったほどじゃなかったorz
179:535
20/03/13 22:42:10.14 vmr0Tb8m.net
業を煮やしてヒューリスティックを実装した。
さてどうなるか。
180:535
20/03/13 23:28:51.32 vmr0Tb8m.net
ちなみにヒューリスティックの内容は石がぶつかってないときは相手の石からも自分の石からも一間以上離して打つというもの。
181:535
20/03/14 18:49:30.64 z7EfFQTc.net
くそーうまく行かねー
182:535
20/03/14 23:30:28.50 z7EfFQTc.net
あーなんか気が抜けちゃったな
次のアイディアもないし
183:310
20/03/16 00:36:34.84 FpZgJFeI.net
しばらくは棋譜の遡りを優先しようと思っていたのですが、やっぱり暇ができると
どうしても何かやりたくなってしまい、結局序盤中盤の貪欲法絡みのブラッシュアップ
をしてしまい、またまた遡り対象の棋譜を増殖させています(汗。
DLやろうか、将棋AIの勉強しようかと思い立ち、将棋AIの本などを買い込んでつらつら
眺めていたら、実現確率探索なるものを見つけてしまいました。遷移確率は評価値の
Softmaxで作れる気がしています。現在、前方の打ち切りはProbCutでやっていますが、
途中の1つの盤面の評価値が酷い状態だと、その時点で問答無用でカット対象となって
しまう懸念があります。その点、実現確率探索の方が多少ロバストなのかなぁと。逆に、
手が広い局面では探索深さが浅くなってしまう悪影響も想定できます。
とはいえ、中盤探索のロジック自体は多少の改良で済むのですが、置換表使って中盤
探索の結果を終盤探索のオーダリングに使うところは結構修正が必要な気がします。
最悪反復深化をまるっとあきらめなきゃならないかも知れません。あと、なぜか評価値
に+1〜2程度の手番加算がついたみたいになっている事から、探索深さを揃えられ
ないと、そっちからも悪影響が出る可能性があります。
かなり大幅な変更と、テストが必要なので、ちょっと躊躇しています。
プロジェクト全体コピーして別プロジェクト建てるレベルです。むむむ。
184:535
20/03/17 21:33:11.60 7xvLqO5q.net
DNN評価値の上位7手を初手から全展開するというのをやろうとしたのですが、意外とDNNの計算が重たいですね。
すぐにメモリ溢れるだろうとみていたのですが、牛歩のような計算の進み具合で、溢れるまでかなり時間かかりそうです。
185:535
20/03/17 22:41:35.63 7xvLqO5q.net
60万局面展開するのに33分かかる。
遅い。
186:535
20/03/17 22:44:36.96 7xvLqO5q.net
DNN使わないと100万局面展開するのに4秒www
うーむ
187:310
20/03/18 00:47:20.72 Wk4mfxEa.net
結局、実現確率探索に取り掛かってしまいました(汗
新規ソリューション作ってコピペ始めたところで、いずれ評価関数を整数化したかった
事を思い出して、あちこち修正開始となりました。
一応、普通のDepthバージョンと同じ深さになるように調整して、速度比較してみるつもり。
188:535
20/03/18 20:17:58.60 4pnoWutQ.net
DNNの評価値上位7手を全展開してポスグレに詰めるのを実行に移すべきかどうか迷ってる。
一応そのつもりで8TBのHDDもポスグレも用意したんだけど、あんまりいいアイディアに思えなくなってきたというか。
189:310
20/03/18 23:45:39.14 Wk4mfxEa.net
実現確率探索の中盤探索、プロトタイプのαβ版を作って癖を見ています。
実現確率は、評価値のSoftmaxで各要素を足して1.0になるように正規化するより、
最大値が1.0になるようにした方が使いやすいです。というのも、最大値をひたすら
追った枝の終了条件が綺麗に決まって最大深さを指定できるようになるからです。
1.0そのままだと終わらないので、例えば0.5にしておくと、深さnにしたい時は1÷2^n
が閾値になります。0.1の時は1÷10^nです。まあ、なんでもよいという事です。
後は各要素の差のつき具合を決める定数を調整すると、評価値が悪い手について、
どこまで探索の深さを確保するのかが決まります。ここが職人的作業なのがネック。
絞ると爆速。∞だと、ただの全幅探索になります。
速度は結構出てるのですが、調整ミスると全くダメみたいな様子が見え隠れしていて、
本当に常に使えるのか、まだ心配です。おそらくProbCutでも同じような問題がおきて
いるんじゃないかと思いますが。
次は置換表ですが、合流が発生した時の実現確率がルートによって違うので、その
時の置換表の評価値を使って良いのか悩みどころです。また、上述のように最大探索
深さを調整できるので、反復進化的に閾値を下げて行く事が可能性です。そうすると、
反復深化的に使いたくなるのが人情ですが、オーダリングにどのように反映するのが
良いのか。これも悩みどころだったりします。
要するにあと1週間くらいは遊べそうです(笑)
190:310
20/03/18 23:56:29.62 Wk4mfxEa.net
あと、裏で棋譜作成進行中ですが、評価関数の学習時に、既存データに対する
エラーが増加を始めて、過学習の傾向を示しているのですが、例えばFFOの盤面
のように教師データ中に現れない盤面に対するエラーは減少しています。
状況的には、極端な石差がついている盤面の評価値が、石差ほどの評価値になって
おらず、じわじわと汎化が進んでいる一方、±0近傍の盤面は既に多いため、過学習
気味になっているのかなぁと推測しています。
とはいえ、非常に気持ち悪いです。
というわけで、ちょっと工夫をして石差が大きい棋譜を優先的に遡りチェック対象にしたり、
新規の自己対局するときに石差が大きくなる(悪い)進行も作るようにする事で、ほんの
少しですが、石差が大きい棋譜が増えるようにしてみました。まあ気休めです。
191:310
20/03/19 23:17:05 opMYHtHc.net
実現確率探索の中盤探索ができました。置換表と並列処理のところまでです。
反復深化→読み切り処理までです。置換表というか、オーダリング処理を結構修正。
反復深化まではそこそこ機能していますが、置換表経由で読み切り処理の高速化が
性能が出ません。置換表経由で、中盤探索の結果を用いて終盤探索のオーダリング
をするところで、置換表データの不足があったり、オーダリングの間違いが生じて、
無駄な探索をしているように思います。
とすると、これは読み切り処理を前提とすると結構致命的な問題な気がします。
もちろん、まだバグや仕様ミスの可能性もありますが。というわけで、Solver関係には
使えない可能性が出てきました。
また、評価関数で実現確率を導いているので、浅い段階での間違いに対して、探索
対象をロックしてしまいやすく、深く探索していっても間違いがなかなか改まらない
傾向が見受けられます。
まあ、仮にダメでも、新バージョンにする過程で、これまでペンディングしていた細かい
修正ができますし、既存タイプの中盤探索も作ってあるので、このまま進めてみます。
192:535
20/03/20 23:24:37.61 7lhYYUd2.net
DNNの上位7手を幅優先に展開していき200万局面を上限にストップ
展開したものをminmaxで評価値を再計算。
その結果をDNNに学習させようとしています。
ポスグレの出番はいまのところないw
193:310
20/03/21 02:31:57.66 XYOBIhf/.net
実現確率探索で、探索幅広げる方向の反復を試してみましたが効果はあまりなし。
単体で使用するとかなり早いのですが、置換表使った探索との相性がいまいち。
とりあえずSolverまで作って速度計測していますが、既存の反復深化より遅く、反復
深化無しよりは若干早いという感じで、単体の速度を利用して幅を思いっきり広げて
みましたが、こちらは逆に遅くなるという体たらく。
置換表周りでどこか間違いがあるのかなぁという気もしていますが、今のところ不明。
Solver周りでの活用は一旦置いといて、自己対局で使ってみる事にします。
194:535
20/03/21 17:30:57.63 cG9Ai74P.net
メモリ欲しい…
256GBくらい
195:535
20/03/21 18:19:45.50 cG9Ai74P.net
えー駄目だ負けるorz orz orz
なんで駄目なの???
196:535
20/03/21 18:23:26.64 cG9Ai74P.net
今回のはかなり期待してたのにorz orz orz
197:535
20/03/22 12:02:13 upkGajEt.net
棋譜見ると素のモンテカルロの動きが思っているよりずっといい。
なんでだろう?
198:310
20/03/28 00:29:51 vtZj/mQ8.net
実現確率探索というか、ソース全体見直し版が、だいたいできました。
まだデバッグ全部済んだわけではありませんが、後はログメッセージなんかの
細かいところくらいの修正かなと。
実現確率探索自体は、棋譜作成にフックを入れる感じでの使用にとどめていますが、
しばらく動かして、結果がよさそうなら切り替えようかなと思います。というか、対戦版
作るときには、中盤探索は実現確率探索で行くと思います。
で、実現確率探索と呼んでいますが、実際のところは違います。本来の実現確率は
「プロ棋譜など別途棋譜集から、よく出てくる手を回帰分析で確率化したもの」で、
よく出る手については深く探索しましょうという内容です。自分の奴は、確率を1手読み
の評価値から生成しています。1手読みにした理由は、差分計算で速く計算できる
からです。というわけで、本来は別の名前にした方が良いのですが、ネーミングセンス
が無いので放置です(笑)
他にも、本来と違う形で実装してるけど、放置してある名前が結構ありますorz
199:535
20/03/28 21:52:44.02 XqE/6uS7.net
囲碁AIでKatagoという凄く強いAIがあるのですがライフゲーム囲碁に流用できないかと思い始めた。
200:310
20/03/28 22:16:21.29 vtZj/mQ8.net
見直し版のチェックを本番やりながら進めてます。
今のところ、学習の速度が30%程度ダウンしたものの、終盤探索の速度が
30〜50%高速化している感じ。どちらも原因不明。
201:310
20/03/31 00:30:27 1mhY2vrp.net
見直し版で、遡りチェックで無駄な処理を見つけて直しました。
更に速度アップして、トータル50%強の速度アップとなりました。
まだ探索自体の速度は上がってませんが、まだ無駄があったとは。
202:310
20/04/01 23:58:19.45 SRR0rDGm.net
急に探索自体の速度アップを思い立ちまして、いくつか実行。
ヒープ領域に作っていたオーダリング処理をスタック領域に来るように修正。
置換表のHash関数の修正で、置換表のキーエントリーの偏りを減らす。
これらにより更に高速化して、トータルで前バージョンの倍速近くなった感じです。
残り26手探索処理が1時間に90件弱→160件くらい。
あと、もうちょっとやってみたい事があります。
203:名前は開発中のものです。
20/04/02 03:15:04.40 iWlfdZP3.net
katago聞いたことない
alpha zeroは使わないの?
204:535
20/04/02 19:14:11.82 9cAiWeM1.net
deep mindのオリジナルのalpha zeroは公開されてないはず。
github行くとクローンがいくつかあるけど。
katagoはKGSってネット碁会所で最高段位9dで打ってる。
205:535
20/04/02 20:00:58.76 9cAiWeM1.net
でも当たり前だけどkatagoも相当高度なプログラムなので流用するのはかなり難しそう。
206:535
20/04/02 21:24:35.34 9cAiWeM1.net
あかん、やっぱkatago相当難しい。
githubから簡単そうな奴探してお茶を濁すか…
207:310
20/04/06 22:33:27 eOx9NvDZ.net
更に少し高速化しました。
オーダリングのvectorをスタック領域の配列に変更する部分ですが、並列探索部分
にも適用しました。配列も&でアドレス渡せばSTLのalgorism周りが使えるの知りました(^^;
スレッド間でのlockも他の処理と一緒にできるので、オーバーヘッドはありません。
あと、地味にセーブの時間がかかっていたので、回数減らしました。
残り26手1000件で10時間半が、5時間40〜50分くらいまで来ました。平均20秒強。
残り25手の読み切りができていてBookで時短しているので、まったくの新規棋譜の
読み切りはもっと遅くなります。
sort部分も何とかならないかと思いましたが、もともと32件以下(オセロはたまたま
ですが次の手の上限は32)は挿入ソートになっているようです。コピペで挿入ソート
を組んで、速度比較してみましたが、有意差は出ませんでした。
件数少ない時に早くかつ安定ソートな方法が他にないか調べてみようかと思います。
208:535
20/04/10 20:40:22.22 KcO1uf/C.net
今これ見てます。
URLリンク(github.com)
libraryをビルド通るところまで行ったんだけどpythonでそのライブラリ読み込むと以下のようなエラーになる。
K:\alpha-zero-gomoku-master\test>python library_test.py
Traceback (most recent call last):
File "library_test.py", line 6, in <module>
from library import Gomoku, MCTS
File "../build\library.py", line 15, in <module>
import _library
ImportError: DLL load failed: 指定されたモジュールが見つかりません。
209:名前は開発中のものです。
20/04/12 04:59:53.78 DFViLwjz.net
その環境の内容見てないから詳しくはわからないけど…原因は大体これ
1. 読み込もうとしているdllが適切なパスに存在してるか
2. 読み込むdllは64bitか32bitか(ビルド構成と一致していないとダメ
210:535
20/04/12 10:52:42 lk7abFDy.net
32bitか64bitかは64bitしか選べないみたいです。
適切なパスに存在しているかというのはどうやってしらべればよいでしょうか。
library.pyと_library.pydをカレントディレクトリに置いたりもしてみたのですが駄目でした。
ちなみにこれはswigというのを使っていてC++をpythonから読めるようにしているようです。
library.pyと_library.pydが生成されてlibrary.pyから_library.pydをインポートするときにこけています。
211:名前は開発中のものです。
20/04/13 02:33:11.01 q8ASrlIp.net
github見てみましたが、中国人が下で同じような質問してますね
buildディレクトリにコンパイルされたファイルを配置しないと駄目なようです
Pythonとかライブラリのバージョンも書いてあるので合わせたほうがいいかもですね
URLリンク(github.com)
212:535
20/04/13 20:06:39 E8a4txq0.net
ありがとうございます。
今python が3.6だったので3.7にしてみようとしたらpytorchがpipで入らず苦戦しています。
213:535
20/04/13 20:47:56.22 E8a4txq0.net
結局python 3.8.2を入れたんですが駄目っぽいorz
やっぱ無理にでも3.7にすべきか…
214:535
20/04/14 20:06:25 ezpleFZl.net
python 3.7.6を試してみましたが駄目。
pytorchももう1.1手に入らないっぽい。
手詰まりです。
215:535
20/04/14 23:01:32 ezpleFZl.net
>>208 動いたらめっちゃよさそうなんだけど悔しいな〜
216:名前は開発中のものです。
20/04/15 20:25:07.80 4FzrEabb.net
Ruby なら、require/load で相対パスで指定されたときに、ファイルを検索する時の場所は、$LOAD_PATH だけど、
Python にはそういうパスが無いのか?
これで、site_ruby, vendor_ruby などが、ずらずらと表示される
ruby -e 'puts $LOAD_PATH'
Python は、よく知らないけど、import _library
で、拡張子 .pyd まで探してくれるのか?
_library.pyd
217:535
20/04/15 21:11:30 rifVao0V.net
レスありがとうございます。
ファイルを検索する場所はsys.pathというのがあるみたいです。
表示させたら以下のようになりました。
['K:\\temp\\alpha-zero-gomoku-master_orig\\test',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37\\python37.zip',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37\\DLLs',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37\\lib',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37',
'C:\\Users\\nagat\\AppData\\Local\\Programs\\Python\\Python37\\lib\\site-packages',
'..\\build']
import _library.pyd はエラーになりました。
218:535
20/04/15 21:32:18.35 rifVao0V.net
ん、neural_network_test.pyは動いた。
どういうことだ???
219:535
20/04/15 21:34:10.97 rifVao0V.net
import libraryの前にimport torchをつければいいのか???もしかして
220:535
20/04/15 21:42:29.92 rifVao0V.net
うおお、動いたっぽい!!!!
ありがとうございます!!
221:535
20/04/15 21:59:07.45 rifVao0V.net
leaner_test.py train 動きました!!
GUIが起動してポチポチ自己対局を始めました!!
これは期待が高まる!!
222:535
20/04/15 22:01:14 rifVao0V.net
とりあえず、五目並べでちゃんと強くなるかどうか2〜3日学習させてみます。
223:535
20/04/15 22:19:15.19 rifVao0V.net
ん、GPUの使用率が1%くらいから上がりませんね。
でも0%じゃないからちゃんと使ってんのかな…
224:535
20/04/15 22:36:14 rifVao0V.net
お、早くも石が中央に寄り始めた??
そうだとしたら凄い。
225:535
20/04/15 22:48:39 rifVao0V.net
しかし、4すら止めないw。
ホントに0からの学習なんだなぁ
226:535
20/04/16 19:32:35 y39ZfUyK.net
お、凄い!たった一日で五目並べっぽくなってる!
たまにそっぽ打つのは乱数でランダムな手を打つようになってるんでしょうね。
227:名前は開発中のものです。
20/04/16 19:37:25 y39ZfUyK.net
うお、早くも人間(俺)に勝った!!
あり得ね〜〜〜!!!
228:名前は開発中のものです。
20/04/16 19:38:07 y39ZfUyK.net
ヤバイ、これはヤバイww
229:535
20/04/16 19:40:53.49 y39ZfUyK.net
15路という非常に広い盤面でここまで早く強くなるとは…
230:535
20/04/16 19:44:25.68 y39ZfUyK.net
もう五目並べの学習は十分ですね。
となると次のステップはライフゲーム囲碁か囲連星を移植ですね。
231:535
20/04/16 19:54:51.08 y39ZfUyK.net
ライフゲーム囲碁はパスを実装しないといけないからまずは9路囲連星かなぁ
232:535
20/04/16 20:15:49.42 y39ZfUyK.net
すぐにでもコード書き始めたくなるけどぐっと我慢して>>208のソースを少し読み解かねば。。。
233:535
20/04/16 21:57:22 y39ZfUyK.net
あれ、モチベすげー湧いてくると思ったのに意外とそうでもないな…
仕事で疲れてんのかな…
234:535
20/04/18 17:12:26 FJQxs35t.net
実はライフゲーム囲碁を移植しようとしてたのですがパスの実装がやはり意外と難しそうです
9路囲連星に転進しようかな
235:535
20/04/18 20:23:03 dW+TeRwf.net
は〜目の前に理想のalpha zeroがあるというのになぜかモチベが湧いてこない、踏ん張りがきかない。
さぼりモードに入りつつあるorz。
ていうか思ってるより移植が工数かかる作業なのかもしれない。
236:535
20/04/19 14:29:45.72 w4GEcYV8.net
9路囲連星はコードを消失していたので19路囲連星を移植してます。
237:535
20/04/19 17:44:45 w4GEcYV8.net
多分移植完了した。バグが無ければ。
学習フェーズへ移項します。
238:535
20/04/19 17:58:16 w4GEcYV8.net
うーん。これGUIの盤のひろさとプログラム上での盤の広さが違いますね。
まあ論理的には整合性は取れているので見た目だけの問題なので放置。
239:535
20/04/19 18:02:39 w4GEcYV8.net
まだ学習始めたばっかなので全然見当違いのところに打ちまくるの見てて切ないw
でもまあ、五目並べではわずか一日で人間(俺)に勝てるところまで来たのだから期待して待ちましょう。
240:535
20/04/19 18:42:21.72 w4GEcYV8.net
メモリ10GBくらい使ってる。
思ったよりでかい。
241:535
20/04/19 21:12:09.10 w4GEcYV8.net
GPUのファンが五月蠅い。
タスクマネージャーだと1%とかなのに。
タスクマネージャーじゃ使用率ちゃんと測れないのかな?
242:535
20/04/20 18:56:48 fRC4t5vc.net
強くなってないと思ったら致命的なバグがorz
勝敗データをパイソンに渡す個所にバグがあったようです。
丸一日の学習がパーorz
243:535
20/04/20 21:27:15 fRC4t5vc.net
ん、付けにははねよを覚えたっぽい?
だとしたら凄い。
244:535
20/04/21 20:44:10.63 JovHD0OJ.net
1日学習させたけど強くなってるように見えませんね
15路五目並べと19路囲連星じゃ勝手が違うか
とりあえず1週間位は粘ってみます
245:535
20/04/22 18:48:41 mXEm0GNy.net
強くなってませんね。
完全なランダムでないにせよ。
もう少し様子見します。
246:535
20/04/22 20:21:27.03 mXEm0GNy.net
は〜じれったい。ハード性能があと10000倍くらいあればな〜
247:535
20/04/22 20:23:13.93 mXEm0GNy.net
むしろ一生懸命7並ばないようにしているとさえ思えるw
バグなのかなぁ
248:310
20/04/22 20:43:03.08 ZptezZKq.net
相変わらず棋譜作成中。
プログラムはそれなりに改良しているつもりだけど、成果は全くなし。
まあ、思いついて試すのが楽しいんだけどね。
つか、逆順探索での棋譜訂正。やってるそばからあまりに間違っている筋を
見つけて、修正かける過程で、新しい棋譜どんどん増えて、バックログがどんどん
増えていく地獄になっています。まだまだ重要な分岐でも間違いというか未探索
が多すぎる。
手作業で修正箇所見つけるの面倒なので、延々やらないといけないけど、
ε-Greedy的な何か導入しようかなぁと思い始めています。
249:535
20/04/22 21:56:00 mXEm0GNy.net
お、もしかしてポン抜き覚えたか?
しかしこの学習速度で線形の速度で強くなるとしたらとてもじゃないが時間かかりすぎるが、
ある地点から爆発的に強くなったりしないのかなぁ
250:310
20/04/22 22:21:38 ZptezZKq.net
あるところまでは、間違いは間違いと学習するための時間かも知れませんね。
251:535
20/04/23 18:58:28.20 ynaVt4IB.net
うーん、少し囲連星っぽくなってきてるかなぁ?
ま、当分様子見かな。
252:535
20/04/23 21:04:31.79 ynaVt4IB.net
でもまあディープラーニングってルールも知らないネットワークが勝敗結果だけで強くなるって凄いことだよな。
人間がルール知らずに勝敗結果だけで強くなろうとしたら発狂するw
253:535
20/04/24 19:11:09 aNVKQhdF.net
囲連星本来の棋譜とはまだまだ程遠いけど、何かをつかみつつあるような気配がする。。。
様子見続行。
254:535
20/04/24 19:47:38 aNVKQhdF.net
あーネットワークの層増やしてみたいな。
囲連星は7目並べだから7層がちょうどよかったかも…
今デフォルトの4層でやってるんだけど。
でもいまさら後に引けないか。
255:310
20/04/24 19:50:11 wU9GyZ2x.net
DCNNなら層数よりもフィルタ数の方が大事かも。
256:535
20/04/24 19:55:02 aNVKQhdF.net
まじすか
現状でもフィルタは256(デフォルト)とかなり贅沢に使ってるんですが。。。
オリジナルの作者もフィルタ数が大事と思ったのかもしれませんね。
257:310
20/04/24 22:19:55 wU9GyZ2x.net
>>256
256フィルタあるんなら流石に大丈夫そうだね。
258:535
20/04/25 21:48:41.17 wwp+rt8W.net
やっぱ9路囲連星にしとけばよかったかな〜
でもいまさら後に引けない…orz
259:535
20/04/26 17:31:58 73Aw05p/.net
うーむ、進むべきか引き返すべきか段々悩ましくなってきた。
まあもうちょい様子見続行か。。。
260:535
20/04/26 19:51:54 73Aw05p/.net
知性の芽生えみたいなものを全く感じないわけじゃないから打ち切るのも躊躇われるが、
いかんせん成長速度が遅いんだよなぁ。ウーム悩ましい。
261:535
20/04/27 17:44:36.98 bKact/KJ.net
囲めば石取れることはわかってるっぽいんだよなぁ
もう少し粘ろう
262:535
20/04/27 21:17:34 bKact/KJ.net
あーパソコン複数台ほしいなぁ
でも置き場所がないからなぁ
となるとAWSとかGCPとかかなぁ
でもあれ、金がやばいらしいからなぁ
263:535
20/04/27 21:37:15 bKact/KJ.net
囲連星もやりたいけど、ライフゲーム囲碁もやりたいんだよなぁ。
>>208のやつはパス実装するのが難しいからなんか別の奴探してこようかなぁ。
ルール的にはオセロのクローンから移植すればライフゲーム囲碁移植しやすいはず。
264:535
20/04/28 19:29:54.42 VfQhex7P.net
打ち筋は確かに改善されてるような気がするんだよなぁ。
ただ、あまりに上達が遅い。
265:535
20/04/28 20:06:48.30 VfQhex7P.net
何で五目並べはあんなうまく行くんだろう?
やっぱ複雑度が全然違うのだろうか?
266:535
20/04/30 18:36:10 6uxMdcsM.net
どんなに早くてもleela zeroが強くなるのに必要だったぐらいの時間はかかるのかもしれないなこれ…
267:535
20/05/02 20:07:05.00 ppsdwWbz.net
あかん、超長期戦になりそうorz
マシンパワーがあと10000倍あればorz
268:535
20/05/03 19:21:36 6By0oz27.net
らちが明かないので19路囲連星はいったん止めて9路囲連星に移行します。
でもいつかは戻ってきたい。
I shall return.
269:535
20/05/03 22:42:03 6By0oz27.net
お、9路囲連星は結構強くなるかも。
早くもランダムではない何かを感じる。
270:535
20/05/03 23:03:31.98 6By0oz27.net
もしかしたら19路囲連星は層の数が足りなかったってことなのかも。
9路囲連星は6層でやってます。
5目並べが4層でうまく行ったから7目並べの囲連星なら6層かな?と思ったのですが当たりだったかも。
271:535
20/05/03 23:32:54 6By0oz27.net
これは…
明らかに知性がある…
272:535
20/05/05 17:29:46.91 3PlXxhBg.net
おっとバグがあったorz
でもこれで行けるはず。
273:535
20/05/06 10:40:38 Oyc/dCE2.net
うおお、公式ボットに勝った〜
凄い!!
274:535
20/05/06 15:40:57 Oyc/dCE2.net
しかしalpha zero てこの手のゲームの最終解答にちかいな。
単に移植しただけで既存ボットに勝つとは。
275:535
20/05/07 19:53:48 LRbJj7fv.net
学習が進んだので既存ボットと対戦してみましたが、大幅に負け越しますね。。。
過学習?
276:535
20/05/07 20:07:16 LRbJj7fv.net
うーん、わからん。層数をさらに増やして学習させてみようかな…
囲碁AIにならって20層くらい一気にいってみるかな…
277:535
20/05/07 20:19:50 LRbJj7fv.net
チャネル数 384
層数 20
の超ビッグネットワークで再挑戦します。
278:535
20/05/07 20:59:06 LRbJj7fv.net
ん、CPU使用率が上がらない?
ネットワークでかすぎたか?
279:535
20/05/07 21:03:55 LRbJj7fv.net
GPUのメモリが溢れてるっぽいorz
しょうがない、小さくするか。
280:535
20/05/07 21:25:17 LRbJj7fv.net
GTX 1080 でもメモリ足らんとかorz
気安くいってくれるぜ
281:535
20/05/07 21:27:42 LRbJj7fv.net
バッチサイズもでかくしたのまずかったっぽい
282:535
20/05/07 22:52:16.50 LRbJj7fv.net
うーん、もしかしたらCPUはあんま必要なくてGPUに金使ったほうがいいのかもしれないな。これは。
283:535
20/05/08 20:21:50 vYlFFPu/.net
層増やしたけどあんまうまく行ってないのかなぁ。
それともまだまだ学習が足りないだけなのか…
284:310
20/05/09 00:56:41.26 tOwbW1Pp.net
棋譜作成触りすぎるとなかなかはかどらなくなるので、しばし回しっぱなし。
そろそろBookが巨大化しすぎているので、メモリーからSDDに移せないか検討中。
concurrent_unordered_mapを自作した経緯があるので、同じような感じでランダム
アクセスなDB化をしてます。確定分は探索で使うのでメモリーにおいて、速度を
必要としないアクセスをDBにしようかなと。
巨大Bookの作成処理の類を並列処理にしているので、何とか並列にできないかと
色々やっていますが、色々と罠がある。複数プロセスからの並列更新はあきらめた
けど、単一プロセスからの並列更新でロック範囲がまだいまいち。
専門書買ってコード見て勉強した方が早いんだろうけど、まあ、しばらく楽しみます。
285:535
20/05/12 21:24:42.90 autiDqQV.net
1ゲームすら勝てない…
何が悪いんだ?
286:535
20/05/12 21:56:06 autiDqQV.net
いままで新旧のAIを比較するとき10戦中6勝以上でAI更新にしてたのを50戦中30勝以上で更新にしてみます。
もしかしたら試行回数が少なすぎて弱くなっていてもAI更新してたかもしれないので。
287:310
20/05/12 23:05:51.81 AcB4a3UT.net
うぬぬ。DB化は並列諦めてみたけど、やはり更新が遅すぎる。
もうちょっと工夫してみるけど。
288:535
20/05/14 19:16:54 7UgQPtyV.net
ただ待ってるだけってのもつらいな。
結果も出ないし。
289:535
20/05/15 18:59:37.53 55GCUZ0E.net
心が折れそうorz
290:535
20/05/15 19:20:34.85 55GCUZ0E.net
自己対局みてると結構強そうに見えるだけどな。
公式AIと対局すると勝てねんだよな。
291:535
20/05/15 19:53:09.72 55GCUZ0E.net
ギブアップです。
何か次のこと考えよう。
292:名前は開発中のものです。
20/05/16 11:39:42 n0PK2vlL.net
AlphaGoは計算資源をコスト度外視で使って1000年分対局してるから……
293:名前は開発中のものです。
20/05/16 15:42:40 G8tru4l4.net
IT掲示板群 URLリンク(x0000.net)
学術の巨大掲示板群 - アルファ・ラボ URLリンク(x0000.net)<)
UIライブラリ (C#, 2D) を作ったよ
URLリンク(x0000.net)
連続と離散を統一した!
URLリンク(x0000.net)
4Dエンジン
URLリンク(x0000.net)
matrixのライブラリ
URLリンク(x0000.net)
ある強力なFor関数
URLリンク(x0000.net)
SQLライブラリ
URLリンク(x0000.net)
294:535
20/05/16 18:10:49.03 BsSPHqoG.net
>>292
/ ̄⌒⌒ヽ
| / ̄ ̄ ̄ヽ
| | / \|
.| | ´ ` |
(6 つ / ちくしょう・・・
.| / /⌒⌒ヽ
| \  ̄ ノ
| / ̄
,冖 ,、 冖 / // ,. - ―- 、
`,-. -、'ヽ' └ァ --'、 〔/ / _/ ヽ
ヽ_'_ノ)_ノ `r=_ノ / / ,.フ^ー- j
,冖 ,、 ,へ / ,ィ / \
`,-. -、'ヽ' く <´ 7_// / _/^ 、`、
ヽ_'_ノ)_ノ \> / / / _ 、,.;j ヽ|
n 「 | /. | -'''" =-{_ヽ{
ll || .,ヘ / ,-、 | ,r' / ̄‐-..,フ!
ll ヽ二ノ__ { / ハ `l/ i' i _ `ヽ
l| _| ゙っ  ̄フ.rソ i' l r' ,..二''ァ ,ノ
|l (,・_,゙> / { ' ノ l /''"´ 〈/ /
ll ,冖 ,、 > >-' ;: | ! i {
l| `,-. -、'ヽ' \ l l ;. l | | !
|l ヽ_'_ノ)_ノ トー-. !. ; |. | ,. -、,...、| :l
ll ,冖 ,、 |\/ l ; l i i | l
ll `,-. -、'ヽ' iヾ l l ;: l | { j {
|l ヽ_'_ノ)_ノ { |. ゝ ;:i' `ー‐-' }
. n. n. n l | ::. \ ヽ、__ ノ
|! |! |! l | ::. `ー-`ニ''ブ
o o o ,へ l :. |
295:535
20/05/18 18:55:35 ErVFXYqV.net
次のアイディアもなくすっかりさぼりモード
296:310
20/05/18 21:57:15.59 lyHQ6R5E.net
Hash関数変更
DBのハッシュキーの効率が悪かったので、ちょっと考えてみた。
今まではshuffle_epi8でバイト単位シャッフルしていたのを、BMIのpextでビット単位の
シャッフルと、rotateしたものを、xorでまとめていく方法。以前よりは、ちょっと良くなった
気がする。
何をもってよくなったかの指標が欲しくなり、ネットを探索したけど、数値指標みたいなの
は見つからない。確率論の誕生日問題の反対みたいな状況なのでしばらく考えてみる。
要するに、1万人くらいの生徒がいる学校で、誰一人誕生日ではない日が何%くらい存在
するのかという類の問題です。
また、そう考えてみると、現状では直観よりかなり未使用キーが多い気がしています。
xorを繰り返してビットのオンオフをすると、いずれ立っているビット数が32個を平均と
した正規分布(二項分布)になって、一様分布にならないのではないかという疑念が。
正規分布だと、中央に近いところは重複しやすく、立っているビット数が0とか64とか
の出現確率が下がる事になります。xor繰り返すと正規分布に本当に近づいていくのか、
ちょっと検証してみたい。
297:310
20/05/18 22:17:24.43 lyHQ6R5E.net
DBの件
たぶんあるだろうとネットで検索してみたら、Kyoto Cabinetなるキーバリュー型の
簡易DBライブラリがある事が判明。ほかにもLevelDBとか、何種類かあるみたい。
RDB使うまでもないけど、データ量が多いとメモリーだとリソース勿体ないみたいな。
やはりみんな考える事は一緒だなと。せっかくなので導入の方向で検討。
DBの速度問題
また、おそらく1棋譜単位でのBook更新は速度的に問題ないのですが、DAG(合流)
時に、棋譜外の合流元の方の更新がされないという問題があり、学習前に一括で
再構築しています。この一括更新が件数の関係ですごく時間がかかる事が問題です。
一応、1棋譜単位で更新した時に、DAG分もちゃんと処理するロジックを検討中です。
バグさえなければ速度問題はかなり解消できるはず。とはいえ、何回もループを回す
処理となるため、速度に自信なし。
298:310
20/05/18 23:50:13 lyHQ6R5E.net
DBの件…
確定探索の時にはメモリーに確定分だけおいとくと考えていましたが、
今件数確認したらおよそ2/3は確定分として確保しなきゃならない
事に気づきました(汗
棋譜作成時はメモリーでやるしかないかも。
1棋譜更新でのDAG問題回避はやりたいかな。
Book再構築にだいたい20分くらいかかる。
DAG回避で1棋譜分更新するのが1秒として1000棋譜追加でおよそ16分。
これ以下の時間で済むならやる価値ありそう。
299:310
20/05/20 01:15:22.70 Xgj8E+2H.net
久々に完全読み切りでバグ発生。
ProbCutを広げながらmtd(f)している時に、どうもパス絡みで発生しているっぽい。
ProbCutによるIterative Wideningを止めたらちゃんと読み切る。
まあ、置換表絡みなんだとは思うけど、事例が少なすぎて(数か月に1回程度)、
前の記録消しちゃったので、とりあえず記録を残し、絆創膏当てて続行。
気が向いたらデバッグしてみる。可能性があるところはなんとなくわかっている
つもりだけど。
Book更新時のDAG回避は、かなり悩ましい。というか頭がこんがらがる。
未使用Hashの期待値計算も頭が未だにこんがらがってます。。
300:名前は開発中のものです。
20/05/20 03:14:41.24 kE3dJxL+.net
お姉さん問題で有名な、北大の湊教授のZDD を使えないの?
本も出てる
301:535
20/05/20 16:25:53 BUng/tdF.net
katagoを使った9路囲碁の巨大Book作成、やってみようかなぁ。
難しそうだけど。
302:310
20/05/20 17:28:20.84 Xgj8E+2H.net
Hash関数の効率判断基準できました。
同じキーにデータが8つくらい入っているようなものもあり、それが適正かどうか
判断できなくてゴチャゴチャしていましたが、昨夜しれっと書いたように未使用キー
の数の期待値に着目したら簡単でした。
キーサイズと、データ件数からExcelなどで簡単に計算できます。
3件程度調べてみましたが、理想的な一様ランダム値で生じる未使用キー数の
期待値との差は0.1%未満で、このHash関数も一様ランダム化するものと言って
良いレベルでした。
逆に言えば、自分の典型的な使用方法だと20〜30%のキーが未使用になる
という事のようです。これはこれで…。
303:535
20/05/20 18:41:29 BUng/tdF.net
やっぱライフゲーム囲碁やりてぇなぁ。
ウーム悩ましい。
304:310
20/05/21 00:46:28 ahADKaci.net
Hash値、1件2件…と期待値出そうと思ったら、なんとなく昔の記憶が戻ってきて、
0件の時は不要だけど、こちらではPとかCとかが必要になるような気がしてきた。
確率の勉強するかな。
ZDDちらっと見てみたけど、ちょっと目的と違うような感じがしている。
本買ってみるけど。
脱線はこれくらいにして、DAG考慮したBook更新に戻ろう。
305:535
20/05/22 19:57:06.06 khQY98T/.net
自己流でライフゲーム囲碁に取り組むべきか。
なぜalpha zeroがうまく行かなかったのかを調査すべきか。
まあしばらくさぼりモードだけど。
306:名前は開発中のものです。
20/05/26 02:09:09.91 dgMv5Qb/.net
・19路盤での定石の発見とかを可視化して、強さを判断する
・まず5〜9路盤で最強目指す
俺なら後者を選択する
バグが出なくなったら前者に取り組む
307:535
20/05/26 18:51:39 QRHJU3eS.net
>>306
実際に自分で手を動かす人なら歓迎するぞ?
口先だけならいらない。
308:310
20/05/29 00:49:53.42 wYh6jGrP.net
DAG時のBook更新の件、めっちゃ悩み中。
普通にやったら1件更新に14秒とかかかって使い物にならない。
逆引きDBを作ろうかと思うのだけど、結構なサイズになるので、それこそメモリーに
置きたくない。形としてはunordered_multimapになるんだけど、Kyoto Cabinetが重複
キーを許すのか英文読まなきゃならないので止まってる。
そうこうするうちに完全読み切りのバグがまた発生して、事例が3件になったので、
調査開始。2か所間違いを発見。一つ目はケアレスミス。
2つ目は最善手の直後にパスが来るケース。置換表登録はパス後、オーダリングなどで
読む時はパス前の盤面になっていた。これで値が狂う理由がいまいち理解できないの
だけど、修正したら正しい答えが出るようになった。パスの処理は本当に鬼門。
たぶんバグは取れたけど、50%くらい速度低下。どこかにまだバグがありそう。
309:310
20/05/29 00:56:37.17 wYh6jGrP.net
速度低下は50%どころではなかった…150〜200%だorz
310:310
20/05/29 20:25:58 wYh6jGrP.net
orderingの中でパス処理をしていたのでmobility関数を呼びまくっているのが遅い原因
ではないかと思い、パスの処理の仕方を変えて、パスも1手とするように変更したところ、
15〜20%の速度低下まで戻りました。他にも、つられてバグが発覚したので修正。
かなりのレアケースでしか発生しないバグですが、今まで自信満々で完全読み切りは
間違っていないと思っていましたが、なんか自信なくなった。
中盤探索も同様に修正したら、浅い探索の読み筋が変わったみたいで、少しは精度が
良くなるのかなぁと期待しています。
311:535
20/05/30 18:11:38 TznaFVwY.net
以前もちょろっと触れたけど囲碁ディープラーニングプログラミングという本の12章にあるactor-critic法というのがまた気になり始めた。
自分なりに解釈して実装してみようかな。
312:310
20/05/31 10:02:44 /CnVYfEH.net
またエラーが…
なんとなく記憶をたどっていくと、初段で並列処理してMap-Reduceすると、βカットの関係で
評価値は合っていても、ordering次第で間違った手を返す事を思い出しました。
で、たまたま回避策となっていた処理を>>201で外してしまったのではないかと。
並列探索だと本質的に回避できない気がするので、初段を順次処理に変更。残り空きマス
26での平均処理時間。一時は20〜25秒くらいまで来ていたのが、30秒程度に悪化orz
313:535
20/06/04 21:00:10.17 asDXFlye.net
藤井センセw
314:310
20/06/05 22:28:59 TnykYlJh.net
藤井7段凄かったね。今年中に8段行っちゃうんじゃないかと思った。
エラーの原因を冷静に見直したところ、どこをどう変えたか覚えていないレベルの
ちょっとした修正を加えたところからドツボって、修正するたびに更にバグを仕込んで
いたような。結局、元々のプログラムに戻して、速度も復旧しました。むむむ。
こういうのがあるからから、終盤探索に手を入れたくないorz
Bookの遡り修正ですが…行き詰っています。
Kyoto Cabinetはやはり単一キーしか扱えず。
メモリー上に逆引きDBを作ると、たぶんBookよりサイズが大きくなるためメモリーにおけない。
しばし悩み中。
息抜きで、棋譜作成のロジックをちょこっと修正。
同じような評価値が並んでいたり、最善手より評価値が良くなる分岐について、今までは
見つけて気になったところだけ手で追加していましたが、適度なペースで見つけて自動的
に追加する様にしました。
315:535
20/06/15 22:53:27.40 SQc2KJ2b.net
長期サボりモードに突入
なんか本で読んだけどモンテカルロ木探索の訪問回数をdnnの教師データとして使うようなやり方もあるらしい
316:310
20/06/15 23:12:30 r41RfhWg.net
DB化、未だに方法が見いだせずストップしてます。
パブリックドロー臭いのにそうじゃない筋を手動で修正して、20件ほどもとに戻った。
その間に、棋譜が100万件突破しました。
が、Book眺めていると、まだまだ間違い多い。
Zebraも結構間違えているけどね。
317:535
20/06/17 21:35:01.75 nCYZMpcd.net
2020/05/11 グロービス、囲碁AI「GLOBIS-AQZ」のプログラムをオープンソース化 プロジェクトの集大成としてソースコードを公開
URLリンク(www.globis.co.jp)
知らなかった。
ちょっと見てみようかなぁ
318:535
20/06/17 23:13:34.58 nCYZMpcd.net
なお、公開しているソースコードは対局・解析のみの実装で、学習に関する機能は含まれていません。
駄目じゃんorz
319:535
20/06/18 19:28:02.18 i+asT3Px.net
ライフゲーム囲碁でモンテカルロ木探索の訪問回数をdnnの教師データにするのやり始めました。
今教師データを収集してるところです。
320:535
20/06/19 19:58:32 Y5lRzoqU.net
教師データを学習させてみましたがあんまり強くなりませんでした。orz
321:535
20/06/19 20:44:26.89 Y5lRzoqU.net
そもそもモンテカルロ木探索を教師にしてる時点で、モンテカルロ木探索の強さを大きくは超えられないわけで。
根本的に駄目な気はしてきたorz
322:535
20/06/19 23:03:06.10 Y5lRzoqU.net
結局、現状、良い教師データがないと厳しい。
アルファゼロ方式の自己対局で強くなるのは1000年かかりそうだし。
むうぅ
323:535
20/06/22 19:37:12.00 q97LdCHr.net
katago最後のリリース
URLリンク(github.com)
324:535
20/06/28 20:46:44.93 7SoJ+c30.net
藤井センセw
棋聖戦2勝目か
325:535
20/06/29 19:50:03 gKYec+q1.net
ライフゲーム囲碁で打った石が最終的に取られるかどうかを学習させてみようかと考え中
326:310
20/07/03 01:33:21.30 ULg6SDrD.net
相変わらず棋譜作成しながら評価関数学習を続けています。ようやく100万件突破。
推定パブリックドローは大体700件くらいで増えたり減ったりしています。
対称形や合流も重複させていますので、重複除くと400件くらいかなぁ。
終盤は比較的多数の分岐を試しているのですが、序中盤の分岐が不足していて、
棋譜が偏っているような気がしてきたので、棋譜作成のロジックを大幅に変更して
序中盤の分岐が多くなるように。また、評価値とBook値が大きく違う分岐を再検証
するようにしてみました。これで、抜けている筋がだいぶ拾えるようになると期待。
棋譜作成中に暇な時間が多いので、試しにZebraと対戦。Zebraはランダムに
パブリックドロー筋から外れる様にできているようですが、外れたら勝てるはずが、
なかなか勝てない。Zebra26手読み、こちらは時間の都合で20手読みくらいなので
仕方が無いのですが、それにしてもBook外れた時の評価関数の精度が悪いという事に。
あと、やはり中盤探索の速度に大きな差があり、とても26手読みなどできない。
むむむ。
327:310
20/07/03 01:35:54.46 ULg6SDrD.net
つか、藤井先生強すぎ。
1回勝負なら時々一発入るけど、番勝負で勝ち越せる人いないんじゃないかな。
竜王戦勝ち進んで、豊島竜王名人との番勝負が見てみたい。
328:535
20/07/04 11:25:12 aqVM5XYH.net
そこに打ったらn手以内に反撃で取られてしまうか?を判定するルーチンを書いてAIに組み込んだら、かなり動きがよくなった。
329:535
20/07/05 17:58:06 pswe4q4i.net
結局、強化学習できない限り、DNNあんま意味ないんじゃ?という状態。
330:535
20/07/09 22:57:20 j8dvyCDa.net
藤井センセ今日は駄目だったか。次回に期待。
331:310
20/07/11 00:47:07.96 UjRsM2rb.net
残念だったね<F7先生。相当疲れているんじゃないかな。まだ連戦続くので心配。
こちらは棋譜じゃんじゃか追加中。もう逆順探索で正確さを高めるなんて言ってられない。
いちいち遡りチェックするより、分岐を増やしてしまった方が早い気がしてきた。
で、Zebraと対戦させると、まだまだ穴だらけ。Zebraがわざとパブリックドローから外した
ところからが本番の対局となるのですが、そこから10〜20手の間に2回くらい間違えて
逆転される感じ。逆にZebraがほとんど間違えていない事に驚いています。評価値は怪しい
ところもあるけど、選択する手のミスが本当に少ない。Zebra24手読みに変えましたが、
こちらは17手。読む深さの差もあるのか。
デバッグ用のBookチェックプログラムを改良して、簡易対戦と棋譜訂正が外から簡単
にできるようにしました。今まではプログラム動かしていると、気が付いた訂正箇所も
いちいちプログラム止めないと追加できなかったのですが、動かしっぱなしのままで
訂正済棋譜にして適宜放り込めるようになりました。ただ、Bookが凄い勢いで増大して
いるので、メモリーがかなり危機的状況になってきました。BookチェッカーもBook全体を
読み込むので、ダブルで効いてくる。今16Gなのですが32Gは欲しい。
Zebraに負けた棋譜の手を遡って最善手順っぽいの探して訂正していくと、まだまだ
パブリックドローっぽい手順が結構見つかる。過去に間違えてパブリックドローではない
と判断している奴も結構ありそうなので、見つけられたら最終800件くらいは行くと思う。
中盤探索の速度差は、ただのProbCutとMulti-ProbCutの差かなぁ。あれ、再計算が重くて
以前は実装していたんだけど、PC壊れてソース全滅して以来手を出していないのよね。
332:535
20/07/16 19:51:32.84 5lwAwdbR.net
藤井センセええええええええええ!!!
333:310
20/07/17 13:10:16.58 wiyFtChq.net
王位戦第二局も含めて、ツエーーーーーーーーーー!って、今更ながらに思った。
人間相手ならabemaAI的40:60で不利な局面程度はひっくり返せるという事なんだろうなぁ。
あと、木村王位の体育座りが悲しかった。
棋譜作成は、自動作成で一気に大量に貪欲法かけたところ、既存の推定パブリックドロー筋
の4割くらいが、事前の分岐でパブリックドローから外れる事態に(汗
想定からズレた箇所は、見つけ次第ログに書き出して、そこから貪欲法でチェックするの
ですが、それでもパブリックドローから外れる筋については、Zebra使って徹底チェック。
自分のAIとZebraが同意見でも、読みが深まるにつれて揺れ動くZebraの評価値を見ていた
ら、なんとなくZebraが間違えていそうな着手がわかるようになってきて、その手をさらに
深堀してチェックする事で、ほぼ元の数まで戻す事ができました。たぶん、「パブリック
ドローから外れるのが正解」という筋が2系統ありまして、逆に周辺を掘って行ったら別の
パブリックドロー筋が見つかったりして、現在のところ残り30手推定パブリックドローが
780通り程度となりました。
増えたり減ったりはあるけど、今週だけで80件近く増えているので最終は1000件程度に
なってもおかしくない気がします。
もろに、人間が判断して手作業で修正みたいなのが、悲しいところ。
Zebraが無ければこんな事できないわけで。
次ページ最新レス表示スレッドの検索類似スレ一覧話題のニュースおまかせリスト▼オプションを表示暇つぶし2ch
394日前に更新/170 KB
担当:undef