【オセロ,将棋】ボードゲーム Part2【囲碁,War】
at GAMEDEV
[前50を表示]
200:535
18/01/13 21:35:44.20 yngzNrQg.net
コネクト4、マルチスレッド化されてるみたいですね。
何か読みにくいと思ったら。
201:535
18/01/13 22:44:48.29 yngzNrQg.net
多分、コードに飛びつくのはまだ時期尚早なんだろな。
もうちょっとAlphaZeroの基本アイディアを理解してからじゃないと。
202:310
18/01/14 01:33:25.53 Wql34YtP.net
コネクト4のGitHUBってどこにありますか?
ちょっと見てみたいかも。
GUI作ろうと思って調べたら、VS2017からなんかだいぶ変わっているみたいです。
MFCは非推奨との事で、ユニバーサルWindowsとかってやつと、あとはCLRですか。
両方試してみようとしたのですが、ユニバーサルWindowsはWindows10じゃないと
ダメっぽい。CLRはなんかエラーで動かない…。他にもC#だと楽だとか色々ある
みたい。MFCは使えるのですが、もう忘れたし、面倒くさかった記憶しかない(汗
C#で作るって手もあるみたい。
とりあえずC#を勉強してみようかなぁというところです。
脱線しすぎだなぁ。
203:535
18/01/14 17:46:25.82 NeYy2Zy+.net
URLリンク(github.com)
これです
204:名前は開発中のものです。
18/01/15 19:10:16.04 SOjHonZe.net
>>310
オセロ用の確立された GUI はありませんが、
nboard
URLリンク(www.orbanova.com)
xboard / winboard (alien edition)
URLリンク(hgm.nubati.net)
Othello Engine Protocol (cassio)
URLリンク(cassio.free.fr)
Edax はいずれもサポートしているので、プロトコルは
ソースでも見られます。
205:535
18/01/15 22:46:04.01 iBxpq5YC.net
310さんと私以外の書き込みがあるとは珍しいですね。
実はROMも意外といるんだろうか
206:310
18/01/16 01:56:04.23 8d/ib1bw.net
>>200
どもです。ダウンロードしてみました。
酔っぱらって帰ってきたところなので、明日以後見てみます。
>>201
ありがとうございます。
cassioはmin-Max前提みたいですね。
nboardとxboardは明日以後見てみます。
とはいえ、もうすでに作り始めてしまいました(汗
c#はVBみたいな感じですね。10年くらいVBも触っていないので、VB自体も
昔とはだいぶ違うんだと思いますが。
まずは匿名パイプでのやり取りまで確認できました。
色々なソースのつぎはぎでわけわからんけど、何とかC++とAPIで作ったサーバ
側と同じ動作するものが動いています。
207:535
18/01/18 00:27:09.66 +dGVWc2f.net
GitHubでウインドウズでも簡単にビルドできそうなAlphaZeroクローンを物色中。
208:201
18/01/19 19:49:16.63 nx2VVS4x.net
ところで、
Learning to Play Othello with Deep Neural Networks
URLリンク(arxiv.org)
はチェックされていますか?
209:310
18/01/20 13:01:59.38 Zq3gts8j.net
>>205
ありがとうございます。
さっそくダウンロードしました。
210:535
18/01/20 23:55:57.24 1Kz+zB3+.net
いろいろ試してみてるけどスキルが足りなくてどれもうまくいかないデスネ。
今これ見てます。
URLリンク(github.com)
211:535
18/01/21 00:31:51.93 qH0IRvSF.net
ん〜なんかアンチウイルスソフトが警告だしてきたorz
どうしようかな…
212:535
18/01/21 23:00:34.14 qH0IRvSF.net
gflagsとかglogとかいうのが必要らしいんだが
アンチウィルスソフトが勝手に何か裏で削除してるらしく
うまくmakeできないorz
なんなんだこれは?
213:535
18/01/25 20:47:17.06 deBVwh8E.net
モチベ保てなくてガッツリサボリ中w
仕事が忙しいのもあるけど
214:310
18/01/27 00:56:40.42 0QPAoXtC.net
自分もGUIでモチベ保てず、がっつりさぼり中。
技術的に難しそうな事は気合入るんだけど、どっちが黒番とかのラジオボタン
をどうしようかとか考え出すと、思考が止まってしまう(汗
一つの項目で諦めがつくまでに3日づつかかっていますorz
215:535
18/01/27 23:18:12.98 EzLPwnOa.net
URLリンク(postd.cc)
これ読んでます。
とりあえず、一旦コードから離れて基礎知識を充実させる方向で。
216:310
18/01/28 17:18:05.66 0oeW9Kee.net
GUIのパスの処理を真剣にチェックしだしたら、特定のケースで動作が
おかしいので、丸々一晩デバッグしていました。ケースは特定できてた
のですが、ぱっと見まったく原因がわからず。
C#はオブジェクトを代入すると参照になるのでした。やられた。
やっぱCというのは名前だけですね。
217:535
18/01/28 23:56:16.68 yuGXDS1r.net
URLリンク(github.com)
すいません。またコード見始めてます。
多分これがウィンドウズで動かすの一番簡単な奴な気がするw
218:535
18/01/29 20:05:24.91 WXPd8Jtc.net
human_play.pyでモンテカルロAIは動いたけど深層学習AIが動かないorz.
theanoとかいうライブラリが上手くインストールできてないっぽいorz
219:535
18/01/29 20:08:40.86 WXPd8Jtc.net
うう、心が折れそうorz
220:535
18/01/29 21:03:35.36 WXPd8Jtc.net
こんなエラーが出るんだが何がないって言われてるのかわからん。
誰かわかる人いる?
...
File "C:\Python27\lib\site-packages\theano-1.0.1+unknown-py2.7.egg\theano\gof\
lazylinker_c.py", line 127, in <module>
preargs=args)
File "C:\Python27\lib\site-packages\theano-1.0.1+unknown-py2.7.egg\theano\gof\
cmodule.py", line 2359, in compile_str
(status, compile_stderr.replace('\n', '. ')))
Exception: Compilation failed (return status=1): /usr/x86_64-w64-mingw32/bin/ld.
exe: error while loading shared libraries: ?: cannot open shared object file: No
such file or directory. collect2: error: ld returned 127 exit status.
221:535
18/01/29 23:39:21.86 WXPd8Jtc.net
ライブラリに互換性がないって言われてるような気がする。
Cygwinに入ってるライブラリは互換性ないってことか?
どこでライブラリ入手すりゃいいんだ??
222:310
18/01/31 00:01:03.41 EjEC4Ae7.net
すまん。わからんけど、collecdt2というフォルダ(ファイルかも)が無いと言ってる?
こちらは、どうしても画面が崩れてしまうので、最初から作り直し。
原因は、トップのFormでauto resizeをtrueにしていた事でした。
ゲームの進行を上手に管理する方法が無いか考えていると、つい寝てしまうorz
223:535
18/01/31 20:29:33.40 u/gx4uXy.net
すいません。
コマンドプロンプトで実行したら>>217のようなメッセージでライブラリ名わからなかったのですが
Cygwinで実行したらライブラリ名が出てきました。
それぞれ4行づつ同じ行が出るのですが1行に削って張ります。
library stdc++ is not found.
library mingw32 is not found.
library gcc_s is not found.
library gcc is not found.
library moldname is not found.
library mingwex is not found.
library msvcrt is not found.
library advapi32 is not found.
library shell32 is not found.
library user32 is not found.
library kernel32 is not found.
library mingw32 is not found.
library gcc_s is not found.
library gcc is not found.
library moldname is not found.
library mingwex is not found.
library msvcrt is not found.
これに続いて同じ名前のライブラリはあるけどコンパチブルでない的なメッセージが出ています。
224:535
18/02/04 02:31:39.86 8N3h1IXY.net
キタ━━━(゚∀゚)━━━ !!!!!
動いたっぽいです。
Theanoってライブラリのバージョンが0.7.0じゃないといけないみたいです。
ここまでめっさ時間かかったorz
遅れを取り戻さんとな。
225:535
18/02/04 18:58:20.09 8N3h1IXY.net
せっかく動いたけどpython読む根性がなかなか湧いてこない。
つか多分pythonじゃなくても読むのしんどいんだけど。
226:310
18/02/04 20:16:17.17 Wmf+lsae.net
他人のコードは読みづらいですよね。
1年前に書いた自分のコードもですがorz
Theano動作おめでとうございます。良かったです。
こちらは…GUI作るのに嫌気がさして、学習部をいじっていましたが、
そろそろ〜30手の評価関数もそれほど酷いものではなさそうな気がしてきて、
中盤探索9手読み(なんの工夫も無し)で記譜作れる事に思い至りまして。
つまり、MCTSより短時間で記譜作成できると…。
この学習で、もし中盤探索の読みがそこそこな精度になってしまったら、
そもそもMCTSにする意味ないじゃんという現実からいかに目を背け続けるか
という戦いが始まりました(涙
227:535
18/02/05 18:27:38.68 Q1ssK5oS.net
やはりこの業界で生きていくには
パイソンの習得は必須…
228:535
18/02/05 20:15:05.78 kkO201mJ.net
ということでパイソンの入門本買ってきました。
とりあえず囲連星のルールを実装してみます。
229:310
18/02/05 23:37:11.58 tGe3CIWd.net
相変わらず、GUIから逃げています。
アルファ碁でいうところのポリシーネットの学習を放棄して、代わりに評価値から
P(UCT探索に対する絞り込み項)を生成していましたが、これをQ(UCT探索の
予想スコア:これまでの探索の加重平均)から、1プレイアウト毎に再計算するよう
にしてみました。
多少探索速度は落ちますが、良い感じかなぁ。
230:535
18/02/08 20:36:12.73 BwB5Lh8w.net
パイソン入門本、一回通して読もうとしてますが、ページ数あって結構大変。
コード書きながら読んだほうがいいかなぁ。
231:310
18/02/09 23:42:10.85 XzN5+u9b.net
新言語習得はストレスですよね。
C#ですら混乱して、C++に帰りたくなってます(汗
というか、メモリー管理できないC#にいらついて、記譜作成回りをいじって
慰みにしています。中盤探索に置換表を足して、反復深化っぽくしてみま
したが、あんまり早くならなくてがっかり。
Python本はまだ買ってません。ウェブ上の入門を眺めたくらいです。
Pythonは構造やら変数の型の考えやら、落とし穴になりそうなところが
色々とありますね。計算式だけ見ていればわかったような気になりますが、
どういう順番で処理が進むのか、慣れないとわからん感じ。
232:535
18/02/10 21:27:45.30 DQEki32w.net
パイソン、変数の型の宣言がないから他人のコード超読みずらいorz
引数に何与えていいのかとかパッとわからないorz
233:535
18/02/12 00:17:40.24 eWCzbr3d.net
9路囲連星の最低限のルールをパイソンに移植しました。
これからテストします。
234:535
18/02/12 02:17:04.85 eWCzbr3d.net
おおむねバグ取れたっぽい
あとはこれを>>214に移植できれば…
235:535
18/02/12 20:42:28.11 eWCzbr3d.net
他人のコード読むの辛いおT△T
これはかなり時間かかる…
236:535
18/02/12 22:23:10.54 eWCzbr3d.net
うーん、なんかこのコード五目並べのルールにべったり依存してる感じなのかなぁもしかして。
複数のゲームに対応しているAlpha Zeroプロジェクトのコードを見たほうがゲームのルールが分離されてるのかもしれないなぁ
一応、別のプロジェクトに手を出すことも視野に入れるか…
237:535
18/02/12 23:45:59.40 eWCzbr3d.net
アルファゼロって数手前の履歴情報が必要らしいけどなんでこんなものがいるんだろう?
謎だ…
238:310
18/02/13 13:07:22.56 SwoVylIU.net
アルファ碁の論文に書いてあったかな。次の1手的には意味なさそうだけど、
有った方が強くなるので外せなかったみたいな事が書いてあったような。
今現在の思いつきですが、ツリーサーチの末端近くでは、手の流れに応じて
点数が変わる事で、そのツリーのルート側の評価(加重平均)に影響が出てくる
可能性はある。
囲碁の場合、同一盤面が出る可能性が非常に高いのだけど、そこに至る経路で
隙があると、相手にその隙を突かれて、分岐が生じる事で、その点数は無意味に
なる。けど、それは途中の分岐をしっかり読まないと判明しない。経路情報によって
評価値(評価関数直)を下げてしまえば、プレイアウトの振り分けが減って、別の
もっと良い手に集中させることができる。こういう事かなぁ。
ま、本当に今思いついたばかりですが。
GUIに気が進まないまま、ぼーっと学習を見ていると、何故か(効果は微妙だけど)
速度アップの方法を思いついてしまうもので…。地味に色々改良しています。
239:535
18/02/13 22:47:18.55 75Woy+K4.net
310さんほどのプログラマがGUIで躓くというのも謎ですね。
単に凝り性なだけですかね。
240:310
18/02/14 20:49:32.16 I/pUqAGs.net
単にGUIが嫌いなんですorz
凝りたい気持ちと、画面遷移の罠から、心がデッドロックを起こして、
しまいに面倒くさくなってしまうという。
241:535
18/02/14 21:17:25.33 XBQY5lLn.net
オセロで画面遷移なんてほぼいらんでしょうに。
まいいけど。
242:535
18/02/14 22:23:18.42 XBQY5lLn.net
五目並べのプロジェクトだとコウの扱いがよくわからないな
囲碁のプロジェクトもgithubで漁るか…
243:535
18/02/17 21:19:34.66 9/16YNby.net
藤井聡太さん朝日杯将棋オープン戦優勝ですか
すごいすな
244:310
18/02/17 21:53:57.13 vz2S+0Ke.net
ドタバタしながら音だけ聞いていたけど、なんか普通に互角から徐々に優勢を
築いて、相手の奇手にも動ぜずにさばいて、勝利って感じで、強さが際立って
いましたね。
これで勝っても漫画なら編集長にバカにされるレベルと言われていましたが、
本当に笑うしかないですね。
245:535
18/02/19 21:32:59.37 k/eP19bS.net
>>214のプロジェクトに囲連星ルールを移植してみまして、モンテカルロAIが動いたみたいです。
ただし超絶遅い。絶望しかないってくらい遅い。
10プレイアウトで10秒くらいかかります。
デフォルト1000プレイアウトになっていたのでそれぐらいないとまともな強さは出ないんでしょう。
となると1手1000秒か?
絶望しかない。
orzorzorzorzorz
246:535
18/02/19 21:45:50.40 k/eP19bS.net
小路盤五目並べとかConnect4とかtic tac toe くらい小さなゲームじゃなきゃまともに動かんぞこれ
247:535
18/02/19 21:53:01.97 k/eP19bS.net
,.‐''" ̄`丶、 ひどい…!ひどすぎるっ……!
/ \ こんな話があるかっ…!
/´ \
/ |\_>、_ 、r‐、 \ 命からがら… やっとの思いで…
レ! ||_| |/_ ヽ\} \ 辿り着いたのに… やり遂げたのに……
|八|-/>、∪_ u`i ト、 \
/ / ,くィ夕u' | |/ ``‐- 、_.、__\ 実行速度っ…!
|/ / /_ヽ┐u | ,| / ,-,.=====ゝ
ヾ' / r┘|.l__
248:l | /\// \ あの計算量がもぎ取ってしまった……! \ ) | N / //\./´ ̄`丶 |u | /|(l(l「| | | | せっかく手にした | u| / | ヾ-イ .|| l、 俺の未来…希望… _| |/| | \_|_|,. く. \ ハ.___ハ >、 \ \ \ Alpha Zero AI を……!
249:535
18/02/19 22:39:02.94 k/eP19bS.net
つか連想配列とか見るからに遅そうなクラス使いまくりなんだよなぁ
こうなったらC++に移植する方向で考えるか??
250:535
18/02/19 22:59:04.05 k/eP19bS.net
囲連星ルール部分をC++で書きなおしてパイソンと結合させるという手もあるんだろか??
とにかく今のままじゃ遅すぎる
囲連星ルール部分がどれくらいネックになってるかもよくわからないですが多分相当遅い
251:535
18/02/19 23:28:23.57 k/eP19bS.net
五目並べルールだとそこそこのスピード出ますね
当たり前か…
やっぱ囲連星ルール実装がネックか〜
は〜
死にたい
252:310
18/02/19 23:48:36.73 KY7Wcd5F.net
PythonからC++関数を呼べるみたいですね。
C++からPythonも呼べるみたいです。
前にPythonに手を出そうかと思った時にググったら出てきました。
前者の方が解説が多かったと思います。
自分はBitboardを使いまくりなので、Pythonに手を出しあぐねていました。
また、評価関数の学習部と、評価値計算をうまく分離できれば、前者を
Python、後者をC++で書けないかなぁと思っていますが、im2col関数の
うまい実装を考えるのが面倒で、放置になっています。
253:310
18/02/19 23:56:04.01 KY7Wcd5F.net
ここ数日強化学習の結果がよさげになってきたので、結果の良かった学習方法に
集中させたら、また変な学習になってしまったようで、迷走中です。
学習の具合が良いと、色々な探索も速度アップするんだけど、具合が悪いと全部
悪循環になってしまうという。
仕方無いので、中盤探索の反復深化を作り、その結果を置換表に溜めてオーダ
リングを行うようにしてみましたが、効果があったのかよくわからない罠。
こちらも、学習の具合が良くなったら、急激に効果が表れるのではないかと期待
しているんだけど。
254:535
18/02/21 01:00:17.47 65PdIEqg.net
SWIGっての調べてます。
なかなか手ごわい
255:535
18/02/21 22:17:30.79 65PdIEqg.net
まずは簡単なC++関数一個だけのパイソンモジュール作成に成功しました。
つぎは囲連星ルールパイソンモジュールの作成ですね〜
256:535
18/02/21 23:35:14.72 65PdIEqg.net
なんかdeepcopyとかいうのに対応しなきゃいかんようなのだが。
257:310
18/02/22 01:36:26.61 pKMuaeJh.net
評価関数がどんどん悪化していく罠。
頭に来たので、評価関数をステージ分割。
ステージ分割すると学習部分の全面書き直しとなる。
どうせニューラルネットは使わないと決めたので、線形回帰にスケールダウン。
またしてもゴチャゴチャしてきた部分を全面書き直しパターンへ。
もうGUIはすっかり忘れていますorz
258:535
18/02/24 00:20:19.52 23+l5SrV.net
キタ━━━(゚∀゚)━━━ !!!!!
動きました!
C++版囲連星ルールパイソンモジュール!!!
10倍くらい速くなりました!
でも1000プレイアウト1手約100秒
まだまだ遅い
でもこれ以上速くするアイディアもないし、とりあえず、これで進めるか。
259:535
18/02/24 00:49:09.02 23+l5SrV.net
なんかトレーニングが不正終了しますね。。。
zipから解凍したソースそのままで実行しても不正終了になるのでちょっと謎ですね。
260:535
18/02/24 17:22:36.17 23+l5SrV.net
なんかteanoてライブラリが悪いっぽいorz
上手くインストールできたと思ってたけど実はまだ駄目だったのかなぁorz
261:535
18/02/24 20:56:43.77 23+l5SrV.net
あかん、さっぱりわからんorzorzorz
262:535
18/02/24 23:35:51.51 23+l5SrV.net
teano.functionってのが悪いっぽい
263:名前は開発中のものです。
18/02/24 23:45:38.80 23+l5SrV.net
teanoじゃなくてtheanoかスマソ
264:535
18/02/26 23:09:59.32 iAzX3KQf.net
Linuxインストールしてみようかなぁ(ボソ
265:名前は開発中のものです。
18/02/26 23:28:03.39 HIL9tQPi.net
「インストールした」なら使ってもいい
266:535
18/02/28 21:53:14.78 EHGfbJ7U.net
linux入れるならVMWareお勧め?
他に候補ある?
267:535
18/02/28 21:54:21.00 EHGfbJ7U.net
ちなみにHDDはパーティション切りなおすのメンドイ
268:310
18/02/28 22:12:43.27 4D1Jf52Q.net
評価関数変更ついでにまるっと作り直してます。
自己対戦など、汚いコードを綺麗に書き直し。
かけた工数的には自己対戦の方が大変だったかも。
評価関数を1手毎のステージ分割で60ステージにして、学習し直しです。
これで序盤を学習させると終盤が狂う問題は解消されると信じていますが、
学習に60倍の時間がかかる事が予想されるという状態で、記譜を幾ら作って
も追い付かない感じなので、強化学習主体にするつもりです。
というか、まだ、UCTの所は作りこんでいない。
まあ、ほとんどコピペですが。
で、ここまで来たところで、もういっちょ改造したくなってきた…。
269:535
18/02/28 23:51:16.48 EHGfbJ7U.net
MVWareでubuntu入れました。
270:535
18/03/01 00:04:15.57 Jxqcd31Q.net
ubuntuだと>>214のプログラム問題なく動くみたいですね
素晴らしい。
271:535
18/03/01 21:09:31.45 Jxqcd31Q.net
囲連星ルールをubuntuに移植してみましたがエラーが出ますね。
合法手が無い、みたいな感じに見えますが…
272:535
18/03/01 21:31:25.39 Jxqcd31Q.net
くそ〜結局コツコツソース読み解くしかないかorz
いい線行ってると思うんだけどなぁ
273:535
18/03/01 21:44:17.24 Jxqcd31Q.net
うおお、しんどい、これはしんどいorzorzorz
274:535
18/03/01 23:35:08.53 Jxqcd31Q.net
ん、human_play.pyは動きますね…
train.pyと何が違うんだろう?
275:535
18/03/03 00:08:46.84 nviHj1ts.net
C++のクラスをディクショナリのキーに突っ込んでさらに参照しようとしたときにキーの比較に失敗してるっぽく見える
276:535
18/03/03 01:00:19.05 nviHj1ts.net
__hash__と__eq__を定義するといいみたいです。
__eq__はC++のoperator==で良いみたいです。
277:535
18/03/03 01:33:37.87 nviHj1ts.net
まだエラー出ますね。
行ったと思ったのにorz
278:535
18/03/03 19:12:35.59 nviHj1ts.net
お、処理が進み始めました。
Board.init_boardでC++のオブジェクトを初期化してなかったのがエラーの原因だったみたい
279:ナす。
280:535
18/03/03 19:51:05.26 nviHj1ts.net
やっぱ小路盤五目並べと比べて時間かかりますね。
焦れるw
とりあえず、これでウェイトファイルが出力されれば第一段階クリアですが…
281:535
18/03/03 20:18:47.79 nviHj1ts.net
あ〜これシングルスレッドなんですね。
まあ確かにコード読んでてもマルチスレッドには見えなかったけど。
282:535
18/03/06 20:34:35.86 4NZM8BU2.net
ベストポリシーとか言うファイルは出力されましたが…
いかんせん遅すぎますねぇ
並列化してハードも強化してあと30倍は速くしないと…
283:535
18/03/06 22:28:34.91 4NZM8BU2.net
んんん、もしかして仮想環境だとディスクアクセスめっちゃ重くなる?
CPUがほとんど仕事してないんだが…
284:535
18/03/06 22:40:05.64 4NZM8BU2.net
こりゃネイティブLinux環境構築も考えるか…
285:535
18/03/07 20:16:56.97 Xay4EsKj.net
ディスクアクセスが100近くいって処理がほとんど進まなくなっちまったorz
いったん止めるべきかな〜
286:310
18/03/08 00:53:26.17 KJS05rsc.net
新評価関数版ようやく一通りできた。
強化学習にすごーく時間がかかりそう(汗
というわけでNew PC見繕ってます。
ノートPCでi7-8700Kの6コア12スレッドにメモリー32メガで
GTX1080搭載のノートPCがある。
むむむ。
287:535
18/03/08 18:17:36.63 GeAn+CtF.net
お高いんでしょう?
288:535
18/03/08 19:23:50.24 MQ3zVdYu.net
帰ってきてパソコン見てみたら学習が強制終了してました。
土曜からずっと動かしっぱなしでしたが、ここにきて強制終了は痛いですね。
解決しようにも再現させるだけで数日かかってしまうし目星を付けることすら難しそう。
289:535
18/03/08 20:05:12.94 MQ3zVdYu.net
途中で出力されたポリシーモデルで対戦してみましたが、
予想してたよりずっとまともな手を返してきますね。
ほぼランダムに着手すると思ってました。
これはちゃんと学習できる環境整えればかなり期待できるかも!
290:535
18/03/08 20:11:16.29 MQ3zVdYu.net
俺も良い目のノート一台買ってLinux入れようかなぁ
デスクトップ2台は手狭だからなぁ
291:535
18/03/08 21:30:30.05 MQ3zVdYu.net
とりあえず、Linuxならパイソン動くことはわかったから
他のもっと高速化に力入れたalpha zeroプロジェクトも試してみようかな
292:310
18/03/08 23:33:49.98 KJS05rsc.net
どもです。
お高いですが、デスクトップのフルスペックの1/3以下で済むようです。
回しっぱなしの奴がレアケースで異常終了すると萎えますね。
自分の奴は、たぶん怪しいところはほぼ蓋をしているので、今は安心しています。
とはいえ、評価値の保存に数秒かかるようになってしまったので、保存中にうっかり
終了してウェイトファイルを破壊しないように、いくつか策を講じました。最近はOSの
アップデートで勝手に再起動されちゃうので。
293:535
18/03/09 20:26:00.14 wTwCUiOb.net
デスクトップの1/3って性能がですか?
294:310
18/03/10 19:53:38.63 jEGGoWyJ.net
あ、価格と性能です(^^;
強化学習に凡ミス発見。
強化学習が良いのは、学習し続ければ何とか復旧できると思えるところorz
295:535
18/03/10 20:42:21.57 MfccYD4W.net
価格コムで調べたら>>281って50万以上ですよね?
296:310
18/03/10 23:47:40.15 jEGGoWyJ.net
こいつです。
URLリンク(www.pc-koubou.jp)
i9-7080XEのデスクトップだとメモリー頑張ると100万ですからね…
297:535
18/03/11 00:26:26.59 Rh0MFs+Y.net
>>291
ほほう?
ハイスペックノートの割には確かに安いですね。
298:535
18/03/12 23:17:36.89 t7pU5NWq.net
うわパイソン部分でルール間違ってたorz
やっぱ軽くでもテストはやっておかないとあかんなorz
299:310
18/03/14 21:17:53.41 Hsr0gVbu.net
うぬぬ。強化学習でどこかおかしい。
強化学習単純化しすぎちゃったかなぁ。
暫定的にひたすら記譜作成&記譜学習に戻しました。
遡り30手が鬼門。記譜学習で、ここをクリアする事を当面の目標にします。
とはいえ、残り29手完全読み切りの記譜がそれなりにあるのは、以前では
考えられない状況ではありますが。
300:310
18/03/15 22:46:56.01 CxmBs8oA.net
強化学習がおかしいというより、記譜のパターンが圧倒的に足りていなかった
のかもと思い始めました。それによって、着手して分岐しても±0となっている
みたいな。
とりあえず、記譜の増殖手段を模索中。
今は、ヌルウィンドウサーチを使用して、遡り探索を行っている関係で、間違った
着手(石損となる手)を捨ててますが、ある程度までその手も読み切って、記譜に
加えても良いのかなぁと思っています。
とりあえず、βカット(もっと良い手があった)時の評価関数は明らかに読み間違い
をしているので、そこ限定で記譜に加えていますが、ある程度以上の手数は全て
付け足しても良いのかなぁと。
301:310
18/03/17 02:14:23.31 Foa7nGV6.net
なんとなく想像しただけですが、何が悪かったのかわかり始めました。
今の学習は「良い手」しか学習していないという事です。
序盤はある程度ランダムな着手を入れて、結果がばらつくようにしていますが、
途中から読みを入れて、良い手だけで着手し、その結果を遡りで訂正しています。
遡りが有効なのは30手くらいまでで、序盤のランダムは20手程度までに抑えて
あります。とすると、遡れる範囲では、悪手を打ったらどういう事になるのかという
学習が抜けている。間違えた着手もちょっとだけ悪いだけでです。結果、最善手の
評価値はそこそこ正確なのですが、極端な悪手も、評価値としてはちょっとだけ
悪い数字でも問題が起きないという事になります。
これはこれで順序付けさえ合っていればそれで良いのですが、ちょっと学習が
進んで、微妙に係数が変わった時に、計算上0.1程度しか悪くない相当な悪手
をうっかり選択しやすくなってしまうという事で、これがオーダリングで悪さをして、
探索時間を長引かせてしまう可能性があります。
恐らく評価関数のステージ分割で、表現力がかなりアップした事から、こういう
学習漏れみたいな事が起きてくるのかなぁと。ほんと、評価関数はスカスカです。
というわけで、昨夜書いたように、ある程度深さを捨てて分岐をすべて記譜に残す
ようにしてみようかなぁと思っています。しばらく記譜作成しながら、この事を踏まえ
た強化学習をちょっと考えてみたいと思っています。
302:535
18/03/18 22:34:31.76 tUeDVO3T.net
結果が出るまで時間がかかり過ぎるなぁ。
もうちょっと様子見るけど。。。
やっぱマルチスレッド化された別のalpha zeroプロジェクト探そうかな…
303:535
18/03/20 21:45:14.39 /Ra5toxr.net
駄目だぁ、強くなる気配がないorz
別のalpha zero プロジェクト本気で探すか…
ここまで来てもったいない気もするけど…
304:535
18/03/23 21:13:02.23 Z4T42krD.net
なんかバグ直して再学習したら、ランダムに打ったほうがマシ、くらいに変な手(1の1とか)打つんだが?
もう嫌になっちゃう。
305:535
18/03/23 21:21:30.45 Z4T42krD.net
そういやLeela Zeroも学習過程では一線うってたな。。。
逆にいい傾向なのか???
306:310
18/03/25 02:23:39.84 Yig4cMbl.net
分岐をすべて記譜にリストアップするようにしてから、爆発的に記譜が増えてます。
2000程度だったのが、15000超えました。
が、まだまだスカスカみたいです。
ここまでするんなら、真面目に自己対戦して遡りせずに、ランダム着手に対して
分岐をリストアップさせても一緒というか、早い気がしてきています(汗
307:310
18/03/31 01:38:59.31 h3UgGfs1.net
ランダム着手も追加して記譜増殖中。ただいま32000超え。
もっとも、残り数手とかの記譜もあるけど(汗
ステージ分割しているので、記譜がなかなか生成されない25〜30手近辺で
非常に少ない教師データで何度も学習する事になり、そのあたりが極端な
過学習になってしまった。
解消方法をいくつか検討中です。
1)時間かかっても良いので、25〜30手の記譜ができるまで頑張る
2)前後の盤面を混ぜて、教師データを増やしてみる
3)ランダム強化学習してみる。
2)3)をやると、おそらく、平均化されて評価値がフラットになるが大小関係は
治ってくると思う。
というわけで、今夜は2)3)を試してみる予定。
308:310
18/03/31 01:43:35.07 h3UgGfs1.net
あと、時々スコア指定(ヌルウィンドウサーチ)の記譜作成処理で
エラー(スコア間違い)が出る時がある。
運が悪い事にハンドリングミスその他で、記譜を残せていないので、
現象の特定ができていない。
頻度としては数日に1回くらい。
たぶん、全滅と直前のパスがらみだと思うんだけど。
309:535
18/03/31 23:42:05.28 4ltMn3J2.net
Geforce GTX 1060を増設しました。
>>214をpytorchで学習してみます。
310:535
18/03/31 23:46:58.88 4ltMn3J2.net
んーうごかん。
GPUありとなしでポリシーファイルに互換性がないんですかね?
もしかして。
初めからやり直すか…
311:310
18/04/01 01:07:10.57 OBeH+1OH.net
おお。どんどん進んでますね。
こちらは、昨夜のバグの現象は特定しました。
スコアが62や−62で、mtd(f)の探索開始が64や−64の時に、
置換表に残った64や−64が悪さして、64や−64と誤答する模様。
とはいえ、どこを直すべきかはわかりません。探索開始が64や−64
の時に、62や−62にしてやる事で、姑息的に回避はできるので後回し。
あと、記譜作成に色々機能を加えていたら、どこかがおかしそうだという
不安な状態になってしまいまして。このまま記譜学習を進めて良いか自信
が無いので、今までのデータで安全な部分をテスト用に回して、新たに
記譜を作成開始。34手目までは全探索しながら普通に遡れる感じです。
33手目から先は探索時間がしんどいので、ひとしきり落ち着いてから、もう
一度、遡りチェックのプログラムをきちっと見直して、追加していこうかな
と思っています。この間に、強化学習混ぜて、過学習部分を解消して
いこうと思います。
312:535
18/04/01 12:43:33.62 lACu3cfl.net
お、ちゃんと時間測ってないからあれだけど、気持ち速くなってる気がする。
ちゃんと時間測りたいなぁ。
313:310
18/04/01 13:49:33.48 DAl+8Sdv.net
バグ問題は、結局姑息的手段では回避できず。
全滅がらみでほかのケースでも誤答するケースが発生しました。
元々FFO#59用にmin-Max探索に入れていた、全滅時の処理くらいしか
原因となりそうなものが思い当たらなかったので、とりあえずコメントアウト
して様子見です。全滅時の探索が速度低下しますが、仕方がありません。
314:310
18/04/02 20:15:06.48 9LYme7cN.net
結局バグ問題は…迷宮入り臭いです。
記譜作成で負荷テスト並みに探索を繰り返すと、全滅絡まなくても間違うケースが
出てきました。再現性が無いのが辛いところ。
その昔悩んでいた時も、やっぱり置換表がらみの問題で迷宮入りでしたが、
今回も、ケチって置換表を極力クリアせずに使用していた事から、何らかの
矛盾が起きているようです。それを言っちゃうと、置換表付mtd(f)でf値を変え
ながら探索することも、またその時に作成された置換表を流用して記譜作成
兼ねた読み切り処理を速度アップすることも、怪しいという事になるわけで。
315:間違えてしまった事が判明した時点で、その探索は捨てるくらいしか対策が 無いという事になります。 ネットで調べたら、将棋AI界隈でも置換表の問題点を書いている人がいまして。 少なくとも深さがあっていない置換表データは使うべきではない模様。 今の調子だと一晩動かすと結構な頻度で朝見たら止まっているとい状態なので せめて発生率を下げるべく、mtd(f)に入る前に置換表をクリアする事にしました。 なぜしなかったかというと、記譜データからスコアが確定している盤面を置換表に 入れて、それを見ながら既に読み切りしている盤面は飛ばす処理をしていたから です。置換表をクリアして盤面再構築に時間がかかるためです。別途盤面キャッシュ を持って、そちらは追記、置換表は毎回クリアという形に変更しました。
316:535
18/04/02 22:24:32.85 3iK+AnRP.net
Leela ZeroがKGSでかなり強くなってる。
俺がパクったプログラムも学習し続けたらあれくらい強くなるんだろうか?
317:535
18/04/04 20:42:51.24 Y0WMbzNW.net
え、ちょっとまってよ。
GPUありなしでポリシーファイルが違うってことは
成果物を配布しようとしたらGPU持ってる人しか遊べないってこと?
318:535
18/04/04 20:54:25.72 Y0WMbzNW.net
しかもCUDAとかも一緒にインストールしてもらわないといけない?
ええぇ?
319:310
18/04/06 22:00:28.44 952uhqxW.net
誤答問題は、置換表クリアで解消しました。
違う局面の探索で使用した置換表データは使いまわしてはいけないという事で。
なんか、結果的に、2年くらい前にも同じ事で騒いでいたような。
色々整ってきたので、あとはひたすら記譜作成しながら学習を回すだけになって
しまって、暇になってます。別PC買ってそっちで学習させながら、別の事をはじめ
ようかなぁと思い始めています。
320:535
18/04/07 20:43:17.69 SqbCC315.net
うーん、つよくならないorz
学習は継続しつつ別のalpha zero プロジェクトも物色するか…
321:535
18/04/08 22:10:18.77 ZB9Bj6DG.net
ん、なんかメモリリークあんのかな…
swigでC++から移植したクラスってデフォルトでガベージコレクトされないのかなぁ?
もしかして。
322:535
18/04/08 22:43:04.99 ZB9Bj6DG.net
VMWareの設定がメモリ1GBになってた。
とりあえず8GBに増やしてみた。
323:535
18/04/08 22:53:48.62 ZB9Bj6DG.net
お、メモリ増やして再起動かけたら結構いい感じで進みだした?
メモリ増やしたのと再起動かけたのどっちが効いたのかわからんが。
324:535
18/04/09 20:58:16.91 500BArdX.net
くそ〜ベストポリシー更新が全く来ないorz
もう何回目だ?TT
325:535
18/04/11 20:46:51.70 uiOmKVU+.net
お、メモリ増やしたせいか連続運転が安定している。
しかしベストポリシー更新は相変わらずなしorz
326:535
18/04/11 23:07:04.06 uiOmKVU+.net
もしかして、ネットワークの初期値が糞すぎるんだろうか。
でも確かめようがないorz
327:535
18/04/15 20:07:24.81 8sCJrZFg.net
ベストポリシー更新まじコネ〜
でも他のプロジェクトに浮気しようにもなかなか手ごろなのがないんだよなぁ
328:535
18/04/15 20:21:37.51 8sCJrZFg.net
いっそ実績のあるLeelaZeroを本気でパクりに行ってみるべきか…
でも多分、難解なんだろうな〜
329:535
18/04/16 20:30:05.64 6KBtspgu.net
あんまりおかしいんでソースをオリジナルとdiffとったら学習係数が1/100になってたんだがwww
え〜何時いじったかな全く記憶にないwww
これで学習が進んでくれれば!!
330:535
18/04/16 23:37:28.33 6KBtspgu.net
loss も entropyも減ってきてる!
これでベストポリシー更新が来れば!!
331:535
18/04/17 22:16:19.94 E16XJnGD.net
キタ━━━(゚∀゚)━━━ !!!!!
ベストポリシー更新きました!
次の切りのいいところで止めてプレーしてみよう
332:535
18/04/17 22:34:03.78 E16XJnGD.net
それはそうとzen+の発売日が迫ってますね。
金がないから買えないけど情報だけは追っかけてみます。
爆速だとい
333:「な。
334:535
18/04/18 23:48:24.10 7NtNWbU1.net
あとちょっとだけ待とう
終局までの手数も順調に減ってきてるから意味のある手を打ってるんだろう多分
ワクワク
335:535
18/04/19 20:50:17.33 lyvIQrMy.net
打ってみました。
序盤、中盤は棋理の芽生えみたいなものが感じられました。
伸ばせそうなところを伸ばすとか伸ばされそうなところを止めに来るとか
でもわざと負けようとしても5連までは積極的に作りに来るのにそこからパタッと伸ばすのをやめて7連を作ってくれませんw
なぜw?
でもまあ、希望は感じられました。
もうすこし学習してみます。
336:535
18/04/19 23:51:35.82 lyvIQrMy.net
zen+なかなかよさげですね。
前世代と比べて一割前後性能アップ?
337:310
18/04/20 09:40:06.18 HgLFJ5UM.net
うーん。AMDはSIMD命令で遅い命令があって、速度低下するかもって
どこかで読んじゃったからなぁ。
こちらは地道に記譜作成しながら学習させてます。
深さ優先で記譜作成すると、分岐が少ない手筋ばかり増えていくので、
幅優先で、同じ深さである程度記譜溜まってから、次の深さとするように
したのですが、空きマス27からの記譜展開で、時間がかかるようになって
なかなか空き28マスに行けない。オーダリングの精度が出ていないから
だと思いますが、同時に選択肢も増えてきて、余計時間がかかる感じ。
空き30マス突破したら、かかる時間の増加率は下がるはずなんだけど。
338:535
18/04/20 22:59:48.32 1YRRGto3.net
もしかして終盤はあえてランダム性を残すことによって学習が進みやすくなるなどの深い理由があるのだろうか?
わからんが。
339:535
18/04/20 23:02:21.21 1YRRGto3.net
それとも序盤は同一局面のデータがたくさん現れるから学習できるけれど
終盤に行くとデータが散らばっちゃって学習できなくなるということだろうか
340:名前は開発中のものです。
18/04/20 23:03:29.26 1YRRGto3.net
あるいは一線や二線は打たないほうがいいと学習してしまっているがため、7連を作れないのだろうか?
341:310
18/04/21 20:32:42.81 AdkW58BW.net
オセロは記譜生成させてるだけで暇なので、将棋の事を考えてました。
KKPとかよくわからないし、同じ事をやってもつまらないので、利きを点数化
しようかと考えてみまして、実際の計算方法を考えていたら、自玉周辺と
相手玉に対する利きがKKPなのではないかと思い至ってしまいました。
持ち駒の点数は駒種毎に固定で振られていて、駒同士のぶつかりによる優劣
特に駒交換はmin-Maxにて補間しているのかなと。評価関数自体は意外と単純
な事しか学習していない感じで、探索で補っている部分が大きいように感じます。
こうやって見ると、上手く単純化しているなぁと。
自分で勝手に想像した内容に感心してしまいました。
ただ、これならこれで、自玉KPと相手玉KPの合算で、2駒関係に次元を落とせ
そうではないかと思ってしまいました。まあ、無理なんでしょうけど。
自分がやる上での一番のネックは、オセロの評価関数が点数だったために、
なんちゃって強化学習しかやった事がな点ですね。あと、みなさんライブラリ化
されていて、それに則れば色々な人の考えた高速化・高効率化のネタが利用
できる点で、一から車輪の再発明していては追い付けないよなぁと。
342:535
18/04/21 20:39:59.86 8g8p+RpI.net
ほう、将棋に進出ですか。
将棋AI界はオープンソースが進んでる感じなんですかね。
343:535
18/04/21 20:50:54.10 8g8p+RpI.net
alpha zero のパクりプログラムgithubから丸パクしてきたわけだけど
そろそろちゃんとソース読み解いてみようかな。難しいだろうけど
丁寧な解説がどこかにあればいいんだけどね
344:535
18/04/22 17:35:27.70 QOhFsFyf.net
お、AIが7作った。
いままではわざと負けようとしても勝ってくれなかったけど今回は勝ってくれた。
まだまだ弱いけどもっと学習させてみよう
345:535
18/04/22 19:13:47.98 QOhFsFyf.net
俺も学習見守るだけで暇になっちゃったからなんか始めたいけど
計算リソースが学習にもってかれちゃってるからそこどうするか。
やっぱPC新調か?
グラボも効果あるみたいだし今度はGeforce 1080 Tiとか試してみたいな。
金がないけど。
346:310
18/04/22 19:48:13.41 wf3ukgDl.net
だよね。自分も脳内妄想で我慢です。
PC新調しちゃうか思いっきり悩み中。
347:535
18/04/25 20:09:35.29 QZIUF0Ri.net
もっとネットワーク大きくしてみたいな。
でもさらに学習時間がかかると思うと躊躇する。
348:535
18/04/27 21:32:10.80 b1G/gV5U.net
お、損失が3点台だったのが2点台になった。
いい感じなんじゃないでしょうか?
349:535
18/04/28 17:38:12.12 MUOfiFNK.net
ジムケラーがインテルに来たとか。
いいCPU作ってくれるならどこでもいいけどね。
350:535
18/04/29 20:30:57.65 mX318X6T.net
序盤は素晴らしい棋理の芽生えを感じるが、いかんせん終盤がなぁ
ほかのアルファゼロクローンも似たような感じなのだろうか?
351:535
18/04/29 20:50:13.18 mX318X6T.net
公式AIともやってみたけど序盤センスは互角以上と感じられる。
実際、必至をかける一歩手前まで行った。
終盤力さえ磨かれればおそらく公式AI越えはある。
352:535
18/04/30 22:51:47.16 qAJqtYoj.net
学習が1000エピソード突破。
1500が規定値だから最後まで回したいな。
353:535
18/05/01 21:34:25.66 bYHVWZMu.net
もっとパワー、速度が欲しいな。
こんなことなら最初から1080 Ti いっときゃ良かったかな?
354:535
18/05/03 10:58:16.57 gNd8xJ5s.net
ちょっと思うところがあって、思い切ってネットワーク大きくしてみました。
学習最初からやり直しです。
さて吉と出るか凶とでるか。
355:535
18/05/03 13:28:58.30 gNd8xJ5s.net
ん、ネットワーク構成変えたら学習率もいじらないと上手くいかないのか?
ネットワークでかくしたら学習率は大きくすればいいのか小さくすればいいのか…
356:535
18/05/03 13:42:41.42 gNd8xJ5s.net
ネットワークでかくしたら学習率は小さくするのがいいみたい?
357:310
18/05/03 20:31:46.75 EAR7zekO.net
なんか順調でうらやましい。
俺もやっぱGPU付きのPC買うべかな。
一般的にLRでは、学習率は発散しない限界まで大きくするのが良いらしく、
昔は、最初大きく、試行回数増えるごとにだんだん小さくみたいな事をしてました。
NNではRMSPropとかADAMとかで自動調整する流れだと当時理解していました。
ただ、Googleの論文読むと、普通に学習率固定っぽく読めてしまうんですよね。
強化学習だと学習率固定が良いのかも知れません。
表現力大きいからあんまり問題ない気がするのですが、学習率は小さくすると
学習に時間がかかる代わりに、収束しやすくなります。局所解には陥りやすく
なるのではないかと愚考しますが、強化学習における局所解と、教師付学習に
おける局所解は現象が違うから、よくわかりません。
358:310
18/05/03 20:37:19.91 EAR7zekO.net
こちら、例によってひたすら分岐付き記譜を作成しています。
空きマス27の所(完全読みとしては26)のところから、計算時間が案の定すごく
かかるようになってしまって、遅々として進まなくなりました。
最後の手段でとっておいた、UCT探索で仮PV作成し、それでmtd(f)にて評価値を
迅速に確定して、その評価値で正しいPVを求めるという流れにしたところ、恐らく
数倍程度に高速化され、それによって記譜が集まり正確になる事で、評価関数の
精度が上がって、仮PVが正確になりという好循環に、ようやく入る事ができました。
ただ、それでもまだ時間はかかるというか、今空きマス28まで持っていったら、
また時間がかかる地獄に入りそう。最低でも空きマス30までは持っていきたい。
つか、待っている時間が長い…セカンドPCが欲しい。
359:310
18/05/03 20:41:41.51 EAR7zekO.net
>>351
>数倍程度に高速化され
あくまで仮PVが数手分合っている時の話で、仮PVが間違っていると、
むしろ遅くなる可能性があります。
あと、一つの局面に対し、最善手が複数あるケースでは、例えば最善手
が2つあると2倍程度時間がかかるという問題があるのは認識していて、
対策は可能なのですが、そうするとバグった時にβカットのエラーを吐か
ないという恐ろしい状態になってしまうので躊躇しています。
360:310
18/05/04 19:57:24.12 5CQB8Di3.net
世界コンピュータ将棋選手権の2次予選までで強さをみせつけている
T.N.K(通称たぬき)ですが、DL勢にして高速評価関数という事なので
アピール文書を見てみました。
これ、CNNではなく、全結合のDeep Networkの模様。追加で論文も
出ているので、見たところ5層のMLPです。
入力層に玉との2駒関係を使っていて、そこは計算量が多いので、
ここだけ差分計算で高速化しているとの事。自分は行列をEigenに
任せちゃってるので差分計算していませんが、オセロでも結構使え
るはず。
もう一度オセロをMLPに拡張したくなってきた(汗
361:535
18/05/07 20:19:04.83 m+uVPKyG.net
ネットワーク大きくすると学習が収束する確率下がるんですかね?
なんか学習がうまく進んでないようです。
362:535
18/05/08 00:21:37.96 VKk6NsC2.net
もしかして学習率だけでなく、ほかのパラメータにも手を加えなければならないってことですかね?
363:310
18/05/08 01:01:09.30 6noaUyVY.net
バックプロパゲーションで計算している以上、深さが深くなると、
その分初段まで誤差を遡らせるのに時間がかかるから、収束が
遅くなって当然かと思います。
あと、初期値のランダム値の幅も、適切に設定しないとなかなか
収束しなくなりますし、それでも初期値の運が悪いとまったく収束
しないなんて事もあり、ちょこっと不安定なところがあります。
XavierとかHeとか初期値の設定項目はありませんか?
本で読んだ知識なので、現実にどれくらい影響するのか良くわかりませんが(^^;
364:535
18/05/08 19:21:19.88 3yhYJr6O.net
おお、ありがとうございます。
しらべてみます。
365:535
18/05/09 21:58:37.29 53SriW94.net
パソコン壊れたかと思ったが放電したらなおった
あー怖かったTT
366:535
18/05/10 20:05:15.86 X+P+UxO/.net
学習率の変動率?を下げたら結構うまく動いてるっぽいです。
367:535
18/05/11 20:15:31.62 TPpBGuAT.net
loss とか entropyはいい感じに減ってるのに自己対局の結果がついてこないですね。
うーん、なんだろう?
368:535
18/05/12 17:16:50.40 UY4N1vvW.net
いや、自己対局もちょっとづつ改善してるみたいです。
もっと時間が必要かな。
369:535
18/05/13 18:33:11.99 jNzVm6ts.net
windowsがたまに夜中に勝手に再起動してしまうんだが?
マジむかつく(怒
370:310
18/05/13 19:53:17.92 i+O998yE.net
Windows Updateかな?
俺は通知もらうだけにして、タイミング見て自分で再起動かけてる。
まあ、24時間経つとカウントダウンが始まるので、早目に再起動する事になるけど。
371:535
18/05/16 19:41:44.02 zhHRqcbt.net
いままで50エピソード毎に自己対戦してたけど、自己対戦がかなり重いから200エピソード毎に自己対戦にしたらなかなかいい感じ。
372:535
18/05/16 20:52:45.23 zhHRqcbt.net
ネットワーク大きくしても詰めが甘いのはかわらないです
373:ヒorz. 公式AIに勝つチャンスあったのに勝ちを逃してしまいました。
374:310
18/05/17 20:16:35.67 3wU0adoY.net
Surfaceの電源ケーブル、そろそろ断線しそうだなぁと思っていたら、
PCをひょいと動かした瞬間に、まさかの電源落ち。
ウェイトデータ書き込み中に停まらないように色々工夫していても、
この手の落ちには対処できるわけもなく、また大変に運が悪い事に
またしても後半10ステージ程度のウェイトデータが飛んでしまい
ました。バックアップとっていたのですが、気づかずにいたので、既に
上書き済みという罠。
後ろ10ステージ分のみゼロクリアして、そこだけ今のデータで再度
学習する羽目になりました。
orz
375:535
18/05/17 20:37:00.03 anbc4vLN.net
乙w
376:535
18/05/17 23:06:00.81 anbc4vLN.net
これはNew マシンを買えとの神のお告げww
377:535
18/05/18 20:48:52.38 UxmUzKYy.net
まただよw(再起動)
378:名前は開発中のものです。
18/05/18 21:21:28.72 UxmUzKYy.net
藤井聡太さんが7段昇格とか。
凄すぎ
379:535
18/05/19 20:01:16.80 PB1pw3rI.net
むう、AlphaZeroのポテンシャルはこんなものではないはずだが。
でも100万局くら学習させないと真価は発揮できないかもなぁ。
380:535
18/05/20 23:46:47.79 A2GqvvmZ.net
19路囲碁だと20層くらい層がないと駄目だとか。
うーん20層は厳しい。。。
381:310
18/05/21 20:17:29.25 aDShJzMX.net
畳み込み窓が3×3で、隣との関係を1マス分づつ認識しているとすると、19路で
19層必要で、出力の全結合層つけて20層って事なのかなぁ。
あとフィルタ数も大事だと思う。フィルタで認識する特徴の種類が決まっていると思う。
なんとなくだけど、こう仮定している。検証はしていない(汗
382:535
18/05/21 21:00:41.57 9qAF6usq.net
いまのところ192 * 6 でやってます。
9路だから192 * 10 にすればよかったかなぁ
383:310
18/05/22 20:12:53.71 do1nJaPu.net
五目系なら、周辺5マスが把握できていればよいかもよ。
比較検証しなきゃわからんけど。
384:535
18/05/22 20:18:42.34 025jAm4L.net
うーん、そうなんですか?。
ライフゲーム囲碁はもろ周辺5マスなんですけどね。
囲連星成功したらライフゲーム囲碁もやりたいですね。
385:535
18/05/23 23:49:25.39 z+TgzaXz.net
くそ〜何時まで経っても一手の重みみたいなものを理解してくれないorz.
なんか足の遅い打ち方するんだよなぁ。
もういっそ20層にしちゃおうかな orz
386:535
18/05/24 20:38:02.47 g5FOS6wP.net
ん、ちょっとづつだけど強くなってる気がする。。。
くそ〜Googleの計算リソースがあれば30分くらいで名人超えるんだろうけど。。。
387:535
18/05/24 20:57:44.30 g5FOS6wP.net
自己対戦が勝率100%行ってしまいました。
対戦相手も更新されていくなら勝率100%は行かないと思うんですが。
もともとの実装がなにかおかしいのだろうか…
388:535
18/05/25 23:18:10.63 Wo9ACErv.net
まだ公式AIに勝てないけど毎日ちょっとづつ進歩しているのは感じる。
まだ希望はある。
389:535
18/05/26 20:20:48.78 qA0Nw26t.net
Alpha Zeroのアルゴリズムは囲連星よりもライフゲーム囲碁に向いてる気がする。
390:535
18/05/26 21:33:20.38 qA0Nw26t.net
FacebookがELF OpenGoというのを公開したとか。
プロ棋士にも勝てるみたいですね。
391:535
18/05/27 19:07:25.97 kULpg0Pw.net
ELF OpenGo もGPU 2000台とか使わないと強くならないみたい?
は〜絶望する。
392:535
18/05/28 22:00:33.18 hqRKJ+dG.net
昔のLeela zeroもそうでしたがシチョウが読めてないっぽいですねぇ
393:535
18/05/28 22:12:43.53 hqRKJ+dG.net
でもちょっとづつでも確かに前進してる気がします。
ロールアウトの回数増やしたら学習の質も上がるかなぁ?
やってみるか。。。
394:535
18/05/29 20:13:27.71 LETTkqJf.net
ん、lossとentropyがかなり増えてますね。
ロールアウトを増やしたえいきょうだろうか?
395:535
18/05/29 21:44:21.56 LETTkqJf.net
ネットワークを192 * 20 にしたい衝動に駆られるw
危険な賭けだが…
396:535
18/05/30 22:20:56.63 s+sw+z1r.net
キタ━━━(゚∀゚)━━━ !!!!!
公式AIに初勝利!
内容としては相手のミスに助けられただけだけどそれでも格段に進歩してる!
(
;FF[1]GM[1]SZ[9]
;B[fe];W[fc];B[de];W[dc];B[ed];W[ec]
;B[gc];W[gb];B[ee];W[cb];B[ce];W[hb]
;B[ge];W[fh];B[be];W[gd];B[he])
397:535
18/05/31 22:06:07.55 CLpDRjz4.net
惜しい!惜しいなぁ。
中盤まで内容は圧倒しておきながら最後の盤端のシチョウが読めずに逆転負け。
学習途中のAlpha Zero系の弱点が出てしまいました。
でも、ここ克服したら100戦100勝もあり得るかも。
(
;FF[1]GM[1]SZ[9]
;B[df];W[fe];B[de];W[cg];B[ef];W[hg]
;B[ff];W[gf];B[cf];W[gd];B[fg];W[gh]
;B[dg];W[gc];B[gg];W[ge];B[dc];W[hb]
;B[dd];W[dh];B[db];W[da];B[eh];W[ha]
;B[eg];W[hc];B[he];W[ie];B[hf];W[if]
;B[hd];W[id];B[he];W[ch];B[hf];W[hd]
;B[he];W[hf];B[di];W[he])
398:535
18/06/01 22:15:38.64 i1DTZ7p0.net
本来負けてたはずのゲームですが逆転勝利しました!
以前より大分、棋理のようなものが身についてきている感じがします。
ロールアウト増やしたのが効いたかな?
(
;FF[1]GM[1]SZ[9]
;B[df];W[fb];B[ef];W[ff];B[fe];W[ge]
;B[fg];W[gf];B[gg];W[cg];B[cf];W[hg]
;B[fd];W[gd];B[gc];W[hc];B[fc];W[hb]
;B[hf];W[hd];B[he];W[eg];B[dg];W[hh]
;B[eh];W[eb];B[dd];W[gb];B[db];W[dc]
;B[ec];W[de];B[cc];W[bc];B[ed];W[id]
;B[ce];W[ie];B[ei];W[bh];B[ee];W[ba]
;B[eg])
次ページ最新レス表示スレッドの検索類似スレ一覧話題のニュースおまかせリスト▼オプションを表示暇つぶし2ch
394日前に更新/260 KB
担当:undef