[表示 : 全て 最新50 1-99 101- 201- 301- 401- 501- 601- 701- 2ch.scのread.cgiへ]
Update time : 04/11 19:55 / Filesize : 512 KB / Number-of Response : 737
[このスレッドの書き込みを削除する]
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

現代数学の系譜 古典ガロア理論を読む35



535 名前:search)の評価値を勝率に変換する関数で変換したもの。

交差エントロピーで勾配を求める場合、上式のように差をとるだけだ。この式の導出については、第4回電王トーナメントのときの白美神のPR文書にある。 http://denou.jp/tournament2016/img/PR/Hakubishin.pdf
elmo式の雑巾絞りはこの式を次のように改良した。

dsig = (eval_winrate -t) + 0.5 * (eval_winrate ? teacher_winrate);

tはこの局面の手番側が最終的に勝っているなら1(勝率100%)、負けているなら0(勝率0%)とする。

もともと、ゲームの勝敗を用いて強化学習を行うというのは、他の分野ではdeep learning + 強化学習という形でdeep learningの入門記事にもあるような内容だし、将棋ソフトにおいてもなかったアイデアではない。
どちらかと言えば、いまの雑巾絞りのようにRootStrapにするほうが特殊なアイデアである。しかし、RootStrapとして勝敗を用いるというのはなかったのではないかと思う。(Seleneが似たようなことをしていた気はするが) そして、elmoはそれがとてもうまくいくと実証したことも大きい。

興味深いことにelmo式で作成した評価関数は、以前の評価関数とは性質が異なるようで、短い時間(1スレッド1手1秒)では以前の評価関数に負け越すこともある。しかし長い時間になればなるほど以前の評価関数に勝ち越すようになる。(差が開くようになる)
elmo式雑巾絞りが新たな扉を開いたことは間違いなさそうだ。
(引用終り)
[]
[ここ壊れてます]






[ 続きを読む ] / [ 携帯版 ]

全部読む 前100 次100 最新50 [ このスレをブックマーク! 携帯に送る ] 2chのread.cgiへ
[+板 最近立ったスレ&熱いスレ一覧 : +板 最近立ったスレ/記者別一覧](;´Д`)<512KB

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef