おまいら最強の将棋プログラムしてみろよ part6

おまいら最強の将棋プログラムしてみろよ part6 at TECH

51:デフォルトの名無しさん
07/05/03 21:17:55
>>7

強化学習と機械学習の差を強調して書くなら、こんな感じ。

最適（と思われる）行動が教示されるのが機械学習で、Bonanzaはこれ。
将棋で言うと最善手が教示される（実際にはプロが指した手＝最善手と見なしているが）。

過去の（≠直前の）行動に対して報酬が与えられるのが強化学習で、実現したソフトは（選手権参加ソフトが公開している情報を見る限りでは）まだ無い。
将棋で言うと勝ったから100点の報酬をあげる、とかそんな感じ。

まぁ、実際には他にも色々差があるわけですが。詳しい事は7氏の買った本に載ってます。

ちなみに私は構想中。来年の選手権はそれで出ます。

次ページ

続きを表示

1を表示