- 51 名前:デフォルトの名無しさん [2007/05/03(木) 21:17:55 ]
- >>7
強化学習と機械学習の差を強調して書くなら、こんな感じ。 最適(と思われる)行動が教示されるのが機械学習で、Bonanzaはこれ。 将棋で言うと最善手が教示される(実際にはプロが指した手=最善手と見なしているが)。 過去の(≠直前の)行動に対して報酬が与えられるのが強化学習で、実現したソフトは(選手権参加ソフトが公開している情報を見る限りでは)まだ無い。 将棋で言うと勝ったから100点の報酬をあげる、とかそんな感じ。 まぁ、実際には他にも色々差があるわけですが。詳しい事は7氏の買った本に載ってます。 ちなみに私は構想中。来年の選手権はそれで出ます。
|

|