- 10 名前:ゲーマーLV90 mailto:sage [2018/05/03(木) 17:54:23.34 ID:aC7LfhT5.net]
- 記憶上限
報酬複数や報酬変化に対応 など 上限超えた記憶を消すのが重要 上限少ない方が適応が速い 状態 行動 結果 回数=% 上限 回数=報酬を得た回数 古いのから消えていく 例 報酬複数 状態01+行動01=報酬01 50 100 状態01+行動01=報酬02 30 100 状態01+行動01=報酬03 20 100 状態+行動=報酬 の表の作成と使用 表の作成=学習 表の使用=予測 状態ランダムテーブルシャッフル 09 08 07 04 05 06 03 02 01 10 13 12 11 など 13回状態変えたらシャッフル 一応確率式でも可能だけど確率式だと学習漏れする可能性がある 100÷13=約7.69% 01から13まで各状態7.69%とかだと学習漏れの可能性 学習率 学習率100%=表の完成? 確率的な場合 表が完成しない場合もある 記憶上限も関係?
|

|