図3: (a)Left:MarioのRFメソッドと異なるバッチサイズの比較。 結果は外的報酬を使用しない。 (b)センター:ジャグリング(Roboschool)環境におけるボールのバウンス数。 (c)右:マルチプレイPong環境におけるエピソード長の平均。 The discontinuous jump on the graph corresponds to the agent reaching a limit of the environment - グラフ上の不連続なジャンプは、エージェントが環境の限界に達することに対応します。 after a certain number of steps in the environment the Atari Pong emulator starts randomly cycling through background colors and becomes unresponsive to agent 's actions 環境内の特定のステップ数の後で、Atari Pongエミュレータは背景色をランダムに循環し始め、エージェントのアクションに応答しなくなります
img.5ch.net/ico/nida.gif エージェントが両面をプレイしているので、この文脈では外的報酬は無意味なので、代わりにエピソードの長さを示します。 結果を図3(c)に示す。 We see from the episode length that the agent learns to have more and longer rallies over time, learning to play pong without any teacher ? エピソードの長さから、エージェントが時間の経過と共にますます長くなる集会を学び、先生なしでポンをすることを学びます。 purely by curiosity on both sides. 純粋に両側の好奇心によって。 実際には、ゲーム集会は最終的には非常に長くなり、Atariエミュレータを破り、色が急激に変化し、プロットに示すようにポリシーがクラッシュします。
Sparse reward setting: In preliminary experiments, we picked 5 Atari games which have sparse rewards (as categorized by [3]), and compared extrinsic (classic RL) vs. 疎な報酬設定:予備実験では、疎な報酬([3]で分類される)を持つ5つのAtariゲームを選び、外的(古典的なRL)vs. extrinsic+intrinsic (ours) reward performance. 外因性+内在性(私たちの)報酬のパフォーマンス。 5つのうち4試合では、好奇心のボーナスによりパフォーマンスが向上します(付録の表2を参照してください)。 これは本書の焦点ではないことを強調したいと思います。これらの実験は完全性のために提供されています。 外因性(係数1.0)と内因性報酬(係数0.01)を調整することなく直接結合しました。 私たちは、内在的報酬と内在報酬を将来の方向性として最適に組み合わせる方法について質問を残します。
本質的な動機づけ: A family of approaches to intrinsic motivation reward内在的なモチベーション報酬へのアプローチのファミリー an agent based on prediction error [2, 27, 36, 42], prediction uncertainty [11, 44], or improvement [19, 34] of a forward dynamics model of the environment that gets trained along with the agent 's policy. エージェントの方針とともに訓練された環境のフォワードダイナミクスモデルの予測誤差[2,27,36,42]、予測不確実性[11,44]、または改善[19,34]に基づくエージェント。 A family of approaches to intrinsic motivation reward an agent based on prediction error , prediction uncertainty , or improvement of a forward dynamics model of the environment that gets trained along with the agent 's policy. 内在的動機づけへのアプローチの一群は、予測誤差、予測不確実性、またはエージェントの方針とともに訓練される環境の順動力学モデルの改善に基づいてエージェントに報酬を与える。 その結果、フォワードダイナミクスモデルの予測が困難な領域にエージェントが移動し、モデルはこれらの領域の予測を改善します。 この敵対的および非定常的な力学は複雑な挙動を引き起こす可能性がある。 この分野では、外部報酬が存在しない純粋な探査環境では、ほとんど進んでいません。 Of these mostly closely related are those that use a forward dynamics model of a feature space such as Stadie et al. これらの大部分は、Stadieらのような特徴空間の順動力学モデルを使用するものである。 [42] where they use autoencoder features, and Pathak et al. [42]オートエンコーダー機能を使用する場所、Pathak et al。 [27] where they use features trained [27]訓練された機能を使用する場所 逆動力学の仕事で。 これらは、セクション2.1で詳述されているVAEとIDFメソッドにほぼ対応しています。
img.5ch.net/ico/nida.gif 内在的な報酬には、州訪問回数の平滑化されたバージョンを使用することができる[3,9,24,47]。 Count-based methods have already shown very strong results when combining with extrinsic rewards such as setting the state of the art in the Atari game Montezuma 's Revenge [3], カウントベースの方法は、AtariのゲームMontezuma's Revenge [3]で最新の状態を設定するなどの外的な報酬と組み合わせると、非常に強力な結果を示しています。 and also showing significant exploration of the game without using the extrinsic reward. また、外的報酬を使用せずにゲームの重要な探索を示しています。 カウントベースのアプローチがダイナミクスベースのアプローチよりも好まれるべきである状況はまだ明確ではない。このペーパーでは、ダイナミクスベースのボーナスに重点を置くことを選択しました。 私たちの予備実験では、既存のカウントベースの実装では大規模な研究のためのスケールアップで十分な成功を収めていませんでした。
img.5ch.net/ico/nida.gif Other methods of exploration are designed to work in combination with maximizing a reward function, such as those utilizing uncertainty about value function estimates [5, 23], or those using perturbations of the policy for exploration [8, 29]. 他の探査方法は、価値関数推定値に関する不確実性を利用する報酬関数や探索のための方針の摂動を用いる報酬関数などの報酬関数を最大化することと組み合わせて機能するように設計されている[8]、[29]。 Schmidhuber [37]とOudeyer [25]、OudeyerとKaplan [26]は、内在的動機づけへのアプローチに関する初期の研究のいくつかについて素晴らしいレビューを提供する。
img.5ch.net/ico/nida.gif Alternative methods of exploration include Sukhbaatar et al. 探査の代替方法には、Sukhbaatar et al。 [45] where they utilize an adversarial game between two agents for exploration. [45]彼らは探索のために2つのエージェントの間で敵対的なゲームを利用する。 In Gregor et al. Gregor et al。 [10], they optimize a quantity called empowerment which is a measurement of the control an agent has over the state. [10]、エージェントはエンパワーメントと呼ばれる量を最適化します。これは、エージェントがその状態を超えた制御の測定値です。 In a concurrent work, diversity is used as a measure to learn skills without reward functions Eysenbach et al. 並行作業では、報酬機能なしにスキルを習得するための手段として多様性が使用されます。Eysenbach et al。 [7]. [7]。
img.5ch.net/ico/nida.gif ランダムな特徴: この論文の発見の1つは、ランダムな特徴の驚くべき有効性であり、ランダム投影法およびより一般的にはランダムに初期化されたニューラルネットワークに関する著しい文献がある。 Much of the literature has focused on using random features for classification [14, 33, 49] where the typical finding is that whilst random features can work well for simpler problems, 文献の多くは、分類のためにランダムな特徴を用いることに焦点を当てている[14,33,49]。典型的な発見は、ランダムな特徴がより簡単な問題のためにうまくいく一方、 feature learning performs much better once the problem becomes sufficiently complex. 問題が十分に複雑になると、フィーチャラーニングははるかに良好に機能します。 literature has focused on using random features for classification where the typical finding is that whilst random features can work well for simpler problems, feature learning performs much better once the problem becomes sufficiently complex. 文献では、ランダムな特徴がより単純な問題に対してはうまくいくが、問題の学習がはるかに良好になるという典型的な発見がある場合、分類にランダムな特徴を用いることに集中している。 このパターンがダイナミクスに基づく探索にも当てはまると期待していますが、学習したフィーチャがMario Brosの斬新なレベルでより一般化するように見える予備的な証拠があります。
[2] J. AchiamおよびS. Sastry。 深い強化学習のためのサプライズベースの内的動機。 arXiv:1703.01732,2017。3,9 [3] M. Bellemare、S. Srinivasan、G. Ostrovski、T.Schaul、D. Saxton、およびR.Munos。 カウントベースの探索と固有のモチベーションの統一。 NIPSでは、2016年1月9日 [4] MG Bellemare、Y. Naddaf、J. Veness、およびM. Bowling。 アーケード学習環境:一般エージェントの評価プラットフォーム。 Journal of Artificial Intelligence Research、47:253279、jun 2013. 2 [5] RY Chen、J. Schulman、P. Abbeel、およびS. Sidor。 q-ensembles.arXiv:1706.01502、2017.によるUCBとインフォゲイン探査 [6] G. Costikyan。 ゲームの不確実性。 Mit Press、2013. 6、10 [7] B. Eysenbach、A. Gupta、J. Ibarz、およびS. Levine。 ダイバーシティはあなたが必要とするすべてです:報酬機能のない学習スキル。 arXivプレプリント、2018 [8] M. Fortunato, MG Azar, B. Piot, J. Menick, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg. M. Fortunato、MG Azar、B. Piot、J. Menick、I. Osband、A. Graves、V. Mnih、R. Munos、D. Hassabis、O. Pietquin、C. Blundell、およびS. Legg 。 探査のための騒々しいネットワーク。 arXiv:1706.10295,2017。9 [9] J. Fu、JD Co-Reyes、およびS. Levine。 EX2:深層強化学習のための模範モデルによる探査。 NIPS、2017. 9 [10] K. Gregor、DJ Rezende、およびD. Wierstra。 バリアント固有制御。 ICLRワークショップ、2017年9月 [11] R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. R. Houthooft、X. Chen、Y. Duan、J. Schulman、F. De Turck、およびP. Abbeel。 Vime:探索情報を最大化する変分情報。 NIPSでは、2016年1月9日 [12] R. Hunicke、M. LeBlanc、およびR. Zubek。 Mda:ゲーム設計とゲーム研究への正式なアプローチ。 ゲームAIにおける課題に関するAAAIワークショップ(2004年6月10日) [13] S.IoffeおよびC.Szegedy。 バッチ正規化:内部共変量シフトを減らすことにより、深いネットワークトレーニングを加速します。 arXiv preprint arXiv:1502.03167,2015 4
img.5ch.net/ico/nida.gif [26] P.-Y. Oudeyer and F. Kaplan。 内在的な動機は何ですか? 計算上のアプローチの類型。 ニューロロボティクスの最前線、2009年1月9日 [27] D. Pathak, P. Agrawal, AA Efros, and T. Darrell. D.Patak、P. Agrawal、AA Efros、およびT. Darrell。 自己監視予測による好奇心に基づく探索。 ICMLでは、2017年1月2日、3日、4日、6日、9日 [28] D. Pathak, P. Mahmoudieh, G. Luo, P. Agrawal, D. Chen, Y. Shentu, E. Shelhamer, J. Malik, AA Efros, and T. Darrell. D. Pathak、P. Mahmoudieh、G. Luo、P. Agrawal、D. Chen、Y. Shentu、E. Shelhamer、J. Malik、AA Efros、およびT. Darrell。 ゼロショットの視覚的模倣。 ICLR、2018.1 [29] M.Plappert、R.Houthooft、P.Dhariwal、S.Sidor、RYChen、X.Chen、T.Asfour、P.Abbeel、およびM. Andrychowicz。 探索のためのパラメータ空間雑音。 arXiv:1706.01905,2017。9 [30] P. Poupart、N. Vlassis、J. Hoey、およびK. Regan。 離散ベイジアン強化学習の解析的解。 ICML、2006. 1 [31] DJ Rezende、S.Mohamed、およびD.Wierstra。 深い生成モデルにおける確率的逆伝播と近似推論。 arXiv preprint arXiv:1401.4082、2014。3 [32] EL Ryan、Richard; Deci。 内在的および外的な動機:古典的定義と新しい方向性。 現代教育心理学、2000. 1 [33] AM Saxe, PW Koh, Z. Chen, M. Bhand, B. Suresh, and AY Ng. AM Saxe、PW Koh、Z. Chen、M. Bhand、B. Suresh、およびAY Ng。 ランダムウェイトと教師なしの特徴学習。 ICML、10891096ページ、2011年。
img.5ch.net/ico/nida.gif [46] RS Sutton and AG Barto. [46] RS SuttonおよびAG Barto。 Reinforcement learning: An introduction. 強化学習:導入。 MIT press Cambridge, 1998. 4 MITプレスケンブリッジ、1998。4 [47] H. Tang, R. Houthooft, D. Foote, A. Stooke, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. H. Tang、R.Houthooft、D.Foote、A.Stooke、X.Chen、Y.Duan、J.Schulman、F.De Turck、およびP. Abbeel。 #Exploration:深層強化学習のためのカウントに基づく探索の研究。 神経情報処理システムの進歩、2017. 9 [48] P. Wouters、H. Van Oostendorp、R. Boonekamp、およびE. Van der Spek。 バックストーリーと予兆を実装することで、魅力的で効果的な真剣なゲームを作成する際のゲームの談話分析と好奇心の役割。 コンピュータとの交流、2011年6月、10 [49] Z. Yang, M. Moczulski, M. Denil, N. de Freitas, A. Smola, L. Song, and Z. Wang. Z. Yang、M. Moczulski、M. Denil、N. de Freitas、A. Smola、L. Song、およびZ. Wang。 ディープフライドコンベット。 In Proceedings of the IEEE International Conference on Computer Vision, pages 14761483, 2015. 9 IEEEビジョンに関するIEEE国際会議予稿集、14761483、2015。
前処理: すべての実験はピクセルで行った。 すべての画像をグレースケールに変換し、サイズを84x84に変更しました。 現在の観測のみを使用するのではなく、歴史的観測[xt→3、xt→2、xt→1、xt]のスタックの両方でエージェントの方針とフォワードダイナミクスの機能を学ぶ。 これは、これらのゲームで部分的な観測可能性を取得するためです。 Super Mario BrosとAtariの実験では、各アクションを4回繰り返す標準フレームキットラッパーも使用しました。
Inverse Dynamics features ? 逆動力学の特徴 ランダムエージェント Random CNN features ? ランダムCNN機能
図8: 48個のAtariゲームで、純粋な好奇心に基づいた探索(外的報酬もエピソード終了信号もない)。 私たちは、外的帰還やエピソード信号の終わりにアクセスできないエージェントにもかかわらず、好奇心に基づくエージェントの外的帰還がしばしば増加することを観察します。 In multiple environments, 複数の環境では、 the performance of the curiosity-driven agents is significantly better than that of a random agent, although there are environments where the behavior of the agent is close to random, or in fact seems to minimize the return, rather than maximize it. エージェントの行動がランダムに近いか、実際には最大限にするのではなく、リターンを最小限に抑えるような環境が存在するにもかかわらず、好奇心に基づいたエージェントのパフォーマンスはランダムエージェントのパフォーマンスよりも大幅に優れています。 大部分の訓練プロセスでは、RFは環境の約67%でランダムエージェントよりも優れていますが、IDFは環境の約71%でランダムエージェントよりも優れています。
概要>、興奮性シナプス後電位似反応へと誘導している所の薄膜酸化物経由という、通過、 前書き>、 BCI を究極的には齎すという事を約束しています。 前書き>? ry に、メモリスタMR1は、それぞれ1 ry )からシナプス ry 脱分極を ry システムを ry 端子デバイスとして動作します。 前書き>? ry 接続するハイブリッド回路の代表例であり、
メモリー検索の依存性 ? いくつ ry では、セマ ry から情報を取 ry リが以前に短時間アクセスされた場合に短 ry ことが示 ry 。 情報をセマンティックカテゴリから取得する時間が、そのカテ がもしも短時間前にアクセスされていた場合 短縮される事が、いくつかの研究では示され ます ? たとえば、Collins ry は、「 ry 」などの質 ry。 Collins and Quillian(1970)は、例えば、「カナリアは鳥 か?」といった質問に答えるのに必要な時間を示しています 前回のトライアルでカナリアに関する情報にアクセスした場合、600ミリ秒も減 。 多少異なるパラダイムを使用して、マイヤーとシュヴァネヴェルト(マイヤー&シュヴァネヴェルト、1971年;メイヤー、シュヴァネヴェルト&ラディ、1972年、シュ &メ 、1973年;メ 、1973年)は同じことを示しています これらの実験では、Sは文字列を単語または非単語として分類 要 ? 一般的な発見は、Sが意味的に類似していない単語とは対照的に3つの意味的に類似した単語を分 ry り速い ry 。 そこでの一般的発見は、意味的非類似なとは対照的な意味的類似な 3 単語それらを被験者が単に分類した場合、文字列を単語として分類する反応時間はより早い こと したがって、 、「バター」の前に「パン」が付いている場合は、「ナース」が前にある場合よりも、「バター」を単語として分類 時間が速
このような結果を処理 ために、2つの一般的なクラスのモデルが提案されています ロケーションシフトモデル(Meyer&Schvaneveldt、1971)は、Sが特定のカテ のメンバーの処理を終了し、次にシフトして2番目のカテ の処理を開始する必要 場合、シフト時間は2つのカテ 間の意味的距離に依存すると想定 。 ? 一方、 ィブ化モデルは、カテ ry 、処 ry 的に類 ry 他のア が「興奮」または「 ィブ化」されるこ ry 。 アクティべーションモデルは、一方、カテ 内のアイテムが処理されるときに、その処理される情報と意味的類似している範囲で、他アイテムが「興奮化」または「アクティべート」される ことを前提とし ます さらに2つの想定が行われます。1つ目(Warren、1970年)は、アクティブ化が時間とともに減衰すること、2つ目は、 ィブ化されたアイテムは非アクティブ化されたアイテムよりも容易にアクセスできること 。
本実験の結果は、Meyer et al(1972)とLoftus(1973)のデータと合わせて、位置シフトモデルを非承認にし、活性化モデルをサポート 。 ? ry な比 ry 。 これらすべての実験には、次のような各比較が含まれます ? Tが、処理される時間が対象の従 数であるター 報を表す ry 。 処理時間を対象従属変数としたターゲット情報を T が表すとします ? Rが意味的にTに関 ry が意味的にTに関連 ry 表すようにします。 T に意味的関連する情報をR が表し、最後にU1とU2が T に意味的関連しない情報を表すとします ? 次の3つの条件を検討してください。 ここで 3 条件を検討します :
? ry 、次に条件bで最も速く、条件a ry 。 データは、Tが条件cで最も速く、条件bで次点最速、条件aで最も遅く処理されることを示 。 位置シフトモデルとアクティブ化モデルはどちらも、条件cの反応時間が条件aおよびbの反応時間よりも速いことを正しく予測しています ただし、2 モデルの予測は、条件aとbの関係に関して異な 。 位置シ モデルは、条件aと条件bの反応時間が同じであると誤 予測 。どちらの場合も、Sは無関係なカテゴリU2からTにシフトしているためです 一方、活性化モデルは、得られた結果のパターンを正しく予測 。 ? これは、条件bでは、 ry よってアクティブ化され ry 、この ィブ化がTが処理 ry 時間までに減衰して ry 。 これは条件 b に於ては、TがRによってアクティべートされたと見なされ、そしてこのアクティべーションが、 T の処理される時間によっての減衰をしていないためです ? 一方、条件aでは、Tはまったくアクティブ化されていないと見なされます。 したがっ ry 。 条件 a では、一方、 T がアクティべートされたとは全く見做されません ; したがって、Tを処理する時間が長くなります。