図3: (a)Left:MarioのRFメソッドと異なるバッチサイズの比較。 結果は外的報酬を使用しない。 (b)センター:ジャグリング(Roboschool)環境におけるボールのバウンス数。 (c)右:マルチプレイPong環境におけるエピソード長の平均。 The discontinuous jump on the graph corresponds to the agent reaching a limit of the environment - グラフ上の不連続なジャンプは、エージェントが環境の限界に達することに対応します。 after a certain number of steps in the environment the Atari Pong emulator starts randomly cycling through background colors and becomes unresponsive to agent 's actions 環境内の特定のステップ数の後で、Atari Pongエミュレータは背景色をランダムに循環し始め、エージェントのアクションに応答しなくなります