知能研究スレ2

[表示 : 全て最新50 1-99 101- 201- 2ch.scのread.cgiへ]
Update time : 06/30 09:08 / Filesize : 228 KB / Number-of Response : 225
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

知能研究スレ2

1 名前：オーバーテクナナシー mailto:sageteoff [2016/12/11(日) 07:08:46.32 ID:p6adyiEV.net]: 　　三　　　　　　　　　三三
　　　　　　/;:"ゝ　三三　　f;:二iュ　　何でこんなになるまで放っておいたんだ！
三　　　＿ゞ::.ﾆ!　　　 ,..'´￣｀ヽﾉﾝ
　　／.;: .:}^（　　 <;:::::i:::::::.::: :}:}　　三三
　　〈::::.´ .:;.へに)二/.::i :::::::,.イﾄヽ__
　　,へ;:ヾ-､lｌ＿＿/.:::::､:::::f＝ｰ'＝＝､`ｰ-="⌒ヽ　 ←上坂すみれ
.　〈::ﾐ/;;;iーﾞii====|:::::::.｀ Y￣￣￣,.シ'=llー一'";;;ド'
　　};;;};;;;;!￣ll￣￣|:::::::::.ヽ＼-‐'"´￣￣ll

　　　　　　　　　　oﾉ　oﾉ
　　　　　　　　　　|　　|　　三
　_,,..-―'"⌒"~⌒"~￣ﾞﾞ"'''ｮ　　ミ
ﾞ~,,,....-=-‐√"ﾞﾞＴ"~￣Y"ﾞ=ﾐ　　　　|`----|
Ｔ　　|　　 l,＿,,/＼　,,/l　　|
,.-r '"l＼,,j　　/　 |/　 L,,,/
,,/|,／＼,/　_,|＼_,i_,,,/ ／
117 名前：>>116 mailto:sage [2018/08/12(日) 19:21:49.32 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
B. EDGEデータフロー命令のスケジューリング要件
? 　 ry、コアのリンチピンです。
　命令ウィンドウとスケジューラは、コアの鎹です。
それらの領域、クロック周期、能力、および制限によって、EDGEコアの実現性能と ry が大きく左右されます。

2

　命令スケジューラは、多様な機能と要件を備えています。
? ry 同時です。
それは非常に同時並行的です。
? ry 、デコーダは、命令をデコードし、デコードされた ry 。
各サイクルにおいて、デコーダは、デコードされたレディ状態及びデコードされた命令をウィンドウに書き込む。
? ry バックエンドは準備完了イベント ry 。
各サイクルで、スケジューラは発行する次の命令を選択し、それに応答してバックエンドはレディイベント --
特定の命令の入力スロット（述語、オペランド＃0、オペランド＃1）をターゲットとするターゲットレディイベント、またはブロードキャストIDで待機しているすべての命令をターゲットとしたブロードキャストレディイベントのいずれかを送信します。
これらは命令毎のアクティブレディ状態ビットをセットし、デコード済みレディ状態と共に命令が発行可能であることを知らせる。
? ry を受け付け、発行されたレディ命令の再発行を禁止する必要があることに注意してください。
スケジューラは、まだデコードされていないターゲット命令のイベントを受付けるので、発行されたレディ命令の再発行を禁止 ry
? 　 ry 、または述語の真または偽である可能性 ry 。
　EDGE命令は、述語ではないか、又は true か false という述語である可能性があります。
? ry 、別の命令の述語結果によって ry 。
述語化された命令は、別の命令の述語評価結果によってターゲットにされ、その結果が述語条件と一致するまで、準備ができません。
? ry 発行しません。
述語が一致しない場合、命令は決して発行されません。
118 名前：>>117 mailto:sage [2018/08/12(日) 19:24:42.29 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
　新しいブロックへの分岐では、すべての命令ウインドウレディ状態がフラッシュクリアされる（ブロックリセット）。
しかし、ブロックがそれ自身に分岐すると（ブロックリフレッシュ）、アクティブレディ状態のみがクリアされ、
デコードされたレディ状態は保存されるので、 ry 再フェ ry 必要はない。
ry 節約するための鍵です。
　ソフトウェアクリティカルパスの一部は、依存する命令の1つのチェーン ( 例
? ry 、連続するバックツーバック命令ウェイクアップのためにパイプラインバブルを追加しないことが重要です。
A → B → C と順にターゲット ) で構成されており、データフロースケジューラは、連続するバックツーバック命令の起動の為のパイプラインバブルを追加しない点は重要です。
? ry レディ・イグジット・ターゲット・レディ・パイプラインの再発行は、クロック・サイクルに深刻 ry
したがって、ISステージのレディ・イシュー・ターゲット・レディ・パイプラインの再発行は、クロック周波数に深刻な影響を与えないと仮定すると、1サイクル ry
　ADDのような命令は、1サイクルの待ち時間を有する。
? ry 、スケジューラはターゲットステージの命令をISステージでウェイクさせることができます。
EXステージの結果転送では、命令が完了する前であっても、スケジューラはISステージでターゲットがターゲットする命令を起動させることができます。
他の命令の結果は、ALUの比較を待つか、複数のサイクルを取るか、または未知の待ち時間 ry
? これらは後で目標を起こすまで待たなければなりません。
これらの場合はターゲットを後で起動する様にウェイトせねばなりません。
119 名前：>>118 mailto:sage [2018/08/12(日) 19:27:23.26 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
? 　 ry 、予想されるEDGE実装のスペクトルにわたってスケーラブルでなければなりません。各サイクルは、 ry 、1サイクルあたり1〜2の命令を発行します。
　最後に、スケジューラ設計は、予想されるEDGEのスペクトル実装にわたってスケーラブル --
各サイクルは、少なくとも1〜4のデコードされた命令と2〜4つのターゲットレディイベントを受入れ、1サイクルあたり1〜2の命令を発行します -- でなければなりません。
　2つの代替的なデータフロー命令スケジューラ設計を考える：
? ry 、各命令のレディステータスが各サイクルで再評価されます。
FPGAのDフリップフロップ（FF）で命令のレディ状態が明示的に表現されているブルートフォース並列スケジューラでは、各命令のレディステータスが各サイクルで再評価されます。
? よりコンパクトなインクリメンタルスケジューラで、 ry 。
そしてよりコンパクトなインクリメンタルスケジューラでは、LUT RAMにレディ状態を保持し、1サイクルあたり2〜4ターゲット命令のみのレディステータスを更新します。
120 名前：yamaguti mailto:sage [2018/08/12(日) 19:28:42.23 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
rio2016.2ch.net/test/read.cgi/future/1489922543/184-216
121 名前：>>119 mailto:sage [2018/08/12(日) 19:29:15.90 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
C. 並列命令スケジューラ

BID
T1
T0
ENs

31
...
3
　　DBID　　　　DRT　　DRF　　DR0　　DR1

　　NEXT RDYS
　　RDY　　RT　　RF　　R0　　R1　　INH

2
1
0

DEC.RDYS
リセット
RESETv リフレッシュ

32→(5,1)
? 優先エンコーダ　　優先度エンコーダ

IID,V

図4：エントリ＃2をより詳細に示す、並列データフロースケジューラのブロック図。
122 名前：>>121 mailto:sage [2018/08/12(日) 19:30:35.06 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
　図4は、図3の命令ウィンドウのための並列命令スケジューラを示す。 >>121
? アクティブ準備完了状態は、ターゲット準備完了イベントT0、T1および ry ）によって設定され、 ry 。
アクティブレディステートは、ターゲットレディイベントT0、T1及びブロードキャストID BID（存在する場合）によってセットされ、さまざまな入力タイプによって修飾されてENをイネーブルにすることに注意してください。
? ry 、1命令準備回路のインスタンス ry 。
32エントリウィンドウの場合、1命令分の回路のインスタンスが32個あります。
どのサイクルにおいても、32個のRDY信号のうちの1つ以上がアサートされてもよい。
? ry 、これを発行する次の命令の5ビットIIDに縮小する。
32ビット優先度エンコーダは、これを次の発行される命令の5ビットIIDに縮小する。
　各エントリに対して、復号されたレディ状態の6ビットがあり、
? すなわち、それらは命令デコーダによって初期化される。
それらは、例えば次の様に命令デコーダによって初期化される :

• DBID: 2ビットのバイナリブロードキャストID。存在しない場合は00
? • ry が準備完了です。
• DRT, DRF: decoder：述語true（false）がレディ状態です。
• DR0, DR1: デコーダ：オペランド＃0（オペランド＃1）がレディ状態

? ry 符号化し、恐らくブロードキャストチャネルを介して述語および/またはいくつかのオペランドを待つか、 ry 。
これらのビットはともに、命令がデコードされたかどうかを符号化し、述語および/またはいくつかのオペランドを恐らくブロードキャストチャネルを介して待つか、またはすぐに発行する準備ができているかどうかをエンコードする。
これらのビットは、ブロック・リセット時にのみクリアされます。
123 名前：>>123 mailto:sage [2018/08/12(日) 19:32:45.64 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
?　アクティブ・レディ状態の ry ：
　アクティブレディステータスの6ビットもあります：

? • ryが準備完了です。
• RT, RF: 述語true（false）がレディです。
• R0, R1: オペランド＃0（オペランド＃1）がレディ状態
? • ry 命令を禁止する - 既に発行済み
• INH: 禁止指令 - 既にイシュー済
• RDY: 命令は発行可能です

3

? 命令は、if（RT＆RF＆R0＆R1＆〜INH）の準備ができています。
命令は、（RT＆RF＆R0＆R1＆ ~INH）の場合にのみレディです。
? ry 、RT、RF、R0、R1のいずれかを設定 ry 。
以下の場合、 RT、RF、R0、R1 をどれでも設定することができます。

• 対応するDRXがデコーダによって設定されるか、または
• 実行命令は、明示的に、またはブロードキャストイベント（ブロードキャストID、入力）を介して入力をターゲットにします。

アクティブ・レディ状態ビットは、ブロック・リセットまたはリフレッシュ時にクリアされます。
124 名前：>>123 mailto:sage [2018/08/12(日) 19:34:19.75 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
　　　　　　　　デコード済みレディ状態　　　　　　アクティブレディ状態
命令　　　　　DBID 　DRT 　DRF 　DR0 　DR1 　　　RT 　RF 　R0 　R1 　INH 　RDY
READ 　　　　　　00 　　1 　　1 　　1 　　1 　　　　1 　　1 　　1 　　1 　　1 　　0
READ 　　　　　　00 　　1 　　1 　　1 　　1 　　　　1 　　1 　　1 　　1 　　0 　　1
ADD 　　　　　　　00 　　1 　　1 　　0 　　0 　　　　1 　　1 　　1 　　0 　　0 　　0
TLEI 　　　　　　　00 　　1 　　1 　　0 　　1 　　　　1 　　1 　　0 　　1 　　0 　　0
BRO.T B1 　　　　　01 　　0 　　1 　　1 　　1 　　　　0 　　1 　　1 　　1 　　0 　　0
BRO.F B1 　　　　　01 　　1 　　0 　　1 　　1 　　　　1 　　0 　　1 　　1 　　0 　　0
デコードされていない　00 　　0 　　0 　　x 　　x 　　　　0 　　0 　　x 　　x 　　x 　　0

? 表I：命令インストラクション・レディ状態
表I：命令スケジューラのレディ状態の例

　表Iは、6つの命令をデコードして最初の命令を発行した後のブロックの命令スケジューラ状態を示す。 >>123
? ry 特定の述語結果を待たないことを反映するDRTおよびDRFセットを有する。
最初の4つの非述語命令は、それらが特定の述語評価結果を待たないことを反映するDRTおよびDRFセットを有する。
? ry ）はすぐに発行する準備ができています。
2つのREAD命令（予測されず、入力オペランドがゼロ）は即時イシューの準備ができています。
? 最初のものが発行されました - そして現在は再発行が禁止されています - R0が設定されているADDのオペランド0を対象とします。
最初のものがイシューされて -- そして現在は再発行が禁止されている -- ADD 命令のオペランド0が対象とされている時、その R0 が設定されます。
2番目のREADは、次のISパイプラインサイクルで発行されます。
125 名前：>>124 mailto:sage [2018/08/12(日) 19:36:10.39 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
? ry 述語結果をブロードキャストします。
TLEI（test-lessthan-or-equal-immediate）命令は、チャネル1でその述語評価結果をブロードキャストします ;
? 2つの分岐命令、
2つの分岐命令に付いて、
述語部が夫々 true か false か
? 、この述語の結果を待つ。
、この述語の結果を待って。
? ry デコードされていない： ry 。
第7のエントリはデコードされていない命令：（DRT | DRF）= 0。
? 　ry デコードされた命令バッファに ry 。
　データフロースケジューリングのクリティカルパスを減らすために、フロントエンドはデコードされた命令用のバッファにプリデコードされたEDGE命令を書き込む。
命令IIDが発行されると、そのデコードされた命令がバックエンドによって読み取られる。
? とりわけ、命令の0-2（IID、入力）明示的ターゲットを指定する2つのターゲットオペランド準備完了イベントフィールド_T0および_T1、ならびに入力イネーブルの4ビットベクトルを含む：ENs = {RT EN 、RF EN、R0 EN、R1 EN}である。
とりわけ、0-2（IID、入力）で命令のターゲットを明示指定する 2 つのターゲットオペランドレディイベントフィールド_T0および_T1を含む、謂うなれば 4 ビットベクトルとしての入力は以下に示すイネーブル効果を持つ：ENs = {RT EN 、RF EN、R0 EN、R1 EN}
? 図3を参照すると、これらの信号は、他のパイプラインステージからのレディイベントとスケジューラによって入力されたT0およびT1とに多重化される。
図3 に遡るが、これらの信号、他のパイプラインステージからのレディイベントは、スケジューラによって入力されたT0およびT1とに mux される。
126 名前：>>125 mailto:sage [2018/08/12(日) 19:43:56.87 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
D. 並列スケジューラのFPGA実装
　スケジューラの面積とクロック周期を最小限にするには、FPGA回路設計に注意 ry
? 32命令ウィンドウは、準備完了状態のために32 *（6 + 6）= 384FFを、準備完了イベントを復号して各入力の準備完了状態を更新するために32 *多くのLUTを必要とする。
32 個ある命令ウィンドウは、それらのレディステートの為に 32 *（6 + 6）= 384FF を、レディイベントを復号して各入力のレディステートを更新するために32 *多くのLUTを必要とする。
? 　最新のFPGAは、 ry 。
　現代的 FPGA は、一連のLUT（ ry ）とDフリッ ry （FF）をロジッククラスタにまとめ ry
? ry 各スライスのクラスタに ry 。
ry 、ザイリンクス7 ry 、4つの6-LUTと8つのFFを各 `` スライス ''クラスタにグループ化します。
各LUTは2つの出力を持ち、1つの6-LUT、または5つの共通入力を持つ2つの5-LUTとして ry
? ry 登録することができます。
各出力はFFに登録されるかも知れません。
フリップフロップにはオプションのCE（クロックイネーブル）とSR（セット/リセット）入力 ry 、これらの信号はクラスタ内の8つのFFすべてに共通です。
ry 、アルテラのFPGAに似ています。
　これから、2つの設計上の考慮事項 ry
? 　Fracturable 6-LUTデコーダ： ry 。
　分割可能な 6-LUTデコーダ：ターゲット命令インデックスのデコードでは、インデックスが≦5ビットである限り、2つのデコーダが1つの6-LUTに収まる可能性があります。
　スライスFFパッキングとクラスタ制御セットの制限：領域と配線の遅延を最小限に抑えるため、デザインはクラスタごとに4〜8 FFの高密度FFをパックします。
すべての6ビットデコード済みレディ状態エントリは一緒に書き込まれ（共通RSTおよびCE）、1つまたは2つのスライスにパック ry
　アクティブレディ状態のFFにはもっと注意 ry
? これらの32ﾗ6 ry 。
これらの32*6 = 192個のFFの各々は個別に設定 ry が、スライス当たり4つのFFをパックすることにより、1つのFFがクロックイネーブルされると、全てがクロックイネーブルされる。
準備完了イベントによってFFが設定されると、そのスライス内の他のFFは変更されるべきではありません。
これには、各FFの入力LUTにCE機能を実装し、その出力をその入力にフィードバックする ry 。FF_NXT = FF |（EN＆入力）。
127 名前：yamaguti mailto:sage [2018/08/12(日) 19:44:31.70 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
rio2016.2ch.net/test/read.cgi/future/1489922543/184-216
128 名前：>>126 mailto:sage [2018/08/12(日) 19:45:03.52 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
generate for (i = 0; i < N; i = i + 1) begin: R
　　always @* begin
　　　　// ターゲット・デコーダ
　　　　T00[i]　　= T0 == i;
　　　　T01[i]　　= T0 == (i|N);
　　　　T10[i]　　= T1 == i;
　　　　T11[i]　　= T1 == (i|N);
　　　　B[i]　　= BID == DBID[i];

　　　　// 次のアクティブレディ状態ロジック
　　　　RT_NXT[i]　　= RT[i] | DRT[i]
　　　　　　　　| (RT_EN & (T01[i]|T11[i]|B[i]));
　　　　RF_NXT[i]　　= RF[i] | DRF[i]
　　　　　　　　| (RF_EN & (T00[i]|T10[i]|B[i]));
　　　　R0_NXT[i]　　= R0[i] | DR0[i]
　　　　　　　　| (R0_EN & (T00[i]|T10[i]|B[i]));
　　　　R1_NXT[i]　　= R1[i] | DR1[i]
　　　　　　　　| (R1_EN & (T01[i]|T11[i]|B[i]));
　　　　INH_NXT[i]　　= INH[i] | (INH_EN & (IID == i));
　　　　RDY_NXT[i]　　= RT_NXT[i] & RF_NXT[i] & R0_NXT[i]
　　　　　　　　& R1_NXT[i] & ~INH_NXT[i];
　　end
end endgenerate

リスト1：並列スケジューラー `` next readys ''ロジック
129 名前：>>128 mailto:sage [2018/08/12(日) 19:46:50.84 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
　リスト1は、N-entry並列スケジューラー用の `` next readys ''を生成するVerilogです。 >>128
4つのレディ・イベント入力タイプ（述部真、偽、オペランド＃0、オペランド＃1）がありますが、
? ry 、真/オペランド＃1ターゲットから偽/オペランド＃0ターゲットを区別するのに単一のターゲットインデックスビットで十分である。
述部ターゲットイベントがオペランドターゲットイベントと同じサイクルで発生しないことを保証することによって、真/オペランド＃1ターゲットと偽/オペランド＃0ターゲットを区別する為のターゲットインデックスビットは一つで済む。
? N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力＃1：0}である（すなわち、特定の{RT / RF / R0 / R1} .
? IID：5}。
（特定の{RT / RF / R0 / R1} EN がイネーブル化する事によってデコーディングが促進される )
すなわち、 N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力＃1： IID：5}である。
? ry （ターゲット0の入力0等）は、ブロードキャスト選択デコーダB ry 。
ターゲットデコーダT00、T01、T10、T11（ターゲット0の入力0 、等）は、放送選択デコーダBと同様に、それぞれ6-LUTである。
? ry 、現在アクティブでデコードされたレディステートでターゲットデコーダ出力を一緒にフォールドします。
次のアクティブレディ状態ロジックは、現在アクティブかデコードされたレディステートでターゲットデコーダ出力を一緒に畳みます。
これにはさらに7つのLUT（INH_NXTでは2つ）が必要で、合計32 * 12 = 384のLUTが必要です。
　これは、32エントリスケジューラを偶数および奇数命令の2つの16エントリバンクに分割 ry 改善 ry
? ある銀行内では、4ビットの銀行IIDで十分である。
1 つのバンクに付き、4ビットのバンク IID で十分である。
? ry 、T5、T10、T11は2つの5,5-LUT、 ry 。
次に、T0、T1は5ビットに狭くなるので、T00、T01、T10、T11は2つの5,5-LUT、INH_NXTは1つの6-LUT、または2 * 16 *（3 + 6）= 288のLUTに収まります。

4
130 名前：>>129 mailto:sage [2018/08/12(日) 19:49:12.10 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
? 　 ry ：LUTまたはキャリーロジックまたはツリー、キャリーロジックゼロスキャン、および ry ワンショット変換を含む、多くの32ビットエンコーダデザインが評価されました。
　優先順位エンコーダ：LUTまたはキャリーロジックの OR ツリー、キャリーロジックのゼロスキャン、およびF7MAP / F8MAPマルチプレクサを使用したワンホット変換を含む、多くの32ビットエンコーダデザインが評価検討されました。
? ry 、2つのLUT遅延で完了する。
現在の設計では、バンク当たり2つの16→4エンコーダを使用し、2つの LUT の遅延で完了する。
ワン・イシュー・プロセッサでは、後続の2：1マルチプレクサがこれらのエンコーダ出力の1つを選択します。
　特に、各16ビットエンコーダ入力I [15：0]はI [15]、I [14:10]、I [9：5]、I [4：0]にチャンクされる。
? 各5ビットグループは32x4 LUT ROMにインデックスを付け、そのグループのエンコーダ出力を事前計算します。
各5ビットグループはそのグループのエンコーダ出力を事前計算してある 32x4 LUT ROM をインデックスします。
? 3つの5ビットゼロコンパレータ出力とともに、 ry 。
5ビットゼロコンパレータ出力 3 つは共に、3つのグループがすべてゼロのときに 'b1111'を出力するカスタム4ビット3：1セレクタに供給されます。
? 　 ry RPM（Relativeally配置されたマクロ） ry 。
　技術マッピングとフロアプランニング：このデザインではRPM（関連配置マクロ）手法を使用してエリアと相互接続の遅延を改善し、モジュール構成と大規模な複製で簡単なルーティングとタイミングクロージャのための繰り返し可能なレイアウトを実現します。
構造RTLはモジュールをインスタンス化し、それらをスケジューラにタイルします。
6入力モジュール上のXST注釈（* LUT MAP = "yes" *）は、そのロジックを1つのLUTにロックします。（* RLOC = "XxYy" *）は、FPGAプリミティブをクラスタにパックし、相互に相対的にクラスタを配置します。
131 名前：yamaguti mailto:sage [2018/08/12(日) 19:51:29.03 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
rio2016.2ch.net/test/read.cgi/future/1489922543/184-216
132 名前：>>130 mailto:sage [2018/08/12(日) 19:51:58.10 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
図5：並列スケジューラのFPGA実装

? 　 ry 、およびデコードされた命令バッファ ry 。
　図5は、スケジューラ、プライオリティエンコーダ、およびデコード済命令用バッファを含む図4のザイリンクス7シリーズの実装であり、クリティカルパスが白 ry
　FPGAスライスの2つの水平な行はそれぞれ、命令ウィンドウの4つのエントリに対応します。
左から右へ：

? • 淡黄色：4つの6ビットデコード済み状態フリップフロップ。
• 淡黄色：4つの6ビットデコード済レディ状態フリップフロップ。
• 黄/緑：B、T00、T01、T10、T11ターゲット・デコーダ;
• オレンジ：アクティブレディ状態のLUT / FF RT_NXT / RTなど。
• 紫色：INH_NXTおよびINH。
• 赤：RDY_NXTとRDY。

? 右側には、複数の32x6ビットトゥルーデュアルポートLUT RAMに実装された、合成された優先エンコーダとマルチプレクサ（青）とデコードされた命令バッファ（白） ry 。
右側には、合成された優先度エンコーダとマルチプレクサ（青）と、複数の 32 x 6 ビットトゥルーデュアルポート LUT RAM に実装されたデコード命令用バッファ（白 ry
? 　 ry デコード済命令LUT RAM、 ry 。
　パフォーマンス：Kintex-7 -1スピードグレードでは、クリティカルパスにRDYクロックトゥーアウト、プライオリティエンコーダ、マルチプレクサ、デコードされた命令LUT RAM、次のreadysロジック、RDYセットアップを含む5.0 nsが必要です。
相互接続遅延はクリティカルパスの85％です。残念ながら、RDYからRDYまでのすべてのパスは、比較的大きな直径のネットリストを通過 ry
? 　 ry バックツーバック問題（連続サイクルで） ry 。
スケジューラクリティカルパス（命令バッファLUT RAMの出力ポート）の途中でパイプラインレジスタを追加することにより、サイクルタイムを2.9nsに短縮することができますが、
これは、単一の従属命令チェーンのバックツーバックイシュー（連続サイクルで）を達成することはできません。
133 名前：>>131 mailto:sage [2018/08/12(日) 19:52:35.34 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
? ry 準備完了状態
E. 増分データフロースケジューラレディー状態
　並列スケジューラは簡単ですが、32x12bのレディステート（LUT RAMの数少ないLUT）を維持するために何百ものLUTとFFを消費し、命令ウィンドウのサイズが2倍になるとこの領域も2倍になります。
? また、発行された各命令が多くても2つの他の準備完了状態に影響を与えても（ブロードキャストにもかかわらず）、各命令の次のreadys LUTの各サイクルはすべての命令の準備を再計算します。
又、発行された各命令が大抵 2 つの他のレディー状態に影響を与えても（ブロードキャストにもかかわらず）、LUT での各レディーは次の各サイクルで全ての命令のレディーステートを再計算させます。 ?
? ry 、キュー内のレディ命令のフロンティアを維持し、 ry 。
対照的に、インクリメンタルスケジューラは、LUT RAMでデコードされたアクティブレディ状態を保持し、キュー内のレディ命令のフロンティアを整備し、1サイクルあたりわずか2〜4ターゲット命令のレディステータスを評価します。

5

FFの配列と比較して、LUT RAMは高速で高密度ですが、いくつかの欠点があります。フラッシュする方法がなく、1サイクルあたり1つの書き込みしかサポートしていません。
134 名前：yamaguti mailto:sage [2018/08/12(日) 19:53:48.27 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
rio2016.2ch.net/test/read.cgi/future/1489922543/184-216
135 名前：>>133 mailto:sage [2018/08/12(日) 19:54:36.01 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
DRDYSS
　　WA ← 　　DC_IID
　　RA ← 　　EVT_IID
　　I ← 　　DC_DRDYS
　　O → 　　READY LOGIC　　DRDYS

ARDYSS
　　WA ← 　　EVT_IID
　　RA ← 　　EVT_IID
　　I ← 　　READYLOGIC　　ARDYS_NXT
　　O → 　　READYLOGIC　　DRDYS

DVS ← 　　RESET
　　O → 　　READYLOGIC　　DV
　　WA ← 　　DRDYSS　　WA
　　RA ← 　　DRDYSS　　RA

AVS ← 　　RESETvREFRESH
　　WA ← 　　ARDYSS　　WA
　　RA ← 　　ARDYSS　　RA
　　O →　　　　READYLOGIC　　AV

READY LOGIC
　　READY →
　　DV ← 　　DVS　　O
　　DRDYS ← 　　DRDYSS　　O
　　AV ← 　　AVS　　O
　　ARDYS → 　　ARDYSS　　O
　　ARDYS_NXT → 　　ARDYSS　　I
　　EVT_RDYS ← 　　EVT_RDYS
136 名前：>>135 mailto:sage [2018/08/12(日) 19:57:14.42 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
? ry ：準備状態、検証、および準備論理。
（a）設計：レディー状態、検証、およびレディーロジック。

（b）FPGAの実装。

図6： 16エントリスケジューラバンク。
137 名前：>>136 mailto:sage [2018/08/12(日) 19:58:48.86 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
? 　 ry とFFの `` RAM ''の ry 。
　代わりに、スケジューラはLUT RAMとFF `` RAM '' のハイブリッドを使用します。
? ry 16x4真のデュアルポートLUT RAMのいくつかのバンクに格納され、16x1フラッシュクリア可能セット - 「FC-SO-RAM」
デコードされた（DRT、DRF、DR0、DR1）およびアクティブ（RT、RF、R0、R1）レディ状態は16x4の真のデュアルポート LUT RAM を構成する「 FC-SO-RAM 」に批准する 16 x 1 フラッシュクリア可能セットオンリー RAM であるいくつかのバンクに格納される。
? これには、16個 ry ）すべて。
これは、16個のFF（共通リセット付き）、16個のライトポートアドレスデコーダ（8個の5,5-LUT）、16：1のリードポートマルチプレクサ（4個の6-LUT、2個のMUXF7、1個のMUXF8）の全 3 つのスライスで構成されています。
このハイブリッドからの各読み出しは、4b LUT RAMエントリおよびその有効ビットを読み取る。
各書き込みはLUT RAMを更新し、その有効ビットをセットする。
　複数のLUT RAM書込みポート。
d命令/サイクルのフェッチ/デコード速度およびi命令/サイクルの発行速度を維持するためには、各サイクルでd + 2iレディ状態エントリを更新する必要がある。
? これは1つのライト/サイクル ry 。
これは 1 ライト / サイクルLUT RAMの課題です。
? ry なく、4つ（またはそれ以上）のインタリーブされたディスジョイントバンクにレディ状態を分割します。（偶数、奇数）命令の（デコードされた、アクティブな）準備完了状態を示す。
増分スケジューラは、クロックダブリングまたは複製されたRAMバンクをライブ値テーブルで使用するのではなく、レディ状態を 4つ（またはそれ以上）のインタリーブされたディスジョイントバンクに分割します :
（偶数、奇数）命令の（デコードされた、アクティブな）レディステートを示す。

? その後、フロントエンドは、偶数および奇数のデコード済みレディ状態を書き込むことができ、バックエンドは、偶数および/または奇数ターゲット命令のアクティブレディ状態を更新する。
その後、バックエンドが偶数および/または奇数ターゲット命令のアクティブレディ状態を更新する状態である限りは、フロントエンドは偶数および奇数のデコード済レディ状態を書込む事ができる。
138 名前：>>136 mailto:sage [2018/08/12(日) 20:00:37.05 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
// ? 準備完了のロジック　　レディーロジック
always @* begin
　　ARDYS_NXT = (DV ? DRDYS : 4'b0000)
　　　　　　| (AV ? ARDYS : 4'b0000)
　　　　　　| EVT_RDYS;
　　READY = &ADRYS_NXT;
end

? ry ：準備完了ロジック
リスト2：レディーロジック

　図6は、結果として16エントリスケジューラバンクの設計と実装を示しています。 >>135-136 >>135 >>136
? 青でデコードされ ry 。
青のデコードされアクティブな状態のLUT RAM DRDYSSおよびARDYSSは、オレンジ/赤のFC-SO-RAM DVSおよびAVSによって検証されます。
各サイクルにおいて、デコーダは、命令DC IIDのデコード済みレディ状態DC DRDYSおよびその有効ビットを書き込む。
? また、各サイクルで銀行の目標準備完了EVT :: = {EVT_IID; EVT_RDYS}は、そのDRDYSおよびEVT_RDYSを使用してEVT_IIDのARDYSの読み取り - 変更 - 書き込みを介して処理されます。
また、バンクのターゲットレディイベント EVT :: = {EVT_IID; EVT_RDYS}は各サイクルで、リードモディファイライトを行う EVT _ID の ARDYS を介し又その DRDYS 及び EVT_RDYS をも使用して処理されます。
リスト2を参照してください。
4つのARDYSビットがすべてセットされると、命令はレディ状態になります。
? このロジック（シアン）はすべて1つのスライスで済みます。最適化として、READYの縮小はキャリーロジックになります。
このロジック（シアン）の全ては 1 つのスライスで済み、最適化として、READY 縮小の為の and はキャリーロジックになります。

? 　 ry ・バンクの競合が存在する可能性があります。
　EDGEコンパイラは、命令の両方のターゲットがディスジョイント・バンクにあることを保証するわけではないため、スケジューラ・バンクの競合が発生する可能性 ry
。 ADD命令は、命令10のオペランドと命令12のオペランドを対象 ry
? ry できないため、1つのイベントが処理され、もう1つのイベントが後のサイクルでキューに入れられます。
同じサイクルで2つの偶数バンク・ターゲットのアクティブ・レディ状態を更新することはできないため、 1 つのイベントが処理された後のサイクルで、もう 1 つのイベントがキュｰ ry
139 名前：>>138 mailto:sage [2018/08/12(日) 20:01:53.31 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
F. インクリメンタルなデータフロースケジューラの設計、運用、実装
　スケジューラのコア（図7）は次のように構成されています。

• INSN: 2つのターゲットイベントフィールドを持つデコードされた命令
• EVT0, EVT1: 偶数/奇数ペンディングイベントレジスタ
• 偶数/奇数イベントマルチプレクサ、プリデコードされたセレクトによって制御される
• SCH0, SCH1: 偶数/奇数16エントリスケジューラバンク
? • 3つの準備命令IIDキュー：
• 3つのレディ命令IIDキュー：
-- DCRDYQ: デコーダレディキュー。
? -- ISRDYQ: 発行（ ry 。
-- ISRDYQ: イシュー（スケジューラ）レディキュー。
-- LSRDYQ: ロード/ストアレディキュー
• 次のIIDを選択する2つの3：1セレクタ
? • INSNS: デコードされた命令RAM（ ry ）
• INSNS: デコード済命令RAM（リードポート）

? ry 、デコードされた命令レジスタ ry 。
この設計では、スケジューラの繰り返しサイクルが開始され、デコード済命令レジスタで終了 ry
　図1の最初のEDGEコードブロックの実行を検討してください。
? ry 、DVS、SCH0、SCH1のAVSがクリアされます。
スケジューラがリセットされ、 SCH0 、 SCH1 の DVS 、 AVS がクリアされます。
? ry 、その命令をINSNSにフェッチしてデコードします。
フロントエンドはブロックのヘッダをフェッチし、その命令をフェッチして INSNS にデコードします。
? 2つのREADは発行する準備ができているため、 ry 。
2つのREADはイシュー待ちレディーである為、IIDがDCRDYQにエンキューされます。
? これはバックエンドのために ``ポンプを準備する ''。
これはバックエンドの為の ``ポンプの準備 '' 。
? ry 、準備ができていないため、エンキューされません。
他の命令はオペランドまたは述部を待機し、レディーでない為、エンキューされません。

6
140 名前：yamaguti mailto:sage [2018/08/12(日) 20:02:32.65 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
rio2016.2ch.net/test/read.cgi/future/1489922543/184-216
141 名前：>>139 mailto:sage [2018/08/12(日) 20:03:39.12 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
0
　　INSN
　　　　T1
　　　　T0

1
　　EVT1
　　EVT0

2 3 4
　　LSRDYQ
　　DCRDYQ
　　ISRDYQ
　　SCH1
　　　　READY →
　　　　EVT ←
　　　　EVT_IID →
　　SCH0
　　　　READY →
　　　　EVT ←
　　　　EVT_IID →

5
　　IID

6
　　INSNS:
　　　　? デコードされた指示　　デコード済命令
　　32xn LUT RAM

（a）デザイン。
142 名前：>>141 mailto:sage [2018/08/12(日) 20:05:03.71 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
（b）FPGAの実装。

? ry 、デコードされた命令バッファ、レディキューを含む。
図7： 32エントリスケジューラ、デコード済命令バッファ、レディキュー。

? 　ry データフロー実行は次のように実行されます。
　バックエンドのデータフロー実行継続は次の様に承認されます。
? ry 、両方のREADYが否定されます。
最初はINSNが無効で、両方のREADYがネゲートです。
IIDセレクタツリーは、DCRDYQから最初のREAD命令（IID = 0）を選択/デキューします。
デコードされたREAD命令語は、INSNSからINSNに読み出される。
　READ対象ADDオペランド＃1
? そのINSN.T0（バンク対象準備完了イベント） ry 、そのマルチプレクサはSCH0のEVT =（2、 'b0001）を選択する。
そのINSN.T0（偶数バンクターゲットレディーイベント）フィールドは有効であり、そのマルチプレクサは SCH0 用に EVT =（2、 'b0001）を選択する。
これはADDのアクティブレディ状態を更新します： 'b1100 |' b0000 | 'b0001 =' b1101、現在は左オペランド（オペランド＃0）のみを待ちます。
どちらのスケジューラ・バンクもREADY命令を検出していないので、IIDセレクタ・ツリーはDCRDYQからの2番目のREADを選択/デキューします。

　このREADはADDオペランド＃0を対象としています ; そのINSN.T0はEVT =（2、 'b0010）である。
SCH0はADDのレディー状態を 'b1111'に更新し、READYをアサートしてADD（IID = 2）を発行します。
　ADDのT1はSCH1のTLEIレディ状態をターゲットにしています。
? TLEIは準備ができて問題になります。
TLEIはレディーとなりイシューされます。
? 　 ry ISステージ準備完了イベントを指定しない。
　TLEIに関しては、どちらのT0 / T1フィールドもISステージレディーイベントを指定しない。
どうして？
ADDのような単純な1サイクルレイテンシ命令とは異なり、テスト命令のターゲットは、テストがEXステージで実行されるまでレディイベントを受け取ることができません。
テストが完了すると、その真/偽の述語イベントが通知されます。
これらは待ち行列および/またはマルチプレクサ（図示せず）を介してEVT0、EVT1ペンディングイベントレジスタに進み、アイドルスケジューライベントスロットを待つ。
143 名前：>>139 mailto:sage [2018/08/12(日) 20:11:29.75 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
>>139
>　図1の最初のEDGEコードブロッ

>>109 >>109-110 >>110
144 名前：>>142 mailto:sage [2018/08/12(日) 20:14:12.13 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
? 　 ry 、多くのエラスティックFIFOレディキュー ry 。
　キュー：このデザインでは、多くの弾力的 FIFO レディキューとイベントキューが採用されています。
? アップダウンカウンタと ry 。
それらは小さく且つ高速でありアップダウンカウンタとザイリンクスSRL32CE 32ビット可変長シフトレジスタLUTで構成されています。
DCRDYQに加えて、現在の設計には2つの他のレディキューがあります。
? 　ISRDYQ：命令が発行され、それが2つを目覚めさせ、偶数命令が次に発行し、奇数命令がISRDYQにキューイングされるときの「1つの問題」の設計では、
　ISRDYQ：「 1 イシュー」の設計に於ては、命令が発行され、それが他の 2 つを目覚めさせ、偶数命令が次に発行し、奇数命令がキューイングされるキューは ISRDYQ
　LSRDYQ： EDGEプロセッサは、ロード・ストア・キューを使用してシーケンシャル・メモリ・セマンティクスを提供します。
? ry 並べ替えます。（ready）ロード/ストアが ry 。
1つのシンプルなエリア最適化LSQは、特定のアクセスを保護して並べ替えます ; （レディ/）ロード/ストアがメモリに発行可能になると、LSQはそれをLSRDYQにエンキューします。
　ブロードキャストウェイクアップ：各EDGE結果ブロードキャストは、ウィンドウ内の任意の数の命令をターゲットにしてウェイクさせることができる。
? ry 、増分スケジューラーではコストがかかります。
これは並列スケジューラーにとっては簡単ですが、インクリメンタルスケジューラではコスト ry
。結果がブロードキャストされると、スケジューラは、そのブロードキャスト入力でデコードされた各命令のレディ状態を順次更新 ry
? ry ）を維持する。
したがって、デコーダは、所定のブロードキャスト入力を有する命令のIIDの待ち行列（BR1Q、BR2Q、BR3Q）を整備する。
? ry SCH0、SCH1に提示されたEVTにデキューし始める。
ブロードキャスト結果が分かれば、スケジューラはBRnQ IIDをSCH0、SCH1へ提示されたEVTにデキューし始める。
145 名前：>>144 mailto:sage [2018/08/12(日) 20:16:00.33 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
　パフォーマンス：図7aのラベル0〜6は、スケジューラクリティカルパスの各ポイントへの「LUT遅延」の数を示します。図7bの白いパスです。 >>141
? ry を含む4.3 nsです。
Kintex-7 -1スピードグレードでは、INSNクロックトゥーアウト、EVTマルチプレクサ、SCH1のAVSリードポートマルチプレクサ、ARDYS_NXTとREADYロジック、IIDセレクタ、INSNSリード、およびINSNセットアップを含めて 4.3 ns です。
? ry LUTローカルMUXF7 / MUXF8 / CARRY4ネットの使用 ry 。
ここで、相互接続遅延は、比較的短いネットとLUTローカルなMUXF7/MUXF8/ CARRY4ネットなりの使用を反映するクリティカルパスのわずか70％です。
? ry バックトゥーバック問題が排除されます。
スケジューラのクロック周期は、LUT RAMおよびFC-SO-RAMの読み取り後のパイプラインレジスタを追加することで2.5 nsに減らすことができますが、並列スケジューラと同様に、パイプライン処理によって依存命令のバックトゥーバックイシューの余地がなくなります。
146 名前：>>145 mailto:sage [2018/08/12(日) 20:17:17.24 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
? G. 並列スケジューラと増分スケジューラの比較
G. 並列とインクリメンタルとのスケジューラの比較

メトリック　　　　パラレル　　インクリメンタル　　ユニット

エリア, 32エントリ　　288　　78　　　　LUTs
面積、合計、32エントリ　340　　150　　　　LUTs
期間　　　　　　　　　5.0　　4.3　　　　ns
期間、パイプライン　　2.9　　2.5　　　　ns
面積、合計*期間　　1700　　645　　　　LUT*ns

ブロードキャスト　　　　? フラッシュ反復　　フラッシュインタリーブ
イベントバンクの競合？　　決してない　　sometimes

エリア、4イベント/サイクル　　288　　156　　　　LUTs
エリア、64エントリ　　　　576　　130　　　　LUTs

? 表II：並列スケジューラと増分スケジューラの比較
表II：並列とインクリメンタルとのスケジューラの比較
147 名前：>>146 mailto:sage [2018/08/12(日) 20:18:03.97 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
　表2は、2つのデータフロースケジューラ設計の違いをまとめたものです。 >>146
インクリメンタルスケジューラのコアは、並列スケジューラのサイズの3分の1以下ですが、キューとマルチプレクサの追加オーバーヘッドが追加されるとサイズの利点が小さくなります。
? ry 、エリア*期間のメトリック ry 。
インクリメンタルスケジューラも高速で、エリア*時間のメトリックは2.6倍優れています。

7

しかし、並列スケジューラはいくつかの強引な利点を保持しています。
? 増分スケジューラは、 ry 割合でブロードキャストキューを反復的に排除する必要があります。
インクリメンタルスケジューラは、ブロードキャストイベントを1サイクルで処理できますが、1サイクルあたり1〜2命令の割合で反復的にブロードキャストキューから排出させる必要があります。
? ry で問題が発生する可能性 ry 。
これにより、一部のワークロードでイシューがストールする可能性があります。
インクリメンタルスケジューラはまた、偶数/奇数のターゲットバンクの衝突を受けやすく、命令ウェイクアップを遅らせる可能性がある。
? ry 実質的な期間の利点を覆い隠す ry 、実際の作業負荷の調査が必要です。
これらの影響が実質的な面積*時間の利点を覆隠すかどうかを測定するには、実際のワークロードの調査 ry
? 　最後に、将来のスケールアップをより広い問題とより大きな命令ウィンドウにまで考慮する。
　最後に、より幅広のイシューとより大きな命令ウィンドウの為の将来のスケールアップを考察する。
? ry 細分されたときには増加せず、 ry 。
並列スケジューラは、サイクルごとに2倍のイベントを処理するために、より多くのバンクに細分されたときには拡大せず、インクリメンタルスケジューラコア領域は2倍になります。
命令ウィンドウを64エントリに拡張するために、並列スケジューラは2倍の面積を必要とし、インクリメンタルスケジューラ領域はより穏やかに増加する。
148 名前：>>147 mailto:sage [2018/08/12(日) 20:18:57.51 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
IV. 結論
? 　 ry 取り組みを紹介します。
　本稿では、FPGAのための実用的な ry に向けた取組を紹介しました。
ASICのより単純な高ILPマイクロアーキテクチャに最適化された新しいEDGE命令セットアーキテクチャが、FPGAに適しているか、または汎用ソフトプロセッサがスカラーRISC低速レーンに停滞しているかどうか ry
　我々は、2つの異なるデータフロー命令スケジューラ設計と ry を検討した。
? ry 、いずれかのデザインのFPGAリソースコストとクロック周期の影響は限定的であり、 ry 。
市販の200MHz、1,000-2,000のLUTソフトプロセッサのコンテキストでは、いずれのデザインのFPGAリソースコストとクロック周期のインパクトも限定的であり、許容可能で実用的なようです。
? ry 4デコード/ 2つの実装形態に適しています。
両方の設計選択肢は、将来の4デコード/ 2イシュー実装形態へのスケールに適しています。
149 名前：yamaguti mailto:sage [2018/08/12(日) 20:19:46.85 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
rio2016.2ch.net/test/read.cgi/future/1489922543/184-216
150 名前：>>148 mailto:sage [2018/08/12(日) 20:21:26.79 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
参考文献
? ry 、「FPGAでRISCをつくる」、 ry
[1] J. Gray、1996年8月、「 FPGA で自家製 RISC をつくる」、 fpgacpu.org/papers/j32.ppt
[2] ----、「FPGAにRISCシステムを構築する」サーキットセルラーインク、no。 116 - 118、March、April、2000年5月。
[オンライン]。利用可能な： fpgacpu.org/papers/xsoc-series-drafts.pdf
[3]アルテラ・コーポレーション、「Niosエンベデッド・プロセッサ・ソフトウェア開発リファレンス・マニュアル」、2001年3月。
[4]ザイリンクス社の「MicroBlazeプロセッサリファレンスガイド」、 2002。
[5] AK Jones、R. Hoare、D. Kusic、J. Fazekas、およびJ. Foster、「カスタムハードウェア実行によるFPGAベースのVLIWプロセッサ」、
? ry 、2005年、107〜117頁。
フィールドプログラマブルゲートアレイに関する第13回国際シンポジウム予稿集、2005年、pp 107〜117頁。
[6] KOI TiliとJG Steffan、「チルト：マルチスレッドVLIWソフトプロセッサファミリ」、
フィールドプログラマブルロジックとアプリケーションに関する国際会議の議事録、2013年8月。
[7] P. Yiannacouras、JG Steffan、およびJ. Rose、「VESPA：ポータブル、スケーラブル、フレキシブルなFPGAベースのベクタ・プロセッサ」
? 、および組み込みシステムに関する ry 。
コンパイラ、アーキテクチャ、および組み込みシステムの統合に関する国際会議の議事録、2008、pp。61-70。
[8] J. Yu、G. Lemieux、およびC. Eagleston、
? ry 、第16回国際プログラマブルゲートアレイシンポジウム講演予稿集、 ry 。
「ソフトコアCPUアクセラレータとしてのベクトル処理」、第16回プログラマブルゲートアレイ国際 ACM/SIGDA シンポジウム講演予稿集、2008年、pp。222-232。
151 名前：>>150 mailto:sage [2018/08/12(日) 20:22:38.10 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
[9] R. Carli、柔軟なMIPSソフトプロセッサアーキテクチャ、修士論文、マサチューセッツ工科大学、2008年5月
[10] K. AasaraaiとA. Moshovos、「実行可能な順序外ソフトコアへ：コピーフリー、チェックポイント付きレジスタの名前変更、
フィールドプログラマブルロジックとアプリケーションに関する第19回国際会議の講演会、2009年8月。
[11] BH Dwiel、NK Choudhary、およびE. Rotenberg、「多様なスーパースカラー・プロセッサのFPGAモデリング」、
? ry 」、2012年、188〜199頁。
IEEE国際シンポジウム「システムとソフトウェアの性能解析」論文集、2012年、 pp 188〜199頁。
[12] D. Burger、SW Keckler、KS McKinley、M. Dahlin、LK John、C. Lin、CR Moore、
J. Burrill、R.G. McDonald、W.Yoder、X.Chen、R.Disikan、S.Drolia、J.Gibson、MSS Govindan、
P. Gratz、H。Hanson、C. Kim、SK Kushwaha、H. Liu、R。Nagarajan、N. Ranganathan、
E. Reeber、K.Sankaralingam、S.Sethumadhavan、P.Sivakumar、およびA.Smith、
「EDGEアーキテクチャを用いてシリコンの端までスケーリングする」、IEEE Computer、vol。 37、no。 7、pp。44-55、2004年7月。
[13] M. Gebhart、BA Maher、KE Coons、J. Diamond、P. Gratz、M. Marino、N. Ranganathan、B. Robatmili、A. Smith、J. Burrill、SW Keckler、D. Burger、およびKSマッキンリー、
? ry 、2009年、1〜12頁。
「TRIPSコンピュータシステムの評価」、プログラミング言語とオペレーティングシステムのアーキテクチャサポートに関する第14回国際会議の講演会、2009年、 pp 1〜12頁。
152 名前：>>151 mailto:sage [2018/08/12(日) 20:23:14.09 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
[14] C. Kim、S. Sethumadhavan、MS Govindan、N. Ranganathan、D. Gulati、D. Burger、およびSW Keckler、
? ry 、2007年、381〜394頁。
「構成可能な軽量プロセッサ」、第40回マイクロアーキテクチャシンポジウム講演予稿集、2007年、 pp 381〜394頁。
[15] B. Robatmili、D. Li、H. Esmaeilzadeh、S. Govindan、A. Smith、A. Putnam、D. Burger、およびSW Keckler、
? 「ヒューズブル ry 」
「フューザブルダイナミックマルチコアアーキテクチャのための効果的な予測とフォワーディングの実装方法」
ry 、2013年、第460 - 471頁。
第19回高性能計算機アーキテクチャ国際シンポジウム講演予稿集、2013年、pp 第460 - 471頁。
[16] MSS Govindan、B. Robatmili、D. Li、B. Maher、A. Smith、SW Keckler、およびD. Burger、
「プロセッサのコンフィギュラビリティによるパワーと性能のスケーリング」、
IEEE Transactions on Computers、2013年3月。

8
153 名前：>>152 mailto:sage [2018/08/12(日) 20:27:13.81 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
>>105-152
rio2016.2ch.net/test/read.cgi/future/1489922543/184-216
>184 yamaguti 180727 0129 pBBIx/eO?2BP(0)
> >>46 >>173 >>152-183
> Google 翻訳
>
> これは、ファイル microsoft.com/en-us/research/wp-content/uploads/2016/02/e2-heart2010.pdf
> の html版です。 Google
:
> E2ダイナミックマルチコアアーキテクチャにおける動的ベクトル化
> 2010 HEART 2010の議事に出席する
:
154 名前：>>153 [2018/08/12(日) 20:33:49.65 ID:ltAhnLdz.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
>>153
arxiv.org/pdf/1803.06617.pdf#20180712120421
mobile.twitter.com/jangray/status/1004874394957578242
www.cs.utexas.edu/~cart/publications/dissertations/asmith.pdf#20150619203042
www.cs.utexas.edu/users/mckinley/papers/trips-eval-asplos-2009.pdf#20151129082813
www.microsoft.com/en-us/research/wp-content/uploads/2016/02/trips-compiler-cgo4.pdf#20180619043037
ftp%3A//ftp.cs.utexas.edu/pub/dburger/papers/IEEECOMPUTER04_trips.pdf#20170706111151
(deleted an unsolicited ad)
155 名前：yamaguti mailto:sage [2018/08/27(月) 09:32:30.84 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Google 翻訳

　

ページ1

　

好奇心に基づいた学習の大規模研究

ユリブルダ* OpenAI

ハリ・エドワーズ* OpenAI

Deepak Pathak * UCバークレー

アモスストーキー Univ。エジンバラの

トレバーダレル UCバークレー

アレクセイ・エフロス UCバークレー
156 名前：>>155 mailto:sage [2018/08/27(月) 09:33:19.93 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
抽象

強化学習アルゴリズムは、エージェントへの慎重にエンジニアリングされた外的な環境報酬に依存します。
しかし、手作業で設計された密集した報酬で各環境に注釈を付けることはスケーラブルではなく、エージェントに内在する報酬機能を開発する必要があります。
好奇心は報酬信号として予測誤差を用いる内的報酬関数の一種である。
このペーパーでは、（a）Atariゲームスイートを含む54の標準ベンチマーク環境全体にわたって、純粋に好奇心に基づいた学習、つまり、いかなる外的報酬も伴わない最初の大規模な学習を行います。
私たちの結果は、驚くほど優れたパフォーマンスと、本質的な好奇心の目標と多くのゲーム環境の手作業で設計された外的報酬との高度なアライメントを示しています。
(b) We investigate the effect of using different feature spaces for computing prediction error and show that random features are sufficient for many popular RL game benchmarks,
（b）我々は、予測誤差を計算するために異なる特徴空間を使用することの効果を調べ、多くの一般的なRLゲームのベンチマークではランダムな特徴が十分であることを示し、
but learned features appear to generalize better (eg to novel game levels in Super Mario Bros.).
学習された機能は、より一般化するように見える（例えば、スーパーマリオブラザーズの新規ゲームレベルへ）。
（c）予測ベースの報酬の制限を確率的な設定で実証する。
ゲームプレイ動画やコードは pathak22.github.io/large-scale-curiosity/ 。
157 名前：>>156 mailto:sage [2018/08/27(月) 09:34:29.87 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
前書き

補強学習（RL）は、エージェントが複雑なタスクを実行するための一般的な方法として浮上しています。
RLでは、エージェントポリシーは、タスクに合わせて設計された報酬関数を最大化することによって訓練される。
報酬は代理人の外来であり、彼らが定義する環境に特有のものです。
RLにおける成功の大部分は、この報酬機能が密集してよく整形されているとき、例えばビデオゲームで走っている「スコア」のときに達成された[21]。
しかしながら、うまく整形された報酬機能を設計することは、非常に困難な工学的問題である。
外的報酬を「形作る」のに代わるものは、密接な内在報酬[26]、すなわちエージェント自体によって生成される報酬でそれを補うことである[26]。
固有の報酬の例には、報酬信号として予測誤差を使用する「好奇心」[11,22,27,35,40]、エージェントを拒否する「訪問回数」[3、20、24、30]同じ状態を再訪する。
考え方は、これらの内在的な報酬が、次の外的報酬を見つけるために環境を効率的に探索するように代理人を誘導することによって、疎な外的報酬のギャップを橋渡しするということです。

しかし、外的報酬のないシナリオはどうですか？
これは聞こえるほど奇妙ではありません。
発達心理学者は、発達の初期段階において、内発的な動機づけ（すなわち、好奇心）が主要な要因であると話している[32,41]。生後に役立つ技能を身につけるために、
Minecraftのプレイから、地元の動物園への訪問まで、他にもたくさんの例があります。そこでは、外的報酬は必要ありません。
確かに、固有の報酬だけを使って与えられた環境にエージェントを事前に訓練することは、新しい環境で斬新な仕事に微調整されたときにはるかに速く学習できるという証拠がある[27,28]。
しかし、これまでのところ、本質的な報酬のみで学習する体系的な研究はなかった。

*アルファベット順。最初の3人の著者は等しく貢献しました。

プレプリント。
作業中です。
158 名前：>>157 mailto:sage [2018/08/27(月) 09:35:01.19 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
ページ2

図1：
このペーパーで調査された54の環境のスナップショット。
エージェントは、外的報酬、またはエピソード終了信号を使わずに、好奇心だけを使って進歩を遂げることができることを示します。
ビデオの結果、コード、モデル pathak22.github.io/large-scale-curiosity/ 。

このホワイトペーパーでは、様々なシミュレートされた環境のさまざまな範囲の固有の報酬によって純粋に駆動されるエージェントの大規模な実証研究を行っています。
In particular, we choose the dynamics-based curiosity model of intrinsic reward presented in Pathak et al.
特に、我々はPathak et al。が提示した内在的報酬のダイナミクスに基づく好奇心モデルを選択する。
[27] because it is scalable and trivially parallelizable, making it ideal for large-scale experimentation.
[27]スケーラビリティと並行して並列化できるため、大規模な実験には理想的です。
中心的なアイデアは、エージェントの現在の状態、すなわちエージェントの学習された順動力学の予測誤差を与えられたエージェントの行動の結果を予測する際の誤りとして、内在的な報酬を表現することである。
我々は、図1に示すビデオゲーム、物理エンジンシミュレーション、および仮想3Dナビゲーションタスクの54の環境にわたるダイナミクスに基づいた好奇心を徹底的に調査します。
159 名前：>>158 mailto:sage [2018/08/27(月) 09:35:36.27 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
好奇心に基づいた学習をより深く理解するために、パフォーマンスを決定づける重要な要因についてさらに検討します。
特に、高次元の生の観測空間（例えば、画像）における将来の状態を予測することは困難な問題であり、最近の研究[27,42]に示されるように、補助的な特徴空間における学習のダイナミクスは改善された結果につながる。
しかしながら、そのような埋め込み空間をどのように選択すべきかは、重要であるが未だオープンな研究課題である。
体系的アブレーションを通じて、エージェントが自分の好奇心によって純粋に動くように、エージェントの観察をコード化するさまざまな方法の役割を調べます。
To ensure stable online training of dynamics, we argue that the desired embedding space should: (a) be compact in terms of dimensionality,
ダイナミクスの安定したオンライントレーニングを確実にするために、我々は、所望の埋め込み空間が、（a）次元的にコンパクトであり、
(b) preserve sufficient information about the observation, and (c) be a stationary function of the observations.
（b）観測に関する十分な情報を保持し、（c）観測の定常関数である。
私たちはランダムなネットワークを介して観測をエンコーディングすることは、多くの一般的なRLベンチマークで好奇心をモデル化するための単純で効果的な手法であることを示しています。
これは、多くの一般的なRLビデオゲームのテストベッドは、一般的に考えられているように視覚的に洗練されていないことを示唆するかもしれません。
興味深いことに、練習ではランダムな機能で十分なパフォーマンスが得られますが、学習した機能は一般的に良く見えます（たとえば、Super Mario Bros.の新しいゲームレベル）。
160 名前：>>159 mailto:sage [2018/08/27(月) 09:36:10.49 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
要約すれば：
(a) We perform a large-scale study of curiosity-driven exploration across a variety of environments including:
（a）私たちは、好奇心に基づいた探査の大規模な研究を、
the set of Atari games [4], Super Mario Bros., virtual 3D navigation in Unity [1], multi-player Pong, and Roboschool [39] environments.
Atariゲーム[4]、Super Mario Bros.、Unity [1]、マルチプレイヤーPong、Roboschool [39]環境での仮想3Dナビゲーション。
（b）ランダム特徴、画素、逆ダイナミクス[27]、変分オートエンコーダ[15]を用いて、ダイナミクスに基づいた好奇心を学習するための異なる特徴空間を広範囲に調査し、見えない環境への一般化を評価する。
（c）我々は、直接予測誤差に基づく好奇心の定式化のいくつかの限界について議論することによって結論づける。
エージェント自体が環境中の確率論の源であるならば、実際の進歩を伴わずに報酬を得ることができます。
エージェントが環境の異なる部分を制御する3Dナビゲーションタスクで、この制限を経験的に実証します。

2
161 名前：>>160 mailto:sage [2018/08/27(月) 09:36:39.37 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Page 3

2
ダイナミクスに基づく好奇心に基づく学習

観測xtを見て、xt + 1の観測で次の状態に移り、次の状態に遷移するエージェントを考えてみましょう。
私たちは、このエージェントを、移行がどれほど有益であったかという報酬と奨励したいと考えています。
この報酬を提供するために、我々は以下の要素を含む探査ボーナスを使用します：
（a）観測値を表現φ（x）に埋め込むためのネットワーク、
（b）前回の観測と行動p（φ（xt + 1）| xt、at）に条件付けられた次の状態の表現を予測するフォワードダイナミクスネットワーク。
Given a transition tuple {xt,xt+1,at}, the exploration reward is then defined as rt = ?
遷移タプル{xt、xt + 1、at}が与えられると、探索報酬はrt =？
log p(φ(xt+1)|xt,at), also called the surprisal [2].
log p（φ（xt + 1）| xt、at）は、驚くべき[2]とも呼ばれます。

この報酬を最大にするように訓練されたエージェントは、予測誤差が大きい遷移を優先します。これは、エージェントが短い時間を過ごした領域で、または複雑なダイナミクスを持つ領域で高くなります。
このようなダイナミクスを基盤とした好奇心はシナリオ全体にわたって非常によく実行されることが示されている[27]。特にダイナミクスが生の観測ではなく埋め込み空間で学習されている。
In this paper, we explore dynamics-based curiosity and use mean-squared error corresponding to a fixed-variance Gaussian density as surprisal, ie, f(xt,at) ?
この論文では、ダイナミクスに基づく好奇心を探り、固定分散ガウス密度に対応する平均2乗誤差を驚くべきもの、すなわちf（xt、at）とする。
φ(xt+1)2 2 where f is the learned dynamics model.
φ（xt + 1）2 2ここで、fは学習された力学モデルである。
しかし、他の密度モデルを使用することもできる。
162 名前：>>161 mailto:sage [2018/08/27(月) 09:37:29.21 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
2.1
フォワードダイナミクスのための特徴空間
上記の好奇心の定式化におけるφの表現を考えてみよう。
φ（x）= xならば、フォワードダイナミクスモデルは観測空間で予測を行う。
特徴空間の良好な選択は、予測タスクをより扱い易くし、観測空間の無関係な側面を取り除くことができる。
しかし、ダイナミクスの好奇心を生み出すための優れた機能スペースは何になるでしょうか？
優れた機能スペースにはいくつかの特質があります。

•コンパクト：低次元であり、観測空間の無関係な部分をフィルタリングすることで、フィーチャはモデル化が容易でなければなりません。
•十分：機能に重要な情報がすべて含まれている必要があります。
さもなければ、代理人は環境のいくつかの関連する側面を調査するために報われることができないかもしれません。
•安定：非定常報酬は、強化エージェントが学習するのを困難にします。
必要に応じた探査ボーナスは、新規で斬新なものが古くなって時間とともに退屈になるので、非定常性を導入する。
ダイナミクスベースの好奇心の定式化には、非定常性の2つの情報源があります。フォワードダイナミクスモデルは、訓練されていくにつれて進化しており、学習するにつれてそのフィーチャは変化しています。
前者は方法固有のものであり、後者は可能な限り最小化すべきである

本研究では、いくつかの特徴学習法の有効性を体系的に調査し、以下に要約する。
163 名前：>>162 mailto:sage [2018/08/27(月) 09:38:01.07 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
ピクセル
最も単純な場合は、φ（x）= xであり、我々の前方力学モデルを観測空間に適合させる場合である。
情報は投げ捨てられず、特徴学習コンポーネントがないので安定しているので、ピクセルで十分です。
しかし、観測空間が高次元で複雑なため、ピクセルからの学習は難しい。

ランダム機能（RF）
次の最も単純なケースは、埋め込みネットワーク、畳み込みネットワークを取り、ランダム初期化後に修正するところです。
ネットワークは固定されているため、機能は安定しています。
フィーチャは次元がコンパクトにできますが、制約はありません。
しかしながら、ランダムな特徴が十分でない場合がある。

Variation Autoencoders（VAE）VAEは、変分推論を使用して、観測データxと潜在変数zを潜在変数生成モデルp（x、z）に先行するp（z）に適合させるために[15,31]で導入されました。
この方法は、事後p（z | x）を近似する推論ネットワークq（z | x）を必要とする。
これは、観測値を入力とし、対角共分散を有するガウス分布を記述する平均および分散ベクトルを出力するフィードフォワードネットワークです。

VAE IDF RFピクセル
安定いいえいいえはいはい
コンパクトはいはい多分いいえ
Sufficient Yes Maybe Maybe Yes ? 十分な可能性あり

表1：
考慮される異なる種類の特徴空間の分類を要約した表。

3
164 名前：>>163 mailto:sage [2018/08/27(月) 09:38:35.96 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Page 4

次に、埋め込みネットワークφとして平均値への写像を用いることができる。
These features will be a low-dimensional approximately sufficient summary of the observation,
これらの特徴は、観察の低次元の概ね十分な要約であり、
but they may still contain some irrelevant details such as noise, and the features will change over time as the VAE trains.
ノイズなどの無関係な詳細が含まれている可能性があります。その機能は、VAEがトレーニングするにつれて変化します。

逆動力学的特徴（IDF）遷移（st、st + 1、at）が与えられると、逆動力学の仕事は、前と次の状態stとst + 1が与えられた時の行動を予測することです。
特徴は、最初にstとst + 1を埋め込むために共通のニューラルネットワークφを用いて学習される。
直感は、学んだ機能は、エージェントの即時制御下にある環境の側面に対応する必要があるということです。
この特徴学習法は実装が容易であり、原理的にはある種のノイズに対して不変でなければならない（議論については[27]を参照）。
潜在的な欠点は、学んだ機能が十分でないこと、つまりエージェントが直ちに影響を及ぼさない環境の重要な側面を表すものではないことです。
これらの特性の概要を表1に示す。
学習された特徴は、学習が進むにつれて分布が変化するため、安定していないことに注意してください。
安定性を達成する1つの方法は、VAEまたはIDFネットワークを事前にトレーニングすることです。
ただし、ゲームの内部状態にアクセスできない場合は、ゲームシーンの代表データを取得して機能をトレーニングすることはできません。
1つの方法は、ランダムにデータを収集することですが、エージェントが開始した場所に偏ってしまい、さらに一般化しません。
すべての機能には望ましい特性のトレードオフが含まれているため、それぞれの環境がどのように効果的かという経験的な疑問になります。
165 名前：>>164 mailto:sage [2018/08/27(月) 09:39:30.15 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
2.2
純粋に好奇心によって動かされるエージェントを訓練する際の実際的な考察
特徴空間を決定することは、実用的なシステムを実装する際のパズルの最初の部分に過ぎない。
ここでは、学習アルゴリズムで行った重要な選択について詳しく説明します。
私たちの目標は、学習をより安定したものにするため、非定常性を減らすことでした。
以下に概説する以下の考慮事項により、ハイパーパラメータの変更を最小限に抑えながら、さまざまなフィーチャ学習方法や環境で確実に動作するように探査を行うことができます。

• 姫PO。
一般に、我々は、PPOアルゴリズム[38]が、ハイパーパラメータチューニングをほとんど必要としない頑強な学習アルゴリズムであることを見出したので、我々は実験に固執する。
• 正規化に報いる。
報酬関数は非定常であるので、価値関数が迅速に学習できるように報酬のスケールを正規化することは有用である。
これは、報酬を、割引報酬の合計の標準偏差の実行中の見積もりで除算することによって行いました。
•アドバンテージの正規化。
PPOで訓練している間に、平均値0と標準偏差1を持つバッチの利点[46]を標準化します。
• 観測の正規化。
私たちは目標環境上でランダムエージェントを10000ステップ実行し、観測の平均と標準偏差を計算し、それらを使用してトレーニング時の観測値を正規化します。
これは、初期化時のフィーチャのばらつきが小さく、環境によってばらつきが少ないことを確認するのに便利です。
•より多くの俳優。
使用される並列アクター（バッチサイズに影響する）の数を増やすことによって、メソッドの安定性が大幅に向上します。
私たちは通常、エージェントを訓練する間にデータ収集に同じ環境の128並列実行を使用します。
•機能を正規化する。
内在的報酬と外的報酬を組み合わせる際に、内在報酬の規模が国家空間全体で一貫していることを保証することが有用であることがわかった。
我々は、特徴埋め込みネットワークにおいてバッチ正規化[13]を用いることによってこれを達成した。
166 名前：>>165 mailto:sage [2018/08/27(月) 09:40:16.21 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
2.3
`死は終わりではない '：無限の地平線との割引好奇心
1つの重要な点は、エピソード信号の終わり（時には「完了」と呼ばれる）を使用すると、実際の報酬機能に関する情報が漏れることが多いことです。
シグナルを取り除かなければ、Atariのゲームの多くは単純すぎるようになります。
For example, a simple strategy of giving +1 artificial reward at every time-step when the agent is alive and 0 on death is sufficient to obtain a high score in some games,
例えば、エージェントが生きているときにステップごとに+1の人工報酬を与えるという簡単な戦略は、いくつかのゲームで高い得点を得るには死亡時に0で十分ですが、
for instance, the Atari game ` Breakout ' where it will seek to maximize the episode length and hence its score.
たとえば、エピソードの長さを最大化しようとするAtariゲームの「Breakout」とそれに伴うスコアです。
否定的な報酬の場合、エージェントはできるだけ早くエピソードを終了しようとします。

4

Page 5
167 名前：>>166 mailto:sage [2018/08/27(月) 09:40:58.45 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
0 100 200 300 400
0 500 1000 1500 2000 2500 3000 3500 4000

ビームライダー
BreakOut ? 起こる
MontezumaRevenge ? モンテスマ復讐
ポン
マリオ
Qbert
Reverraid ? 反逆
シークエスト
スペースインベーダーズ

フレーム数（単位：百万）
エピソードごとの外来報酬

ピクセル
VAE features ? VAEの機能
Inverse Dynamics features ? 逆動力学の特徴
Random CNN features ? ランダムCNN機能

図2：
8つの選択されたAtariゲームとSuper Mario Bros.の機能学習方法の比較

これらの評価曲線は、報酬またはエピソード終了信号なしに、純粋に好奇心で訓練されたエージェントの平均報酬（標準誤差を伴う）を示す。
私たちは、純粋に好奇心に頼った代理人が、トレーニング時に外的報酬を使用せずにこれらの環境で報酬を集めることができることを確認します。
すべてのAtariゲームの結果は、図8の付録にあります。
私たちは、ピクセル上で訓練された好奇心モデルはどんな環境でもうまく機能せず、VAE機能はランダムおよび逆ダイナミクス機能と同じか悪いかを実行することがわかります。
さらに、逆ダイナミクス訓練されたフィーチャは、アタリのゲームの55％でランダムなフィーチャよりも優れています。
この分析の興味深い結果は、好奇心をモデル化するためのランダムな機能はシンプルでありながら驚くほど強力なベースラインであり、Atariのゲームの半分でうまくいく可能性があるということです。
168 名前：>>167 mailto:sage [2018/08/27(月) 09:42:57.27 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
これに照らして、純粋な探索エージェントの行動を研究したい場合、エージェントにバイアスをかけてはいけません。
無限の地平線の設定では（つまり、ディスカウントされたリターンはエピソードの終わりに切り捨てられず、バリュー関数を使用して常にブートストラップされます）、死は退屈な場合にだけ避けるべきエージェントへのもう一つの移行です。
したがって、エージェントの探索の利得を単に死のシグナルの利得から分離するために、「done」を削除しました。
実際には、エージェントはゲームの中で死ぬことを避けることができます。それは、ゲームの始め、何度も何度も見られた領域、そしてダイナミクスをうまく予測できる場所に戻ってくるからです。
この微妙さは、外的報酬のない実験を示す以前の研究によって無視されてきた。

3
実験

すべての実験では、ポリシーと埋め込みネットワークの両方がピクセルから直接的に機能します。
ハイパーパラメータやアーキテクチャなどの実装の詳細については、付録Aを参照してください。
別段の記載がない限り、すべての曲線は、異なる種子を用いた3回のランの平均であり、斜線領域は平均の標準誤差である。
私たちは、ウェブサイト上のすべての環境で遊ぶ純粋に興味のあるエージェントのコードとビデオをリリースしました2。
169 名前：>>168 mailto:sage [2018/08/27(月) 09:43:35.46 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
3.1
外的報酬のない好奇心に基づいた学習外的報酬を使用せずに、多数の環境に対する純粋な好奇心に基づく学習を拡大することから始めます。
We pick a total of 54 diverse simulated environments, as shown in Figure 1,
図1に示すように、合計54の多様なシミュレーション環境を選択し、
including 48 Atari games, Super Mario Bros., 2 Roboschool scenarios (learning Ant controller and Juggling), Two-player Pong, 2 Unity mazes (with and without a TV controlled by the agent).
Super Mario Bros.、Roboschoolシナリオ2（Ant Control and Jugglingを学ぶ）、Two-player Pong、2つのUnity mazes（エージェントによって制御されたテレビの有無にかかわらず）を含む48のAtariゲームを含みます。
この大規模分析の目的は、以下の質問を調査することです。
（a）外的な報酬なしに、さまざまなゲームで純粋な好奇心に基づいたエージェントを実行すると、実際にはどうなりますか？
（b）あなたはこれらのエージェントからどのような行動を期待できますか？
（c）ダイナミクスを基礎とした好奇心における異なる特徴学習の変種がこれらの行動に及ぼす影響は何か？

2
pathak22.github.io/large-scale-curiosity/ pathak22.github.io/large-scale-curiosity/

5
170 名前：>>169 mailto:sage [2018/08/27(月) 09:44:09.35 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Page 6

A）アタリゲームズ
これらの質問に答えるために、我々はよく知られているAtariゲームのコレクションから始め、異なるフィーチャラーニング方法で一連の実験を行いました。
純粋に好奇心を要するエージェントがどれだけうまくいくかを測定する1つの方法は、それが達成できる外的報酬、すなわちゲームをプレイするエージェントがどれほど良いかを測定することです。
我々は、図2の8つの一般的なAtariゲームと、付録の図8のすべてのAtariスイート48の平均外的報酬の評価曲線を示します。
外的報酬は評価のためにのみ使用され、訓練には使用されないことに注意することが重要です。
しかし、これは純粋な探索のプロキシであり、ゲーム報酬は任意であり、エージェントが好奇心からどのように探究するかと全く一致しない可能性があるためです。

カーブから最初に気がつくのは、ほとんどが上がっていることです。
これは、純粋な好奇心に基づいたエージェントが、トレーニング中に外的報酬を使用しなくても外部報酬を得ることを学ぶことができることを示しています。
外的報酬もエピソード信号の終わりもないエージェントは、ある場合には外的報酬での学習に匹敵する得点を得ることを学ぶことができることは注目に値する。
たとえば、「ブレイクアウト」では、パドルをボールに当てて消えるレンガにボールを当てるとゲームスコアが上昇し、打撃を受けたときにポイントが与えられます。
ブリックがボールによって連続して打たれればするほど、レンガのパターンが複雑になり、エージェントはより掘り下げて探索することができます。したがって、ポイントをバイプロダクトとして収集します。
さらに、エージェントの寿命がなくなると、レンガは以前に何度もエージェントに見られた均一な構造に再びリセットされ、したがって非常に予測可能であるため、エージェントは死によってリセットされるのを避けることによって好奇心をそそるために生きている。
171 名前：>>170 mailto:sage [2018/08/27(月) 09:47:25.16 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
これは予期しない結果であり、多くの一般的なRLテストベッドでは外部報酬が必要ないことを示唆している可能性があります。
ry (similar to architects, urban planners, gardeners, etc.) are
これはゲームデザイナー（建築家、都市計画家、庭師などに似ている）が
very good at setting up curriculums to guide agents through the ry
好奇心のような目的は、多くの人間が設計した環境[6,12,16,48]の外的報酬とうまく一致しています。
しかし、これは必ずしもそうではなく、時には好奇心をそそるエージェントがランダムエージェントよりも悪い場合もあります。
これは、外的報酬がエージェントの探索とほとんど相関しない場合、またはエージェントが効率的に探索できない場合に発生します（図8のゲーム「Atlantis」、「IceHockey」を参照）。
我々はさらに、学習者のスキルをよりよく理解するために、ウェブサイト上で利用可能なエージェントのゲームプレイビデオを参照することを読者に推奨する。

特徴学習法の比較：
図2の4つの特徴学習法、すなわち生のピクセル、ランダムな特徴、逆動力学の特徴、およびVAEの特徴を比較する。
生のピクセルのトレーニングのダイナミクスは、すべての環境で悪い結果をもたらしますが、ピクセルをフィーチャにエンコードする方が優れています。
これは、ピクセル空間で良好なダイナミクスモデルを学習することが難しく、予測誤差が小さな無関係な細部によって支配される可能性があるためです。

驚くべきことに、ランダムフィーチャ（RF）は、タスク間でかなり良好に動作し、学習されたフィーチャを使用するよりも優れていることがあります。
優れたパフォーマンスの理由の1つは、ランダムなフィーチャがフリーズ（安定）していることです。ターゲットの定常性のために、それらの上で学習されたダイナミクスモデルの方が簡単です。
一般に、ランダムな特徴は、視覚的観察が十分に単純な領域ではうまくいくはずであり、ランダムな特徴は、例えばアタリゲームのような生の信号に関する十分な情報を保存することができる。
興味深いことに、ランダムな特徴はトレーニングではうまくいくが、IDFの学習した特徴はMario Brosでより一般化されているように見える（詳細はセクション3.2を参照）。
172 名前：>>171 mailto:sage [2018/08/27(月) 09:48:05.66 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
VAE法も良好に機能しましたが、やや不安定でしたので、RFとIDFを実験に使用することにしました。
The detailed result in appendix Figure 8 compares IDF vs.
付録の詳細な結果図8は、IDFと
RF across the full Atari suite.
フルアタリスイート全体のRF。
学習された行動を定量化するために、我々は好奇心旺盛なエージェントをランダムに行動するエージェントと比較した。
我々は、IDFに興味のあるエージェントが、Atariゲームの75％でランダムエージェントよりも多くのゲーム報酬を集めることを発見しました.RF好奇心旺盛なエージェントは70％でより良くなります。
さらに、IDFはゲームの55％でRFより優れています。
全体として、ランダムなフィーチャとインバース・ダイナミクスのフィーチャが一般的にうまく機能しまし
付録の詳細。

B）スーパーマリオブラザーズ
図2のMario Brosのさまざまな学習方法を比較します。
スーパーマリオブラザーズは、小規模実験では外的報酬無しの学習[27]という文脈で既に研究されているので、好奇心だけでエージェントを押し込めることができたのです。
マリオのシミュレータの効率的なバージョンを使用して、観察スペース、アクション、ゲームのダイナミクスをそのまま維持しながら、より長いトレーニングのためにスケールアップする方が速くなります。
100倍のトレーニングと最適化のためにPPOを使用しているため、当社のエージェントはいくつかのレベルのゲームを通過することができ、Mario Brosの以前の探索結果を大幅に改善します。
根底にある最適化をより安定させることで、純粋に興味のあるエージェントのパフォーマンスをさらに押し上げることができますか？
1つの方法は、バッチサイズを拡大することです。
これは、実行環境の並列スレッド数を128から2048に増やすことで実現します。

6

Page 7
173 名前：>>172 mailto:sage [2018/08/27(月) 09:48:40.33 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
0 10 20 30
0 250 500 750 1000 1250 1500 1750 2000

エピソードごとの外来報酬

勾配の更新の数
（a）大きなバッチ付きマリオ
128環境のバッチ
バッチ1024環境

フレーム数（単位：百万）
（b）ジャグリング（Roboschool）
純粋な好奇心（無報酬、無限遠地平線）探査
ジャグリング（Roboschool）

フレーム数（単位：百万）
（c）2人用ポン
純粋な好奇心（無報酬、無限遠地平線）探査
2人のポン

図3：
（a）Left：MarioのRFメソッドと異なるバッチサイズの比較。
結果は外的報酬を使用しない。
（b）センター：ジャグリング（Roboschool）環境におけるボールのバウンス数。
（c）右：マルチプレイPong環境におけるエピソード長の平均。
The discontinuous jump on the graph corresponds to the agent reaching a limit of the environment -
グラフ上の不連続なジャンプは、エージェントが環境の限界に達することに対応します。
after a certain number of steps in the environment the Atari Pong emulator starts randomly cycling through background colors and becomes unresponsive to agent 's actions
環境内の特定のステップ数の後で、Atari Pongエミュレータは背景色をランダムに循環し始め、エージェントのアクションに応答しなくなります
174 名前：>>173 mailto:sage [2018/08/27(月) 09:49:49.73 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
図3（a）の128と2048の並列環境スレッドを用いた訓練の比較を示す。
グラフから明らかなように、2048パラレル環境スレッドを使用した大きなバッチサイズのトレーニングは、より優れたパフォーマンスを発揮します。
実際には、エージェントはもっと多くのゲームを探索することができます。ゲームの11のレベルを発見し、秘密の部屋を見つけ、上司を倒すことができます。
この大規模実験のポイントは、サンプル効率についての主張ではなく、エージェントのトレーニングに関するパフォーマンスであるため、図のx軸はフレーム数ではなく、グラジエントステップ数です。
この結果は、基本的なRLアルゴリズム（この場合はPPO）のトレーニングが向上するにつれて、純粋に好奇心に基づくエージェントのパフォーマンスが向上することを示しています。
ビデオはウェブサイトにあります。
175 名前：yamaguti mailto:sage [2018/08/27(月) 09:53:04.76 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
google.jp/?q=2ch+future+furou+cyouju+OR+tokuiten
176 名前：>>174 mailto:sage [2018/08/27(月) 09:53:40.98 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
C）ロボスジャグリング
私たちはRoboschoolフレームワークからPong環境を修正して、1つのパドルと2つのボールを持つようにしました。
アクション空間は2次元で連続しており、アクション空間を次元ごとに5ビンに離散化し、合計25のアクションを与えました。
ポリシーネットワークと埋め込みネットワークの両方は、ピクセル観測空間で訓練されています（注：状態空間ではありません）。
この環境は、ゲームで使用される玩具物理学よりも制御が難しいですが、代理人は、ボールがその領域に入ったときに、ボールを傍受して打つことを学びます。
図3（b）に示すように、環境との相互作用のプロキシとしてボールのバウンス回数を監視しました。
プロジェクトのウェブサイトのビデオを参照してください。

D) Roboschool Ant Robot ? D）Roboschoolアリロボット
また、トラック上に8つの制御可能なジョイントを持つAntで構成されるAnt環境を使用することも検討しました。
私たちは再び行動空間と訓練された政策とネットワークを生のピクセル（状態空間ではない）に離散化しました。
しかし、この場合、外的距離報酬尺度が競馬場に沿って進行するので探査を測定することは容易ではなかったが、純粋に興味のあるエージェントは任意の方向に自由に移動することができる。
私たちは、歩くような行動が純粋に好奇心に基づく訓練から出てくることを見出します。
私たちは、エージェントが環境と意味のあるやりとりをしていることを示す結果ビデオを読者に紹介します。

E）2人用ポンでのマルチエージェントの好奇心
私たちは既に、純粋に好奇心に基づいたエージェントが報酬なしでいくつかのアタリゲームを学ぶことを知っていますが、その対戦相手がハードコーディングされた戦略を持つコンピュータエージェントであることが原因です。
両方のチームが互いに対して好奇心を持って遊ぶようにするとどうなりますか？
調べるには、ゲームの両面（パドルのパドル）が好奇心に基づいたエージェントによって制御されているTwo-player Pongゲームを行います。
エージェントの初期レイヤーを共有し、異なるアクションヘッドを持ちます。つまり、合計アクションスペースは、プレイヤー1のアクションとプレイヤー2のアクションのクロスプロダクトです。
177 名前：>>176 mailto:sage [2018/08/27(月) 09:54:39.20 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
エージェントが両面をプレイしているので、この文脈では外的報酬は無意味なので、代わりにエピソードの長さを示します。
結果を図3（c）に示す。
We see from the episode length that the agent learns to have more and longer rallies over time, learning to play pong without any teacher ?
エピソードの長さから、エージェントが時間の経過と共にますます長くなる集会を学び、先生なしでポンをすることを学びます。
purely by curiosity on both sides.
純粋に両側の好奇心によって。
実際には、ゲーム集会は最終的には非常に長くなり、Atariエミュレータを破り、色が急激に変化し、プロットに示すようにポリシーがクラッシュします。

7

Page 8
178 名前：>>177 mailto:sage [2018/08/27(月) 09:55:21.59 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
3.2
スーパーマリオブラザーズの新レベルでの一般化
前のセクションでは、純粋に好奇心を持ったエージェントが効率的に探索し、ゲームでのゲームの振る舞い、Antでのウォーキングの振る舞いなどの有用なスキルを学ぶことを学ぶことができたことを示しました。
これまでは、エージェントが訓練された環境でこれらのスキルが示されていました。
しかし、無償学習を開発することの利点の1つは、新しい環境に一般化を示すことによって、報酬機能を持たない豊富な「未ラベル」環境を利用できるようにすることです。

これをテストするには、まずMario Brosのレベル1-1で好奇心を使ってエージェントを事前にトレーニングします。
私たちは、RFとIDFベースの好奇心惹起剤が、Marioの新しいレベルに一般化することがどれだけうまくいくかを調べます。
図4では、Marioの1つのレベルのトレーニングと別のテストレベルのfinetuningの2つの例を示し、テストレベルのスクラッチからの学習と比較します。
すべての場合のトレーニング信号は好奇心の報酬だけです。
最初のケースでは、レベル1-1からレベル1-2まで、環境のグローバル統計が一致します（どちらもゲームの「日の環境」、つまり青い背景です）が、レベルには異なる敵、ジオメトリ、難易度があります。
このシナリオでは、両方の方法から強い転送があることがわかります。
しかし、レベル1-1からレベル1-3までの第2のシナリオでは、転送性能は弱い。
これは、図4に示すように、昼間から夜間に色彩がシフトするため、後者のレベルのペアリングでは問題がかなり困難になるためです。

さらに、IDFで学習されたフィーチャは、最初のケースではランダムフィーチャ転送と両方のケースで転送されますが、2番目のシナリオでは翌日から転送されません。
これらの結果は、ランダムな特徴が学習環境で良好に機能する一方、学習された特徴は新規なレベルに対してよりよく一般化するようであることを示唆し得る。
しかし、これは、将来、さまざまな環境でより多くの分析が必要になります。
全体として、私たちは好奇心で学んだスキルが新しい環境で効果的に探索するのに役立つという有力な証拠を見つけます。
179 名前：>>178 mailto:sage [2018/08/27(月) 09:56:11.49 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
IDFスクラッチ
IDF転送
RFスクラッチ
RF転送

0 10 20 30
0 250 500 750 1000 1250 1500 1750 2000

World 1 level 1 to world 2 level 1 ? 世界1レベル1〜世界2レベル1
0 10 20 30
0 250 500 750 1000 1250 1500 1750 2000
世界1レベル1〜世界3レベル1
フレーム数（単位：百万）
エピソードごとの外来報酬

図4：
マリオ一般化実験。
左側にはレベル1-1からレベル1-2への転送結果が表示され、右側にはレベル1-1からレベル1-3への転送結果が表示されます。
各プロットの下に、ソース環境とターゲット環境のマップがあります。
すべてのエージェントは、外的報酬なしで訓練されています。
180 名前：>>179 mailto:sage [2018/08/27(月) 09:56:52.04 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
フレーム数（単位：百万）
エピソードごとの外来報酬

Unity迷路

ランダムCNN機能
外来のみ
Inverse dynamics features ? 逆動特性

図5：端末外因+好奇心の報酬で訓練している間のユニティ環境における平均外因的報酬。
外的報酬のみのトレーニングの曲線は常にゼロであることに注意してください。

3.3スパースな外部報酬による好奇心
これまでのすべての実験では、私たちのエージェントは、純粋に好奇心によって動かされるいかなる外的報酬もなく、有用な技能を習得できることを示しました。
しかし、多くのシナリオでは、エージェントが関心のある特定のタスクを実行することが必要な場合があります。
これは、通常、外的報酬を定義することによってエージェントに伝達されます。
報酬が密集している場合（たとえば、フレームごとのゲームの得点）、クラシックなRLはうまく機能し、本質的な報酬は一般的にパフォーマンスに役立ちません。
しかし、高密度報酬を設計することは困難な工学上の問題です（詳細は序論を参照してください）。
このセクションでは、疎外された、または単なる端末の報酬の存在下で、好奇心がエージェントがどのようにタスクを実行するのに役立つかを評価します。

端末報酬設定：
多くの実際の問題、例えばナビゲーションの場合、唯一の端末報酬が利用可能であり、古典的なRLは典型的には貧弱に動作する。
したがって、我々は9つの部屋と疎な端末報酬を持つUnity ML-agentフレームワークで設計された迷路の3Dナビゲーションを検討する。

8
181 名前：>>180 mailto:sage [2018/08/27(月) 09:57:26.92 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Page 9

前方への移動、15度左を見る、15度右を見る、そして何も操作しない離散的なアクション空間があります。
エージェントは部屋1から開始します。部屋1はエージェント9の目標を含む部屋9から最も離れています。
私たちは、外的報酬で訓練されたエージェント（目標に達すると+1、それ以外の場合は0）を外的+内的報酬で訓練されたエージェントと比較します。
外来のみ（古典的なRL）は、すべての試行において目標を見つけることは決してありません。意味のある勾配を得ることは不可能です。
外因性+内在性は、典型的に毎回報酬を得ることに集中するのに対し、
図5の結果は、バニラPPO、PPO + IDF-好奇心およびPPO + RF-好奇心の結果を示す。

Sparse reward setting: In preliminary experiments, we picked 5 Atari games which have sparse rewards (as categorized by [3]), and compared extrinsic (classic RL) vs.
疎な報酬設定：予備実験では、疎な報酬（[3]で分類される）を持つ5つのAtariゲームを選び、外的（古典的なRL）vs.
extrinsic+intrinsic (ours) reward performance.
外因性+内在性（私たちの）報酬のパフォーマンス。
5つのうち4試合では、好奇心のボーナスによりパフォーマンスが向上します（付録の表2を参照してください）。
これは本書の焦点ではないことを強調したいと思います。これらの実験は完全性のために提供されています。
外因性（係数1.0）と内因性報酬（係数0.01）を調整することなく直接結合しました。
私たちは、内在的報酬と内在報酬を将来の方向性として最適に組み合わせる方法について質問を残します。
182 名前：>>181 mailto:sage [2018/08/27(月) 09:58:05.09 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
4
関連作業

本質的な動機づけ：
A family of approaches to intrinsic motivation reward内在的なモチベーション報酬へのアプローチのファミリー
an agent based on prediction error [2, 27, 36, 42], prediction uncertainty [11, 44], or improvement [19, 34] of a forward dynamics model of the environment that gets trained along with the agent 's policy.
エージェントの方針とともに訓練された環境のフォワードダイナミクスモデルの予測誤差[2,27,36,42]、予測不確実性[11,44]、または改善[19,34]に基づくエージェント。
A family of approaches to intrinsic motivation reward an agent based on prediction error , prediction uncertainty , or improvement of a forward dynamics model of the environment that gets trained along with the agent 's policy.
内在的動機づけへのアプローチの一群は、予測誤差、予測不確実性、またはエージェントの方針とともに訓練される環境の順動力学モデルの改善に基づいてエージェントに報酬を与える。
その結果、フォワードダイナミクスモデルの予測が困難な領域にエージェントが移動し、モデルはこれらの領域の予測を改善します。
この敵対的および非定常的な力学は複雑な挙動を引き起こす可能性がある。
この分野では、外部報酬が存在しない純粋な探査環境では、ほとんど進んでいません。
Of these mostly closely related are those that use a forward dynamics model of a feature space such as Stadie et al.
これらの大部分は、Stadieらのような特徴空間の順動力学モデルを使用するものである。
[42] where they use autoencoder features, and Pathak et al.
[42]オートエンコーダー機能を使用する場所、Pathak et al。
[27] where they use features trained
[27]訓練された機能を使用する場所
逆動力学の仕事で。
これらは、セクション2.1で詳述されているVAEとIDFメソッドにほぼ対応しています。
183 名前：>>182 mailto:sage [2018/08/27(月) 09:58:40.51 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
内在的な報酬には、州訪問回数の平滑化されたバージョンを使用することができる[3,9,24,47]。
Count-based methods have already shown very strong results when combining with extrinsic rewards such as setting the state of the art in the Atari game Montezuma 's Revenge [3],
カウントベースの方法は、AtariのゲームMontezuma's Revenge [3]で最新の状態を設定するなどの外的な報酬と組み合わせると、非常に強力な結果を示しています。
and also showing significant exploration of the game without using the extrinsic reward.
また、外的報酬を使用せずにゲームの重要な探索を示しています。
カウントベースのアプローチがダイナミクスベースのアプローチよりも好まれるべきである状況はまだ明確ではない。このペーパーでは、ダイナミクスベースのボーナスに重点を置くことを選択しました。
私たちの予備実験では、既存のカウントベースの実装では大規模な研究のためのスケールアップで十分な成功を収めていませんでした。

外的報酬や適性機能のない学習は、進化的コンピューティングでも広く研究されており、「新規性検索」と呼ばれている[17,18,43]。
そこでは、イベントの新規性は、距離を計算するためにイベントのいくつかの統計を使用して、以前のイベントの間で最も近い隣にイベントの距離として定義されることが多い。
この文献からの興味深い発見の1つは、多くの場合、フィットネスのためだけに最適化する以外には、はるかに興味深い解決策を見つけることができるということです。
184 名前：>>183 mailto:sage [2018/08/27(月) 10:04:22.65 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Other methods of exploration are designed to work in combination with maximizing a reward function, such as those utilizing uncertainty about value function estimates [5, 23], or those using perturbations of the policy for exploration [8, 29].
他の探査方法は、価値関数推定値に関する不確実性を利用する報酬関数や探索のための方針の摂動を用いる報酬関数などの報酬関数を最大化することと組み合わせて機能するように設計されている[8]、[29]。
Schmidhuber [37]とOudeyer [25]、OudeyerとKaplan [26]は、内在的動機づけへのアプローチに関する初期の研究のいくつかについて素晴らしいレビューを提供する。
185 名前：>>184 mailto:sage [2018/08/27(月) 10:04:55.85 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Alternative methods of exploration include Sukhbaatar et al.
探査の代替方法には、Sukhbaatar et al。
[45] where they utilize an adversarial game between two agents for exploration.
[45]彼らは探索のために2つのエージェントの間で敵対的なゲームを利用する。
In Gregor et al.
Gregor et al。
[10], they optimize a quantity called empowerment which is a measurement of the control an agent has over the state.
[10]、エージェントはエンパワーメントと呼ばれる量を最適化します。これは、エージェントがその状態を超えた制御の測定値です。
In a concurrent work, diversity is used as a measure to learn skills without reward functions Eysenbach et al.
並行作業では、報酬機能なしにスキルを習得するための手段として多様性が使用されます。Eysenbach et al。
[7].
[7]。
186 名前：>>185 mailto:sage [2018/08/27(月) 10:06:03.78 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
ランダムな特徴：
この論文の発見の1つは、ランダムな特徴の驚くべき有効性であり、ランダム投影法およびより一般的にはランダムに初期化されたニューラルネットワークに関する著しい文献がある。
Much of the literature has focused on using random features for classification [14, 33, 49] where the typical finding is that whilst random features can work well for simpler problems,
文献の多くは、分類のためにランダムな特徴を用いることに焦点を当てている[14,33,49]。典型的な発見は、ランダムな特徴がより簡単な問題のためにうまくいく一方、
feature learning performs much better once the problem becomes sufficiently complex.
問題が十分に複雑になると、フィーチャラーニングははるかに良好に機能します。
literature has focused on using random features for classification where the typical finding is that whilst random features can work well for simpler problems, feature learning performs much better once the problem becomes sufficiently complex.
文献では、ランダムな特徴がより単純な問題に対してはうまくいくが、問題の学習がはるかに良好になるという典型的な発見がある場合、分類にランダムな特徴を用いることに集中している。
このパターンがダイナミクスに基づく探索にも当てはまると期待していますが、学習したフィーチャがMario Brosの斬新なレベルでより一般化するように見える予備的な証拠があります。

9
187 名前：>>186 mailto:sage [2018/08/27(月) 10:06:35.97 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Page 10

5
討論

私たちのエージェントは純粋に好奇心を持って訓練され、有益な行動を学ぶことができることを示しました。
（a）エージェントは報酬を使わずに多くのアタリゲームをプレイできます。
（b）マリオは報酬なしで11レベル以上を越えることができる。
（c）Ant環境で起こったような行動を歩く。
（d）Robo-school環境における挙動のようなジャグリング
（e）両者の好奇心に基づくエージェントを用いたTwo-player Pongでのラリー作成行動。
しかし、環境の探索が外的報酬に対応していないAtariゲームがあるので、これは必ずしも真実ではありません。

より一般的には、これらの結果は、人間によって設計された環境では、外的報酬は、しばしば新規性を求めるという目的と一致していることを示唆している。
ゲームデザイナーは、ゲームをプレイしながらユーザーを誘導するためのカリキュラムを設定し、その理由を説明します。好奇心のような目的は、多くの人間が設計したゲームでは外的な報酬とうまく一致します[6,12,16,48]。
188 名前：>>187 mailto:sage [2018/08/27(月) 10:07:25.34 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
0.0 0.2 0.4 0.6 0.8 1.0
0 1 2 3 4 5 6 7 8

フレーム数（単位：百万）
エピソードごとの外来報酬

テレビをオフにしたRF
TV付きのRF
IDFでテレビをオフにする
TV付きIDF

図6：
3.3節では、ユニティ環境に雑音の多いTVを追加します。
私たちはIDFとRFをテレビの有無にかかわらず比較します。

予測誤差に基づく好奇心の限界：
より深刻な潜在的な限界は、確率論的ダイナミクスの取り扱いです。
環境内の遷移がランダムである場合、完全な力学モデルであっても、予想される報酬は遷移のエントロピーであり、エージェントはエントロピーが最も高い遷移を求める。
環境が本当にランダムではなくても、学習アルゴリズムが悪いため予測不可能であっても、貧弱なモデルクラスまたは部分的な観測可能性はまったく同じ問題につながります。
私たちはゲームの実験でこの効果を観察しなかったので、その点を説明する環境を設計しました。
189 名前：>>188 mailto:sage [2018/08/27(月) 10:07:53.87 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
我々は3.3節の迷路に戻り、ノイズの多いTV問題と呼ばれる共通の思考実験を経験的に検証する。
そのアイデアは、アクションが取られたときにチャンネルをランダムに変更するテレビのような環境におけるエントロピーのローカルソースは、エージェントにとって不可欠な誘因であることがわかっているはずです。
私たちは文字通りこの思考実験を行い、チャンネルを変更するアクションとともに迷路にテレビを追加します。
図6では、ノイズの多いTVの追加がIDFとRFのパフォーマンスにどのように影響するかを示しています。
予想どおり、テレビの存在は学習を大幅に遅くしますが、実験を長時間実行すると、エージェントは時には外的報酬を一貫して得ることに集中することがあります。
経験的には、確率論が問題になる可能性があることを経験的に示しているので、今後の研究ではこの問題を効率的に扱うことが重要です。

Future Work:今後の仕事：
私たちは、報酬機能やエピソードの終わりの信号なしに、多様な環境にわたる重要でない行動を学ぶことができるシンプルでスケーラブルなアプローチを提示しました。
この論文の驚くべき発見の1つは、ランダムなフィーチャがかなり機能することですが、学習されたフィーチャはより一般化するように見えます。
環境が複雑になると、学習機能は重要になると考えていますが、今後はそれを探求していく予定です。
しかし、私たちのより広い目標は、関心のある課題のパフォーマンスを向上させるために、多くの未ラベル（すなわち、報酬機能を持たない）環境を利用できることを示すことです。
この目標を前提にすると、一般的な報酬機能を備えた環境でパフォーマンスを示すことは、最初のステップにすぎません。将来の作業では、ラベルのない環境からラベルの付いた環境への移行を調査できます。
190 名前：>>189 mailto:sage [2018/08/27(月) 10:09:00.93 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
謝辞

私たちはUnity環境、Phillip Isola、Alex Nicholsの助けを借りてChris Luに感謝の意を表する。
実りある議論のために、BAIRとOpenAIのメンバーに感謝します。
DPはFacebookの卒業生のフェローシップによってサポートされています。

参考文献

[1] Unity ML-agents. ? [1]統一MLエージェント。
github.com/Unity-Technologies/ml-agents 。
2

10
191 名前：>>190 mailto:sage [2018/08/27(月) 10:11:18.00 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Page 11

[2] J. AchiamおよびS. Sastry。深い強化学習のためのサプライズベースの内的動機。
arXiv：1703.01732,2017。3,9
[3] M. Bellemare、S. Srinivasan、G. Ostrovski、T.Schaul、D. Saxton、およびR.Munos。
カウントベースの探索と固有のモチベーションの統一。 NIPSでは、2016年1月9日
[4] MG Bellemare、Y. Naddaf、J. Veness、およびM. Bowling。アーケード学習環境：一般エージェントの評価プラットフォーム。
Journal of Artificial Intelligence Research、47：253279、jun 2013. 2
[5] RY Chen、J. Schulman、P. Abbeel、およびS. Sidor。
q-ensembles.arXiv：1706.01502、2017.によるUCBとインフォゲイン探査
[6] G. Costikyan。ゲームの不確実性。 Mit Press、2013. 6、10
[7] B. Eysenbach、A. Gupta、J. Ibarz、およびS. Levine。
ダイバーシティはあなたが必要とするすべてです：報酬機能のない学習スキル。 arXivプレプリント、2018
[8] M. Fortunato, MG Azar, B. Piot, J. Menick, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg.
M. Fortunato、MG Azar、B. Piot、J. Menick、I. Osband、A. Graves、V. Mnih、R. Munos、D. Hassabis、O. Pietquin、C. Blundell、およびS. Legg 。
探査のための騒々しいネットワーク。 arXiv：1706.10295,2017。9
[9] J. Fu、JD Co-Reyes、およびS. Levine。 EX2：深層強化学習のための模範モデルによる探査。 NIPS、2017. 9
[10] K. Gregor、DJ Rezende、およびD. Wierstra。バリアント固有制御。 ICLRワークショップ、2017年9月
[11] R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel.
R. Houthooft、X. Chen、Y. Duan、J. Schulman、F. De Turck、およびP. Abbeel。
Vime：探索情報を最大化する変分情報。 NIPSでは、2016年1月9日
[12] R. Hunicke、M. LeBlanc、およびR. Zubek。
Mda：ゲーム設計とゲーム研究への正式なアプローチ。ゲームAIにおける課題に関するAAAIワークショップ（2004年6月10日）
[13] S.IoffeおよびC.Szegedy。バッチ正規化：内部共変量シフトを減らすことにより、深いネットワークトレーニングを加速します。
arXiv preprint arXiv：1502.03167,2015 4
192 名前：>>191 mailto:sage [2018/08/27(月) 10:12:16.58 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
[14] K. Jarrett、K. Kavukcuoglu、Y. LeCun、et al。オブジェクト認識のための最善のマルチステージアーキテクチャとは何ですか？
IEEE, 2009. 9コンピュータビジョン、2009年IEEE第12回国際会議、21462153ページ、IEEE、2009. 9
[15] DP KingmaとM. Welling。変分ベイズの自動エンコーディング。 arXiv preprint arXiv：2013年2月3日、1312.6114
[16] N. Lazzaro。ゲームをする理由：プレイヤーの経験でより多くの感情への4つの鍵。 Proceedings of GDC、2004. 6、10
[17] J. LehmanおよびKO Stanley。新規性の探索を通じて問題を解決するためのオープンエンド性の活用。 ALIFE、2008. 9
[18] J.リーマンとKOスタンレー。放棄する目的：進化だけで斬新さの探索。進化的計算、2011. 9
[19] M. Lopes、T. Lang、M. Toussaint、およびP.-Y. Oudeyer. Oudeyer。
経験的に学習進展を推定することによるモデルベースの強化学習の探索。 NIPS、2012. 9
[20] M. Lopes、T. Lang、M. Toussaint、およびP.-Y. Oudeyer。
経験的に学習進展を推定することによるモデルベースの強化学習の探索。 NIPS、2012. 1
[21] V. Mnih、K. Kavukcuoglu、D. Silver、AA Rusu、J. Veness、MG Bellemare、A. Graves、M. Riedmiller、AK Fidjeland、G. Ostrovski、et al。
深層強化学習による人間のレベルの制御。 Nature、2015、1
[22] S。モハメドとDJ Rezende。本質的に動機付けされた強化学習のための変分情報の最大化。 NIPSでは、2015年1月
[23] I. Osband、C. Blundell、A. Pritzel、およびB. Van Roy。ブートストラップdqnによる深い探査。 NIPS、2016年9月
[24] G. Ostrovski、MG Bellemare、A.vd Oord、およびR.Munos。
神経密度モデルを用いたカウントベースの探索。 arXiv：1703.01310,2017。1,9
[25] P.-Y. Oudeyer。好奇心に基づく学習の計算理論。 arXiv preprint arXiv：1802.10546、2018. 9

11

Page 12
193 名前：>>192 mailto:sage [2018/08/27(月) 10:12:55.87 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
[26] P.-Y. Oudeyer and F. Kaplan。内在的な動機は何ですか？計算上のアプローチの類型。ニューロロボティクスの最前線、2009年1月9日
[27] D. Pathak, P. Agrawal, AA Efros, and T. Darrell.
D.Patak、P. Agrawal、AA Efros、およびT. Darrell。
自己監視予測による好奇心に基づく探索。 ICMLでは、2017年1月2日、3日、4日、6日、9日
[28] D. Pathak, P. Mahmoudieh, G. Luo, P. Agrawal, D. Chen, Y. Shentu, E. Shelhamer, J. Malik, AA Efros, and T. Darrell.
D. Pathak、P. Mahmoudieh、G. Luo、P. Agrawal、D. Chen、Y. Shentu、E. Shelhamer、J. Malik、AA Efros、およびT. Darrell。
ゼロショットの視覚的模倣。 ICLR、2018.1
[29] M.Plappert、R.Houthooft、P.Dhariwal、S.Sidor、RYChen、X.Chen、T.Asfour、P.Abbeel、およびM. Andrychowicz。
探索のためのパラメータ空間雑音。 arXiv：1706.01905,2017。9
[30] P. Poupart、N. Vlassis、J. Hoey、およびK. Regan。
離散ベイジアン強化学習の解析的解。 ICML、2006. 1
[31] DJ Rezende、S.Mohamed、およびD.Wierstra。
深い生成モデルにおける確率的逆伝播と近似推論。 arXiv preprint arXiv：1401.4082、2014。3
[32] EL Ryan、Richard; Deci。内在的および外的な動機：古典的定義と新しい方向性。現代教育心理学、2000. 1
[33] AM Saxe, PW Koh, Z. Chen, M. Bhand, B. Suresh, and AY Ng.
AM Saxe、PW Koh、Z. Chen、M. Bhand、B. Suresh、およびAY Ng。
ランダムウェイトと教師なしの特徴学習。 ICML、10891096ページ、2011年。
194 名前：>>193 mailto:sage [2018/08/27(月) 10:13:33.41 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
[34] J. Schmidhuber. 。奇妙なモデル構築制御システム。
Neural Networks、1991年、IEEE国際共同会議、14581463ページ、IEEE、1991. 9
[35] J. Schmidhuber。モデル構築のニューラルコントローラに好奇心と退屈を実現する可能性。
動物から動物へ：適応行動のシミュレーションに関する第1回国際会議の議事録、1991. 1
[36] J. Schmidhuber。モデル構築のニューラルコントローラに好奇心と退屈を実現する可能性、1991. 9
[37] J. Schmidhuber。創造性、楽しい、そして本質的な動機づけの公式理論（19902010）。
自律的精神発達に関するIEEEの取り組み、2010. 9
[38] J. Schulman、F. Wolski、P. Dhariwal、A. Radford、およびO. Klimov。近接ポリシー最適化アルゴリズム。
arXiv preprint arXiv:1707.06347, 2017. 4
arXiv preprint arXiv：1707.06347,2017
[39] J. Schulman、F. Wolski、P. Dhariwal、A. Radford、およびO. Klimov。近接ポリシー最適化アルゴリズム。
arXiv preprint arXiv：1707.06347、2017. 2
[40] SP Singh、AG Barto、N. Chentanez。本質的に動機付けられた強化学習。 NIPSでは、2005年1月
[41] L.スミスとM.ガッサー。具体的な認知の発達：赤ちゃんからの6回のレッスン。人工生命、2005年1月
[42] BC Stadie、S。Levine、およびP. Abbeel。深い予測モデルによる強化学習の探求を促進する。 NIPSワークショップ、2015年.2,9
[43] KO StanleyおよびJ. Lehman。なぜ偉大さが計画できないのか：目的の神話。 Springer、2015。9
[44] S. StillおよびD. Precup。
An information-theoretic approach to curiosity-driven reinforcement learning.
好奇心に基づく強化学習への情報理論的アプローチ。 Theory in Biosciences, 2012. 9バイオサイエンス理論、2012. 9
[45] S. Sukhbaatar, I. Kostrikov, A. Szlam, and R. Fergus. [45] S. Sukhbaatar、I. Kostrikov、A. Szlam、およびR. Fergus。
Intrinsic motivation and automatic curricula via asymmetric self-play.
内在的な動機づけと、非対称セルフプレイによる自動カリキュラム。 In ICLR, 2018. 9 ICLR、2018年9月
195 名前：>>194 mailto:sage [2018/08/27(月) 10:14:07.88 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
[46] RS Sutton and AG Barto.
[46] RS SuttonおよびAG Barto。
Reinforcement learning: An introduction.
強化学習：導入。 MIT press Cambridge, 1998. 4
MITプレスケンブリッジ、1998。4
[47] H. Tang, R. Houthooft, D. Foote, A. Stooke, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel.
H. Tang、R.Houthooft、D.Foote、A.Stooke、X.Chen、Y.Duan、J.Schulman、F.De Turck、およびP. Abbeel。
#Exploration：深層強化学習のためのカウントに基づく探索の研究。
神経情報処理システムの進歩、2017. 9
[48] P. Wouters、H. Van Oostendorp、R. Boonekamp、およびE. Van der Spek。
バックストーリーと予兆を実装することで、魅力的で効果的な真剣なゲームを作成する際のゲームの談話分析と好奇心の役割。
コンピュータとの交流、2011年6月、10
[49] Z. Yang, M. Moczulski, M. Denil, N. de Freitas, A. Smola, L. Song, and Z. Wang.
Z. Yang、M. Moczulski、M. Denil、N. de Freitas、A. Smola、L. Song、およびZ. Wang。
ディープフライドコンベット。
In Proceedings of the IEEE International Conference on Computer Vision, pages 14761483, 2015. 9
IEEEビジョンに関するIEEE国際会議予稿集、14761483、2015。

12
196 名前：>>195 mailto:sage [2018/08/27(月) 10:15:34.07 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Page 13

A
実装の詳細

ウェブサイトでトレーニングコードと環境を公開しました3。
詳細については、ウェブサイトのコードとビデオの結果を参照してください。

前処理：
すべての実験はピクセルで行った。
すべての画像をグレースケールに変換し、サイズを84x84に変更しました。
現在の観測のみを使用するのではなく、歴史的観測[xt→3、xt→2、xt→1、xt]のスタックの両方でエージェントの方針とフォワードダイナミクスの機能を学ぶ。
これは、これらのゲームで部分的な観測可能性を取得するためです。
Super Mario BrosとAtariの実験では、各アクションを4回繰り返す標準フレームキットラッパーも使用しました。
197 名前：>>196 mailto:sage [2018/08/27(月) 10:16:05.21 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Architectures:アーキテクチャ：
私たちの埋め込みネットワークとポリシーネットワークは、同一のアーキテクチャを持ち、Atariの実験で使用されている標準の畳み込みネットワークに基づいていました。
埋め込みネットワークのフィーチャとして取るレイヤーは、すべての実験で次元512で非線形性はありませんでした。
ユニティ実験では、予測誤差のスケールを外的報酬と比較して一定に保つために、埋め込みネットワークにbatchnormを適用しました。
また、共変量のレベルをレベルからレベルまで減らすためのMarioの一般化実験でもこれを行いました。
VAEの補助タスクとピクセルメソッドでは、同様のデコンボリューションアーキテクチャを使用しました。その詳細は、コード提出の中で見つけることができます。
IDFおよびフォワードダイナミクスネットワークは、埋め込みネットワークの最上位にあり、いくつかの完全に接続された次元の層512が追加されています。

ハイパーパラメータ：
すべてのネットワークで学習率0.0001を使用しました。
ほとんどの実験では、32の並列環境のみを実行できるUnityおよびRoboschoolの実験と、2048を使用した大規模なMarioの実験を除いて、128の並列環境を使用しました。
ユニティ実験を除いて、すべての実験で長さ128のロールアウトを使用しました。ここでは、512の長さのロールアウトを使用していました。ネットワークがすばやい報酬に素早く掛かるようにしました。
MarioとAtariの最初の9回の実験では、スピードのためにロールアウトあたり3つの最適化エポックを使用しました。
Marioスケーリング、一般化実験、Roboschool実験では、6エポックを使用しました。
ユニティ実験では、8つのエポックを使用しましたが、もう少し迅速に疎の報酬を利用しました。

B
追加の結果
198 名前：>>197 mailto:sage [2018/08/27(月) 10:16:35.47 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
0 250 500 750 1000 1250 1500 1750
0 1000 2000 3000 4000 5000 6000 7000

0 100 200 300 400

ビームライダー
BreakOut ? 起こる
MontezumaRevenge ? モンテスマ復讐
ポン
マリオ
Qbert
Reverraid ? 反逆
シークエスト
スペースインベーダーズ

フレーム数（単位：百万）
エピソードごとの外来報酬

ピクセル
VAE features ? VAEの機能
Inverse Dynamics features ? 逆動力学の特徴
Random CNN features ? ランダムCNN機能

（a）ベストリターン
（b）エピソードの長さ

図7：
（a）左：8つのアタリゲームとマリオの外生的なベストリターン。
（c）右：8つのアタリゲームとマリオのエピソード長の平均。
199 名前：>>198 mailto:sage [2018/08/27(月) 10:17:08.76 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
フレーム数（単位：百万）
エピソードごとの外来報酬

Inverse Dynamics features ? 逆動力学の特徴
ランダムエージェント
Random CNN features ? ランダムCNN機能

図8：
48個のAtariゲームで、純粋な好奇心に基づいた探索（外的報酬もエピソード終了信号もない）。
私たちは、外的帰還やエピソード信号の終わりにアクセスできないエージェントにもかかわらず、好奇心に基づくエージェントの外的帰還がしばしば増加することを観察します。
In multiple environments,
複数の環境では、
the performance of the curiosity-driven agents is significantly better than that of a random agent, although there are environments where the behavior of the agent is close to random, or in fact seems to minimize the return, rather than maximize it.
エージェントの行動がランダムに近いか、実際には最大限にするのではなく、リターンを最小限に抑えるような環境が存在するにもかかわらず、好奇心に基づいたエージェントのパフォーマンスはランダムエージェントのパフォーマンスよりも大幅に優れています。
大部分の訓練プロセスでは、RFは環境の約67％でランダムエージェントよりも優れていますが、IDFは環境の約71％でランダムエージェントよりも優れています。
200 名前：>>199 mailto:sage [2018/08/27(月) 10:17:54.98 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Reward Gravitar Freeway Venture PrivateEye MontezumaRevenge ? Gravitar Freewayベンチャーに報酬を与えるPrivateEye Montezuma Revenge
Ext Only 999.3±220.7 33.3±0.6 0±0 5020.3±395 1783±691.7
Ext + Int 1165.1±53.6 32.8±0.3 416±416 3036.5±952.1 2504.6±4.6

表2：
これらの結果は、内因性+外因性報酬と外因性報酬のみを訓練した薬剤について、3種の種子にわたって1億フレーム後の平均報酬（±std-error）を比較する。
外因性（係数1.0）および内因性報酬（係数0.01）は、ハイパーパラメータ調整なしで直接結合された。
私たちは、将来の仕事まで内在的な報酬と内在的な報酬を最適に組み合わせる方法について質問を残します。
これは、内因性報酬と外的要因を組み合わせることが論文の焦点ではなく、これらの実験が完全性のために提供されていることを強調しています。

B.1
アタリ
探索の量をより正確に測定するために、図7（a）の好奇心に基づくエージェントと図7（b）のエピソードの長さの最良のリターンを提供します。
特に、ポンでは、エピソードの長さが長くなり、リターンの高原と相まって、代理人は報酬ではなくボールのバウンス数を最大にすることを示しています。

図8は、48個のAtariゲームでの逆動力学とランダム機能に基づく好奇心に基づくエージェントのパフォーマンスを示しています。

このペーパーの焦点ではありませんが、完全性のために、いくつかの希少な報酬Atariゲームに内的および外的報酬を組み合わせたいくつかの結果が含まれています。
外的報酬と組み合わせる場合、エピソード信号の終わりを使用します。
使用された報酬は、外的報酬に内的報酬の0.01倍を加えたものである。
結果を表2に示す。
内在的な報酬と外的報酬の組み合わせを調整する必要があるため、設定間に大きな違いはありません。
私たちはMontezuma's Revengeの本質的な+外因的な実行の1つが10の部屋を探索したことを観察しました。

3ウェブサイトpathak22.github.io/large-scale-curiosity/

13
201 名前：>>200 mailto:sage [2018/08/27(月) 10:19:14.57 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
Page 14

0 2500 5000 7500 10000 12500 15000 17500
0 25000 50000 75000 100000 125000 150000 175000 200000

エピソードごとの外来報酬
勾配の更新の数

マリオのスケール

128環境のバッチ
バッチ1024環境

図9：
Marioスケーリング実験での外因性のベストリターン
より大きなバッチではエージェントがより効果的に探索し、より少ないパラメータ更新で同じパフォーマンスに到達し、より良い最終スコアを達成できることがわかりました。

B.2 Mario
図3（a）に示すプロットのアナログを示し、最大の外的収益を示します。
図9を参照。

14

Page 15

15
202 名前：yamaguti mailto:昨日放●性金属臭22日以降脱毛傾向sage [2018/08/27(月) 10:22:35.01 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
google.jp/?q=2ch+future+furou+cyouju+OR+tokuiten
203 名前：>>155-201 mailto:sage [2018/08/27(月) 10:23:27.98 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
>>155-201
rio2016.5ch.net/test/read.cgi/future/1534904728/156-158#21-28#17#228# AI/AL
rio2016.5ch.net/test/read.cgi/future/1529408476/280# Araya

>158 ｰ 180824 1739 3eCkMSqb
:
>に突き動かされるエージェントは独自のルールを、なんというか、セットするようになる。
> 新しいことを経験するように刺激される。
>、Breakout ry 、飽きたくないというモチベから、いいパフォーマンスをしてくれるのだ。
> ホワイトペーパー：”ボールによってブロックが積みあがるだけ、残されたブロックは複雑になる。
>ry を刺激してさらに探索させ、その副産物でスコアも

　

> 123 名前：YAMAGUTIseisei E-mail：sagezon.jp/dp/4041058856/okyuryo-22 投稿日：NG NG?2BP(0)
> >>3 >>103
> www.nhk-ondemand.jp/
> 負けた相手にどう立向うか梅原はその戦略を考え続けていた
>
> もう少しこう自分からうーん攻める様な方法はないかなって云うのは夜考えてましたね
> 只キャラのキャラクターのコンセプト的にそういう風に作られてないので
> ちょっと無理あるかなーとは思ってますけど
>
> 其々のゲームキャラクターにはゲーム開発者によって強味や弱味が設定されている
> ときどの使う豪鬼パワフルで攻撃力が非常に高く最強のキャラクターの一つだ
> だが梅原は敢て最強のキャラクターを使おうとはしない
> 梅原のガイルは防御力が強みで攻撃を仕掛けるよりは受けを得意とする
> 元々の設定上プロ同士が闘うとガイルは豪鬼の攻撃に耐え切れず劣勢になりがちだと言う
> だが
204 名前：>>203 mailto:sage [2018/08/27(月) 10:24:30.72 ID:Zq8VRJ9K.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
>>203
>
> 只意外とこういうのってホントにしつこくしつこく捜してると見付かったりするんですよね
> 開発者が意図してない部分でその技術を試すし考えるし自分がね工夫するしそれが楽しいんですね
> 新しい発見とかが見付かるかも知れないと思うとワクワクするし
>
> 最強ではないキャラクターの方が予想外の戦略で闘う面白さが生まれ易いと梅原は考える
> 梅原にはプロゲーマーが勝利と共に絶対に大事にすべきと考える事がある
>
> 観客を如何に楽しませられるか
>
> あのやっぱり見ている人がいてその人達を喜ばせる事楽しませたりとか
> 後は単純に納得させたりとかするって云う事は凄い大事なそれがまそそそれがもぅゴールですから
> 仕事としてはそこがゴールですから見ている人達がどう感じるかじゃないですか
>
> 梅原は自分のキャラクターが苦手とする積極的な攻撃を試し始めた
>
>
>プロフェッショナル仕事の流儀新しい仕事スペシャル 2018/03/19(月)19:30放送 NHK総合 TVでた蔵
> datazoo.jp/tv/%E3%83%97%E3%83%AD%E3%83%95%E3%82%A7%E3%83%83%E3%82%B7%E3%83%A7%E3%83%8A%E3%83%AB+%E4%BB%95%E4%BA%8B%E3%81%AE%E6%B5%81%E5%84%80/1147496
> [プロフェッショナル仕事の流儀【 ry 】 ]の番組概要ページ - gooテレビ番組（
> tvtopic.goo.ne.jp/program/nhk/10934/1147496/
205 名前：yamaguti mailto:sage [2018/12/18(火) 09:31:46.48 ID:1Mljh8RF.net BE:138871639-2BP(0)]: img.5ch.net/ico/nida.gif
>>155-204
>403 ｰ 181206 0634 9MxLzrNl
>mobile.twitter.com/jaguring1/status/1070114078557843456
>
>グーグル傘下のDeepMindの研究 \>アタリのゲーム難３ \> 「MONTEZUMA’S REVENGE」　「PITFALL!」　「PRIVATE EYE」
>
> 環境報酬なしでも平均的な人間のスコアを大幅に超えた。
>papers.nips.cc/paper/7557-playing-hard-exploration-games-by-watching-youtube.pdf

>97 ｰ 181217 2203 EMtBn6g5
>前スレのこれ面白
> DeepMindの人工総合知能への新しいマイルストーン／DeepMind’s New Milestones on the Road to Artificial General Intelligence
>
>ディープマインドの沿革をまとめ記事
>最近のチェスの。 \>24時間の自己トレーニング、現最強のソフトの学習処理速度の900分の1という制限で、最強ソフトに圧勝
>アルファゼロからアルゴリズム進化証拠
>、アタリゲームの何十種類もスーパーヒューマンレベル
>限定的なAGIということか。

>53 yamaguti 181217 2106 wTQbtxsi? \>27 yamaguti 181201 2235 pKy81yx+? \ \ \ \ \> >686 620 170329 0115 oL56SRZT
>＞＞＞強い AI ( AL ) 簡易版実装用資料 ( ほぼ網羅 ) >680 ( >552 >529 引込現象 )
>＞＞＞
>＞＞＞ >205 >135 : YAMAGUTIseisei 20161009 >繰返しになるが既にできている ( 自分だけの問題でないので全てを詳らかにできないが自分の師匠がとうの昔に簡易
:
＞＞＞ >837 YAMAGUTIseisei 181014 1912 6JUQzgf8? \> >41 yamaguti 1009 1337 viDZhWE2? \> >280 名前：YAMAGUTIseisei E-mail：1537288223sage854-888 投稿日：2018/10/01(月) 10:33:23.53 ID:clFG90EB?2BP(0)
>＞＞＞＞ DeepMind 強い AI/AL 射程目鼻
:
>＞＞＞rio2016.5ch.net/test/read.cgi/future/1489922543/273-285## \ \ dahara1 氏
:
>＞＞＞、計算的に様々なタスクに応用できるチューリング完全なUniversal Transformers \>＞＞＞汎用
>＞＞＞ :
>＞＞＞ry : HTM HPKY DSL HPKY-UniversalTransformer SingularityNetAL CellBeAL SW26010AL PezyBbiAL NeuralLaceAL
(deleted an unsolicited ad)
206 名前：205 mailto:sage [2019/05/16(木) 22:58:46.56 ID:aLnc2HDn.net]: >>205
| 27 yamaguti 190514 1314 2vGaUUWM \>49 yamaguti 190419 0256 CVBD0yuO
||>130 ｰ 190405 1357 +TcvRYcO
|||】「ドワンゴ人工知能研究所」が閉鎖
||>egg.2ch.net/test/read.cgi/bizplus/1554121214/240-248#(247)#299-303#(299,303)#345-364#(363)##
|||
||>に汎用人工知能に詳し
||
||>240 名刺は切ら 190405 1541 CocGLBI2
||| >235大森秀樹さんも可哀想に
|||
||>お宅が汎用ＡＩ理解してないだけ
||>大森氏の幾何学への新視点（不確定性と非可換
||>では数学は脳が作っ
||>自然数さえも脳の直観に基づくと
|||
||>ようするに数学には普遍性はない
||>脳から離れては数学は実在しない
|||
||>以前は \>人間とは離れて数学実在って考え
|||
||| 放送大学の線形代数入門に
||>数学は２０世紀末からヒルベルトの形式主義から急速に脱出しつ \>と記述
|||
||>これはヒルベルトの抽象化形式に \>普遍性が無い事を言ってる
|||
||>ようするに点集合の上部構造としての \>公理的集合論に普遍性はない
|||
||>放送大学の教科書だけでなく \>大森氏も著書で指摘
||
|| rio2016.2ch.net/test/read.cgi/future/1541837624/59-60#1489922543/286#1523134522776# RyousiRon
207 名前：205 mailto:sage [2019/05/16(木) 23:00:11.35 ID:aLnc2HDn.net]: >>205-206
| 25 yamaguti 190514 1313 2vGaUUWM \ \>44 yamaguti 190419 0252 CVBD0yuO
||||>909 ｰ 190417 1359 MA2fvPeQ >579 ｰ 190411 0657 WPKyHS65
|||| :
||||>深層学習の限界突破へ、MITなどが「ハイブリッドAI」を開発
||||>m.newspicks.com/news/3827917##
||| :
|||>579 ｰ 190411 0657 WPKyHS65
|||| 深層学習の限界突破へ、MITなどが「ハイブリッドAI」を開発　
|||>www.technologyreview.jp/s/135091/two-rival-ai-approaches-combine-to-let-machines-learn-about-the-world-like-a-child/
||| :
||||>44 yamaguti 190404 1907 CS6nD8sb? \ \> 45 名前：yamaguti E-mail：この国だけに配慮致します立場でないので申上げますsage 投稿日：2019/03/08(金) 14:06:39.82 ID:lgKqio1I?2BP(0) \ \> YAMAGUTIseisei wrote:
||7| HPKY 型汎用 AI/AL ( NN ベース辞書ベース例 )
|||||||| :
|||7>774 yamaguti~貸 171020 1534 0nNF/MoU?
||||||| :
|||7>NN ベース AI というよりもいわば設計ベース AI ( AL ) + NN
|||7|
|||7>従来予想 : 超強力弱い AI (
|||| :
||||
|||| Smalltalkの背後にある設計原則
|||| rio2016.2ch.net/test/read.cgi/future/1553614026/27-35#-48
|||| google.jp/search?q=alan+kay+curtis+OR+dainabukku+OR+ruby+OR+rubinius/squeak
|||| rio2016.2ch.net/test/read.cgi/future/1552014941/34-45# 45,35 : HPKY # 40 : MetaAL , DSL Suityoku
|||| rio2016.2ch.net/test/read.cgi/future/1489922543/173-183#1529408476/159# KenRon # DSL Suityoku
|||| google.jp/search?q=hamada-hozumi-urr+OR+futamura-syaei+OR+subleq+OR+k-gyaku-konpaira
|||| p://google.jp/?q=hasabisu+ai+haiburiddo
208 名前：102 mailto:sage [2019/11/30(土) 18:17:42.15 ID:g1wMpMyw.net]: > 30 yamaguti 190901 2352 vP6qbkkr \ \>38 yamaguti 190712 0741 BvhXtK7w
>>> >830 ｰ 190703 1024 EzMBrXH5
> :
>>> >941 ｰ 190704 1138 y8i+Pbd/
>>>>AIの不安、第一人者の答
>>>>・ヒントン氏　トロント大学名誉教授
>>>>_ttp://r.nikkei.com/article/DGXKZO46915090T00C19A7TCS000
>>> :
>>>>「想像以上のことが起き。10年前機械翻訳ができる思わな。ｰラルネッを信じていた私も含め。
>>>>2009 私に『19年機械が複数の言語を翻訳できるか』『ノー』
>> :
>>>>「、いずれ機械は人のように賢くなる。 5年かも
>>> :
>
> >>10
>>マイクロソフトから１千億円調達 OpenAI。5年以内にAIの知能が人間レベルに到達予測
>
> 弱い AI 世界線松田先生カーツワイル先生
> _ttp://rio2016.2ch.net/test/read.cgi/future/1496019293/140# YowaiAI SekaiSen MatudaSensei KaatuwairuSensei
> 齊藤元章氏‐AGIチップ実現への Game Changer
> _ttp://m.youtube.com/watch?v=l9OEV9dqYvM
209 名前：>>102 mailto:sage [2019/11/30(土) 18:18:15.85 ID:g1wMpMyw.net]: > 59 yamaguti 191125 1755 6K8X4p8M
> >933 ｰ 191115 0924 IvREeeSh
>>ニューラルネッこうして進化：の権威・ヒントン
>>_ttp://wired.jp/membership/2019/11/15/ai-pioneer-neural-networks/
>
>> GH：、パンダを見てダチョウと、。、上位の表現からの再構成問題。。。最近、、・フロスト、（上位の表現からの）再構成、発見
> :
>> NT：も再構成できる？意識も？
>> GH：もちろ
>
>> 43 yamaguti 191009 2042 M35a2ys0
> :
>> >729 ｰ 191006 1550 r9nhsQ+4
> :
>>>GANを用いて過去に覚えを忘れないクラス分類器を実装した新ｰラルネッ
>>>p://ai-scholar.tech/treatise/acgan-ai-223/# rio2016.2ch.net/test/read.cgi/future/1567327896/34-37##1569536835/22# なぜニューロンは何千ものシナプスを持っているのか、新皮質に於けるシーケンス記憶の理論
> :
>
>> 尖端シナプスはトップダウンの期待 ( 訳注 : 待望予想 ) を呼び起こす
>> ２．２．３。尖端シナプスはトップダウンの期待を生み出す
>> 図 4>このようにして尖端フィードバックはネットワークを、どんな入力であれ予想シーケンスの一部である、として解釈する様にバイアスし、予想シーケンス内のどの要素ももしも入力と一致しない場合を検出
210 名前：ウルトラスーパーハイパーフィードバックエレキモンバーストモード mailto:ageageageageageageageageageageageageageageageageageageageage [2019/12/14(土) 16:21:36.48 ID:ZdbDCgAD.net]: デジモン(デジタルモンスター)シリーズのアニメの最新作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの完全新作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの新作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの次期作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの次回作を放送してね
デジモン(デジタルモンスター)シリーズのアニメの続編を放送してね
デジモン(デジタルモンスター)シリーズのアニメの続きを放送してね
デジモンテイマーズはネ申アニメだよ
デジモンテイマーズは神アニメだよ
デジモンテイマーズは意欲作だよ
デジモンテイマーズは話題作だよ
デジモンテイマーズは超大作だよ
デジモンテイマーズは良作だよ
デジモンテイマーズは秀作だよ
デジモンテイマーズは傑作だよ
デジモンテイマーズは名作だよ
デジモンテイマーズは上作だよ
デジモンテイマーズは佳作だよ
ライヒモンの勝ち
ライヒモンの勝利
ライヒモンの大勝利
ライヒモンの完全勝利
ライヒモンの圧勝
ライヒモンの楽勝
ライヒモンの戦勝
ライヒモンの制勝
ライヒモンの連勝
ライヒモンの優勝
ライヒモンの奇勝
ライヒモンの全勝
ライヒモンの完勝
ライヒモンの必勝
211 名前：オーバーテクナナシー [2020/05/08(金) 02:41:33.85 ID:LSUa2ZRk.net]: 何でこんなになるまで放っておいたんだ！
212 名前：山口 mailto:sage頭から煙出る程読みません [2020/10/05(月) 00:45:40.66 ID:6OqsHZKZ.net]: 脳とシリコンスパイクニューロンとをメモリスタシナプスは接続する
rio2016.2ch.net/test/read.cgi/future/1597066673/17-21#
>脳機能は、記憶の格納と処理とを伝達に伴って融合的統合する ( 訳注 : 記憶格納と処理とは元々一体 ) 事のキー役を演じているシナプスを。
>を説明しますがそこでは荷重刺激を、興奮性シナプス後電位似反応へと誘導している薄膜酸化物それを経由するという、通貨をさせる事によって伝達を媒介します。
>の上で我々が実証するのは、をニューロン発火率駆動によってメモリスタシナプスが受ける所の、 3ニューロンの脳シリコンネットワークです
213 名前：山口 mailto:sage12/20放●性金属臭微々 [2020/12/27(日) 05:31:35.04 ID:AGfIL1OI.net]: 概要>、興奮性シナプス後電位似反応へと誘導している所の薄膜酸化物経由という、通過、
前書き>、 BCI を究極的には齎すという事を約束しています。
前書き>? ry に、メモリスタMR1は、それぞれ1 ry ）からシナプス ry 脱分極を ry システムを ry 端子デバイスとして動作します。
前書き>? ry 接続するハイブリッド回路の代表例であり、
214 名前：オーバーテクナナシー mailto:sage [2021/03/16(火) 07:07:33.47 ID:FtIVlLYv.net]: >>213
ttp://rio2016.2ch.net/test/read.cgi/future/1597066673/17-21
215 名前：オーバーテクナナシー mailto:sage [2021/09/05(日) 12:10:04.34 ID:WetwWqzX.net]: >36 _ 201017 0123 9Av//tVf \>54 _ 200927 1112 UxWJCUDQ rio2016.2ch.net/test/read.cgi/future/1491330538/1504999631/624# Kifu
|| Google 翻訳 : 記憶と認知 1974年、Vol。 2 、No. 3、467-471 link.springer.com/content/pdf/10.3758/BF03196906 .pdf 注意 link.springer.com/article/10.3758/BF03196906 ttp://springer.com/journal/13421/
| :
|
|| 後続の記憶探索取得に対する1つの記憶探索取得の影響*
| :
|
|
|| ジェフリー・R・ロフタスとエリザベス・F・ロフタス
|>　ワシントン大学、シアトル、ワシントン98195
| :
|
|>被験者達は、カテゴリのインスタンスを生成し、0個または2個の介在アイテム ( 原文 : intervening items ) が続くと、同じカテゴリの2番目のインスを生成した。
|| 2番目のインスタンスは、最初のインスよりも迅速に作成された。
|| この調査結果は、本書で報告されている他のデータと併せて、2番目のインスタンスのレイテンシの減少は主に、検索されたカテゴリでの速度の短縮によることを示しています。
:
>rio2016.2ch.net/test/read.cgi/future/1601145490/53-60#-66
方法 rio2016.2ch.net/test/read.cgi/future/1602728979/35-44#-49 42>半透明ガラス窓付きスクリーン
41>? 160の重要な刺激（それぞれ2つの文字とペア ry ）に ry 。
41>重大重要刺激 160 個（文字 2つとそれぞれペアになった80のカテゴリー）に加えて、80のフィラー刺激が使用されました。
|
>
|
|| 再構成可能生物を設計するためのスケーラブルなパイプライン
|| rio2016.2ch.net/test/read.cgi/future/1595501875/84-114#-118#1601145490/54 \|
|| 「健康医療分野のデータベースを用いた戦略研究」
|>rio2016.2ch.net/test/read.cgi/future/1519958054/60-78# ttp://google.jp/search?q=pezy-sc+paper# \:
> 一覧 rio2016.2ch.net/test/read.cgi/future/1601145490/22-25
脳とシリコンスパイクニューロンとをメモリスタシナプスは接続する
rio2016.2ch.net/test/read.cgi/future/1620263233/27-38
216 名前：オーバーテクナナシー mailto:sage1月24日早朝と12月14日放●性金属臭 [2021/09/05(日) 12:12:56.57 ID:WetwWqzX.net]: || *複写のリクエストは、 98195 ワシントン大学シアトル校の心理学部ロフタスに送信できます。
|| この研究は、E。ロフタスに対する国立精神衛生研究所の助成金、およびG.ロフタスに対する国立科学財団の助成金によって支援された。
|| 原稿へのコメントに対してThomas 0. Nelsonに感謝の意が表されます。
|
>
| 文字カテゴリ : 文字 - カテゴリ
| カテゴリ文字 : カテゴリ - 文字
| アクティブ化モデル , 活性化モデル : アクティべーションモデル
|
| ハイデルベルクニューロモルフィックコンピューティングプラットフォームへのHTMモデルの移植
| rio2016.2ch.net/test/read.cgi/future/1548169952/34#26-37#-52#1552014941/69-81#67-89 予測 , アクティブ

　
好奇心に基づいた学習の大規模研究
rio2016.2ch.net/test/read.cgi/future/1481407726/155-202#-205
SSVEPマグニチュード変動の予測モデル : ブレインコンピュータインタフェースにおける連続制御への応用
rio2016.2ch.net/test/read.cgi/future/1564044623/25-39
217 名前：オーバーテクナナシー mailto:sage12月20日1月19日放●性金属臭微々 [2021/09/05(日) 14:11:45.94 ID:498rJRD6.net]: 結果

　

2.5秒インターバル ? 寛容
　　　　　1.90
　　 RT 　　 :　　　　　　　　 * 　レター-カテゴリー
　　　　　　:　　　　　　　　 * 　カテゴリー-レター
　　　　　1.60
　　　　　1.50

　　　　　　　 0 　　 2 　　　初期 ( 原文 : initial ( 初期値 ) )
　　　　　　　　　遅れ

図2。
? 重要なカテゴリーの2つの出現の間 ry 。
決定的重要カテゴリの各出現 2つの間の介在アイテム（ラグ）の数の関数としての秒単位の平均反応時間。
? ry と手紙の間 ry 。
アイテムは、カテゴリーと文字との間に2.5秒の間隔で提示された。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef