知能研究スレ2 - 暇つぶし2ch

知能研究スレ2 ..

122:>>121
18/08/12 19:30:35.06 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
　図4は、図3の命令ウィンドウのための並列命令スケジューラを示す。 >>121
? アクティブ準備完了状態は、ターゲット準備完了イベントT0、T1および ry ）によって設定され、 ry 。
アクティブレディステートは、ターゲットレディイベントT0、T1及びブロードキャストID BID（存在する場合）によってセットされ、さまざまな入力タイプによって修飾されてENをイネーブルにすることに注意してください。
? ry 、1命令準備回路のインスタンス ry 。
32エントリウィンドウの場合、1命令分の回路のインスタンスが32個あります。
どのサイクルにおいても、32個のRDY信号のうちの1つ以上がアサートされてもよい。
? ry 、これを発行する次の命令の5ビットIIDに縮小する。
32ビット優先度エンコーダは、これを次の発行される命令の5ビットIIDに縮小する。
　各エントリに対して、復号されたレディ状態の6ビットがあり、
? すなわち、それらは命令デコーダによって初期化される。
それらは、例えば次の様に命令デコーダによって初期化される :
• DBID: 2ビットのバイナリブロードキャストID。存在しない場合は00
? • ry が準備完了です。
• DRT, DRF: decoder：述語true（false）がレディ状態です。
• DR0, DR1: デコーダ：オペランド＃0（オペランド＃1）がレディ状態
? ry 符号化し、恐らくブロードキャストチャネルを介して述語および/またはいくつかのオペランドを待つか、 ry 。
これらのビットはともに、命令がデコードされたかどうかを符号化し、述語および/またはいくつかのオペランドを恐らくブロードキャストチャネルを介して待つか、またはすぐに発行する準備ができているかどうかをエンコードする。
これらのビットは、ブロック・リセット時にのみクリアされます。

123:>>123
18/08/12 19:32:45.64 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
?　アクティブ・レディ状態の ry ：
　アクティブレディステータスの6ビットもあります：
? • ryが準備完了です。
• RT, RF: 述語true（false）がレディです。
• R0, R1: オペランド＃0（オペランド＃1）がレディ状態
? • ry 命令を禁止する - 既に発行済み
• INH: 禁止指令 - 既にイシュー済
• RDY: 命令は発行可能です
3

? 命令は、if（RT＆RF＆R0＆R1＆〜INH）の準備ができています。
命令は、（RT＆RF＆R0＆R1＆ ~INH）の場合にのみレディです。
? ry 、RT、RF、R0、R1のいずれかを設定 ry 。
以下の場合、 RT、RF、R0、R1 をどれでも設定することができます。
• 対応するDRXがデコーダによって設定されるか、または
• 実行命令は、明示的に、またはブロードキャストイベント（ブロードキャストID、入力）を介して入力をターゲットにします。
アクティブ・レディ状態ビットは、ブロック・リセットまたはリフレッシュ時にクリアされます。

124:>>123
18/08/12 19:34:19.75 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
　　　　　　　　デコード済みレディ状態　　　　　　アクティブレディ状態
命令　　　　　DBID 　DRT 　DRF 　DR0 　DR1 　　　RT 　RF 　R0 　R1 　INH 　RDY
READ 　　　　　　00 　　1 　　1 　　1 　　1 　　　　1 　　1 　　1 　　1 　　1 　　0
READ 　　　　　　00 　　1 　　1 　　1 　　1 　　　　1 　　1 　　1 　　1 　　0 　　1
ADD 　　　　　　　00 　　1 　　1 　　0 　　0 　　　　1 　　1 　　1 　　0 　　0 　　0
TLEI 　　　　　　　00 　　1 　　1 　　0 　　1 　　　　1 　　1 　　0 　　1 　　0 　　0
BRO.T B1 　　　　　01 　　0 　　1 　　1 　　1 　　　　0 　　1 　　1 　　1 　　0 　　0
BRO.F B1 　　　　　01 　　1 　　0 　　1 　　1 　　　　1 　　0 　　1 　　1 　　0 　　0
デコードされていない　00 　　0 　　0 　　x 　　x 　　　　0 　　0 　　x 　　x 　　x 　　0
? 表I：命令インストラクション・レディ状態
表I：命令スケジューラのレディ状態の例

　表Iは、6つの命令をデコードして最初の命令を発行した後のブロックの命令スケジューラ状態を示す。 >>123
? ry 特定の述語結果を待たないことを反映するDRTおよびDRFセットを有する。
最初の4つの非述語命令は、それらが特定の述語評価結果を待たないことを反映するDRTおよびDRFセットを有する。
? ry ）はすぐに発行する準備ができています。
2つのREAD命令（予測されず、入力オペランドがゼロ）は即時イシューの準備ができています。
? 最初のものが発行されました - そして現在は再発行が禁止されています - R0が設定されているADDのオペランド0を対象とします。
最初のものがイシューされて -- そして現在は再発行が禁止されている -- ADD 命令のオペランド0が対象とされている時、その R0 が設定されます。
2番目のREADは、次のISパイプラインサイクルで発行されます。

125:>>124
18/08/12 19:36:10.39 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
? ry 述語結果をブロードキャストします。
TLEI（test-lessthan-or-equal-immediate）命令は、チャネル1でその述語評価結果をブロードキャストします ;
? 2つの分岐命令、
2つの分岐命令に付いて、
述語部が夫々 true か false か
? 、この述語の結果を待つ。
、この述語の結果を待って。
? ry デコードされていない： ry 。
第7のエントリはデコードされていない命令：（DRT | DRF）= 0。
? 　ry デコードされた命令バッファに ry 。
　データフロースケジューリングのクリティカルパスを減らすために、フロントエンドはデコードされた命令用のバッファにプリデコードされたEDGE命令を書き込む。
命令IIDが発行されると、そのデコードされた命令がバックエンドによって読み取られる。
? とりわけ、命令の0-2（IID、入力）明示的ターゲットを指定する2つのターゲットオペランド準備完了イベントフィールド_T0および_T1、ならびに入力イネーブルの4ビットベクトルを含む：ENs = {RT EN 、RF EN、R0 EN、R1 EN}である。
とりわけ、0-2（IID、入力）で命令のターゲットを明示指定する 2 つのターゲットオペランドレディイベントフィールド_T0および_T1を含む、謂うなれば 4 ビットベクトルとしての入力は以下に示すイネーブル効果を持つ：ENs = {RT EN 、RF EN、R0 EN、R1 EN}
? 図3を参照すると、これらの信号は、他のパイプラインステージからのレディイベントとスケジューラによって入力されたT0およびT1とに多重化される。
図3 に遡るが、これらの信号、他のパイプラインステージからのレディイベントは、スケジューラによって入力されたT0およびT1とに mux される。

126:>>125
18/08/12 19:43:56.87 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
D. 並列スケジューラのFPGA実装
　スケジューラの面積とクロック周期を最小限にするには、FPGA回路設計に注意 ry
? 32命令ウィンドウは、準備完了状態のために32 *（6 + 6）= 384FFを、準備完了イベントを復号して各入力の準備完了状態を更新するために32 *多くのLUTを必要とする。
32 個ある命令ウィンドウは、それらのレディステートの為に 32 *（6 + 6）= 384FF を、レディイベントを復号して各入力のレディステートを更新するために32 *多くのLUTを必要とする。
? 　最新のFPGAは、 ry 。
　現代的 FPGA は、一連のLUT（ ry ）とDフリッ ry （FF）をロジッククラスタにまとめ ry
? ry 各スライスのクラスタに ry 。
ry 、ザイリンクス7 ry 、4つの6-LUTと8つのFFを各 `` スライス ''クラスタにグループ化します。
各LUTは2つの出力を持ち、1つの6-LUT、または5つの共通入力を持つ2つの5-LUTとして ry
? ry 登録することができます。
各出力はFFに登録されるかも知れません。
フリップフロップにはオプションのCE（クロックイネーブル）とSR（セット/リセット）入力 ry 、これらの信号はクラスタ内の8つのFFすべてに共通です。
ry 、アルテラのFPGAに似ています。
　これから、2つの設計上の考慮事項 ry
? 　Fracturable 6-LUTデコーダ： ry 。
　分割可能な 6-LUTデコーダ：ターゲット命令インデックスのデコードでは、インデックスが≦5ビットである限り、2つのデコーダが1つの6-LUTに収まる可能性があります。
　スライスFFパッキングとクラスタ制御セットの制限：領域と配線の遅延を最小限に抑えるため、デザインはクラスタごとに4〜8 FFの高密度FFをパックします。
すべての6ビットデコード済みレディ状態エントリは一緒に書き込まれ（共通RSTおよびCE）、1つまたは2つのスライスにパック ry
　アクティブレディ状態のFFにはもっと注意 ry
? これらの32ﾗ6 ry 。
これらの32*6 = 192個のFFの各々は個別に設定 ry が、スライス当たり4つのFFをパックすることにより、1つのFFがクロックイネーブルされると、全てがクロックイネーブルされる。
準備完了イベントによってFFが設定されると、そのスライス内の他のFFは変更されるべきではありません。
これには、各FFの入力LUTにCE機能を実装し、その出力をその入力にフィードバックする ry 。FF_NXT = FF |（EN＆入力）。

127:yamaguti
18/08/12 19:44:31.70 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
ｽﾚﾘﾝｸ(future板:184-216番)

128:>>126
18/08/12 19:45:03.52 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
generate for (i = 0; i < N; i = i + 1) begin: R
　　always @* begin
　　　　// ターゲット・デコーダ
　　　　T00[i]　　= T0 == i;
　　　　T01[i]　　= T0 == (i|N);
　　　　T10[i]　　= T1 == i;
　　　　T11[i]　　= T1 == (i|N);
　　　　B[i]　　= BID == DBID[i];
　　　　// 次のアクティブレディ状態ロジック
　　　　RT_NXT[i]　　= RT[i] | DRT[i]
　　　　　　　　| (RT_EN & (T01[i]|T11[i]|B[i]));
　　　　RF_NXT[i]　　= RF[i] | DRF[i]
　　　　　　　　| (RF_EN & (T00[i]|T10[i]|B[i]));
　　　　R0_NXT[i]　　= R0[i] | DR0[i]
　　　　　　　　| (R0_EN & (T00[i]|T10[i]|B[i]));
　　　　R1_NXT[i]　　= R1[i] | DR1[i]
　　　　　　　　| (R1_EN & (T01[i]|T11[i]|B[i]));
　　　　INH_NXT[i]　　= INH[i] | (INH_EN & (IID == i));
　　　　RDY_NXT[i]　　= RT_NXT[i] & RF_NXT[i] & R0_NXT[i]
　　　　　　　　& R1_NXT[i] & ~INH_NXT[i];
　　end
end endgenerate
リスト1：並列スケジューラー `` next readys ''ロジック

129:>>128
18/08/12 19:46:50.84 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
　リスト1は、N-entry並列スケジューラー用の `` next readys ''を生成するVerilogです。 >>128
4つのレディ・イベント入力タイプ（述部真、偽、オペランド＃0、オペランド＃1）がありますが、
? ry 、真/オペランド＃1ターゲットから偽/オペランド＃0ターゲットを区別するのに単一のターゲットインデックスビットで十分である。
述部ターゲットイベントがオペランドターゲットイベントと同じサイクルで発生しないことを保証することによって、真/オペランド＃1ターゲットと偽/オペランド＃0ターゲットを区別する為のターゲットインデックスビットは一つで済む。
? N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力＃1：0}である（すなわち、特定の{RT / RF / R0 / R1} .
? IID：5}。
（特定の{RT / RF / R0 / R1} EN がイネーブル化する事によってデコーディングが促進される )
すなわち、 N = 32エントリの命令ウィンドウの場合、T0とT1は6ビット{入力＃1： IID：5}である。
? ry （ターゲット0の入力0等）は、ブロードキャスト選択デコーダB ry 。
ターゲットデコーダT00、T01、T10、T11（ターゲット0の入力0 、等）は、放送選択デコーダBと同様に、それぞれ6-LUTである。
? ry 、現在アクティブでデコードされたレディステートでターゲットデコーダ出力を一緒にフォールドします。
次のアクティブレディ状態ロジックは、現在アクティブかデコードされたレディステートでターゲットデコーダ出力を一緒に畳みます。
これにはさらに7つのLUT（INH_NXTでは2つ）が必要で、合計32 * 12 = 384のLUTが必要です。
　これは、32エントリスケジューラを偶数および奇数命令の2つの16エントリバンクに分割 ry 改善 ry
? ある銀行内では、4ビットの銀行IIDで十分である。
1 つのバンクに付き、4ビットのバンク IID で十分である。
? ry 、T5、T10、T11は2つの5,5-LUT、 ry 。
次に、T0、T1は5ビットに狭くなるので、T00、T01、T10、T11は2つの5,5-LUT、INH_NXTは1つの6-LUT、または2 * 16 *（3 + 6）= 288のLUTに収まります。
4

130:>>129
18/08/12 19:49:12.10 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
? 　 ry ：LUTまたはキャリーロジックまたはツリー、キャリーロジックゼロスキャン、および ry ワンショット変換を含む、多くの32ビットエンコーダデザインが評価されました。
　優先順位エンコーダ：LUTまたはキャリーロジックの OR ツリー、キャリーロジックのゼロスキャン、およびF7MAP / F8MAPマルチプレクサを使用したワンホット変換を含む、多くの32ビットエンコーダデザインが評価検討されました。
? ry 、2つのLUT遅延で完了する。
現在の設計では、バンク当たり2つの16→4エンコーダを使用し、2つの LUT の遅延で完了する。
ワン・イシュー・プロセッサでは、後続の2：1マルチプレクサがこれらのエンコーダ出力の1つを選択します。
　特に、各16ビットエンコーダ入力I [15：0]はI [15]、I [14:10]、I [9：5]、I [4：0]にチャンクされる。
? 各5ビットグループは32x4 LUT ROMにインデックスを付け、そのグループのエンコーダ出力を事前計算します。
各5ビットグループはそのグループのエンコーダ出力を事前計算してある 32x4 LUT ROM をインデックスします。
? 3つの5ビットゼロコンパレータ出力とともに、 ry 。
5ビットゼロコンパレータ出力 3 つは共に、3つのグループがすべてゼロのときに 'b1111'を出力するカスタム4ビット3：1セレクタに供給されます。
? 　 ry RPM（Relativeally配置されたマクロ） ry 。
　技術マッピングとフロアプランニング：このデザインではRPM（関連配置マクロ）手法を使用してエリアと相互接続の遅延を改善し、モジュール構成と大規模な複製で簡単なルーティングとタイミングクロージャのための繰り返し可能なレイアウトを実現します。
構造RTLはモジュールをインスタンス化し、それらをスケジューラにタイルします。
6入力モジュール上のXST注釈（* LUT MAP = "yes" *）は、そのロジックを1つのLUTにロックします。（* RLOC = "XxYy" *）は、FPGAプリミティブをクラスタにパックし、相互に相対的にクラスタを配置します。

131:yamaguti
18/08/12 19:51:29.03 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
ｽﾚﾘﾝｸ(future板:184-216番)

132:>>130
18/08/12 19:51:58.10 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
図5：並列スケジューラのFPGA実装
? 　 ry 、およびデコードされた命令バッファ ry 。
　図5は、スケジューラ、プライオリティエンコーダ、およびデコード済命令用バッファを含む図4のザイリンクス7シリーズの実装であり、クリティカルパスが白 ry
　FPGAスライスの2つの水平な行はそれぞれ、命令ウィンドウの4つのエントリに対応します。
左から右へ：
? • 淡黄色：4つの6ビットデコード済み状態フリップフロップ。
• 淡黄色：4つの6ビットデコード済レディ状態フリップフロップ。
• 黄/緑：B、T00、T01、T10、T11ターゲット・デコーダ;
• オレンジ：アクティブレディ状態のLUT / FF RT_NXT / RTなど。
• 紫色：INH_NXTおよびINH。
• 赤：RDY_NXTとRDY。
? 右側には、複数の32x6ビットトゥルーデュアルポートLUT RAMに実装された、合成された優先エンコーダとマルチプレクサ（青）とデコードされた命令バッファ（白） ry 。
右側には、合成された優先度エンコーダとマルチプレクサ（青）と、複数の 32 x 6 ビットトゥルーデュアルポート LUT RAM に実装されたデコード命令用バッファ（白 ry
? 　 ry デコード済命令LUT RAM、 ry 。
　パフォーマンス：Kintex-7 -1スピードグレードでは、クリティカルパスにRDYクロックトゥーアウト、プライオリティエンコーダ、マルチプレクサ、デコードされた命令LUT RAM、次のreadysロジック、RDYセットアップを含む5.0 nsが必要です。
相互接続遅延はクリティカルパスの85％です。残念ながら、RDYからRDYまでのすべてのパスは、比較的大きな直径のネットリストを通過 ry
? 　 ry バックツーバック問題（連続サイクルで） ry 。
スケジューラクリティカルパス（命令バッファLUT RAMの出力ポート）の途中でパイプラインレジスタを追加することにより、サイクルタイムを2.9nsに短縮することができますが、
これは、単一の従属命令チェーンのバックツーバックイシュー（連続サイクルで）を達成することはできません。

133:>>131
18/08/12 19:52:35.34 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
? ry 準備完了状態
E. 増分データフロースケジューラレディー状態
　並列スケジューラは簡単ですが、32x12bのレディステート（LUT RAMの数少ないLUT）を維持するために何百ものLUTとFFを消費し、命令ウィンドウのサイズが2倍になるとこの領域も2倍になります。
? また、発行された各命令が多くても2つの他の準備完了状態に影響を与えても（ブロードキャストにもかかわらず）、各命令の次のreadys LUTの各サイクルはすべての命令の準備を再計算します。
又、発行された各命令が大抵 2 つの他のレディー状態に影響を与えても（ブロードキャストにもかかわらず）、LUT での各レディーは次の各サイクルで全ての命令のレディーステートを再計算させます。 ?
? ry 、キュー内のレディ命令のフロンティアを維持し、 ry 。
対照的に、インクリメンタルスケジューラは、LUT RAMでデコードされたアクティブレディ状態を保持し、キュー内のレディ命令のフロンティアを整備し、1サイクルあたりわずか2〜4ターゲット命令のレディステータスを評価します。
5

FFの配列と比較して、LUT RAMは高速で高密度ですが、いくつかの欠点があります。フラッシュする方法がなく、1サイクルあたり1つの書き込みしかサポートしていません。

134:yamaguti
18/08/12 19:53:48.27 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
ｽﾚﾘﾝｸ(future板:184-216番)

135:>>133
18/08/12 19:54:36.01 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
DRDYSS
　　WA ← 　　DC_IID
　　RA ← 　　EVT_IID
　　I ← 　　DC_DRDYS
　　O → 　　READY LOGIC　　DRDYS
ARDYSS
　　WA ← 　　EVT_IID
　　RA ← 　　EVT_IID
　　I ← 　　READYLOGIC　　ARDYS_NXT
　　O → 　　READYLOGIC　　DRDYS
DVS ← 　　RESET
　　O → 　　READYLOGIC　　DV
　　WA ← 　　DRDYSS　　WA
　　RA ← 　　DRDYSS　　RA
AVS ← 　　RESETvREFRESH
　　WA ← 　　ARDYSS　　WA
　　RA ← 　　ARDYSS　　RA
　　O →　　　　READYLOGIC　　AV
READY LOGIC
　　READY →
　　DV ← 　　DVS　　O
　　DRDYS ← 　　DRDYSS　　O
　　AV ← 　　AVS　　O
　　ARDYS → 　　ARDYSS　　O
　　ARDYS_NXT → 　　ARDYSS　　I
　　EVT_RDYS ← 　　EVT_RDYS

136:>>135
18/08/12 19:57:14.42 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
? ry ：準備状態、検証、および準備論理。
（a）設計：レディー状態、検証、およびレディーロジック。

（b）FPGAの実装。
図6： 16エントリスケジューラバンク。

137:>>136
18/08/12 19:58:48.86 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
? 　 ry とFFの `` RAM ''の ry 。
　代わりに、スケジューラはLUT RAMとFF `` RAM '' のハイブリッドを使用します。
? ry 16x4真のデュアルポートLUT RAMのいくつかのバンクに格納され、16x1フラッシュクリア可能セット - 「FC-SO-RAM」
デコードされた（DRT、DRF、DR0、DR1）およびアクティブ（RT、RF、R0、R1）レディ状態は16x4の真のデュアルポート LUT RAM を構成する「 FC-SO-RAM 」に批准する 16 x 1 フラッシュクリア可能セットオンリー RAM であるいくつかのバンクに格納される。
? これには、16個 ry ）すべて。
これは、16個のFF（共通リセット付き）、16個のライトポートアドレスデコーダ（8個の5,5-LUT）、16：1のリードポートマルチプレクサ（4個の6-LUT、2個のMUXF7、1個のMUXF8）の全 3 つのスライスで構成されています。
このハイブリッドからの各読み出しは、4b LUT RAMエントリおよびその有効ビットを読み取る。
各書き込みはLUT RAMを更新し、その有効ビットをセットする。
　複数のLUT RAM書込みポート。
d命令/サイクルのフェッチ/デコード速度およびi命令/サイクルの発行速度を維持するためには、各サイクルでd + 2iレディ状態エントリを更新する必要がある。
? これは1つのライト/サイクル ry 。
これは 1 ライト / サイクルLUT RAMの課題です。
? ry なく、4つ（またはそれ以上）のインタリーブされたディスジョイントバンクにレディ状態を分割します。（偶数、奇数）命令の（デコードされた、アクティブな）準備完了状態を示す。
増分スケジューラは、クロックダブリングまたは複製されたRAMバンクをライブ値テーブルで使用するのではなく、レディ状態を 4つ（またはそれ以上）のインタリーブされたディスジョイントバンクに分割します :
（偶数、奇数）命令の（デコードされた、アクティブな）レディステートを示す。
? その後、フロントエンドは、偶数および奇数のデコード済みレディ状態を書き込むことができ、バックエンドは、偶数および/または奇数ターゲット命令のアクティブレディ状態を更新する。
その後、バックエンドが偶数および/または奇数ターゲット命令のアクティブレディ状態を更新する状態である限りは、フロントエンドは偶数および奇数のデコード済レディ状態を書込む事ができる。

138:>>136
18/08/12 20:00:37.05 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
// ? 準備完了のロジック　　レディーロジック
always @* begin
　　ARDYS_NXT = (DV ? DRDYS : 4'b0000)
　　　　　　| (AV ? ARDYS : 4'b0000)
　　　　　　| EVT_RDYS;
　　READY = &ADRYS_NXT;
end
? ry ：準備完了ロジック
リスト2：レディーロジック

　図6は、結果として16エントリスケジューラバンクの設計と実装を示しています。 >>135-136 >>135 >>136
? 青でデコードされ ry 。
青のデコードされアクティブな状態のLUT RAM DRDYSSおよびARDYSSは、オレンジ/赤のFC-SO-RAM DVSおよびAVSによって検証されます。
各サイクルにおいて、デコーダは、命令DC IIDのデコード済みレディ状態DC DRDYSおよびその有効ビットを書き込む。
? また、各サイクルで銀行の目標準備完了EVT :: = {EVT_IID; EVT_RDYS}は、そのDRDYSおよびEVT_RDYSを使用してEVT_IIDのARDYSの読み取り - 変更 - 書き込みを介して処理されます。
また、バンクのターゲットレディイベント EVT :: = {EVT_IID; EVT_RDYS}は各サイクルで、リードモディファイライトを行う EVT _ID の ARDYS を介し又その DRDYS 及び EVT_RDYS をも使用して処理されます。
リスト2を参照してください。
4つのARDYSビットがすべてセットされると、命令はレディ状態になります。
? このロジック（シアン）はすべて1つのスライスで済みます。最適化として、READYの縮小はキャリーロジックになります。
このロジック（シアン）の全ては 1 つのスライスで済み、最適化として、READY 縮小の為の and はキャリーロジックになります。
? 　 ry ・バンクの競合が存在する可能性があります。
　EDGEコンパイラは、命令の両方のターゲットがディスジョイント・バンクにあることを保証するわけではないため、スケジューラ・バンクの競合が発生する可能性 ry
。 ADD命令は、命令10のオペランドと命令12のオペランドを対象 ry
? ry できないため、1つのイベントが処理され、もう1つのイベントが後のサイクルでキューに入れられます。
同じサイクルで2つの偶数バンク・ターゲットのアクティブ・レディ状態を更新することはできないため、 1 つのイベントが処理された後のサイクルで、もう 1 つのイベントがキュｰ ry

139:>>138
18/08/12 20:01:53.31 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
F. インクリメンタルなデータフロースケジューラの設計、運用、実装
　スケジューラのコア（図7）は次のように構成されています。
• INSN: 2つのターゲットイベントフィールドを持つデコードされた命令
• EVT0, EVT1: 偶数/奇数ペンディングイベントレジスタ
• 偶数/奇数イベントマルチプレクサ、プリデコードされたセレクトによって制御される
• SCH0, SCH1: 偶数/奇数16エントリスケジューラバンク
? • 3つの準備命令IIDキュー：
• 3つのレディ命令IIDキュー：
-- DCRDYQ: デコーダレディキュー。
? -- ISRDYQ: 発行（ ry 。
-- ISRDYQ: イシュー（スケジューラ）レディキュー。
-- LSRDYQ: ロード/ストアレディキュー
• 次のIIDを選択する2つの3：1セレクタ
? • INSNS: デコードされた命令RAM（ ry ）
• INSNS: デコード済命令RAM（リードポート）
? ry 、デコードされた命令レジスタ ry 。
この設計では、スケジューラの繰り返しサイクルが開始され、デコード済命令レジスタで終了 ry
　図1の最初のEDGEコードブロックの実行を検討してください。
? ry 、DVS、SCH0、SCH1のAVSがクリアされます。
スケジューラがリセットされ、 SCH0 、 SCH1 の DVS 、 AVS がクリアされます。
? ry 、その命令をINSNSにフェッチしてデコードします。
フロントエンドはブロックのヘッダをフェッチし、その命令をフェッチして INSNS にデコードします。
? 2つのREADは発行する準備ができているため、 ry 。
2つのREADはイシュー待ちレディーである為、IIDがDCRDYQにエンキューされます。
? これはバックエンドのために ``ポンプを準備する ''。
これはバックエンドの為の ``ポンプの準備 '' 。
? ry 、準備ができていないため、エンキューされません。
他の命令はオペランドまたは述部を待機し、レディーでない為、エンキューされません。
6

140:yamaguti
18/08/12 20:02:32.65 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
ｽﾚﾘﾝｸ(future板:184-216番)

141:>>139
18/08/12 20:03:39.12 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
0
　　INSN
　　　　T1
　　　　T0
1
　　EVT1
　　EVT0
2 3 4
　　LSRDYQ
　　DCRDYQ
　　ISRDYQ
　　SCH1
　　　　READY →
　　　　EVT ←
　　　　EVT_IID →
　　SCH0
　　　　READY →
　　　　EVT ←
　　　　EVT_IID →
5
　　IID
6
　　INSNS:
　　　　? デコードされた指示　　デコード済命令
　　32xn LUT RAM
（a）デザイン。

142:>>141
18/08/12 20:05:03.71 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
（b）FPGAの実装。
? ry 、デコードされた命令バッファ、レディキューを含む。
図7： 32エントリスケジューラ、デコード済命令バッファ、レディキュー。

? 　ry データフロー実行は次のように実行されます。
　バックエンドのデータフロー実行継続は次の様に承認されます。
? ry 、両方のREADYが否定されます。
最初はINSNが無効で、両方のREADYがネゲートです。
IIDセレクタツリーは、DCRDYQから最初のREAD命令（IID = 0）を選択/デキューします。
デコードされたREAD命令語は、INSNSからINSNに読み出される。
　READ対象ADDオペランド＃1
? そのINSN.T0（バンク対象準備完了イベント） ry 、そのマルチプレクサはSCH0のEVT =（2、 'b0001）を選択する。
そのINSN.T0（偶数バンクターゲットレディーイベント）フィールドは有効であり、そのマルチプレクサは SCH0 用に EVT =（2、 'b0001）を選択する。
これはADDのアクティブレディ状態を更新します： 'b1100 |' b0000 | 'b0001 =' b1101、現在は左オペランド（オペランド＃0）のみを待ちます。
どちらのスケジューラ・バンクもREADY命令を検出していないので、IIDセレクタ・ツリーはDCRDYQからの2番目のREADを選択/デキューします。
　このREADはADDオペランド＃0を対象としています ; そのINSN.T0はEVT =（2、 'b0010）である。
SCH0はADDのレディー状態を 'b1111'に更新し、READYをアサートしてADD（IID = 2）を発行します。
　ADDのT1はSCH1のTLEIレディ状態をターゲットにしています。
? TLEIは準備ができて問題になります。
TLEIはレディーとなりイシューされます。
? 　 ry ISステージ準備完了イベントを指定しない。
　TLEIに関しては、どちらのT0 / T1フィールドもISステージレディーイベントを指定しない。
どうして？
ADDのような単純な1サイクルレイテンシ命令とは異なり、テスト命令のターゲットは、テストがEXステージで実行されるまでレディイベントを受け取ることができません。
テストが完了すると、その真/偽の述語イベントが通知されます。
これらは待ち行列および/またはマルチプレクサ（図示せず）を介してEVT0、EVT1ペンディングイベントレジスタに進み、アイドルスケジューライベントスロットを待つ。

143:>>139
18/08/12 20:11:29.75 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
>>139
>　図1の最初のEDGEコードブロッ
>>109 >>109-110 >>110

144:>>142
18/08/12 20:14:12.13 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
? 　 ry 、多くのエラスティックFIFOレディキュー ry 。
　キュー：このデザインでは、多くの弾力的 FIFO レディキューとイベントキューが採用されています。
? アップダウンカウンタと ry 。
それらは小さく且つ高速でありアップダウンカウンタとザイリンクスSRL32CE 32ビット可変長シフトレジスタLUTで構成されています。
DCRDYQに加えて、現在の設計には2つの他のレディキューがあります。
? 　ISRDYQ：命令が発行され、それが2つを目覚めさせ、偶数命令が次に発行し、奇数命令がISRDYQにキューイングされるときの「1つの問題」の設計では、
　ISRDYQ：「 1 イシュー」の設計に於ては、命令が発行され、それが他の 2 つを目覚めさせ、偶数命令が次に発行し、奇数命令がキューイングされるキューは ISRDYQ
　LSRDYQ： EDGEプロセッサは、ロード・ストア・キューを使用してシーケンシャル・メモリ・セマンティクスを提供します。
? ry 並べ替えます。（ready）ロード/ストアが ry 。
1つのシンプルなエリア最適化LSQは、特定のアクセスを保護して並べ替えます ; （レディ/）ロード/ストアがメモリに発行可能になると、LSQはそれをLSRDYQにエンキューします。
　ブロードキャストウェイクアップ：各EDGE結果ブロードキャストは、ウィンドウ内の任意の数の命令をターゲットにしてウェイクさせることができる。
? ry 、増分スケジューラーではコストがかかります。
これは並列スケジューラーにとっては簡単ですが、インクリメンタルスケジューラではコスト ry
。結果がブロードキャストされると、スケジューラは、そのブロードキャスト入力でデコードされた各命令のレディ状態を順次更新 ry
? ry ）を維持する。
したがって、デコーダは、所定のブロードキャスト入力を有する命令のIIDの待ち行列（BR1Q、BR2Q、BR3Q）を整備する。
? ry SCH0、SCH1に提示されたEVTにデキューし始める。
ブロードキャスト結果が分かれば、スケジューラはBRnQ IIDをSCH0、SCH1へ提示されたEVTにデキューし始める。

145:>>144
18/08/12 20:16:00.33 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
　パフォーマンス：図7aのラベル0〜6は、スケジューラクリティカルパスの各ポイントへの「LUT遅延」の数を示します。図7bの白いパスです。 >>141
? ry を含む4.3 nsです。
Kintex-7 -1スピードグレードでは、INSNクロックトゥーアウト、EVTマルチプレクサ、SCH1のAVSリードポートマルチプレクサ、ARDYS_NXTとREADYロジック、IIDセレクタ、INSNSリード、およびINSNセットアップを含めて 4.3 ns です。
? ry LUTローカルMUXF7 / MUXF8 / CARRY4ネットの使用 ry 。
ここで、相互接続遅延は、比較的短いネットとLUTローカルなMUXF7/MUXF8/ CARRY4ネットなりの使用を反映するクリティカルパスのわずか70％です。
? ry バックトゥーバック問題が排除されます。
スケジューラのクロック周期は、LUT RAMおよびFC-SO-RAMの読み取り後のパイプラインレジスタを追加することで2.5 nsに減らすことができますが、並列スケジューラと同様に、パイプライン処理によって依存命令のバックトゥーバックイシューの余地がなくなります。

146:>>145
18/08/12 20:17:17.24 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
? G. 並列スケジューラと増分スケジューラの比較
G. 並列とインクリメンタルとのスケジューラの比較

メトリック　　　　パラレル　　インクリメンタル　　ユニット
エリア, 32エントリ　　288　　78　　　　LUTs
面積、合計、32エントリ　340　　150　　　　LUTs
期間　　　　　　　　　5.0　　4.3　　　　ns
期間、パイプライン　　2.9　　2.5　　　　ns
面積、合計*期間　　1700　　645　　　　LUT*ns
ブロードキャスト　　　　? フラッシュ反復　　フラッシュインタリーブ
イベントバンクの競合？　　決してない　　sometimes
エリア、4イベント/サイクル　　288　　156　　　　LUTs
エリア、64エントリ　　　　576　　130　　　　LUTs
? 表II：並列スケジューラと増分スケジューラの比較
表II：並列とインクリメンタルとのスケジューラの比較

147:>>146
18/08/12 20:18:03.97 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
　表2は、2つのデータフロースケジューラ設計の違いをまとめたものです。 >>146
インクリメンタルスケジューラのコアは、並列スケジューラのサイズの3分の1以下ですが、キューとマルチプレクサの追加オーバーヘッドが追加されるとサイズの利点が小さくなります。
? ry 、エリア*期間のメトリック ry 。
インクリメンタルスケジューラも高速で、エリア*時間のメトリックは2.6倍優れています。
7

しかし、並列スケジューラはいくつかの強引な利点を保持しています。
? 増分スケジューラは、 ry 割合でブロードキャストキューを反復的に排除する必要があります。
インクリメンタルスケジューラは、ブロードキャストイベントを1サイクルで処理できますが、1サイクルあたり1〜2命令の割合で反復的にブロードキャストキューから排出させる必要があります。
? ry で問題が発生する可能性 ry 。
これにより、一部のワークロードでイシューがストールする可能性があります。
インクリメンタルスケジューラはまた、偶数/奇数のターゲットバンクの衝突を受けやすく、命令ウェイクアップを遅らせる可能性がある。
? ry 実質的な期間の利点を覆い隠す ry 、実際の作業負荷の調査が必要です。
これらの影響が実質的な面積*時間の利点を覆隠すかどうかを測定するには、実際のワークロードの調査 ry
? 　最後に、将来のスケールアップをより広い問題とより大きな命令ウィンドウにまで考慮する。
　最後に、より幅広のイシューとより大きな命令ウィンドウの為の将来のスケールアップを考察する。
? ry 細分されたときには増加せず、 ry 。
並列スケジューラは、サイクルごとに2倍のイベントを処理するために、より多くのバンクに細分されたときには拡大せず、インクリメンタルスケジューラコア領域は2倍になります。
命令ウィンドウを64エントリに拡張するために、並列スケジューラは2倍の面積を必要とし、インクリメンタルスケジューラ領域はより穏やかに増加する。

148:>>147
18/08/12 20:18:57.51 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
IV. 結論
? 　 ry 取り組みを紹介します。
　本稿では、FPGAのための実用的な ry に向けた取組を紹介しました。
ASICのより単純な高ILPマイクロアーキテクチャに最適化された新しいEDGE命令セットアーキテクチャが、FPGAに適しているか、または汎用ソフトプロセッサがスカラーRISC低速レーンに停滞しているかどうか ry
　我々は、2つの異なるデータフロー命令スケジューラ設計と ry を検討した。
? ry 、いずれかのデザインのFPGAリソースコストとクロック周期の影響は限定的であり、 ry 。
市販の200MHz、1,000-2,000のLUTソフトプロセッサのコンテキストでは、いずれのデザインのFPGAリソースコストとクロック周期のインパクトも限定的であり、許容可能で実用的なようです。
? ry 4デコード/ 2つの実装形態に適しています。
両方の設計選択肢は、将来の4デコード/ 2イシュー実装形態へのスケールに適しています。

149:yamaguti
18/08/12 20:19:46.85 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
ｽﾚﾘﾝｸ(future板:184-216番)

150:>>148
18/08/12 20:21:26.79 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
参考文献
? ry 、「FPGAでRISCをつくる」、 ry
[1] J. Gray、1996年8月、「 FPGA で自家製 RISC をつくる」、 URLﾘﾝｸ(fpgacpu.org)
[2] ----、「FPGAにRISCシステムを構築する」サーキットセルラーインク、no。 116 - 118、March、April、2000年5月。
[オンライン]。利用可能な： URLﾘﾝｸ(fpgacpu.org)
[3]アルテラ・コーポレーション、「Niosエンベデッド・プロセッサ・ソフトウェア開発リファレンス・マニュアル」、2001年3月。
[4]ザイリンクス社の「MicroBlazeプロセッサリファレンスガイド」、 2002。
[5] AK Jones、R. Hoare、D. Kusic、J. Fazekas、およびJ. Foster、「カスタムハードウェア実行によるFPGAベースのVLIWプロセッサ」、
? ry 、2005年、107〜117頁。
フィールドプログラマブルゲートアレイに関する第13回国際シンポジウム予稿集、2005年、pp 107〜117頁。
[6] KOI TiliとJG Steffan、「チルト：マルチスレッドVLIWソフトプロセッサファミリ」、
フィールドプログラマブルロジックとアプリケーションに関する国際会議の議事録、2013年8月。
[7] P. Yiannacouras、JG Steffan、およびJ. Rose、「VESPA：ポータブル、スケーラブル、フレキシブルなFPGAベースのベクタ・プロセッサ」
? 、および組み込みシステムに関する ry 。
コンパイラ、アーキテクチャ、および組み込みシステムの統合に関する国際会議の議事録、2008、pp。61-70。
[8] J. Yu、G. Lemieux、およびC. Eagleston、
? ry 、第16回国際プログラマブルゲートアレイシンポジウム講演予稿集、 ry 。
「ソフトコアCPUアクセラレータとしてのベクトル処理」、第16回プログラマブルゲートアレイ国際 ACM/SIGDA シンポジウム講演予稿集、2008年、pp。222-232。

151:>>150
18/08/12 20:22:38.10 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
[9] R. Carli、柔軟なMIPSソフトプロセッサアーキテクチャ、修士論文、マサチューセッツ工科大学、2008年5月
[10] K. AasaraaiとA. Moshovos、「実行可能な順序外ソフトコアへ：コピーフリー、チェックポイント付きレジスタの名前変更、
フィールドプログラマブルロジックとアプリケーションに関する第19回国際会議の講演会、2009年8月。
[11] BH Dwiel、NK Choudhary、およびE. Rotenberg、「多様なスーパースカラー・プロセッサのFPGAモデリング」、
? ry 」、2012年、188〜199頁。
IEEE国際シンポジウム「システムとソフトウェアの性能解析」論文集、2012年、 pp 188〜199頁。
[12] D. Burger、SW Keckler、KS McKinley、M. Dahlin、LK John、C. Lin、CR Moore、
J. Burrill、R.G. McDonald、W.Yoder、X.Chen、R.Disikan、S.Drolia、J.Gibson、MSS Govindan、
P. Gratz、H。Hanson、C. Kim、SK Kushwaha、H. Liu、R。Nagarajan、N. Ranganathan、
E. Reeber、K.Sankaralingam、S.Sethumadhavan、P.Sivakumar、およびA.Smith、
「EDGEアーキテクチャを用いてシリコンの端までスケーリングする」、IEEE Computer、vol。 37、no。 7、pp。44-55、2004年7月。
[13] M. Gebhart、BA Maher、KE Coons、J. Diamond、P. Gratz、M. Marino、N. Ranganathan、B. Robatmili、A. Smith、J. Burrill、SW Keckler、D. Burger、およびKSマッキンリー、
? ry 、2009年、1〜12頁。
「TRIPSコンピュータシステムの評価」、プログラミング言語とオペレーティングシステムのアーキテクチャサポートに関する第14回国際会議の講演会、2009年、 pp 1〜12頁。

152:>>151
18/08/12 20:23:14.09 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
[14] C. Kim、S. Sethumadhavan、MS Govindan、N. Ranganathan、D. Gulati、D. Burger、およびSW Keckler、
? ry 、2007年、381〜394頁。
「構成可能な軽量プロセッサ」、第40回マイクロアーキテクチャシンポジウム講演予稿集、2007年、 pp 381〜394頁。
[15] B. Robatmili、D. Li、H. Esmaeilzadeh、S. Govindan、A. Smith、A. Putnam、D. Burger、およびSW Keckler、
? 「ヒューズブル ry 」
「フューザブルダイナミックマルチコアアーキテクチャのための効果的な予測とフォワーディングの実装方法」
ry 、2013年、第460 - 471頁。
第19回高性能計算機アーキテクチャ国際シンポジウム講演予稿集、2013年、pp 第460 - 471頁。
[16] MSS Govindan、B. Robatmili、D. Li、B. Maher、A. Smith、SW Keckler、およびD. Burger、
「プロセッサのコンフィギュラビリティによるパワーと性能のスケーリング」、
IEEE Transactions on Computers、2013年3月。
8

153:>>152
18/08/12 20:27:13.81 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
>>105-152
ｽﾚﾘﾝｸ(future板:184-216番)
>184 yamaguti 180727 0129 pBBIx/eO?2BP(0)
> >>46 >>173 >>152-183
> Google 翻訳
>
> これは、ファイル URLﾘﾝｸ(microsoft.com)
> の html版です。 Google
:
> E2ダイナミックマルチコアアーキテクチャにおける動的ベクトル化
> 2010 HEART 2010の議事に出席する
:

154:>>153
18/08/12 20:33:49.65 ltAhnLdz.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
>>153
URLﾘﾝｸ(arxiv.org)
URLﾘﾝｸ(mobile.twitter.com)
URLﾘﾝｸ(www.cs.utexas.edu)
URLﾘﾝｸ(www.cs.utexas.edu)
URLﾘﾝｸ(www.microsoft.com)
ftp%3A//ftp.cs.utexas.edu/pub/dburger/papers/IEEECOMPUTER04_trips.pdf#20170706111151
(deleted an unsolicited ad)

155:yamaguti
18/08/27 09:32:30.84 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
Google 翻訳
　
ページ1
　
好奇心に基づいた学習の大規模研究

ユリブルダ* OpenAI
ハリ・エドワーズ* OpenAI
Deepak Pathak * UCバークレー
アモスストーキー Univ。エジンバラの
トレバーダレル UCバークレー
アレクセイ・エフロス UCバークレー

156:>>155
18/08/27 09:33:19.93 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
抽象
強化学習アルゴリズムは、エージェントへの慎重にエンジニアリングされた外的な環境報酬に依存します。
しかし、手作業で設計された密集した報酬で各環境に注釈を付けることはスケーラブルではなく、エージェントに内在する報酬機能を開発する必要があります。
好奇心は報酬信号として予測誤差を用いる内的報酬関数の一種である。
このペーパーでは、（a）Atariゲームスイートを含む54の標準ベンチマーク環境全体にわたって、純粋に好奇心に基づいた学習、つまり、いかなる外的報酬も伴わない最初の大規模な学習を行います。
私たちの結果は、驚くほど優れたパフォーマンスと、本質的な好奇心の目標と多くのゲーム環境の手作業で設計された外的報酬との高度なアライメントを示しています。
(b) We investigate the effect of using different feature spaces for computing prediction error and show that random features are sufficient for many popular RL game benchmarks,
（b）我々は、予測誤差を計算するために異なる特徴空間を使用することの効果を調べ、多くの一般的なRLゲームのベンチマークではランダムな特徴が十分であることを示し、
but learned features appear to generalize better (eg to novel game levels in Super Mario Bros.).
学習された機能は、より一般化するように見える（例えば、スーパーマリオブラザーズの新規ゲームレベルへ）。
（c）予測ベースの報酬の制限を確率的な設定で実証する。
ゲームプレイ動画やコードは URLﾘﾝｸ(pathak22.github.io) 。

157:>>156
18/08/27 09:34:29.87 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
前書き
補強学習（RL）は、エージェントが複雑なタスクを実行するための一般的な方法として浮上しています。
RLでは、エージェントポリシーは、タスクに合わせて設計された報酬関数を最大化することによって訓練される。
報酬は代理人の外来であり、彼らが定義する環境に特有のものです。
RLにおける成功の大部分は、この報酬機能が密集してよく整形されているとき、例えばビデオゲームで走っている「スコア」のときに達成された[21]。
しかしながら、うまく整形された報酬機能を設計することは、非常に困難な工学的問題である。
外的報酬を「形作る」のに代わるものは、密接な内在報酬[26]、すなわちエージェント自体によって生成される報酬でそれを補うことである[26]。
固有の報酬の例には、報酬信号として予測誤差を使用する「好奇心」[11,22,27,35,40]、エージェントを拒否する「訪問回数」[3、20、24、30]同じ状態を再訪する。
考え方は、これらの内在的な報酬が、次の外的報酬を見つけるために環境を効率的に探索するように代理人を誘導することによって、疎な外的報酬のギャップを橋渡しするということです。
しかし、外的報酬のないシナリオはどうですか？
これは聞こえるほど奇妙ではありません。
発達心理学者は、発達の初期段階において、内発的な動機づけ（すなわち、好奇心）が主要な要因であると話している[32,41]。生後に役立つ技能を身につけるために、
Minecraftのプレイから、地元の動物園への訪問まで、他にもたくさんの例があります。そこでは、外的報酬は必要ありません。
確かに、固有の報酬だけを使って与えられた環境にエージェントを事前に訓練することは、新しい環境で斬新な仕事に微調整されたときにはるかに速く学習できるという証拠がある[27,28]。
しかし、これまでのところ、本質的な報酬のみで学習する体系的な研究はなかった。
*アルファベット順。最初の3人の著者は等しく貢献しました。
プレプリント。
作業中です。

158:>>157
18/08/27 09:35:01.19 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
ページ2
図1：
このペーパーで調査された54の環境のスナップショット。
エージェントは、外的報酬、またはエピソード終了信号を使わずに、好奇心だけを使って進歩を遂げることができることを示します。
ビデオの結果、コード、モデル URLﾘﾝｸ(pathak22.github.io) 。
このホワイトペーパーでは、様々なシミュレートされた環境のさまざまな範囲の固有の報酬によって純粋に駆動されるエージェントの大規模な実証研究を行っています。
In particular, we choose the dynamics-based curiosity model of intrinsic reward presented in Pathak et al.
特に、我々はPathak et al。が提示した内在的報酬のダイナミクスに基づく好奇心モデルを選択する。
[27] because it is scalable and trivially parallelizable, making it ideal for large-scale experimentation.
[27]スケーラビリティと並行して並列化できるため、大規模な実験には理想的です。
中心的なアイデアは、エージェントの現在の状態、すなわちエージェントの学習された順動力学の予測誤差を与えられたエージェントの行動の結果を予測する際の誤りとして、内在的な報酬を表現することである。
我々は、図1に示すビデオゲーム、物理エンジンシミュレーション、および仮想3Dナビゲーションタスクの54の環境にわたるダイナミクスに基づいた好奇心を徹底的に調査します。

159:>>158
18/08/27 09:35:36.27 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
好奇心に基づいた学習をより深く理解するために、パフォーマンスを決定づける重要な要因についてさらに検討します。
特に、高次元の生の観測空間（例えば、画像）における将来の状態を予測することは困難な問題であり、最近の研究[27,42]に示されるように、補助的な特徴空間における学習のダイナミクスは改善された結果につながる。
しかしながら、そのような埋め込み空間をどのように選択すべきかは、重要であるが未だオープンな研究課題である。
体系的アブレーションを通じて、エージェントが自分の好奇心によって純粋に動くように、エージェントの観察をコード化するさまざまな方法の役割を調べます。
To ensure stable online training of dynamics, we argue that the desired embedding space should: (a) be compact in terms of dimensionality,
ダイナミクスの安定したオンライントレーニングを確実にするために、我々は、所望の埋め込み空間が、（a）次元的にコンパクトであり、
(b) preserve sufficient information about the observation, and (c) be a stationary function of the observations.
（b）観測に関する十分な情報を保持し、（c）観測の定常関数である。
私たちはランダムなネットワークを介して観測をエンコーディングすることは、多くの一般的なRLベンチマークで好奇心をモデル化するための単純で効果的な手法であることを示しています。
これは、多くの一般的なRLビデオゲームのテストベッドは、一般的に考えられているように視覚的に洗練されていないことを示唆するかもしれません。
興味深いことに、練習ではランダムな機能で十分なパフォーマンスが得られますが、学習した機能は一般的に良く見えます（たとえば、Super Mario Bros.の新しいゲームレベル）。

160:>>159
18/08/27 09:36:10.49 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
要約すれば：
(a) We perform a large-scale study of curiosity-driven exploration across a variety of environments including:
（a）私たちは、好奇心に基づいた探査の大規模な研究を、
the set of Atari games [4], Super Mario Bros., virtual 3D navigation in Unity [1], multi-player Pong, and Roboschool [39] environments.
Atariゲーム[4]、Super Mario Bros.、Unity [1]、マルチプレイヤーPong、Roboschool [39]環境での仮想3Dナビゲーション。
（b）ランダム特徴、画素、逆ダイナミクス[27]、変分オートエンコーダ[15]を用いて、ダイナミクスに基づいた好奇心を学習するための異なる特徴空間を広範囲に調査し、見えない環境への一般化を評価する。
（c）我々は、直接予測誤差に基づく好奇心の定式化のいくつかの限界について議論することによって結論づける。
エージェント自体が環境中の確率論の源であるならば、実際の進歩を伴わずに報酬を得ることができます。
エージェントが環境の異なる部分を制御する3Dナビゲーションタスクで、この制限を経験的に実証します。
2

161:>>160
18/08/27 09:36:39.37 Zq8VRJ9K.net BE:138871639-2BP(0)
URLﾘﾝｸ(img.5ch.net)
Page 3
2
ダイナミクスに基づく好奇心に基づく学習
観測xtを見て、xt + 1の観測で次の状態に移り、次の状態に遷移するエージェントを考えてみましょう。
私たちは、このエージェントを、移行がどれほど有益であったかという報酬と奨励したいと考えています。
この報酬を提供するために、我々は以下の要素を含む探査ボーナスを使用します：
（a）観測値を表現φ（x）に埋め込むためのネットワーク、
（b）前回の観測と行動p（φ（xt + 1）| xt、at）に条件付けられた次の状態の表現を予測するフォワードダイナミクスネットワーク。
Given a transition tuple {xt,xt+1,at}, the exploration reward is then defined as rt = ?
遷移タプル{xt、xt + 1、at}が与えられると、探索報酬はrt =？
log p(φ(xt+1)|xt,at), also called the surprisal [2].
log p（φ（xt + 1）| xt、at）は、驚くべき[2]とも呼ばれます。
この報酬を最大にするように訓練されたエージェントは、予測誤差が大きい遷移を優先します。これは、エージェントが短い時間を過ごした領域で、または複雑なダイナミクスを持つ領域で高くなります。
このようなダイナミクスを基盤とした好奇心はシナリオ全体にわたって非常によく実行されることが示されている[27]。特にダイナミクスが生の観測ではなく埋め込み空間で学習されている。
In this paper, we explore dynamics-based curiosity and use mean-squared error corresponding to a fixed-variance Gaussian density as surprisal, ie, f(xt,at) ?
この論文では、ダイナミクスに基づく好奇心を探り、固定分散ガウス密度に対応する平均2乗誤差を驚くべきもの、すなわちf（xt、at）とする。
φ(xt+1)2 2 where f is the learned dynamics model.
φ（xt + 1）2 2ここで、fは学習された力学モデルである。
しかし、他の密度モデルを使用することもできる。

次ページ