囲碁王者を倒したAlphaGoをゼロから始めて30時間で打ち負かす「AlphaZero」、将棋・チェスの最強ソフトもサクッと制圧[12/07] at SCIENCEPLUS
[2ch|▼Menu]
1:しじみ ★
18/12/08 17:04:46.85 CAP_USER.net
囲碁の世界チャンピオンを打ち負かしたソフト「AlphaGo」が正常進化して、「AlphaZero」が誕生しました。人間による手助けを一切必要としないAlphaZeroは、ルールしか知らない状態から自己教育することで、たった30時間でAlphaGoを完膚なきまでに打ち負かす強さに成長可能。囲碁だけでなく、数十時間の独学でチェス・将棋でも、既存の最強ソフトを圧倒する強さへと進化できます。
AlphaZero: Shedding new light on the grand games of chess, shogi and Go | DeepMind
URLリンク(deepmind.com)
囲碁チャンピオンを打ち負かしたソフト「AlphaGo」は、自分で自分を鍛えられる「AlphaGo Zero」へと進化しました。自分と戦いつつ実力をメキメキ向上させられるため、自己学習可能なAlphaGo Zeroでは人間の関与が不要になりました。
囲碁に特化していたAlphaGo Zeroは、あらゆるボードゲームに対応できる汎用性を持つ「AlphaZero」へと進化しました。
そして、DeepMindによって2018年12月7日にScienceで発表された論文では、AlphaZeroが、チェス・将棋・囲碁の3つの代表的なボードゲームにおいて、これまでに開発された最強のソフトウェアを数日で打ち負かす能力に成長できることが明らかにされました。
A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play | Science
URLリンク(science.sciencemag.org)
URLリンク(i.gzn.jp)
2016年に開催されたチェスプログラムの世界大会TCECシーズン9を制した「Stockfish」とのイロレーティングの比較。AlphZeroは自己学習開始から4時間でStockfishを上回りました。
URLリンク(i.gzn.jp)
将棋のチャンピオンソフト「elmo」との対決では、2時間後にはAlphaZeroが上回ったとのこと。
URLリンク(i.gzn.jp)
囲碁チャンピオンのイ・セドルに勝ったときのAlphaGoを、たった30時間で超えました。
URLリンク(i.gzn.jp)
強化学習で自分を鍛えるAlphaZeroは、試行錯誤のプロセスを通じて成長します。ニューラルネットワークが必要とするトレーニング時間はゲームによって変わり、チェスでは約9時間、将棋では約12時間、囲碁では13日間必要だとのこと。
トレーニングされたネットワークは、モンテカルロ木探索(MCTS)と呼ばれる検索アルゴリズムで最も有望な「手」を選びます。AlphaZeroでは従来のエンジンに比べて考慮する検索数が圧倒的に少ないとのこと。例えば、チェスのStockfishが1秒間に6000万ポジション検索するのに対して、AlphaZeroは6万ポジションしか検索しないとのこと。伝統的なAIエンジンでは計算可能な解決法がない場面に直面すると迷いが生じるのに対して、AlphaGoではこの欠点がなく、「直感」が要求されるような場面で無類の強さを発揮します。
URLリンク(i.gzn.jp)
従来型のAIエンジンと異なるAlphaZeroは、その強さだけでなく繰り出す「手」の独創性も際立っているとのこと。生身の人間ではもはや歯が立たないレベルに達したAlphaZeroを相手にすることで、これまでプロプレイヤーが考えもしなかった新鮮な局面が現れるため、人間のプレイヤーの世界を広げる役目を果たしているとDeepMindは述べています。
人気の3つのボードゲームを完全制覇してその汎用性を示したAlphaZeroですが、今後は製薬、材料設計、バイオテクノロジーなどの科学技術を中心とした、世界的な課題の解決を目指す壮大な"ゲーム"を攻略するために、研究・開発される予定です。
AlphaZero: Shedding new light on the grand games of chess, shogi and Go URLリンク(youtu.be)
GIGAZINE
URLリンク(gigazine.net)


レスを読む
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

1936日前に更新/30 KB
担当:undef