CYBERORO
新AI ‘アルファ ゼロ’ 4時間でチェス征服、囲碁は一日かかって
 2017-12-07午後09:41 
 
catpt001-072135


[出処:中央日報] 12月7日中央日報に掲載された記事内容を移しました。 ○● [中央日報]記事原文表示




Googleディープマインドの新しい人工知能(AI) 'アルファ ゼロ(Alpha Zero)'が4時間でチェスを征服した。 囲碁は一日かかったが、将棋は2時間もかからなかった。 

Googleディープマインドはこのような内容の論文を5日、'arXiv(アーカイブ)'に登録した。

論文の題名は'汎用強化学習アルゴリズムでチェスと将棋を征服する(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm)'。 アーカイブは数学、物理学、天文学など分野の出対局前論文を提供する所だ。 

論文によれば'アルファ ゼロ'は人間の棋譜なしで成長した'AlphaGoゼロ'を汎用で作ったバージョンだ。 このために名前から囲碁を意味する'ゴ(Go)'を抜いた。 

'アルファ ゼロ'は自身の母胎である'AlphaGoゼロ'のように人間知識の助けを受けることなく、ゲームのルールだけ入力して自ら成長するのが特徴だ。

差異点があるならば'AlphaGoゼロ'が囲碁に限定されたことと違い、'アルファ ゼロ'は色々なゲームに適用されるようにアルゴリズムを汎溶化した。 

[523742]catpt002-072135


このように誕生した'アルファ ゼロ'に将棋のルールだけ入力して強化学習した結果、'アルファ ゼロ'は2時間もかからずに現存する最も強い将棋AI 'エルモ(Elmo)'を抜いた。 チェスもやはり強化学習4時間で最も強いチェスAI 'ストックフィッシュ(Stockfish)'に追いついた。 

囲碁はもう少し時間がかかった。 昨年3月イ・セドル9段と対決当時のバージョンである'AlphaGoリー'は勝つには8時間程度が必要とされた。 自身の母胎であり、既存囲碁AI中で最も強い'AlphaGoゼロ'を追撃するには24時間程度がかかった。 

'アルファ ゼロ'は他のAIと比較してあたかも'人のように'思考するような様相も見せた。 'ストックフィッシュ'や'エルモ'が色々な可能性を広範囲に非効率的に探索することと違い、'アルファ ゼロ'は深層神経網を通じて選択的に少数の可能性を集中探求した。 

秒当たり探索数を比較すると、チェスで'ストックフィッシュ′が秒当たり7000万個の手を探求する時'アルファ ゼロ'は秒当たり8万個の手を研究した。 将棋で'エルモ'が秒当たり3500万個の手を探求する時、'アルファ ゼロ'は秒当たり4万個の手を探求した。 

[523742]catpt003-072135


また、他のAIと比較する時、考える時間が長いほど結果の質が大きく向上することを観察することができる。 あたかも人が考える時間が多くなるほど、より良いアイディアを思いつく可能性が大きくなることのように。

論文は囲碁用から出発したAIがはるかに短い時間で効率的な方式で色々なゲームを征服したとのことを再び強調して結んでいる。 'アルファ ゼロ'の登場で'AlphaGo'の汎用化はゲームを越えて他の分野でより一層早く進行されるものと見られる。 
原文記事:CYBERORO