CYBERORO
棋譜なしで独学したAlphaGo、最も強かった
Googleディープマインド'AlphaGoゼロ'バージョン公開

 work-001-kadfd
▲今までのAlphaGoとは完全に違った'AlphaGoゼロ(AlphaGo Zero)'。 AlphaGoゼロが囲碁入門をしてから歴代最強になるまでの過程を見ていれば囲碁理論の進化をひと目で見るような感じがする。 [イメージ|グーグル]


人間の棋譜を全く学習しなかったAlphaGoの新しいバージョン‘AlphaGoゼロ(AlphaGo Zero)’がベールを脱いで世の中を驚かせている。 

今までのAlphaGoは人工神経網の中で指導学習(supervised learning)という人間棋譜学習を経たが、AlphaGoゼロはこの過程を経なかった。 ただ自ら対局して強化学習(reinforcement learning)だけで実力を育てた。 囲碁の基本ルールを除いて、AlphaGoゼロの学習に人間の介入はなかった。 

このように‘独学した’AlphaGoゼロは今まで最も強いと知らされてきた‘AlphaGoマスター(AlphaGo Master)’バージョンに圧倒的に勝ったことが明らかになって衝撃を与えている。 

AlphaGoゼロはそれぞれ同じ演算力(TPU 4台を備えたシングルマシン)に制限時間2時間の条件でAlphaGoマスターと100対局を競って89勝11敗だった。 約90%の勝率だ。

AlphaGoマスターは今年のはじめ人間強者を相手に60戦全勝をおさめた後、5月に世界最強コ・ジェ9段を3-0で制圧したバージョンなのだが、AlphaGoゼロの前では相手にもならないというわけだ。 (AlphaGoゼロは、イ・セドル9段と競ったAlphaGoバージョンには100戦100勝を記録した。)

AlphaGoゼロ アルゴリズムとテスト結果等を含んだ論文‘人間知識なしで囲碁をマスターする(Mastering the game of Go without human knowledge)’が、19日(韓国時刻)科学学術誌ネイチャー(Nature)に掲載された。 デミス・ハサビス ディープマインド創業者兼最高経営者を含んだAlphaGo製作会社Googleディープマインド研究員17人が共同著者だ。 

無から始まったAlphaGoの進化速度は驚くべき速さだった。

AlphaGoゼロはあちこちに打つこと(完ぺきな無作為着手)から始めた後、囲碁の概念(布石、手筋、コウ、ヨセ、攻め合い、先手、模様、勢力、地など)を精巧に理解する段階に進む時まで、非常に速い速度で進歩した。 

何の事前知識なしで、ただ囲碁ルールだけ入力されたAlphaGoゼロは訓練を始めた頃は18級でもしない囲碁を見せた。 '1の1'にもよどみなく打った。 

[523530]catpt001-190536

▲棋譜を一度も見なかった。 ただ自分自身と碁を打って歴代最強の囲碁実力を備える時までAlphaGoゼロに必要な歳月はわずか40日だった。 [イメージ|グーグル]


3時間が過ぎるとすぐに囲碁に今しがた入門した人の水準になった。 ただ相手の石を捉えにいくことに血眼になった姿を見せた。 

19時間が経過して基本技が取りそろうと次第に死活・勢力・地のような囲棋戦略の要素を理解し始めた。 

3日が過ぎて‘AlphaGoリー(AlphaGo Lee、イ・セドル9段に勝ったAlphaGoバージョンを指摘)’水準を越え始めた。 

(※以下の棋譜は原文記事に棋譜再生があります。)

▼訓練開始の後3時間が過ぎた時点のAlphaGoゼロのセルフ対局
-あたかも囲碁教室に入門した子供たちの対局を見るようだ。石を捉えることにだけ神経が注がれていて、アタリを打てば繋がないでアタリを打ってかえって自身が捕えられる場合もたくさん見える。コウに対してもまだよく理解できない段階だ。

001





▼訓練開始後19時間が過ぎた時点のAlphaGoゼロのセルフ対局。
-AlphaGoはいよいよ死活概念を理解し始める。黒7と黒19はAlphaGoマスターの棋譜でしばしば見られた別名「早いタイミングでの三三入り」(early 3-3 invasion)なので我々になじむ。

ただ、黒13や27をこの時点で打つのは惜しいこともある。 後で気持ち良いAのノゾキのチャンスが減るためだ。 13に打つ理由は逆に相手がその場に打つと先手で当てられるためだ。 それでもタイミングをよく見なければならない。
002



▼訓練開始後70時間が過ぎた時点のAlphaGoゼロのセルフ対局。この時点でAlphaGoは人間水準を跳び越える。 

人間理論で辺の黒を強化させる白6は部分的に悪手だ。 黒23から繰り広げられる右上攻防は予測が容易ではない。 

以後、左下隅変化はAlphaGoゼロどうし作り出した新定石。 黒63のキリが最初に試みられた。 白は64に打って左側一子を捉えたり67の所に応酬することができる。 黒63の応酬打診は白は周りに留意して動かなければならない。
003







21日が経過するとすぐにAlphaGoマスターと似た水準に達した。 

40日間約3千万対局を訓練した後にはAlphaGoマスターに大勝した。 この段階になるとすぐにAlphaGoゼロは既存定石を好まない傾向を見せ、人の水準で予測しにくい斬新な変化が増加した。 




人間の棋譜を通さなかったわけだが、なぜさらに強くなったのだろうか 

AlphaGoゼロはEloレーティング5185点を記録している。 AlphaGoマスター4858点、AlphaGoリー3739点、AlphaGo樊麾 3144点の順だ。 

AlphaGoゼロが人間の棋譜で学習した既存AlphaGoを圧倒する理由について研究陣は、“人がこれまで積み重ねた囲碁に対する接近法とは質的に他の戦略をAlphaGoゼロが悟ったと見られる。”と話した。

[523530]work-002-kadfd

▲AlphaGoゼロ、そして既存AlphaGoバージョンのEloレーティング比較。 [イメージ|グーグル]






論文の共同著者デービッド・シルバー(David Siver)は“人間知識の限界にこれ以上しばられないため。”と強調した。 

このほかに政策網(policy network、次の手を選択)価値網(value network、勝者を予測)で知らされた二つの神経網を一つに統合して訓練と評価に効率性を高めたのも理由の一つに選ばれる。 

●AlphaGoゼロ○AlphaGoリー(イ・セドルに勝ったAlphaGoバージョン) 
225手黒中押し勝ち 

004





●AlphaGoゼロ○AlphaGoマスター(コ・ジェに勝ったAlphaGoバージョン) 
265手黒中押し勝ち
005






●AlphaGoゼロ○AlphaGoゼロ 
228手白中押し勝ち 
006



国家代表チーム“AlphaGoゼロの棋譜、解釈困難” 

AlphaGoゼロの棋譜に接した国家代表常備軍は、

“人間の棋譜を全く見ずに訓練したのだが人間の囲碁のように堂に入っている変遷過程が不思議だ。” 

“新鮮だ。 だが、以前のAlphaGoマスターバージョンのセルフ対局55局があまりにも破格的だったので衝撃波はそこまで大きくない。” 

“AlphaGoマスターの囲碁と比較してみればかえってAlphaGoゼロの方がさらに人間と似ているように見えたりもする。”等の反応を見せた。 

一方、“我々がAlphaGoゼロがどれくらい強いのか評価するのは、あたかも18級が最高級プロ棋士を比較するのと同じこと。”として、“AlphaGoゼロの考え方が助けになる部分もある程度あるが、大部分は解釈さえ容易ではない。”という声も出てきた。 
原文記事:CYBERORO