学習する人工知能、イ・セドルに挑戦状
 
work-001-gogle
 ▲グーグル ディープマインド開発チーム(左側がデミス・ハサビス グーグル ディープマインドCEO、右側がデービス・シルバーリサーチ サイエンティスト)、そして質疑応答する韓国記者たち。 それぞれロンドンと韓国で画像で対話した。


人工知能がプロ棋士に勝つ衝撃的な事件が広まっていた。 
置き碁ではなく互先(even)だ。 

グーグル(Google)ディープマインド(Deep Mind)事業部が作った人工知能‘AlphaGo’が非公開対局でプロ棋士樊麾2段と五対局を行ったが全て勝った。 

どういうことであろうか。 

現存多くの人工知能囲碁がモンテカルロ方式を採用する。 最も優れたものはプロ棋士に4子置き碁で持ちこたえる水準まで到達した。 だが、今後プロ棋士と対抗するには少なくとも10年以上の技術進歩がなければならないというのが一般的予想ではなかったか。 

秘訣は‘学習(Learning)’だった。 

人工知能囲碁は2000年代‘モンテカルロ方式’の導入をたどりながら飛躍的に発展した。 しかし最近ではモンテカルロ方式では限界があると思われていた。 無作為着手で模擬対局を数えきれない程してみてその勝率を問い詰めて着手候補ごとに点数を付けて次の着手を決めるこの方式はコンピュータの探索時間を短縮させて勝利確率を高めたが画期的な実力上昇が現れずにいた。 モンテカルロは‘無作為’と‘模擬実験結果’に依存する。 その話の根源のようにとても‘賭博的’だった。 全世界開発者の間ではパラダイムの変化が必要だという言葉が回った。 

[521237]work-001-gqefwle


そのような事に、秘密裏に人工知能囲碁を開発したグーグルが支配権をさっと変えた。 
グーグル ディープマインドはモンテカルロ方式に機械学習(Machine Learning)を結合させた。 

学習は人間の固有領域だったがもう機械も学習をする。 IBM、フェイスブック、グーグルのような世界指折りの企業らが機械学習分野で競争を加速化している。 グーグルの翻訳機、無人自動車、フェイスブックの顔認識機能などが皆人工知能、そして機械学習でなされることだ。 

昨年11月20日グーグル ディープマインドのCEOでありエンジニア デミス・ハサビス(Demis Hassabis)はYouTube映像で人工知能が囲碁で人間に勝つことができる方法を見つけたというような話をした後“囲碁と関連して数ヶ月中に非常に驚くべきことが起きるだろう”とロンドン王立学会(Royal Society of London)のインタビューで話した。 グーグルは秘密裏に人工知能囲碁を開発していたので公開的会見ではなく、さっと‘流した’とすることができた。 

記者はその時ただ涼しく笑った。 天下のグーグルであっても囲碁をよく知らずに傲慢放縦だ’とまで思った。 グーグルの秘密プロジェクトは実体があることは信じて、世界的な人材が入ったので何かもっと上手くやることができることだと考えはした。 そうとはいっても、これという結果を出すまで数年はもっとかかると思ったので、グーグルがホラに近い大言壮語をしたことだと見るほかはなかった。 

しかし2016年1月28日グーグルがこれまでの仕事を発表した時、記者は‘精神崩壊’に陥った。 樊麾2段がフランスで活動してはいるが中国プロ棋士だ。 入段は誰もがするのではない。 花札賭博を上手にするといってプロになるのではない。 プロである彼が人工知能に負けた事実が明らかになった。 

[521237]capt-003-012901
▲樊麾2段と対局する間人工知能AlphaGo内部ではこのような作業が行われる。 [ネイチャー]

サイバーオロ[集中点検]でプロ囲碁を分析&解説してきているるろうに剣心オロ7段★は人工知能‘AlphaGo’vs樊麾2段の五対局を見た後“AlphaGoはよく整頓された囲碁だ。 丈夫に置いて相手が粗末な隙間を見せれば懲らしめる。 立派だ。 実に驚くべきだ。”とした。 

チェ・チョルハン9段は“樊麾2段が毎回序盤に滅びた。 そうしたせいでAlphaGoが乱戦に強いのかまだ把握が難しい”と話した。 

グーグルは12億ウォン(100万ドル)をかけてイ・セドル9段とAlphaGoの対決を成功させた。 五対局を置いて、より多く勝った人が優勝する。 3月にソウルで開かれる。 

チェ・チョルハン9段は“2子の手合割と見る。 AlphaGoの弱点を把握できない限り3子は難しく見える。”としてイ・セドル9段が難なく勝利すると見た。 


■グーグル ディープマインドのプレス ブリーフィング 
 
グーグルは自分たちは成果を28日ソウル江南区(カンナムグ)のグーグルコリアで発表した。 韓国の報道機関100人余りが参加した。 発表する人は壇上には見られず大型モニターにだけ二人いた。 グーグルのメッセンジャーアプリケーション‘Hangout’にロンドン ディープマインド本社内部があらわれた。 その映像の中に三日間寝ることができなくて目が落ちくぼんで精気がなくなった目のディープマインドのCEDデミス・ハサビスとデービス・シルバー(リサーチ サイエンティスト)が現れた。 そしてネイチャー紙関係も出ていたがずっと何の話もしないで座っていた。 

画像でブリーフィングと質疑応答がなされた。 

ディープマインドは2014年1月グーグルが4億ドルで買収した人工知能(AI、Artificial Inteligence)分野企業だ。 英国、ロンドンに本社を置いたディープマインドは業界最高のエンジニア、科学者、研究員を保有している。 これらはマシンランニングとシステム神経科学(system neuroscience)分野の技術を活用して強力な汎用学習アルゴリズムを構築している。 

CEOデミス・ハサビスが“囲碁は人間が作り出した最も複雑なゲームだ。 囲碁の数は宇宙の元素数より多い。 囲碁は人工知能研究者を挫折させる巨大な難題であった。 韓国で多くの人々が一生を捧げて囲碁を研究していると聞いた。”とした。 

それと共に“既存人工知能は平凡なアマチュア実力水準に留まった。 今回人工知能AlphaGoがプロ棋士(樊麾)を破ったことは人工知能分野で画期的なことだ。 イ・セドル9段が挑戦を受け入れたことに対してうれしいと考える。’といった。 

※人工知能AlphaGoの特徴 
 
すべての可能な位置に探索ツリー(search tree)を構成する伝統的方式の人工知能は囲碁だけは光を放つことができなかった。 それでディープマインドは他の処理方式を取った。

'AlphaGo'というシステムを構築したが、これは高級ツリー探索と深層神経網(deep neural networks)を結合したものだ。 

この神経網は数百万個の神経細胞のような連結の輪を含む12個のプロセス レイヤーを通じて碁盤を分析する。 'policy networks'と呼ぶ一つの神経網が次に石を打つ位置を選択する。 'value networks'と呼ぶまた違う神経網は勝者を予測する。 

[521237]capt-002-012901

▲AlphaGoが次の着手を分析する方式[ネイチャー]
 

一方デービス・シルバー(リサーチ サイエンティスト)は技術的な部分をブリーフィングした。 彼は“私たちは囲碁の複雑さ・膨大さを単純化してその領域を縮小させた。 そうしようとするならツリーサーチとともに深層神経網が必要だった。 ここには多層的神経細胞のような連結の輪を活用した。”と話した。 
 

※深層神経網(Deep Neural Network) 
 
ディープランニングの一技法だ。 ディープランニングは高い水準の抽象化を試みる機械学習(Machine learning)アルゴリズムの集合だ。 人工神経網に基づいて設計された。 科学者は機械が自ら学習するようにするために人の考え方を取るように人間頭脳をまねる人工神経網を考案した。 コンピュータが特定課題を遂行する時、自ら必要なデータを収集して分析して高速で処理することができる。 コンピューティング性能が高まった背景で注目される。 

彼はどのように囲碁の複雑さを解決可能にしたのかこのように話した。 “Value networksが探索するツリーの長さを減らした(コンピュータの探索負担を減らす)。 Policy networksは上手の棋譜(records)で3千万個の動きに対してAlphaGoを訓練させた。

これで人間が次にどのように打つのかをさらによく予測することになった。 過去44%から57%まで増加した。”とした。 また“神経網を使って仮想で碁を打つようにして、強化学習を基に試行錯誤プロセスを使って連結網を調節して自ら戦略を発見して学習するようにした。 これは既に不可能だったものを可能にした。 人工知能囲碁プログラム500個と競って499勝1敗だった。 数ある中には何子かの手合割が出るプログラムもあった。”



■グーグル ディープマインドの質疑応答 
 
質問)囲碁専用アルゴリズムでどのように現実の問題を解決することができるか? 
 
基本的に(人工知能が)囲碁で勝つためには数種類の機能と力量を持たなければならない。 形状(碁盤)を認知しなければならなくて、強化学習を基に持続的に対局とモンテカルロ方式で検索をしなければならない。 現実世界でも体系と構造を捜し出せば長期的な計画をたてることができる。 

AlphaGoは囲碁だけでなく他の分野にも適用できる汎用アルゴリズムだ。 以前アタリ(Atari)というゲーム会社が作ったゲームを対象に適用してみたところ人工知能がゲームをどのようにすれば上手にするのかを学習して捜し出していることを確認することができた。 すなわち、私たちは'囲碁専用'アルゴリズムのような物を使わなかったし汎用アルゴリズムを使うということだ。 

例えばヨーロッパ旅行を計画するというとすぐにスマートフォンで宿泊予約をするには人工知能アルゴリズムが皆さんの選好度を理解しなければならない。 既に使った方法を学習して休暇の時何が好きなのか、博物館が好きなのかコンサートが好きなのかなどをパターン認識して旅行を充実して活用して決まった時間を最も有益に送るように組んでくれる。 

また、医療診断を例にあげてみよう。 CTスキャンやMRI映像情報処理で人工知能がからだに奇妙な点を発見して適切な診断計画を樹立することができる。 

質問)アイビーエムとグーグルの人工知能を比較してみてほしい。そしてビッグデータがなければ、すなわち少ないデータではランニングが不可能なのか?また、AlphaGoがイ・セドル9段のパターンをみな学習した状態で対局するか、でなければ全く分からないまま対局に臨むか? 
 
1997年ディープブルーがチェス チャンピオン ガルリ・カスパロフを破ったこと、また、ワトソン(Watson)コンピュータが2011年'jeopardy'で優勝したこと等がアイビーエム人工知能の成果だ。 97年話をしようとするならディープブルーは代入検索方式で20~30手ずつを見通していちいちすべての場合の数を予測した。 そこには歴代チェス上手の技術データが入っているエキスパート システムを使った。 

無作為代入は場合の数を捜し出すことだが重要なのは‘どれだけ’するかということだ。 そこに私たちとの差がある。 囲碁は検索量がとても多い。 jeopardyクイズの場合も、当時特別な事例をデータベース化して入力しておいて質問が出てくれば特定主題を検索するようにした。 

それに反してAlphaGoは汎用システムだ。 もう少し単純な、階層化されたプロセスを使う。 入力された情報を呼び起こすのでなく。 基本的なデータを使用はするが、学習して次の手を予測する。 その差だ。

付け加えようとするならデータがなければならないけれど学習を通じてはじめて進歩する。 人間に比べて学習効率は落ちる。 神経科学話をしたりしているのだが、人間の場合は‘一つを聞けば十が分かる’としようか’。 機械はそうでない。 

ビッグデータに対する質問がきたが、マシンランニングは効果を得ようとするならある程度データが必要だ。 専門家の棋譜を勉強してゲームする過程で学習がなされる。 ところがこうした事がなくとも強化学習を通じて自己学習をして実力を高めることはできる。 

また、イ・セドル9段のパターンに関して言うと、特定棋士のパターンを土台にしなかった。 


質問)AlphaGoも失敗をするのか? 
 
“モンテカルロが無作為接近法なので確率的に失敗の可能性は内在する。 だが、神経網が徹底的に分析するのだが失敗確率は減る。”

質問)形勢を判断するには実利、勢力そして局面皆を読まなければならない。こういうのをどのように統合させたか(どれくらい多様なevaluation functionを使ったか、目的関数をwin probablityに指定したのか、他の方法もあるはずなのだがなぜwin probablityにしたか)? 
 
一つの評価システムを使う。 トレードオフで計算する。 ある特定観点でない、人間が重要だと考えるのではなく、どのようにすれば勝つことができるかを悩むようにした。 AlphaGoは初めに人間がどのように形勢の均衡を探すのか内容を学習して出発して2段階ではチューニングをする。

このように自己試合を通じて均衡を見つけて行くことだ。 イ・セドル9段が対局を行った後これに対してどんな所感を語るのか気になる。 囲碁でアマチュアである私たちが作り出したシステムを世界最高の棋士がどのように評価するのか。 

質問)その他人工知能が大衆的にモンテカルロ方式を使う。 
 
モンテカルロ方式が勝率面で成功的だった件探索と結果を通じて勝利を問い詰めるためだ。 過去このようなシステムが開発された時は前提になった目的は‘勝つこと’だった。 AlphaGoはゲームの‘終わり’でなく対局途中一手一手を評価する事に重点を置く。” 

質問)AlphaGoの訓練期間は何日だったか? 
 
4週間中断なしに100万回の試合を進行した。 普通棋士が1年に1000回の対局をすると仮定する時AlphaGoは人間世界の1000年分経験を積んだわけだ。 

質問)イ・セドル9段に負けると再挑戦するべきだろうか? 
 
もし負けるなら再挑戦を悩む。 勝つならば試合分析をして選手登録も考慮する。 だが、今は近づく対局の準備に気を遣っている。 

質問)どちらが勝つと予想するか? 
 
50対50と見る。 イ・セドル9段も自信があると話したが私たちも自信がある。 
 
原文記事:学習する人工知能、イ・セドルに挑戦状 



関連記事



関連リンク







おすすめ記事セレクション
お知らせコーナー

囲碁4コマ漫画「クロセンシロシ」Kindle版販売中!

クロセンシロシ[Kindle版]

nitro15 2015-12-10
売り上げランキング :
by ヨメレバ


LINE囲碁スタンプ販売中!
250