【人工知能】全くのゼロから独学で囲碁を習得する「アルファ碁ゼロ」
Nature
2017年10月19日
Artificial intelligence: AlphaGo, teach thyself
コンピュータープログラム「アルファ碁」の新バージョンである「アルファ碁ゼロ」は、人間による入力をせず、全くの独学で、古典的な戦略ゲームである囲碁を白紙の状態から急速に習得できることが分かった。その上アルファ碁ゼロは、旧バージョンのアルファ碁(2016年3月に囲碁チャンピオンのイ・セドルを破った)との対局で100戦100勝の成績を挙げた。この新しいコンピュータープログラムについて報告する論文が、今週掲載される。
人工知能の大きな課題の1つは、白紙の状態から難度の高い概念を学習し、超人的な習熟を達成するアルゴリズムを開発することだ。旧バージョンのアルファ碁は、人間の囲碁チャンピオンを負かすため、囲碁の専門家による数百万の指し手を用いた教師付き学習と自己対局(この場合はアルファ碁同士の対局)による強化学習を併用して「訓練」された。アルファ碁の「訓練」は数か月間行われ、複数のコンピューターとニューラルネットワークの「訓練」に特化したチップであるテンソル処理ユニット(TPU)を48個必要とした。
このDavid Silver、Julian Schrittwieser、Karen Simonyan、Demis Hassabisたちの研究グループの論文で紹介されているアルファ碁ゼロは、自己対局のみによって学習するため、最初はランダムな指し手で試合を進め、盤面上の位置と囲碁の石だけを入力データとし、人間によるデータ入力は一切なかった。アルファ碁ゼロは、単一のニューラルネットワークを用いているが、このネットワークは、このプログラム自体が選ぶ指し手と対局の勝者を予測するように「訓練」され、自己対局が繰り返されるたびに性能が向上した。アルファ碁ゼロは、1台のコンピューターと4個のTPUを使用している。
「訓練」が数日間続けられ、約500万回の自己対局をへた時、アルファ碁は、棋士を凌駕し、全ての旧バージョンのアルファ碁との対局に勝利した。そして、「訓練」を受けたアルファ碁ゼロは、人間が数千年をかけて概念化した囲碁の原理のいくつかを独自に発見し、歴史の長い囲碁に新たな知見をもたらす新たな戦略を策定するようになった。
doi: 10.1038/nature24270
注目の論文
-
11月21日
天文学:近くの恒星を周回する若いトランジット惑星が発見されるNature
-
11月18日
惑星科学:嫦娥6号のサンプルが月の裏側の火山活動の年代を特定Nature
-
11月14日
物理学:スマートフォンによる電離層の変化のマッピングNature
-
11月13日
地球科学:2022年のマウナロア火山の噴火を調査するNature Communications
-
11月12日
惑星科学:ボイジャー2号が天王星をフライバイしたのは太陽の異常現象の最中だったNature Astronomy
-
11月8日
惑星科学:火星の岩石堆積物は太古の海の名残かもしれないScientific Reports