注目の論文

【人工知能】全くのゼロから独学で囲碁を習得する「アルファ碁ゼロ」

Nature

2017年10月19日

Artificial intelligence: AlphaGo, teach thyself

コンピュータープログラム「アルファ碁」の新バージョンである「アルファ碁ゼロ」は、人間による入力をせず、全くの独学で、古典的な戦略ゲームである囲碁を白紙の状態から急速に習得できることが分かった。その上アルファ碁ゼロは、旧バージョンのアルファ碁（2016年3月に囲碁チャンピオンのイ・セドルを破った）との対局で100戦100勝の成績を挙げた。この新しいコンピュータープログラムについて報告する論文が、今週掲載される。

人工知能の大きな課題の1つは、白紙の状態から難度の高い概念を学習し、超人的な習熟を達成するアルゴリズムを開発することだ。旧バージョンのアルファ碁は、人間の囲碁チャンピオンを負かすため、囲碁の専門家による数百万の指し手を用いた教師付き学習と自己対局（この場合はアルファ碁同士の対局）による強化学習を併用して「訓練」された。アルファ碁の「訓練」は数か月間行われ、複数のコンピューターとニューラルネットワークの「訓練」に特化したチップであるテンソル処理ユニット（TPU）を48個必要とした。

このDavid Silver、Julian Schrittwieser、Karen Simonyan、Demis Hassabisたちの研究グループの論文で紹介されているアルファ碁ゼロは、自己対局のみによって学習するため、最初はランダムな指し手で試合を進め、盤面上の位置と囲碁の石だけを入力データとし、人間によるデータ入力は一切なかった。アルファ碁ゼロは、単一のニューラルネットワークを用いているが、このネットワークは、このプログラム自体が選ぶ指し手と対局の勝者を予測するように「訓練」され、自己対局が繰り返されるたびに性能が向上した。アルファ碁ゼロは、1台のコンピューターと4個のTPUを使用している。

「訓練」が数日間続けられ、約500万回の自己対局をへた時、アルファ碁は、棋士を凌駕し、全ての旧バージョンのアルファ碁との対局に勝利した。そして、「訓練」を受けたアルファ碁ゼロは、人間が数千年をかけて概念化した囲碁の原理のいくつかを独自に発見し、歴史の長い囲碁に新たな知見をもたらす新たな戦略を策定するようになった。

doi: 10.1038/nature24270

英語の原文

注目の論文

4月10日

コンピューティング：光速で処理するチップNature
4月10日

惑星科学：月の裏側の水の存在量の評価Nature
4月2日

気候変動：南極海の温暖化が熱帯降雨に及ぼす影響Nature Communications
3月27日

天文学：宇宙再電離の初期兆候Nature
3月13日

環境：19世紀後半以降、地中海地域の降水量はほぼ安定しているNature
3月13日

気候科学：記録的な海洋温度が気候モデルに合致するかもしれないNature

「注目の論文」一覧へ戻る

【人工知能】全くのゼロから独学で囲碁を習得する「アルファ碁ゼロ」

Artificial intelligence: AlphaGo, teach thyself

注目の論文

コンピューティング：光速で処理するチップNature

惑星科学：月の裏側の水の存在量の評価Nature

気候変動：南極海の温暖化が熱帯降雨に及ぼす影響Nature Communications

天文学：宇宙再電離の初期兆候Nature

環境：19世紀後半以降、地中海地域の降水量はほぼ安定しているNature

気候科学：記録的な海洋温度が気候モデルに合致するかもしれないNature