首頁 > 藝術

DeepMind證明AlphaZero能模仿人類下象棋，並揭示模型的行為變化

由 DeepTech深科技發表于藝術2023-01-27

簡介概括地講，此項研究的創新點在於提升了研究者對以下幾個方面的理解：模型對人類國際象棋知識概念的編碼、模型在訓練過程中對知識的獲取、利用編碼後的象棋概念對價值函式的新詮釋、AlphaZero 的進化與人類棋手行為之間的比較、AlphaZero

網路管理員工資多少錢一個月

一直以來，遊戲都是驗證 AI 功能的主要方式。為此，科學家不斷尋找能夠對 AI 科學問題進行模擬與測試的遊戲。最終，國際象棋成為 AI 的試驗場。

2017 年，DeepMind 推出了針對棋類遊戲的強化學習演算法 AlphaZero。它可以在沒有人類監督的情況下，自動地從對弈資料中不斷總結經驗、從零開始學習最優的下棋策略，最終探索和設計出新的國際象棋套路。

最近，DeepMind 與谷歌大腦（Google Brain）團隊合作開展了一項研究，回顧了國際象棋作為人工智慧試驗場的作用，並證明了 AlphaZero 網路模型能夠學習國際象棋知識。

該團隊展示出 AlphaZero 模型在訓練過程中獲取象棋知識的準確時間，以及這些知識在模型中的儲存位置。並且，對該模型獲取知識的行為進行了定性的分析。

概括地講，此項研究的創新點在於提升了研究者對以下幾個方面的理解：模型對人類國際象棋知識概念的編碼、模型在訓練過程中對知識的獲取、利用編碼後的象棋概念對價值函式的新詮釋、AlphaZero 的進化與人類棋手行為之間的比較、AlphaZero 物件棋走法傾向的演變、以及對無監督概念學習的原理性驗證。

近日，相關論文以《AlphaZero 對國際象棋知識的獲取》（Acquisition of Chess Knowledge in AlphaZero）為題，發表在

PNAS

上［1］。

DeepMind的人工智慧領域專家托馬斯·麥格拉思（Thomas McGrath）與 Google Brain 人工智慧工程師安德烈·卡拉遜尼考夫（Andrei Kapishnikov）等為論文作者。此外，國際象棋大師弗拉基米爾克拉姆尼克（Vladimir Kramnik）也參與了此專案。

圖丨相關論文（來源：PNAS）

為深入探究 AlphaZero 學習並獲取人類國際象棋概念知識的過程，研究者採用了三種方法。

他們不僅探索了 AlphaZero 模型是否能夠線性解碼人類國際象棋概念，還驗證了在整個訓練過程中 AlphaZero 神經網路的行為變化，並且直接調查了網路架構中的每一層神經元的引數及其啟用情況。

AlphaZero 網路模型模仿人類下象棋

根據論文內容，AlphaZero 網路模型由殘差網路（ResNet）和蒙特卡洛搜尋樹（Monte Carlo Tree Search，MCTS）構成，能夠不斷學習並模仿人類下棋。

ResNet 中包含兩個先後經過批歸一化和線性整流啟用函式的卷積層。而 MCTS 能夠使用神經網路反覆評估棋盤所處狀態，並更新其行為選擇策略。

圖丨AlphaZero 網路結構（來源：PNAS）

首先，AlphaZero 網路模型的輸入為實值向量 z0，該向量是表示象棋的排布方式的函式。z0 中的前 12 個尺寸為 8×8 的通道是二值的，分別編碼了玩家和對手的王、後、車、象、馬和兵的位置（共 6 類棋子，每類棋子雙方各佔 1 個通道，共計 12 個通道）。

後面是 2 個 8×8 的二值通道，表示局面重複次數（採用三次局面重複和棋制）；1 個通道用來表示當前是我方還是對方回合；再加上 4 個通道用來統計雙方能否短易位或者長易位；最後 2 個通道是棋子不可逆移動次數計數器（適用於 50 步限著規則）和棋子總移動次數計數器。

輸出函式 p，v=fθ（z0）是模型的輸出，從訓練資料中學習從而能夠預測到的兩個量：即從當前棋盤狀態預測對弈的預期結果 v，以及下一步各個棋子移動的機率分佈 p。這兩個量都能夠在 MCTS 中被搜尋到，並被稱為“價值頭”和“策略頭”。

AlphaZero 模型的訓練過程如下：

首先，讓模型自我對弈一定次數，並根據每次對弈的結果，給之前的每一步棋打上“導致勝”或者“導致負”的標籤，這就產生了一定量的訓練資料；然後，儲存並複製上一步的模型，利用上一步的資料對複製的模型進行訓練最佳化；

接著，在訓練得到的模型與先前儲存的模型之間進行對弈，只保留勝利者進入下一輪更新迭代；最後，重複進行第一步。

總之，AlphaZero 模型能夠利用反覆自我對弈時產生的資料，並不斷訓練學習，進而生成新的、更強的模型。

驗證 AlphaZero 模型的可行性

接下來，研究者採用“稀疏線性探測法”確定 AlphaZero 網路能夠展現人類象棋觀念的程度與範圍。不僅如此，他們還尋找出該探測方法的侷限性，並探索了未來的研究方向。

圖丨What-When-Where 圖用於測試 AlphaZero 的下棋水平（來源：PNAS）

為驗證 AlphaZero 的效能，研究團隊還抽取十萬盤遊戲對 AlphaZero 的下棋水平進行測試。結果表明，當下棋的步數與神經網路模型中的模組數增加時，AlphaZero 獲得的分數也在逐漸上升。

圖丨迴歸殘差模式的證據（來源：PNAS）

由於實驗中出現了殘差（實際觀察值與估計值之間的差），研究者根據散點的分佈分析殘差出現的原因和具體位置。

圖 | AlphaZero 和人類下棋步驟比較（來源：PNAS）

最後，研究者對比分析了 AlphaZero 下國際象棋和人類下棋模式的演變與進展。結果表明，隨著時間推移，AlphaZero 下棋路徑選擇範圍在縮小，而人類下棋路數隨著歷史逐漸增加。

總地來說，該論文詳細描述了 AlphaZero 神經網路從最初開始訓練下棋到訓練結束的全部流程。

論文作者透過實驗驗證了該神經網路中出現了人類的國際象棋概念，並發現了每個步驟的具體訓練時間與運算位置。該研究為科學家探索 AI 模仿人類行為的規律提供了一定的理論支撐。

支援：王貝貝

參考資料：

1。Thomas McGrath，Andrei Kapishnikov，Nenad Tomaev，Adam Pearce，Demis Hassabis，Been Kim，Ulrich Paquet，Vladimir Kramnik。

PNAS。

（2022）https：//www。pnas。org/doi/10。1073/pnas。2206625119

https：//twitter。com/weballergy/status/1461281358324588544

Tags：AlphaZero 模型國際象棋下棋 PNAS

上一篇：給女性的冬季穿衣建議：多穿基礎色調的單品，百搭實用不挑人

下一篇：楊冪為何不願意公開小糯米照片？看到真實模樣後，網友：難怪！

首頁 > 藝術

DeepMind證明AlphaZero能模仿人類下象棋，並揭示模型的行為變化

相關文章

推薦文章