首頁 > 藝術

DeepMind證明AlphaZero能模仿人類下象棋,並揭示模型的行為變化

由 DeepTech深科技 發表于 藝術2023-01-27

簡介概括地講,此項研究的創新點在於提升了研究者對以下幾個方面的理解:模型對人類國際象棋知識概念的編碼、模型在訓練過程中對知識的獲取、利用編碼後的象棋概念對價值函式的新詮釋、AlphaZero 的進化與人類棋手行為之間的比較、AlphaZero

網路管理員工資多少錢一個月

一直以來,遊戲都是驗證 AI 功能的主要方式。為此,科學家不斷尋找能夠對 AI 科學問題進行模擬與測試的遊戲。最終,國際象棋成為 AI 的試驗場。

2017 年,DeepMind 推出了針對棋類遊戲的強化學習演算法 AlphaZero。它可以在沒有人類監督的情況下,自動地從對弈資料中不斷總結經驗、從零開始學習最優的下棋策略,最終探索和設計出新的國際象棋套路。

最近,DeepMind 與谷歌大腦(Google Brain)團隊合作開展了一項研究,回顧了國際象棋作為人工智慧試驗場的作用,並證明了 AlphaZero 網路模型能夠學習國際象棋知識。

該團隊展示出 AlphaZero 模型在訓練過程中獲取象棋知識的準確時間,以及這些知識在模型中的儲存位置。並且,對該模型獲取知識的行為進行了定性的分析。

概括地講,此項研究的創新點在於提升了研究者對以下幾個方面的理解:模型對人類國際象棋知識概念的編碼、模型在訓練過程中對知識的獲取、利用編碼後的象棋概念對價值函式的新詮釋、AlphaZero 的進化與人類棋手行為之間的比較、AlphaZero 物件棋走法傾向的演變、以及對無監督概念學習的原理性驗證。

近日,相關論文以《AlphaZero 對國際象棋知識的獲取》(Acquisition of Chess Knowledge in AlphaZero)為題,發表在

PNAS

上[1]。

DeepMind的人工智慧領域專家托馬斯·麥格拉思(Thomas McGrath)與 Google Brain 人工智慧工程師安德烈·卡拉遜尼考夫(Andrei Kapishnikov)等為論文作者。此外,國際象棋大師弗拉基米爾克拉姆尼克(Vladimir Kramnik)也參與了此專案。

DeepMind證明AlphaZero能模仿人類下象棋,並揭示模型的行為變化

圖丨相關論文(來源:PNAS)

為深入探究 AlphaZero 學習並獲取人類國際象棋概念知識的過程,研究者採用了三種方法。

他們不僅探索了 AlphaZero 模型是否能夠線性解碼人類國際象棋概念,還驗證了在整個訓練過程中 AlphaZero 神經網路的行為變化,並且直接調查了網路架構中的每一層神經元的引數及其啟用情況。

DeepMind證明AlphaZero能模仿人類下象棋,並揭示模型的行為變化

AlphaZero 網路模型模仿人類下象棋

根據論文內容,AlphaZero 網路模型由殘差網路(ResNet)和蒙特卡洛搜尋樹(Monte Carlo Tree Search,MCTS)構成,能夠不斷學習並模仿人類下棋。

ResNet 中包含兩個先後經過批歸一化和線性整流啟用函式的卷積層。而 MCTS 能夠使用神經網路反覆評估棋盤所處狀態,並更新其行為選擇策略。

DeepMind證明AlphaZero能模仿人類下象棋,並揭示模型的行為變化

圖丨AlphaZero 網路結構(來源:PNAS)

首先,AlphaZero 網路模型的輸入為實值向量 z0,該向量是表示象棋的排布方式的函式。z0 中的前 12 個尺寸為 8×8 的通道是二值的,分別編碼了玩家和對手的王、後、車、象、馬和兵的位置(共 6 類棋子,每類棋子雙方各佔 1 個通道,共計 12 個通道)。

後面是 2 個 8×8 的二值通道,表示局面重複次數(採用三次局面重複和棋制);1 個通道用來表示當前是我方還是對方回合;再加上 4 個通道用來統計雙方能否短易位或者長易位;最後 2 個通道是棋子不可逆移動次數計數器(適用於 50 步限著規則)和棋子總移動次數計數器。

輸出函式 p,v=fθ(z0)是模型的輸出,從訓練資料中學習從而能夠預測到的兩個量:即從當前棋盤狀態預測對弈的預期結果 v,以及下一步各個棋子移動的機率分佈 p。這兩個量都能夠在 MCTS 中被搜尋到,並被稱為“價值頭”和“策略頭”。

AlphaZero 模型的訓練過程如下:

首先,讓模型自我對弈一定次數,並根據每次對弈的結果,給之前的每一步棋打上“導致勝”或者“導致負”的標籤,這就產生了一定量的訓練資料;然後,儲存並複製上一步的模型,利用上一步的資料對複製的模型進行訓練最佳化;

接著,在訓練得到的模型與先前儲存的模型之間進行對弈,只保留勝利者進入下一輪更新迭代;最後,重複進行第一步。

總之,AlphaZero 模型能夠利用反覆自我對弈時產生的資料,並不斷訓練學習,進而生成新的、更強的模型。

DeepMind證明AlphaZero能模仿人類下象棋,並揭示模型的行為變化

驗證 AlphaZero 模型的可行性

接下來,研究者採用“稀疏線性探測法”確定 AlphaZero 網路能夠展現人類象棋觀念的程度與範圍。不僅如此,他們還尋找出該探測方法的侷限性,並探索了未來的研究方向。

DeepMind證明AlphaZero能模仿人類下象棋,並揭示模型的行為變化

圖丨What-When-Where 圖用於測試 AlphaZero 的下棋水平(來源:PNAS)

為驗證 AlphaZero 的效能,研究團隊還抽取十萬盤遊戲對 AlphaZero 的下棋水平進行測試。結果表明,當下棋的步數與神經網路模型中的模組數增加時,AlphaZero 獲得的分數也在逐漸上升。

DeepMind證明AlphaZero能模仿人類下象棋,並揭示模型的行為變化

圖丨迴歸殘差模式的證據(來源:PNAS)

由於實驗中出現了殘差(實際觀察值與估計值之間的差),研究者根據散點的分佈分析殘差出現的原因和具體位置。

DeepMind證明AlphaZero能模仿人類下象棋,並揭示模型的行為變化

圖 | AlphaZero 和人類下棋步驟比較(來源:PNAS)

最後,研究者對比分析了 AlphaZero 下國際象棋和人類下棋模式的演變與進展。結果表明,隨著時間推移,AlphaZero 下棋路徑選擇範圍在縮小,而人類下棋路數隨著歷史逐漸增加。

總地來說,該論文詳細描述了 AlphaZero 神經網路從最初開始訓練下棋到訓練結束的全部流程。

論文作者透過實驗驗證了該神經網路中出現了人類的國際象棋概念,並發現了每個步驟的具體訓練時間與運算位置。該研究為科學家探索 AI 模仿人類行為的規律提供了一定的理論支撐。

支援:王貝貝

參考資料:

1。Thomas McGrath,Andrei Kapishnikov,Nenad Tomaev,Adam Pearce,Demis Hassabis,Been Kim,Ulrich Paquet,Vladimir Kramnik。

PNAS。

(2022)https://www。pnas。org/doi/10。1073/pnas。2206625119

https://twitter。com/weballergy/status/1461281358324588544

Tags:AlphaZero模型國際象棋下棋PNAS