首頁 > 運動

UCL汪軍教授開課:帶你入坑多智慧體機器學習(免費)!

由 AI 科技評論 發表于 運動2021-07-15

簡介課程將機器學習的研究與博弈論和經濟學的研究相結合,包括博弈論、拍賣理論、演算法機制設計、多智慧體(深度)強化學習等主題,同時還將討論相關的實際應用,包括線上廣告、線上拍賣、生成模型的對抗訓練、機器人規劃,以及玩線上遊戲的智慧體

如何找出純策略納什均衡

人工智慧已經在圍棋、影象識別和語音識別等領域達到甚至超越了人類專家水平,但智慧化的機器離我們仍然很遠。要想實現通用智慧,AI智慧體必須學習如何在共享環境中與「他人」進行互動,由此產生了人工智慧的一個前沿研究領域:多智慧體學習。

很多領域中都存在多智慧體學習的問題,在這些問題中,多個智慧體不僅能與環境相互作用,而且彼此相互作用,由此造成的複雜和多變也為研究帶來了諸多挑戰。多智慧體學習在現實生活中有著廣泛的應用,比如無人機群的控制、倉庫機器人的合作、分散式感測器網路/交通的最佳化、機器競標,等等。

課程介紹

本課程基於倫敦大學學院(UCL)計算機系2020-2021學年度課程Multi-agent Artificial Intelligence (20/21),主要介紹多智慧體機器學習。課程將機器學習的研究與博弈論和經濟學的研究相結合,包括博弈論、拍賣理論、演算法機制設計、多智慧體(深度)強化學習等主題,同時還將討論相關的實際應用,包括線上廣告、線上拍賣、生成模型的對抗訓練、機器人規劃,以及玩線上遊戲的智慧體。

本課程適合計算機科學以及機械和航空工程等專業的本科生、研究生,從事機器學習、多智慧體協同控制等領域的工程技術人員。

本課程完全免費,為英文授課,與UCL授課進度同步,每週五更新。

講師簡介

UCL汪軍教授開課:帶你入坑多智慧體機器學習(免費)!

汪軍,倫敦大學學院(UCL)計算機系教授,阿蘭·圖靈研究所 Turing Fellow,華為諾亞方舟實驗室決策推理首席顧問。主要研究智慧資訊系統,包括機器學習、強化學習、多智慧體,資料探勘、計算廣告學、推薦系統等。已發表了 120 多篇學術論文,出版兩本學術專著,多次獲得最佳論文獎。

課程目錄

一、博弈論基礎介紹

1。1 博弈論的基本概念

1。2 純策略納什均衡

1。3 混合策略納什均衡

1。4 納什均衡的存在性證明

1。5 古諾雙寡頭模型

二、更多博弈形式

2。1 重複博弈(Repeated Games)

2。2 拓展形式的博弈(Extensive-form game)

2。3 位勢博弈(Potential Game)

三、納什均衡

3。1 零和博弈及納什均衡計算

3。2 極大極小博弈(Minmax Game)介紹

3。3 納什均衡的線性規劃解法

3。4 線性互補問題

3。5 Lemke–Howson 演算法求解線性互補問題

四、貝葉斯博弈與拍賣理論

4。1 貝葉斯博弈(Bayesian Game)

4。2 線上拍賣的設定與步驟

4。3 拍賣模式:一口價拍賣與密封式拍賣

4。4 競價策略與納什均衡

五、神經網路與深度學習

5。1 深度學習基礎

5。2 詞嵌入

5。3 深度神經網路層

5。4 卷積神經網路

5。5 迴圈神經網路

5。6 網路資訊檢索

5。7 表徵學習

5。8 深度強化學習

六、基於值函式的單智慧體強化學習

6。1 強化學習基礎

6。2 Model-based 方法:馬爾科夫決策過程,動態規劃求解

6。3 Model-free方法:蒙特卡洛,時序差分,Q-learning

6。4 深度強化學習例項:Atari,Alpha Go

七、多智慧體強化學習(一)

7。1 多智慧體強化學習介紹及基本概念

7。2 值迭代與策略迭代

7。3 均衡學習:納什-Q,Minmax-Q,Friend-Foe-Q

7。4 最佳對策:JAL與對手建模,梯度提升,Wolf-IGA

八、基於策略的單智慧體強化學習

8。1 策略梯度

8。2 策略梯度理論證明

8。3 函式近似

九、多智慧體強化學習(二)

9。1 策略預測的IGA

9。2 動態系統的梯度提升最佳化

9。3 虛擬博弈

9。4 理性學習

9。5 演化博弈論

9。6 複製動態方程

十、多智慧體強化學習(三)

10。1 Emergent behaviours

10。2 智慧體建模

10。3 多智慧體通訊

10。4 多智慧體合作

10。5 Many-agent 學習

Tags:智慧學習納什強化博弈