首頁 > 遊戲

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

由 Getty的科技視界 發表于 遊戲2023-02-01

簡介(Bengio et al 2013)需要線索(=歸納偏差)來幫助理清潛在因素及其依賴性,例如:空間和時間尺度要素之間的依賴關係簡單稀疏(意識優先)因果機制獨立性(可控變數=干預)多個時空尺度(粗略的高層因素解釋了較低層的細節)繞過維度的

幻獸愛合成怎麼獲得蛋

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

2018 年圖靈獎獲得者、AI 先驅、深度學習三巨頭之一、對抗生成網路 GAN、標誌性的銀灰捲髮和濃眉,如果還沒猜到的話,當你看到這個封面,一定就會意識到自己在學習的路上,已經或間接或直接地拜讀過大佬的著作了。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

看到花書的封面,和前面的關鍵詞,也許你會意識到,他就是——Yoshua Bengio。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

從下面這個記錄可以看出,他的著作在谷歌學術上的引用量也是一騎絕塵。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

就在這兩天的 NeurIPS 2022 New in ML Workshop 上,Yoshua Bengio 做了一個 Live Talk,介紹了自己從本科畢業開始,一直到現在的人生之路。

連結

https://nehzux。github。io/NewInML2022NeurIPS/assets/YoshuaBengio-NewInML-NeurIPS-28nov2022。pdf

接下來,就是Bengio在大會上親口講述“自己一生”的故事。

從最初本科畢業時的“廣度優先搜尋”,瞭解到 Hinton 的連線主義, 到探索人腦、初代語言模型、注意力機制等等,以及度過人工智慧寒冬,再到現在探索抽象、生成流網路、Ai4Science、HLAI(人類級別智慧)、意識先驗、System-2、因果推斷、元學習、模組化等重要且新穎的領域。Yoshua Bengio 回顧了自己的科研生涯,他說“Staying Humble”。

愛上一個研究方向

一開始,Yoshua 講述了“他是如何愛上一個研究方向”。

1985 - 1986 年,他剛讀完本科,思索自己下一步要做什麼,閱讀了大量不同領域的論文,將視線聚焦於神經網路研究,尤其是 Geoff Hinton 和 David Rumelhart 等其他早期連線主義者的論文。

1986 - 1988 年,Yoshua 進一步閱讀玻爾茲曼機,實現音素分類,完成了關於語音識別的玻爾茲曼機的碩士論文,而後當了解到反向傳播時,對它感到興奮,並開始使用它,在之後參加了 1988 年連線主義的暑期學校,遇到了許多其他充滿熱情的研究生和研究人員們。

1988-1991 年,Yoshua 完成了關於神經網路(RNNs 和 ConvNets)和 HMM 混合的博士論文。

神經網路與人工智慧

隨後,Yoshua 闡述了自己的工作中對於神經網路與 AI 的理解。從一個令人興奮的先驗知識出發,他指出,透過學習,智慧(機器、人類或動物)的產生是有一些原則的,這些原則非常簡單,可以被簡潔地描述出來,類似於物理定律,也就是說,我們的智慧不只是一堆技巧和知識的結果,而是獲取知識的一般機制。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

他還辨析了傳統 AI 和機器學習的要點,提到了人工智慧的機器學習方法:

經典的 AI 一般是

基於規則、基於符號

的:其知識由人類提供,但直覺知識是不可傳播的,機器只做推理工作,

沒有很強的學習和適應能力,對不確定性的處理能力不足

而機器學習則試圖解決這些問題:在很大程度上取得了成功,但更高層次的(有意識的)認知尚未實現。

而後 Yoshua 從維度詛咒和分散式表示(指數級優勢)這兩個細節出發,強調了

促使 ML 向 AI 轉變

的五個關鍵因素:

海量&海量的資料;

非常靈活的模型;

足夠的算力;

計算效率推斷;

強大的先驗知識,可以打破“維度詛咒”,實現對新情況的強泛化。

他還提到了腦啟發(Brain-inspired),以及如下特性:

大量簡單自適應計算單元的協同作用;

關注分散式表示(如單詞表示);

視智慧為結合的產物(近似最佳化器、初始架構/引數化);

端到端學習

長期依賴和梯度下降

緊接著,Yoshua 回顧了機器學習 101 課程的要點:

函式族;

可調引數;

從未知資料中抽樣的例子產生分佈;

對經過訓練的函式所產生的誤差的度量;

近似最小化演算法搜尋最佳引數選擇,迭代減少平均訓練誤差

又引出了他們自己 1994 年的工作

“Learning Long-Term Dependencies with Gradient Descent is Difficult”

,並強調了他的經驗:

負面結果可能非常重要,它教會了我們一些東西,推動了許多下游研究

,比如 2014 年關於自注意力機制的工作。

接下來他展開介紹了這項工作:

如何儲存 1 bit?在某些維度上有多個引力盆地的動力學

如果動力系統在某些維度上有多個吸引域,則狀態的某些子空間可以儲存 1 bit 或多個 bit 資訊。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

在有界噪聲存在的情況下穩健地儲存 1 bit:

光譜半徑 > 1,噪聲可以踢出吸引子的狀態(不穩定);

而當半徑 < 1時就不是這樣了(收縮→穩定)。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

可靠地儲存→消失的梯度

可靠地儲存位元資訊需要譜半徑 < 1

譜半徑 < 1的 T 個矩陣的乘積是一個矩陣,其譜半徑在 T 上以指數速度收斂於 0。

如果 Jacobian 矩陣的譜半徑 < 1 →傳播梯度消失

為什麼它會損害基於梯度的學習?

與短期依賴關係相比,長期依賴關係得到的權重是指數級小的(以 T 為單位)。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

當譜半徑 < 1時,時間差越長,譜半徑越小。

深度學習:學習內部表徵

深度學習並不像其他機器學習方法:

沒有中間表示(線性)

或固定的(通常是非常高維的)中間表示(支援向量機、核心機)

那麼什麼是好的表徵形式呢?——

使其他或下游任務更容易

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

語言模型 LM

於是 Yoshua 又回顧了他們 2003 年的經典工作《A Neural Probabilistic Language Model》,這是

首次用神經網路來解決語言模型的問題

,也為後來深度學習在解決語言模型問題甚至很多別的 NLP 問題時,奠定了堅實的基礎(比如之後 word2vec 的提出)。

每個詞由一個分散式連續值程式碼向量表示=嵌入;

跨n-gram(單詞元組)共享;

泛化到語義上與訓練序列相似的單詞序列

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

為什麼要設定多層(multiple layer)?——世界是可構成的

具有不斷增加的抽象級別的表示層次;

每個階段都是一種可訓練的特徵變換。

影象識別

:畫素→邊緣→文字→主題→零件→物體;

文字

:文字→單詞→片語→從句→句子→故事;

語音

:樣本→譜帶→聲音→……→電話→音素→單。詞

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

隨著深度學習的不斷髮展,不止 NLP 領域,語音和影象也邁出了重要一步:

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

▲2010-2012 年:語音識別領域取得突破

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

▲ImageNet 在 2012 年取得突破

但其實 1996-2012 年也是神經網路的寒冬:

AI 研究失去了達到人類智慧水平的雄心

關注“更簡單”(更容易分析)的機器學習

很難說服研究生進行神經網路的研究

需要堅持下去

,但也要處理一些棘手的問題:

遵循直覺

但嘗試透過實驗或數學方法驗證

理清思路以澄清問題,提出“為什麼”問題,試著去

理解

支援小組的重要性(CIFAR計劃)

生成對抗網路 GAN

自 2010 年以來,Yoshua 關於生成式深度學習的論文,尤其是和 Ian Goodfellow 共同研究的生成性對抗網路(GAN),這篇經典之作更是

引發了計算機視覺和圖形學領域的深刻革命

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

GAN 以其優越的效能,在短短兩年時間裡,迅速成為人工智慧的一大研究熱點,也將多個數據集的結果刷至新高。

Attention 機制的“革命”

對一個輸入序列或影象,透過設定權重或每個輸入位置的機率,正如 MLP 中所產生的那樣,運用到每一個位置。Attention 在在翻譯、語音、影象、影片和儲存中的應用非常廣泛,也具有以下的特點/優點:

一次只關注一個或幾個元素;

根據具體情況,瞭解該讓哪參與進來;

能對無序set操作;

是 NLP 中的 SOTA,為 Transformer 的提出奠定基礎;

在 RNN 中繞過學習長期依賴的問題

!!

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

強化學習

深度強化學習在 2016 年初露頭角,取得巨大突破:

AlphaGo 以 4-1 擊敗世界冠軍李世石;

人工智慧和圍棋專家沒有預料到;

將深度學習與強化學習相結合。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

深度學習的生物學突破

除了在計算機領域的成就以外,深度學習也在生物學領域取得重要突破,英國《Nature》雜誌在 2021 年發表了一項結構生物學最新研究,人工智慧公司 DeepMind 的神經網路 Alphafold 2 ,利用

注意力圖神經網路

,預測的蛋白質結構能達到原子水平的準確度,這也為生命科學領域帶來革命性影響。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

心得分享

保持謙遜

最好別想獎項、獎品和認可

:這些都是危險的干擾!

自負

會使我們盲目,使我們過度自信,是科學發現的

敵人

損害我們靈活思考的能力,質疑我們認為理所當然的東西,傾聽別人不同意我們的觀點的能力

多次改變主意

:2005 年有監督 vs 無監督,2022 年頻率論 vs 貝葉斯。

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

學習更高層次的抽象

(Bengio & LeCun 2007)

深度學習的最大回報是允許

學習更高層次的抽象

更高層次的抽象:

將解釋變數和它們的因果機制分離開

,這將使得更容易的泛化和轉移到新的任務上去。

如何發現好的解耦表徵

如何發現抽象?

什麼是好的表現形式?(Bengio et al 2013)

需要線索(=歸納偏差)來幫助理清

潛在因素及其依賴性

,例如:

空間和時間尺度

要素之間的依賴關係簡單稀疏(意識優先)

因果/機制獨立性(可控變數=干預)

多個時空尺度(粗略的高層因素解釋了較低層的細節)

繞過維度的詛咒

我們需要在機器學習模型中構建組合性,就像人類語言利用組合性為複雜的思想賦予表徵和意義一樣。

利用組合性:在指代能力上獲得指數級的增長;

分散式表示/嵌入:特徵學習;

當前的深度架構:多層次的特徵學習;

系統 2 深度學習:一次編寫幾個概念;

先驗假設(Priori):組合性有助於有效地描述我們周圍的世界

如何發現好的解耦表徵

如何發現抽象?

什麼是好的表現形式?(Bengio et al 2013)

需要線索(=歸納偏差)來幫助理清

潛在因素及其依賴性

,例如:

空間和時間尺度

要素之間的依賴關係簡單稀疏(意識優先)

因果/機制獨立性(可控變數=干預)

多個時空尺度(粗略的高層因素解釋了較低層的細節)

繞過維度的詛咒

我們需要在機器學習模型中構建組合性,就像人類語言利用組合性為複雜的思想賦予表徵和意義一樣。

利用組合性:在指代能力上獲得指數級的增長;

分散式表示/嵌入:特徵學習;

當前的深度架構:多層次的特徵學習;

系統 2 深度學習:一次編寫幾個概念;

先驗假設(Priori):組合性有助於有效地描述我們周圍的世界

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

深度學習目標:發現因果表徵

Yoshua 之前也研究過一段時間的因果,這裡他也發表了與此相關的一些看法。

我們需要了解這些問題:

正確的表述是什麼?解釋資料的因果變數

如何發現它們(作為觀測資料的函式)?

如何發現他們的因果關係、因果圖?

行動如何與因果乾預相對應?

原始感官資料如何與高層因果變數相關?高層因果變數如何轉化為低層行為和區域性觀察?

需要額外的偏見:因果關係是關於分佈的變化

當前機器學習的缺失

超越訓練分佈的理解與泛化;

學習理論只處理同一分佈內的泛化;

模型學習但不能很好地泛化(或在適應時具有高樣本複雜性)修改後的分佈、非平穩性等。

知識重用性差、模組化差

要超越訓練分佈的泛化

由於效能不佳的 OOD,目前工業強度的機器學習存在魯棒性問題;

如果沒有

獨立同分布(iid)

,需要替代假設,否則沒有理由期望泛化;

分佈如何變化?

人類做得更好!

來自大腦的歸納偏見?

人類如何重用知識?

系統泛化

根據之前的一些工作,將這種能力總結如下:

學過語言學;

動態重組現有概念

即使新組合在訓練分佈下的機率為 0:

例如:科幻小說場景

例:在一個陌生的城市開車

目前的深度學習不太成功,它可能會“過擬合”訓練

分佈

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響

SOTA AI 和人類水平智力之間的差距

其主要的差距有:

樣本複雜度:學習一項任務所需的樣本數量;

非分佈泛化;

適應的非分佈速度(遷移學習);

因果發現和推理;

複合知識表示和推理

造成差距的唯一原因:有意識的處理?

假設:這種差距源於一種與人類意識處理相關的

計算、知識表示和推理

,但在人工智慧中

尚未掌握

有意識的處理幫助人類處理 OOD 設定

面對新奇或罕見的情況,人類總是有意識的注意力,迅速結合適當的知識片段,對它們推理,並設想解決方案。

我們不遵循我們的慣例,在新奇的環境中使用有意識的思維。

系統 1 和系統 2 的認知——2個系統(以及認知任務的類別):

系統 1

直覺、快速、無意識、一步並行、非語言、習慣性;

隱性知識;

當前 DL

系統 2

緩慢的、有邏輯的、順序的、有意識的;

語言,演算法,計劃,推理;

明確的知識;

DL 2。0

從推理到 OOD 泛化

目前工業級別的機器學習(包括 NLP)由於糟糕的 OOD 效能而遭受魯棒性問題;

人類使用更高層次的認知(系統 2)進行非分佈泛化;

為什麼有幫助,如何有幫助?

這與代理、因果關係有什麼關係?

我們如何在深度學習中結合這些原則來獲得系統 1 和系統 2 的深度學習?

將知識分解成可組合的片段進行推理

目前的深度學習:同質架構、知識沒有本地化、完全分散式;

遷移學習

:重用相關的知識片段,最大限度地減少干擾,最大化重用;

系統 2 推理選擇和組合可命名的知識片段,形成思想

(想象的未來、反事實的過去、問題的解決方案、輸入的解釋等)。

如何將

知識分解

成正確的可重組片段?

遷移到修正分佈:超越 iid 假設

iid 假設太強→分佈外泛化能力差;

寬鬆的假設:相同的因果動力學,不同的狀態/干預

因果關係作為 OOD 泛化、遷移學習、持續學習等的框架:

非平穩知識(變數值)的因子平穩知識(因果機制);

干預=變數的改變,不僅僅是由於預設的因果連結,而是由於代理;

因果模型=分佈族(包括任務);

這些分佈的指標是干預措施的選擇(或初始狀態);

固定知識被分解成

可重組的因果機制

為什麼需要因果?

因果模型=透過干預/環境/初始狀態等與共享引數(機制)索引的分佈族

學習者必須預測干預措施的效果,需要解決 Out-Of-Distribution(OOD)=新的干預措施;

干預=完美實現代理的抽象動作;

更現實:實現抽象變數變化的意圖=目標;

與多工和元學習不同,不是學習特定於任務或環境的引數,而是對干預進行推斷

Yoshua 團隊今年在因果領域研究也有著一個研究成果——作為機率推理機的大型深度網路:

總結

最後,Yoshua 也表達了自己的願景:

讓機器學習走出實驗室,走入社會

機器學習不再只是一個研究問題

基於機器學習的產品正在設計和部署中

而這也是人工智慧科學家、工程師、企業家和政府的共同的新責任。

而 AI 也是一個強大的工具,要重點關注它的:

雙重用途;

智慧競賽:技術進步 vs 智慧進步;

如何最大化其有益的使用,以及減少其誤用

同時,一切事物都像雙刃劍,AI 也不例,我們也應當

避免一些對於社會的負面影響

控制人們思想的 Big Brother 和殺手機器人;

失業人士的痛苦來源,至少在過渡轉型時期是這樣;

來自廣告和社交媒體的操縱;

強化社會偏見和歧視;

使得不平等加劇,權力集中在少數人、公司和國家。

本文來自微信公眾號:夕小瑤的賣萌屋

Tags:學習因果泛化Yoshua深度