首頁 > 遊戲

圖靈獎得主Yoshua Bengio：應當避免一些AI對於社會的負面影響

由 Getty的科技視界發表于遊戲2023-02-01

簡介（Bengio et al 2013）需要線索（=歸納偏差）來幫助理清潛在因素及其依賴性，例如：空間和時間尺度要素之間的依賴關係簡單稀疏（意識優先）因果機制獨立性（可控變數=干預）多個時空尺度（粗略的高層因素解釋了較低層的細節）繞過維度的

幻獸愛合成怎麼獲得蛋

2018 年圖靈獎獲得者、AI 先驅、深度學習三巨頭之一、對抗生成網路 GAN、標誌性的銀灰捲髮和濃眉，如果還沒猜到的話，當你看到這個封面，一定就會意識到自己在學習的路上，已經或間接或直接地拜讀過大佬的著作了。

看到花書的封面，和前面的關鍵詞，也許你會意識到，他就是——Yoshua Bengio。

從下面這個記錄可以看出，他的著作在谷歌學術上的引用量也是一騎絕塵。

就在這兩天的 NeurIPS 2022 New in ML Workshop 上，Yoshua Bengio 做了一個 Live Talk，介紹了自己從本科畢業開始，一直到現在的人生之路。

連結

：

https：//nehzux。github。io/NewInML2022NeurIPS/assets/YoshuaBengio-NewInML-NeurIPS-28nov2022。pdf

接下來，就是Bengio在大會上親口講述“自己一生”的故事。

從最初本科畢業時的“廣度優先搜尋”，瞭解到 Hinton 的連線主義，到探索人腦、初代語言模型、注意力機制等等，以及度過人工智慧寒冬，再到現在探索抽象、生成流網路、Ai4Science、HLAI（人類級別智慧）、意識先驗、System-2、因果推斷、元學習、模組化等重要且新穎的領域。Yoshua Bengio 回顧了自己的科研生涯，他說“Staying Humble”。

愛上一個研究方向

一開始，Yoshua 講述了“他是如何愛上一個研究方向”。

1985 - 1986 年，他剛讀完本科，思索自己下一步要做什麼，閱讀了大量不同領域的論文，將視線聚焦於神經網路研究，尤其是 Geoff Hinton 和 David Rumelhart 等其他早期連線主義者的論文。

1986 - 1988 年，Yoshua 進一步閱讀玻爾茲曼機，實現音素分類，完成了關於語音識別的玻爾茲曼機的碩士論文，而後當了解到反向傳播時，對它感到興奮，並開始使用它，在之後參加了 1988 年連線主義的暑期學校，遇到了許多其他充滿熱情的研究生和研究人員們。

1988-1991 年，Yoshua 完成了關於神經網路（RNNs 和 ConvNets）和 HMM 混合的博士論文。

神經網路與人工智慧

隨後，Yoshua 闡述了自己的工作中對於神經網路與 AI 的理解。從一個令人興奮的先驗知識出發，他指出，透過學習，智慧（機器、人類或動物）的產生是有一些原則的，這些原則非常簡單，可以被簡潔地描述出來，類似於物理定律，也就是說，我們的智慧不只是一堆技巧和知識的結果，而是獲取知識的一般機制。

他還辨析了傳統 AI 和機器學習的要點，提到了人工智慧的機器學習方法：

經典的 AI 一般是

基於規則、基於符號

的：其知識由人類提供，但直覺知識是不可傳播的，機器只做推理工作，

沒有很強的學習和適應能力，對不確定性的處理能力不足

。

而機器學習則試圖解決這些問題：在很大程度上取得了成功，但更高層次的（有意識的）認知尚未實現。

而後 Yoshua 從維度詛咒和分散式表示（指數級優勢）這兩個細節出發，強調了

促使 ML 向 AI 轉變

的五個關鍵因素：

海量&海量的資料；

非常靈活的模型；

足夠的算力；

計算效率推斷；

強大的先驗知識，可以打破“維度詛咒”，實現對新情況的強泛化。

他還提到了腦啟發（Brain-inspired），以及如下特性：

大量簡單自適應計算單元的協同作用；

關注分散式表示（如單詞表示）；

視智慧為結合的產物（近似最佳化器、初始架構/引數化）；

端到端學習

長期依賴和梯度下降

緊接著，Yoshua 回顧了機器學習 101 課程的要點：

函式族；

可調引數；

從未知資料中抽樣的例子產生分佈；

對經過訓練的函式所產生的誤差的度量；

近似最小化演算法搜尋最佳引數選擇，迭代減少平均訓練誤差

又引出了他們自己 1994 年的工作

“Learning Long-Term Dependencies with Gradient Descent is Difficult”

，並強調了他的經驗：

負面結果可能非常重要，它教會了我們一些東西，推動了許多下游研究

，比如 2014 年關於自注意力機制的工作。

接下來他展開介紹了這項工作：

如何儲存 1 bit？在某些維度上有多個引力盆地的動力學

如果動力系統在某些維度上有多個吸引域，則狀態的某些子空間可以儲存 1 bit 或多個 bit 資訊。

在有界噪聲存在的情況下穩健地儲存 1 bit：

光譜半徑 > 1，噪聲可以踢出吸引子的狀態（不穩定）；

而當半徑 < 1時就不是這樣了（收縮→穩定）。

可靠地儲存→消失的梯度

可靠地儲存位元資訊需要譜半徑 < 1

譜半徑 < 1的 T 個矩陣的乘積是一個矩陣，其譜半徑在 T 上以指數速度收斂於 0。

如果 Jacobian 矩陣的譜半徑 < 1 →傳播梯度消失

為什麼它會損害基於梯度的學習？

與短期依賴關係相比，長期依賴關係得到的權重是指數級小的（以 T 為單位）。

當譜半徑 < 1時，時間差越長，譜半徑越小。

深度學習：學習內部表徵

深度學習並不像其他機器學習方法：

沒有中間表示（線性）

或固定的（通常是非常高維的）中間表示（支援向量機、核心機）

那麼什麼是好的表徵形式呢？——

使其他或下游任務更容易

。

語言模型 LM

於是 Yoshua 又回顧了他們 2003 年的經典工作《A Neural Probabilistic Language Model》，這是

首次用神經網路來解決語言模型的問題

，也為後來深度學習在解決語言模型問題甚至很多別的 NLP 問題時，奠定了堅實的基礎（比如之後 word2vec 的提出）。

每個詞由一個分散式連續值程式碼向量表示=嵌入；

跨n-gram（單詞元組）共享；

泛化到語義上與訓練序列相似的單詞序列

為什麼要設定多層（multiple layer）？——世界是可構成的

具有不斷增加的抽象級別的表示層次；

每個階段都是一種可訓練的特徵變換。

影象識別

：畫素→邊緣→文字→主題→零件→物體；

文字

：文字→單詞→片語→從句→句子→故事；

語音

：樣本→譜帶→聲音→……→電話→音素→單。詞

隨著深度學習的不斷髮展，不止 NLP 領域，語音和影象也邁出了重要一步：

▲2010-2012 年：語音識別領域取得突破

▲ImageNet 在 2012 年取得突破

但其實 1996-2012 年也是神經網路的寒冬：

AI 研究失去了達到人類智慧水平的雄心

關注“更簡單”（更容易分析）的機器學習

很難說服研究生進行神經網路的研究

這

需要堅持下去

，但也要處理一些棘手的問題：

遵循直覺

但嘗試透過實驗或數學方法驗證

理清思路以澄清問題，提出“為什麼”問題，試著去

理解

支援小組的重要性（CIFAR計劃）

生成對抗網路 GAN

自 2010 年以來，Yoshua 關於生成式深度學習的論文，尤其是和 Ian Goodfellow 共同研究的生成性對抗網路（GAN），這篇經典之作更是

引發了計算機視覺和圖形學領域的深刻革命

。

GAN 以其優越的效能，在短短兩年時間裡，迅速成為人工智慧的一大研究熱點，也將多個數據集的結果刷至新高。

Attention 機制的“革命”

對一個輸入序列或影象，透過設定權重或每個輸入位置的機率，正如 MLP 中所產生的那樣，運用到每一個位置。Attention 在在翻譯、語音、影象、影片和儲存中的應用非常廣泛，也具有以下的特點/優點：

一次只關注一個或幾個元素；

根據具體情況，瞭解該讓哪參與進來；

能對無序set操作；

是 NLP 中的 SOTA，為 Transformer 的提出奠定基礎；

在 RNN 中繞過學習長期依賴的問題

！！

強化學習

深度強化學習在 2016 年初露頭角，取得巨大突破：

AlphaGo 以 4-1 擊敗世界冠軍李世石；

人工智慧和圍棋專家沒有預料到；

將深度學習與強化學習相結合。

深度學習的生物學突破

除了在計算機領域的成就以外，深度學習也在生物學領域取得重要突破，英國《Nature》雜誌在 2021 年發表了一項結構生物學最新研究，人工智慧公司 DeepMind 的神經網路 Alphafold 2 ，利用

注意力圖神經網路

，預測的蛋白質結構能達到原子水平的準確度，這也為生命科學領域帶來革命性影響。

心得分享

保持謙遜

最好別想獎項、獎品和認可

：這些都是危險的干擾！

自負

會使我們盲目，使我們過度自信，是科學發現的

敵人

損害我們靈活思考的能力，質疑我們認為理所當然的東西，傾聽別人不同意我們的觀點的能力

我

多次改變主意

：2005 年有監督 vs 無監督，2022 年頻率論 vs 貝葉斯。

學習更高層次的抽象

（Bengio & LeCun 2007）

深度學習的最大回報是允許

學習更高層次的抽象

。

更高層次的抽象：

將解釋變數和它們的因果機制分離開

，這將使得更容易的泛化和轉移到新的任務上去。

如何發現好的解耦表徵

如何發現抽象？

什麼是好的表現形式？（Bengio et al 2013）

需要線索（=歸納偏差）來幫助理清

潛在因素及其依賴性

，例如：

空間和時間尺度

要素之間的依賴關係簡單稀疏（意識優先）

因果/機制獨立性（可控變數=干預）

多個時空尺度（粗略的高層因素解釋了較低層的細節）

繞過維度的詛咒

我們需要在機器學習模型中構建組合性，就像人類語言利用組合性為複雜的思想賦予表徵和意義一樣。

利用組合性：在指代能力上獲得指數級的增長；

分散式表示/嵌入：特徵學習；

當前的深度架構：多層次的特徵學習；

系統 2 深度學習：一次編寫幾個概念；

先驗假設（Priori）：組合性有助於有效地描述我們周圍的世界

。

如何發現好的解耦表徵

如何發現抽象？

什麼是好的表現形式？（Bengio et al 2013）

需要線索（=歸納偏差）來幫助理清

潛在因素及其依賴性

，例如：

空間和時間尺度

要素之間的依賴關係簡單稀疏（意識優先）

因果/機制獨立性（可控變數=干預）

多個時空尺度（粗略的高層因素解釋了較低層的細節）

繞過維度的詛咒

我們需要在機器學習模型中構建組合性，就像人類語言利用組合性為複雜的思想賦予表徵和意義一樣。

利用組合性：在指代能力上獲得指數級的增長；

分散式表示/嵌入：特徵學習；

當前的深度架構：多層次的特徵學習；

系統 2 深度學習：一次編寫幾個概念；

先驗假設（Priori）：組合性有助於有效地描述我們周圍的世界

。

深度學習目標：發現因果表徵

Yoshua 之前也研究過一段時間的因果，這裡他也發表了與此相關的一些看法。

我們需要了解這些問題：

正確的表述是什麼？解釋資料的因果變數

如何發現它們（作為觀測資料的函式）？

如何發現他們的因果關係、因果圖？

行動如何與因果乾預相對應？

原始感官資料如何與高層因果變數相關？高層因果變數如何轉化為低層行為和區域性觀察？

需要額外的偏見：因果關係是關於分佈的變化

當前機器學習的缺失

超越訓練分佈的理解與泛化；

學習理論只處理同一分佈內的泛化；

模型學習但不能很好地泛化（或在適應時具有高樣本複雜性）修改後的分佈、非平穩性等。

知識重用性差、模組化差

要超越訓練分佈的泛化

由於效能不佳的 OOD，目前工業強度的機器學習存在魯棒性問題；

如果沒有

獨立同分布（iid）

，需要替代假設，否則沒有理由期望泛化；

分佈如何變化？

人類做得更好！

來自大腦的歸納偏見？

人類如何重用知識？

系統泛化

根據之前的一些工作，將這種能力總結如下：

學過語言學；

動態重組現有概念

；

即使新組合在訓練分佈下的機率為 0：

例如：科幻小說場景

例：在一個陌生的城市開車

目前的深度學習不太成功，它可能會“過擬合”訓練

分佈

。

SOTA AI 和人類水平智力之間的差距

其主要的差距有：

樣本複雜度：學習一項任務所需的樣本數量；

非分佈泛化；

適應的非分佈速度（遷移學習）；

因果發現和推理；

複合知識表示和推理

造成差距的唯一原因：有意識的處理？

假設：這種差距源於一種與人類意識處理相關的

計算、知識表示和推理

，但在人工智慧中

尚未掌握

。

有意識的處理幫助人類處理 OOD 設定

面對新奇或罕見的情況，人類總是有意識的注意力，迅速結合適當的知識片段，對它們推理，並設想解決方案。

我們不遵循我們的慣例，在新奇的環境中使用有意識的思維。

系統 1 和系統 2 的認知——2個系統（以及認知任務的類別）：

系統 1

直覺、快速、無意識、一步並行、非語言、習慣性；

隱性知識；

當前 DL

系統 2

緩慢的、有邏輯的、順序的、有意識的；

語言，演算法，計劃，推理；

明確的知識；

DL 2。0

從推理到 OOD 泛化

目前工業級別的機器學習（包括 NLP）由於糟糕的 OOD 效能而遭受魯棒性問題；

人類使用更高層次的認知（系統 2）進行非分佈泛化；

為什麼有幫助，如何有幫助？

這與代理、因果關係有什麼關係？

我們如何在深度學習中結合這些原則來獲得系統 1 和系統 2 的深度學習？

將知識分解成可組合的片段進行推理

目前的深度學習：同質架構、知識沒有本地化、完全分散式；

遷移學習

：重用相關的知識片段，最大限度地減少干擾，最大化重用；

系統 2 推理選擇和組合可命名的知識片段，形成思想

（想象的未來、反事實的過去、問題的解決方案、輸入的解釋等）。

如何將

知識分解

成正確的可重組片段？

遷移到修正分佈：超越 iid 假設

iid 假設太強→分佈外泛化能力差；

寬鬆的假設：相同的因果動力學，不同的狀態/干預

因果關係作為 OOD 泛化、遷移學習、持續學習等的框架：

非平穩知識（變數值）的因子平穩知識（因果機制）；

干預=變數的改變，不僅僅是由於預設的因果連結，而是由於代理；

因果模型=分佈族（包括任務）；

這些分佈的指標是干預措施的選擇（或初始狀態）；

固定知識被分解成

可重組的因果機制

為什麼需要因果？

因果模型=透過干預/環境/初始狀態等與共享引數（機制）索引的分佈族

學習者必須預測干預措施的效果，需要解決 Out-Of-Distribution（OOD）=新的干預措施；

干預=完美實現代理的抽象動作；

更現實：實現抽象變數變化的意圖=目標；

與多工和元學習不同，不是學習特定於任務或環境的引數，而是對干預進行推斷

Yoshua 團隊今年在因果領域研究也有著一個研究成果——作為機率推理機的大型深度網路：

總結

最後，Yoshua 也表達了自己的願景：

讓機器學習走出實驗室，走入社會

。

機器學習不再只是一個研究問題

基於機器學習的產品正在設計和部署中

而這也是人工智慧科學家、工程師、企業家和政府的共同的新責任。

而 AI 也是一個強大的工具，要重點關注它的：

雙重用途；

智慧競賽：技術進步 vs 智慧進步；

如何最大化其有益的使用，以及減少其誤用

？

同時，一切事物都像雙刃劍，AI 也不例，我們也應當

避免一些對於社會的負面影響

：

控制人們思想的 Big Brother 和殺手機器人；

失業人士的痛苦來源，至少在過渡轉型時期是這樣；

來自廣告和社交媒體的操縱；

強化社會偏見和歧視；

使得不平等加劇，權力集中在少數人、公司和國家。

本文來自微信公眾號：夕小瑤的賣萌屋

Tags：學習因果泛化 Yoshua 深度

上一篇：睡前有這幾個好習慣的女人，面板會逐漸變好，顏值越來越高

下一篇：70歲的活力奶奶，幾十年的醫生，如何重新找回健康美麗！

首頁 > 遊戲

圖靈獎得主Yoshua Bengio：應當避免一些AI對於社會的負面影響

相關文章

推薦文章