首頁 > 遊戲
圖靈獎得主Yoshua Bengio:應當避免一些AI對於社會的負面影響
由 Getty的科技視界 發表于 遊戲2023-02-01
簡介(Bengio et al 2013)需要線索(=歸納偏差)來幫助理清潛在因素及其依賴性,例如:空間和時間尺度要素之間的依賴關係簡單稀疏(意識優先)因果機制獨立性(可控變數=干預)多個時空尺度(粗略的高層因素解釋了較低層的細節)繞過維度的
幻獸愛合成怎麼獲得蛋
2018 年圖靈獎獲得者、AI 先驅、深度學習三巨頭之一、對抗生成網路 GAN、標誌性的銀灰捲髮和濃眉,如果還沒猜到的話,當你看到這個封面,一定就會意識到自己在學習的路上,已經或間接或直接地拜讀過大佬的著作了。
看到花書的封面,和前面的關鍵詞,也許你會意識到,他就是——Yoshua Bengio。
從下面這個記錄可以看出,他的著作在谷歌學術上的引用量也是一騎絕塵。
就在這兩天的 NeurIPS 2022 New in ML Workshop 上,Yoshua Bengio 做了一個 Live Talk,介紹了自己從本科畢業開始,一直到現在的人生之路。
連結
:
https://nehzux。github。io/NewInML2022NeurIPS/assets/YoshuaBengio-NewInML-NeurIPS-28nov2022。pdf
接下來,就是Bengio在大會上親口講述“自己一生”的故事。
從最初本科畢業時的“廣度優先搜尋”,瞭解到 Hinton 的連線主義, 到探索人腦、初代語言模型、注意力機制等等,以及度過人工智慧寒冬,再到現在探索抽象、生成流網路、Ai4Science、HLAI(人類級別智慧)、意識先驗、System-2、因果推斷、元學習、模組化等重要且新穎的領域。Yoshua Bengio 回顧了自己的科研生涯,他說“Staying Humble”。
愛上一個研究方向
一開始,Yoshua 講述了“他是如何愛上一個研究方向”。
1985 - 1986 年,他剛讀完本科,思索自己下一步要做什麼,閱讀了大量不同領域的論文,將視線聚焦於神經網路研究,尤其是 Geoff Hinton 和 David Rumelhart 等其他早期連線主義者的論文。
1986 - 1988 年,Yoshua 進一步閱讀玻爾茲曼機,實現音素分類,完成了關於語音識別的玻爾茲曼機的碩士論文,而後當了解到反向傳播時,對它感到興奮,並開始使用它,在之後參加了 1988 年連線主義的暑期學校,遇到了許多其他充滿熱情的研究生和研究人員們。
1988-1991 年,Yoshua 完成了關於神經網路(RNNs 和 ConvNets)和 HMM 混合的博士論文。
神經網路與人工智慧
隨後,Yoshua 闡述了自己的工作中對於神經網路與 AI 的理解。從一個令人興奮的先驗知識出發,他指出,透過學習,智慧(機器、人類或動物)的產生是有一些原則的,這些原則非常簡單,可以被簡潔地描述出來,類似於物理定律,也就是說,我們的智慧不只是一堆技巧和知識的結果,而是獲取知識的一般機制。
他還辨析了傳統 AI 和機器學習的要點,提到了人工智慧的機器學習方法:
經典的 AI 一般是
基於規則、基於符號
的:其知識由人類提供,但直覺知識是不可傳播的,機器只做推理工作,
沒有很強的學習和適應能力,對不確定性的處理能力不足
。
而機器學習則試圖解決這些問題:在很大程度上取得了成功,但更高層次的(有意識的)認知尚未實現。
而後 Yoshua 從維度詛咒和分散式表示(指數級優勢)這兩個細節出發,強調了
促使 ML 向 AI 轉變
的五個關鍵因素:
海量&海量的資料;
非常靈活的模型;
足夠的算力;
計算效率推斷;
強大的先驗知識,可以打破“維度詛咒”,實現對新情況的強泛化。
他還提到了腦啟發(Brain-inspired),以及如下特性:
大量簡單自適應計算單元的協同作用;
關注分散式表示(如單詞表示);
視智慧為結合的產物(近似最佳化器、初始架構/引數化);
端到端學習
長期依賴和梯度下降
緊接著,Yoshua 回顧了機器學習 101 課程的要點:
函式族;
可調引數;
從未知資料中抽樣的例子產生分佈;
對經過訓練的函式所產生的誤差的度量;
近似最小化演算法搜尋最佳引數選擇,迭代減少平均訓練誤差
又引出了他們自己 1994 年的工作
“Learning Long-Term Dependencies with Gradient Descent is Difficult”
,並強調了他的經驗:
負面結果可能非常重要,它教會了我們一些東西,推動了許多下游研究
,比如 2014 年關於自注意力機制的工作。
接下來他展開介紹了這項工作:
如何儲存 1 bit?在某些維度上有多個引力盆地的動力學
如果動力系統在某些維度上有多個吸引域,則狀態的某些子空間可以儲存 1 bit 或多個 bit 資訊。
在有界噪聲存在的情況下穩健地儲存 1 bit:
光譜半徑 > 1,噪聲可以踢出吸引子的狀態(不穩定);
而當半徑 < 1時就不是這樣了(收縮→穩定)。
可靠地儲存→消失的梯度
可靠地儲存位元資訊需要譜半徑 < 1
譜半徑 < 1的 T 個矩陣的乘積是一個矩陣,其譜半徑在 T 上以指數速度收斂於 0。
如果 Jacobian 矩陣的譜半徑 < 1 →傳播梯度消失
為什麼它會損害基於梯度的學習?
與短期依賴關係相比,長期依賴關係得到的權重是指數級小的(以 T 為單位)。
當譜半徑 < 1時,時間差越長,譜半徑越小。
深度學習:學習內部表徵
深度學習並不像其他機器學習方法:
沒有中間表示(線性)
或固定的(通常是非常高維的)中間表示(支援向量機、核心機)
那麼什麼是好的表徵形式呢?——
使其他或下游任務更容易
。
語言模型 LM
於是 Yoshua 又回顧了他們 2003 年的經典工作《A Neural Probabilistic Language Model》,這是
首次用神經網路來解決語言模型的問題
,也為後來深度學習在解決語言模型問題甚至很多別的 NLP 問題時,奠定了堅實的基礎(比如之後 word2vec 的提出)。
每個詞由一個分散式連續值程式碼向量表示=嵌入;
跨n-gram(單詞元組)共享;
泛化到語義上與訓練序列相似的單詞序列
為什麼要設定多層(multiple layer)?——世界是可構成的
具有不斷增加的抽象級別的表示層次;
每個階段都是一種可訓練的特徵變換。
影象識別
:畫素→邊緣→文字→主題→零件→物體;
文字
:文字→單詞→片語→從句→句子→故事;
語音
:樣本→譜帶→聲音→……→電話→音素→單。詞
隨著深度學習的不斷髮展,不止 NLP 領域,語音和影象也邁出了重要一步:
▲2010-2012 年:語音識別領域取得突破
▲ImageNet 在 2012 年取得突破
但其實 1996-2012 年也是神經網路的寒冬:
AI 研究失去了達到人類智慧水平的雄心
關注“更簡單”(更容易分析)的機器學習
很難說服研究生進行神經網路的研究
這
需要堅持下去
,但也要處理一些棘手的問題:
遵循直覺
但嘗試透過實驗或數學方法驗證
理清思路以澄清問題,提出“為什麼”問題,試著去
理解
支援小組的重要性(CIFAR計劃)
生成對抗網路 GAN
自 2010 年以來,Yoshua 關於生成式深度學習的論文,尤其是和 Ian Goodfellow 共同研究的生成性對抗網路(GAN),這篇經典之作更是
引發了計算機視覺和圖形學領域的深刻革命
。
GAN 以其優越的效能,在短短兩年時間裡,迅速成為人工智慧的一大研究熱點,也將多個數據集的結果刷至新高。
Attention 機制的“革命”
對一個輸入序列或影象,透過設定權重或每個輸入位置的機率,正如 MLP 中所產生的那樣,運用到每一個位置。Attention 在在翻譯、語音、影象、影片和儲存中的應用非常廣泛,也具有以下的特點/優點:
一次只關注一個或幾個元素;
根據具體情況,瞭解該讓哪參與進來;
能對無序set操作;
是 NLP 中的 SOTA,為 Transformer 的提出奠定基礎;
在 RNN 中繞過學習長期依賴的問題
!!
強化學習
深度強化學習在 2016 年初露頭角,取得巨大突破:
AlphaGo 以 4-1 擊敗世界冠軍李世石;
人工智慧和圍棋專家沒有預料到;
將深度學習與強化學習相結合。
深度學習的生物學突破
除了在計算機領域的成就以外,深度學習也在生物學領域取得重要突破,英國《Nature》雜誌在 2021 年發表了一項結構生物學最新研究,人工智慧公司 DeepMind 的神經網路 Alphafold 2 ,利用
注意力圖神經網路
,預測的蛋白質結構能達到原子水平的準確度,這也為生命科學領域帶來革命性影響。
心得分享
保持謙遜
最好別想獎項、獎品和認可
:這些都是危險的干擾!
自負
會使我們盲目,使我們過度自信,是科學發現的
敵人
損害我們靈活思考的能力,質疑我們認為理所當然的東西,傾聽別人不同意我們的觀點的能力
我
多次改變主意
:2005 年有監督 vs 無監督,2022 年頻率論 vs 貝葉斯。
學習更高層次的抽象
(Bengio & LeCun 2007)
深度學習的最大回報是允許
學習更高層次的抽象
。
更高層次的抽象:
將解釋變數和它們的因果機制分離開
,這將使得更容易的泛化和轉移到新的任務上去。
如何發現好的解耦表徵
如何發現抽象?
什麼是好的表現形式?(Bengio et al 2013)
需要線索(=歸納偏差)來幫助理清
潛在因素及其依賴性
,例如:
空間和時間尺度
要素之間的依賴關係簡單稀疏(意識優先)
因果/機制獨立性(可控變數=干預)
多個時空尺度(粗略的高層因素解釋了較低層的細節)
繞過維度的詛咒
我們需要在機器學習模型中構建組合性,就像人類語言利用組合性為複雜的思想賦予表徵和意義一樣。
利用組合性:在指代能力上獲得指數級的增長;
分散式表示/嵌入:特徵學習;
當前的深度架構:多層次的特徵學習;
系統 2 深度學習:一次編寫幾個概念;
先驗假設(Priori):組合性有助於有效地描述我們周圍的世界
。
如何發現好的解耦表徵
如何發現抽象?
什麼是好的表現形式?(Bengio et al 2013)
需要線索(=歸納偏差)來幫助理清
潛在因素及其依賴性
,例如:
空間和時間尺度
要素之間的依賴關係簡單稀疏(意識優先)
因果/機制獨立性(可控變數=干預)
多個時空尺度(粗略的高層因素解釋了較低層的細節)
繞過維度的詛咒
我們需要在機器學習模型中構建組合性,就像人類語言利用組合性為複雜的思想賦予表徵和意義一樣。
利用組合性:在指代能力上獲得指數級的增長;
分散式表示/嵌入:特徵學習;
當前的深度架構:多層次的特徵學習;
系統 2 深度學習:一次編寫幾個概念;
先驗假設(Priori):組合性有助於有效地描述我們周圍的世界
。
深度學習目標:發現因果表徵
Yoshua 之前也研究過一段時間的因果,這裡他也發表了與此相關的一些看法。
我們需要了解這些問題:
正確的表述是什麼?解釋資料的因果變數
如何發現它們(作為觀測資料的函式)?
如何發現他們的因果關係、因果圖?
行動如何與因果乾預相對應?
原始感官資料如何與高層因果變數相關?高層因果變數如何轉化為低層行為和區域性觀察?
需要額外的偏見:因果關係是關於分佈的變化
當前機器學習的缺失
超越訓練分佈的理解與泛化;
學習理論只處理同一分佈內的泛化;
模型學習但不能很好地泛化(或在適應時具有高樣本複雜性)修改後的分佈、非平穩性等。
知識重用性差、模組化差
要超越訓練分佈的泛化
由於效能不佳的 OOD,目前工業強度的機器學習存在魯棒性問題;
如果沒有
獨立同分布(iid)
,需要替代假設,否則沒有理由期望泛化;
分佈如何變化?
人類做得更好!
來自大腦的歸納偏見?
人類如何重用知識?
系統泛化
根據之前的一些工作,將這種能力總結如下:
學過語言學;
動態重組現有概念
;
即使新組合在訓練分佈下的機率為 0:
例如:科幻小說場景
例:在一個陌生的城市開車
目前的深度學習不太成功,它可能會“過擬合”訓練
分佈
。
SOTA AI 和人類水平智力之間的差距
其主要的差距有:
樣本複雜度:學習一項任務所需的樣本數量;
非分佈泛化;
適應的非分佈速度(遷移學習);
因果發現和推理;
複合知識表示和推理
造成差距的唯一原因:有意識的處理?
假設:這種差距源於一種與人類意識處理相關的
計算、知識表示和推理
,但在人工智慧中
尚未掌握
。
有意識的處理幫助人類處理 OOD 設定
面對新奇或罕見的情況,人類總是有意識的注意力,迅速結合適當的知識片段,對它們推理,並設想解決方案。
我們不遵循我們的慣例,在新奇的環境中使用有意識的思維。
系統 1 和系統 2 的認知——2個系統(以及認知任務的類別):
系統 1
直覺、快速、無意識、一步並行、非語言、習慣性;
隱性知識;
當前 DL
系統 2
緩慢的、有邏輯的、順序的、有意識的;
語言,演算法,計劃,推理;
明確的知識;
DL 2。0
從推理到 OOD 泛化
目前工業級別的機器學習(包括 NLP)由於糟糕的 OOD 效能而遭受魯棒性問題;
人類使用更高層次的認知(系統 2)進行非分佈泛化;
為什麼有幫助,如何有幫助?
這與代理、因果關係有什麼關係?
我們如何在深度學習中結合這些原則來獲得系統 1 和系統 2 的深度學習?
將知識分解成可組合的片段進行推理
目前的深度學習:同質架構、知識沒有本地化、完全分散式;
遷移學習
:重用相關的知識片段,最大限度地減少干擾,最大化重用;
系統 2 推理選擇和組合可命名的知識片段,形成思想
(想象的未來、反事實的過去、問題的解決方案、輸入的解釋等)。
如何將
知識分解
成正確的可重組片段?
遷移到修正分佈:超越 iid 假設
iid 假設太強→分佈外泛化能力差;
寬鬆的假設:相同的因果動力學,不同的狀態/干預
因果關係作為 OOD 泛化、遷移學習、持續學習等的框架:
非平穩知識(變數值)的因子平穩知識(因果機制);
干預=變數的改變,不僅僅是由於預設的因果連結,而是由於代理;
因果模型=分佈族(包括任務);
這些分佈的指標是干預措施的選擇(或初始狀態);
固定知識被分解成
可重組的因果機制
為什麼需要因果?
因果模型=透過干預/環境/初始狀態等與共享引數(機制)索引的分佈族
學習者必須預測干預措施的效果,需要解決 Out-Of-Distribution(OOD)=新的干預措施;
干預=完美實現代理的抽象動作;
更現實:實現抽象變數變化的意圖=目標;
與多工和元學習不同,不是學習特定於任務或環境的引數,而是對干預進行推斷
Yoshua 團隊今年在因果領域研究也有著一個研究成果——作為機率推理機的大型深度網路:
總結
最後,Yoshua 也表達了自己的願景:
讓機器學習走出實驗室,走入社會
。
機器學習不再只是一個研究問題
基於機器學習的產品正在設計和部署中
而這也是人工智慧科學家、工程師、企業家和政府的共同的新責任。
而 AI 也是一個強大的工具,要重點關注它的:
雙重用途;
智慧競賽:技術進步 vs 智慧進步;
如何最大化其有益的使用,以及減少其誤用
?
同時,一切事物都像雙刃劍,AI 也不例,我們也應當
避免一些對於社會的負面影響
:
控制人們思想的 Big Brother 和殺手機器人;
失業人士的痛苦來源,至少在過渡轉型時期是這樣;
來自廣告和社交媒體的操縱;
強化社會偏見和歧視;
使得不平等加劇,權力集中在少數人、公司和國家。
本文來自微信公眾號:夕小瑤的賣萌屋