首頁 > 旅遊

基於深度學習的AI繪畫為何突然一下子火了?

由 GPU計算 發表于 旅遊2023-01-21

簡介GAN 的三個不足之處:1)GAN 對輸出結果的控制力較弱,容易產生隨機影象對此,CGAN 透過把無監督的 GAN 變成半監督或者有監督的模型,為訓練加上目標,而 DCGAN 透過縮小 CNN 在監督學習與無監督學習之間的差距使得訓練過程更

怎麼和別人用同一個濾鏡

基於深度學習的AI繪畫為何突然一下子火了?

CLIP |Midjourney | dreamstudio

AIGC | Stable Diffusion | Imagen

隨著Disco、Midjourney、dreamstudio 、AIGC、Stable Diffusion、Imagen、深度學習、高效能計算、資料分析、資料探勘等技術的快速發展,AI繪畫技術得到迅速發展。

即使今年年初的AI繪畫和現在相比,效果也有天壤之別。我們所說的“AI繪畫”概念是指基於深度學習模型自動作圖的計算機程式——把“語言描述”透過AI理解自動變成影象。目前文字自動語音識別技術已經極其成熟,本質上是一個從文字到影象的AI繪畫過程。

基於深度學習的AI繪畫為何突然一下子火了?

AI繪畫模型如何訓練?

在深度學習中,經常聽到“模型訓練”這個詞,但模型是什麼?又是怎麼訓練出來的呢?在人工智慧中,當面對大量資料時,要在雜亂無章的內容中準確、輕鬆地識別並輸出所需的影象/語音並不容易。因此演算法就顯得尤為重要。演算法也是模型。

演算法的內容除核心識別引擎,還包括各種配置引數,如:語音智慧識別的位元率、取樣率、音色、音調、音高、音訊、節奏、方言、噪聲等。成熟的識別引擎,核心內容一般不會經常變化。為了達到“成功識別”的目的,就只能調整配置引數。

對不同輸入,將配置不同的引數值。最後,在結果統計中取一組均衡且識別率高的引數值。這組引數值是訓練後得到的結果,是訓練的過程,也叫模型訓練。

一、深度學習框架在其中發揮的作用是?

首先用tensorflow、pytorch或者paddlepaddle寫一段python程式碼組建一個神經網路模型,然後對其進行訓練,達到一定精度後儲存模型,最後基於訓練好的模型做影象識別、語音識別等任務。那麼問題來了,這一切都是誰來計算的呢?答案是後臺框架。所寫的python程式碼,無非是前端API,真正呼叫後端C或C++計算邏輯,而前端python API和後端計算邏輯透過pybind繫結。

深度學習框架的基本功能是提供一系列的運算元,支援前向計算和反向梯度更新。如此說來,框架應該很簡單。然而由於OP數量很大,比如卷積,全連線,各種啟用函式(如Relu,Sigmoid),各種梯度更新演算法(如Adam,RMS)等。其次,在組建神經網路模型時,需要提供靜態圖模式和動態圖模式。動態圖模式是我們平時寫程式碼的邏輯,do A ->do B ->do C,按流程順序執行任務,每寫一行程式碼就能得到相應的結果。靜態圖模式即使用者寫的程式碼只是為了建一個圖,在圖建好之後就會執行。圖形執行後就可以得到結果,而不是像動態圖那樣實時得到結果。靜態圖有什麼好處?答案是促進效能最佳化。透過最佳化這個圖的結構,程式執行效率更高。

靜態圖中的“圖”也叫SSA Graph,是一種有向無環單靜態賦值圖。這個圖是怎麼構造的?怎麼形容呢?如何將其序列化為二進位制位元組流並在不同程序間傳遞?是如何實現的?是如何最佳化的?還有,如何儲存樣本資料?記憶體?快取?SSD?

更重要的是,隨著模型越來越大,引數規模達到百億、千億,甚至萬億,這對模型的訓練效能提出了非常高的要求。一個高效能的訓練框架不僅可以大大縮短訓練時間,還可以大大節省硬體資源。另外,在推薦領域,大規模的稀疏引數需要大量的儲存空間,不是單機能夠容納的,需要分散式檔案系統的幫助。

考慮到各種不同廠商的AI晶片,如英偉達的GPU,華為的昇騰、百度的崑崙等晶片,想要充分利用這些高效能AI硬體的能力,軟體必須與這些硬體相容,它們的程式設計語法和編譯方法與Intel的x86 CPU不同,如cuda程式設計等。而且硬體涉及到通訊問題,比如nccl。自然,CPU引數伺服器演變成了異構引數伺服器。引數系統中涉及到多種並行最佳化策略,如資料並行、模型並行、流水線並行、混合並行、自動並行等。

基於深度學習的AI繪畫為何突然一下子火了?

二、AI模型如何訓練?

訓練模型需要AI框架,如MindSpore。具體怎麼訓練一個AI模型?昇思mindspore之前釋出了一個詳細的案例,訓練模型是LeNet5模型,用於分類手寫數字圖片。MindSpore是華為推出的全場景AI計算框架。2020年3月28日,MindSpore正式宣佈開源。

首先是安裝MindSpore,為使用者提供Python介面。安裝時,選擇合適的版本、硬體平臺、作業系統、程式語言和安裝方法。其次是定義模型,安裝完成後,可以匯入MindSpore提供的運算元(卷積、全連線、池化等函式)來構建模型。

接下來是匯入訓練資料集,什麼是訓練資料集呢,剛剛定義好的模型是不能對圖片進行正確分類的,要透過訓練過程來調整模型的引數矩陣的值。訓練過程就需要用到訓練樣本,也就是打上了正確標籤的圖片。這就好比教小孩兒認識動物,需要拿幾張圖片給他們看,告訴他們這是什麼,教了幾遍之後,小孩兒就能認識了。

其次是匯入訓練資料集。什麼是訓練資料集呢?新定義的模型不能正確分類圖片。需要透過訓練過程來調整模型的引數矩陣的值。訓練過程需要訓練樣本,即正確標註的圖片。

這裡需要用MNIST資料集來訓練LeNet5模型。這個資料集由訓練集(6萬張圖片)和測試集(1萬張圖片)兩部分組成,都是從0到9的黑白手寫數字圖片。

再接下來就是訓練模型,訓練資料集和模型定義完成後,就可以開始訓練模型了。在訓練之前,還需要從MindSpore匯入兩個函式:損失函式,就是衡量預測結果和真實標籤之間的差距的函式;最佳化器,用來求解損失函式關於模型引數的更新梯度的。準備好之後,開始訓練,把前面定義好的模型、損失函式、最佳化器封裝成一個Model,使用model。train介面就可以訓練LeNet5模型了。最後就是測試訓練後的模型準確率。

然後是訓練模型,訓練資料集和模型的定義完成後,就可以開始訓練模型了。訓練前需要從MindSpore匯入兩個函式:

loss function

,是衡量預測結果與真實標籤差距的函式;最佳化器,用於求解損失函式相對於模型引數的更新梯度。準備好了,就開始訓練。將先前定義的模型、損失函式和最佳化器封裝到一個模型中,並使用model。train介面來訓練LeNet5模型。最後,對訓練後模型的準確性進行了檢驗。

基於深度學習的AI繪畫為何突然一下子火了?

市面上AI繪畫模型有哪些?

今年以來, 輸入文字描述自動生成圖片的AI繪畫神器突然如雨後春筍似的冒了出來。

下面分別對Disco Diffusion、Midjourney、DALL·E 2、Imagen、Parti、Stable Diffusion等技術進行簡單介紹。

一、Disco Diffusion

Disco Diffusion 是在今年 2 月初開始爆紅的一個 AI 影象生成程式,可以根據描述場景的關鍵詞渲染出對應的影象。

Disco Diffusion(DD)是一個CLIP指導的AI影象生成技術,簡單來說,Diffusion是一個對影象不斷去噪的過程,而CLIP模型負責對影象的文字描述。

基於深度學習的AI繪畫為何突然一下子火了?

二、Midjourney

相較於Disco Diffusion,Midjourney介面更友好(不需要任何程式碼)生成時間更短(一張一分鐘左右)細節更精細、完整度更高。如果Disco Diffusion基本等於初級原畫師的能力,或者僅限於創作者進行頭腦風暴;那Midjourney或許已經達到了可以直接生產工業級高質量成品的地步。

基於深度學習的AI繪畫為何突然一下子火了?

三、DALL·E 2

DALL·E 2基於CLIP/unCLIP 機制的。首先,為了獲得完整的影象生成模型,將CLIP 影象嵌入到解碼器和先驗模型中,該先驗模型根據給定的文字標題生成可能的CLIP 影象嵌入。將完整文字條件影象生成堆疊稱為 unCLIP,因為它透過顛倒 CLIP 影象編碼器來生成影象。訓練資料集由影象X及其對應標題y的對(X,y)組成,設zi和zt分別為其 CLIP 影象和文字嵌入。

基於深度學習的AI繪畫為何突然一下子火了?

DALL·E 2 快速發展的背後,其實是人工智慧由感知智慧到認知智慧的全面升級,而這其中的創造性是 AI 今後發展的最大助力,比如金融行業的呼叫中心需要分析客戶的語氣,以快速處理投訴類案例;出行類 APP 遇到客戶說出某些關鍵詞時,則需要立刻與 110 聯動報警。這些應用場景其實都需要 AI 模型放棄原先死板僵硬的計算,而發展出某種活性。而一旦 AI 擁有創意,那麼就可以和二次元特性進行結合,尤其是 90、00 後的年輕人們,在對話當中經常使用表情圖、動態圖等方式來表達情感,而將這些非語言資訊的語義提取並翻譯出來,就需要一定的創意了。

再進一步,AI 未來很可能會達到比你自己更懂你的程度。

比如前段時間小藍經常熬夜加班,結果開啟淘寶會發現總給我推薦防脫洗髮水。

雖然短期來看,創造性 AI 還略顯遙不可及,但是 DALL·E 2 的出現,讓我們看到了希望,讓我們做好準備迎接新一代認知 AI 產品的到來。

四、Imagen

Imagen是由

谷歌推出的一款新的AI系統,可以將文字描述轉化為逼真影象的人工智慧技術。Imagen擴散模型可根據使用者的書面提示輸出繪圖、油畫、CGI 渲染等。

Imagen 的開發者谷歌研究團隊表示,基於變壓器和影象擴散模型,Imagen實現了前所未有的真實感。谷歌聲稱,對比其它模型,在影象保真度和影象-文字匹配方面,人類評估者更喜歡 Imagen。

不過,谷歌也表示,Imagen 是在從網路上抓取的資料集上進行訓練的,雖然已經過濾了很多不良內容如色情影象、汙穢語言等,但仍有大量不當的內容資料集,因此也會存在種族主義誹謗和有害的社會刻板印象。

基於深度學習的AI繪畫為何突然一下子火了?

五、Parti

研究人員表示,用文字生成影象非常有趣,它允許我們建立從未見過甚至不存在的場景。但這帶來許多益處的同時,也存在一定風險,並對偏見和安全、視覺傳達、虛假資訊,以及創造力和藝術產生潛在影響。

此外,一些潛在的風險與模型本身的開發方式有關,對於訓練資料尤其如此。像 Parti 這樣的模型,通常是在嘈雜的影象文字資料集上進行訓練的。這些資料集已知包含對不同背景的人的偏見,從而導致 Parti 等模型產生刻板印象。比如,在將模型應用於視覺傳達(例如幫助低識字率的社會群體輸出圖片)等用途時,會帶來額外的風險和擔憂。

基於深度學習的AI繪畫為何突然一下子火了?

六、Stable Diffusion

Stable Diffusion是一個文字到影象的潛在

Diffusion Model

,由CompVis、Stability AI和LAION的研究人員和工程師建立。

它使用來自LAION-5B資料庫子集的512x512影象進行訓練。

使用這個模型,可以生成包括人臉在內的任何影象,因為有開源的預訓練模型,所以也可以在自己的機器上執行。

基於深度學習的AI繪畫為何突然一下子火了?

AI繪畫發展歷程

一、AI繪畫發展歷程

AI 繪畫實際上並不是近幾年才出現的新詞語。從 Google 趨勢提供的搜尋指數來看,2004 年至 2007 年期間,“AI painting”就已經成為檢索熱詞;2008年之後,檢索熱度開始下降並進入平緩期;直到 2017 年 5 月, AI 繪畫再一次成為大眾的關注熱點。

從廣義上來講,AI 繪畫早在上個世紀就已經出現了。1973年,Harold Cohen 就已經開始嘗試和電腦程式 “AARON” 攜手進行繪畫創作。與當下 AI 繪畫不同之處在於,ARRON 使用機械手臂在畫布上進行繪畫,而非數字繪圖。進入 20 世紀 80 年代,ARRON 學會了對三維空間物體的繪畫表現方法;90 年代,ARRON學會了使用多種顏色進行繪畫。ARRON 已經繪製出了很多不同的作品,直到今天,它仍在進行創作。

基於深度學習的AI繪畫為何突然一下子火了?

從 python 語言逐漸流行開始,一個名為 “turtle” 的繪相簿逐漸進入人們的視線。turtle 繪相簿的概念最初來自 Wally Feurzig 和 Seymour Papert 於 1966 年所創造的 Logo 程式語言,透過編寫程式,這個庫也能夠幫助我們進行一些影象的繪畫。

我們現在所說的 AI 繪畫,實際更多指代的是基於機器學習模型進行自動數字繪圖的計算機程式。這類繪畫方式的發展要稍晚一些。

2012 年,吳恩達和 Jeff Dean 使用 Google Brain 的 1。6 萬個 CPU 訓練了一個大型神經網路,用於生成貓臉圖片。在當時的訓練中,他們使用了 1000 萬個來自 Yotube 影片中的貓臉圖片,模型訓練用了整整三天。最終得到的模型,也只能生成一個非常模糊的貓臉。

與現在的模型相比,這個模型的訓練幾乎毫無效率可言。

但對於計算機視覺領域而言,這次嘗試開啟了一個新的研究方向,也就是我們目前所討論的 AI 繪畫。

二、AI繪畫現狀

在2014年, AI學術界提出了一個非常重要的深度學習模型即對抗生成網路GAN (Generative Adverserial Network, GAN)。

正如同其名字“對抗生成”, 這個深度學習模型的核心理念是讓兩個內部程式 “生成器(generator)” 和“判別器(discriminator)” 互相PK平衡之後得到結果。

GAN模型一經問世就風靡AI學術界, 在多個領域得到了廣泛的應用。同時也隨即成為很多AI繪畫模型的基礎框架, 其中生成器用來生成圖片, 而判別器用來判斷圖片質量。GAN的出現大大推動了AI繪畫的發展。

但是, 用基礎的GAN模型進行AI繪畫也有比較明顯的缺陷, 一方面是對輸出結果的控制力很弱, 容易產生隨機影象, 而AI繪畫的輸出應該是穩定的。另外一個問題是生成影象的解析度比較低。

解析度的問題還好說, GAN在“創作“這個點上還存在一個問題, 這個問題恰恰是其自身的核心特點: 根據GAN基本架構,判別器要判斷生成的影象是否和已經提供給判別器的其他影象是同一個類別的, 這就說明輸出的影象就是對現有作品的模仿, 而不是創新……

在對抗生成網路GAN之外, 研究人員也開始利用其他種類的深度學習模型來嘗試訓練AI繪畫。一個比較著名的例子是2015年 Google釋出的一個影象工具深夢(Deep Dream)。深夢釋出了一系列畫作, 一時吸引了很多眼球。谷歌甚至為這個深夢的作品策劃了一場畫展。但如果深究一下, 深夢與其說是AI繪畫, 更像是一個高階版AI濾鏡。

基於深度學習的AI繪畫為何突然一下子火了?

這個模型之所以受到廣泛關注的原因是Google把相關原始碼開源了, 第三方開發者可以基於該模型開發有趣的AI簡筆畫。其中一個線上應用叫做 “Draw Together with a Neural Network” ,隨意畫幾筆,AI就可以自動幫你補充完整個圖形。值得注意的是, 在AI繪畫模型的研究過程中, 各龍頭網際網路企業成了主力, 除上述Google所做的研究之外,比較有名的是2017年7月,Facebook聯合羅格斯大學和查爾斯頓學院藝術史系三方合作得到的新模型, 號稱創造性對抗網路 (CAN, Creative Adversarial Networks)。

從下圖的作品集可以看出,這個創造性對抗網路CAN在嘗試輸出一些像是藝術品的圖畫,它們是獨一無二的,而不是現存藝術作品的仿品。

基於深度學習的AI繪畫為何突然一下子火了?

CAN模型生成作品裡所體現的創造性讓當時的開發研究人員都感到震驚, 因為這些作品看起來和藝術圈子流行的抽象畫非常類似。於是研究人員組織了一場圖靈測試,請觀眾們去猜這些作品是人類藝術家的作品,還是人工智慧的創作。

結果, 53%的觀眾認為CAN模型的AI藝術作品出自人類之手, 這是歷史上類似的圖靈測試裡首次突破半數。

但CAN AI繪畫, 僅限於一些抽象表達, 而且就藝術性評分而言, 還遠遠達不到人類大師的水平。

三、AI 學習繪畫的四個挑戰

對於機器學習模型而言,讓 AI 學會繪畫的過程就是一個模型的構建和引數訓練過程。在模型訓練中,每一副圖畫都使用一個大小為 mxn 的畫素點矩陣表示,對於彩色圖畫,每個畫素點都由 RGB(red、green、blue)三個顏色通道組成。要讓計算機學會繪畫,就相當於訓練一個可以逐個產生畫素的機器學習模型。

這聽起來或許很簡單,但實際上,這一過程並沒有我們想象得那麼容易。在一篇論文《Learning to Paint with Model-based Deep Reinforcement Learning》中,提到了訓練 AI 學習繪畫的四個挑戰,包括:

1、模型需要訓練的引數集合非常龐大

繪畫中的每一筆都涉及位置、形狀、顏色等多個方面的引數確定,對於機器學習模型來說,這將產生一個非常龐大的引數集合。

2、筆畫之間關係的確定,會導致更加複雜的計算

一副紋理豐富自然的畫作往往由很多筆畫完成。如何對筆畫進行組合、確定筆畫間的覆蓋關係,將是一個很重要的問題。

3、難以將 AI 接入一個現有的繪畫軟體

畫作的渲染等操作將導致非常高昂的資料獲取代價。

4、AI 除了模仿已有畫作的內容和風格以外,還需自創風格

AI 除了模仿已有畫作的內容和風格以外,還能夠自創風格,模型訓練的難度會進一步加大。

一個原因是“創造”是一個非常抽象的概念,使用模型來表達比較困難;

另一個原因是訓練資料的內容和風格終究是有限的。

藍海大腦深度學習AI繪畫一體機採用 Intel 、AMD處理器,突破傳統風冷散熱模式,採用風冷和液冷混合散熱模式——伺服器內主要熱源 CPU 利用液冷冷板進行冷卻,其餘熱源仍採用風冷方式進行冷卻。透過這種混合製冷方式,可大幅提升伺服器散熱效率,同時,降低主要熱源 CPU 散熱所耗電能,並增強伺服器可靠性;支援VR、AI加速計算;深受廣大深度學習AI繪畫工作者的喜愛。

AI繪畫為何可以快速發展

關鍵技術有哪些?

一、GAN+CLIP 解決跨模態問題

1 、生成式對抗網路

影象到影象的生成 GAN

Generative Adversarial Nets

生成式對抗網路

在 2014 年提出後

是生成器和判別器的一代代博弈

生成器透過輸入資料生成影象

並將其混入原始資料中送交判別器區分

判別器依據二分類網路

將生成器生成影象作為負樣本

真實影象作為正樣本

雙方的訓練過程交替進行

對抗的過程使得生成器生成的影象越來越逼真

判別器的分辨能力也越來越強

GAN 的三個不足之處

1)GAN 對輸出結果的控制力較弱

容易產生隨機影象

對此

CGAN 透過把無監督的 GAN 變成半監督或者有監督的模型

為訓練加上目標

而 DCGAN 透過縮小 CNN 在監督學習與無監督學習之間的差距使得訓練過程更加穩定和可控

2)GAN 生成的影象解析度較低

對此

PGGAN 逐漸的向生成器和判別器網路中新增層

以此增加生成圖片的空間解析度

StyleGAN 則能夠生成極其逼真的影象資料並且做到了高層特徵可控

3)由於 GAN 需要用判別器來判斷產生的影象是否與其他影象屬於同一類別

導致生成的影象是對現有作品的模仿和微調

不能透過文字提示生成新影象

因此 CLIP 被引入

基於深度學習的AI繪畫為何突然一下子火了?

2、可對比語言-影象預訓練演算法 CLIP—文字到影象生成

CLIP

Contrastive Language-Image Pre-training

是 OpenAI 在 2021 年提出的多模態預訓練的演算法

建於 NLP

Natural Language Processing

自然語言理解

和 CV

Computer Vision

計算機視覺

相結合的基礎上

演算法使用已經標註好的

文字-影象

資料對訓練

一邊對文字進行模型訓練

一邊對影象進行模型訓練

不斷調整引數

使得輸出的文字特徵集和影象特徵集相匹配

CLIP 方法具有結構簡單

訓練速度快

效果好等諸多優良特性

CLIP 具有非常好的遷移學習能力

預訓練好的模型可以在任意一個視覺分類資料集上取得不錯的效果

而且演算法是 Zero-Shoot 的

即不需要再去新資料集上做訓練

就能得到不錯的結果

現被廣泛應用的 StyleCLIP 融合了 StyleGAN 和 CLIP 雙方的特性

之前的 StyleGAN 的語義控制發現方法會涉及手動檢查

大量帶註釋的資料

或者需要預訓練的分類器

且只能按照預設的語義方向操作影象

嚴重限制了使用者的創造力和想象力

若需要新增一個未對映的方向

需要大量的手工工作或大量的註釋資料。

StyleCLIP 支援普通使用者基於文字的直觀語義影象操作

也不限於預設的操作方向

二、深度學習助力 AI 畫技進步

AI 繪畫的實際操作大體可以分為四個步驟

加噪點

去噪點

復原圖片和作畫

其中

加噪點即新增高斯噪聲或者關鍵詞

透過固定公式來實現

這方面

快速更新迭代的 MIM 方法表現出色

去噪點即仿生物視覺神經網路在去噪過程中開展學習

透視

顏色等

目前 Transformer 正取代 CNN 卷積神經網路成為主流方法

而在復原圖片和作畫方面

AI 的

畫技

主要由擴散模型 Diffusion Model 和神經輻射場模型 NeRF 決定

1、影象掩碼建模 MIM — 高效簡潔的預訓練方法

MIM

Masked Image Modeling

影象掩碼建模

是一種自監督表徵學習演算法

主要思路是

對輸入影象進行分塊和隨機掩碼操作

然後對掩碼區域做一些預測

進而猜測全圖

掩碼訊號建模在多個模型中應用發展

例如 OpenAI 的 iGPT 模型

透過馬賽克進行訊號的遮蔽和轉換

ViT 模型等

基於 MIM 的模型在不同型別和複雜程度的廣泛視覺任務上實現了非常高的微調精度

使得 AI 作畫從生成不完整影象進步到可生成完整影象的跨越

MIM 在語義較弱的幾何運動任務或細粒度分類任務中的表現明顯優於有監督模型

對於有監督模型擅長的任務,MIM 模型仍然可以取得極具競爭力的遷移效能

目前較受認可的 MAE 模型產自何愷明對 MIM 的最佳化

MIM 在預訓練影象編碼器的時候

太關注細節損失了高維抽象能力

MAE 的非對稱編碼器-解碼器結構

使模型分工明確

編碼器負責抽取高維表示

解碼器則負責細粒度還原

MAE 同時對輸入影象進行高比例遮蔽

將以上兩種設計結合

結果用來訓練大模型

訓練速度提升三倍以上

同時保持高準確率

具備很好的泛化能力

MAE 廣泛應用於人臉識別等多個領域

例如

FaceMAE 作為隱私保護人臉識別正規化

同時考慮了人臉隱私和識別效能

可以適配任何人臉資料集

以降低隱私洩露風險

2、特徵處理器 Transformer — 最佳化的自然語言處理模型

Transformer 是當前綜合表現最優的特徵提取器

模型首創於 2017 年的 Google 論文

Attention is All You Need

它的效能優於傳統的 RNN 和 CNN 特徵提取器

Transformer 為視覺領域帶來了革新性的變化

它讓視覺領域中目標檢測

影片分類

影象分類和影象生成等多個領域實現了很大的進步

2020 年 10 月

谷歌提出了 Vision Transformer

ViT

它是 Transformer 用於 CV 領域的傑出例子

它在大型資料集中處於領先地位

2021 年 1 月

OpenAI 用的 DALL

·

E 和 CLIP 兩個模型都利用 Transformer 達到了較好效果

前者可以基於本文直接生成影象

後者則能完成影象與文字類別的匹配

Transformer 的研究才剛剛起步

因此仍有很大研究和發展空間

在研究領域

CNN 研究已趨向於成熟

考慮到模型成熟度和價效比

CNN 在短期內仍不會被淘汰

。原因如下:

1)現有的 Visual Transformer 引數量和計算量過大

記憶體佔用量超過可承受範圍

效率方面還需要提升

亟需開發高效 Transformer for CV

2)現有的 Visual Transformer 都還是將 NLP 中 Transformer 的結構套到視覺任務做了一些初步探索

未來針對 CV 的特性設計更適配視覺特性的 Transformer 將會帶來更好的效能提升

3)現有的 Visual Transformer 一般是一個模型做單個任務

近來有一些模型可以單模型做多工

比如 IPT

我們期待未來出現世界模型

處理全域性任務

3、擴散模型 Diffusion Model — 新一代影象生成主流模型

Diffusion Model 代指擴散模型

擁有比 GAN 更優的能力並快速崛起

相關研究最早可以追溯到 2015 年

奠基研究是 2020 年

Denoising Diffusion Probabilistic Models

2022 年

藉助 AI 繪畫應用

擴散模型在影象生成領域展現卓越實力

擴散模型的工作原理

是透過連續新增高斯噪聲來破壞訓練資料

然後透過反轉這個噪聲過程

來學習恢復資料

一幅畫當中

衣服的紋樣

樹葉

雲彩等帶有很多細節紋理的地方

其實細節越多

越接近一個隨機的噪點

對於這些地方

也許只需要幾次高斯噪點的摻入

可理解為高斯模糊

就能破壞原來的紋樣

接近正態分佈

訓練後

可以使用 擴散模型將隨機取樣的噪聲傳入模型中

透過學習去噪過程來生成資料

都是給定噪聲 xT 生成圖片 x0

相比 GAN

Diffusion 所需資料更少

生成效果更優

基於深度學習的AI繪畫為何突然一下子火了?

擴散模型在計算機視覺

自然語言處理

波形訊號處理

多模態學習

分子圖生成

時間序列以及對抗學習等七大應用方向中都有應用

在 AI 繪畫領域

除 Disco Diffusion

最先進的文字生成影象系統 OpenAI 的 DALL

·

E 2 和 Google 的 Imagen

都是基於擴散模型來完成的

擴散模型還在發展中

改進研究在取樣速度提升

最大似然增強和資料泛化增強等領域持續進步

4、神經輻射場 NeRF — 順應 3D 內容消費趨勢

NeRF

neural implicit representation,神經輻射場

利用深度學習完成計算機圖形學中的 3D 渲染任務

這一技術從 2019 年開始興起

在 2020 年 NeRF 獲得 ECCV best paper 之後受到了廣大關注

NerF 在很大程度上克服了樣本特徵受限的問題

此前

2D 到 3D 生成的領域也包含 GAN 方面的嘗試

比如英偉達 20-21 年推出的 GANverse3D 能夠自定義物件和交換背景

但由於 GAN 在對抗訓練中會受限於樣本特徵

該模型當時僅適用於汽車

馬匹和鳥類

NeRF 模型的基本原理是

將場景的體積表示最佳化為向量容數

該函式由位置和檢視方向組成的連續 5D 座標定義

具體而言

是沿相機射線取樣 5D 座標來合成影象

將場景表示引數化為一個完全連線深度網路

MLP

該網路將透過 5D 座標資訊

輸出對應的顏色和體積密度值

NeRF 對於虛擬人建立

3D 訓練環境構建

增強現實

線上遊戲及電影特效等都具有重要意義

自 NeRF 在 ECCV2020 提出後

NeRF 模型也持續在生成範圍

生成效果,乃至所需基礎資料上進行改進

例如陸續支援光影變化效果

動態 NeRF、類實時生成、全場景 NeRF

單張生成模型和3D 幾何資料生成

在 AI 繪畫中

NeRF 透過將場景表示為隱式的神經輻射場

渲染時透過神經網路查詢位置上的場景資訊生成新視角影象

直觀來講

渲染就是用計算機模擬照相機拍照

它們的結果都是生成一張照片

NeRF 將場景表示為空間中任何點的容積密度和顏色值

有了以 NeRF 形式存在的場景表示後

可以對該場景進行渲染

生成新視角的模擬圖片

NeRF 使用經典體積渲染

volume rendering

的原理

求解穿過場景的任何光線的顏色

從而渲染合成新的影象

在 NeRF 之後

有人提出了 GRAF

引入了 GAN 來實現神經輻射場

並使用 Conditional GAN 實現對渲染內容的可控性

在 GRAF 之後

GIRAFFE 實現了構成

在 NeRF

GRAF 中

一個神經輻射場表示一個場景

而在 GIRAFFE 中

一個神經輻射場只表示一個物體

背景也算一個物體

這樣做可以隨意組合不同場景的物體

可以改變同一場景中不同物體間的相對位置

渲染生成更多訓練資料中沒有的全新影象

未來 NeRF 發展主要是基於 NeRF 問題的改進

NeRF 的簡潔性具有優勢

但也因此帶來一些問題

1)計算量大導致耗時長

NeRF 生成影象時

每個畫素都需要近 200 次 MLP 深度模型的前向預測

儘管單次計算規模不大

但完成整幅影象渲染的計算量還是很可觀的

NeRF 針對每個場景進行訓練的耗時較長

對此

迭代過後的 Depth-supervised NeRF 能夠實現更少的視角輸入和更快的訓練速度

2)只針對靜態場景

對於無法拓展到動態場景的問題

主要和單目影片做結合

從單目影片中學習場景的隱式表示

Neural Scene Flow Fields 將動態場景建模為外觀

幾何體和三維場景運動的時變連續函式

該方法只需要一個已知攝像機姿勢的單目影片作為輸入

3)泛化性差

NeRF 無法直接擴充套件到沒有見過的場景

這顯然與人們追求泛化性的目標 相違背

因此一些文章開始對 NeRF 進行泛化性的改進

GRF 學習 2D 影象中每個畫素的區域性特徵

然後將這些特徵投影到 3D 點

從而產生通用和豐富的點表示

與之類似的還有 IBRnet

pixelNeRF 等

比較核心的想法都是卷積與 NeRF 相結合

目前這種泛化都還不夠成熟

無法在複雜場景中取得理想效果

4)需要大量視角

儘管 NeRF 方法能夠實現出色的視角合成效果

但是它需要大量的

數百張

視角來進行訓練

這限制了它在現實中的應用

針對視角數量的改進

目前還侷限在比較封閉的測試環境下

如合成物體或者單個物體

擴充套件其在實操中的可 用性也是未來的一大方向

基於深度學習的AI繪畫為何突然一下子火了?

AI繪畫的突破

對人類意味著什麼?

2022年的AI領域,基於文字生成影象的AI繪畫模型是風頭正勁的主角。從2月份的Disco Diffusion開始,4月DALL-E 2和MidJourney邀請內測,5月和6月Google釋出了Imagen和Parti兩大模型,然後在7月底,Stable Diffusion橫空出世。

接下來AI繪畫,或者更廣泛地說,AI生成的內容領域(影象、聲音、影片、3D內容等)將會發生什麼,讓我們拭目以待。

其實不用等未來,經歷了以 Stable Diffusion 為代表的最先進的AI繪畫模式所能達到的藝術高度,基本可以確認,曾經充滿神秘主義色彩的“想象力”和“創造力”是可以被技術解構的。

像 Stable Diffusion 這樣的AI生成模型的一個核心思想,或者說很多深度學習AI模型的核心思路,就是把人類創造的內容,在某個高維或者低維的數學空間裡,表達成一個向量(更簡單的理解,一串數字)。如果這個“內容->向量”的變換設計足夠合理,那麼人類所有的創造性內容都可以表示為某個數學空間中的部分向量。而存在於這個無限的數學空間中的其他向量,不過是那些理論上人類可能創造出來,但還沒有被創造出來的內容。

透過“向量->內容”的逆向轉化,這些還沒有被創造出來的內容被AI挖掘出來。這正是目前的中途,這些最新的AI繪畫模型所做的穩定擴散。AI可以說是在創造新的內容,也可以說是新繪畫的搬運工。AI產生的新畫,在數學意義上一直是客觀存在的,只是被AI用巧妙的方式從數學空間還原出來而已。

Tags:AI模型影象訓練生成