首頁 > 娛樂

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

由 深圳大學計軟學院 發表于 娛樂2022-11-30

簡介該工作提出了統一的人臉圖文生成模型Talk2Face,將各類人臉相關的任務轉換到影象文字序列生成任務,使用Transformer架構統一建模

一張人臉圖問駱駝在哪裡

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

導讀

論文Talk2Face: A Unified Sequence-based Framework for Diverse Face

Generation and Analysis Tasks發表在多媒體頂級會議ACM Multimedia 2022上,由深圳大學計算機與軟體學院計算機視覺研究所和騰訊AI Lab合作完成。

該工作提出了統一的人臉圖文生成模型Talk2Face,將各類人臉相關的任務轉換到影象/文字序列生成任務,使用Transformer架構統一建模。模型的文字和影象生成網路共享權重,從大規模有監督資料中學習通用人臉知識,能夠用於多種下游任務場景。

引言

人臉是計算機視覺的重要領域,具有廣泛的研究和應用價值。面向多種多樣的人臉應用場景,此前的研究中提出了各類子任務,例如年齡預測、表情識別、人臉生成等。在之前的研究中,這些人臉相關的任務通常作為單獨的任務來建模,因此每個任務都需要獨立的資料收集、資料標註、模型設計和模型訓練等步驟。在這種模式下,任務之間的知識難以共享,並且每個新任務都需要同樣的標註和訓練成本。因此,本文構建了一個通用模型Talk2Face,用自然語言作為任務描述,以統一的圖文生成形式完成各類人臉相關任務,實現跨任務的知識共享。此外,這種顯式的知識遷移也提高了模型獲取知識的上限,在一些任務上獲得了效能提升。

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

為了統一各任務的輸入和輸出形式,Talk2Face直接使用文字或影象作為模型的輸入和輸出。具體來說,Talk2Face將影象和文字轉換成離散序列對映到共享的空間,從而文字和影象資訊在高維空間中共享向量表示,因此模型能夠以序列建模為目標學習影象和文字的聯絡並實現圖文雙向生成。本文還收集了大量有監督人臉任務資料,並將監督訊號轉換為自然語言用於訓練Talk2Face。在推理階段,Talk2Face根據文字形式的任務提示,能完成多種人臉相關分析和生成任務,無需在特定任務上微調。

技術貢獻

本工作主要貢獻如下:

提出多模態通用知識學習框架,實現不同任務之間的顯式知識遷移;

構建大規模人臉圖文資料集,包含約230萬張影象及文字,用於提供人臉領域通用知識;

提出Talk2Face,基於Transformer的雙向圖文生成模型,可以被直接應用於各種下游任務,例如文字引導人臉影象生成、人臉文字描述生成、屬性分析、種族分類等。

方法介紹

Talk2Face的模型架構如圖1所示。

其輸入為文字或影象,其中文字被分詞到text tokens,影象透過離散變分自編碼器(VQVAE)[1]被量化為離散的image tokens。

兩種模態資訊被對映到共享的向量空間,輸入Transformer Encoder[2]用於序列建模,損失函式為:

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

其中,是輸入的離散序列,是模型引數。

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

圖1。 Talk2Face模型架構

訓練樣本的任務資訊和預測目標被拼接在一個序列中,使用不同的段落編碼來區分。其中,任務資訊由提示(prompt)和任務的上下文(prefix)組成,作為段落S1;任務的預測目標(target)為段落S2。自注意力的計算方法為:

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

其中,是特徵向量的線性對映,是注意力遮罩矩陣,用於控制段落S1中的token可以訪問其他所有位置的token,在段落S

2中的

token只能訪問它左側的token以適應自迴歸文字/影象生成[3]。

型訓練使用了13個人臉有監督資料集,這些資料集包含不同角度的標註資訊,共有約230萬條訓練樣本。這些資料的監督訊號被轉換為文字形式,透過自然語言將的標註格式各異的資料統一起來,可以在同一個mini-batch中被計算梯度。之後,以影象預測文字或以文字預測影象作為目標來訓練Talk2Face。模型在訓練階段學習到了通用的人臉知識,因此在下游任務推理時,只需要用自然語言提供任務的上下文,模型就能夠產生符合需求的輸出。本文設計了一套推理模版引導模型產生特定的下游任務輸出,因此在完成不同任務時只需要切換推理模版,無需調整模型權重。推理模版示例如圖2所示。

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

圖2。 下游任務推理模版

結果展示

Talk2Face在6個下游任務上測試,包含生成和分類等任務型別。Talk2face在其中的文字

引導人臉生成

人臉描述生成

任務上達到SOTA,結果如圖3、4所示。可以看出,根據文字描述Talk2Face能夠產生更準確且更真實的人臉影象;並能為人臉影象生成更加細緻的文字描。

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

圖3。 文字引導人臉影象生成

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

圖4。人臉文字描述生成

得益於自迴歸解碼過程中的隨機取樣策略,Talk2Face天然具有更好的生成結果多樣性。相比基於StyleGAN的方法[4]通常需要人工調整模型中間層輸出來獲得不同結果,Talk2Face在每次取樣中都能生成全新的影象,多樣性對比如圖5所示。

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

圖5。 生成結果多樣性對比

圖5展示了Talk2Face的自注意力層視覺化結果,可以看出模型從文字監督訊號中學會區分人臉區域和背景。

即使在訓練資料中沒有對人臉區域的標註,Talk2Face在注意力中仍然區分了人臉的語義區域(例如頭髮、眼鏡等部位)。

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

圖6。 Attention 視覺化結果

總結展望

預訓練大模型的發展推進了許多AI場景的上限,當算力和網路結構等因素不再是限制模型效能的瓶頸時,資料就

成為了最昂貴的資源。本文的目標並不在於提升模型在單個任務上的表現,而是儘可能用上更多樣的資料來獲得更通用的模型表示。筆者認為,這種“跨任務”建模方法一定程度上能從資料中抽象出知識,進一步透過知識來驅動模型。目前,越來越多跨語言、視覺、音訊等多模態的工作出現,其中語言模態尤為特殊,自然語言是人類的知識載體,在下一階段的人工智慧研究中,也將會是人類與AI的溝通橋樑。筆者

希望Talk2Face能夠成為一個引子,幫助我們繼續探索多模態方法在小樣本、跨任務、元學習等場景的可能性。

思考討論

Q

Talk2Face的文字和影象部分共享引數,是否會存在要求模型生成影象,但是生成出文本的情況?

A

: Talk2Face將影象轉換成了從形式上類似語言的離散序列,這一點類似多語言建模,Transformer把影象序列當成一種“方言”來學習。在訓練的前期,模型有時會混淆這兩種模態的資訊,但是當訓練完成後,這種情況不再出現。

Q

用來將影象離散化的模型是如何訓練的?它是否與Transformer的引數同步更新?

A

: Talk2Face將影象轉換成了從形式上類似語言的離散序列,這一點類似多語言建模,Transformer把影象序列當成一種“方言”來學習。在訓練的前期,模型有時會混淆這兩種模態的資訊,但是當訓練完成後,這種情況不再出現。

以下是開放性問題,歡迎讀者朋友留言討論

Q

: Talk2Face雖然能夠實現多種任務型別,但是目前任務的形式僅限(影象→文字)或者(文字→影象)生成。對於例如文字引導的影象編輯任務(影象+文字→影象)應該如何實現?

參考文獻

[1] Ramesh, A。, Pavlov, M。, Goh, G。, Gray, S。, Voss, C。, Radford, A。, 。。。 & Sutskever, I。 (2021, July)。 Zero-shot text-to-image generation。 In International Conference on Machine Learning (pp。 8821-8831)。 PMLR。

[2] Devlin, J。, Chang, M。 W。, Lee, K。, & Toutanova, K。 (2018)。 Bert: Pre-training of deep bidirectional transformers for language understanding。 arXiv preprint arXiv:1810。04805。

[3] Dong, L。, Yang, N。, Wang, W。, Wei, F。, Liu, X。, Wang, Y。, 。。。 & Hon, H。 W。 (2019)。 Unified language model pre-training for natural language understanding and generation。 Advances in Neural Information Processing Systems, 32。

[4] Xia, W。, Yang, Y。, Xue, J。 H。, & Wu, B。 (2021)。 Tedigan: Text-guided diverse face image generation and manipulation。 In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp。 2256-2265)。

[5] Esser, P。, Rombach, R。, & Ommer, B。 (2021)。 Taming transformers for high-resolution image synthesis。 In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp。 12873-12883)。

ACM Multimedia 2022|基於序列建模的人臉圖文統一生成框架

Tags:Talk2Face文字人臉影象任務