首頁 > 農業

影象質量評估|調研

由 人工智慧遇見磐創 發表于 農業2021-10-20

簡介Blind Image Quality Assessment Based on High Order Statistics Aggregation (HOSA)HOSA方法是一種混合演算法,它利用了無監督學習階段的功能,該階段可以檢測一組失

特徵向量不唯一是如何評分的

影象質量評估|調研

介紹

作為視覺生物,人類對視覺訊號損耗(例如塊狀,模糊,嘈雜和傳輸損耗)敏感。因此,我將研究重點放在發現影象質量如何影響Web應用程式中的使用者行為上。最近,一些研究測試了低質量影象在網站上的影響。康奈爾大學[^4]證明了低質量的影象會對使用者體驗,網站轉換率,人們在網站上停留多長時間以及信任/信譽產生負面影響。他們使用由LetGo。com提供的公開資料集訓練的深度神經網路模型。目的是衡量影象質量對銷售和感知到的信任度的影響,但是他們無法衡量影象質量對可信賴性的影響。

影象失真

最常見的影象失真是白噪聲(WN),高斯模糊(GB),JPEG壓縮和JP2K壓縮。例如,晚上在用手機拍攝照片時,可能會引起白噪聲失真;如果在拍攝前未正確聚焦,則可能導致高斯模糊。

影象質量評估|調研

影象質量評估|調研

文獻回顧

影象質量評估(IQA)方法主要分為兩類:(1)參考(reference)和(2)無參考(reference-less or blind)。參考的演算法需要原始(參考認為是高質量的)和失真的影象計算質量分數。基於參考的演算法已廣泛用於衡量在應用諸如影象壓縮,影象傳輸或影象拼接之類的處理後圖像的質量。例如,在影象壓縮方面需要權衡取捨;壓縮率越高,可感知的影象質量越低。作為另一個示例,擁有一種自動測量影象質量的方法可以幫助公司定義最佳壓縮引數,以在不影響使用者體驗的情況下最大化載入速度。另一方面,無參考側重於無法訪問原始影象的過程。

最初,無參考的IQA演算法特定於失真。因此,為了計算影象質量分數,需要在計算之前確定失真型別。因此,需要兩個模型,(1)一個預測失真型別的模型,以及(2)給定失真型別的一個預測質量分數的模型。這些方法的整體效能要低得多,並且研究工作繼續朝著通用方法發展。

幾位研究人員發現,自然影象統計(NSS)以及諸如小波和離散餘弦變換(DCT)域之類的變換是評估影象失真程度的有力鑑別器。這些方法一直佔據主導地位,直到被基於特徵學習的新演算法所取代。如果有足夠的資料,這些演算法將超越基於手工(hand-crafted)特徵的演算法的效能。主要缺點是引數數量激增,增加了缺乏泛化能力的風險。

問題描述

影象質量評估(IQA)與其他影象應用不同。與分類,目標檢測或分割相反,IQA資料集的收集是複雜且費時的。因此,大型資料集的建立是昂貴的,因為它需要負責確保方法正確執行的專家的監督。另一個限制是,由於不得修改參考影象的畫素結構,因此無法使用資料增強。

方法

大多數最新演算法都專注於特徵學習。如前所述,這些方法的主要侷限性在於廣泛資料集泛化的必要性。但是,最新的方法側重於混合方法,該方法第一步是自動學習hi質量相關(quality-aware)特徵 ,其次將這些特徵與質量分數相關聯。

本節的目的是介紹三種與以前的方法相比具有出色效能的完全不同的方法。第一種方法基於經過訓練以學習objective error map的深度神經網路。第二種方法引入了多個偽參考影象(MPRI)的概念,並透過高階統計量彙總來提取特徵;第三種方法則利用了無監督的kMeans聚類來建立影象質量特徵碼本(characteristics codebook)。

Deep CNN-Based Blind Image Quality Predictor (DIQA)

如前所述,影象質量評估的重大挑戰之一是標記影象的成本。但是,Jongyoo Kim等人在[1]中透過將訓練分為兩個步驟,找到了一種利用大量資料的方法(參見下圖):

訓練可學習objective error map的卷積神經網路(CNN)。使用subjective scores微調CNN。

影象質量評估|調研

第一步,由於使用了CNN,可以學習原始影象和失真影象之間的error map,因此無需使用人類意見評分。我們可以使用偽參考影象(PRI)及其失真的概念擴充套件第一階段資料集的大小(請參閱下面的BMPRI演算法)。

在第二步中,在Conv8 之後新增兩個全連線的層,並使用subjective scores進行微調以學習人類的觀點。

影象質量評估|調研

學習 Objective Error Map

第一階段是迴歸分析,目的是學習objective error map。它由上圖中的紅色箭頭描述。損失函式定義為預測的和真實的error maps的均方誤差。此外,透過可靠的map預測來加權這樣的error maps之間的差異。

透過可靠的map預測r具有透過測量失真影象的紋理強度來避免在同質區域中預測失敗的作用。

真實誤差只是參考影象和失真影象之間的差的p次方。作者建議p = 0。2,以使誤差分佈範圍從0到1。

學習 Subjective Opinion

在訓練了第一個模型以預測objective error maps之後,使用第一個網路並新增兩個全連線層來建立一個新的網路。為了利用不同大小的影象,對Conv8應用全域性平均池化(GAP),並將其變成全連線層。為了補償丟失的資訊,將兩個手工特徵μ和σ連線到FC1(請參見上圖)。該階段的損失函式定義為:

其中v是應用於Conv8的全域性平均池化操作。

Blind Image Quality Estimation via Distortion Aggravation (BMPRI)

透過失真加重(distortion aggravation )進行無參考影象質量估計的主要思想是消除參考影象的概念,而使用失真影象。因此,作者介紹了多個偽參考影象(MPRI)的思想。MPRI由失真影象生成。因此,偽參考影象(PRI)的質量通常比它的失真影象差。

該方法的思想是透過進一步‘降解’失真影象生成一系列的PRI,然後利用local binary patterns(LBP)測量它們之間的相似性來評估其質量。

失真加重

作者說,選擇失真型別至關重要,因為不同的失真會引入不同的偽影,並且需要有一致的PRI。例如,為了估計模糊的偽影,我們可以對失真的影象進行模糊處理。選定的失真為JPEG,JP2K,高斯模糊(GB)和白噪聲(WN),以測量阻塞,振鈴,模糊和噪聲偽影。

其中i∈{1,2,3,4,5}表示第i級的失真加重,k和r,b,n表示阻塞,振鈴,模糊和噪聲效應。

LBP特徵提取

為每個MPRI和失真的影象提取LBP特徵。最初,這些特徵用於對不同型別的紋理進行分類。

影象質量評估|調研

其中,

為簡單起見,作者建議P = 4和R =1。

失真影象與MPRI之間的相似度

為了計算失真加重的影象和失真影象之間的相似度,我們將Lo定義為失真影象(Ld)和MPRI (Lm)特徵圖之間的重疊

其中,

然後質量被定義為:

質量預測

在為所有先前定義的加重計算q分數後,我們需要將所有得到的得分連線到一個特徵向量q中,該特徵向量q包含失真影象的阻塞,振鈴,模糊和噪聲效果的描述符。

最後,訓練一個迴歸器,將訓練集中影象的質量標籤(MOS)對映到特徵向量q上。

Blind Image Quality Assessment Based on High Order Statistics Aggregation (HOSA)

HOSA方法是一種混合演算法,它利用了無監督學習階段的功能,該階段可以檢測一組失真影象中的相似塊。此步驟稱為碼本構造(codebook construction)。然後,第二步使用訓練資料集來查詢每個新塊與碼本中五個最接近的碼字(codewords)之間的相似性以訓練迴歸器。

HOSA演算法分為兩個不同的步驟:

碼本構造(Codebook construction):將一組影象分成N個塊,用於建立碼本。該碼本是一組K個質量相關的碼字。高階統計量彙總(High order statistics aggregation):給定一個新的訓練資料集,對於每個新塊,將使用它們的高階統計量來關聯5個最近的簇。

影象質量評估|調研

區域性特徵提取

該方法的總體思路是為每個影象找到一組N個歸一化的B x B影象塊I(i,j)(區域性特徵提取階段),每個塊都被歸一化然後用於建立特徵向量。此過程將應用於初始集的所有圖片。作者選擇了CSIQ資料庫。

碼本構造

HOSA不是唯一基於碼本的方法。它是一個多個作者遵循的框架,用於自動檢測對評估影象質量有用的影象特徵。碼本框架依賴於將影象劃分為資訊區域的想法。一個資訊豐富的區域稱為可視碼字,一組可視碼字構成可視碼本。基於碼本框架的方法之間的區別在於建立此類碼本的演算法。在這種方法中,碼字的數量為100。

為了建立碼本,給定集合X包含初始資料集的區域性特徵,可以透過使用KMeans最小化累積近似誤差來找到K箇中心。

對於每個簇,均值,協方差和協偏度被計算。

高階統計量彙總

對於訓練集中的每個單個區域性特徵x,透過歐幾里得距離選擇r個最近的碼字rNN(x)。作者建議r = 5。計算簇平均值和r個最近碼字之間的殘差。

影象質量評估|調研

實際上,對於兩個不同的特徵集,簇k的平均值與指定的r個區域性特徵的平均值之間的軟加權差可能會生成相同的m。因此,計算第二和第三階統計量以進一步區分不同的質量等級影象。

影象質量評估|調研

最後,對於訓練集中的每個區域性特徵x,將為碼本中的每個簇計算一階,二階和三階統計量,並將其連線起來以建立單個質量相關的特徵向量。

使用質量相關特徵向量作為描述符訓練迴歸器以來學習subjective scores。

效能比較

SRCC( Spearman rank-order correlation coefficient)用於比較不同的方法。根據結果,這三種方法的效果相似。他們通常使用質量相關學習特徵來計算分數。與依靠手工特徵的方法BRISQUE相比,SRCC有了顯著提升。

影象質量評估|調研

總結

簡要介紹了三種最新的影象質量評估方法。所有這些都是基於特徵學習來檢測影象上的失真。根據作者提供的SRCC分數,這些方法始終優於以前的依靠手工特徵來計算影象質量的方法。

參考文獻

[1] Kim, J。, Nguyen, A。 D。, & Lee, S。 (2019)。 Deep CNN-Based Blind Image Quality Predictor。 IEEE Transactions on Neural Networks and Learning Systems。 https://doi。org/10。1109/TNNLS。2018。2829819

[2] Mezghani, LinaWilber, K。, Hong, H。, Piramuthu, R。, Naaman, M。, & Belongie, S。 (2019)。 Understanding Image Quality and Trust in Peer-to-Peer etplaces。 In 2019 IEEE Winter Conference on Applications of Computer Vision (WACV) (pp。 511–520)。 IEEE。 https://doi。org/arXiv:1811。10648v1

[3] Min, X。, Member, S。, Gu, K。, Zhai, G。, & Liu, J。 (2018)。 Blind Quality Assessment Based on Pseudo-Reference Image, 20(8), 2049–2062。 https://doi。org/10。1109/TMM。2017。2788206

[4] Min, X。, Zhai, G。, Gu, K。, Liu, Y。, & Yang, X。 (2018)。 Blind Image Quality Estimation via Distortion Aggravation。 IEEE Transactions on Broadcasting, 64(2), 508–517。 https://doi。org/10。1109/TBC。2018。2816783

[5] Xu, J。, Ye, P。, Li, Q。, Du, H。, Liu, Y。, & Doermann, D。 (2016)。 Blind Image Quality Assessment Based on High Order Statistics Aggregation。 IEEE Transactions on Image Processing, 25(9), 4444–4457。 Retrieved from https://ieeexplore。ieee。org/abstract/document/7501619/

Tags:影象失真質量碼本方法