首頁 > 藝術

通俗講解深度學習中的影象分割技術

由 CDA資料分析師 發表于 藝術2021-09-04

簡介comApolloScape Scene Parsing百度公司提供的 ApolloScape 資料集將包括具有高解析度影象和每畫素標註的 RGB 影片,具有語義分割的測量級密集3D點,立體影片和全景影象

如何按比例切割圖片

作者:來自讀者投稿

整理:陽哥

大家好,我是陽哥。

今天來跟大家分享 深度學習中影象分割技術 相關的知識點,文章內容由公眾號讀者創作。

近幾年來,深度學習技術發展迅速,自動駕駛、目標檢測、人臉識別等熱門科技逐漸走進人們的生活當中,今天小編帶大家一起來認識影象分割技術。

影象分割

影象分割,顧名思義就是根據某些規則將圖片分成若干特定的、具有獨特性質的區域,並抽取出感興趣的目標。

下圖展示了影象分割領域的幾種子領域:

語義分割:對於一張影象,分割出所有的目標(包括背景),但對於同一類別的目標,無法區別不同個體。

例項分割:將影象中除背景之外的所有目標分割出來,並且可以區分同一類別下的不同個體(例如第三幅圖中每個人都用不同的顏色表示)

全景分割:在例項分割的基礎上,可以分割出背景目標。

通俗講解深度學習中的影象分割技術

幾種分割方式的關係

下圖說明了什麼是語義分割,從畫素層次上來識別影象,為影象中的每個畫素指定類別標記,如圖,使用相應的顏色表示不同的類別,來標記影象中的每個畫素。

通俗講解深度學習中的影象分割技術

語義分割與例項分割最主要的區別就是,例項分割在正確檢測目標的同時,還要精確的分割出每個例項,但不包括背景資訊。

通俗講解深度學習中的影象分割技術

分割在影象中的表達

我們知道,影象在計算機中的表達方式是數字,對於一張影象中的每個目標來說,計算機對他們的認識則是透過畫素完成的,如下圖,對影象進行標註的時候,將人用數字1表示,包用數字2,樹葉用數字3表示,透過不同的數字來區分不同的類別。

通俗講解深度學習中的影象分割技術

這些數字也叫做掩膜Mask,它表示影象中存在特定類別的區域,每個類別構成一個數組。

通俗講解深度學習中的影象分割技術

影象分割應用

關於影象分割的應用也有很多,例如自動駕駛,醫學影象診斷等等,都需要分割出對我們有用的目標。

通俗講解深度學習中的影象分割技術

常用的影象資料集

影象分割領域常用的資料集有以下幾種:

PASCAL VOC

COCO

BDD100K

CamVid

Cityscapes Dataset

ApolloScape Scene Parsing

PASCAL VOC

VOC 2012 資料集分為20類,包括背景有21類,分別如下:

人:人

動物:鳥、貓、牛、狗、馬、羊

車輛:飛機、腳踏車、船、巴士、汽車、摩托車、火車

室內:瓶子、椅子、餐桌、植物、沙發、電視

資料集的下載連結為:

http://host。robots。ox。ac。uk/pascal/VOC/voc2012/index。html

通俗講解深度學習中的影象分割技術

COCO

COCO 資料集起源於2014年微軟出資標註的Microsoft COCO資料集,它提供的類別有80類,超過33萬張圖片,其中20萬張有標註,整個資料集中個體數目超過150萬個。

資料集的下載連結為:

http://cocodataset。org/

通俗講解深度學習中的影象分割技術

BDD100K

2018年5月伯克利大學AI實驗室釋出了目前最大規模、內容最具多樣性的公開駕駛資料集BDD100K,同時設計了一個圖片標註系統。BDD100K 資料集包含10萬段高畫質影片,每個影片約40秒,720p,30 fps 。每個影片的第10秒對關鍵幀進行取樣,得到10萬張圖片(圖片尺寸:1280*720 ),並進行標註。

資料集的下載連結為:

https://bair。berkeley。edu/blog/2018/05/30/bdd/

通俗講解深度學習中的影象分割技術

CamVid

CamVid 是第一個具有目標類別語義標籤的影片集合。資料庫提供32個ground truth語義標籤,將每個畫素與語義類別之一相關聯。

該資料庫解決了對實驗資料的需求,以定量評估新興演算法。資料是從駕駛汽車的角度拍攝的。

資料集的下載連結為:

http://mi。eng。cam。ac。uk/research/projects/VideoRec/CamVid/

通俗講解深度學習中的影象分割技術

Cityscapes Dataset

包含戴姆勒在內的三家德國單位聯合提供,包含50多個城市的立體視覺資料;畫素級標註;提供演算法評估介面。

資料集的下載連結為:

https://www。cityscapes-dataset。com/

通俗講解深度學習中的影象分割技術

ApolloScape Scene Parsing

百度公司提供的 ApolloScape 資料集將包括具有高解析度影象和每畫素標註的 RGB 影片,具有語義分割的測量級密集3D點,立體影片和全景影象。

Scene Parsing 資料集是 ApolloScape 的一部分,它為高階自動駕駛研究提供了一套工具和資料集。場景解析旨在為影象中的每個畫素或點雲中的每個點分配類別(語義)標籤。

下面是幾種資料集的比較,可以針對不同使用場景,選擇合適的資料集進行訓練。

通俗講解深度學習中的影象分割技術

常用的影象標註工具

這裡小編為大家總結了幾種常用的影象標註工具,以滿足不同任務的需求。

Labelme:適合通用物體的標註,需要用多邊形擬合物體。支援物件檢測、影象語義分割資料標註,實現語言為 Python 與 QT,支援匯出 VOC 與 COCO 格式資料例項分割。連結:https://github。com/wkentaro/labelme

LabelImg:適用於影象檢測任務的資料集製作,其中標籤儲存功能和“Next Image”、“Prev Image”的設計使用起來比較方便。該軟體最後儲存的 xml 檔案格式和 ImageNet 資料集是一樣的。連結:https://github。com/tzutalin/labelImg

RectLabel:支援匯出 YOLO、KITTI、COCOJSON 與 CSV 格式,讀寫 Pascal VOC 格式的 XML 檔案。連結:https://rectlabel。com/

VIA:VGG釋出的一種基於 WEB 方式的影象標註工具,使用起來方便快捷,適用於例項分割等標註任務。連結:http://www。robots。ox。ac。uk/~vgg/software/via/

OpenCV/CVAT:高效的計算機視覺標註工具,支援影象分類、物件檢測框、影象語義分割、例項分割資料標註線上標註工具。支援影象與影片資料標註,最重要的是支援本地部署,無需擔心資料外洩。連結:https://github。com/opencv/cvat

VOTT:微軟釋出的基於 WEB 方式本地部署的視覺資料標註工具。支援影象與影片資料標註,支援匯出 CNTK/Pascal VOC 格式,支援匯出TFRecord、CSV、VoTT 格式,當前主要分支版本有 V1 與 V2 版本。連結:https://github。com/microsoft/VoTT

Tags:影象分割標註資料語義