首頁 > 藝術

通俗講解深度學習中的影象分割技術

由 CDA資料分析師發表于藝術2021-09-04

簡介comApolloScape Scene Parsing百度公司提供的 ApolloScape 資料集將包括具有高解析度影象和每畫素標註的 RGB 影片，具有語義分割的測量級密集3D點，立體影片和全景影象

如何按比例切割圖片

作者：來自讀者投稿

整理：陽哥

大家好，我是陽哥。

今天來跟大家分享深度學習中影象分割技術相關的知識點，文章內容由公眾號讀者創作。

近幾年來，深度學習技術發展迅速，自動駕駛、目標檢測、人臉識別等熱門科技逐漸走進人們的生活當中，今天小編帶大家一起來認識影象分割技術。

影象分割

影象分割，顧名思義就是根據某些規則將圖片分成若干特定的、具有獨特性質的區域，並抽取出感興趣的目標。

下圖展示了影象分割領域的幾種子領域：

語義分割：對於一張影象，分割出所有的目標（包括背景），但對於同一類別的目標，無法區別不同個體。

例項分割：將影象中除背景之外的所有目標分割出來，並且可以區分同一類別下的不同個體（例如第三幅圖中每個人都用不同的顏色表示）

全景分割：在例項分割的基礎上，可以分割出背景目標。

幾種分割方式的關係

下圖說明了什麼是語義分割，從畫素層次上來識別影象，為影象中的每個畫素指定類別標記，如圖，使用相應的顏色表示不同的類別，來標記影象中的每個畫素。

語義分割與例項分割最主要的區別就是，例項分割在正確檢測目標的同時，還要精確的分割出每個例項，但不包括背景資訊。

分割在影象中的表達

我們知道，影象在計算機中的表達方式是數字，對於一張影象中的每個目標來說，計算機對他們的認識則是透過畫素完成的，如下圖，對影象進行標註的時候，將人用數字1表示，包用數字2，樹葉用數字3表示，透過不同的數字來區分不同的類別。

這些數字也叫做掩膜Mask，它表示影象中存在特定類別的區域，每個類別構成一個數組。

影象分割應用

關於影象分割的應用也有很多，例如自動駕駛，醫學影象診斷等等，都需要分割出對我們有用的目標。

常用的影象資料集

影象分割領域常用的資料集有以下幾種：

PASCAL VOC

COCO

BDD100K

CamVid

Cityscapes Dataset

ApolloScape Scene Parsing

PASCAL VOC

VOC 2012 資料集分為20類，包括背景有21類，分別如下：

人：人

動物：鳥、貓、牛、狗、馬、羊

車輛：飛機、腳踏車、船、巴士、汽車、摩托車、火車

室內：瓶子、椅子、餐桌、植物、沙發、電視

資料集的下載連結為：

http：//host。robots。ox。ac。uk/pascal/VOC/voc2012/index。html

COCO

COCO 資料集起源於2014年微軟出資標註的Microsoft COCO資料集，它提供的類別有80類，超過33萬張圖片，其中20萬張有標註，整個資料集中個體數目超過150萬個。

資料集的下載連結為：

http：//cocodataset。org/

BDD100K

2018年5月伯克利大學AI實驗室釋出了目前最大規模、內容最具多樣性的公開駕駛資料集BDD100K，同時設計了一個圖片標註系統。BDD100K 資料集包含10萬段高畫質影片，每個影片約40秒，720p，30 fps 。每個影片的第10秒對關鍵幀進行取樣，得到10萬張圖片（圖片尺寸：1280*720 ），並進行標註。

資料集的下載連結為：

https：//bair。berkeley。edu/blog/2018/05/30/bdd/

CamVid

CamVid 是第一個具有目標類別語義標籤的影片集合。資料庫提供32個ground truth語義標籤，將每個畫素與語義類別之一相關聯。

該資料庫解決了對實驗資料的需求，以定量評估新興演算法。資料是從駕駛汽車的角度拍攝的。

資料集的下載連結為：

http：//mi。eng。cam。ac。uk/research/projects/VideoRec/CamVid/

Cityscapes Dataset

包含戴姆勒在內的三家德國單位聯合提供，包含50多個城市的立體視覺資料；畫素級標註；提供演算法評估介面。

資料集的下載連結為：

https：//www。cityscapes-dataset。com/

ApolloScape Scene Parsing

百度公司提供的 ApolloScape 資料集將包括具有高解析度影象和每畫素標註的 RGB 影片，具有語義分割的測量級密集3D點，立體影片和全景影象。

Scene Parsing 資料集是 ApolloScape 的一部分，它為高階自動駕駛研究提供了一套工具和資料集。場景解析旨在為影象中的每個畫素或點雲中的每個點分配類別（語義）標籤。

下面是幾種資料集的比較，可以針對不同使用場景，選擇合適的資料集進行訓練。

常用的影象標註工具

這裡小編為大家總結了幾種常用的影象標註工具，以滿足不同任務的需求。

Labelme：適合通用物體的標註，需要用多邊形擬合物體。支援物件檢測、影象語義分割資料標註，實現語言為 Python 與 QT，支援匯出 VOC 與 COCO 格式資料例項分割。連結：https：//github。com/wkentaro/labelme

LabelImg：適用於影象檢測任務的資料集製作，其中標籤儲存功能和“Next Image”、“Prev Image”的設計使用起來比較方便。該軟體最後儲存的 xml 檔案格式和 ImageNet 資料集是一樣的。連結：https：//github。com/tzutalin/labelImg

RectLabel：支援匯出 YOLO、KITTI、COCOJSON 與 CSV 格式，讀寫 Pascal VOC 格式的 XML 檔案。連結：https：//rectlabel。com/

VIA：VGG釋出的一種基於 WEB 方式的影象標註工具，使用起來方便快捷，適用於例項分割等標註任務。連結：http：//www。robots。ox。ac。uk/~vgg/software/via/

OpenCV/CVAT：高效的計算機視覺標註工具，支援影象分類、物件檢測框、影象語義分割、例項分割資料標註線上標註工具。支援影象與影片資料標註，最重要的是支援本地部署，無需擔心資料外洩。連結：https：//github。com/opencv/cvat

VOTT：微軟釋出的基於 WEB 方式本地部署的視覺資料標註工具。支援影象與影片資料標註，支援匯出 CNTK/Pascal VOC 格式，支援匯出TFRecord、CSV、VoTT 格式，當前主要分支版本有 V1 與 V2 版本。連結：https：//github。com/microsoft/VoTT

Tags：影象分割標註資料語義

上一篇：嚴世蕃：荒淫無度喜歡收藏“扇柄”，娶27個小妾成為西門慶原型

下一篇：用了這塊高光，你就是那個一捏一汪水的姑娘！

首頁 > 藝術

通俗講解深度學習中的影象分割技術

相關文章

推薦文章