唐璐 趙英
關(guān)鍵詞: 圖像分割; 計算機視覺; 深度學(xué)習(xí); 數(shù)據(jù)集; 評價指標
0 引言
圖像分割[1]是計算機視覺中的一個重要任務(wù),其目的是將一幅圖像分割成不同的對象。在許多應(yīng)用中,如圖像識別[2]、目標跟蹤和機器人導(dǎo)航等,圖像分割都是一個必要的前置任務(wù)。圖像分割一直是計算機視覺研究熱點之一,許多傳統(tǒng)的方法已經(jīng)被提出并被廣泛使用。近年來,深度學(xué)習(xí)[3]方法的發(fā)展為圖像分割帶來了新的突破,尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolu?tional Neural Networks,CNN) [4]的出現(xiàn),使得圖像分割的性能有了大幅提升。
1 傳統(tǒng)的圖像分割方法
1.1 基于閾值的方法
基于閾值的方法通常將圖像中的像素值與一個固定的閾值進行比較。該方法的主要思想是根據(jù)像素值的大小將圖像中的不同區(qū)域分割出來。它的主要步驟:1) 確定閾值:通過試驗或根據(jù)應(yīng)用場景確定一個合適的閾值,將圖像中的像素值分為兩類,例如背景和前景。2) 閾值分割:將圖像中的每個像素值與所確定的閾值進行比較,根據(jù)比較結(jié)果將其分為兩個類別。3) 后處理:進行形態(tài)學(xué)操作和噪聲濾波等后處理操作,消除分割圖像中的噪聲和小的不連續(xù)區(qū)域。其方法簡單易懂、計算量小,但由于閾值選擇的固定性,對于圖像中像素值變化大、光照不均勻等情況下效果較差,如果選擇的閾值不合適,可能會導(dǎo)致圖像分割結(jié)果不準確。因此,為了得到更好的分割效果,需要根據(jù)圖像特點選擇合適的閾值確定方法,并對閾值進行優(yōu)化。
1.2 基于邊緣的方法
基于區(qū)域的圖像分割方法是將圖像分割問題轉(zhuǎn)化為區(qū)域的分割問題,將圖像分成若干個不相交的區(qū)域,并將每個區(qū)域標記為屬于不同類別的像素。這種方法的主要思想是將具有相似顏色、紋理、形狀等特征的像素聚合成一個區(qū)域,并將區(qū)域劃分為前景和背景。它的主要步驟:1) 超像素分割:將圖像分割成一些超像素,每個超像素由若干個像素組成,具有相似的顏色、紋理、形狀等特征。2) 特征提?。簩γ總€超像素提取特征,如顏色直方圖、紋理特征、邊緣特征等。3) 區(qū)域合并:通過合并相鄰的超像素來生成區(qū)域。合并的標準可以是相似度、距離或者其他特征。4) 分類:將每個區(qū)域分類為前景或背景。該方法的優(yōu)點是,它可以考慮每個區(qū)域的上下文信息,從而更好地處理復(fù)雜的圖像。然而,由于需要對每個區(qū)域進行分類,因此速度較慢,并且需要高質(zhì)量的特征提取器和分類器。
1.4 基于聚類的方法
基于聚類的方法將像素點分為不同的聚類,每個聚類代表一種顏色或灰度值。常見的聚類算法包括K-means 和Mean-shift 算法等,K-Means 算法是一種典型的基于劃分的聚類算法,也是一種無監(jiān)督學(xué)習(xí)算法,對給定的樣本集,用歐氏距離作為衡量數(shù)據(jù)對象間相似度的指標,相似度與數(shù)據(jù)對象間的距離成反比,相似度越大,距離越小。Mean-shift算法是一種通用的尋找數(shù)據(jù)局部眾數(shù)的搜索算法。對于給定的一定數(shù)量樣本,隨便選擇一個點作為中心點,計算該點在一定范圍之內(nèi)所有點到中心點的距離向量的平均值,作為偏移均值,然后將中心點移動到偏移均值位置,通過這種不斷重復(fù)的移動,可以使中心點逐步逼近到最佳位置,即選擇的初始中心點會從沿一定變化方向移動到高密度中心點。基于聚類的方法計算速度快,但是需要事先確定聚類數(shù)量和聚類中心。
綜上,這些方法通常不需要大量的計算資源和訓(xùn)練樣本,但是由于特征提取和分類的過程是分離的,其分割結(jié)果可能不夠精確。
2 深度學(xué)習(xí)方法
CNN是基于深度學(xué)習(xí)的圖像分割方法中最常見的一種。它利用卷積操作在不同的層次提取圖像特征,然后利用全連接層將特征映射到相應(yīng)的分割結(jié)果。它是由輸入層、卷積層、采樣層(池化層)和全連接層交叉堆疊而成的前饋神經(jīng)網(wǎng)絡(luò),使用反向傳播算法進行訓(xùn)練,如圖1。CNN有三個特性:局部連接、權(quán)重共享和匯聚。這些特性使得它具有一定程度上的平移、縮放和旋轉(zhuǎn)不變性。它主要使用在圖像和視頻分析的各種任務(wù)上,比如圖像分類、物體識別、圖像分割等,其準確率也遠遠超出了其他的神經(jīng)網(wǎng)絡(luò)模型。它能夠提取更加豐富的特征信息,具有較高的精度和魯棒性,參數(shù)量較少,但是需要較大的計算資源和訓(xùn)練樣本。
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割方法,相較于傳統(tǒng)的基于閾值、邊緣、區(qū)域和聚類的方法,具有更高的準確度和更強的泛化能力。其基本流程如下:1) 數(shù)據(jù)預(yù)處理:對圖像進行預(yù)處理,包括圖像尺寸歸一化、數(shù)據(jù)增強等。2) 搭建CNN:選擇適合的CNN模型,并對其進行修改以適應(yīng)圖像分割任務(wù)。3) 訓(xùn)練網(wǎng)絡(luò):將準備好的數(shù)據(jù)集送入網(wǎng)絡(luò)進行訓(xùn)練,通過優(yōu)化目標函數(shù)使網(wǎng)絡(luò)輸出的分割結(jié)果逐漸接近于真實分割結(jié)果。4) 預(yù)測分割結(jié)果:用訓(xùn)練好的網(wǎng)絡(luò)對新的圖像進行分割預(yù)測?;贑NN的方法具有較高的分割準確度和魯棒性,但同時也需要大量的訓(xùn)練數(shù)據(jù)和計算資源。因此,在實際應(yīng)用中需要考慮訓(xùn)練時間和硬件資源等問題??傮w來說,基于CNN的圖像分割方法在像素級別的目標分割任務(wù)中具有優(yōu)秀的性能和廣泛的應(yīng)用前景。
3 數(shù)據(jù)集
數(shù)據(jù)集的質(zhì)量和數(shù)量對圖像分割方法的性能和效果有很大影響。因此,選擇合適的數(shù)據(jù)集非常重要。在選擇數(shù)據(jù)集時,需要根據(jù)具體應(yīng)用場景和算法需求進行選擇,同時需要注意數(shù)據(jù)集的標注質(zhì)量和數(shù)量,以及數(shù)據(jù)集的廣泛使用程度等因素。此外,對于一些復(fù)雜的場景,還需要進行數(shù)據(jù)增強以增加訓(xùn)練數(shù)據(jù)的數(shù)量,表1對PASCAL VOC、MS COCO和CamVid 常用數(shù)據(jù)集一些基本信息進行了匯總。
PASCAL VOC:包括20個對象類別,例如人、車、動物等。數(shù)據(jù)集包括11 530個圖像,每個圖像都有一個語義分割標注,該數(shù)據(jù)集的標注非常準確,是評估圖像分割算法的重要基準。MS COCO:包括80個對象類別,例如人、車、飛機等。數(shù)據(jù)集包括330 000個圖像,每個圖像都有一個實例分割標注和語義分割標注,該數(shù)據(jù)集的標注非常精細,是評估圖像分割算法的重要基準。CamVid:包括11個對象類別,例如路標、行人等。數(shù)據(jù)集包括701個視頻幀,每個幀都有一個像素級別的標注,該數(shù)據(jù)集是評估視頻分割算法的重要基準之一。
4 評價指標
TP(True Positive) :真正例,模型預(yù)測為正例,實際是正例;FP(False Positive) :假正例,模型預(yù)測為正例,實際是反例;FN(False Negative) :假反例,模型預(yù)測為反例,實際是正例;TN(True Negative) :真反例,模型預(yù)測為反例,實際是反例;n表示類別數(shù),如表2所示。
4.1 Mean Intersection over Union(MIoU)
MIoU是一種常用的圖像分割評價指標[5],用于衡量模型在像素級別上預(yù)測結(jié)果與真實標注的重疊程度。IoU是一種常用的評價指標,可以衡量分割結(jié)果與真實標注之間的重疊程度。MIoU 即為所有類別IoU的平均值。適用于多類別分割,對不平衡數(shù)據(jù)集的魯棒較好,但計算量較大,公式如下:
4.2 Pixel Accuracy(PA)
PA是分割準確率的一種度量方式,它表示預(yù)測的像素分類結(jié)果與真實標簽的像素分類結(jié)果,相匹配的像素數(shù)占總像素數(shù)的比例。簡單易懂,易于計算,但不適用于不平衡數(shù)據(jù)集,公式如下:
4.3 Precision
Precision表示模型預(yù)測為正例的所有樣本中,預(yù)測正確(真實標簽為正)樣本的占比,公式如下:
4.4 Recall
Recall表示所有真實標簽為正的樣本,有多大百分比被預(yù)測出來,公式如下:
4.5 F1 Score(F1)
F1綜合了Precision和Recall兩個指標,是一個比較全面的評價指標。適用于不平衡數(shù)據(jù)集,不適用于樣本比例不同的情況,公式如下:
5 結(jié)論
圖像分割在許多領(lǐng)域中都有廣泛的應(yīng)用,如醫(yī)學(xué)影像[6]、自然圖像和遙感圖像等。在醫(yī)學(xué)影像領(lǐng)域中,圖像分割能夠幫助醫(yī)生進行病變檢測和診斷,如腫瘤分割和心臟分割等。在自然圖像領(lǐng)域中,圖像分割能夠幫助計算機識別不同的物體,并進行目標跟蹤和圖像檢索等。在遙感圖像領(lǐng)域中,圖像分割能夠幫助計算機對地面物體進行分類和監(jiān)測,如土地利用和城市規(guī)劃等。然而,圖像分割仍然存在一些挑戰(zhàn)和難點。首先,圖像分割需要大量的標注數(shù)據(jù)和計算資源,這在訓(xùn)練和應(yīng)用中都是一個難點。其次,圖像分割需要解決一些具體的問題,如處理圖像中的噪聲、模糊和邊緣不清等問題。此外,不同的圖像分割方法適用于不同的場景,如何選擇合適的方法進行分割也是一個難點。綜上所述,基于CNN的圖像分割方法在圖像分割領(lǐng)域取得了顯著的進展,具有更好的性能和更高的準確度,但也存在一些缺點。未來,需要繼續(xù)探索更加高效和準確的圖像分割算法,以滿足實際應(yīng)用中的需求。