劉宏宇, 周 慧
(大連東軟信息學(xué)院大數(shù)據(jù)科學(xué)系, 遼寧 大連 116023)
目前,全球海運(yùn)業(yè)快速發(fā)展,因船只碰撞導(dǎo)致的溢油事故頻發(fā),而溢油監(jiān)測(cè)是溢油應(yīng)急管理和決策支持的主要部分[1-3]。
隨著機(jī)器學(xué)習(xí)算法的廣泛應(yīng)用,溢油的分類和檢測(cè)也越來越多地應(yīng)用機(jī)器學(xué)習(xí)方法[4-5]。例如,FINGAS等[6]使用馬爾可夫隨機(jī)場(chǎng)算法的油膜識(shí)別準(zhǔn)確率為86.5%。XU等[7]采用局部自適應(yīng)閾值和SVM分類器進(jìn)行溢油識(shí)別。在帶標(biāo)簽油膜樣本充足的情況下,上述方法是有效的。但在實(shí)際應(yīng)用中,油膜標(biāo)簽數(shù)據(jù)較少而無標(biāo)簽數(shù)據(jù)容易獲取。通過大量未標(biāo)記數(shù)據(jù)提升學(xué)習(xí)器性能,是目前應(yīng)用最為廣泛的半監(jiān)督學(xué)習(xí)方法[8]。
本文首先采用最大相關(guān)-最小冗余(mRMR)算法提取更具鑒別力的油膜特征,其次在標(biāo)簽數(shù)據(jù)較少的情況下,利用自適應(yīng)置信度的半監(jiān)督?jīng)Q策樹進(jìn)行溢油識(shí)別,最后采用公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)證明本文所提分類器具有較好的泛化能力。
在溢油識(shí)別的研究過程中,需要結(jié)合不同類別的圖像特征,而不是依賴于單一特征,主要包括幾何特征、統(tǒng)計(jì)特征、紋理特征等[9]。通常依靠經(jīng)驗(yàn)選擇溢油特征,但是僅憑經(jīng)驗(yàn)難以得到合適的特征集,尤其是特定油種。特征選擇算法是解決上述問題的有效手段之一[10]。利用mRMR算法對(duì)候選特征進(jìn)行有效選擇,計(jì)算特征與目標(biāo)變量之間的最大相關(guān)性,以及特征間的最小冗余性,利用互信息度量對(duì)特征進(jìn)行評(píng)價(jià),從特征集合中篩選出合適的特征子集。溢油特征選擇的具體過程如下。
(1)計(jì)算最大相關(guān)性與最小冗余度。最大相關(guān)性體現(xiàn)特征對(duì)類別的區(qū)分能力,具體是找到一個(gè)包含|S|個(gè)特征的特征集S,使得S中的所有特征與類別的相關(guān)性最大化;最小冗余度考慮特征之間最小相似性,具體是找到一個(gè)包含|S|個(gè)特征的特征集S,使得S中的每個(gè)特征之間是相互最小相似。
(1)
(2)
其中,S為特征子集,C={c1,c2,c3,…,cn}為類別變量,xi、xj為第i、j個(gè)特征,I為c(xi,xj)的相關(guān)函數(shù),即互信息,公式如下:
(3)
(2)利用增量搜索方法尋找近似最優(yōu)的特征。假設(shè)已有特征集Sm-1,并且xi∈X-Sm-1,maxΦ(D,R)作為特征評(píng)價(jià)標(biāo)準(zhǔn),其中Φ=D(S,C)/R(S),則mRMR評(píng)價(jià)條件如下:
(4)
(3)根據(jù)mRMR評(píng)價(jià)和排序結(jié)果,從初始的特征集中提取最具有分辨性的特征子集,組成輸入特征向量X,X=(x1,x2,…,xn)T。
在眾多的監(jiān)督學(xué)習(xí)分類算法中,決策樹是非常有效且應(yīng)用較為廣泛的經(jīng)典算法之一,具有參數(shù)少、容易解釋、適合集成等優(yōu)點(diǎn)。決策樹中的內(nèi)部結(jié)點(diǎn)稱為決策結(jié)點(diǎn),每個(gè)決策結(jié)點(diǎn)包含1個(gè)測(cè)試條件,并根據(jù)測(cè)試結(jié)果發(fā)射2個(gè)或2個(gè)以上的分支;樹中的葉子結(jié)點(diǎn)被稱為預(yù)測(cè)結(jié)點(diǎn),每個(gè)預(yù)測(cè)結(jié)點(diǎn)對(duì)應(yīng)1個(gè)類別(分類樹)。待預(yù)測(cè)的樣本從樹根出發(fā),依據(jù)自身輸入屬性值和當(dāng)前決策結(jié)點(diǎn)的測(cè)試條件決定流向哪個(gè)分支,當(dāng)?shù)竭_(dá)預(yù)測(cè)結(jié)點(diǎn)后,便得到預(yù)測(cè)結(jié)果。同時(shí),決策樹從根到葉子結(jié)點(diǎn)路徑上的測(cè)試條件的提取可以認(rèn)為是一條規(guī)則,一棵訓(xùn)練好的決策樹容易轉(zhuǎn)化為一系列預(yù)測(cè)規(guī)則。
自適應(yīng)的半監(jiān)督?jīng)Q策樹采用模糊聚類的方法劃分無標(biāo)簽樣本,該劃分方法將樣本到各個(gè)分類目標(biāo)(即簇心)的距離作為優(yōu)化目標(biāo)。自適應(yīng)的半監(jiān)督?jīng)Q策樹完成一次劃分后,樣本到各個(gè)簇心的距離同樣能反映該樣本隸屬于各個(gè)相應(yīng)簇的程度。對(duì)于一個(gè)樣本來說,它與哪個(gè)分類目標(biāo)的距離越近,則它對(duì)相應(yīng)類別的隸屬程度就越高。同時(shí),一個(gè)樣本對(duì)不同簇隸屬程度間的差異,也能反映該樣本劃分的模糊程度。如圖1中μ1、μ2和μ3分別表示三個(gè)簇的中心,無標(biāo)簽樣本x1、x2與μ1的距離分別小于它們與μ2、μ3的距離。從聚類的角度看,x1、x2都屬于簇C1;但從模糊聚類的角度看,x1與μ1的距離遠(yuǎn)遠(yuǎn)小于其與μ2、μ3的距離,x2與μ1的距離僅略小于其與μ2的距離。說明x2分簇模糊程度要高于x1的分簇模糊程度。
當(dāng)使用自適應(yīng)半監(jiān)督?jīng)Q策樹預(yù)測(cè)一個(gè)無標(biāo)簽樣本時(shí),樣本從根結(jié)點(diǎn)出發(fā),需要經(jīng)過多次劃分直至到達(dá)葉子結(jié)點(diǎn)。在每次劃分中,需要計(jì)算該樣本與當(dāng)前結(jié)點(diǎn)所有子結(jié)點(diǎn)表示簇的中心的距離,該樣本墜入具有最近距離的相應(yīng)分支。與此同時(shí),最近距離與次近距離的比值可以同時(shí)被計(jì)算求得,這個(gè)比值在這里被定義為該樣本在本輪劃分中的模糊度。假設(shè)圖1中的樣本x1與μ1、μ2和μ3的距離分別為0.1、1和2,樣本x1本輪的劃分模糊度為0.1/1=0.1,假設(shè)圖1中樣本x2與μ1、μ2和μ3的距離分別為0.4、0.5和2.3,樣本x2本輪的劃分模糊度為0.4/0.5=0.8。
預(yù)測(cè)時(shí),當(dāng)無標(biāo)簽樣本經(jīng)歷多次劃分到達(dá)葉子結(jié)點(diǎn)后,該樣本的各輪劃分模糊度已經(jīng)被計(jì)算,這些模糊度的平均值就是關(guān)于這個(gè)樣本的預(yù)測(cè)模糊度,可用于衡量對(duì)該樣本預(yù)測(cè)的置信程度。預(yù)測(cè)模糊度越低,表示預(yù)測(cè)置信度越高。公式(5)和公式(6)給出了樣本x預(yù)測(cè)模糊度的計(jì)算方法。
(5)
dis(i,x,μ)=(x-μ)TC-1(x-μ)
(6)
公式(5)和公式(6)中,x為mRMR特征選擇方法提取溢油圖片的灰度統(tǒng)計(jì)特征和紋理統(tǒng)計(jì)特征,fuzziness(x)表示樣本x獲得的預(yù)測(cè)模糊度,ns表示樣本x被劃分的次數(shù),dis(i,x,μnearest1)和dis(i,x,μnearest2)分別表示第i輪劃分中樣本x與最近簇心和次近簇心的距離,C為特征向量x協(xié)方差矩陣,C=E{[x-E(x)][x-E(x)T]}。
實(shí)驗(yàn)利用訓(xùn)練集提取特征向量并根據(jù)訓(xùn)練模型識(shí)別遙感圖像中的油膜與非油膜。獲取溢油特征后,利用mRMR算法進(jìn)行特征提取,并且分別利用決策樹和SVM兩個(gè)分類模型驗(yàn)證特征的有效性。不同的特征提取數(shù)量對(duì)應(yīng)的油膜識(shí)別準(zhǔn)確率如表1所示。
通過實(shí)驗(yàn)結(jié)果可以看出,利用mRMR計(jì)算特征之間的相關(guān)性,并從候選特征中篩選合適的特征子集,當(dāng)特征選擇個(gè)數(shù)為8個(gè)時(shí),在不同的分類算法中,溢油識(shí)別效果都能達(dá)到最好。最終提取的8個(gè)特征在油膜和非油膜的對(duì)比結(jié)果如圖2所示。
(a)角二階矩
(b)熵
(c)紋理局部相似性
(d)細(xì)長度
(e)灰度能量
(f)角能量
(g)灰度方差
(h)灰度均值圖2 mRMR特征選擇結(jié)果Fig.2 mRMR feature selection results
利用SAR圖像進(jìn)行海面溢油區(qū)域檢測(cè)過程中,無標(biāo)簽的雷達(dá)圖像樣本大量存在,而有標(biāo)簽樣本卻很難獲得,因此需要采用半監(jiān)督學(xué)習(xí)算法。為了模擬標(biāo)簽數(shù)據(jù)較少的場(chǎng)景,僅使用5.0%、7.5%、10.0%、15.0%和20.0%的標(biāo)簽樣本比例作為訓(xùn)練樣本,不同標(biāo)簽樣本比例下自適應(yīng)置信度半監(jiān)督?jīng)Q策樹模型的識(shí)別準(zhǔn)確率比決策樹模型分別高13.6%、7.5%、5.8%、5.6%和5.4%。不同標(biāo)簽樣本比例下的識(shí)別準(zhǔn)確率如表2所示。
在5.0%、7.5%、10.0%、15.0%和20.0%的標(biāo)簽樣本比例下,自適應(yīng)半監(jiān)督?jīng)Q策樹的最終模型識(shí)別準(zhǔn)確率分別為77.9%、79.2%、79.4%、80.3%和83.9%,說明利用自適應(yīng)半監(jiān)督?jīng)Q策樹多次自訓(xùn)練后,基本能夠?qū)W習(xí)到油膜的特征并識(shí)別出油膜圖像。
表3中,經(jīng)過mRMR特征選擇后,本文模型在不同標(biāo)簽樣本比例下都有最好的表現(xiàn),并且識(shí)別準(zhǔn)確率進(jìn)一步提升。在5.0%標(biāo)簽樣本比例下,本文模型的識(shí)別準(zhǔn)確率比SVM高30.8%,比決策樹提高22.4%;在7.5%標(biāo)簽樣本比例下,本文模型的識(shí)別準(zhǔn)確率比SVM和決策樹分別提升了31.1%和15.7%;在10.0%標(biāo)簽樣本比例下,本文模型的識(shí)別準(zhǔn)確率比SVM和決策樹分別提升了22.7%和15.1%;在15.0%標(biāo)簽樣本比例下,本文模型的識(shí)別準(zhǔn)確率比SVM和決策樹分別提升了24.1%和15.6%;在20.0%標(biāo)簽樣本比例下,本文模型的識(shí)別準(zhǔn)確率比SVM和決策樹分別提升了22.4%和12.3%。以上數(shù)據(jù)說明,在標(biāo)簽數(shù)據(jù)較少的情況下,自適應(yīng)半監(jiān)督?jīng)Q策樹通過挖掘無標(biāo)簽數(shù)據(jù)中的信息,獲得了性能更好的分類模型。相比監(jiān)督學(xué)習(xí)分類模型 SVM 和決策樹的識(shí)別準(zhǔn)確率,本文模型在不同標(biāo)簽樣本比例下平均提升了 26.22%和 16.22%。
為解決溢油檢測(cè)過程中油膜標(biāo)簽數(shù)據(jù)較少的問題,本文采用mRMR提取油膜標(biāo)簽的有效特征,然后在半監(jiān)督?jīng)Q策樹學(xué)習(xí)模型中引入自適應(yīng)置信度,采用基于模糊聚類的方法衡量樣本預(yù)測(cè)的置信程度,最終獲得具有較好泛化能力的分類器。在不同的標(biāo)簽樣本比例下分別進(jìn)行分類實(shí)驗(yàn)的結(jié)果表明,采用自適應(yīng)置信度的半監(jiān)督?jīng)Q策樹模型能夠有效地提高油膜識(shí)別準(zhǔn)確率;在標(biāo)簽樣本比例較低時(shí),模型的提升效果更為明顯。