胡明輝 李俊 桂林電子科技大學(xué)
引言:異常的本質(zhì)性的定義是:異常是數(shù)據(jù)集中與眾不同的數(shù)據(jù),這些數(shù)據(jù)并非隨機(jī)偏差,而是來(lái)自于完全不同的機(jī)制。
異常檢測(cè)的目標(biāo)是找出給出數(shù)據(jù)集中的異常,由于異常檢測(cè)任務(wù)中只有目標(biāo)樣本充分采樣,而異常往往欠采樣,故目前的異常檢測(cè),一般均從已知的正常類(lèi)數(shù)據(jù)中進(jìn)行學(xué)習(xí),建立正常行為的模型來(lái)進(jìn)行異常檢測(cè)。
在圖像處理領(lǐng)域,異常的圖像是和大部分圖像都不太一樣的圖像,這些圖像的質(zhì)量往往是很差的,比如圖像模糊、顯示不全、噪聲嚴(yán)重等。異常檢測(cè)可以找出這些異常的圖像,方便下一步的處理。
利用概率密度比的方法來(lái)進(jìn)行異常檢測(cè)已被證明是一種很好的方法,通過(guò)求解正常樣本集與要檢測(cè)樣本集的概率密度比的值來(lái)判斷異常。根據(jù)異常的定義,異常一般發(fā)生在概率密度值很小的范圍內(nèi),當(dāng)用正常樣本集的概率密度函數(shù)與要檢測(cè)樣本集的概率密度函數(shù)相比時(shí),在異常處的概率密度比值會(huì)相對(duì)很小,這樣異常就會(huì)被檢測(cè)出來(lái)。
uLSIF(無(wú)限制條件的最小二乘擬合算法),就是用最小二乘方法對(duì)未知方程進(jìn)行擬合來(lái)求得方程的輸入對(duì)應(yīng)的輸出。無(wú)限制條件是指用最小二乘法擬合時(shí)的損失函數(shù)是沒(méi)有限制條件的二次凸函數(shù),而且損失函數(shù)的罰項(xiàng)為二次正則項(xiàng),可以對(duì)擬合方程進(jìn)行求導(dǎo)來(lái)求得擬合方程的系數(shù)矩陣,系數(shù)矩陣的值是非負(fù)的。
當(dāng)用uLSIF算法時(shí),要求直接密度比估計(jì),需要先假設(shè)估計(jì)模型,然后構(gòu)造代價(jià)函數(shù)用最小二乘法逼近真實(shí)值,當(dāng)代價(jià)函數(shù)最小時(shí)估計(jì)模型最優(yōu)。我們?cè)O(shè)概率密度比的估計(jì)為,定義損失函數(shù)為平方損失函數(shù):,均方差:
又由于x為測(cè)試集樣本概率密度函數(shù)。所以:
J(α)為J0(α)忽略最后一項(xiàng)常數(shù)項(xiàng)后的值。J(α)可以認(rèn)為是兩個(gè)期望的相減。損失函數(shù)最終可以用表示(uLSIF準(zhǔn)則):
用卷積神經(jīng)網(wǎng)絡(luò)(CNN)求解概率密度比時(shí),根據(jù)uLSIF準(zhǔn)則,是估計(jì)的直接密度比函數(shù),為總的損失函數(shù)。在CNN中對(duì)于單個(gè)的獨(dú)立樣本可以把損失函數(shù)等價(jià)為:
為了訓(xùn)練CNN求解直接概率密度比,要把訓(xùn)練集分成兩部分,一部分是全是正常樣本的標(biāo)準(zhǔn)集,另一部分既有正常樣本也有異常樣本,我們稱(chēng)之為評(píng)價(jià)集。評(píng)價(jià)集包含訓(xùn)練集所有的異常樣本,其他的樣本從標(biāo)準(zhǔn)集中選取。
CNN根據(jù)反向傳播算法更新參數(shù)完成對(duì)網(wǎng)絡(luò)的訓(xùn)練。訓(xùn)練階段完成時(shí),損失函數(shù)調(diào)節(jié)為最小,參數(shù)調(diào)節(jié)結(jié)束。對(duì)于每個(gè)評(píng)價(jià)樣本輸入到訓(xùn)練好的CNN,輸出是對(duì)樣本進(jìn)行求解的直接概率密度比估計(jì)值。
在測(cè)試階段,輸入測(cè)試樣本到已經(jīng)訓(xùn)練好的CNN,把求得的測(cè)試樣本對(duì)應(yīng)的直接概率密度比值小于閾值的檢測(cè)為異常。
本文根據(jù)直接概率密度比估計(jì)用于異常檢測(cè)的思想,提出了使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)求解概率密度比估計(jì),再根據(jù)概率密度比估計(jì)值進(jìn)行圖像的異常檢測(cè)。該方法利用了卷積神經(jīng)網(wǎng)絡(luò)模擬函數(shù)和自動(dòng)提取圖像特征的能力,比傳統(tǒng)方法在思想上更加簡(jiǎn)潔、易于實(shí)施。