高強,王明
(華北電力大學電氣與電子工程學院,河北保定071003)
機器學習作為人工智能技術的新發(fā)展,被廣泛應用于計算機視覺、語音識別[1]、手寫體識別[2]、人臉識別[3]和圖像處理等領域。其中,由Geoffrey Hinton[4]提出的深度信念網(wǎng)絡(Deep Belief Network,DBN)是機器學習中最重要的網(wǎng)絡結構之一,不同于支持向量機(Support Vector Machine,SVM)使用數(shù)學方法和優(yōu)化技術來構造超平面進行分類,其使用大量的數(shù)據(jù)訓練提取特征,得到最終的模型來進行分類和識別。在實際的絕緣子故障識別應用中,具有較好分類能力的深度信念網(wǎng)絡是一個較好的檢測手段。數(shù)據(jù)是模型訓練的關鍵,數(shù)據(jù)量要足夠大,模型的泛化性才能好,否則得到的模型不能形成對整個數(shù)據(jù)的描述,存在過擬合現(xiàn)象。
目前人們對DBN的應用研究[5-9]已經(jīng)非常多,但是DBN理論上的模型不夠清晰,實際應用中還存在很多小樣本問題。關于神經(jīng)網(wǎng)絡中的小樣本問題,大部分的出發(fā)點都是擴充樣本數(shù)或者間接利用小樣本來輔助優(yōu)化網(wǎng)絡模型,如文獻[10]中利用小樣本對神經(jīng)網(wǎng)絡可能的組合參數(shù)進行模擬訓練和測試,選取最優(yōu)化的一組神經(jīng)網(wǎng)絡參數(shù),進而提高對特定樣本的識別效果;文獻[11]中則是利用原始小樣本數(shù)據(jù)訓練神經(jīng)網(wǎng)絡,得到與原始數(shù)據(jù)樣本規(guī)律相近的擴充數(shù)據(jù)樣本,利用擴充的數(shù)據(jù)樣本再來進行網(wǎng)絡運算;而文獻[12]則利用前期收集的系統(tǒng)的可靠性數(shù)據(jù)來對樣本進行擴充?;蛘呃眯颖緮?shù)據(jù)來進行模型參數(shù)估計和預測[13-14],也是小樣本問題的主要方向,暫時還沒有還沒有應用在圖像分類上的相關算法。本文研究了深度信念網(wǎng)絡的等效模型,基于此模型提出了區(qū)間化擴展權值的方法,通過擴展權值,增大樣本和權值的匹配范圍,提高小樣本模型的分類性能,進而有效提升絕緣子的分類性能。
DBN具有多層結構,是一種能量模型,其可視層和隱含層的聯(lián)合組態(tài)能量表示為:
式中vi、hj分別是可視層和隱含層的節(jié)點狀態(tài);ai、bj分別為可視層和隱含層節(jié)點對應的偏置值;wji為可視層與隱含層之間的連接權重值。隱含層節(jié)點的輸出為:
隱含層的輸出hio(n)=[h1h2...hM]T,權值wj(n)=[w1w2...wM]T,M是隱含層神經(jīng)元的個數(shù)。對能量公式(1)進行整理。將式(2)代入式(1)中,得:
求解DBN收斂的結果,就是使式(4)達到最小。
為了看清楚DBN的行為,設輸入的樣本是一個已知的“信號”與噪聲的混合波形,即:
式中s(n)表示樣本中同類的相同部分;n(n)為隨機干擾;上標l表示樣本序號,共有L個樣本,信號與噪聲互不相關,即且
由于η(n)是任意函數(shù),因此,要求:
即:
在多個樣本輸入的情況下,用 v(l)(n)表示不同的樣本,若共有L個樣本,可以得到由式(9)構成的方程組:
所有的樣本求和得:
可得:
將 a0(i)代入式(4),得:
同樣,采用求解ai的變分法對bj求解,同樣用序列形式 b(n),設 b(n)=b0(n)+εη(n),代入式(13)求解得:
將式(14)代入(13)得:
對于權值,采用同樣的推導方法,利用變分法求解權值 w1(n),設 w1(n)=w10(n)+εη(n)代入式(15),對其整理求解得:
其中,k3為常數(shù),由以上推導可以看出當權值收斂于信號時,DBN網(wǎng)絡可以得到最優(yōu)解。當樣本數(shù)量很大時,信噪比較大,噪聲趨近于0,權值收斂會很接近于信號,此時分類效果很好。
由于DBN是并行處理結構,即網(wǎng)絡在同時處理每一個數(shù)據(jù),看上去比較復雜。如果采用串行結構表示,是非常簡單明確的。根據(jù)以上的參數(shù)推導過程,假定DBN網(wǎng)絡只有一個隱含層,且隱含層只有2個神經(jīng)元,對兩類樣本進行分類,兩類樣本v1(l)(n)和v2(l)(n)分別為:
即每一類樣本中都有一個相同的本類信號s1和s2,權值 w1(n)和 w2(n)是提取的樣本特征,則 DBN的等效模型與通信系統(tǒng)的最佳接收機形式完全一致,如圖1所示。
對DBN的訓練是尋找最佳權值的過程,也就是尋找最匹配的“信號”,使分類效果最好。因此,找到的“信號”大致接近真實的信號時,就是一個解,但不一定是最優(yōu)解。希望訓練模型得到的最優(yōu)解,就是權值 w1(n)和 w2(n)分別收斂于信號 s1和 s2。
在實際應用中,隱含層神經(jīng)元個數(shù)往往大于2,其等效模型為多個最佳接收機的并聯(lián)結構。此時,不再是一個權值對應一個信號,而是多個“部分信號”組合起來表達一個“信號”,訓練使系統(tǒng)的能量公式達到最小,權值收斂到各自的“部分信號”時,整個網(wǎng)絡達到收斂。多層DBN網(wǎng)絡基本重復前一層的結構。
圖1 基本DBN結構的等效模型Fig.1 Equivalentmodel of basic DBN structure
依據(jù)最佳接收機理論可知,DBN網(wǎng)絡的分類性能就是系統(tǒng)的抗噪聲性能。只有當樣本數(shù)量足夠大時,即噪聲服從正態(tài)分布時,才能得到最佳的性能;從權值的推導中也可看出,樣本數(shù)量足夠大,權值收斂會更接近于信號,獲得更好的分類效果。因此,在小樣本的情況下,信噪比小,權值很難收斂于信號,接收機一般得不到最佳性能。如何解決小樣本情況下的這些問題,需要進一步研究。
區(qū)間數(shù)是不確定性理論的延伸和發(fā)展,由于各種測量和運算的不精確所帶來的數(shù)據(jù)誤差,以及信息不完全所帶來的數(shù)據(jù)缺乏導致得到的結果是一個不確定的數(shù)[15]。實際存在各種不同的客觀情境以及人主觀思維的不確定性,對事物的屬性往往有著不確定性的判斷,所以只能給出一個大概的范圍,不能清楚地得到事物的屬性值,這就需要區(qū)間數(shù)來刻畫此類問題。因為它符合人類的思維特征,也符合現(xiàn)實情況。
基于此思想,針對小樣本情況下模型泛化性差問題,我們對權值中的每一個分量在一定的經(jīng)驗值或理論值范圍內(nèi)進行若干細分,進行區(qū)間化擴展,即原來權值每一個分量都被擴展成與其本身緊密相關的一個小區(qū)間內(nèi)的多個數(shù),以提取更多相似的樣本信息,來改善小樣本情況下訓練模型的泛化性。并對BP算法進行相應的區(qū)間化改進,擴大搜索范圍,以增加樣本與權值的匹配范圍,提高樣本識別率,改進模型性能。
設DBN網(wǎng)絡有m個顯層神經(jīng)元,n個隱含層神經(jīng)元,輸入的一個樣本為S=[s1s2s3...sm],權值矩陣為W,擴展后的權值矩陣為W′,即W1擴展后為 W1′=[W11W12W13...W1k],將每一個權值區(qū)間化擴展到k維,每一個區(qū)間化的權值中的分量都對應著一個隱層輸出,則隱層輸出擴展為k批,第j批DBN隱含層結點和輸出結點的操作特性為[16-17]:
其中,netlj為隱層輸出,Wlji為權值W的第l個分量的第j個擴展值的第i維,f仍為激活函數(shù)。網(wǎng)絡誤差定義為區(qū)間化后的所有擴展值的均值,即:
Elj是權值第l個分量第j個表征矢量的誤差,EK即為第j批擴展值的網(wǎng)絡誤差;yl是第l個輸出神經(jīng)元的期望值;Vlj是輸出神經(jīng)元的實際值。則誤差信號為:
在信號檢測與估值[18]理論中,圖1給出的DBN模型為最佳接收機模型,對樣本的分類問題與對確知信號進行檢測是完全一致的。在分析信號檢測性能時,與信噪比和互相關系數(shù)等緊密相關。因此,區(qū)間化權值處理,沒有改變模型結構,其性能是一致的。同樣,假定DBN網(wǎng)絡只有一個隱含層和2個隱層神經(jīng)元,對兩類樣本進行分類。
設發(fā)送端發(fā)送的樣本y=s1+n1,即發(fā)送樣本為第一類;且W1和W2已訓練至收斂,即W1=s1,W2=s2,此時,最佳接收機正確判決時滿足:
設兩類樣本的數(shù)量相同,可不考慮偏置 K1、K2的影響,當信號與噪聲互不相關,即∑sini=0時,則上式轉化為:
在樣本功率歸一化的情況下,樣本與自身的相關性取得最大值,等于1;樣本與其他信號的相關性均小于1,故不等式必然成立,能實現(xiàn)正確判決。兩個數(shù)據(jù)大小差距為:
當權值進行區(qū)間化擴展后,網(wǎng)絡判決式修改為:
W11,W12,...,W1n均為 W1的區(qū)間化擴展值,與W1緊密相關,即擴展值與信號s1也緊密相關,同理,W2m與s1相關性小,即任意的∑s1W1m>∑s1W2m。則上式一定成立,并可寫為:
而區(qū)間化權值與標準權值緊密相關,所以W1m≈W1,同理 W2m≈W2,所以式(28)近似為:
兩數(shù)據(jù)的大小差距為:
由式(30)可知,在權值被擴展后,訓練過程中信號被重復提取,重復提取的部分其相關性累加,要大于信號和非本類信號相乘的累加結果,判決式兩端的數(shù)據(jù)差距會更大,更容易得到出二者之間的大小對比關系,其判決效果相較于單個權值時要更明顯,判決性能要更好。
為了驗證上述算法和推導的有效性,實驗選用MNIST和CIFAR-10數(shù)據(jù)庫以及自建的絕緣子庫來進行測試,因為暫時沒有用于圖像分類的小樣本相關算法,所以將結果與傳統(tǒng)DBN算法進行了比較,性能指標包括訓練樣本正確識別率和測試樣本正確識別率。
(1)MNIST數(shù)據(jù)庫測試
實驗以MNIST手寫體數(shù)據(jù)庫為例,MNIST手寫庫總共有10類手寫體數(shù)字,選取不同類別的圖像為實驗對象進行分類,分別測試不同樣本類別數(shù)和不同樣本數(shù)情況,權值區(qū)間化算法和傳統(tǒng)DBN網(wǎng)絡的分類性能對比如表1所示。
由表1可知,在不同的類別數(shù)情況下,權值區(qū)間化算法相比傳統(tǒng)DBN網(wǎng)絡,測試識別率均有提高,模型泛化性得到了一定提升,這是因為權值區(qū)間擴展后,樣本與匹配的范圍擴大,分類判決時的判決界限更清晰,能更好的對樣本進行分類。隨著樣本數(shù)的減少,整體識別率逐漸降低,這是由于樣本數(shù)不足,訓練模型提取特征不夠具有代表性引起的。隨著分類類別數(shù)的增加,表現(xiàn)出較差的結果,這可能是由淺層神經(jīng)網(wǎng)絡自身的學習機制導致的。從表中也可看出,在樣本類別數(shù)增加時,區(qū)間擴展算法對提高模型測試識別率有著更好的效果。
表1 MNIST庫不同類別樣本實驗結果對比Tab.1 Experimental comparison results of different categories of MNIST
(2)CIFAR-10數(shù)據(jù)庫測試
實驗以CIFAR-10數(shù)據(jù)庫為例,選取汽車和船為實驗對象進行分類,每類圖片選取100張,DBN網(wǎng)絡采用三層隱含層,分別為60-200-200,實驗當隱元數(shù)減半的情況下權值區(qū)間化與傳統(tǒng)算法的結果對比如表2所示。
表2 CIFAR-10不同網(wǎng)絡隱元數(shù)實驗結果對比Tab.2 Experimental comparison results of CIFAR-10 in different hidden elements
從表2的測試結果可以看出,本文的權值區(qū)間擴展方法在CIFAR-10數(shù)據(jù)庫上同樣能對小樣本問題取得一定的改進效果,在隱元結構改變時,也能保持其提高性能。
(3)絕緣子數(shù)據(jù)庫測試
由于目前并沒有公開的絕緣子數(shù)據(jù)庫,本文采集了兩個類別的絕緣子,用于絕緣子故障識別。該數(shù)據(jù)庫中有900張絕緣子樣本圖像,其中包括600張正常的絕緣子,300張有故障的絕緣子,圖片分辨率都為4 096。實驗分別選取相同數(shù)量的正常和故障絕緣子圖片作為訓練集,再分別選取100張正常和故障絕緣子作為測試集,測試不同數(shù)量的訓練樣本情況下,不同網(wǎng)絡的分類識別情況如表3所示。
表3 絕緣子庫不同訓練樣本數(shù)實驗結果對比Tab.3 Experimental comparison resultswith the number of training samples in insulator
由表3的實驗結果可看出,對絕緣子故障識別的實驗,權值區(qū)間化的DBN網(wǎng)絡相比傳統(tǒng)DBN網(wǎng)絡有明顯的提升效果,特別是在樣本數(shù)較少,每類50張時,傳統(tǒng)模型泛化性很差,采用權值區(qū)間化算法能有效的提升故障絕緣子的正確識別率。
本文研究了深度信念網(wǎng)絡的等效模型,對DBN網(wǎng)絡的意義進行了更加明確地闡述,指出了DBN訓練需要大量數(shù)據(jù)樣本的原因;并基于此模型提出了一種區(qū)間化權值的DBN網(wǎng)絡算法,可以補償小樣本情況下,提取的特征不夠全面的缺點,進而提升DBN性能,提高圖像分類識別率;通過推理論證了算法的優(yōu)越性。在MNIST和CIFAR-10數(shù)據(jù)庫中的實驗證明了這一結論的可靠性,并驗證了其在實際的絕緣子故障識別中有一定的應用前景。