劉威,劉尚,白潤才,周璇,周定寧
(1.遼寧工程技術(shù)大學 理學院,遼寧 阜新 123000; 2.遼寧工程技術(shù)大學 礦業(yè)學院,遼寧 阜新 123000)
動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡分類器訓練方法研究
劉威1,劉尚1,白潤才2,周璇1,周定寧1
(1.遼寧工程技術(shù)大學 理學院,遼寧 阜新 123000; 2.遼寧工程技術(shù)大學 礦業(yè)學院,遼寧 阜新 123000)
針對神經(jīng)網(wǎng)絡分類器訓練時間長、泛化能力差的問題,提出了一種基于動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡分類器訓練方法(DDR)。該訓練方法在訓練過程中賦給每個訓練樣本一個權(quán)重值作為樣本的重要性度量,依據(jù)每次網(wǎng)絡迭代訓練樣本的分類錯誤率動態(tài)更新每個訓練樣本的權(quán)重值,之后依據(jù)樣本的權(quán)重值來約簡訓練樣本,從而增加易錯分類的邊界樣本比重,減少冗余核樣本的作用。數(shù)值實驗表明,基于權(quán)重的動態(tài)數(shù)據(jù)約簡神經(jīng)網(wǎng)絡訓練方法不僅大幅縮短了網(wǎng)絡的訓練時間,而且還能夠顯著提升網(wǎng)絡的分類泛化能力。
神經(jīng)網(wǎng)絡;數(shù)據(jù)約簡;分類邊界;樣本權(quán)重;邊界樣本;核樣本
單隱藏層前饋神經(jīng)網(wǎng)絡由于其學習能力強、能夠逼近復雜非線性函數(shù)、優(yōu)異的信息分布式存儲和并行協(xié)同處理能力以及魯棒性好的特點,使得神經(jīng)網(wǎng)絡在很多領(lǐng)域得到了廣泛的應用。由于神經(jīng)網(wǎng)絡監(jiān)督學習的本質(zhì),在神經(jīng)網(wǎng)絡訓練過程中,隨機初始權(quán)值后,輸入信號通過網(wǎng)絡正向傳遞,得到模擬輸出信號,之后依據(jù)輸出信號和數(shù)據(jù)標簽之間的誤差反向傳播的方式調(diào)整網(wǎng)絡權(quán)值,使均方誤差最小,從而使網(wǎng)絡映射輸出更好地“擬合逼近”數(shù)據(jù)標簽,以達到學習的目的。
在神經(jīng)網(wǎng)絡的分類應用中,神經(jīng)網(wǎng)絡分類器訓練過程是一個調(diào)整分類超曲面的過程,在訓練初始階段通過隨機產(chǎn)生一個超曲面,然后依據(jù)誤差來調(diào)整超曲面的位置,直到數(shù)據(jù)集中屬于不同類的點正好位于超曲面的不同側(cè)面。這種處理機制決定了神經(jīng)網(wǎng)絡進行數(shù)據(jù)分類最終獲得的分類超曲面有可能相當靠近訓練集中的點[1],不僅導致網(wǎng)絡訓練時間長,而且使網(wǎng)絡分類邊界過于靠近樣本集中點,導致較差的分類泛化能力,所以數(shù)據(jù)樣本對于網(wǎng)絡訓練時間、網(wǎng)絡性能有重要的影響。
一個數(shù)據(jù)集可以用數(shù)據(jù)特征、數(shù)據(jù)量、數(shù)據(jù)分布來描述。數(shù)據(jù)約簡的目的主要是減少信息量,將一些無關(guān)緊要的信息去掉后,不影響系統(tǒng)原有的功能表達。目前,針對數(shù)據(jù)約簡的研究主要集中在兩個方面:基于特征選擇約簡和基于實例選擇約簡。
基于特征選擇的數(shù)據(jù)約簡是指在所有特征中選擇某些重要的、有代表性的特征,去除對處理結(jié)果影響小甚至無影響的特征,以達到提取主要特征的目的。常見的特征選擇方法主要有粗糙集法[2]、主成分分析法[3]、基于流行學習的Autoencoder[4]等。
基于實例選擇的數(shù)據(jù)約簡是從原始數(shù)據(jù)集中選擇具有代表性的實例,去除冗余的和相似性較大的數(shù)據(jù),得到相對較小的約簡數(shù)據(jù)集,以達到減少數(shù)據(jù)量和改變數(shù)據(jù)分布的目的。目前針對實例選擇的數(shù)據(jù)約簡方法主要有基于聚類、基于樣本距離、基于分類邊界的數(shù)據(jù)約簡方法。聚類約簡方法首先通過模糊聚類[5]、K鄰近聚類[6]等聚類方法對訓練數(shù)據(jù)進行聚類分析,選擇目標樣本,剔除冗余樣本,以達到數(shù)據(jù)約簡的目的,然后用約簡后的數(shù)據(jù)作為新的訓練數(shù)據(jù)進行分類器訓練。整個分類系統(tǒng)分為數(shù)據(jù)約簡和分類訓練兩個階段,第1階段的數(shù)據(jù)篩選結(jié)果對于最終分類器的性能起著關(guān)鍵性的作用,此外每個階段需要調(diào)整相應的模型參數(shù),整個分類系統(tǒng)過于復雜?;跇颖揪嚯x的約簡方法[7],通過構(gòu)建樣本間距離度量(通常為歐氏距離),保留邊界樣本,剔除非邊界樣本。該方法同聚類的概念類似,仍屬于兩階段的分類系統(tǒng)?;诜诸愡吔鐢?shù)據(jù)約簡方法主要為支持向量機算法(SVM)[8],SVM算法基于最優(yōu)分類邊界的概念,從訓練集中選擇支持向量,使得對支持向量的劃分等價于對整個數(shù)據(jù)集的劃分。
此外,文獻[9]利用HMM模型,通過模型的預測概率將訓練樣本分為好樣本、差樣本和邊界樣本,然后分析了選擇不同的訓練樣本對于分類器的影響。文獻[10]的Adaboosting算法依據(jù)分類錯誤率,通過增加錯分類樣本權(quán)重,減小正確分類樣本權(quán)重的方法,改變樣本的權(quán)重分布,以達到重點關(guān)注錯分類樣本的目的,然后通過多個弱分類器加權(quán)綜合獲得強分類器,Adaboosting方法沒有約簡訓練數(shù)據(jù),只是更改樣本分布權(quán)重,達到了重點關(guān)注錯分類樣本的目的。
當數(shù)據(jù)量大和數(shù)據(jù)過于集中時,神經(jīng)網(wǎng)絡分類器訓練時間長,泛化能力差;結(jié)合數(shù)據(jù)約簡和樣本權(quán)值的思想,本文提出了一種基于動態(tài)數(shù)據(jù)約簡(dynamic data reduction,DDR)的神經(jīng)網(wǎng)絡訓練方法。該方法依據(jù)神經(jīng)網(wǎng)絡迭代訓練過程中的訓練樣本的分類錯誤率,動態(tài)更新訓練樣本的權(quán)重,然后依據(jù)權(quán)重對訓練數(shù)據(jù)進行動態(tài)約簡,從而達到縮短網(wǎng)絡訓練時間、增強網(wǎng)絡泛化能力的目的。該方法將數(shù)據(jù)約簡和分類器訓練融合為一個階段,比文獻[5-7]的方法具有快速的特點,比文獻[8]具有簡單的優(yōu)勢。
1.1 BP神經(jīng)網(wǎng)絡
BP (back propagation)神經(jīng)網(wǎng)絡是一種單向傳播的多層前饋網(wǎng)絡,采用誤差反向傳播權(quán)值學習算法(BP算法),是目前應用較多的一種模型。BP神經(jīng)網(wǎng)絡的基本單元是神經(jīng)元,按照神經(jīng)元的功能不同將其分成若干層,通常最左側(cè)的為輸入層,最右側(cè)的為輸出層,而中間的為隱層,只有相鄰層神經(jīng)元之間存在權(quán)值連接,每層內(nèi)部神經(jīng)元無連接,其結(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡結(jié)構(gòu)Fig.1 BP neural network structure
BP神經(jīng)網(wǎng)絡的信息傳遞過程主要分為兩個階段:信息前饋傳遞階段和誤差反饋階段。信息前饋階段,每層的輸入信息,首先通過連接權(quán)值進行融合計算,再通過相應類型的激活函數(shù)進行激活變換得到輸出信號,然后將輸出信號作為輸入傳入下一層進行相似的信息變換,最終傳遞到輸出層得到網(wǎng)絡最終輸出。誤差反饋階段,由于神經(jīng)網(wǎng)絡是一種監(jiān)督學習算法,將信號的前饋輸出和真實標簽之間的誤差,通過連接權(quán)值從輸出層反向傳播至輸入層,并依據(jù)梯度值來更新連接權(quán)值,從而達到學習的目的。
1.2 DDR訓練方法設(shè)計思想
從分類的角度來說,分類的任務在于尋找分類面,將分類空間劃分為不同的類區(qū)域,訓練的作用在于分類超曲面的生成,從這個方面來說,邊界樣本就是位于理想分類超曲面附近的樣本。神經(jīng)網(wǎng)絡在訓練過程中可以理解為依據(jù)訓練數(shù)據(jù)調(diào)整分類超曲面的過程,訓練樣本中,如果某種類別的數(shù)據(jù)量越多, 它在訓練出的模型中所起的作用就越大,分類超曲面越靠近該分類。所以訓練樣本的分布主要影響分類超曲面的位置,訓練樣本的個數(shù)則主要影響網(wǎng)絡的訓練時間。
依據(jù)文獻[5,7,9]通過聚類或樣本距離,依據(jù)數(shù)據(jù)樣本位置分布將數(shù)據(jù)分為核樣本和邊界樣本,核樣本數(shù)據(jù)一般位于數(shù)據(jù)類別聚類中心或遠離類別邊界的位置,邊界樣本位于相鄰類別的臨近或重疊位置。從聚類分析的觀點來看,位于類中心的核樣本更具代表性,所表達信息量更大,核樣本可以使得訓練出的模式類區(qū)域更加緊湊,不同模式類區(qū)域間隔更大,但核樣本數(shù)目太多,不僅增加網(wǎng)絡訓練時間,還容易使得分類超曲面過于靠近核樣本,使得分類區(qū)域過小,從而使得邊界樣本被劃分到超曲面以外,使得網(wǎng)絡分類錯誤率增加,泛化能力降低。文獻[11]指出,基于神經(jīng)網(wǎng)絡的模式識別中,訓練樣本的總數(shù)目對于神經(jīng)網(wǎng)絡訓練的影響不是十分重要,重要的是其中邊界樣本的數(shù)目;有了足夠多的邊界樣本,就可以訓練出好的分類超曲面。但由于網(wǎng)絡中邊界樣本個數(shù)相對較少,較少的訓練數(shù)據(jù)很容易導致網(wǎng)絡發(fā)生過擬合現(xiàn)象,同樣會導致網(wǎng)絡泛化能力下降。所以在神經(jīng)網(wǎng)絡分類器訓練過程中,在利用全部邊界樣本的基礎(chǔ)上,為了防止由于數(shù)據(jù)較少引起的過擬合問題,實驗還應選擇相應數(shù)量的核樣本來協(xié)同訓練。
由于神經(jīng)網(wǎng)絡訓練過程可以理解為分類超曲面移動的過程,訓練樣本中,核樣本個數(shù)多,且分布在邊界樣本內(nèi)部,所以在網(wǎng)絡迭代訓練過程中,核樣本一般位于分類超曲面內(nèi)部,其分類錯誤率較低,而邊界樣本隨著分類超曲面的移動,其分類錯誤率也隨之波動。所以在網(wǎng)絡訓練過程中應該減少核樣本的作用,增加邊界樣本的比重。
基于上述思想,本文提出了一種基于訓練分類錯誤率的動態(tài)數(shù)據(jù)約簡方法(DDR):在網(wǎng)絡訓練過程中,首先賦給每個訓練樣本一個權(quán)重值xwi(i=1,2,…,m,m為原始訓練樣本總數(shù))作為樣本的重要性度量,則樣本構(gòu)成權(quán)重向量XW={xw1,…,xwi,…,xwm};然后再依據(jù)每次迭代所有原始訓練樣本的分類錯誤率動態(tài)更新每個訓練樣本的權(quán)重值,更新規(guī)則為:降低正確分類樣本的權(quán)重值,增加錯誤分類樣本的權(quán)重值,以達到重點關(guān)注易錯分類的邊界樣本,弱化易正確分類的核樣本的目的;最后依據(jù)數(shù)據(jù)約簡規(guī)則對訓練樣本進行挑選。數(shù)據(jù)約簡選擇規(guī)則為:對于正確分類的訓練樣本,在[0,1]隨機選擇一個數(shù)值rand,若rand小于樣本的權(quán)重值,則選擇該樣本為新的訓練樣本;否則剔除該樣本。這樣在迭代過程中一直迭代分類正確的核樣本,由于其權(quán)值持續(xù)降低,被選擇的概率較?。欢吔鐦颖居捎谄浞诸悳蚀_性隨著分類超曲面的移動而波動,所以其權(quán)重值較大,被選擇的概率較大;對于錯誤分類的樣本則全部選擇。然后將全部錯分類樣本和隨機選擇的部分正確分類樣本作為新的訓練樣本集,進行下一次迭代訓練。由于神經(jīng)網(wǎng)絡訓練過程中迭代收斂較慢,訓練過程往往需要較長的迭代次數(shù),這樣會使核樣本的權(quán)重值持續(xù)降低,一些錯誤分類邊界樣本的權(quán)重值則持續(xù)增加,導致訓練樣本的權(quán)值差異較大,不利于正確分類樣本的選擇。為了避免上述問題,在權(quán)重值更新后通過權(quán)重值上下限約束,對權(quán)重值進行規(guī)范化處理,權(quán)重下限值為xwb,xwb>0,權(quán)重上限值為xwt,xwt≤1,即權(quán)重xwi∈[xwb,xwt],i=1,2,…,m,通過權(quán)值的規(guī)范化約束,使得迭代過程中選擇邊界樣本的同時,也選擇部分核樣本進行協(xié)同訓練,以避免由于樣本過少而引起的過擬合現(xiàn)象。
1.3DDR訓練方法算法描述
設(shè)訓練集為X={(x1,y1),…,(xi,yi),…,(xm,ym)} ,xi∈Rr,訓練樣本批量為s,樣本總均值誤差為E,批量均值誤差為e,連接權(quán)值為w,學習率為α,迭代次數(shù)為k,樣本權(quán)重集為XW,正確分類樣本權(quán)重集為XWright,權(quán)重增量為xwd,權(quán)重標識集為XS,錯分類樣本集為Xwrong,正確分類樣本集為Xright,從Xright中選擇的樣本集Xselect,約簡后訓練樣本集為Xreduction,則動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡分類器訓練方法算法如下:
算法1 動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡分類器訓練
輸入X,xwd,xwb,xwt=1,XW(1,i)=0.5,i=1,2,…,m;
輸出 神經(jīng)網(wǎng)絡分類器f(x)。
1)初始化網(wǎng)絡結(jié)構(gòu),隨機初始化網(wǎng)絡權(quán)值;
2)訓練樣本規(guī)則化預處理;
3)對當前訓練樣本Xreduction進行隨機亂序操作,重新排列樣本的順序;
4)按照訓練樣本排列序號,依次提取批量s個樣本,樣本分成n個批次,n=round(m/s)。
5)計算網(wǎng)絡各批量的均值誤差
6)子批量內(nèi)均值修正網(wǎng)絡的權(quán)值:
7)計算所有樣本的均值誤差:
8)依據(jù)分類錯誤率更新樣本權(quán)重值:
9)樣本權(quán)重約束
10)樣本約簡選擇
11)根據(jù)迭代次數(shù)進行判斷是否達到收斂要求,若達到要求則網(wǎng)絡完成訓練,否則循環(huán)3)~11)。
算法補充說明:round()函數(shù)表示對小數(shù)進行舍入取整操作;神經(jīng)網(wǎng)絡更新規(guī)則當s=m時,即為全批量權(quán)值更新規(guī)則;當s=1時,即為增量權(quán)值更新規(guī)則;當1
動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡訓練方法如圖2。
圖2 動態(tài)數(shù)據(jù)約簡神經(jīng)網(wǎng)絡訓練方法流程圖Fig.2 Flow chart of neural network training method for dynamic data reduction
2.1 實驗參數(shù)設(shè)置
實驗網(wǎng)絡神經(jīng)元激勵函數(shù)均采用單級S型(Sigmoid)激勵函數(shù),訓練中采用動量項梯度下降算法作為網(wǎng)絡訓練算法,為了加速網(wǎng)絡收斂,選用子批量網(wǎng)絡權(quán)值更新規(guī)則,同時為了避免過擬合現(xiàn)象,實驗輸入數(shù)據(jù)經(jīng)過預處理后再輸入到網(wǎng)絡中,并且在訓練過程中加入權(quán)值懲罰項。
為了使算法穩(wěn)定收斂到最小,采用學習率縮減的方式來調(diào)節(jié)學習率,設(shè)學習率改變次數(shù)比例參數(shù)為scaleIndex,學習率改變程度參數(shù)為scaleLr,學習率改變總次數(shù)為ChangeTimes,學習率調(diào)整策略見算法2。
算法2 學習率調(diào)整算法
輸入T,scaleIndex,scaleLr,ChangeTimes;
輸出 學習率curLr。
ChangeIndex =T*scaleIndex
FORk=1:K
IFk>ChangeIndex&&curTimes ChangeIndex =k+scaleIndex*(K-k) curLr =curLr*scaleLr curTimes =curTimes+1 為了全面公平地對比標準神經(jīng)網(wǎng)絡訓練方法(STD)和本文提出的數(shù)據(jù)約簡神經(jīng)網(wǎng)絡訓練方法(DDR),將兩種神經(jīng)網(wǎng)絡在相同的網(wǎng)絡結(jié)構(gòu)、初始權(quán)值和學習參數(shù)配置下進行訓練。 2.2 人工數(shù)據(jù)可視化分析 為了可視化驗證動態(tài)數(shù)據(jù)約簡神經(jīng)網(wǎng)絡訓練方法在訓練過程中數(shù)據(jù)約簡過程,實驗采用正態(tài)分布生成3分類的2維點數(shù)據(jù)集,各類點的坐標均值分別為(38,38),(50,70),(75,45),每個維度的方差為55,每個類別400個樣本,總計1 200個樣本。生成的數(shù)據(jù)集如圖5所示,星號為類別A,五角星為類別B,圓圈為類別C,數(shù)據(jù)集中每個類的中心點數(shù)據(jù)密集,邊界點相對稀疏,且邊界別點之間存在重疊。 實驗參數(shù)設(shè)置:訓練樣本個數(shù)為600,測試樣本個數(shù)為600,網(wǎng)絡結(jié)構(gòu)為2-3-3,迭代次數(shù)為500,學習率為0.2,動量項為0.9,權(quán)值懲罰系數(shù)為10-5,學習改變參數(shù)scaleIndex和scaleLr均為2/3,ChangeTimes為8,初始訓練樣本權(quán)重為0.5,權(quán)重增量系數(shù)為0.005,權(quán)值上限為1,權(quán)值下限為0.1。 依據(jù)實驗參數(shù)設(shè)置可知,訓練樣本權(quán)重xwi∈[0.1,1],i=1,2,…,m。為了可視化實驗過程的訓練樣本權(quán)重分布,實驗將權(quán)重取值范圍分成[0.1,0.32]、[0.32,0.55]、[0.55,0.77]、[0.77,1]4個區(qū)間,依次使用圓圈、五角星、倒三角、正方形4種圖形來標記每個區(qū)間內(nèi)的訓練樣本,訓練樣本權(quán)重分布如圖3所示。 (a) 迭代次數(shù)為20 (b) 迭代次數(shù)為50 (c) 迭代次數(shù)為100 (d) 迭代次數(shù)為200 (e) 迭代次數(shù)為300 (f) 迭代次數(shù)為500圖3 訓練樣本權(quán)重分布圖Fig.3 Training sample weight distribution graph 分析圖3可知,隨著迭代次數(shù)的增加,在變化趨勢上,樣本點的形狀呈現(xiàn)兩極化的趨勢,處于權(quán)重中段的五角星和倒三角的樣本點個數(shù)逐漸減少,處于權(quán)重兩端的圓圈和正方形的樣本點個數(shù)逐漸增多;在分布趨勢上,遠離類別邊界的點最先變?yōu)閳A圈,臨近類別邊界的點緩慢變化為圓圈,而一些位于邊界附近容易錯分的樣本點最終變化為正方形。這說明遠離類別邊界或位于類別中心的核樣本數(shù)據(jù)更容易被正確分類,而臨近或位于類別邊界的樣本較難被正確分類,從而也證明基于訓練錯誤率的樣本權(quán)值能夠反映樣本是否為邊界樣本,即可以從權(quán)值上區(qū)分核樣本和邊界樣本。 相應迭代次數(shù)下,訓練數(shù)據(jù)集中通過隨機數(shù)和權(quán)重比較選擇的訓練樣本如圖4所示,圖中五角星、倒三角、圓圈標記點為原始的訓練樣本,正方形框標記點為當前迭代次數(shù)下,選擇的訓練樣本。 分析圖4可知,隨著迭代次數(shù)的增加,在變化趨勢上,約簡后的訓練樣本(正方形框樣本)逐漸減少;在分布上,約簡后的正方形框樣本中核樣本的比重逐漸減少,邊界樣本的比重逐漸增大。這說明基于樣本權(quán)重的數(shù)據(jù)約簡方法能夠篩選掉大部分核樣本,保留部分核樣本,弱化了核樣本的作用,增加了邊界樣本的比重,約簡數(shù)據(jù)的同時,通過保留部分核樣本進行協(xié)同訓練,避免了僅選擇少數(shù)邊界樣本會造成的過擬合問題。 (a)迭代次數(shù)為20 (b)迭代次數(shù)為50 (c)迭代次數(shù)為100 (d) 迭代次數(shù)為200 (e)迭代次數(shù)為300 (f) 迭代次數(shù)為500圖4 選擇的訓練樣本分布圖Fig.4 Selected training sample distribution map 標準訓練方法STD和動態(tài)數(shù)據(jù)約簡方法DDR訓練的神經(jīng)網(wǎng)絡分類器,最終形成的分類邊界如圖5所示。圖中白色、灰色和深灰色區(qū)域為STD方法每個類別對應的區(qū)域,區(qū)域邊界即為標準訓練方法訓練的神經(jīng)網(wǎng)絡對應的分類邊界。黑色實線為DDR方法訓練的神經(jīng)網(wǎng)絡的分類邊界。 圖5 神經(jīng)網(wǎng)絡分類器邊界圖Fig.5 Neural network classifier boundary map 對比圖5中兩個神經(jīng)網(wǎng)絡分類器邊界可知,DDR方法訓練的神經(jīng)網(wǎng)絡分類器邊界在一個更加恰當?shù)姆诸愇恢脜^(qū)分各個類別,比STD方法具有更少的錯分類樣本,這也說明通過增加邊界樣本的比重,削弱核樣本作用訓練的神經(jīng)網(wǎng)絡分類器具有更強的分類泛化能力。 基于以上分析可知,基于樣本權(quán)重的動態(tài)數(shù)據(jù)約簡方法能夠區(qū)分并挑選邊界樣本和核樣本,并隨著網(wǎng)絡的迭代訓練,逐漸增加邊界樣本比重,弱化核樣本作用,從而訓練出泛化能力更好的神經(jīng)網(wǎng)絡分類器。 2.3 標準數(shù)據(jù)集實驗分析 為了驗證基于動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡訓練方法在標準分類數(shù)據(jù)集上的效果,選取10組標準數(shù)據(jù)集進行數(shù)值實驗,其中Forest等9組來自UCI分類數(shù)據(jù)集,Mnist標準數(shù)據(jù)集來自官方網(wǎng)站。各組數(shù)據(jù)集屬性以及訓練集,測試集樣本個數(shù)信息見表1。10組數(shù)據(jù)集中Forest、IS、SL、Mnist具有固定的分類訓練集個數(shù)和測試集個數(shù),剩余的非固定數(shù)據(jù)集,訓練集和測試集個數(shù)比例基本保持1:1。 表1 UCI分類數(shù)據(jù)集的屬性信息 在相同的實驗條件下,標準訓練算法(STD)和動態(tài)數(shù)據(jù)約簡訓練方法(DDR)訓練的神經(jīng)網(wǎng)絡分類器,最終訓練集均方誤差loss,訓練集分類錯誤率train-Avg,測試集分類錯誤率test-Avg和訓練時間time,30次實驗的平均結(jié)果如表2所示。對比STD和DDR兩種訓練方法的最終均方誤差,除Seeds數(shù)據(jù)集外,STD訓練方法的均方誤差均大于DDR訓練方法的均方誤差,說明DDR訓練方法在整個訓練上更加關(guān)注邊界樣本,弱化了對于訓練樣本整體的“逼近擬合”。 對比分類錯誤率,DDR訓練方法比STD訓練方法在較高的均方誤差下具有更低的訓練分類錯誤率,除Forest、SL和Mnist 3個數(shù)據(jù)集外取得相近的預測分類錯誤率外,DDR訓練方法在其余數(shù)據(jù)集上均具有更低的測試分類錯誤率。綜合對比均方誤差和錯分類錯誤率可知,DDR訓練方法在較大的均方誤差下取得了較小的訓練和測試分類錯誤率,說明DDR訓練方法更加注重邊界樣本的作用,具有防止過擬合的能力,能夠訓練分類泛化能力更好的神經(jīng)網(wǎng)絡。 對比網(wǎng)絡訓練時間,DDR訓練方法具有更短的訓練時間。由于每個數(shù)據(jù)集的訓練樣本個數(shù),迭代次數(shù)、批量值、權(quán)重下限值等訓練參數(shù)不同,所以相對STD訓練方法,DDR訓練方法時間縮短程度有所不同,總體上選擇的權(quán)重下限值和學習批量越小,DDR訓練方法所需的訓練時間越短,但過小的權(quán)重下限值和學習批量,容易引起網(wǎng)絡波動,使得網(wǎng)絡的分類泛化能力較差。 表2 不同神經(jīng)網(wǎng)絡訓練方法的分類錯誤率比較 Table 2 Comparison of classification error rate of different neural network training methods 數(shù)據(jù)集名稱Methodlosstrain?Avgtest?AvgtimeForestSTD0.00750.0715.665.34DDR0.01160.0015.792.11GlassSTD0.03664.4735.377.70DDR0.05041.6333.483.29IPSTD0.00440.3030.041.24DDR0.01080.0029.960.41IrisSTD0.02583.074.220.67DDR0.05851.873.690.36ISSTD0.02743.5110.142.52DDR0.03261.148.721.53LIRSTD0.114112.9214.41122.33DDR0.14468.0511.0177.80SLSTD0.05827.069.6278.14DDR0.06525.809.7834.15SeedsSTD0.03403.406.441.42DDR0.01320.134.983.73WineSTD0.00100.042.650.71DDR0.00170.002.500.49MnistSTD0.00450.101.512104.83DDR0.00470.031.611129.18 基于以上對比分析可知,相對標準的神經(jīng)網(wǎng)絡訓練方法STD,動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡訓練方法DDR是一種收斂速度更快、分類泛化能力更好的神經(jīng)網(wǎng)絡訓練方法。 動態(tài)數(shù)據(jù)約簡神經(jīng)網(wǎng)絡訓練方法(DDR)利用神經(jīng)網(wǎng)絡迭代訓練的特性,借助訓練樣本權(quán)值,實現(xiàn)了單階段動態(tài)地約簡訓練樣本。通過獎勵錯分類樣本的權(quán)值,懲罰正確分類樣本權(quán)值的權(quán)值更新規(guī)則,依據(jù)權(quán)值來約簡訓練樣本,在減少訓練樣本的同時,增加了對于分類影響較大的邊界樣本的作用,弱化了冗余核樣本的作用。通過人工數(shù)據(jù)集實驗可視化分析可知:基于分類錯誤率的權(quán)值更新方式,能夠利用權(quán)值有效地區(qū)分訓練集中的邊界樣本和核樣本,基于權(quán)值的數(shù)據(jù)約簡規(guī)則,可以剔除冗余核樣本,增加邊界樣本的比重。通過標準數(shù)據(jù)集實驗可知:基于動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡訓練方法是一種收斂速度更快、分類泛化能力更強的神經(jīng)網(wǎng)絡訓練方法。但動態(tài)約簡神經(jīng)網(wǎng)絡訓練方法相對于標準神經(jīng)網(wǎng)絡訓練方法需要調(diào)節(jié)權(quán)重下限值,權(quán)重增量值等參數(shù),增加了網(wǎng)絡訓練的復雜性,后續(xù)研究可圍繞約簡參數(shù)的自適應調(diào)節(jié)展開,以簡化動態(tài)約簡神經(jīng)網(wǎng)絡訓練方法參數(shù)。 [1]毛勇. 基于支持向量機的特征選擇方法的研究與應用[D]. 杭州: 浙江大學, 2006. MAO Yong. A study on feature selection algorithms based on support vector machine and its application[D]. Hangzhou: Zhejiang University, 2006. [2]覃政仁, 吳渝, 王國胤. 一種基于Rough Set的海量數(shù)據(jù)分割算法[J]. 模式識別與人工智能, 2006, 19(2): 249-256. QIN Zhengren, WU Yu, WANG Guoyin. A partition algorithm for huge data sets based on rough set[J]. Pattern recognition and artificial intelligence, 2006, 19(2): 249-256. [3]ABDI H, WILLIAMS L J. Principal component analysis[J]. Wiley interdisciplinary reviews: computational statistics, 2010, 2(4): 433-459. [4]RIFAI S, VINCENT P, MULLER X, et al. Contractive auto-encoders: explicit invariance during feature extraction[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue, WA, USA: ICML, 2011. [5]周玉, 朱安福, 周林, 等. 一種神經(jīng)網(wǎng)絡分類器樣本數(shù)據(jù)選擇方法[J]. 華中科技大學學報:自然科學版, 2012, 40(6): 39-43. ZHOU Yu, ZHU Anfu, ZHOU Lin, et al. Sample data selection method for neural network classifier[J]. Journal of Huazhong university of science and technology: natural science edition, 2012, 40(6): 39-43. [6]郝紅衛(wèi), 蔣蓉蓉. 基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡訓練樣本選擇方法[J]. 自動化學報, 2007, 33(12): 1247-1251. HAO Hongwei, JIANG Rongrong. Training sample selection method for neural networks based on nearest neighbor rule[J]. Acta automatica sinica, 2007, 33(12): 1247-1251. [7]HARA K, NAKAYAMA K. A training method with small computation for classification[C]//Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. Como, Italy: IEEE, 2000: 543-548. [8]鄧乃揚, 田英杰. 數(shù)據(jù)挖掘中的新方法——支持向量機[M]. 北京: 科學出版社, 2004. [9]劉剛, 張洪剛, 郭軍. 不同訓練樣本對識別系統(tǒng)的影響[J]. 計算機學報, 2005, 28(11): 1923-1928. LIU Gang, ZHANG Honggang, GUO Jun. The influence of different training samples to recognition system[J]. Chinese journal of computers, 2005, 28(11): 1923-1928. [10]SCHAPIRE R E, SINGER Y. Improved boosting algorithms using confidence-rated predictions[J]. Machine learning, 1999, 37(3): 297-336. [11]韋崗, 賀前華. 神經(jīng)網(wǎng)絡模型學習及應用[M]. 北京: 電子工業(yè)出版社, 1994. 劉威,男,1977年生,副教授,博士,中國計算機學會會員,主要研究方向為人工智能與模式識別、機器學習、露天采礦系統(tǒng)工程。 劉尚,男,1988年生,碩士研究生,主要研究方向為人工智能與模式識別、機器學習、計算機視覺。 白潤才,男,1962年生,教授,博士生導師,主要研究方向為數(shù)字礦山、露天開采系統(tǒng)工程。 Reducing training times in neural networkclassifiers by using dynamic data reduction LIU Wei1, LIU Shang1, BAI Runcai2, ZHOU Xuan1, ZHOU Dingning1 (1. College of Science, Liaoning Technical University, Fuxin 123000, China; 2. Mining Institute, Liaoning Technical University, Fuxin 123000, China) In this paper, we present a neural network classifier training method based on dynamic data reduction (DDR) to address long training times and the poor generalization ability of neural network classifiers. In our approach, we assigned each sample a weight value, which was then dynamically updated based on the classification error rate at each iteration of the training sample. Subsequently, the training sample was reduced based on the weight of the sample so as to increase the proportion of boundary samples in error-prone classification environments and to reduce the role of redundant kernel samples. Our numerical experiments show that our neural network training method not only substantially shortens the training time of the given networks, but also significantly enhances the classification and generalization abilities of the network. neural network; data reduction; classification boundary; sample weight; boundary sample; kernel sample 2016-05-28. 日期:2017-02-20. 國家自然科學基金項目 (51304114, 71371091). 劉尚. E-mail:whiteinblue@126.com. 10.11992/tis.201605031 http://www.cnki.net/kcms/detail/23.1538.tp.20170112.1020.004.html TP301.6 A 1673-4785(2017)02-02258-08 劉威,劉尚,白潤才,等. 動態(tài)數(shù)據(jù)約簡的神經(jīng)網(wǎng)絡分類器訓練方法研究[J]. 智能系統(tǒng)學報, 2017, 12(2): 258-265. 英文引用格式:LIU Wei, LIU Shang, BAI Runcai, et al. Reducing training times in neural network classifiers by using dynamic data reduction[J]. CAAI transactions on intelligent systems, 2017, 12(2): 258-265.3 結(jié)論與展望