來(lái)杰 王曉丹 李睿 趙振沖
摘 要:針對(duì)極限學(xué)習(xí)機(jī)算法(ELM)參數(shù)隨機(jī)賦值降低算法魯棒性及性能受噪聲影響顯著的問(wèn)題,將去噪自編碼器(DAE)與ELM算法相結(jié)合,提出了基于去噪自編碼器的極限學(xué)習(xí)機(jī)算法(DAE-ELM)。首先,通過(guò)去噪自編碼器產(chǎn)生ELM的輸入數(shù)據(jù)、輸入權(quán)值與隱含層參數(shù);然后,以ELM求得隱含層輸出權(quán)值,完成對(duì)分類器的訓(xùn)練。該算法一方面繼承了DAE的優(yōu)點(diǎn),自動(dòng)提取的特征更具代表性與魯棒性,對(duì)于噪聲有較強(qiáng)的抑制作用;另一方面克服了ELM參數(shù)賦值的隨機(jī)性,增強(qiáng)了算法魯棒性。實(shí)驗(yàn)結(jié)果表明,在不含噪聲影響下DAE-ELM相較于ELM、PCA-ELM、SAA-2算法,其分類錯(cuò)誤率在MNIST數(shù)據(jù)集中至少下降了5.6%,在Fashion MNIST數(shù)據(jù)集中至少下降了3.0%,在Rectangles數(shù)據(jù)集中至少下降了2.0%,在Convex數(shù)據(jù)集中至少下降了12.7%。
關(guān)鍵詞:
極限學(xué)習(xí)機(jī);深度學(xué)習(xí);去噪自編碼器;特征提取;特征降維;魯棒性
中圖分類號(hào): TP181;TP391
文獻(xiàn)標(biāo)志碼:A
Abstract: In order to solve the problem that parameter random assignment reduces the robustness of the algorithm and the performance is significantly affected by noise of Extreme Learning Machine (ELM), combining Denoising AutoEncoder (DAE) with ELM algorithm, a DAE based ELM (DAE-ELM) algorithm was proposed. Firstly, a denoising autoencoder was used to generate the input data, input weight and hidden layer parameters of ELM. Then, the hidden layer output was obtained through ELM to complete the training of classifier. On the one hand, the advantages of DAE were inherited by the algorithm, which means the features extracted automatically were more representative and robust and were impervious to noise. On the other hand, the randomness of parameter assignment of ELM was overcome and the robustness of the algorithm was improved. The experimental results show that, compared to ELM, Principal Component Analysis ELM (PCA-ELM), SAA-2, the classification error rate of DAE-ELM at least decreases 5.6% on MNIST, 3.0% on Fashion MINIST, 2.0% on Rectangles and 12.7% on Convex.
Key words: Extreme Learning Machine (ELM); deep leaning; Denoising AutoEncoder (DAE); feature extraction; feature reduction; robustness
0 引言
作為單隱含層前饋神經(jīng)網(wǎng)絡(luò)(Single Hidden Layer Feedforward Neural Network, SLFN)的最新研究成果,極限學(xué)習(xí)機(jī)(Extreme Learning Machine, ELM)[1]自被提出以來(lái),憑借泛化性能優(yōu)、訓(xùn)練時(shí)間短等特點(diǎn),引起了研究者們的密切關(guān)注。同一般SLFN方法相比較,ELM的隱含層參數(shù)均為隨機(jī)產(chǎn)生,無(wú)需進(jìn)行反復(fù)的迭代,而且其輸出權(quán)值為求解最小二次方程所得的全局最優(yōu)解,避免了陷入局部最優(yōu)解的困境。Huang等[2]證明了ELM的一致逼近性和ELM可直接應(yīng)用于回歸與多分類問(wèn)題[3]。同時(shí),為處理非平衡數(shù)據(jù)的學(xué)習(xí)問(wèn)題,Zong等[4]通過(guò)引入類別權(quán)值,提出了加權(quán)極限學(xué)習(xí)機(jī)(Weighted ELM, W-ELM)。Liang等[5]提出的在線貫序極限學(xué)習(xí)機(jī)(Online Sequential ELM, OS-ELM),延伸ELM至在線學(xué)習(xí)問(wèn)題,拓寬了其實(shí)際應(yīng)用領(lǐng)域。目前,ELM在語(yǔ)音識(shí)別[6]、圖像評(píng)價(jià)[7]、電力系統(tǒng)[8]等部分模式識(shí)別應(yīng)用領(lǐng)域已得到初步應(yīng)用。
但是當(dāng)參數(shù)完全隨機(jī)選擇時(shí),為保證ELM的分類性能需要大量的隱含層節(jié)點(diǎn)[1]。對(duì)此,學(xué)者們提出可以利用構(gòu)造或剪枝的方式對(duì)隱含層節(jié)點(diǎn)進(jìn)行參數(shù)優(yōu)化,以提高ELM整體性能[9-10]。Horata等[9]通過(guò)將滿足最小LOO(Leave-One-Out)誤差準(zhǔn)則的節(jié)點(diǎn)加入隱含層,實(shí)現(xiàn)對(duì)隱含層的參數(shù)優(yōu)化,提出了增長(zhǎng)型魯棒極限學(xué)習(xí)機(jī)(Robust Incremental ELM, RI-ELM)。Rong等[10]提出的快速剪枝極限學(xué)習(xí)機(jī)(Pruned ELM, P-ELM),利用統(tǒng)計(jì)學(xué)原理,裁剪對(duì)分類性能影響較小的隱含層節(jié)點(diǎn),以實(shí)現(xiàn)算法優(yōu)化。但在實(shí)際應(yīng)用中,此類方法對(duì)識(shí)別正確率的提升有限,這是因?yàn)榛跇?gòu)造或剪枝的優(yōu)化方法其基本思想仍局限于傳統(tǒng)ELM框架。當(dāng)數(shù)據(jù)維數(shù)大或存在噪聲干擾時(shí),采用單一隱含層進(jìn)行特征映射的方式并不適用于處理所有樣本。所以,如何提升ELM算法對(duì)高維含噪聲樣本的識(shí)別性能是當(dāng)前亟待解決的重點(diǎn)問(wèn)題。
近年來(lái),深度學(xué)習(xí)在高維數(shù)據(jù)特征提取方面的突出表現(xiàn),使得許多的學(xué)者嘗試將ELM與深度學(xué)習(xí)結(jié)合起來(lái),以提升ELM算法性能。Chamara等[11]將極限學(xué)習(xí)機(jī)與自編碼器(AutoEncoder, AE)結(jié)合起來(lái),提出的極限學(xué)習(xí)機(jī)自編碼器(ELM-AutoEncoder, ELM-AE)擁有良好的特征表達(dá)能力?;贓LM-AE,Tang等[12]提出了分層極限學(xué)習(xí)機(jī)(Hierarchical ELM, H-ELM)算法,以逐層編碼實(shí)現(xiàn)特征的高階表示,相較于其他多層感知器,其訓(xùn)練更快速、準(zhǔn)確率更高。同時(shí),其他的深度極限學(xué)習(xí)機(jī)算法[13-14]也為提高ELM處理高維數(shù)據(jù)的能力做出了貢獻(xiàn)。
去噪自編碼器(Denoising AutoEncoder, DAE)[15]較其他自編碼器,提取的抽象特征更具代表性與魯棒性,擁有較強(qiáng)的抗噪能力。受深度極限學(xué)習(xí)機(jī)算法啟發(fā),本文將DAE與ELM相結(jié)合,提出基于去噪自編碼器的極限學(xué)習(xí)機(jī)(DAE based ELM, DAE-ELM)算法,用堆疊DAE先產(chǎn)生ELM的輸入數(shù)據(jù),然后產(chǎn)生輸入層權(quán)值及隱含層參數(shù),克服了傳統(tǒng)ELM參數(shù)賦值的隨機(jī)性,增強(qiáng)了其魯棒性及抗噪能力。實(shí)驗(yàn)結(jié)果表明,對(duì)于典型高維數(shù)據(jù)集,無(wú)論是否存在噪聲影響,DAE-ELM比傳統(tǒng)ELM算法和AE算法的分類性能有明顯的提升。
1.2 去噪自編碼器
DAE是對(duì)自編碼器的改進(jìn),其最大特點(diǎn)是在進(jìn)行特征提取之前,加入了對(duì)原始樣本數(shù)據(jù)的退化過(guò)程[17],其結(jié)構(gòu)如圖2所示。
在DAE中,退化過(guò)程是指對(duì)于每一個(gè)樣本,按照一定比例將其屬性值置為0或其他值,這個(gè)比例被稱作退化率。退化過(guò)程如圖3所示(對(duì)于灰度圖像,置0意味著置黑)。
DAE加入退化過(guò)程的自然原理是人眼在看物體時(shí),如果物體某一小部分被遮住了,人依然能將其識(shí)別出來(lái)[15]。該現(xiàn)象說(shuō)明人所帶有的“生物”自編碼器所提取的特征更具有代表性與魯棒性,對(duì)于輸入的含有一定噪聲的樣本數(shù)據(jù),它經(jīng)過(guò)編碼、解碼后仍能得到純凈無(wú)噪的樣本。這要求自編碼器不僅有編碼功能,還要有去噪作用。然而,即使數(shù)據(jù)中含有的噪聲,AE卻只能重構(gòu)含有噪聲的輸入數(shù)據(jù)。所以,對(duì)原始樣本進(jìn)行適當(dāng)?shù)耐嘶幚恚僮屪跃幋a器重構(gòu)原始樣本,如此提取的特征更本質(zhì)、更抗干擾[15]。
DAE的學(xué)習(xí)過(guò)程包括退化、編碼和解碼三個(gè)階段。首先,對(duì)輸入數(shù)據(jù)按比例隨機(jī)置0進(jìn)行退化,得到退化數(shù)據(jù)。然后,對(duì)退化數(shù)據(jù)完成編碼得到編碼層。最后,解碼編碼層,得到輸入數(shù)據(jù)的重構(gòu),通過(guò)調(diào)整各層參數(shù)使重構(gòu)誤差函數(shù)達(dá)到最小值,以獲得輸入特征的最優(yōu)抽象表示。
2 基于去噪自編碼器的極限學(xué)習(xí)機(jī)
ELM性能受樣本數(shù)據(jù)維數(shù)、噪聲影響大,且其魯棒性因參數(shù)隨機(jī)賦值而降低。而DAE所提取的特征更本質(zhì)、噪聲敏感性更低,所以結(jié)合DAE與ELM,由DAE獲得ELM的輸入樣本、輸入權(quán)值與隱含層參數(shù),一方面可以提高分類器處理高維含噪聲數(shù)據(jù)的能力,另外一方面可以提高分類器的魯棒性。
DAE-ELM的網(wǎng)絡(luò)結(jié)構(gòu)及如圖4所示。
DAE-ELM的學(xué)習(xí)過(guò)程如下:
1)訓(xùn)練第一去噪自編碼器網(wǎng)絡(luò),提取出原始輸入數(shù)據(jù)的去噪抽象特征,以作為ELM的輸入數(shù)據(jù)。該網(wǎng)絡(luò)結(jié)構(gòu)如圖4中DAE1所示,根據(jù)1.2節(jié)中所述,令DAE的輸出數(shù)據(jù)與輸入數(shù)據(jù)相同,通過(guò)反向傳播算法進(jìn)行訓(xùn)練。當(dāng)重構(gòu)誤差函數(shù)最小時(shí),得到最優(yōu)網(wǎng)絡(luò)參數(shù):輸入層權(quán)值w1,隱含層偏置b1及隱含層輸出h1。h1為輸入特征的高級(jí)抽象表示,這些抽象特征剔除了輸入數(shù)據(jù)中的冗余信息,而且過(guò)濾了其中部分噪聲,且當(dāng)輸入數(shù)據(jù)維度較高時(shí),可以起到降低數(shù)據(jù)維度的作用。將h1作為ELM的輸入數(shù)據(jù),有利于提升ELM性能。
2)訓(xùn)練第二去噪自編碼器網(wǎng)絡(luò),生成ELM輸入權(quán)值和隱含層參數(shù)。該網(wǎng)絡(luò)結(jié)構(gòu)如圖4中的DAE2所示,與第一去噪自編碼器訓(xùn)練相似,只是將DAE的輸出數(shù)據(jù)與輸入數(shù)據(jù)均置為第一去噪自編碼器的隱含層輸出h1。訓(xùn)練完畢后,得到第二去噪自編碼器的最優(yōu)網(wǎng)絡(luò)參數(shù):輸入層權(quán)值w2,隱含層偏置b2及隱含層輸出h2。將其作為ELM的網(wǎng)絡(luò)參數(shù),可以避免輸入層權(quán)值與隱含層參數(shù)隨機(jī)賦值所造成的性能和魯棒性下降問(wèn)題。
3)訓(xùn)練ELM作為整個(gè)網(wǎng)絡(luò)的辨別模型。ELM結(jié)構(gòu)如圖5中的ELM模塊所示,其輸入數(shù)據(jù)為第一去噪自編碼器的隱含層輸出矩陣h1,即原始輸入數(shù)據(jù)的去噪抽象特征表示,其輸入層權(quán)值與隱含層輸出為第二去噪自編碼器的輸入層權(quán)值w2與隱含層輸出h2,然后根據(jù)1.1節(jié)中所述理論訓(xùn)練ELM,即求解ELM隱含層輸出權(quán)值β,從而完成整個(gè)網(wǎng)絡(luò)的訓(xùn)練。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)平臺(tái)為Intel i7-7700K 4.2GHz,16GB內(nèi)存和1TB硬盤(pán)的PC,實(shí)驗(yàn)在Windows 7系統(tǒng)上用Matlab 2017(b)實(shí)現(xiàn)。
3.2 實(shí)驗(yàn)數(shù)據(jù)
DAE-ELM算法旨在提升ELM在高維含聲噪數(shù)據(jù)下的泛化性能,在本文中采用MNIST[18]、Fashion MNIST[19]、Rectangles[20]和Convex[21]等數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),并分別加入10%高斯白噪聲與10%椒鹽噪聲到各數(shù)據(jù)集生成含噪聲的新數(shù)據(jù)集,其詳細(xì)信息如表1所示。
3.3 結(jié)果分析
為測(cè)試所提出模型的性能,設(shè)計(jì)了以下實(shí)驗(yàn)(需要強(qiáng)調(diào)的是,本文中所有實(shí)驗(yàn)結(jié)果皆為重復(fù)實(shí)驗(yàn)10次后的均值)。
實(shí)驗(yàn)1 網(wǎng)絡(luò)結(jié)構(gòu)確定以及與其他ELM算法在無(wú)噪聲MNIST數(shù)據(jù)集下的性能對(duì)比分析。
實(shí)驗(yàn)2 退化率對(duì)模型性能的影響分析。
實(shí)驗(yàn)3 與其他算法在有噪聲和無(wú)噪聲環(huán)境下的性能對(duì)比分析。
3.3.1 網(wǎng)絡(luò)結(jié)構(gòu)確定與性能對(duì)比分析
對(duì)于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),即隱含層層數(shù)、節(jié)點(diǎn)數(shù)的確定在目前為止暫無(wú)明確的理論指導(dǎo),學(xué)者們普遍采用試錯(cuò)法,按照一定準(zhǔn)則改變網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行重復(fù)實(shí)驗(yàn),然后采用性能最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。因?yàn)楸疚男柽M(jìn)行性能對(duì)比實(shí)驗(yàn),隱層節(jié)點(diǎn)數(shù)目的不同將對(duì)模型性能對(duì)比的客觀性產(chǎn)生影響,所以各模型網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)應(yīng)盡可能相同。
因?yàn)镈AE-ELM含有兩層隱含層,難以同時(shí)確實(shí)兩層節(jié)點(diǎn)數(shù),又因?yàn)榈诙[含層實(shí)為ELM的隱含層,所以本文首先根據(jù)原始ELM算法隱含層節(jié)點(diǎn)個(gè)數(shù)對(duì)分類性能的影響以確定DAE-ELM第二隱含層節(jié)點(diǎn)數(shù),然后再根據(jù)DAE-ELM第一隱含層節(jié)點(diǎn)數(shù)對(duì)分類性能的影響情況,確定其節(jié)點(diǎn)數(shù)。最后在進(jìn)行對(duì)比實(shí)驗(yàn)時(shí),觀察隱含層節(jié)點(diǎn)數(shù)對(duì)各模型分類性能的影響,以判別各模型性能。
首先,使用MNIST數(shù)據(jù)集中的訓(xùn)練樣本訓(xùn)練ELM模型,并使用測(cè)試集進(jìn)行測(cè)試,觀察分類性能隨隱含層節(jié)點(diǎn)數(shù)的變化趨勢(shì),其中節(jié)點(diǎn)個(gè)數(shù)取值范圍為{100,200,…,2000}。性能趨勢(shì)圖如圖6所示。
根據(jù)圖6不難發(fā)現(xiàn),隨著隱含層節(jié)點(diǎn)數(shù)的增加,ELM的訓(xùn)練與測(cè)試分類錯(cuò)誤率都在逐步下降,且下降趨勢(shì)逐漸放緩,符合ELM的一致逼近性。但是在保證一定分類正確率的前提下,理應(yīng)考慮網(wǎng)絡(luò)的緊湊性,減少時(shí)間與空間復(fù)雜度。在圖6中,當(dāng)節(jié)點(diǎn)數(shù)等于1500時(shí),分類錯(cuò)誤率較低,網(wǎng)絡(luò)較緊湊,而且錯(cuò)誤率下降趨勢(shì)已較為緩慢,所以假定隱含層節(jié)點(diǎn)數(shù)為1500,即DAE-ELM第二隱含層節(jié)點(diǎn)數(shù)為1500。
假定DAE-ELM第二隱含層節(jié)點(diǎn)個(gè)數(shù)為1500后,根據(jù)重復(fù)實(shí)驗(yàn)的方法確定其第一隱含層節(jié)點(diǎn)個(gè)數(shù)。DAE-ELM的基本參數(shù)設(shè)定如表2所示,分類性能隨第一隱含層節(jié)點(diǎn)數(shù)變化情況如圖7所示。
由圖7可以發(fā)現(xiàn),隨著第一隱含層節(jié)點(diǎn)數(shù)的遞增,DAE-ELM的分類錯(cuò)誤率先上升后下降,而后再上升。這表明當(dāng)?shù)诙[含層節(jié)點(diǎn)數(shù)固定,而第一隱含層節(jié)點(diǎn)數(shù)逐步增加時(shí),DAE-ELM分類性能的變化并不是一個(gè)單調(diào)的過(guò)程,存在一個(gè)或多個(gè)最優(yōu)節(jié)點(diǎn)數(shù),使得DAE-ELM分類錯(cuò)誤率最低,如圖7中隱含層節(jié)點(diǎn)數(shù)為200時(shí)。
當(dāng)固定DAE-ELM的第一隱含層節(jié)點(diǎn)數(shù)為200后,進(jìn)行DAE-ELM與ELM、K-ELM(Kernel ELM)[3]、PCA-ELM(Principal Component Analysis ELM)[22]算法的性能對(duì)比分析,觀察各算法性能隨隱含層節(jié)點(diǎn)數(shù)增加的變化情況。其中各算法參數(shù)設(shè)定為:K-ELM中KernelParam=0.1,PCA-ELM取前200維,其累計(jì)貢獻(xiàn)率為96.89%,DAE-AE參數(shù)不變。不同算法的分類性能如圖8所示。
觀察圖8可以發(fā)現(xiàn),DAE-ELM算法性能在數(shù)據(jù)集未添加噪聲的情況下,性能優(yōu)于其他ELM算法,尤其在隱含層節(jié)點(diǎn)數(shù)低于1500時(shí),性能優(yōu)勢(shì)明顯。DAE-ELM分類錯(cuò)誤率的降低主要有以下三點(diǎn)原因:1)與其他ELM相比,DAE-ELM由DAE生成ELM的輸入權(quán)值與隱含層參數(shù),避免了算法隨機(jī)賦值的偶然性,提高了算法的魯棒性,且比K-ELM采用核函數(shù)方法優(yōu)化隱含層輸出的方法更優(yōu);2)與ELM,K-ELM相比,DAE-ELM中DAE起到了特征降維的作用,有利于剔除數(shù)據(jù)中的冗余信息,將其作為輸入數(shù)據(jù),有利于提高ELM性能;3)與PCA-ELM相比,DAE的特征降維并不是將部分特征刪除,而是發(fā)掘特征間的關(guān)聯(lián)信息,將其抽象為更高級(jí)的特征,這些高級(jí)抽象特征更能體現(xiàn)事物的本質(zhì),有利于降低分類錯(cuò)誤率。
3.3.2 退化率影響實(shí)驗(yàn)
退化率是DAE中的重要參數(shù),它直接關(guān)系到編碼器所提取的高級(jí)抽象特征,進(jìn)而影響算法性能。在本次實(shí)驗(yàn)中,將著重分析不同退化率對(duì)輸入樣本、特征提取、分類性能的影響。
實(shí)驗(yàn)數(shù)據(jù)為未加噪聲MNIST數(shù)據(jù),DAE-ELM網(wǎng)絡(luò)結(jié)構(gòu)為784-200-1500-10,退化率v={0,0.1,0.4},其余參數(shù)與3.3.1節(jié)實(shí)驗(yàn)相同(當(dāng)v=0時(shí),DAE-ELM算法即為AE-ELM[23]算法)。當(dāng)v取不同值,輸入樣本、輸入權(quán)值如圖9~10所示。
由圖9可以看出,隨著退化率v的增加,經(jīng)退化后的樣本所加入的噪聲越多,樣本失真越嚴(yán)重。但從圖10可以發(fā)現(xiàn),當(dāng)v=0.1時(shí),輸入權(quán)值較未經(jīng)過(guò)退化情況下的更清晰分明,這是因?yàn)榻?jīng)過(guò)退化后,為使得重構(gòu)誤差函數(shù)達(dá)到最小值,DAE必須盡可能地發(fā)掘更本質(zhì)、魯棒的高級(jí)抽象特征,促進(jìn)其對(duì)重構(gòu)數(shù)據(jù)的作用,進(jìn)而降低次要特征的影響。發(fā)掘更加本質(zhì)、魯棒的高級(jí)抽象特征對(duì)模型性能有促進(jìn)作用。當(dāng)v=0.4時(shí),過(guò)高的退化率導(dǎo)致樣本失真嚴(yán)重,輸入權(quán)值更加模糊,使得提取的特征不能很好地識(shí)別不同類別樣本的差異,這對(duì)模型是不利的。所以,將模型退化率控制在合理范圍內(nèi),這對(duì)DAE-ELM模型具有重要意義。
為進(jìn)一步確定合理的退化率范圍,接下來(lái)測(cè)試當(dāng)其余參數(shù)不變,v={0,0.05,0.1,…,0.5}范圍內(nèi)對(duì)MNIST數(shù)據(jù)集的分類性能,其測(cè)試結(jié)果如圖11所示。
從圖11可以發(fā)現(xiàn),當(dāng)v≤0.25時(shí),DAE-ELM分類錯(cuò)誤率處于一個(gè)震蕩過(guò)程,且v=0.1時(shí),訓(xùn)練與測(cè)試分類錯(cuò)誤率均達(dá)到最低值;當(dāng)v>0.25時(shí),錯(cuò)誤率明顯上升。由此可見(jiàn),針對(duì)MNIST數(shù)據(jù)集,DAE-ELM中v的合理范圍為[0,0.25],最佳取值為0.1。模型性能變化大致分為三個(gè)階段:1)當(dāng)v<0.1時(shí),分類錯(cuò)誤率先上升后下降,這是因?yàn)樘崛「呒?jí)抽象特征對(duì)于模型性能的促進(jìn)作用與退化過(guò)程相比是滯后的,當(dāng)v較低時(shí),高級(jí)特征的促進(jìn)作用弱于退化過(guò)程的抑制作用,隨著v的增加,促進(jìn)作用增加并強(qiáng)于抑制作用,模型性能逐漸提高,直到v取到最優(yōu)值,模型性能達(dá)到最佳。2)當(dāng)0.1≤v≤0.25時(shí),高級(jí)抽象特征的促進(jìn)作用與退化過(guò)程的抑制作用不相上下,模型性能無(wú)明顯變化。3)當(dāng)v>0.25時(shí),模型性能大幅度下降,這是因?yàn)橥嘶^(guò)程造成失真嚴(yán)重,以至于提取的特征并不能很好表示原始樣本,從而影響模型性能。所以,對(duì)樣本數(shù)據(jù)進(jìn)行合理范圍內(nèi)的退化有助于提升模型性能。
3.3.3 多算法性能對(duì)比分析
為驗(yàn)證DAE-ELM的綜合性能,在本節(jié)實(shí)驗(yàn)中,將采用對(duì)上述4個(gè)數(shù)據(jù)集及其分別添加10%高斯白噪聲與10%椒鹽噪聲后的8個(gè)數(shù)據(jù)集,共12個(gè)數(shù)據(jù)集進(jìn)行DAE-ELM與其他算法的性能比較。其中ELM、PCA-ELM、SAA-2[15]、DAE-ELM網(wǎng)絡(luò)結(jié)構(gòu)分別為:784-1500-X,784-1500-X,784-200-200-X(為重復(fù)實(shí)驗(yàn)后性能最佳的結(jié)構(gòu)),784-200-1500-X,其中X為類別數(shù)。各算法其余參數(shù)與實(shí)驗(yàn)1中相同(SAA-2參數(shù)與DAE-ELM相同)。各算法分類錯(cuò)誤率如表3所示。
由表3可以發(fā)現(xiàn),當(dāng)隱含層節(jié)點(diǎn)數(shù)較少時(shí),絕大多數(shù)數(shù)據(jù)集下DAE-ELM的分類錯(cuò)誤率皆低于其余算法,且加入噪聲對(duì)DAE-ELM性能的影響也較弱。在不含噪聲影響下,DAE-ELM相較于ELM、PCA-ELM、SAA-2算法,其分類錯(cuò)誤率在MNIST數(shù)據(jù)集中至少下降了5.6%,在Fashion MNIST數(shù)據(jù)集中至少下降了3.0%,在Rectangles數(shù)據(jù)集中至少下降了2.0%,在Convex數(shù)據(jù)集中至少下降了12.7%。
性能分析如下:1)DAE-ELM性能優(yōu)于ELM、PCA-ELM,是因?yàn)镈AE-ELM避免了隱含層隨機(jī)賦值,且其提取特征并不是舍棄部分特征,而是將其融合為更能體現(xiàn)數(shù)據(jù)本質(zhì)、更具魯棒性的高級(jí)抽象低維特征。2)DAE-ELM性能優(yōu)于SAA-2,一方面是因?yàn)镋LM具有一致逼近性,隨著隱含層節(jié)點(diǎn)數(shù)的增加,能逼近任意函數(shù);另一方面是因?yàn)镈AE在AE中加入的退化過(guò)程使得提取的高級(jí)抽象特征更具代表性和魯棒性。3)但在個(gè)別含噪聲數(shù)據(jù)中,PCA-ELM性能優(yōu)于DAE-ELM,其原因可能是因?yàn)镻CA在去掉部分維度時(shí),將包含其中的噪聲一并去除,大幅度減少了噪聲對(duì)PCA-ELM性能的影響。
4 結(jié)語(yǔ)
針對(duì)ELM隱含層參數(shù)隨機(jī)賦值降低算法魯棒性以及傳統(tǒng)ELM處理高維含噪數(shù)據(jù)性能欠佳的問(wèn)題,本文提出了基于去噪自編碼器的極限學(xué)習(xí)機(jī)(DAE-ELM)算法。首先通過(guò)堆疊的DAE分別產(chǎn)生ELM輸入數(shù)據(jù)、隱含層參數(shù),然后通過(guò)ELM算法求解隱含層輸出權(quán)值,完成對(duì)網(wǎng)絡(luò)的訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,不管高維數(shù)據(jù)是否含有一定噪聲,DAE-ELM算法相較傳統(tǒng)ELM算法與自編碼器算法,其分類錯(cuò)誤率得到了較大的下降,同時(shí)提供了拓寬ELM與深度學(xué)習(xí)算法結(jié)合的思路。但DAE-ELM為保持良好的泛化能力,仍然需要一定量的隱含層節(jié)點(diǎn)數(shù)作為支撐,這需要今后進(jìn)一步的研究加以改善。
參考文獻(xiàn) (References)
[1] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and applications [J]. Neurocomputing, 2006, 70(1/2/3): 489-501.
[2] HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes [J]. IEEE Transactions on Neural Networks, 2006, 17(4): 879-892.
[3] HUANG G B, ZHOU H M, DING X J, et al. Extreme learning machine for regression and multiclass classification [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2012, 42(2): 513-529.
[4] ZONG W W, HUANG G B, CHEN Y Q. Weighted extreme learning machine for imbalance learning [J]. Neurocomputing, 2013, 101: 229-242.
[5] LIANG N Y, HUANG G B, SARATCHANDRAN P, et al. A fast and accurate online sequential learning algorithm for feedforward networks [J]. IEEE Transactions on Neural Networks, 2006, 17(6): 1411-1423.
[6] LAN Y, HU Z J, SOH Y C, et al. An extreme learning machine approach for speaker recognition [J]. Neural Computing and Applications, 2013, 22(3/4): 417-425.
[7] 王光華,李素梅,朱丹,等.極端學(xué)習(xí)機(jī)在立體圖像質(zhì)量客觀評(píng)價(jià)中的應(yīng)用[J].光電子·激光,2014,25(9):1837-1842.(WANG G H, LI S M, ZHU D, et al. Application of extreme learning machine in objective stereoscopic image quality assessment [J]. Journal of Optoelectronics·Laser, 2014, 25(9): 1837-1842.)
[8] XU Y, DAI Y Y, DONG Z Y, et al. Extreme learning machine-based predictor for real-time frequency stability assessment of electric power systems [J]. Neural Computing and Applications, 2013, 22(3/4): 501-508.
[9] HORATA P, CHIEWCHANWATTANA S, SUNAT K. Robust extreme learning machine [J]. Neurocomputing, 2013, 102: 31-44.
[10] RONG H J, ONG Y S, TAN A H, et al. A fast pruned-extreme learning machine for classification problem [J]. Neurocomputing, 2008, 72(1/2/3): 359-366.
[11] CHARAMA L L, ZHOU H, HUANG G B. Representational learning with ELMs for big data [J]. IEEE Intelligent Systems, 2013, 28(6): 31-34.
[12] TANG J X, DENG C W, HUANG G B. Extreme learning machine for multilayer perceptron [J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(4): 809-821
[13] ZHU W T, MIAO J, QING L Y, et al. Hierarchical extreme learning machine for unsupervised representation learning [C]//Proceedings of the 2015 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2015: 1-8.
[14] YANG Y M, WU Q M J. Multilayer extreme learning machine with subnetwork nodes for representation learning [J].IEEE Transactions on Cybernetics, 2016, 46(11): 2570-2583.
[15] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders [C]// ICML 2008: Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008: 1096-1103.
[16] HUANG G, HUANG G B, SONG S J, et al. Trends in extreme learning machines: a review [J]. Neural Networks, 2015, 61: 32-48.
[17] 郭旭東,李小敏,敬如雪,等.基于改進(jìn)的稀疏去噪自編碼器的入侵檢測(cè)[J].計(jì)算機(jī)應(yīng)用,2019,39 (3):769-773.(GUO X D, LI X M, JING R X, et al. Intrusion detection based on improved sparse denoising autoencoder [J]. Journal of Computer Applications, 2019, 39 (3): 769-773.)
[18] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[19] XIAO H, RASUL K, VOLLGRAF R. Fashion-MNIST: a novel image dataset for benchmarking machine learning algorithms [EB/OL]. [2018-09-15]. https://arxiv.org/pdf/1708.07747.pdf.
[20] ERHAN D. RectanglesData [DB/OL]. [2018-09-15]. http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData.
[21] ERHAN D. Recognition of convex sets [DB/OL]. [2018-09-15]. http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex.
[22] 肖冬,王繼春,潘孝禮,等.基于改進(jìn)PCA-ELM方法的穿孔機(jī)導(dǎo)盤(pán)轉(zhuǎn)速測(cè)量[J].控制理論與應(yīng)用,2010,27(1):19-24.(XIAO D, WANG J C, PAN X L, et al. Modeling and control of guide-disk speed of rotary piercer [J]. Control Theory & Applications, 2017, 27(1): 19-24.)
[23] 馬萌萌.基于深度學(xué)習(xí)的極限學(xué)習(xí)機(jī)算法研究[D].青島: 中國(guó)海洋大學(xué), 2015:28-30.(MA M M. Research on Extreme learning machine algorithm based on deep learning [D]. Qingdao: Ocean University of China, 2015: 28-30.)