亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

代價敏感正則化有限記憶多隱層在線序列極限學習機及圖像識別應用

2018-06-01 02:09:15宋坤駿丁建明

鐵路計算機應用 2018年5期

宋坤駿，丁建明

(西南交通大學牽引動力國家重點實驗室，成都 610031)

如今，深度學習在圖像識別領域[1-3]的正確率已經接近或超過人類,但深度學習算法的高額運行開銷使得它在實用化方面還面臨一些困難。例如，百度自主開發(fā)的Deep Image圖像識別系統(tǒng)就需要運行在其自行研發(fā)的Minwa超級計算機上。為了在移動或嵌入式設備上更快更好地運行深度學習模型，需要在降低模型的開銷上進一步努力。降低開銷的思路是：（1）從根本上避免神經網(wǎng)絡中用到的梯度下降等迭代步驟；（2）采用在線增量式訓練算法代替離線批量式算法。將這兩種思路結合，本文提出代價敏感正則化有限記憶多隱層在線序列極限學習機（CSR-FMML-OSELM）算法。

極限學習機（ELM）[4]是一種新型的單隱層前饋神經網(wǎng)絡訓練算法，近年來針對該算法進行了不少研究和拓展。Yang等人[5]提出了一種雙端增量型極限學習機，這是一種通過網(wǎng)絡余差反向傳遞的方式直接計算部分隱層神經元參數(shù)的算法，擺脫了隱層神經元完全隨機選取的任意性對算法性能造成的不利影響。Cao等人[6]借鑒Learn++思想提出了一種基于投票機制的集成ELM算法，也屬于一種ELM隱層參數(shù)選取隨機性的解決思路。Liu等人[7]證明了有L個無限可微隱層節(jié)點的ELM網(wǎng)絡的VC維數(shù)等于L。Yu和Deng[8]提出了將反向傳播算法作用于網(wǎng)絡的隱層參數(shù)上以壓縮ELM網(wǎng)絡的尺寸的思想,他們的方法將網(wǎng)絡的模型尺寸壓縮到了原先的1/16。張弦等人提出的限定記憶極端學習機（FM-ELM）是一種固定樣本數(shù)量的在線序列極限學習算法，該算法每添加一個新訓練樣本的同時會丟棄一個距當前時刻最遠的舊訓練樣本，以消除舊訓練樣本對于當前模型的不利影響[9]。

本文提出的CSR-FM-ML-OSELM算法相比張弦等人提出的算法，創(chuàng)新之處如下：（1）為了體現(xiàn)類別之間的不平衡性，在算法中加入了類別的權重因子，此即代價敏感性（CS）；（2）將多隱層（ML）極限學習機[10]納入在線學習的框架中；（3）為了進一步提升算法的性能，使用深度學習理論中常用的softplus激活函數(shù)代替ELM理論中的sigmoid激活函數(shù)；（4）為了提升穩(wěn)定性和泛化性能，采用吉洪諾夫的正則化方法(R)。

1 代價敏感正則化有限記憶單隱層在線序列極限學習機

1.1 極限學習機簡介

極限學習機其實是一種單隱層前饋神經網(wǎng)絡的特殊訓練算法，該算法最大特點在于極大地減少了需要迭代計算求解的權值和偏置個數(shù)，將原兩層權值的迭代求解問題轉換為通過最小二乘法求解最后一層的輸出權值。因而不僅大大加快了訓練速度，而且非但沒有喪失泛化能力反而有所提升。設單隱層前饋網(wǎng)絡的輸出層和隱層神經元數(shù)分別為 m和L，則關于輸入特征向量x∈Rd的第j維輸出表達式為：

h(x)=[h1(x), h2(x), …, hL(x)]和 βj=[βj1, βj2, …, βjL]T依次是隱層激活函數(shù)向量和連接第j個輸出層節(jié)點和各隱層節(jié)點的輸出權值向量。非線性激活函數(shù)h(x)可以是 sigmoid，tanh，sin 等函數(shù)。ai=[ai1, ai2, …, aid]和bi則分別為連接輸入層各節(jié)點和隱層第i個節(jié)點的輸入權值及第i個隱層節(jié)點的偏置，輸出權值矩陣βj=[β1, β2, …, βm]由式（2）經驗風險最小化問題求出：

式（2）中的目標函數(shù)稱為ELM算法的損失函數(shù)，容易看出，上述最優(yōu)化問題可以用最小二乘法求解。Bartlett曾證明[13]：單隱層前饋神經網(wǎng)絡的泛化能力與回歸系數(shù)向量的范數(shù)大小呈負相關關系，因此滿足權值最小的Moore-Penorse最小二乘解同時也是所有最小二乘解中泛化能力最好的，其回歸系數(shù)向量（即輸出層權重）的表達式為：

式（3）中，關于N個輸入樣本[x1, x2, …, xN]的隱層輸出矩陣H定義為：

其中，L是隱層神經元數(shù)，N是輸入樣本數(shù)，而關于N個輸入樣本的訓練數(shù)據(jù)目標矩陣則由式（5）定義：

其中，m是輸出維數(shù)。

廣義逆矩陣H?的定義如下：當H?H為非奇異矩陣時，H?=(HTH)–1HT，而當 HHT為非奇異矩陣時，H?=HT(HHT)–1。由以上公式可以得出ELM算法的訓練流程如圖1所示。

圖1 極限學習機訓練流程

1.2 代價敏感正則化有限記憶單隱層在線序列極限學習機

為了體現(xiàn)不同類別故障誤診的代價差異性，對不同類別的樣本引入不同的權重系數(shù)。假設第k類樣本誤診的代價乘數(shù)是W(k)，k=1, 2,…,Nc，這里，Nc是預先已知的類別總數(shù)，通常為了消除類別間數(shù)量上的不平衡，可以取W(k)=nk–1，即每一類樣本數(shù)的倒數(shù)。下面用加權最小二乘法體現(xiàn)代價敏感性，而用增量式學習算法應對流式到來的故障數(shù)據(jù)。

加權最小二乘問題的表述是：設要求一組系數(shù)βj，使損失函數(shù)(Z–Hβ)取最小值，那么令偏導 αJ/?β=–2HTWZ+2HTWHβ=0可以得到系數(shù)的加權最小二乘估計：β*=(HTWH)–1HTWZ。這里，H矩陣第i行第j列元素為第j個基函數(shù)hj(x)在第i個采樣點xi的取值，W是各個權值組成的對角矩陣diag(W1, W2, …,WN)，諸Wi從諸W(k)中取值，Z是輸出目標值向量，xi=[x1i,x2i,…,xni]T是輸入層向量(1≤i≤N) 。加權最小二乘法的損失函數(shù)為最小的充分條件是?2J/?β2=HTWH＞0，即HTWH是正定矩陣。為了提高解的穩(wěn)定性和泛化性能，通常在損失函數(shù)J中再加上一項正比于輸出權值模平方的項1/2C(||β||2)，對應于上述解中再增加一項正則化項I/C，得到：

下面給出上述代價敏感正則化極限學習機的在線遞推形式。每步遞推可分成兩個子步驟：（1）加入N1個新樣本；（2）刪去距當前時刻最遠的N2個舊樣本。有限記憶性由（2）體現(xiàn)。

假設新增的數(shù)據(jù)對應的矩陣塊是ΔH(1)，ΔW(1)和ΔZ(1)，刪除的數(shù)據(jù)對應的矩陣塊是 ΔH(2)，ΔW(2)和ΔZ(2)，則由分塊矩陣的運算知：

這里，角標（1）和（2）分別代表新增數(shù)據(jù)后和刪除舊數(shù)據(jù)后的各個矩陣，由于

其中，K=(I/C+HTWH)。則由式（8）和式（9）以及Woodbury公式[11]經過簡單推演可得如下輸出層權值遞推公式：

其中，P=K–1, P(1)=K(1)–1, P(2)=K(2)–1。每當有新數(shù)據(jù)到來時，據(jù)式（11）求解新增數(shù)據(jù)后的權值β(1)，再據(jù)式（13）求解刪除一定量舊數(shù)據(jù)后的權值β(2)作為反映最新數(shù)據(jù)的當前權值。

由公式的推導過程可見，每次有數(shù)據(jù)到來時新增數(shù)據(jù)量N1和刪除的舊數(shù)據(jù)量N2不一定相等，兩者間可以是任意的比例關系N2/N1，但需要在合理的范圍內以保證任何時候都有N+N1–N2＞0。

2 代價敏感正則化有限記憶多隱層在線序列極限學習機

作為多隱層在線序列極限學習機的基礎，首先給出單隱層極限學習自編碼器的訓練流程：單隱層極限學習自編碼器采用無監(jiān)督的訓練算法，無需給出訓練類標簽，其類標簽就等于輸入向量，除此之外，其訓練算法同極限學習機的訓練算法是類同的，均由式（6）給出，只是在式（6）中輸出向量Z等于輸入向量X,并且輸入層的權值和偏置在隨機選取后便按照Johnson-Lindenstrauss引理[12]予以正交化。

本節(jié)的多隱層在線序列極限學習機同上一小節(jié)中單隱層在線序列極限學習機之間的關系正如深度學習中堆棧自編碼器同各層自動編碼器（AE）之間的堆疊關系。多隱層的作用在于通過逐層遞進的無監(jiān)督學習自動提取特征。本節(jié)將沿用上節(jié)單隱層網(wǎng)絡的遞推算法給出多隱層網(wǎng)絡的遞推算法：在任何時刻t=k+1，用單隱層網(wǎng)絡的遞推公式求出第1隱層的輸出層權值而后每一隱層的隱層輸出矩陣可通過前一隱層的隱層輸出矩陣用前向傳播算法求出,其偽代碼描述如下。

（1）初始化階段

初始數(shù)據(jù)集{xi, ti}, xi∈d , ti∈m, i=1, 2,…, N0

For s=1 to p s為隱層數(shù)目

其中，由式（9）計算

End for

（2）在線學習階段

For k=0 to tmax k為時間步數(shù)

For s=1 to p

H由式（1 3）計算

End for

3 實驗研究

為了研究本文所提出算法的效果，分別在CIFAR-10物體圖片庫，MNIST手寫數(shù)字庫和ORL人臉庫上進行對比實驗。計算所用操作系統(tǒng)為Windows 7 64 bit旗艦版，CPU為Intel(R) Core(TM)i7-3520M@ 2.90 GHz，內存為8 GB，所用計算軟件為Matlab R2016a。

CIFAR-10物體圖片庫包含60 000張像素為32×32的彩色照片，分成10類，每類中含有6 000張照片，共50 000張訓練圖片，10 000張測試圖片。

圖2給出了每類中10張示例圖片。

圖2 CIFAR-10示例圖片

MNIST手寫數(shù)字庫中0-9每個數(shù)字有6 000張訓練圖片，1 000張測試圖片，圖片像素為28×28。

ORL人臉庫包含40個人的共400張人臉照，每個人10張照片，每張像素為64×64。實驗時每個人選擇6張作為訓練圖片，4張作為測試圖片。

實驗時ELM網(wǎng)絡的輸入節(jié)點數(shù)取為圖片的像素點數(shù)，對3類圖片庫分別為32×32，28×28和64×64；輸出節(jié)點數(shù)取為已知類別總數(shù)，對3類圖片庫分別為10，10和40。3類數(shù)據(jù)庫初始圖片張數(shù)分別為15 000，15 000，200；每一時間步內進入的圖片張數(shù)分別取為500，500，5。有限記憶性要求的每一時間步內刪除的圖片張數(shù)取為等于每一時間步內進入的圖片張數(shù)。

圖3～圖5是在3組圖片數(shù)據(jù)集上三隱層CSRFM-ML-OSELM和原始OSELM的測試集分類準確率隨著其隱層單元數(shù)的變化關系圖（三隱層是指中間隱層單元數(shù)），即3幅圖中橫軸是隱層神經元數(shù)，縱軸是測試集分類準確率。由圖3～圖5可見，不論是單隱層還是多隱層的極限學習機，測試集的識別準確率均有隨著隱層神經元數(shù)增多而增多并漸趨飽和的趨勢。根據(jù)這一趨勢可以選擇最優(yōu)的隱層節(jié)點數(shù)以兼顧計算復雜度和分類準確率。由圖4和圖5可見，當隱層節(jié)點數(shù)較多時，本文提出的CSR-FM-MLOSELM算法對于手寫數(shù)字辨識和人臉識別均達到了較好的準確率，最高都超過了95%，表明OSELM算法加入多隱層特性分類準確率有明顯的提升。多層隱藏層確實能夠學習到一些單隱層無法提取的高階特征。

圖3 CIFAR-10圖片庫2種算法分類準確率隨隱層節(jié)點數(shù)變化

由于ELM隱層節(jié)點參數(shù)是隨機選取的，所以為了避免分類準確率結果的不穩(wěn)定性，在每組圖片數(shù)據(jù)集上進行了10組實驗，取各組實驗識別率的平均值，記錄下10組數(shù)據(jù)的標準差以跟蹤2種算法的穩(wěn)定性表現(xiàn)。2種ELM算法在3組圖片數(shù)據(jù)集上的測試集準確率的標準差和平均訓練時間如表1所示，其中，每組數(shù)據(jù)集左邊一列是原始OSELM算法的數(shù)據(jù)，而右邊一列是本文提出的CSR-FM-ML-OSELM算法的數(shù)據(jù)。

圖4 MNIST圖片庫2種算法分類準確率隨隱層節(jié)點數(shù)變化

圖5 ORL人臉庫2種算法分類準確率隨隱層節(jié)點數(shù)變化

由表1可見，在由測試集準確率標準差體現(xiàn)的算法穩(wěn)定性方面，本文提出的CSR-FM-ML-OSELM算法勝過原始的OSELM算法。同時，本文算法的訓練時間顯著低于現(xiàn)有的深度學習算法，且多隱層特性加入在線序列極限學習機后，相比單隱層的在線序列極限學習機而言，訓練時間提升幅度并不大。

表1 本文算法和原始OSELM算法在3組圖片庫數(shù)據(jù)集上測試集準確率標準差和平均訓練時間

表2 所示為在不同的正則化參數(shù)C和權重W(k)取值下CSR-FM-ML-OSELM和CSR- OSELM人臉識別的平均準確率。表2中，每個C值下的左右兩列分別代表權重W(k)=nk–1和W(k)=1兩種情況，其中，W(k)=1，C=1030的CSR-OSELM算法就相當于原始的OSELM算法。從中可看出，原始OSELM算法的測試集準確率91.9%要顯著低于最高的準確率97.5%，帶有多隱層和有限記憶性質的CSR-FM-MLOSELM算法的準確率要高于同樣參數(shù)的不帶這些性質的CSR-OSELM算法的準確率，并且隨著參數(shù)C的增加，也即正則化項作用的減弱，準確率有下降趨勢。同時，左列帶了加權處理情形的準確率要高于右列不帶加權情形的。說明多隱層、有限記憶性、正則化和代價敏感性這些性質對于提升泛化性能都是有一定作用的。

4 結束語

本文將代價敏感性（CS）、有限記憶性（FM）和多隱層特性（ML）添加到了在線序列極限學習算法中,提出代價敏感正則化有限記憶多隱層在線序列極限學習機（CSR-FM-ML-OSELM）算法。實驗結果表明，多隱層特性有效地模仿了深度神經網(wǎng)絡的特點，提升了圖像識別的準確率，在MNIST手寫數(shù)字庫和OCL人臉庫上取得了同深度學習可比的結果，并且模型的訓練速度大大快于深度神經網(wǎng)絡。同時，在線多隱層極限學習算法除了在泛化性能上較在線單隱層極限學習算法有較大提升外，在泛化性能的穩(wěn)定性上也有所改善。

[1]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]// Computer Vision and Pattern Recognition.IEEE, 2016:770-778.

表2 CSR-FM-ML-OSELM和CSR-OSELM算法的平均人臉測試集準確率

[2]Panda P, Sengupta A, Roy K. Energy-Efficient and Improved Image Recognition with Conditional Deep Learning[J]. Acm Journal on Emerging Technologies in Computing Systems,2017, 13(3):1-21.

[3]Miyazono T, Saitoh T. FishSpecies Recognition Based on CNN Using Annotated Image[C]// International Conference on Information Theoretic Security. Springer, Singapore, 2017:156-163.

[4]Huang, G.B., Zhu, Q Y., Siew, C.K. Extreme learning machine:theory and Applications[J]. Neurocomputing, 2006, 70(1):489–501.

[5]Yang Y, Wang Y, Yuan X. Bidirectional Extreme Learning Machine for Regression Problem and Its Learning Effectiveness[J]. IEEE Transactions on Neural Networks &Learning Systems, 2012, 23(9):1498-1505.

[6]Cao J, Lin Z, Huang G B, et al. Voting based extreme learning machine[J]. Information Sciences, 2012, 185(1): 66-77.

[7]Liu X, Gao C, Li P. A comparative analysis of support vector machines and extreme learning machines [J]. Neural Networks,2012, 33(9): 58.

[8]Yu, D., Deng, L. Efficient and effective algorithms for training single hidden-layer neural networks [J]. Pattern Recognition Letters,2012, 33(5): 554–558

[9]張弦，王宏力. 限定記憶極端學習機及其應用[J]. 控制與決策，2012，27（8）：1206-1210.

[10]Tang J, Deng C, Huang G B. Extreme Learning Machine for Multilayer Perceptron[J]. IEEE Transactions on Neural Networks & Learning Systems, 2017, 27(4):809-821.

[11]Deng C Y. A generalization of the Sherman–Morrison–Woodbury formula[J]. Applied Mathematics Letters, 2011,24(9):1561-1564.

[12]Blocki J, Blum A, Datta A, et al. The Johnson-Lindenstrauss Transform Itself Preserves Differential Privacy[C]// IEEE,Symposium on Foundations of Computer Science. IEEE Computer Society, 2012:410-419.

[13]Bartlett P. The sample complexity of pattern classification with neural networks: the size of theweights is more important than the size of the network [J]. IEEE Transactions on InformationTheory. 1998, 44 (2): 525–536.