代 偉 李德鵬 楊春雨 馬小平
信息技術的迅速發(fā)展使得生產(chǎn)制造行業(yè)進入大數(shù)據(jù)時代,這為數(shù)據(jù)建模提供了大量的數(shù)據(jù)樣本,使得數(shù)據(jù)驅動建模在不同領域產(chǎn)生廣闊的應用空間[1?3].然而,系統(tǒng)復雜度和數(shù)據(jù)規(guī)模的日益增大為數(shù)據(jù)建模算法帶來新的挑戰(zhàn).模型精度取決于樣本的質量與數(shù)量,但超過一定規(guī)模的樣本數(shù)據(jù),會顯著增加網(wǎng)絡參數(shù)訓練與優(yōu)化的成本,且難以有效學習,導致模型的整體性能下降[4].在采用傳統(tǒng)神經(jīng)網(wǎng)絡算法進行大數(shù)據(jù)建模時,所得到的模型往往存在訓練耗時、網(wǎng)絡結構復雜等問題,難以滿足實際應用的需求.因此,建立一種能夠從大量數(shù)據(jù)中快速、高效學習的策略具有重要意義.
上世紀90 年代,文獻[5]提出的隨機向量函數(shù)鏈接網(wǎng)絡,與文獻[6]提出的另一種具有隨機權值的單層前饋神經(jīng)網(wǎng)絡等被統(tǒng)稱為隨機權神經(jīng)網(wǎng)絡(Random weight neural networks,RWNNs)[7?8].其特征在于隱含層參數(shù)(輸入權值和偏置)在給定的區(qū)間內(nèi)隨機產(chǎn)生,只需解析求解網(wǎng)絡輸出權值.因RWNNs 實現(xiàn)簡單、建模速度快等優(yōu)勢受到了廣泛的關注.文獻[9]設計了一種二維RWNNs 分類器,用于人臉識別,其使用兩組輸入權值直接以特征矩陣作為輸入而不用轉換成向量形式,能夠有效保留圖像數(shù)據(jù)的空間信息,具有良好的分類性能.文獻[10]將非參數(shù)的核密度估計方法與加權最小二乘估計引入到RWNNs 的學習算法,通過評估每個訓練樣本對于建模的貢獻度來抑制噪聲數(shù)據(jù)或離群點的負面影響,從而建立了魯棒RWNN 以及在線學習算法.在此基礎上,文獻[11]進一步引入正則項來防止過擬合現(xiàn)象,有效減小輸出權值,在一定程度上降低了模型復雜度.然而,兩個本質缺陷使得RWNNs的應用受到一定的限制:1)隱含層節(jié)點數(shù)不能先于訓練而確定,即難以設定合適的網(wǎng)絡結構;2)隱含層參數(shù)在固定不變的區(qū)間內(nèi)產(chǎn)生,影響其實際逼近特性[12?13].
為了解決上述問題,Wang 等首次提出了一種隨機增量學習技術,即隨機配置網(wǎng)絡(Stochastic configuration networks,SCNs)[14].SCNs 在一個可調區(qū)間內(nèi)隨機分配隱含層參數(shù),并創(chuàng)新性地引入監(jiān)督機制加以約束,確保了其無限逼近特性.作為一種增量學習算法,SCNs 在每次的增量學習過程中,均建立候選“節(jié)點池”以選出最佳節(jié)點,加快了收斂速度;同時,網(wǎng)絡結構也可在增量學習過程中確定.針對SCNs 監(jiān)督機制中關鍵參數(shù)的選擇問題,文獻[15]指導性地給出了兩種不等式約束,從而提高了隨機參數(shù)配置的效率,有助于候選“節(jié)點池”的建立.文獻[16]以SCNs 作為基模型,采用負相關學習策略來配置輸出權值,提出了一種快速解除相關異構神經(jīng)元的集成學習方法.文獻[17]針對隱含層輸出矩陣可能存在的多重共線性等不適定情況,在計算輸出權值時采用截斷奇異值分解對重新構建的輸出矩陣進行廣義逆運算,建立了TSVD-SCN 模型.文獻[18]通過引入正則化技術,進一步提升SCNs 的泛化性能.文獻[19] 通過理論分析和算法實現(xiàn)將SCNs 推廣到深度結構,即DeepSCNs.結果表明,相比其他深度神經(jīng)網(wǎng)絡,DeepSCNs 可以快速有效地生成,且學習特性和泛化性能之間具有一致性.此外,文獻[20]和[21]分別提出了兩種不同的魯棒SCNs 算法用于受污染數(shù)據(jù)的建模問題.
然而,現(xiàn)有的SCNs 及其相關算法均采用點增量的構建方式.在大數(shù)據(jù)建模任務中,往往需要大量的迭代和耗時的偽逆運算.為解決采用傳統(tǒng)計算方式將產(chǎn)生過大計算損耗的問題,本文研究SCNs并行學習方法,以提高SCNs 在大數(shù)據(jù)應用中的效率.
現(xiàn)有面向大數(shù)據(jù)的神經(jīng)網(wǎng)絡并行建模的研究成果可分為數(shù)據(jù)或者模型并行兩類[22?24].數(shù)據(jù)并行是將數(shù)據(jù)集分成若干數(shù)據(jù)塊以同時處理,模型并行是將參數(shù)進行并行劃分以同時求解.本文針對SCNs增量學習過程中網(wǎng)絡結構動態(tài)變化的特點,提出一種新穎的模型與數(shù)據(jù)混合并行的增量學習方法.主要貢獻在于:將點增量和塊增量兩種增量模型構建方法進行并行,左側為點增量SCN (PSCN),右側為塊增量SCN (BSCN).其中,PSCN 每次迭代隱含層節(jié)點單個增加,以準確地找到最佳網(wǎng)絡結構,BSCN 每次迭代隱含層節(jié)點按塊添加,具有較快的收斂速度.同時針對樣本數(shù)據(jù)維數(shù)高、數(shù)據(jù)量大導致的計算耗時問題,采用一種基于動態(tài)分塊策略的數(shù)據(jù)并行方法,其在增量學習過程的不同階段,根據(jù)當前節(jié)點數(shù)將訓練數(shù)據(jù)劃分為不同的數(shù)據(jù)塊,從而采用并行計算方式,同步進行運算;然后,在PSCN 與BSCN 計算輸出權值時整合數(shù)據(jù)塊,并通過比較殘差,擇優(yōu)選取模型參數(shù).對所形成的混合并行隨機配置網(wǎng)絡(Hybrid parallel stochastic configuration networks,HPSCNs)進行對比實驗,結果表明,其具有資源利用率高、建模速度快、網(wǎng)絡模型緊致等優(yōu)點.
對于給定的N組訓練集樣本 (xi,ti),其輸入X={x1,x2,···,xN},xi={xi,1,···,xi,d}∈Rd,相應的輸出T={t1,t2,···,tN},ti={ti,1,···,ti,m}∈Rm.其中i=1,2,···,N.具有L個隱含層節(jié)點的RWNNs 模型可以表示為:
其中,gj(·)表示隱含層第j個節(jié)點的激活函數(shù),隱含層參數(shù)(vj和bj) 分別在區(qū)間[?λ,λ]d和[?λ,λ]隨機生成,βj=[βj,1,···,βj,q,···,βj,m]T為隱含層第j個節(jié)點與m個輸出節(jié)點之間的輸出權值,fL即當前網(wǎng)絡的輸出.模型參數(shù)可以通過求解如下的二次型優(yōu)化問題獲得.
上述等式可以進一步表示為矩陣形式:
其中
為隱含層輸出矩陣,H?為其Moore-Penrose 廣義逆[25].
通常,傳統(tǒng)RWNNs 所需要的節(jié)點數(shù)往往只能針對特定建模任務采用交叉驗證法確定,實驗過程耗時,且網(wǎng)絡結構的確定取決于交叉驗證時所選擇的參數(shù).
增量構造學習算法是解決網(wǎng)絡結構的一種有效方法,從隨機產(chǎn)生第一個節(jié)點g1=g(v1,b1,x) 開始,向網(wǎng)絡中逐漸增加節(jié)點;相應地,輸出權值為β1=〈e0,g1〉/‖g1‖2,其中e0=f;更新e1=f?β1g1[12].通過重復上述過程可以同時解決網(wǎng)絡結構和參數(shù)優(yōu)化問題,增量RWNNs 的構造過程如下.
首先,設定增量學習的期望精度,其輸出fL可以表示為先前網(wǎng)絡fL?1與新增節(jié)點gL(vL和bL)的特定組合,即:
其中,新增節(jié)點的輸出權值依據(jù)下式
且先前網(wǎng)絡的殘差
增量RWNNs 雖然解決了傳統(tǒng)RWNNs 難以確定網(wǎng)絡結構的問題,但網(wǎng)絡的輸入權值和偏置通常選擇在固定區(qū)間(如[?1,1])內(nèi)產(chǎn)生,這種與樣本數(shù)據(jù)無關的參數(shù)設定方式導致RWNNs 的逼近特性具有不確定性.因此,隨機參數(shù)的產(chǎn)生應該依賴于建模數(shù)據(jù)并加以約束.
SCNs 作為一種先進的隨機學習技術,其本質特征在于隨機產(chǎn)生的輸入權值和偏置需要滿足監(jiān)督機制,并采用數(shù)據(jù)依賴策略動態(tài)調整隨機區(qū)間,有效解決了RWNNs 及其增量構造學習算法的本質缺陷.然而,傳統(tǒng)SCNs 均是采用點增量的方式來構建網(wǎng)絡(PSCN),即一次迭代過程只能添加一個節(jié)點.采用這種方法,每一個新增節(jié)點都需要重新建模,當所需節(jié)點數(shù)較多時,網(wǎng)絡的構建就會變得相對復雜、耗時.從特征學習的角度來說,前饋神經(jīng)網(wǎng)絡從輸入樣本空間去逼近復雜非線性函數(shù)的能力很大程度上取決于隱含層的特征映射,即從低維輸入數(shù)據(jù)到高維特征空間.而節(jié)點可以被認為是高維空間的特征.那么,每次只增加一個節(jié)點則在很大程度上限制了特征的獲取.因此,使用點增量方法構建SCNs 的過程往往需要較多的迭代,不可避免地增加了計算量、影響了建模效率.鑒于此,我們最近的工作[26]將傳統(tǒng)點增量SCNs 推廣為允許同時添加多個隱含層節(jié)點(節(jié)點塊)的塊增量網(wǎng)絡(BSCN),用于加快構建過程.
點增量與塊增量算法分別具有網(wǎng)絡結構緊致但收斂速度慢和收斂速度快但模型不緊致的特點.為了進一步提高算法的綜合性能,本文對傳統(tǒng)SCNs進行改進,提出了一種新的混合并行增量學習方法,即:HPSCNs,以應對大數(shù)據(jù)建模.主要思想是:在同一個建模任務中,使用點和塊兩種增量構建模型方法進行并行學習,且在學習過程中將樣本數(shù)據(jù)隨學習過程動態(tài)劃分為多個數(shù)據(jù)塊,從而采用并行計算擇優(yōu)選取模型參數(shù).
HPSCNs 由PSCN 和BSCN 組成,以單輸出為例,其模型并行結構如圖1 所示.這里添加節(jié)點的過程被稱為迭代.在訓練過程中,PSCN 的構建方式采用點增量方法(隱含層節(jié)點每次迭代單個增加),從而保證相對準確地找到最佳隱含層節(jié)點;BSCN 的構建方式采用塊增量方法(隱含層節(jié)點每次迭代按塊添加),以提高模型的收斂速度.
該策略采用平行網(wǎng)絡并行計算.即在增量學習過程中,平行的PSCN 與BSCN 通過并行計算被獨立地構建;每次迭代結束后,以當前網(wǎng)絡殘差為指標,保留其中較優(yōu)的網(wǎng)絡,并將其模型參數(shù)作為本次迭代的最終結果;同時將該結果賦值給另一個網(wǎng)絡以更新其節(jié)點數(shù),然后進行下一次迭代.
2.1.1 PSCN
圖1 所示的模型并行增量學習方法,左側采用傳統(tǒng)點增量隨機配置網(wǎng)絡PSCN,其學習過程約束根據(jù)引理1 獲得.
圖1 模型并行結構圖Fig.1 The structure diagram of model parallelism
引理 1[14].令 Γ:={g1,g2,g3,···}表示一組實值函數(shù),span(Γ)表示由 Γ組成的函數(shù)空間.假設span(Γ)稠密于L2空間且?g ∈Γ ,0<‖g‖ 若激活函數(shù)gL滿足下列不等式約束: 并且輸出權值通過式(3) 計算,那么limL→∞‖f?fL‖=0恒成立. 在上述定理中,將式(8)代入(9),可以得到點增量學習的監(jiān)督機制: 其中,q=1,2,···,m,μL=(1?r)/(L+1). 網(wǎng)絡構建過程簡述如下: 1) 在可調區(qū)間內(nèi)隨機產(chǎn)生隱含層參數(shù) (vL和bL). 將滿足式(10)的節(jié)點作為候選節(jié)點,并保留最大的ξL,q所對應的隨機參數(shù); 2) 輸出權值β通過公式(3)求解全局最小二乘得到; 3) 計算PSCN 當前訓練殘差eL,判斷是否滿足 停止條件. 2.1.2 BSCN 按照塊增量方法,將引理1 進行推廣,有如下引理2. 引理 2[26].給定 0 那么 limL→∞‖f?‖=0恒成立.其中塊寬?k表示第k次迭代中新加入的節(jié)點塊;表示第k?1次迭代結束時的訓練殘差;表示第k次迭代時的隱含層輸出塊;且 表示第k次迭代中的輸出權值的中值. BSCN 的增量學習過程在PSCN 的基礎上,根據(jù)式(11)在可調區(qū)間內(nèi)隨機產(chǎn)生新增節(jié)點塊(和),從而實現(xiàn)了批量分配隱含層參數(shù)和按塊增加隱含層節(jié)點. 2.1.3 收斂性分析 模型并行增量學習過程當前網(wǎng)絡節(jié)點數(shù)為L時,令新增節(jié)點數(shù)為l∈{1,?k}有: 1) 點增量 (l=1) 時: 2) 塊增量(l=?k)時: 由以上分析可知,式(13)‖eL+l‖?(r+μL+l)‖eL‖2≤0,殘差序列‖eL+l‖單調遞減且有界.進一步地, 注意到 limL→∞μL+l‖eL‖2=0 ,其中l(wèi)imL→∞μL+l=0.根據(jù)式(16)可以進一步得到limL→∞‖eL+l‖2=0,即 limL→∞‖eL+l‖=0.因此殘差序列‖eL+l‖單調遞減且收斂于0,說明本文所提HPSCNs 模型具有無限逼近特性. 在增量學習過程中,將數(shù)據(jù)進行分塊處理,以建立一種數(shù)據(jù)并行計算策略,可進一步提高學習速度.因此,將訓練輸入樣本X、訓練輸出樣本T等分為M塊,即 每個數(shù)據(jù)塊的隱含層輸出矩陣通過并行計算獲得,第p個數(shù)據(jù)塊與隱含層輸出矩陣的對應關系: 這里gp,L表示節(jié)點數(shù)為L時第p個數(shù)據(jù)塊的隱含層輸出.此時,PSCN 的監(jiān)督機制為: 相應地,BSCN 的監(jiān)督機制為: 表示第k次迭代時輸出權值的中值. 根據(jù)不同數(shù)據(jù)規(guī)模的學習任務,輸出權值β可由下式計算獲得: 對于大數(shù)據(jù)建模,這里只考慮N ≥L的情況,因此,數(shù)據(jù)并行學習方法中的輸出權值可以表示為: 式(23)將不同數(shù)據(jù)塊整合并得到輸出權值. 注意到,隨著學習過程中隱含層節(jié)點數(shù)的增加,網(wǎng)絡尺寸逐漸增大,計算負荷也隨之增加,因此,在增量學習過程的不同階段,本文采用動態(tài)分塊策略,逐漸增加數(shù)據(jù)塊數(shù)量,以充分利用并行計算資源,提高學習的效率.所形成的數(shù)據(jù)并行策略如圖2 所示,其中從隱含層到輸入層的連接起到反饋作用,實現(xiàn)數(shù)據(jù)塊M隨學習過程中隱含層節(jié)點數(shù)L的增加而變化,具體動態(tài)分塊方法如下: 圖2 數(shù)據(jù)并行策略Fig.2 Strategy of data parallelism 注1.HPSCNs 繼承了原始SCNs 自組織學習的特點,其隱含層節(jié)點在監(jiān)督機制下自主構建,無需采用傳統(tǒng)自組織學習的剪枝等算法即可保證模型的緊致性.此外,HPSCNs 中PSCN 和BSCN 的監(jiān)督機制分別不同于傳統(tǒng)SCNs 和塊增量SCNs.以PSCN 為例,若根據(jù)M個不同的數(shù)據(jù)塊同步獲取一組隱含層輸出g1,L,···,gp,L,···,gM,L后,直接帶入SCNs 中得到M組滿足條件的不等式約束,盡管該網(wǎng)絡仍具有無限逼近特性,但收斂性會變差.這是因為監(jiān)督機制的數(shù)據(jù)依賴特性.每組監(jiān)督機制只包含當前數(shù)據(jù)塊的信息而忽略了其他數(shù)據(jù)塊,不可避免地放寬了約束的作用,導致所得到的輸入權值和偏置"質量"變低,從而影響到模型收斂性.因此,隱含層參數(shù)的分配需要考慮全體數(shù)據(jù)塊. 注2.RWNNs 與SCNs 均直接使用式(3)求解輸出權值,導致廣義逆運算成為構建過程中較為耗時環(huán)節(jié),尤其針對大數(shù)據(jù)建模,即N >>L的情況,則需要對N ×L階的矩陣進行廣義逆運算;而基于數(shù)據(jù)并行采用式(23),則只需要計算L×L階矩陣的廣義逆,大大降低了計算量. 混合并行增量學習算法的具體實現(xiàn)描述如下: 給定訓練輸入X∈RN×d,輸出T∈RN×m.設置增量構建過程中的容忍誤差ε和最大迭代次數(shù)kmax;隱含層參數(shù)分配區(qū)間集Υ={λ1,λ2,···,λend};最大隨機配置次數(shù)Tmax;BSCN 中的塊寬 ?k等. 步驟1.初始化訓練集數(shù)據(jù)分塊數(shù)M=M1; 步驟2.開始模型與數(shù)據(jù)并行學習; PSCN: 1) 在區(qū)間 [?λi,λi]d和 [?λi,λi] 內(nèi)隨機生成隱含層參數(shù)vL和bL,λi∈Υ,i=1,2,···,end; 2) 使用不同數(shù)據(jù)塊同步獲取PSCN 的隱含層輸出g1,L,···,gp,L,···,gM,L; 3) 根據(jù)式(19)建立候選“節(jié)點池”,并找出使得ξL,q最大的隨機參數(shù)和 4) 根據(jù)式(23)整合數(shù)據(jù)塊并評估PSCN的輸出權值. BSCN: 1) 在區(qū)間 [?λi,λi]?k×d和 [?λi,λi]?k×1內(nèi)隨機生成隱含層參數(shù)v?k和b?k,λi∈Υ,i=1,2,···,end; 2) 使用不同數(shù)據(jù)塊同步獲取BSCN 的隱含層輸出塊h1,k,···,hp,k,···,hM,k; 3) 根據(jù)式(20)建立候選“節(jié)點池”,并找出使得ξL,q最大的隨機參數(shù)和 4) 根據(jù)式(23)整合數(shù)據(jù)塊并評估BSCN 的輸出權值. 步驟3.計算PSCN 和BSCN 的訓練殘差; 步驟4.通過比較殘差擇優(yōu)選取模型參數(shù)并用于更新另一個模型的隱含層節(jié)點數(shù)L; 步驟5.更新下一次迭代中訓練數(shù)據(jù)的分塊數(shù)M=Mk+1(L); 步驟6.重復上述步驟,直至模型達到停止標準; 步驟7.返回最終模型參數(shù)v?,b?和β?. 注3.神經(jīng)網(wǎng)絡的模型精度會隨隱含層節(jié)點數(shù)的增加而逐漸提高,但當節(jié)點數(shù)過多時會使訓練誤差變小而測試誤差增大,即過擬合現(xiàn)象.本文所提方法達到停止條件時立即結束迭代,不再繼續(xù)增加隱含層節(jié)點,在一定程度上避免了過擬合現(xiàn)象. 注4.為盡可能地提高學習效率,需要多次隨機配置隱含層參數(shù),以建立候選"節(jié)點池",從而尋找出最佳的隱含層節(jié)點.Tmax決定著隨機配置隱含層參數(shù)的次數(shù),過大增加計算損耗、過小不利于候選“節(jié)點池”的建立[14].此外,隱含層參數(shù)分配區(qū)間集Υ={λ1,λ2,···,λend}可設置從λ1到λend逐漸增長,學習過程從λ1開始逐次選擇.以PSCN 為例:首先在[?λ1,λ1]d和[?λ1,λ1]內(nèi)隨機生成Tmax組隱含層參數(shù)vL和bL,并從后續(xù)所建立的候選"節(jié)點池"中找出最佳的一組隨機參數(shù)和;若候選"節(jié)點池"為空,則從參數(shù)集Υ中選擇λ2,調節(jié)分配區(qū)間,進而重復上述步驟. 本文選取收斂性和緊致性作為衡量模型質量的評價指標.其中收斂性在數(shù)值上表現(xiàn)為殘差序列的遞減程度,可采用達到期望容忍誤差時的學習時間來衡量,收斂性好有利于建模的快速性.緊致性表現(xiàn)為網(wǎng)絡尺寸,可采用達到期望容忍誤差時的隱含層節(jié)點數(shù)來度量,模型不緊致往往包含不必要的冗余節(jié)點,不利于泛化性能,且會顯著增加計算空間和硬件實現(xiàn)的成本.此外,采用均方根誤差(Root mean squares error,RMSE)計算建模精度,均值(Mean)和標準差(Standard deviation,Std)則分別用來反映模型性能的平均值和離散程度. 為驗證本文所提混合并行增量學習模型的有效性,將傳統(tǒng)SCNs (SC-III)[14]、塊增量SCNs (BSCI)[26]和混合并行隨機配置網(wǎng)絡(HPSCNs)分別對大數(shù)據(jù)建模并根據(jù)評價指標進行性能評估.仿真實驗在MATLAB 2016a 環(huán)境下運行,所用PC 的CPU為i5,3.4 GHz,內(nèi)存為16 GB RAM. 4 個不同領域的基準數(shù)據(jù):DB1 (SGEMM GPU Kernel Performance Data Set)、DB2 (Electrical Grid Stability Simulated Data Set)、DB3(Mv Data Set) 和DB4 (Pole Telecommunications Data Set)來自UCI (University of California at Irvine)[27]和KEEL (Knowledge Extraction based on Evolutionary Learning)[28]. 所選數(shù)據(jù)集信息見表1.針對每個大規(guī)模數(shù)據(jù),我們隨機選取80 %的樣本作為訓練集,余下的20 %作為測試集. 表1 基準數(shù)據(jù)集說明Table 1 Specification of benchmark data sets 在數(shù)據(jù)預處理階段,輸入輸出樣本均被歸一化至[?1,1].實驗參數(shù)設定如下: 最大迭代次數(shù)kmax=300; 最大隨機配置次數(shù)Tmax=10; 隨機參數(shù)范圍λ∈{1,10,50,100,150,200}; 學習參數(shù)r∈{0.9,0.99,0.999,···}; 容忍誤差ε=0.1(DB1 和DB2),ε=0.01(DB3 和DB4); 不同BSCN 每次迭代的塊寬分別取固定值?k=1、3、5; 大規(guī)模訓練集分塊基數(shù)M0=4,第k次迭代時分塊數(shù)遞增區(qū)間長度取50,100,150,···,具體對應關系見表2. 表2 分塊數(shù)遞增區(qū)間長度及其上下界Table 2 Incremental interval length of block number and its upper and lower bounds 因此,根據(jù)式(24)可得 為了便于描述,本文以下標的形式表示BSC-I算法中的塊寬,以上下標的形式分別表示HPSCNs中左側隨機配置網(wǎng)絡PSCN 和右側隨機配置網(wǎng)絡BSCN 的塊寬.如BSC-I3表示其每次迭代添加3個隱含層節(jié)點;表示本文所提方法中PSCN每次迭代添加1 個隱含層節(jié)點,而BSCN 每次迭代添加3 個隱含層節(jié)點.需要指出的是,點增量構建方式是塊增量中 ?k取1 的特例. 表3 記錄了不同算法50 次獨立實驗結果的均值和標準差(Mean±Std).通過比較SC-III、BSC-I3和BSC-I5可以看出,隨著塊寬?k取值的增加,達到期望容忍誤差ε時所需要的迭代次數(shù)k明顯降低,建模時間t顯著減少,即塊增量的構建方式可以有效加快傳統(tǒng)SCNs 的收斂速度;然而,塊增量SCNs 需要更多的節(jié)點數(shù)L,導致網(wǎng)絡復雜度增加,不利于模型泛化性能.這是因為從特征學習的角度來說,殘差序列單調遞減,尚未學習的特征也會隨著增量學習的過程減少,然而BSC-I3和BSC-I5在每次迭代中采用固定的塊寬,不可避免地導致了特征(節(jié)點)的冗余.尤其在構建過程后期,每次迭代中節(jié)點塊對于建模的貢獻近似于單個節(jié)點,卻徒增了網(wǎng)絡復雜度.因此,塊增量SCNs 是一種以犧牲模型緊致性為代價的極速建模方法. 表3 不同算法性能比較Table 3 Performance comparison of different algorithms 1)數(shù)據(jù)并行通過使用動態(tài)分塊策略并同步獲取隱含層輸出,加快了候選“節(jié)點池”的建立;同時,針對大數(shù)據(jù)本文所提方法采用式(23)整合數(shù)據(jù)塊并計算輸出權值,在很大程度上降低了廣義逆運算負擔; 2)模型并行通過單次迭代中PSCN 與BSCN獨立地同步建模,完成當前迭代后選擇獲得殘差較小的模型參數(shù).其中,HPSCNs 中的BSCN 采用塊增量的構建方式,具有較快的收斂性;PSCN 采用點增量的構建方式,從而準確地找到最佳隱含層節(jié)點數(shù).模型并行增量學習也有效減少了迭代次數(shù). 為了評估模型的綜合性能,圖3 給出不同算法對數(shù)據(jù)集DB1-DB4 的建模時間(t)和隱含層節(jié)點數(shù)(L).其中,t和L均歸一化處理至[0,1],并表示對應性能指標的得分情況.如:在DB1 建模任務中,SC-III 相比其他算法用時最長,其t對應的得分為1、BSC?I5所需節(jié)點數(shù)最多,其L對應的得分為1.顯然,分數(shù)越低,性能越好.因此,由圖3 可以看出,本文所提混合并行增量學習方法具有較好的綜合性能,且最佳. 圖3 不同算法綜合性能比較Fig.3 Comparison of comprehensive performance of different algorithms 其中nL和nR分別表示每次迭代PSCN 和BSCN貢獻最佳模型參數(shù)的次數(shù),則Eff正比于nL. 表4 記錄了HPSCNs 中BSCN 選擇不同塊寬?k時的模型并行情況.可以看出,對于DB1-DB4,隨著 ?k的增加,Eff的數(shù)值越來越小,如?k=10時,的Eff最低,此時PSCN 基本上失去了其在模型并行中的作用.因此,考慮模型的綜合性能,使用HPSCNs 進行大數(shù)據(jù)建模時,其BSCN的塊寬建議取 ?k∈{1,2,3}. 表4 不同塊寬的算法性能比較Table 4 Performance comparison of algorithms with different block sizes 將所提方法應用在典型一段磨礦過程,建立以磨機給礦量、磨機入口給水量和分級機溢流質量濃度為輸入,以磨礦粒度為輸出的軟測量模型.從磨礦半實物仿真平臺[29]中采集20 000 訓練樣本和5 000 測試樣本,設置容忍誤差ε=0.05,塊寬?k=3,其余實驗參數(shù)設定同比較實驗部分. 圖4 和圖5 分別為基于HPSCNs 的磨礦粒度軟測量模型的收斂特性和逼近特性.由圖4 可以看出,在訓練過程中所提方法具有較好的收斂效果,且在接近容忍誤差前殘差序列能夠快速下降.為了便于觀察,這里僅取500 個測試數(shù)據(jù)的逼近效果(如圖5 所示),從中可以看出模型輸出與真實值基本吻合,可以實現(xiàn)磨礦粒度的準確估計. 圖4 模型的收斂曲線Fig.4 Convergence curve of HPSCNs 此外,從圖5 可知,所建立磨礦粒度軟測量模型在達到期望精度時,建模時間較快,網(wǎng)絡結構簡單,具有良好的泛化性能;Eff=25.0 %,其中左側點增量網(wǎng)絡(PSCN)、右側塊增量網(wǎng)絡(BSCN)貢獻最佳模型參數(shù)的次數(shù)分別為3 和9,說明模型具有較高的有效性.需要指出的是,上述礦粒度軟測量模型是通過輸入特性維數(shù)較少的樣本建立的,本文所提方法應用到其他數(shù)據(jù)維數(shù)較多的工業(yè)案例中,將會取得更好的優(yōu)勢.同時在多維大數(shù)據(jù)應用時,還可以考慮并行節(jié)點池構建策略,以提高學習速度. 圖5 模型的逼近特性Fig.5 Approximation performance of HPSCNs 本文基于隨機配置網(wǎng)絡提出了一種模型與數(shù)據(jù)混合并行的增量學習方法.實際數(shù)據(jù)仿真研究表明:與傳統(tǒng)SCNs 和塊增量SCNs 相比,本文所提方法大大降低了計算量,提高了資源利用率,所建立模型綜合性能好,且利于硬件實現(xiàn),具有良好的實用價值.然而,HPSCNs 直接根據(jù)PSCN 和BSCN 的殘差選擇新增節(jié)點,在BSCN 獲得殘差優(yōu)勢不明顯的情況下,選擇了增加節(jié)點塊構建模型,不利于模型緊致性.下一步的研究目標是進一步提高算法的綜合性能,如針對HPSCNs 模型的有效性,建立新的模型參數(shù)交互準則;在保留塊增量SCNs 極速建模優(yōu)勢的情況下,削減其中的冗余隱含層節(jié)點.2.2 數(shù)據(jù)并行策略
2.3 HPSCNs 實現(xiàn)步驟
3 性能評估
3.1 建模數(shù)據(jù)
3.2 比較實驗
3.3 參數(shù)討論與選擇
3.4 工業(yè)案例
4 結語