張 迅
(溫州大學(xué)數(shù)理與電子信息工程學(xué)院,浙江溫州 325035)
Sigma-Pi-Sigma神經(jīng)網(wǎng)絡(luò)[1](簡稱SPSNN)是由多重Pi-Sigma神經(jīng)網(wǎng)絡(luò)①Shin Y, Ghosh J. The pi-sigma network: an efficient higher-order neural network for pattern classification and function approximation[C]// International Joint Conference on Neural Networks, 1991: 13-18.構(gòu)成,輸出形式為其中xj為輸入量,Nv為輸入量的個(gè)數(shù),fnij是由神經(jīng)網(wǎng)絡(luò)訓(xùn)練所產(chǎn)生的函數(shù),K是Pi-Sigma網(wǎng)絡(luò)(PSN)模塊的個(gè)數(shù)的表達(dá)式為其中Bijk是取值為0或1的基函數(shù),wnijk是儲(chǔ)存在記憶中的權(quán)值,Nq和Ne為儲(chǔ)存在xj里的信息數(shù).網(wǎng)絡(luò)的權(quán)值個(gè)數(shù)是
對(duì)于網(wǎng)絡(luò)樣本集,ot為理想輸出,該網(wǎng)絡(luò)實(shí)際輸出為
其中表示輸入向量St中的第j個(gè)元素,St表示第t個(gè)樣本.為訓(xùn)練SPSNN網(wǎng)絡(luò),我們首先定義網(wǎng)絡(luò)的誤差函數(shù)E(W)[2]:
其中,為方便起見,記下標(biāo)即
利用帶動(dòng)量項(xiàng)的梯度算法來訓(xùn)練權(quán)值,記E(W)和g(W)t的梯度分別為:
給定初始權(quán)向量和第輪訓(xùn)練過程中,帶動(dòng)量項(xiàng)梯度算法的權(quán)值改變量[3-4]為
其中η為學(xué)習(xí)率,Wm-Wm-1稱為動(dòng)量項(xiàng),τm為動(dòng)量項(xiàng)因子.本文選取正常數(shù)作為學(xué)習(xí)率η,記ΔWm=Wm-Wm-1,動(dòng)量項(xiàng)因子τm按如下方式選?。?/p>
其中μ為正常數(shù).上述算法的分量形式為
注意到E(W)對(duì)wnijk的偏導(dǎo)有如下結(jié)果:
理由如下:由于
從而
注意到gt(Wm)和E(Wm)在Wm處的海森陣分別為:
類似于文獻(xiàn)[5],我們給出帶動(dòng)量項(xiàng)梯度算法的收斂性所需要的假設(shè)條件,即對(duì)任意 ξm,m=0 ,1,2…一致有界.
根據(jù)該假設(shè)易知存在M>0使得,
定理1 若條件(6)滿足,則當(dāng)和時(shí),對(duì)算法(3)生成的權(quán)值序列,存在E*≥0使得
定理1的證明:用泰勒定理,在Wm處對(duì)函數(shù)gt(Wm+1)展開:
其中ξm介于Wm與Wm+1之間.對(duì)(7)式兩邊關(guān)于t求和,得
易知上式等價(jià)于:
其中
經(jīng)過簡單的數(shù)學(xué)運(yùn)算,有
由上述關(guān)于1δ,2δ的估計(jì)并結(jié)合(8)式,有
令,易知當(dāng),故成立.
又因?yàn)樾蛄?{E(Wm)}是單調(diào)遞減的且E(Wm)非負(fù),所以一定存在E*≥0使得
參考文獻(xiàn)
[1]Li C K. A sigma-pi-sigma neural network (SPSNN) [J]. Neural Process Lett, 2003, 17(1): 1-19.
[2]熊焱,張超.Pi-sigma神經(jīng)網(wǎng)絡(luò)的帶動(dòng)量項(xiàng)的異步批處理梯度算法收斂性[J].應(yīng)用數(shù)學(xué),2008,21(1):207-212.
[3]Zhang N, Wu W, Zheng G. Convergence of gradient method with momentum for two-layer feedforward neural networks [J]. IEEE T Neural Networ, 2006, 17(2): 522-525.
[4]Wu W, Zhang N, Li Z, et al. Convergence of gradient method with momentum for back-propagation neural networks[J]. J Comput Math, 2008, 26(4): 613-623.
[5]Gori M, Maggini M. Optimal convergence of on-line backpropagation [J]. IEEE T Neural Networ, 1996, 7(1):251-254.