王櫟橋,張達(dá)敏,樊 英,徐 航,王依柔
(貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng) 550025)
神經(jīng)網(wǎng)絡(luò)NN(Neural Network)是智能計(jì)算領(lǐng)域最偉大的發(fā)明之一,它模仿了人類大腦的神經(jīng)元并主要用于解決分類問(wèn)題和進(jìn)行數(shù)據(jù)預(yù)測(cè)。1943年,神經(jīng)網(wǎng)絡(luò)的概念被首次提出。從此,神經(jīng)網(wǎng)絡(luò)得到迅速發(fā)展,不同類型的神經(jīng)網(wǎng)絡(luò)相繼被提出,多層感知器神經(jīng)網(wǎng)絡(luò)MLP NN(MultiLayer Perceptron NN)是該領(lǐng)域最著名的分類器之一,已經(jīng)有廣泛的研究應(yīng)用。一般來(lái)說(shuō)MLP分為2大類:有監(jiān)督的和無(wú)監(jiān)督的[1]。訓(xùn)練器負(fù)責(zé)訓(xùn)練MLP。多年來(lái),反向傳播技術(shù)及其變體[2]在MLP神經(jīng)網(wǎng)絡(luò)訓(xùn)練中發(fā)揮著重要作用。然而,基于梯度下降及其變種的方法存在收斂速度慢、易陷入局部極小值、對(duì)初始參數(shù)[3]的依賴性強(qiáng)等缺點(diǎn)。因此,群智能算法是高維問(wèn)題中最適用的訓(xùn)練器之一,因?yàn)樗哂须S機(jī)性,可以有效地避免局部最優(yōu)。另一方面,單解算法和多解算法是隨機(jī)方法的2大類。在高維問(wèn)題[4]中,多解算法相比較單解算法可以防止訓(xùn)練器陷入局部最優(yōu)。有大量著名的多解群智能算法被用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)[5 - 11],盡管各種群智能算法之間存在差異,但是,群智能算法都是將解空間內(nèi)的尋優(yōu)過(guò)程劃分為探索和開(kāi)發(fā)2個(gè)階段。在很多情況下,由于群智能算法的隨機(jī)性,開(kāi)發(fā)和搜索2個(gè)階段之間沒(méi)有明確的界限[12],2個(gè)階段之間的不平衡使得算法陷入局部最優(yōu)[13]。這些基于群智能的隨機(jī)優(yōu)化算法在很大程度上降低了陷入局部最優(yōu)的概率,但它們?cè)谑諗克俣群褪諗烤确矫嫒匀徊槐M人意[14]。
灰狼優(yōu)化GWO(Grey Wolf Optimizer)算法是以最優(yōu)個(gè)體(α狼)引導(dǎo)的算法,其帶領(lǐng)狼群進(jìn)行局部探索。在訓(xùn)練MLP的過(guò)程中GWO算法使用的線性遞減收斂函數(shù)導(dǎo)致全局探索能力不足而不能得到最優(yōu)解。針對(duì)這一缺點(diǎn),為了平衡算法的局部開(kāi)發(fā)和全局探索能力[15],本文使用余弦收斂函數(shù)代替線性遞減收斂函數(shù);同時(shí),在訓(xùn)練MLP模型時(shí),其解空間的極值可能分布在臨近的位置,本文引入柯西變異算子有效提升算法的局部開(kāi)發(fā)能力和抵抗陷入局部最優(yōu)的能力。為了提升算法的魯棒性,本文嘗試將柯西變異算子和余弦收斂因子引入到GWO中,對(duì)其位置更新方程進(jìn)行改進(jìn),并將改進(jìn)型柯西變異灰狼優(yōu)化IGWO(Improved Cauchy variant Grey Wolf Optimizer)算法作為MLP的學(xué)習(xí)算法對(duì)其進(jìn)行訓(xùn)練。數(shù)值實(shí)驗(yàn)結(jié)果表明,IGWO算法作為MLP的訓(xùn)練器時(shí)能明顯提升分類準(zhǔn)確率,并有較好的魯棒性。相對(duì)于其他常見(jiàn)的智能算法其訓(xùn)練時(shí)長(zhǎng)也有所縮短。
灰狼優(yōu)化算法是通過(guò)對(duì)狼群的種群層次結(jié)構(gòu)、捕食過(guò)程、圍捕及攻擊行為進(jìn)行分析研究,建立的過(guò)程簡(jiǎn)單、參數(shù)設(shè)置較少的快速智能算法模型[16]。灰狼優(yōu)化算法通過(guò)對(duì)種群中的個(gè)體的適應(yīng)度值降序排列,將排列第1的定義為α狼,即頭狼,將領(lǐng)導(dǎo)狼群的動(dòng)作。第2的定義為β狼,第3的定義為δ狼,它們將協(xié)助α狼,剩余的為ω狼。所以,假設(shè)在M維的空間中,共計(jì)N匹狼組成的狼群,將其所在的位置記為X,第i匹狼所在的位置表示為Xi=(xi1,xi2,…,xim,…,xiM)。
灰狼優(yōu)化算法模擬了灰狼的包圍策略,提出了模擬灰狼包圍行為的搜索方程。其行動(dòng)方式可以描述為:
A=2ar1-a
(1)
C=2r2
(2)
a=2-t/tmax
(3)
Di=|C·Xp(t)-X(t)|
(4)
Xi(t+1)=Xp(t)-ADi
(5)
式(1)~式(5)描述的為圍獵過(guò)程,其中A和C是系數(shù)向量;r1和r2是[0,1]的隨機(jī)向量;tmax是最大迭代次數(shù);a為從2線性遞減至0的收斂因子。Xp(t)表示獵物的位置向量;Xi是狼群中i狼的位置。
狼群狩獵過(guò)程可以被描述為:
(6)
(7)
(8)
式(6) ~式(8)中,Xi(t)代表狼群中各ω狼的當(dāng)前位置,Xi(t+1)為狩獵行為后的位置。Xα(t)、Xβ(t)和Xδ(t)分別代表當(dāng)前時(shí)刻α狼、β狼和δ狼的位置,C1、C2和C3是(0,1)的隨機(jī)數(shù),A1、A2和A3是系數(shù)向量。
收斂因子a影響狼的全局搜索能力和局部搜索能力。不同的a(t)的減速率對(duì)應(yīng)不同的算法搜索性能。在灰狼優(yōu)化算法中收斂因子a線性遞減,隨著迭代次數(shù)的增加,收斂速度由慢變快,這能平衡算法全局探索和局部開(kāi)發(fā)[17]。在訓(xùn)練MLP時(shí),本文引用一種基于余弦的收斂因子公式,如式(9)所示。
a(t)=2×cos((t/tmax)*(π/2))
(9)
其中,a(t)是第t代收斂因子,tmax是最大迭代次數(shù)。
使用余弦收斂因子代替常規(guī)線性收斂因子,能夠保證有一個(gè)大的收斂因子,有利于全局探索;相反,一個(gè)小的收斂因子則有利于局部開(kāi)發(fā)。使用余弦收斂因子能平衡GWO算法全局探索和局部開(kāi)發(fā)能力。
灰狼優(yōu)化算法容易早熟,陷入局部最優(yōu),因此本文在算法中引入了柯西變異算子。根據(jù)柯西分布的特點(diǎn),柯西變異因子是對(duì)潛在最優(yōu)灰狼個(gè)體的局部區(qū)域進(jìn)行搜索,在一定的潛在最優(yōu)解范圍內(nèi)產(chǎn)生隨機(jī)擾動(dòng),增強(qiáng)了算法的局部搜索能力,并測(cè)試了其最優(yōu)位置[18]??挛鳟愖兓诳挛鞲怕拭芏群瘮?shù),如式(10)所示:
(10)
其中,x0是位置參數(shù),γ是一個(gè)大于0的隨機(jī)變量,x是一個(gè)實(shí)數(shù)。本文中取x0=0,γ=1,其為標(biāo)準(zhǔn)柯西分布。通過(guò)分析其概率密度函數(shù),可知其沒(méi)有特定的均值和方差,但眾數(shù)和中值都等于位置參數(shù),即x0。其分布函數(shù)如式(11)所示:
(11)
柯西分布和正態(tài)分布相比較,柯西分布的整體分布更加均勻,對(duì)稱軸的最大值相對(duì)于高斯分布較為平緩,而2邊曲線所對(duì)應(yīng)的拖尾概率較大。這樣的分布特點(diǎn),使柯西分布具有較大的散布特性。本文將會(huì)加入的擾動(dòng)公式如式(12)和式(13)所示:
Xibset(t)=Xi(t)+Xi(t)*G(x)
(12)
(13)
其中,f(Xi(t))表示i狼在第t次迭代時(shí)的適應(yīng)度值。通過(guò)局部擾動(dòng),引導(dǎo)算法跳出局部最優(yōu)。
本文引用了一種自適應(yīng)調(diào)整策略,將適應(yīng)度值的倒數(shù)作為更新公式的權(quán)重系數(shù)[19],這樣增加了3匹頭狼的位置優(yōu)勢(shì),使適應(yīng)度值高于種群平均適應(yīng)度值的狼的位置更新趨向最優(yōu)解,提高算法的收斂速度。所以,用式(14)代替式(8)作為狼群位置更新公式。
(14)
其中,f(Xi(t))代表i狼在第t代時(shí)的適應(yīng)度值,fα、fβ和fδ分別表示第t代時(shí)α、β和δ3匹頭狼的適應(yīng)度值。favg代表第t代種群中所有狼的適應(yīng)度平均值。
綜上所述,本文提出的IGWO算法實(shí)現(xiàn)過(guò)程如算法1所示。
算法1基于改進(jìn)型柯西變異的灰狼優(yōu)化算法IGWO
Step1算法參數(shù)初始化,灰狼種群規(guī)模N;最大迭代次數(shù)tmax;變量空間維度M;空間變量的上界和下界ub和lb。
Step2初始化種群。
Step3令迭代次數(shù)t=1。
Step4當(dāng)t Step5計(jì)算狼群中適應(yīng)度值{f(Xi),i=1,2,…,N}, 其中適應(yīng)度值最高的個(gè)體為α狼,β狼與δ狼。 Step6利用式(9)更新收斂因子a(t)。 Step7利用式(6),式(7)和式(14)更新當(dāng)前迭代次數(shù)中各狼的位置。 Step8計(jì)算當(dāng)前迭代次數(shù)中各狼的適應(yīng)度值{f(Xi(t)),i=1,2,…,N}。 Step9找出位置更新后的α狼,β狼與δ狼。 Step10根據(jù)式(14)更新狼群,令t=t+1。 Step11若達(dá)到最大迭代次數(shù),則結(jié)束;否則跳轉(zhuǎn)Step 4。 利用IGWO算法訓(xùn)練多層感知器的流程如圖1所示。 Figure 1 MLP trained by IGWO algorithm 對(duì)于多層感知器MLP,由于數(shù)據(jù)空間樣本多為高維空間,多模式,同時(shí)也有可能存在數(shù)據(jù)被噪聲干擾,有冗余數(shù)據(jù)和數(shù)據(jù)丟失的情況。訓(xùn)練MLP的主要目的是更新權(quán)重和偏置,這是一個(gè)極具挑戰(zhàn)性的優(yōu)化問(wèn)題。本文使用智能優(yōu)化算法優(yōu)化MLP的訓(xùn)練[20],將各個(gè)節(jié)點(diǎn)的權(quán)重和偏置編碼為輸入向量V,如式(15)所示: V={W,θ}={w1,1,w1,2,…,wn,n,θ1,θ2,…,θn} (15) 其中,wi,j表示為節(jié)點(diǎn)i和節(jié)點(diǎn)j相連的權(quán)重。θj表示節(jié)點(diǎn)j的偏置,n為節(jié)點(diǎn)總數(shù)。為了檢驗(yàn)算法訓(xùn)練MLP的效果,定義以下變量: 定義1(均方差MSE(Mean Square Error)) 通過(guò)將樣本的數(shù)據(jù)輸入MLP的輸入層,將MLP的輸出數(shù)據(jù)與目標(biāo)結(jié)果比較,若輸出數(shù)據(jù)與目標(biāo)結(jié)果越接近,則訓(xùn)練效果越好,反之訓(xùn)練效果越差。MSE定義如式(16)所示: (16) 定義2(訓(xùn)練器分類準(zhǔn)確率CA(Classification Accuracies)) 這是衡量算法分類器性能的重要指標(biāo),在不同的問(wèn)題中,也可能被稱為“精度”或“準(zhǔn)確率”。其定義如式(17)所示: (17) 其中,Si代表著樣本中待分類的假設(shè)集合S中第i個(gè)屬性的個(gè)數(shù)。Ti表示數(shù)據(jù)集中正確分類的樣本個(gè)數(shù)。 (1)實(shí)驗(yàn)問(wèn)題設(shè)置。 為了測(cè)試本文IGWO算法訓(xùn)練MLP的性能,選擇了3個(gè)分類問(wèn)題進(jìn)行測(cè)試,分別為:3位奇偶校驗(yàn)問(wèn)題(XOR)、鳶尾花分類問(wèn)題(Iris)和心臟病UCI問(wèn)題HD UCI(Heart Disease UCI)。對(duì)于多層感知器的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置,隱藏層節(jié)點(diǎn)數(shù)為2k+1,其中k為數(shù)據(jù)集的特征個(gè)數(shù)。對(duì)于XOR問(wèn)題、Iris問(wèn)題,多層感知器的結(jié)構(gòu)為3-7-1、4-9-3;對(duì)于HD問(wèn)題,使用22-45-1和22-16-1結(jié)構(gòu)的MLP作為訓(xùn)練對(duì)象。XOR問(wèn)題設(shè)置的目的是討論簡(jiǎn)單結(jié)構(gòu)MLP中智能算法作為訓(xùn)練器的性能;Iris問(wèn)題設(shè)置的目的是測(cè)試對(duì)于輸出層有多個(gè)節(jié)點(diǎn)的情況智能算法的性能;HD問(wèn)題設(shè)置的目的是當(dāng)面對(duì)節(jié)點(diǎn)數(shù)量較大的MLP時(shí)測(cè)試智能算法訓(xùn)練器的性能表現(xiàn)。因此,對(duì)于4種不同結(jié)構(gòu)的多層感知器智能算法種群規(guī)模分別設(shè)置為50,200,200,200。最大迭代次數(shù)分別為250,500,650,650。 (2)對(duì)比算法參數(shù)設(shè)置。 同時(shí)作為對(duì)比,本文選擇了PSO (Particle Swarm Optimization)[5]、GA (Genetic Algorithm)[6,7]、ACO (Ant Colony Optimization)[8,9]、PBIL (Population-Based Incremental Learning)[10]、ES (Evolutionary Strategy)、BBO (Biogeography-Based Optimization)[11]和GWO[16]算法作為MLP的訓(xùn)練器對(duì)3個(gè)不同的研究問(wèn)題進(jìn)行實(shí)驗(yàn)。根據(jù)大量參考文獻(xiàn)選取經(jīng)驗(yàn)值,在訓(xùn)練中各個(gè)算法的參數(shù)設(shè)置如下: 對(duì)于PSO,c1和c2的值設(shè)置為2,r1和r2為0~1的隨機(jī)數(shù),ω從0.9線性遞減到0.4,初始粒子速度在0~1隨機(jī)生成。 對(duì)于BBO算法,最大遷入率為1,最大遷出率為1,變異概率為0.005,遷移概率取值為0~1,步長(zhǎng)為2。 對(duì)于ACO算法,信息素值為10-6,信息素常數(shù)為20,探索常數(shù)為1,全局信息素衰減率為0.9,局部信息素衰減率為0.5,信息素敏感度α=1,信息素敏感度β=5。 對(duì)于GA算法,單點(diǎn)交叉,交叉概率為1,初始變異概率為0.01。 對(duì)于PBIL算法,學(xué)習(xí)率r0=0.05,變異概率為0.5,變異速率為0.1,最大變異率V0=0.4,學(xué)習(xí)速率調(diào)整時(shí)系統(tǒng)熵的閾值ε=10-6。 對(duì)于ES算法,每次新一代產(chǎn)生后代的數(shù)量為10,保留至下一代的精英數(shù)量為2,突變成功概率為0.005,進(jìn)化步長(zhǎng)σ=1。 3位奇偶校驗(yàn)問(wèn)題是一個(gè)著名的非線性標(biāo)準(zhǔn)測(cè)試問(wèn)題。本文把3位奇偶校驗(yàn)問(wèn)題的MLP結(jié)構(gòu)設(shè)置為3-7-1,即3個(gè)輸入,7個(gè)隱藏層節(jié)點(diǎn)和1個(gè)輸出層節(jié)點(diǎn),并分別對(duì)8種算法進(jìn)行30次獨(dú)立實(shí)驗(yàn),選取的統(tǒng)計(jì)參數(shù)有:平均值、中值、標(biāo)準(zhǔn)差和最好值,統(tǒng)計(jì)結(jié)果如表1所示,平均收斂趨勢(shì)和分類準(zhǔn)確率如圖2和圖3所示。 由圖2可以看出,ACO、ES、PSO、PBIL和GA算法的收斂速度遠(yuǎn)不及其余3個(gè)算法的。BBO和GWO算法的收斂精度遜色于IGWO算法。但是,通過(guò)表2可以看出,在達(dá)到相同分類準(zhǔn)確率的情況下,IGWO算法的平均訓(xùn)練時(shí)長(zhǎng)比BBO算法的短。圖3是各個(gè)智能算法作為MLP的訓(xùn)練器,進(jìn)行30次獨(dú)立運(yùn)算的MES的收斂曲線。通過(guò)表2可知,IGWO在平均值、中值和最優(yōu)值上都是最佳的。 雖然在標(biāo)準(zhǔn)差上能看出BBO算法具有較好的魯棒性,但是收斂精度不如IGWO的,由表1可知各個(gè)算法實(shí)際所用時(shí)長(zhǎng),其中PBIL算法所用時(shí)間最短,但是其分類準(zhǔn)確率只有65.42%。同時(shí)具有較好魯棒性的BBO算法訓(xùn)練所消耗的時(shí)間也是最長(zhǎng)的。IGWO算法在更短時(shí)間內(nèi)得到了更好的收斂精度,分類準(zhǔn)確率達(dá)到100%。與GWO算法相比,IGWO的尋優(yōu)性能得到了很大的提高,達(dá)到了性能改善的目的。 Figure 2 MSE convergence curve of each algorithm for XOR problem Figure 3 Classification accuracy of each algorithm for XOR problem Table 1 MSE and classification accuracy of intelligent algorithms for XOR problem Table 2 MSE and classification accuracy of intelligent algorithms running independently 30 times for Iris problem 鳶尾花問(wèn)題數(shù)據(jù)集有150個(gè)訓(xùn)練樣本,共4個(gè)基本特征。本文選擇MLP的結(jié)構(gòu)為4-9-3來(lái)對(duì)該問(wèn)題進(jìn)行分類。其統(tǒng)計(jì)結(jié)果如表2所示,平均收斂趨勢(shì)和分類準(zhǔn)確率如圖4和圖5所示。 Figure 4 MSE convergence curve of each algorithm for Iris problem Figure 5 Classification accuracy of each algorithm for Iris problem 由表2可知,對(duì)于Iris問(wèn)題,從8種算法獨(dú)立運(yùn)行30次的結(jié)果來(lái)看,IGWO的平均值、中值和最優(yōu)值都比其余7種算法的好,這表明了在處理多輸出節(jié)點(diǎn)的MLP問(wèn)題時(shí),IGWO算法的收斂精度都高于其他7個(gè)算法的,同時(shí)在MLP的測(cè)試樣本分類準(zhǔn)確率上IGWO也要高于其他算法。同時(shí),IGWO與GWO具有相近的標(biāo)準(zhǔn)差,表明IGWO算法繼承了GWO算法的強(qiáng)魯棒性,且比ACO、ES、PSO、PBIL和GA算法的魯棒性要好。雖然IGWO的標(biāo)準(zhǔn)差不如GWO和BBO的,排名第3。從訓(xùn)練時(shí)長(zhǎng)看,BBO算法消耗的時(shí)間遠(yuǎn)遠(yuǎn)多于IGWO算法的。由圖4和圖5 8種算法對(duì)Iris分類問(wèn)題的分類收斂曲線可知,ACO、ES、PSO、PBIL和GA算法的收斂速度和收斂精度較差,BBO和GWO算法的收斂精度相近,IGWO收斂精度最高。而B(niǎo)BO的穩(wěn)定性好于GWO和IGWO的。從圖5中可以看出,雖然IGWO的魯棒性與GWO相近,不如BBO算法,但I(xiàn)GWO擁有更快的收斂速度,IGWO的收斂精度和魯棒性遠(yuǎn)高于ACO、ES、PSO、PBIL和GA算法的。這充分驗(yàn)證了IGWO算法的強(qiáng)魯棒性、分類可靠性和高效性。 心臟病問(wèn)題HD UCI來(lái)自克利夫蘭數(shù)據(jù)庫(kù),是迄今為止ML(Machine Learning)研究人員使用的唯一數(shù)據(jù)庫(kù)。這個(gè)數(shù)據(jù)庫(kù)包含76個(gè)屬性。使用2種不同結(jié)構(gòu)的MLP作為訓(xùn)練對(duì)象,22-16-1結(jié)構(gòu)MLP是一種收斂形的結(jié)構(gòu),其隱藏層個(gè)數(shù)為輸入層與輸出層節(jié)點(diǎn)數(shù)總和的2/3。22-45-1結(jié)構(gòu)MLP選擇的是常規(guī)的隱藏層節(jié)點(diǎn)數(shù),其選取節(jié)點(diǎn)數(shù)為2k+1,k為數(shù)據(jù)集的特征個(gè)數(shù)。 使用8種不同的智能算法訓(xùn)練結(jié)構(gòu)為22-16-1的MLP處理HD分類問(wèn)題,其統(tǒng)計(jì)結(jié)果如表3所示,平均收斂趨勢(shì)和分類準(zhǔn)確率如圖6和圖7所示;訓(xùn)練結(jié)構(gòu)為22-45-1的MLP處理HD分類問(wèn)題的統(tǒng)計(jì)結(jié)果如表4所示,平均收斂趨勢(shì)和分類準(zhǔn)確率如圖8和圖9所示所示。 由表3和表4可以看出,在HD分類問(wèn)題中,22-16-1結(jié)構(gòu)MLP的MSE和分類準(zhǔn)確率不如22-45-1結(jié)構(gòu)的,雖然其較少的節(jié)點(diǎn)數(shù)降低了智能算法探索的解空間維度,使算法的訓(xùn)練時(shí)長(zhǎng)縮短了,但是其訓(xùn)練后的MSE和分類準(zhǔn)確率不如22-45-1結(jié)構(gòu)的MLP。22-16-1結(jié)構(gòu)的MLP不能完全區(qū)別特征,導(dǎo)致訓(xùn)練后的MSE和分類準(zhǔn)確率不如22-45-1結(jié)構(gòu)的MLP。 Figure 6 MSE convergence curve of MLP with 22-16-1 structure training by each algorithm for HD problem Figure 7 Classification accuracy of MLP with 22-16-1 structure training by each algorithm for HD problem Figure 8 MSE convergence curve of MLP with 22-45-1 structure training by each algorithm for HD problem Figure 9 Classification accuracy of MLP with 22-45-1 structure training by each algorithm for HD problem Table 3 MSE and classification accuracy of MLP with 22-16-1 structure training by each algorithm for HD problem Table 4 MSE and classification accuracy of MLP with 22-45-1 structure training by each algorithm for HD problem 從8種算法訓(xùn)練的22-16-1結(jié)構(gòu)MLP處理HD問(wèn)題獨(dú)立運(yùn)行30次的統(tǒng)計(jì)結(jié)果來(lái)看,IGWO的平均值、中值和最優(yōu)值都比其余7種算法的好,這些都表明了在處理大量關(guān)聯(lián)節(jié)點(diǎn)的MLP問(wèn)題時(shí)IGWO算法的收斂精度高于其他7個(gè)算法的,同時(shí)在MLP的測(cè)試樣本分類準(zhǔn)確率上IGWO也要高于其他算法的。BBO算法在標(biāo)準(zhǔn)差上的表現(xiàn)體現(xiàn)出其魯棒性良好,但是由表4可知,在訓(xùn)練耗時(shí)上其表現(xiàn)不如GWO和IGWO算法的,在分類準(zhǔn)確率上其不如GWO的。IGWO的標(biāo)準(zhǔn)差低于GWO的,其穩(wěn)定性更高。 由圖6~圖9中8種算法訓(xùn)練22-16-1結(jié)構(gòu)MLP處理HD分類問(wèn)題的MSE收斂曲線可知,ACO算法的收斂速度和收斂精度最差,然后依次為GA、PSO、ES和PBIL算法。同時(shí)BBO算法和GWO算法的收斂精度不如IGWO算法的。 以上統(tǒng)計(jì)結(jié)果表明,IGWO算法訓(xùn)練22-45-1結(jié)構(gòu)的MLP處理HD問(wèn)題性能較好。IGWO算法的尋優(yōu)性能和訓(xùn)練速度得到了很大的提高,達(dá)到了性能改善的目的。 表5和表6分別展示了GWO算法及其各個(gè)改進(jìn)算法訓(xùn)練多層感知器,處理XOR分類問(wèn)題和Iris分類問(wèn)題獨(dú)立運(yùn)行30次后的MSE、分類準(zhǔn)確率的平均值。表5中,GWO算法及其改進(jìn)算法訓(xùn)練MLP處理XOR問(wèn)題的最大迭代次數(shù)為200次,選擇200作為最大迭代次數(shù)是因?yàn)榇藭r(shí)分類準(zhǔn)確率已經(jīng)達(dá)到100%,前文中最大迭代次數(shù)為250次是為了對(duì)比其他智能算法。表7展示了GWO算法及其改進(jìn)算法訓(xùn)練22-16-1結(jié)構(gòu)MLP處理HD分類問(wèn)題獨(dú)立運(yùn)行30次后的MSE和分類準(zhǔn)確率的平均值。表8展示了GWO算法及其改進(jìn)算法訓(xùn)練22-45-1結(jié)構(gòu)MLP處理HD分類問(wèn)題獨(dú)立運(yùn)行30次后的MSE和分類準(zhǔn)確率的平均值。 其中,NGWO是將GWO算法的線性收斂因子替換為余弦收斂因子,如式(9)所示。CGWO是在GWO算法中增加了柯西變異算子式(13)。EGWO是將GWO算法的位置更新公式替換為式(14)。IGWO是將余弦收斂因子、柯西變異算子和位置更新公式替換都加入GWO算法中。 Table 5 MSE and classification accuracy of GWO and its improved algorithms running independently 30 times for XOR problem Table 6 MSE and classification accuracy of GWO and its improved algorithms running independently 30 times for Iris problem Table 7 MSE and classification accuracy of MLPwith 22-16-1 structure trained by GWO and its improved algorithms for HD problem Table 8 MSE and classification accuracy of MLP with 22-45-1 structure trained by GWO and its improved algorithms for HD problem 通過(guò)表5可知,GWO及其改進(jìn)算法訓(xùn)練多層感知器處理XOR分類問(wèn)題的分類準(zhǔn)確率已經(jīng)達(dá)到100%。從MSE的角度看,加入柯西變異算子可以提升局部探索能力,得到的最優(yōu)值更小;標(biāo)準(zhǔn)差也反映了單獨(dú)加入柯西變異算子會(huì)使算法魯棒性降低;為了保證魯棒性,同時(shí)加入余弦收斂因子和位置更新公式(式(14)),可以從多次訓(xùn)練的標(biāo)準(zhǔn)差看出使用位置更新公式(式(14))和余弦收斂因子可以提升魯棒性。通過(guò)表6可知,GWO及其改進(jìn)算法訓(xùn)練多層感知器處理Iris分類問(wèn)題的準(zhǔn)確率均在90%以上。從MSE的角度看,Iris分類問(wèn)題相較于XOR問(wèn)題使用的MLP的節(jié)點(diǎn)數(shù)較多,對(duì)于訓(xùn)練算法而言其解空間維度更高??梢钥闯鼋饪臻g維度提升以后,柯西變異算子提升局部探索的能力依然有效,能找到更優(yōu)的最優(yōu)值,但是通過(guò)標(biāo)準(zhǔn)差可以看出,加入柯西變異算子對(duì)魯棒性存在影響。從標(biāo)準(zhǔn)差看,加入余弦收斂因子和使用位置更新公式(式(14))可以提升算法魯棒性。改進(jìn)后的IGWO算法訓(xùn)練多層感知器處理Iris分類問(wèn)題能在保證魯棒性的同時(shí)提升準(zhǔn)確率和降低MSE。通過(guò)表7和表8可知,GWO及其改進(jìn)算法訓(xùn)練不同結(jié)構(gòu)的訓(xùn)練多層感知器處理HD分類問(wèn)題時(shí),22-16-1結(jié)構(gòu)MLP在同樣訓(xùn)練后的表現(xiàn)不如22-45-1結(jié)構(gòu)MLP,是因?yàn)槭諗啃蔚腗LP結(jié)構(gòu)不能完全區(qū)分特征。為了處理HD分類問(wèn)題,2種MLP的節(jié)點(diǎn)數(shù)量有大幅提升,對(duì)于訓(xùn)練算法而言其解空間維度更高。從MSE的最優(yōu)值可以看出,處理高維解空間時(shí),柯西變異算子提升局部探索的能力依然有效。從30次獨(dú)立運(yùn)算的標(biāo)準(zhǔn)差可以看出,使用余弦收斂因子和更新公式(式(14))處理高維解空間能提升算法魯棒性。IGWO算法訓(xùn)練大量節(jié)點(diǎn)的多層感知器處理HD分類問(wèn)題時(shí)能在保證魯棒性的同時(shí)提升分類準(zhǔn)確率和降低MSE。 使用啟發(fā)式算法作為MLP的訓(xùn)練器是一個(gè)可行的方向,本文算法在GWO算法基礎(chǔ)上加入柯西變異算子提升算法跳出局部最優(yōu)的能力,加入余弦收斂因子平衡局部開(kāi)發(fā)和全局探索能力,并通過(guò)位置更新公式(式(14))提升算法收斂速度,縮短訓(xùn)練時(shí)間。然后選取3個(gè)不同MLP結(jié)構(gòu)的分類問(wèn)題:XOR問(wèn)題、Iris分類問(wèn)題和HD分類問(wèn)題進(jìn)行實(shí)驗(yàn),用于評(píng)估改進(jìn)灰狼優(yōu)化算法的優(yōu)化性能和魯棒性。實(shí)驗(yàn)結(jié)果表明,與幾個(gè)經(jīng)典智能算法相比,本文IGWO算法訓(xùn)練的MLP,在分類準(zhǔn)確率和收斂精度方面具有更好的性能,同時(shí)具有較好的魯棒性。雖然BBO算法的穩(wěn)定性很高,是最好的,但是其收斂結(jié)果不如IGWO算法的。并且在訓(xùn)練器所用時(shí)間上,IGWO算法作為訓(xùn)練器時(shí),其并不會(huì)因?yàn)楣?jié)點(diǎn)數(shù)的增加而導(dǎo)致訓(xùn)練時(shí)間大幅增加。同時(shí),面對(duì)高維解空間時(shí)柯西變異算子對(duì)局部探索能力的提升依然有效,余弦因子和更新公式(式(14))保證了算法魯棒性,結(jié)合了這些改進(jìn)的IGWO算法是一個(gè)優(yōu)秀的MLP訓(xùn)練器。4 基于柯西變異灰狼優(yōu)化算法訓(xùn)練的多層感知器
5 實(shí)驗(yàn)結(jié)果和討論
5.1 測(cè)試問(wèn)題及實(shí)驗(yàn)設(shè)置
5.2 XOR問(wèn)題
5.3 Iris問(wèn)題
5.4 HD問(wèn)題
5.5 IGWO算子性能分析
6 結(jié)束語(yǔ)