王石磊,陸慧娟,關(guān) 偉,余 翠
(1.中國(guó)計(jì)量學(xué)院 信息工程學(xué)院,浙江 杭州 310018;2.中國(guó)計(jì)量學(xué)院 現(xiàn)代科技學(xué)院,浙江 杭州 310018)
一種粒子群RELM的基因表達(dá)數(shù)據(jù)分類(lèi)方法
王石磊1,陸慧娟1,關(guān) 偉2,余 翠1
(1.中國(guó)計(jì)量學(xué)院 信息工程學(xué)院,浙江 杭州 310018;2.中國(guó)計(jì)量學(xué)院 現(xiàn)代科技學(xué)院,浙江 杭州 310018)
正則極限學(xué)習(xí)機(jī)(regularized extreme learning machine,RELM)具有比極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)更好的泛化能力.然而RELM的輸入層權(quán)值、隱含層偏差是隨機(jī)給定的,會(huì)影響RELM的穩(wěn)定性.另外,RELM為了獲得較理想的分類(lèi)精度,仍需設(shè)置較多的隱層節(jié)點(diǎn).針對(duì)此問(wèn)題,通過(guò)分析粒子群優(yōu)化算法(particle swarm optimization,PSO)的原理,把RELM初始產(chǎn)生的輸入層權(quán)值、隱含層偏差作為粒子帶入PSO進(jìn)行尋優(yōu).通過(guò)在Breast和Brain數(shù)據(jù)集上進(jìn)行多次10折交叉驗(yàn)證表明,粒子群改進(jìn)正則極限學(xué)習(xí)機(jī)(PSO-RELM)可以在隱層節(jié)點(diǎn)設(shè)置較少時(shí)獲得比BP神經(jīng)網(wǎng)絡(luò)(back propagation,BP)、支持向量機(jī)(support vector machine,SVM)、RELM更好的分類(lèi)精度和更佳的穩(wěn)定性.
正則極限學(xué)習(xí)機(jī);輸入層權(quán)值;隱含層偏差;粒子群
生物信息學(xué)是當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,同時(shí)也是21世紀(jì)自然科學(xué)的核心領(lǐng)域之一.而在后基因組時(shí)代,作為生物信息學(xué)的一個(gè)重要研究方向,DNA微陣列(又稱(chēng)DNA芯片或基因芯片)經(jīng)由一次測(cè)驗(yàn),就可以在基因水平上大規(guī)模并行檢測(cè)成千上萬(wàn)個(gè)基因的表達(dá)量,進(jìn)而提供大量基因序列相關(guān)數(shù)據(jù).它是基因組學(xué)和遺傳學(xué)研究強(qiáng)有力的工具,并且對(duì)癌癥等疾病的診斷、治療以及藥物研究都具有非常重大的現(xiàn)實(shí)意義[1-2].但如何根據(jù)DNA微陣列實(shí)驗(yàn)測(cè)定的基因表達(dá)數(shù)據(jù)來(lái)有效的對(duì)樣本進(jìn)行腫瘤分類(lèi)是機(jī)器學(xué)習(xí)面臨的新課題和挑戰(zhàn)[3-4].
目前,多種機(jī)器學(xué)習(xí)算法如BP神經(jīng)網(wǎng)絡(luò),SVM已經(jīng)廣泛被應(yīng)用于各種分類(lèi)研究中.但在不同的應(yīng)用場(chǎng)合,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法存在學(xué)習(xí)時(shí)間較長(zhǎng),網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜等問(wèn)題[5].
SVM主要借助二次規(guī)劃來(lái)求解支持向量,對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施,解決多分類(lèi)問(wèn)題存在困難[6].2006年,黃廣斌[7]等在對(duì)單隱層前饋神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,提出了一種新穎的神經(jīng)網(wǎng)絡(luò)算法—極限學(xué)習(xí)機(jī).ELM因具有簡(jiǎn)單易用、分類(lèi)精度較高等優(yōu)點(diǎn),在分類(lèi)問(wèn)題應(yīng)用中具有顯著的優(yōu)勢(shì),然而ELM也存在泛化能力較差等問(wèn)題.為提高ELM的泛化性能,2010年,鄧萬(wàn)宇[8]等通過(guò)向ELM引入結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論以及正則項(xiàng),提出了正則極限學(xué)習(xí)機(jī).RELM具有比ELM更好的泛化性能,但是同ELM一樣,RELM的輸入層權(quán)值、隱含層偏差是隨機(jī)給定的,會(huì)影響RELM的穩(wěn)定性.另外,RELM為了獲得較理想的分類(lèi)精度,仍需設(shè)置較多的隱層節(jié)點(diǎn)[9-10].
粒子群優(yōu)化算法[11-12]具有實(shí)現(xiàn)容易、精度高、收斂快等優(yōu)點(diǎn).通過(guò)分析PSO的原理,針對(duì)RELM輸入層權(quán)值和隱含層偏差隨機(jī)給定的問(wèn)題,本文通過(guò)把RELM初始產(chǎn)生的輸入層權(quán)值、隱含層偏差作為粒子帶入PSO進(jìn)行尋優(yōu),然后把最終獲得的優(yōu)化的輸入層權(quán)值、隱含層偏差帶入RELM進(jìn)行訓(xùn)練和測(cè)試[13].PSO-RELM與BP、SVM、RELM在Breast和Brain數(shù)據(jù)集上進(jìn)行多次實(shí)驗(yàn)對(duì)比后顯示,穩(wěn)定性和分類(lèi)精度都有一定的提高.
標(biāo)準(zhǔn)ELM是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則,這在特定情形下如樣本數(shù)目是有限時(shí),從統(tǒng)計(jì)學(xué)的角度看是不完善的.合理的做法是需要對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍同時(shí)進(jìn)行最小化,因此根據(jù)統(tǒng)計(jì)學(xué)理論,RELM在ELM的基礎(chǔ)上引入結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,并設(shè)置參數(shù)γ來(lái)對(duì)這兩種風(fēng)險(xiǎn)的比例進(jìn)行調(diào)節(jié),其數(shù)學(xué)模型表示為
(1)
式(1)中:‖β‖2—統(tǒng)計(jì)學(xué)理論中的結(jié)構(gòu)風(fēng)險(xiǎn);‖ε‖2—經(jīng)驗(yàn)風(fēng)險(xiǎn),是N個(gè)不同樣本的誤差加權(quán)平方和;γ—通過(guò)交叉驗(yàn)證方式確定的風(fēng)險(xiǎn)調(diào)節(jié)參數(shù);βi—第i個(gè)隱層節(jié)點(diǎn)的輸出權(quán)值;ai—第i個(gè)隱層節(jié)點(diǎn)的輸入權(quán)值;bi—第i個(gè)隱層節(jié)點(diǎn)的偏差.
為求解式(1)的條件極值問(wèn)題,先構(gòu)建相應(yīng)的拉格朗日函數(shù)
(2)式(2)中,α=[α1,α2,…,αN],αj∈Rm(j=1,2,…,N)
代表拉格朗日乘子.
對(duì)式(2)中各變量分別求偏導(dǎo)并令偏導(dǎo)數(shù)為0,可得
(3)
根據(jù)式(3)求得RELM的輸出權(quán)值矩陣β=(γ-1I+HTH)THTT,其中I為單位矩陣.
粒子群優(yōu)化算法,又稱(chēng)微粒群算法,是近幾年發(fā)展起來(lái)的一種新的進(jìn)化算法(evolutionary algorithm,EA),由Kennedy與Eberhart兩位學(xué)者受飛鳥(niǎo)集群行為的規(guī)律性啟發(fā)而在1995年提出.PSO算法屬于進(jìn)化算法的一種,同時(shí)也是一種并行算法.它從隨機(jī)解出發(fā),然后通過(guò)迭代尋找最優(yōu)解,并且也是通過(guò)適應(yīng)度來(lái)評(píng)價(jià)解的品質(zhì)和通過(guò)追隨當(dāng)前搜索到的最優(yōu)值來(lái)尋找全局最優(yōu).
在PSO中,搜索空間的鳥(niǎo)被抽象為沒(méi)有質(zhì)量和體積的粒子,也可以理解為所要解決的優(yōu)化問(wèn)題的可能解.種群中的粒子都有一個(gè)適應(yīng)值,該適應(yīng)值是由優(yōu)化問(wèn)題的適應(yīng)度函數(shù)求得;同時(shí),每一個(gè)粒子也還具有一個(gè)速度,該速度會(huì)決定粒子運(yùn)動(dòng)的方向和距離.在種群中的所有粒子隨機(jī)初始化后,粒子們就通過(guò)種群中的信息交流與共享而跟隨當(dāng)前解空間的最優(yōu)粒子來(lái)搜索最優(yōu)解.PSO是通過(guò)迭代的方式來(lái)尋找最優(yōu)解,在每次迭代中,粒子通過(guò)跟蹤個(gè)體極值(Pbest)和全局極值(Gbest)來(lái)不斷調(diào)整自己的飛行速度和方向.Pbest是粒子本身搜索到的最優(yōu)解,Gbest是整個(gè)種群目前搜索到的最優(yōu)解.
設(shè)搜索空間為D維,總粒子數(shù)為n,種群表示為X=(X1,X2,…,Xn),分別用D維向量Xi=(Xi1,Xi2,…,XiD)T和D維向量Vi=(Vi1,Vi2,…,ViD)T表示第i個(gè)粒子的位置和當(dāng)前的飛行速度,Pi=(Pi1,Pi2,…,PiD)T表示第i個(gè)粒子飛行過(guò)程中發(fā)現(xiàn)的個(gè)體極值對(duì)應(yīng)的最優(yōu)位置,Pg=(Pg1,Pg2,…,PgD)T表示所有粒子發(fā)現(xiàn)的全局極值對(duì)應(yīng)的最優(yōu)位置.所有粒子按如下公式不斷調(diào)整自己的飛行速度和方向
(4)
在(4)式中:ω—慣性因子[14],取值正常數(shù),ω較大適于對(duì)解空間進(jìn)行大范圍搜索,ω較小適于進(jìn)行小范圍搜索;c1、c2取值正常數(shù),稱(chēng)加速因子,實(shí)際應(yīng)用通常取c1=c2=2;r1、r2為大小在(0,1)之間的兩個(gè)相互獨(dú)立的隨機(jī)數(shù);對(duì)于D維的搜索空間,為了防止粒子進(jìn)行盲目搜索,粒子位置的每一維都限定為[-Xmax,Xmax],粒子速度的每一維都限定為[-Vmax,Vmax],迭代中若位置和速度某一維超過(guò)邊界范圍則取邊界值.
RELM雖然在ELM的基礎(chǔ)上通過(guò)引入結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論以及正則項(xiàng)提高了泛化能力,但其輸入層權(quán)值、隱含層偏差在初始仍是隨機(jī)給定.在通過(guò)輸入層權(quán)值矩陣和隱含層偏差矩陣求取輸出矩陣時(shí),這種隨機(jī)性可能產(chǎn)生的一些為0的值,會(huì)導(dǎo)致一些隱層節(jié)點(diǎn)成為無(wú)效節(jié)點(diǎn).因此,為了獲得滿(mǎn)意的分類(lèi)精度,RELM就需要設(shè)置相對(duì)較多隱層節(jié)點(diǎn),而這種隨機(jī)性也同樣會(huì)影響其穩(wěn)定性.
為了改善上述RELM存在的問(wèn)題,本文通過(guò)分析PSO的原理,把RELM初始產(chǎn)生的輸入層權(quán)值、隱含層偏差作為粒子帶入PSO進(jìn)行尋優(yōu),提出粒子群改進(jìn)正則極限學(xué)習(xí)機(jī).PSO-RELM訓(xùn)練過(guò)程可歸納如下:
1)用RELM隨機(jī)產(chǎn)生的多組輸入層權(quán)值矩陣、隱含層偏差矩陣生成初始粒子群.根據(jù)研究者經(jīng)驗(yàn),粒子群規(guī)模n通常取20~40,對(duì)較難或特定類(lèi)別的問(wèn)題可以取100~200,粒子群規(guī)模越大,算法越容易收斂到最優(yōu)點(diǎn),相應(yīng)耗費(fèi)時(shí)間就越長(zhǎng);搜索空間維度D=k·(n+1)(D也是每一個(gè)粒子的長(zhǎng)度),其中,k為隱層節(jié)點(diǎn)數(shù),n為輸入神經(jīng)元數(shù)(即輸入向量維度).粒子位置的每一維都限定為[-Xmax,Xmax],粒子速度的每一維都限定為[-Vmax,Vmax],其中Xmax、Vmax通常取1.
2)每次迭代時(shí)根據(jù)適應(yīng)度函數(shù)求得每個(gè)粒子的適應(yīng)值,其中適應(yīng)度函數(shù)設(shè)定為訓(xùn)練樣本類(lèi)別矩陣和每一個(gè)粒子對(duì)應(yīng)的輸出矩陣的均方根誤差(RMSE).把構(gòu)成粒子的輸入層權(quán)值矩陣、隱含層偏差矩陣帶入RELM求得訓(xùn)練樣本類(lèi)別矩陣和輸出矩陣,然后求得本次迭代每一個(gè)粒子的適應(yīng)值;RELM隱含層的激活函數(shù)選定為sigmoid函數(shù).
3)評(píng)價(jià)每個(gè)粒子的適應(yīng)值進(jìn)行尋優(yōu).對(duì)種群中每個(gè)微粒,將本次迭代求得的適應(yīng)值與該粒子上次迭代搜索的個(gè)體極值Pbest進(jìn)行比較,如果較好,則將該粒子Pbest更新為其本次迭代的適應(yīng)值,并更新Pbest對(duì)應(yīng)的位置為本次迭代粒子的位置;將本次迭代每個(gè)粒子的Pbest與上次迭代種群的Gbest進(jìn)行比較,如果較好,則將Gbest更新為最好的Pbest,并更新Gbest對(duì)應(yīng)的位置更新為最好的Pbest所對(duì)應(yīng)的粒子的位置;所有粒子按式(4)更新自己的位置和方向.不斷重復(fù)上述過(guò)程直至迭代結(jié)束,最終得到一個(gè)較優(yōu)的輸入層權(quán)值矩陣、隱含層偏差矩陣.
4)把通過(guò)尋優(yōu)得到輸入層權(quán)值矩陣、隱含層偏差矩陣帶入RELM進(jìn)行訓(xùn)練和測(cè)試.
為了對(duì)PSO-RELM的性能進(jìn)行測(cè)試,本文實(shí)驗(yàn)平臺(tái)為MATLAB R2012b,并選取UCI數(shù)據(jù)集上的Breast和Brain數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證.數(shù)據(jù)集已經(jīng)過(guò)歸一化處理,前者包括575個(gè)樣本,每個(gè)樣本的特征維數(shù)為8,為二分類(lèi)問(wèn)題;后者樣本數(shù)為485,樣本特征數(shù)為8,是五分類(lèi)問(wèn)題.每次實(shí)驗(yàn)都從Breast和Brain數(shù)據(jù)集中隨機(jī)選取訓(xùn)練樣本和測(cè)試樣本,為了降低這種隨機(jī)性對(duì)實(shí)驗(yàn)造成的影響,所以每次實(shí)驗(yàn)進(jìn)行10折交叉驗(yàn)證,然后實(shí)驗(yàn)結(jié)果取均值.
1)為使設(shè)置的隱層節(jié)點(diǎn)數(shù)較為合理,實(shí)驗(yàn)首先測(cè)試了在Breast數(shù)據(jù)集上隱層節(jié)點(diǎn)數(shù)對(duì)PSO-RELM的影響.初始把隱層節(jié)點(diǎn)數(shù)開(kāi)始設(shè)置為10,然后在此基礎(chǔ)上逐漸遞加到100,共進(jìn)行91次實(shí)驗(yàn).記錄每次實(shí)驗(yàn)的訓(xùn)練時(shí)間、訓(xùn)練精度和測(cè)試精度,結(jié)果選取8組,如表1.
表1 隱含層節(jié)點(diǎn)數(shù)對(duì)PSO-RELM的影響
Table1ImpactofhiddenlayernodenumberonPSO-RELM
隱含層節(jié)點(diǎn)數(shù)實(shí)驗(yàn)結(jié)果訓(xùn)練時(shí)間/s訓(xùn)練精度測(cè)試精度1110.67330.76080.75351810.99500.76600.75872511.74360.77130.76223512.14440.77890.77565011.91210.76810.76576016.68670.76930.76048020.40930.76080.769010023.61180.76600.7570
從表1可以看出,隨著隱含層節(jié)點(diǎn)數(shù)的增加,PSO-RELM的訓(xùn)練時(shí)間在整體上也是遞增的,且遞增幅度逐漸增大,而訓(xùn)練精度和測(cè)試精度大體上是先增加再降低,并在35時(shí)達(dá)到最大.說(shuō)明隱層節(jié)點(diǎn)數(shù)在相對(duì)較少時(shí)(不到50),PSO-RELM就能達(dá)到較滿(mǎn)意的分類(lèi)精度.因此綜合考慮實(shí)驗(yàn)精度和時(shí)間兩方面因素,后續(xù)實(shí)驗(yàn)PSO-RELM隱層節(jié)點(diǎn)數(shù)都設(shè)為35.
圖1和圖2展示的分別為PSO-RELM在Breast和Brain數(shù)據(jù)集上的適應(yīng)度函數(shù)擬合曲線(xiàn)圖.從圖中可以看出,Breast數(shù)據(jù)集上迭代次數(shù)在50左右,Brain數(shù)據(jù)集上迭代次數(shù)在100左右時(shí),曲線(xiàn)圖開(kāi)始趨于水平,說(shuō)明適應(yīng)度函數(shù)開(kāi)始趨于收斂,這表明PSO-RELM的適應(yīng)度函數(shù)具有很好的收斂性.
圖1 Breast上的適應(yīng)度函數(shù)擬合曲線(xiàn)圖Figure 1 Fitness function fitting curve on Breast
圖2 Brain上的適應(yīng)度函數(shù)擬合曲線(xiàn)圖Figure 2 Fitting fitness function curve on Brain
為了測(cè)試PSO-RELM的效果,本文的對(duì)比試驗(yàn)選用了標(biāo)準(zhǔn)的BP神經(jīng)網(wǎng)絡(luò)、SVM和RELM三種算法.其中BP神經(jīng)網(wǎng)絡(luò)中神經(jīng)元個(gè)數(shù)設(shè)置為10;SVM采用臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)教授等開(kāi)發(fā)設(shè)計(jì)的LIBSVM軟件包[15],參數(shù)C設(shè)置為10;RELM隱層節(jié)點(diǎn)數(shù)設(shè)置為75,正則因子C設(shè)置為1;PSO-RELM中,粒子群優(yōu)化算法采用PSOt工具包,根據(jù)實(shí)驗(yàn)和文獻(xiàn)參考,粒子群規(guī)模設(shè)置為20[16],RELM隱層節(jié)點(diǎn)設(shè)置為35,正則因子C也設(shè)置為1.
穩(wěn)定性是評(píng)價(jià)機(jī)器學(xué)習(xí)算法性能一個(gè)重要指標(biāo),實(shí)驗(yàn)進(jìn)一步通過(guò)5次實(shí)驗(yàn)對(duì)四種算法的穩(wěn)定性進(jìn)行對(duì)比.
表2記錄了四種算法在Breast數(shù)據(jù)集上五次實(shí)驗(yàn)中的測(cè)試精度,然后計(jì)算了每種算法對(duì)應(yīng)的方差.從表2中可以看出三點(diǎn):1)BP神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)的方差比其他三個(gè)都高了一個(gè)數(shù)量級(jí)(約為10倍),這也表明BP神經(jīng)網(wǎng)絡(luò)比較不穩(wěn)定;2)RELM比SVM穩(wěn)定,但兩者對(duì)應(yīng)的方差相差比較小;3)PSO-RELM對(duì)應(yīng)的方差比SVM、RELM對(duì)應(yīng)的方差都小約0.000 06,穩(wěn)定性相對(duì)提升比較明顯.
表2 不同算法的穩(wěn)定性對(duì)比
最后通過(guò)10次實(shí)驗(yàn)在Breast和Brain上對(duì)四種算法的精度進(jìn)行對(duì)比,如圖3和圖4.
圖3 Breast上不同算法的精度對(duì)比圖Figure 3 Accuracy comparison of different algorithms on Breast
圖4 Brain上不同算法的精度對(duì)比圖Figure 4 Accuracy comparison of different algorithms on Brain
從圖3、圖4中可以看出,BP神經(jīng)網(wǎng)絡(luò)精度波動(dòng)比較大,RELM波動(dòng)比SVM小一些,精度也比SVM高一些;PSO-RELM相對(duì)RELM整體上比較平穩(wěn),且精度提高相對(duì)比較明顯.
本文通過(guò)運(yùn)用粒子群優(yōu)化算法對(duì)RELM進(jìn)行改進(jìn),提出了一種粒子群改進(jìn)RELM(PSO-RELM)的基因表達(dá)數(shù)據(jù)分類(lèi)方法.首先把RELM初始隨機(jī)產(chǎn)生的一組輸入層權(quán)值和隱含層偏差作為粒子帶入粒子群優(yōu)化算法進(jìn)行尋優(yōu),然后把符合要求(即使分類(lèi)誤差最小)的最優(yōu)粒子變換成輸入層權(quán)值和隱含層偏差進(jìn)行訓(xùn)練和測(cè)試.在Breast和Brain數(shù)據(jù)集上測(cè)試表明,PSO-RELM在隱層節(jié)點(diǎn)較少(設(shè)置為35)時(shí),穩(wěn)定性和分類(lèi)精度相對(duì)都有一定的提高.
[1] ANDER E S. Array of hope[J].Nature Genetics,1999,21(Suppl):3-4.
[2] RAMASWAMY S, GOLUB T R. DNA microarrays in clinical oncology[J].Jornal of Clinical Oncology,2002,20(7):1932-1941.
[3] SLONIM D K. From patterns to pathways: gene expression data analysis comes of age[J].Nature Genetics,2002,32(Suppl):502-508.
[4] KURAMOCHI M, KARYPIS G. Gene classification using expression profiles: a feasibility study[J].International Journal on Artificial Intelligence Tools,2005,14(4):641-660.
[5] YI Jianqiang, WANG Qian, ZHAO Dongbin, et al. BP neural network prediction-based variable-period sampling approach for networked control systems[J].Applied Mathematics and Computation,2007,185(2):976-988.
[6] CRISTIANINI N, SHAWE-TAYLOR J. An introduction to support vector machines and other kernel-based learning methods[M].Cambridge University Press,2000:107-136.
[7] HUANG Guangbin, ZHU Qinyu, SIEW C K. Extreme learning machine: theory and applications[J].Neurocomputing,2006,70(1):489-501.
[8] 鄧萬(wàn)宇,鄭慶華,陳 琳,等.神經(jīng)網(wǎng)絡(luò)極速學(xué)習(xí)方法研究[J].計(jì)算機(jī)學(xué)報(bào),2010(2): 279-287. DENG Wanyu, ZHENG Qinghua, CHEN Lin, et al. Research on extreme learning of neural networks[J].Chinese Journal of Computers,2010(2):279-287.
[9] 陸慧娟.基于基因表達(dá)數(shù)據(jù)的腫瘤分類(lèi)算法研究[D].徐州:中國(guó)礦業(yè)大學(xué),2012. LU Huijuan. A study of tumor classification algorithms using gene expression data[D].Xuzhou: China University of Mining and Technology,2012.
[10] 陸慧娟,安春霖,馬小平,等.基于輸出不一致測(cè)度的極限學(xué)習(xí)機(jī)集成的基因表達(dá)數(shù)據(jù)分類(lèi)[J].計(jì)算機(jī)學(xué)報(bào),2013,36(2):341-348. LU Huijuan, AN Chunlin, MA Xiaoping, et al.Disagreement measure based ensemble of extrme learning machine for gene expression data classification[J].Chinese Journal of Computers,2013,36(2):341-348.
[11] KENNEDY J, EBERHART R. Particle swarm optimization[C]//Proceeding of IEEE International Conference on Neural Networks. Piscataway, NJ: IEEE Press,1995:1942-1948.
[12] EBERHART R, KENNEDY J. A new optimizer using particle swarm theory[C]//Proceeding of the 6th International Symposium on Micro Machine and Human Science, Piscataway, NJ: IEEE Press,1995:39-43.
[13] 王杰,畢浩洋.一種基于粒子群優(yōu)化的極限學(xué)習(xí)機(jī)[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2013,45(1):101-104. WANG Jie, BI Haoyang. A new extreme learning machine optimized by PSO[J].Journal of Zhengzhou University: Natural Science Edition,2013,45(1):101-104.
[14] HAN Fei, YAO Haifen, LING Qinghua. An improved evolutionary extreme learning machine based on particle swarm optimization[J].Neurocomputing,2013,116:87-93.
[15] CHANG C C, LIN C J. LIBSVM: a library for support vector machines [EB/OL].(2014-11-10)[2012-11-16]http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
[16] 王維博,林川,鄭永康.粒子群算法中參數(shù)的實(shí)驗(yàn)與分析[J].西華大學(xué)學(xué)報(bào):自然科學(xué)版,2008,27(1):76-80. WANG Weibo, LIN Chuan, ZHENG Yongkang. The experiment and analysis of parameters in particle swarm algorithm[J].Journal of Xihua University: Natural Science Edition,2008,27(1):76-80.
A method of particle swarm optimization RELM for gene expression data classification
WANG Shilei1, LU Huijuan1, GUAN Wei2, YU Cui1
(1. College of Information Engineering, China Jiliang University, Hangzhou 310018, China; 2. College of Modern Science and Technology, China Jiliang University, Hangzhou 310018, China)
Regularized extreme learning machines (RELM) have better generalization ability than extreme learning machines (ELM). However, the input layer weights and hidden layer bias of RELM are given randomly which could affect the stability of RELM. In addition, RELMs need to set lots of layer nodes in order to obtain relatively ideal classification accuracy. Aiming at this problem, we proposed a method which brought the initial input layer weights and hidden layer bias of RELMs into the particle swarm optimization (PSO) as partilces and optimized them by analyzing the theory of PSO. Through a series of 10-fold cross-validations on the Breast and Brain dataset, the results show that particle swarm optimization RELM (PSO-RELM) can obtain better classification accuracy and stability with fewer hidden nodes compared with the BP neural network, support vector machines (SVM) and RELMs.
regularized extreme learning machine; input layer weights; hidden layer bias; particle swarm
1004-1540(2015)02-0221-06
10.3969/j.issn.1004-1540.2015.02.018
2014-12-19 《中國(guó)計(jì)量學(xué)院學(xué)報(bào)》網(wǎng)址:zgjl.cbpt.cnki.net
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61272315,60842009),浙江省自然科學(xué)基金資助項(xiàng)目(No.Y1110342,Y1080950).
TP181
A