何 敏, 劉建偉, 胡久松
(湖南大學(xué) 電氣與信息工程學(xué)院,湖南 長(zhǎng)沙 410082)
遺傳優(yōu)化核極限學(xué)習(xí)機(jī)的數(shù)據(jù)分類算法*
何 敏, 劉建偉, 胡久松
(湖南大學(xué)電氣與信息工程學(xué)院,湖南長(zhǎng)沙410082)
為了提高核極限學(xué)習(xí)機(jī)(KELM)數(shù)據(jù)分類的精度,提出了一種結(jié)合K折交叉驗(yàn)證(K-CV)與遺傳算法(GA)的KELM分類器參數(shù)優(yōu)化方法(GA-KELM),將CV訓(xùn)練所得多個(gè)模型的平均精度作為GA的適應(yīng)度評(píng)價(jià)函數(shù),為KELM的參數(shù)優(yōu)化提供評(píng)價(jià)標(biāo)準(zhǔn),用獲得GA優(yōu)化最優(yōu)參數(shù)的KELM算法進(jìn)行數(shù)據(jù)分類。利用UCI中數(shù)據(jù)集進(jìn)行仿真,實(shí)驗(yàn)結(jié)果表明:所提方法在整體性能上優(yōu)于GA結(jié)合支持向量機(jī)法(GA-SVM)和GA結(jié)合反向傳播(GA-BP)算法,具有更高的分類精度。
核極限學(xué)習(xí)機(jī); 遺傳優(yōu)化; 交叉驗(yàn)證; 參數(shù)優(yōu)化; 分類精度
分類問題是數(shù)據(jù)挖掘[1,2]領(lǐng)域中的重要研究?jī)?nèi)容,目前已有的數(shù)據(jù)分類方法如神經(jīng)網(wǎng)絡(luò)(neural network,NN)法[2,3]、貝葉斯網(wǎng)絡(luò)方法[2,4]、支持向量機(jī)(support vector machine,SVM)法[2,5]、核極限學(xué)習(xí)機(jī)(kernel-based extreme learning machine,KELM)法等。其中KELM由于網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,學(xué)習(xí)速度快,泛化能力強(qiáng)等優(yōu)點(diǎn),在數(shù)據(jù)分類中具有很大的優(yōu)勢(shì)。
KELM[6]是Huang Guangbin在其所提出的ELM算法之上結(jié)合核函數(shù)所提出的改進(jìn)算法。ELM在保證網(wǎng)絡(luò)具有良好泛化性能的同時(shí),極大提高了前向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度,并避免了以反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)為代表的梯度下降訓(xùn)練方法的許多問題,如容易陷入局部值、迭代量大等。KELM不僅有ELM算法的許多優(yōu)勢(shì),同時(shí)結(jié)合了核函數(shù),對(duì)線性不可分的模式進(jìn)行非線性映射到高維特征空間從而實(shí)現(xiàn)線性可分,進(jìn)一步提高了判斷的準(zhǔn)確率。然而,由于核函數(shù)的存在,導(dǎo)致了這種算法對(duì)參數(shù)設(shè)置具有敏感性。本文擬采用交叉驗(yàn)證(cross validation,CV)和遺傳算法(genetic algorithm,GA)的方法對(duì)KELM參數(shù)進(jìn)行優(yōu)化,而后將優(yōu)化參數(shù)應(yīng)用到KELM算法中,并用KELM算法進(jìn)行數(shù)據(jù)分類,同GA-BP[7]和GA-SVM[8]算法相比,具有更高的分類精度。
GA以自然選擇和遺傳理論為基礎(chǔ),將生物進(jìn)化過程中適者生存規(guī)則與種群內(nèi)部染色體的隨機(jī)信息交換機(jī)制相結(jié)合的高效全局尋優(yōu)搜索算法[9,10],將問題參數(shù)編碼為染色體,再利用迭代的方式進(jìn)行選擇,交叉以及變異等運(yùn)算交換種群中染色體的信息,從而使種群代代進(jìn)化到搜索空間中越來越好的區(qū)域,直至達(dá)到最優(yōu)解點(diǎn)[11]。其主要步驟如下:1)確定尋優(yōu)參數(shù)進(jìn)行編碼,編碼時(shí)首先設(shè)置編碼長(zhǎng)度;2)隨機(jī)產(chǎn)生初始種群;3)計(jì)算種群中每個(gè)個(gè)體的適應(yīng)度函數(shù)值;4)形成匹配集。根據(jù)種群中每個(gè)染色體的適應(yīng)度函數(shù)值,采用一定的方法,從種群中選出適應(yīng)值較大的染色體;5)按某種復(fù)制規(guī)則進(jìn)行繁殖,繁殖主要有2種方法:交叉和變異;6)若遺傳代數(shù)達(dá)到給定的允許值或其他收斂條件滿足時(shí)停止遺傳,否則,返回步驟(3)。
KELM是一種單隱層前向神經(jīng)網(wǎng)絡(luò)(SLFN)的訓(xùn)練算法,SLFN模型可表示為[12]
f(x)=h(x)β=Hβ
(1)
式中x為樣本輸入;f(x)為神經(jīng)網(wǎng)絡(luò)的輸出,在分類過程中其為類別向量;h(x),H為隱含層特征映射矩陣;β為隱含層輸出層連接權(quán)重。在KELM算法中有
(2)
式中T為訓(xùn)練樣本的類標(biāo)志向量組成的矩陣;C為正規(guī)化系數(shù);I為單位矩陣。
在隱含層特征映射h(x)未知的情況下,可將KELM的核矩陣定義如下[13]
ΩELM=HHT:ΩELMi,j=h(xi)h(xj)=K(xi,xj)
(3)
則可將式(1)變換為
(4)
使用徑向基函數(shù)(RBF)為核函數(shù),即
(5)
由式(4)和式(5)可以得到正規(guī)化系數(shù)C和核函數(shù)參數(shù)s是需要設(shè)定的參數(shù),是影響KELM分類的重要因素。因此,對(duì)KELM參數(shù)優(yōu)化,即是對(duì)正規(guī)化系數(shù)C和核函數(shù)參數(shù)s的優(yōu)化。將KELM分類精度記為acc(C,s),參數(shù)C和s上界分別為a和b,下界均為0,則KELM參數(shù)優(yōu)化模型為
maxacc(C,s)
st:C∈[0,a]
st:s∈[0,b]
(6)
即在給定區(qū)間內(nèi)尋找一組C和s,使得KELM在所給數(shù)據(jù)上分類精度達(dá)到最大。本文采用7折交叉驗(yàn)證[14,15](7-CV),所得7個(gè)分類模型的平均精度作為遺傳算法中個(gè)體的適應(yīng)度。其中,交叉驗(yàn)證精度可用下式表達(dá)
(7)
圖1 7折交叉驗(yàn)證與GA結(jié)合優(yōu)化參數(shù)算法流程
本文采用7折交叉驗(yàn)證和GA優(yōu)化算法對(duì)核極限學(xué)習(xí)機(jī)參數(shù)進(jìn)行優(yōu)化,從而得到優(yōu)化參數(shù)C和s,而后將優(yōu)化參數(shù)應(yīng)用到KELM算法中進(jìn)行數(shù)據(jù)分類。具體算法流程如下:
1)將樣本按4︰1分為訓(xùn)練樣本和測(cè)試樣本,訓(xùn)練樣本用于訓(xùn)練參數(shù),測(cè)試樣本用于分類精度測(cè)試;
2)對(duì)訓(xùn)練樣本和測(cè)試樣本進(jìn)行歸一化處理;
3)確定遺傳代數(shù)、種群數(shù)量、交叉概率、變異概率以及參數(shù)C和s的變化范圍;
4)采用7折交叉驗(yàn)證,按式(7)計(jì)算交叉驗(yàn)證精度acc作為遺傳個(gè)體適應(yīng)度,對(duì)KELM分類參數(shù)進(jìn)行評(píng)價(jià);
5)對(duì)種群進(jìn)行選擇、交叉、變異,得到新的種群,如果滿足條件,則得到最大的分類準(zhǔn)確率,否則,返回步驟(4);
6)輸出最優(yōu)參數(shù)和最優(yōu)模型,并用測(cè)試樣本對(duì)獲得最優(yōu)參數(shù)的KELM算法進(jìn)行分類精度測(cè)試。
為驗(yàn)證本文所提方法的有效性,將GA-KELM,GA-SVM,GA-BP3種算法分別用于數(shù)據(jù)分類預(yù)測(cè)。其中,實(shí)驗(yàn)數(shù)據(jù)采用UCI標(biāo)準(zhǔn)數(shù)據(jù)集中的Segment,Iris,Diabetes數(shù)據(jù)集,按4︰1分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
實(shí)驗(yàn)中,首先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行歸一化處理,采用7折交叉驗(yàn)證與GA結(jié)合用于KELM參數(shù)優(yōu)化,遺傳代數(shù)為50,種群規(guī)模為30,交叉概率0.4,變異概率0.01,參數(shù)C范圍[0,1000],參數(shù)s范圍[0,2],適應(yīng)度函數(shù)按式(7)計(jì)算,具體算法流程按照3.2所述。
取20次預(yù)測(cè)實(shí)驗(yàn)的平均值作為數(shù)據(jù)分類精度,圖2給出了3種算法在數(shù)據(jù)集上分類精度的對(duì)比,表1給出了3種算法在各數(shù)據(jù)下分類耗時(shí)對(duì)比。由圖1可以看出,3種算法均可以進(jìn)行數(shù)據(jù)分類,但GA-KELM的分類精度最高,GA-SVM次之,GA-BP較差。
圖2 3種算法在數(shù)據(jù)集上分類精度對(duì)比
由表1可以看出在同樣的數(shù)據(jù)樣本下,3種算法的耗時(shí)各不相同,GA-KELM最少,GA-SVM次之,GA-BP最多。綜上,GA-KELM是一種更加有效的數(shù)據(jù)分類算法。
表1 3種算法在各數(shù)據(jù)集上耗時(shí)對(duì)比
針對(duì)KELM數(shù)據(jù)分類精度易受正規(guī)化系數(shù)C和核函數(shù)參數(shù)s影響問題,提出了一種結(jié)合K折交叉驗(yàn)證(K-CV)與GA結(jié)合的KELM分類參數(shù)優(yōu)化方法:將交叉驗(yàn)證所得多個(gè)模型的平均精度作為GA的適應(yīng)度函數(shù)值,為KELM的參數(shù)優(yōu)化提供評(píng)價(jià)標(biāo)準(zhǔn),而后將GA優(yōu)化所得參數(shù)應(yīng)用到KELM算法中用于數(shù)據(jù)分類。為驗(yàn)證所提算法的有效性,文中將GA-KELM,GA-SVM,GA-BP 3種算法用來對(duì)UCI中Segment,Iris,Diabetes 3個(gè)數(shù)據(jù)集數(shù)據(jù)進(jìn)行分類預(yù)測(cè),并對(duì) 3種算法的分類精度和耗時(shí)進(jìn)行了對(duì)比,結(jié)果表明,本文所提算法在分類精度和耗時(shí)上均優(yōu)于其他2種算法,說明算法可靠有效。
[1] Han J,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].2版.范 明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007.
[2] 錢曉東. 數(shù)據(jù)挖掘中分類方法綜述[J]. 圖書情報(bào)工作,2007,3:68-71.
[3] 龔雪飛,徐 景,孫壽通,等.PSO-BP神經(jīng)網(wǎng)絡(luò)在多元有害氣體檢測(cè)中的應(yīng)用[J].傳感器與微系統(tǒng),2015,34(2):154-156.
[4] Khanteymoori A R,Homayounpour M M,Menhaj M B.Advances in computer science and engineering[M].Berlin Heidelberg:Springer,2009:25-32.
[5] 陳中杰,蔣 剛,蔡 勇.基于SVM一對(duì)一多分類算法的二次細(xì)分法研究[J].傳感器與微系統(tǒng),2013,32(4):44-47.
[6] Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:Theory and applicant[J].Neurocomputing,2006,70(1/2/3):489-501.
[7] 楊 卿,郭 斌,羅 哉,等.遺傳優(yōu)化神經(jīng)網(wǎng)絡(luò)在氣密性檢測(cè)中的應(yīng)用[J].傳感器與微系統(tǒng),2011,30(2):132-134.
[8] 伊 鑫,李 輝,馮劍川.基于遺傳優(yōu)化SVM的通信信號(hào)的分類[J].信息化研究,2010,36(3):49-51.
[9] 雷英杰,張善文,李續(xù)武,等.Matlab 遺傳算法工具箱及應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2005.
[10] 周 明,孫樹棟.遺傳算法原理及應(yīng)用[M]. 北京:國(guó)防工業(yè)出版社,1999.
[11] 唐朝暉,王 迅.基于遺傳算法的大功率電機(jī)效率的在線測(cè)量[J].傳感器與微系統(tǒng),2012,31(9):132-135.
[12] Huang Guangbin,Zhou Hongming,Ding Xiaojian.Extreme lear-ning machine for regression and multiclass classification[J].IEEE Transaction on Systems Man and Cybemetics,2012,42(2):513-529.
[13] Huang Guangbin,Wang Dianhui,Lan Yuan,et al.Extreme lear-ning machines:A survey[J].International Journal of Machine Learning and Cybernetics,2011,2(2):107-128.
[14] Alippi C,Roveri M.Virtual k-fold cross validation:An effective method for accuracy assessment[C]∥The International Joint Conference on Neural Networks,2010:1-6.
[15] Chalimourda A,Scholkopf B,Smola A.Experimental optimal V in support vector regression for different noise models and parameter settings[J].Neural Networks,2004,17(1):127-141.
Geneticoptimizationkernel-basedextremelearningmachinedataclassificationalgorithm*
HE Min, LIU Jian-wei, HU Jiu-song
(CollegeofElectricalandInformationEngineering,HunanUniversity,Changsha410082,China)
In order to improve precision of data classification of kernel-based extreme learning machine(KELM),propose KELM classification parameter optimization method,GA-KELM,which combinesK-fold cross-validation(K-CV) and genetic algorithms(GA),the average precision of multiple models of resulting of CV training as GA fitness evaluation function value,provide evaluation criteria for parameter optimization of KELM ,and then the KELM algorithm is used to get the optimization parameters of GA for data classification.Using UCI dataset for simulation,results show that the proposed method is superior to GA-SVM and GA-BP algorithm on the overall performance,with a higher classification precision.
kernel-based extreme learning machine(KELM); genetic optimization; cross validation; parameter optimization; classification precision
10.13873/J.1000—9787(2017)10—0141—03
2016—09—26
中央國(guó)有資本經(jīng)營(yíng)預(yù)算項(xiàng)目(財(cái)企2013470號(hào));中央高?;究蒲许?xiàng)目(2014—004);國(guó)家自然科學(xué)基金資助項(xiàng)目(61172089);湖南省科技計(jì)劃資助項(xiàng)目(2014WK3001);中國(guó)博士后科學(xué)基金資助項(xiàng)目(2014M562100)
TN 911.7
A
1000—9787(2017)10—0141—03
何 敏(1977-),女,博士,助理教授,主要研究方向?yàn)橐曈X特征檢測(cè)、復(fù)雜系統(tǒng)優(yōu)化控制。