徐曉楊 紀志成
(江南大學物聯(lián)網(wǎng)工程學院 江蘇 無錫 214122)
?
選擇性集成極限學習機分類器建模研究
徐曉楊紀志成
(江南大學物聯(lián)網(wǎng)工程學院江蘇 無錫 214122)
極限學習機ELM(Extreme Learning Machine)具有訓練過程極為快速的優(yōu)點,但在實際分類應用中ELM分類器的分類精度和穩(wěn)定性有時并不能滿足要求。針對這一問題,在ELM用于分類時引入一種訓練結果信息量評價指標來改進輸出權值矩陣的求解方法,并增加隱層輸出矩陣競爭機制來提高ELM的穩(wěn)定性。為了進一步提高ELM的分類正確率,借鑒神經(jīng)網(wǎng)絡集成的理論,提出一種選擇性集成ELM分類器。在集成方法中采用改進Bagging法并提出一種基于網(wǎng)絡參數(shù)向量的相似度評價方法和選擇性集成策略。最后通過UCI數(shù)據(jù)測試表明,同Bagging法和傳統(tǒng)的全集成法相比,該方法擁有更為優(yōu)秀的分類性能。
極限學習機神經(jīng)網(wǎng)絡選擇性集成Bagging
極限學習機ELM是由Huang等[1,2]提出的一種基于單隱層前饋神經(jīng)網(wǎng)絡模型(SLFNs)的新型學習算法。它區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡的最大特點在于整個訓練過程只需要一步,無需反復對網(wǎng)絡中的眾多參數(shù)進行復雜的迭代運算。所以,極限學習機的訓練過程極為快速,同時具備良好的泛化性能。但是ELM同樣也存在諸多不足,ELM的輸入權值、隱層偏置均為隨機產(chǎn)生,這些參數(shù)的隨機性也使得最終生成的ELM模型的性能不具穩(wěn)定性。另外,ELM中轉移函數(shù)和隱層神經(jīng)元數(shù)量的選擇至今也沒有一個廣泛適用的理論體系的指導。如果缺乏應用背景的先驗知識,那么往往需要耗費大量的精力才能最終獲得一個性能良好的ELM模型。
Hansen等[3]于1990年首創(chuàng)性地提出了關于神經(jīng)網(wǎng)絡集成的方法與理論。他們通過實驗證明如果先訓練多個神經(jīng)網(wǎng)絡再進行組合就可以把整個神經(jīng)網(wǎng)絡系統(tǒng)的泛化能力顯著的提高。Sollich等于1996給出了神經(jīng)網(wǎng)絡集成的定義[3]:將有限個神經(jīng)網(wǎng)絡對同一問題進行學習,最終整個系統(tǒng)在某個輸入下的輸出由構建此系統(tǒng)的神經(jīng)網(wǎng)絡共同決定。Krogh等則給出了神經(jīng)網(wǎng)絡集成的泛化誤差公式[3],該公式明確指出如果構成系統(tǒng)的子網(wǎng)絡泛化能力越強同時子網(wǎng)絡之間的相似度越低,那么系統(tǒng)的泛化誤差就越小。在此之后,Zhou等[4]通過使用遺傳算法,在所有的子網(wǎng)絡中選擇出部分進行集成,并證明了相較于集成所有子網(wǎng)絡的系統(tǒng),選擇性集成了泛化能力強并且相似度低的子網(wǎng)絡的系統(tǒng)往往能夠擁有更好的泛化性能。
綜上所述,為了進一步提高ELM模型的分類性能同時改善ELM的缺陷與不足,本文利用神經(jīng)網(wǎng)絡集成的方法與理論對ELM進行選擇性集成。在ELM的選擇性集成過程中,如何產(chǎn)生泛化能力強并且相似度低的子ELM模型,如何評價子網(wǎng)絡之間的相似度以及采用何種策略去選擇子網(wǎng)絡集成是選擇性ELM集成方法研究的關鍵問題。本文針對上述問題,在子ELM模型的生成過程中,引入一種訓練結果信息量評價指標來改進輸出權值矩陣的求解方法,并在隱層輸出矩陣隨機生成時增加隱層輸出矩陣競爭機制,以此來加強子網(wǎng)絡的性能和穩(wěn)定性。在ELM集成時,采用改進的Bagging算法來降低子網(wǎng)絡之間的相似度,并提出一種基于網(wǎng)絡參數(shù)向量的相似度評價方法對子ELM模型進行選擇性集成。最后,通過UCI中的數(shù)據(jù)對本文提出的選擇性集成ELM分類器的效果進行測試與分析。
1.1ELM的基本思想
對于任意給出的N個不同的訓練樣本(xi,ti),其中xi=[xi1,xi2,…,xin]T∈Rn是該樣本的n維輸入數(shù)據(jù),ti=[ti1,ti2,…,tim]T∈Rm是該樣本的m維期望輸出,選定一個在任意區(qū)間上無線可微的函數(shù)作為網(wǎng)絡的轉移函數(shù)g(·),并設置網(wǎng)絡的隱層神經(jīng)元個數(shù)為L,則該SLFNs模型的輸出可表示為:
(1)
式中wi=[wi1,wi2,…,win]T是第i個隱層節(jié)點與n維輸入數(shù)據(jù)的輸入權值,θi是第i個隱層節(jié)點的偏置,βi=[βi1,βi2,…,βim]T是第i個隱層節(jié)點與m維輸出的輸出權值,yi=[yi1,yi2,…,yim]T是第i個輸入數(shù)據(jù)通過SLFNs模型得出的實際輸出,式(1)可以簡寫為:
Hβ=Y
(2)
其中:
式中,H矩陣被稱為隱層輸出矩陣,因為wi、θi的值都是隨機確定的,所以在給定輸入數(shù)據(jù)后矩陣H就是一個已知的確定矩陣。因此極限學習機的核心問題就是求取最優(yōu)的輸出權值矩陣來使網(wǎng)絡擁有最佳的性能。Bartlett在文獻[5]中指出,當多個SLFNs具有基本相當?shù)臄M合性能時,輸出權值范數(shù)較小的網(wǎng)絡其泛化性能將會更加優(yōu)秀。統(tǒng)計學理論的研究也同樣發(fā)現(xiàn):實驗風險可以分為經(jīng)驗風險與結構風險兩種。一種具備良好性能的神經(jīng)網(wǎng)絡應該充分考慮這兩種風險,并在它們之間找到一個合適的平衡點[6]。所以,可以將輸出權值矩陣β的求解問題轉換為求解下面的最優(yōu)問題:
(3)
其中‖ε‖2代表ELM模型中的經(jīng)驗風險,α則為經(jīng)驗風險的懲罰系數(shù),相應的‖β‖2就代表了模型中的結構風險。通過拉格朗日方程將其轉換為一個無條件的極值問題,可以求得:
β=(α-1I+HTH)?HTT
(4)
其中I代表單位矩陣,A?代表A的Moore-Penrose廣義逆。如果A為非奇異矩陣,則A?可以表示為(ATA)-1AT。利用式(4),ELM模型對于輸入x的輸出f(x)即可表示為:
(5)
由于本文僅討論ELM模型用于分類時的情形,所以最終的分類結果y可以表示為:
y={j|fj(x)=max{fi(x),i=1,2,…,m}}
(6)
1.2加入信息量評價的ELM分類模型
神經(jīng)網(wǎng)絡作為分類器使用時,實際上是一種基于概率的分類器。如果式(6)中fi(x)對應的數(shù)值越大,則說明輸入x屬于類別i的概率就越大;同樣的如果fi(x)對應的數(shù)值越小,就說明x屬于類別i的概率越小。通過下式可以很容易將ELM的分類結果以概率的形式輸出:
(7)
(8)
式中,Pi(x)表示輸入x屬于類別i的概率。當Pi(x)的概率越大而其他的概率越小時,表明在特征空間中該樣本和決策超平面的距離越遠,分類器對該數(shù)據(jù)的分類結果越有把握;反之,分類器對分類結果就越不確定[7]。為了更加直觀地闡明本文對ELM分類器的優(yōu)化原理,先來看一組例子。假設有一組三分類的訓練樣本(x,t)且t=0(x對應的類別編號為0),那么在ELM模型中t=[1,-1,-1]。如果有兩個ELM模型A和B對它的訓練結果分別為yA=[1.5,-0.5,-0.5]和yB=[0.5,-0.5,-0.5],那么有‖εA‖2=‖εB‖2,如果又有‖βA‖2≈‖βB‖2。根據(jù)式(3)模型A和B應該擁有十分相近的分類性能,但根據(jù)文獻[7]中的論述,模型A的性能要優(yōu)于模型B的性能。本文受此啟發(fā),基于文獻[7]中的理論對式(3)進行改寫。在特征空間中樣本和決策超平面的距離可以由輸出矩陣Y中各個元素的方差表示,方差越大則說明距離越遠,分類效果越好。在矩陣中,矩陣的最大特征值λmax可以用來評價矩陣在特征空間中的方差,這在一些數(shù)據(jù)分析法中也被稱為信息量。根據(jù)定義又有‖Y‖2=λmax,因此‖Y‖2可以用來評價ELM模型輸出矩陣中信息量的大小,在相近條件下,輸出矩陣中信息量大的模型將會具備更加優(yōu)秀的分類性能。所以式(3)可以按如下改寫:
(9)
其中,γ為輸出矩陣信息量的獎勵系數(shù)。同樣的,再次運用拉格朗日方程將上式變換為一個無條件的極值問題,其中δ=[δ1,δ2,…,δN]T,δi∈Rm、μ=[μ1,μ2,…,μN]T,μi∈Rm均為相應的拉格朗日乘子。
δ(Hβ-T-ε)-μ(Hβ-Y)
(10)
對式(10)中的各變量求偏導并令其結果為0即可得到式(11):
(11)
再根據(jù)式(11)可得:
β=[α-1I+(I-α-1γ)HTH]?HTT
(12)
那么式(5)也就應該改寫為:
f(x)=h(x)[α-1I+(1-α-1γ)HTH]?HTT
(13)
由式(12)求出的輸出權值矩陣β充分考慮了ELM在用作分類器時的擬合性、泛化性和訓練輸出結果所帶的信息量,且不難看出當γ=0時式(12)就退化成了式(4)。
1.3隱層輸出矩陣競爭機制
上文中通過加入信息量評價指標對的求解進行優(yōu)化,但隱層輸出矩陣H的生成仍然是隨機的,這些隨機參數(shù)的合適與否將直接影響ELM模型的性能。許多學者也意識到了這個問題,Zhu等[8]提出把‖ε‖2作為適應度函數(shù)并運用進化算法對H矩陣進行尋優(yōu),但單純提高ELM的訓練精度并不代表ELM的性能就會得到提升;陳涵瀛等[9]將H矩陣的求解問題轉化為了多目標優(yōu)化問題,將‖ε‖2和‖β‖2作為兩個獨立的目標函數(shù)對H矩陣進行雙目標尋優(yōu),但是其忽略了‖ε‖2和‖β‖2之間大致的權重關系,并且在求得的Pareto最優(yōu)解集中選擇出合適的解也是較為困難的。更為嚴重的是這些學者都忽略了關鍵的一點:ELM中隨機參數(shù)的總數(shù)=(m+1)×L,其中m為輸入數(shù)據(jù)的維數(shù),L為隱層節(jié)點的數(shù)量。當m和L較大時隨機參數(shù)的數(shù)量就會變得很大,如果直接對這些參數(shù)進行尋優(yōu)就會引發(fā)維數(shù)災難。運用群智能算法在高維解空間中尋優(yōu)時不得不大幅增加種群規(guī)模和迭代次數(shù),求解H矩陣就會消耗大量的時間,ELM模型訓練極為快速的優(yōu)勢也就被大大削弱了。本文為解決這一問題提出了隱層輸出矩陣競爭機制,先隨機產(chǎn)生有限組參數(shù)集并形成對應的Hi矩陣,再通過加權組合形成最終的H矩陣:
(14)
其中ηi稱之為競爭系數(shù),倘若Hi的競爭力越強那么ηi的數(shù)值就會越大。數(shù)組η=[η1,η2,…,ηk]取值的不同就會產(chǎn)生無限多個H矩陣,本文把對隨機參數(shù)本身的尋優(yōu)策略改為對數(shù)組η=[η1,η2,…,ηk]的尋優(yōu),這樣就能夠顯著地降低解空間的維數(shù),大幅縮短尋優(yōu)的時間。把式(9)作為適應度函數(shù)同時選用式(12)作為β的求解公式,然后運用粒子群算法尋找出最優(yōu)的數(shù)組η并組合出對應的H矩陣。ELM分類器的具體構造步驟如下所示,其中粒子群算法的具體內(nèi)容請詳見文獻[10]本文中就不再贅述。
(a) 確定參與競爭的隱層輸出矩陣個數(shù)P,并隨機生成P個隱層輸出矩陣Hi,i=1,2,…,P。
(d) 確定粒子群算法的迭代次數(shù)C,再通過式(14)求得與ηi對應的H矩陣并將式(9)作為適應度函數(shù)開始進行尋優(yōu)直至C次迭代全部完成,在粒子群算法的每一次迭代過程中需要滿足式(14)中的約束條件。
(e) 將迭代求得的最優(yōu)數(shù)組ηoptimal根據(jù)式(14)確定對應的最優(yōu)H矩陣,再通過式(12)求出β矩陣,確定H和β后就可以根據(jù)式(13)構造出優(yōu)化ELM分類器,至此ELM分類器的構造就完成了。
理論上,P、S以及C設置的越大H矩陣的優(yōu)化效果越好,但是為了控制尋優(yōu)時間需要根據(jù)實際情況設置合適的值。
選擇性ELM集成的第一步就是要生成一定數(shù)量且之間具有一定差異度的子ELM模型??梢栽O想一下如果每一個子ELM模型都十分相似,那么它們對相同輸入的輸出也會十分相似。把這些相似的子網(wǎng)絡集成在一起只會白白增加建模的復雜度而對網(wǎng)絡性能的提升起不到明顯的作用。為解決這一問題,本文采用Bagging法并加以改進來降低子網(wǎng)絡之間的相似度。根據(jù)文獻[6]的論述,選擇性集成泛化能力強并且相似度低的子網(wǎng)絡的系統(tǒng)往往能夠擁有比集成所有子網(wǎng)絡的系統(tǒng)更好的泛化性能,那么一種有效的相似度評價方法將會對系統(tǒng)的選擇性集成起到正確的指導作用。本文提出一種基于子網(wǎng)絡參數(shù)向量的相似度評價方法和選擇性集成策略,并通過其構建最終的選擇性集成ELM分類器模型。本文所述選擇性ELM集成方法的基本流程如圖1所示。
圖1 本文選擇性ELM集成方法的基本流程
2.1基于改進Bagging算法的個體網(wǎng)絡生成
Bagging算法是一種多學習算法的集成技術,它的核心基礎是可重復隨機取樣[3]。每一個子網(wǎng)絡的訓練樣本集都從原始訓練樣本集中隨機抽取,且通常來說新生成的訓練樣本集規(guī)模和原始訓練樣本集規(guī)模相當。由于采取有放回的抽取方式所以原始訓練樣本集中的某一樣本可能被抽取多次也可能一次未被抽取。這樣就在各個子網(wǎng)絡的訓練樣本集上構造出了差異性,且新生成的訓練樣本集平均約含有63.2%的原始訓練樣本集內(nèi)容。
但Bagging法的取樣方式具有比較大的盲目性,隨機取樣并不能有效遍歷整個原始樣本集,也就無法充分反映出原始樣本集中樣本的空間分布情況,這對訓練出的子網(wǎng)絡性能有很大的影響。本文將分層抽樣的思想引入Bagging法中,先按照各個樣本所對應的類別將原始樣本集分層,再在每一層樣本集中使用Bagging法采樣。完成后將各層的采樣集進行組合即可得到一個新的訓練樣本集,這樣的采樣方法既能夠構造出差異性又能夠保證新訓練集的采樣質量。為了進一步增大子網(wǎng)絡之間的差異性,在“Sigmoid”、“Sine”和“Hardlim”函數(shù)之中隨機選取一個作為子網(wǎng)絡的轉移函數(shù)g(·)。
2.2子網(wǎng)絡的相似度評價
在許多關于神經(jīng)網(wǎng)絡集成的文獻中都給出了其相似度評價的方法。陸慧娟等[11]根據(jù)子網(wǎng)絡對測試樣本集的輸出結果來評價子網(wǎng)絡的相似度,輸出結果越不一致則相似度越低,但不同的測試樣本集就會得出不同的相似度結果,結果可能具有偶然性;Rahman等[12]則運用聚類技術對子網(wǎng)絡進行相似度評價,但聚類數(shù)目難以確定且過程略有繁瑣。
本文提出一種基于子網(wǎng)絡參數(shù)向量的相似度評價方法。由ELM的基本原理可知:y=h(x)β,所以給定輸入的輸出是根據(jù)H矩陣和β矩陣來求解的。在子網(wǎng)絡結構確定的前提下子網(wǎng)絡的差異性主要體現(xiàn)在構成H矩陣和β矩陣的參數(shù)集上。通過子網(wǎng)絡的參數(shù)集而不是輸出結果可以更為本質地評價子網(wǎng)絡的相似度而不會受到測試樣本集的影響。
對于一個輸入有n種屬性而輸出有m種類別的分類問題而言,如果網(wǎng)絡i有L個隱層神經(jīng)元那么網(wǎng)絡i中就有n×L個輸入權值、L個隱層偏置和m×L個輸出權值共記(m+n+1)×L個參數(shù),將這些參數(shù)組成一個向量ci=(ω1,…,β1,…,θL)。根據(jù)定義,向量a和b的內(nèi)積可表示為:
〈a,b〉=‖a‖·‖b‖cosθ
(15)
由式(15)可知cosθ的大小可以作為一種評價向量a和b相似程度的定量指標?;谟嘞叶ɡ淼南蛄肯嗨贫仍u價公式有許多種變形,張宇等[13]給出了較為詳細的闡述,本文選用Dice系數(shù)法作為評價向量相似度的方法,其計算公式如下:
(16)
易知Sim(ci,cj)的值域為[-1,1],當Sim(ci,cj)越小時相似度越低同時也說明子網(wǎng)絡i和j的相似度越低。特別當ci=cj時有Sim(ci,cj)=1,而當ci=-cj時有Sim(ci,cj)=-1。根據(jù)式(16)就可以對任意兩個子網(wǎng)絡的相似度做出定量的評價。
2.3選擇性集成策略
通過式(16)把Q個子網(wǎng)絡兩兩之間的相似度求出,用Simij來表示子網(wǎng)絡i和j的相似度,那么可以得到這Q個子網(wǎng)絡的相似度矩陣Similarity:
(17)
顯然,Similarity是一個對稱矩陣并且對角線元素都為1。為了方便下文中對相似度閾值ψ的設置,需要對Similarity中的元素大小進行歸一化處理。本文使用Matlab中mapminmax()函數(shù)將矩陣中除對角線上的所有元素歸一化到[0,1]之間。
根據(jù)Krogh等[3]給出的神經(jīng)網(wǎng)絡集成泛化誤差公式:
(18)
(a) 通過改進Bagging法和本文第一節(jié)中所述的方法生成有限個ELM子網(wǎng)絡。
(b) 選用原始訓練樣本集對每一個子網(wǎng)絡進行測試并按照式(9)求出每一個子網(wǎng)絡的泛化誤差,完成后按泛化誤差從小到大的順序對子網(wǎng)絡進行排序。
(c) 根據(jù)實際情況設置一個泛化誤差閾值φ并把泛化誤差大于φ的子網(wǎng)絡全部剔除,一般來說剔除總數(shù)的20%~30%較為合適,剩下的Q個子網(wǎng)絡即可組成精英子網(wǎng)絡集net=[net1, net2,…, netQ]。
(d) 求出net中所有子網(wǎng)絡兩兩之間的相似度并得出相似度矩陣Similarity。再設置一個相似度閾值ψ,從第一行中的元素開始比對如果Simij>ψ&&i≠j就把netj從net中剔除同時將矩陣Similarity的第j行也刪除掉,如此操作直至Similarity的所有行都比對完成。此時,net中剩余的Q′個子網(wǎng)絡即是選擇出用于集成的泛化能力強且相似度低的優(yōu)秀個體。
(e) 對每一個子網(wǎng)絡neti設置一個權值ρi,ρi按如下方法設置:首先將步驟(b)中求得的各子網(wǎng)絡的泛化誤差通過下式歸一化到[0,1]之間:
(19)
(20)
最后構造出最終的選擇性集成ELM分類器模型,且模型的輸出可表示為f(x)=ρ1f1(x)+ρ2f2(x)+…+ρQ′fQ′(x),最終的分類結果則可根據(jù)式(6)得出。
上文中論述了選擇性集成ELM分類器ELMSE(Extreme Learning Machine Selective Ensemble)的方法與理論。在本節(jié)中為了測試ELMSE方法的有效性,將在UCI數(shù)據(jù)庫中選擇5組分類數(shù)據(jù)集進行仿真測試。為了更加直觀和形象地說明ELMSE的分類性能,在仿真測試中還將加入經(jīng)典ELM模型、本文第1節(jié)中提出的改進ELM模型(IELM)、Bagging法集成模型和全集成ELM模型(ALL-EE)作為參照對象。其中Bagging法的具體內(nèi)容參照文獻[14],只不過將文獻[14]中的PNN網(wǎng)絡改為ELM。ALL-EE方法與ELMSE基本類似,只是最后對生成的子網(wǎng)絡全部集成,沒有選擇性集成的步驟。
在UCI中分別選取Glass、Iris、Heart、Letter和Wine這五個數(shù)據(jù)集作為本次實驗的數(shù)據(jù),它們的基本信息如表1所示。
表1 實驗所用數(shù)據(jù)集基本信息
為了避免實驗中可能出現(xiàn)的偶然性并進一步增強實驗的說服力,本文采取5次交叉驗證。先將各個數(shù)據(jù)集平均分成5份并且盡量保證每一份中各個類別的樣本所占的比例基本相同;然后依次選取每一份作為測試集剩下的4份則自動變?yōu)橛柧毤瑢?次測試得出的分類準確率平均后作為最終結果。在使用這些數(shù)據(jù)集前,先對它們進行歸一化處理來消除樣本中各個屬性不同量綱對網(wǎng)絡訓練效果的影響。在參數(shù)選擇方面式(9)中的α取1,γ取0.2,1.3節(jié)中P、S、C這三個參數(shù)在試驗中統(tǒng)一設置為6、20和50。選擇性集成中的泛化誤差閾值φ可以根據(jù)子網(wǎng)絡的整體情況調(diào)整而相似度閾值ψ取0.7,隱層神經(jīng)元的個數(shù)L和子網(wǎng)絡的生成個數(shù)可以根據(jù)數(shù)據(jù)集中樣本的屬性數(shù)和類別數(shù)進行適當調(diào)整。以數(shù)據(jù)集Wine為例,φ取20,L取10,子網(wǎng)絡生成個數(shù)取40。本次實驗的結果如表2-表4所示,其中表2為單一ELM分類器的對比而表3、表4則為三種不同集成方式之間的對比。
表2 單一ELM模型分類正確率
表3 三種不同集成網(wǎng)絡的分類正確率
表4 網(wǎng)絡關鍵指標對比
由表2可知,IELM在4個數(shù)據(jù)集中的分類精度都要優(yōu)于原始ELM模型,且在Glass和Letter數(shù)據(jù)集上的優(yōu)勢更為明顯。這是因為Glass和Letter都屬于多屬性多分類的復雜問題,原始ELM比較容易得出不確定的分類結果從而降低分類的正確率,而IELM則通過上文中的改進一定程度上地避免了這種問題。
從表3和表4中3種不同集成方法的比較可以看出,ELMSE在系統(tǒng)平均泛化誤差和平均相似度這兩項關鍵指標上都比其他方法更為優(yōu)異并且總體上分類正確率也更高。這一實驗結果驗證了Zhou等[6]的結論同時也說明本文第2節(jié)提出的相似度評價方法和選擇性集成策略是有效的,和其他幾種方法相比能夠使集成的ELM網(wǎng)絡擁有更佳的分類性能。
本文針對ELM分類器在實際應用中性能不穩(wěn)定、精度不高的問題,通過深入研究ELM分類器的模型提出了一種評價訓練結果中信息量大小的矩陣求解方法。并針對ELM模型中參數(shù)隨機產(chǎn)出的不足,引入隱層輸出矩陣競爭機制。在選擇性集成方面,針對已有的子網(wǎng)絡相似度評價方法的不足,提出了一種基于子網(wǎng)絡參數(shù)向量的相似度評價方法和選擇性集成策略并給出了具體的計算公式和集成步驟。通過UCI數(shù)據(jù)測試表明,本文提出的選擇性集成ELM分類器能夠比其他ELM分類器擁有更好的分類性能,為現(xiàn)實中復雜的分類問題提供了一種新的可行方案。
[1] Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:theory and application[J].Neurocomputing,2006,70(1-3):489-501.
[2] Huang G B,Wang D H,Lan Y.Extreme learning machines:a survey[J].International Journal of Machine Learning and Cybernetics,2011,2(2):107-122.
[3] 周志華,陳世福.神經(jīng)網(wǎng)絡集成[J].計算機學報,2002,25(1):1-8.
[4] Zhou Z H,Wu J,Tang W.Ensembling neural networks:many could be better than all[J].Artificial intelligence,2002,137(1):239-263.
[5] Bartlett P L.The sample complexity of pattern classification with neural networks:the size of the weights is more important than the size of the network[J].IEEE Transactions on Information Theory,1998,44(2):525-536.
[6] Shipp C A,Kuncheva L I.Relationships between combination methods and measures of diversity in combining classifiers[J].Information Fusion,2002,3(2):135-148.
[7] Yang J,Yang J Y,Zhang D,et al.Feature fusion:parallel strategy vs.serial strategy[J].Pattern Recognition,2003,36(6):1369-1381.
[8] Zhu Q Y,Qin A K,Suganthan P N,et al.Evolutionary extreme learning machine[J].Pattern Recognition,2005,38(10):1759-1763.
[9] 陳涵瀛,高璞珍,譚思超,等.自然循環(huán)流動不穩(wěn)定性的多目標優(yōu)化極限學習機預測方法[J].物理學報,2014,63(20):111-118.
[10] 胥小波,鄭康鋒,李丹,等.新的混沌粒子群優(yōu)化算法[J].通信學報,2012,33(1):24-30.
[11] 陸慧娟,安春霖,馬小平,等.基于輸出不一致測度的極限學習機集成的基因表達數(shù)據(jù)分類[J].計算機學報,2013,36(2):341-348.
[12] Rahman A,Verma B.Cluster-based ensemble of classifiers[J].Expert Systems,2013,30(3):270-282.
[13] 張宇,劉雨東,計釗.向量相似度測度方法[J].聲學技術,2009,28(4):532-536.
[14] 蔣蕓,陳娜,明利特,等.基于Bagging的概率神經(jīng)網(wǎng)絡集成分類算法[J].計算機科學,2013,40(5):242-246.
RESEARCH ON MODELLING SELECTIVE ENSEMBLE EXTREME LEARNING MACHINE CLASSIFIER
Xu XiaoyangJi Zhicheng
(School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,Jiangsu,China)
As its advantage, the training speed of extreme learning machine (ELM) is extremely fast. But sometimes its stability and precision can’t meet the requirement of practical application. In order to solve the problem, this paper introduces a solution for ELM when to be used in classification, in it the output weight matrix is improved with the evaluation factor of information in training results. Meanwhile, the hidden layer output matrixes competitive mechanism is added to improve the stability of ELM. For the sake of further improving ELM’s accuracy rate in classification, we propose a kind of selective ensemble extreme learning machine classifier by learning from the theory of neural network ensemble. In ensemble method, we adopt the improved Bagging and propose a subnet’s parameter vector-based similarity evaluation method and selective ensemble policy. Finally it is demonstrated by UCI data test that compared with Bagging and traditional all ensemble ELM, the solution proposed here has better performance in classification.
Extreme learning machineNeural networkSelective ensembleBagging
2015-01-30。國家糧食局公益性科研項目(2013130 12)。徐曉楊,碩士生,主研領域:神經(jīng)網(wǎng)絡及其應用。紀志成,教授。
TP183
A
10.3969/j.issn.1000-386x.2016.09.065