李青雯 ,孫 丹 ,于化龍 ,2
(1.江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇鎮(zhèn)江212003;2.東南大學(xué)自動(dòng)化學(xué)院,江蘇南京210095)
近年來(lái),隨著數(shù)據(jù)獲取與數(shù)據(jù)存儲(chǔ)技術(shù)的高速發(fā)展,各行各業(yè)均積累了海量的數(shù)據(jù),如何對(duì)這海量數(shù)據(jù)進(jìn)行分析成為了困擾機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域研究者的核心問(wèn)題。如對(duì)這海量數(shù)據(jù)的類別進(jìn)行標(biāo)注,進(jìn)而建立分類模型,無(wú)疑會(huì)大幅增加人力、物力與時(shí)間成本的開(kāi)銷,而主動(dòng)學(xué)習(xí)則是可有效解決上述問(wèn)題的利器。眾所周知,主動(dòng)學(xué)習(xí)通過(guò)迭代的方式來(lái)選取當(dāng)前信息含量最大的樣本,進(jìn)而不斷提升分類模型的質(zhì)量,故其可在不明顯損失分類性能的情況下,有效地降低訓(xùn)練樣本的復(fù)雜性。
經(jīng)過(guò)多年研究,研究人員已提出了多種有效的主動(dòng)學(xué)習(xí)算法,但其幾乎均忽略了一個(gè)重要問(wèn)題,即在樣本不平衡分布場(chǎng)景下,這些算法是否會(huì)仍舊有效。對(duì)于主動(dòng)學(xué)習(xí)與類別不平衡學(xué)習(xí)的結(jié)合方式,目前一共有兩種,其一是利用主動(dòng)學(xué)習(xí)來(lái)解決類別不平衡分類問(wèn)題,Ertekin等人[1-2]發(fā)現(xiàn)主動(dòng)學(xué)習(xí)可有效緩解類別不平衡分布對(duì)分類器的負(fù)面影響;其二則是在類別不平衡場(chǎng)景下,如何保證主動(dòng)學(xué)習(xí)的效率,Zhu及Hovy[3]對(duì)該問(wèn)題進(jìn)行了初步的研究,并提議:對(duì)于分布不均衡的數(shù)據(jù),應(yīng)在主動(dòng)學(xué)習(xí)過(guò)程中引入平衡控制策略,從而保證在迭代過(guò)程中每一輪所生成的分類面都是公平公正的。本文主要關(guān)注上述的第二種結(jié)合方式,即如何在類別不平衡數(shù)據(jù)中保持主動(dòng)學(xué)習(xí)的效率與性能。
文中考慮采用類別不平衡學(xué)習(xí)領(lǐng)域中最為簡(jiǎn)單與常用的樣本采樣技術(shù)來(lái)作為主動(dòng)學(xué)習(xí)過(guò)程的平衡控制策略。并通過(guò)分析現(xiàn)有采樣算法的不足之處,提出了一種適用于此類場(chǎng)景的邊界過(guò)采樣算法。特別地,為了加速主動(dòng)學(xué)習(xí)的進(jìn)程,我們采用極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)作為主動(dòng)學(xué)習(xí)的基分類器,因其同時(shí)兼具泛化能力強(qiáng)與訓(xùn)練速度快兩大優(yōu)點(diǎn),具體采用文獻(xiàn)[4]中的“查詢樣本”選擇策略。通過(guò)12個(gè)基準(zhǔn)數(shù)據(jù)集對(duì)添加了“平衡控制”策略的主動(dòng)學(xué)習(xí)算法與傳統(tǒng)主動(dòng)學(xué)習(xí)算法進(jìn)行了比較,得出前者可大幅提升主動(dòng)學(xué)習(xí)性能的結(jié)論。
主動(dòng)學(xué)習(xí),即通過(guò)主動(dòng)獲取樣本的方式來(lái)進(jìn)行學(xué)習(xí)。其目的是通過(guò)標(biāo)注盡可能少的樣例來(lái)使分類性能最大化[5]。根據(jù)應(yīng)用場(chǎng)景的不同,主動(dòng)學(xué)習(xí)大致可以分為以下兩類:基于流的主動(dòng)學(xué)習(xí)模式和基于池的主動(dòng)學(xué)習(xí)模式。本文側(cè)重于基于池的主動(dòng)學(xué)習(xí)模式,而圖1則描述了在這一模式下的主動(dòng)學(xué)習(xí)過(guò)程。
圖1 基于池的主動(dòng)學(xué)習(xí)模式過(guò)程示意圖
從圖1中,不難看出,在此類模式下,主動(dòng)學(xué)習(xí)由以下5個(gè)基本構(gòu)件組成:1)一個(gè)已標(biāo)記樣例集L;2)一個(gè)未標(biāo)記樣例集U;3)一個(gè)分類模型S;4)一個(gè)查詢算法q及5)一個(gè)人工標(biāo)注者T。最初,人工標(biāo)注者T僅隨機(jī)地標(biāo)注少量的未標(biāo)注樣本,并將其置于已標(biāo)記樣例集L中,并訓(xùn)練一個(gè)初始的分類模型S。接下來(lái),進(jìn)入循環(huán)迭代過(guò)程:利用分類模型S評(píng)價(jià)未標(biāo)記樣例池U中的每一個(gè)樣例,并利用查詢算法q提取各樣例的信息量,進(jìn)而根據(jù)信息量大小對(duì)其進(jìn)行排序,選取一個(gè)或一批信息量最大的樣例提交給人工標(biāo)注者T進(jìn)行標(biāo)注,最后再將標(biāo)注的樣例添加到已標(biāo)記樣例集L中,對(duì)分類模型S進(jìn)行更新。上述過(guò)程循環(huán)往復(fù),直至達(dá)到某個(gè)預(yù)設(shè)的停止條件為止。
然而,若已標(biāo)注與未標(biāo)記樣例集均是類別分布不均衡的,則會(huì)對(duì)上述主動(dòng)學(xué)習(xí)流程產(chǎn)生較大負(fù)面影響。若學(xué)習(xí)過(guò)程中每一輪所建立的分類模型都是偏倚的,那么必然會(huì)導(dǎo)致“查詢樣本”選擇得不準(zhǔn)確,進(jìn)而影響到下一輪所更新模型的質(zhì)量。此時(shí),應(yīng)引入平衡控制策略,文中考慮采用樣本采樣技術(shù)作為平衡控制策略。
樣本采樣技術(shù)是用于解決類別不平衡問(wèn)題的基本技術(shù)之一。所謂樣本采樣,即是通過(guò)增加少數(shù)類樣本或減少多數(shù)類樣本的方式來(lái)獲得相對(duì)平衡的訓(xùn)練集,以修正分類面偏倚的問(wèn)題。其中,增加少數(shù)類樣本的方法被稱為過(guò)采樣(Oversampling),而減少多數(shù)類樣本的方法則被稱為降采樣(Undersampling)。隨機(jī)過(guò)采樣(ROS,Random Over-Sampling)與隨機(jī)降采樣(RUS,Random Under-Sampling)是最簡(jiǎn)單、也是最為常用的樣本采樣技術(shù)。但上述二者均有其各自的缺點(diǎn),其中,前者會(huì)增加分類器建模的時(shí)空開(kāi)銷,并易于產(chǎn)生過(guò)適應(yīng)的現(xiàn)象,而后者則會(huì)造成分類信息嚴(yán)重缺失,從而導(dǎo)致分類性能顯著下降。為克服隨機(jī)采樣的缺點(diǎn),Chawla等人[6]于2002年提出了一種新的過(guò)采樣方法:SMOTE(Synthetic Minority Oversampling TEchnique)。不同于隨機(jī)過(guò)采樣方法,SMOTE通過(guò)在兩個(gè)鄰近的少數(shù)類樣本間插入虛擬樣本,有效解決了ROS方法易于陷入過(guò)適應(yīng)的問(wèn)題。
可以說(shuō),樣本采樣技術(shù)的最大優(yōu)點(diǎn)在于其過(guò)程與分類器訓(xùn)練的過(guò)程是相互獨(dú)立的,故若采用此項(xiàng)技術(shù)作為主動(dòng)學(xué)習(xí)的平衡控制策略,可能更具實(shí)用性與便捷性。
考慮到在主動(dòng)學(xué)習(xí)每一輪迭代時(shí),所選取的“查詢樣本”往往都位于當(dāng)前分類面,即分類邊界附近,故若對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣,顯然更應(yīng)該集中在邊界域?;谏鲜鏊枷?,對(duì)傳統(tǒng)的SMOTE算法進(jìn)行了改進(jìn),提出了一種邊界過(guò)采樣(BOS,Boundary Over-sampling)算法,使其僅能對(duì)邊界少數(shù)類樣本進(jìn)行過(guò)采樣,該算法的流程描述如下:
算法1:BOS算法
輸 入 :訓(xùn) 練 集S={(xi,yi),i=1,2,…,N,yi∈{+,-}};多數(shù)類樣本數(shù)N-,少數(shù)類樣本數(shù)N+,其中,N-+N+=N;不平衡比率IR=N-/N+;近鄰數(shù)K,邊界樣本比例λ
輸出:過(guò)采樣后的訓(xùn)練集S’={(xi,yi),i=1,2,…,N,i=1,2,…,2×N-,yi∈{+,-}}
算法步驟:
1)從訓(xùn)練集S中取出全部多數(shù)類與少數(shù)類樣本,組成多數(shù)類樣本集S-及少數(shù)樣本集S+;保留全部的多數(shù)類訓(xùn)練樣本,選取最靠近分類面的λ*N+個(gè)少數(shù)類樣本,并置于一個(gè)獨(dú)立的集合S+Neighbor;
2)置新生成樣本集SNew為空;
3)Fori=1:|N--N+|
①在S+Neighbor中隨機(jī)選取一個(gè)少數(shù)類樣本x,作為主樣本;
②在S中找到主樣本x的K近鄰樣本,并將其置于近鄰樣本集SNer中;
③在SNer中隨機(jī)指定一個(gè)主近鄰樣本x’;
④通過(guò)下式計(jì)算得到新的虛擬的邊界少數(shù)類樣本xnew:xnew=x+rand×(x’-x),其中,rand∈[0,1];
⑤ 添加xnew至SNew,即SNew=SNew∪xnew;
⑥置近鄰樣本集SNer為空;
End
4)得到過(guò)采樣后的訓(xùn)練集S’=S∪SNew。
從上述算法流程不難看出:BOS算法是對(duì)SMOTE算法的一種改進(jìn),即僅在靠近邊界區(qū)域的部分樣本上執(zhí)行SMOTE算法過(guò)程。當(dāng)然,這個(gè)“部分”的范疇是由參數(shù)λ所指定的,可以說(shuō),該參數(shù)設(shè)置的好壞與否將直接影響到最終的采樣效果。
極限學(xué)習(xí)機(jī)(ELM,Extreme Learning Machine)是由南洋理工大學(xué)Huang等人[7]于2006年所正式提出的一種單隱層前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法。ELM通過(guò)隨機(jī)指定隱層參數(shù),并利用最小二乘法求解輸出層權(quán)重的方式來(lái)訓(xùn)練網(wǎng)絡(luò),故其具有泛化能力強(qiáng)、訓(xùn)練速度快等優(yōu)點(diǎn)[8-9]。
設(shè)訓(xùn)練集包括N個(gè)訓(xùn)練樣本,可將其表示為(xi,ti)∈Rn×Rm,其中,xi表示n×1維的輸入向量,ti表示第i個(gè)訓(xùn)練樣本的期望輸出向量,n即代表訓(xùn)練樣本的屬性數(shù),m則代表樣本的類別數(shù)。若一個(gè)具有L個(gè)隱層節(jié)點(diǎn)的SLFN能以零誤差擬合上述N個(gè)訓(xùn)練樣本,則意味著存在βi,ai及bi,使得:
其中,ai和bi分別表示第i個(gè)隱層節(jié)點(diǎn)的權(quán)重與偏置,βi表示第i個(gè)隱層節(jié)點(diǎn)到各輸出節(jié)點(diǎn)的連接權(quán)重,則式(1)可進(jìn)一步簡(jiǎn)化為下式:
其中
其中,G(ai,bi,xj)表示第j個(gè)訓(xùn)練樣本在第i個(gè)隱層節(jié)點(diǎn)上的激活函數(shù)值,T為所有訓(xùn)練樣本對(duì)應(yīng)的期望輸出矩陣,H被稱為隱層輸出矩陣,其第i列為第i個(gè)隱層節(jié)點(diǎn)在所有訓(xùn)練樣本上的輸出向量,第j行為第j個(gè)訓(xùn)練樣本在整個(gè)隱藏層中對(duì)應(yīng)的輸出向量。
在ELM中,由于所有ai和bi均是在[-1,1]區(qū)間內(nèi)隨機(jī)所生成的,故輸入樣本、隱層權(quán)重與偏置、期望輸出(類別標(biāo)記)均已知,則輸出權(quán)重矩陣β的近似解?即可由下式直接計(jì)算得到的:
其中,H?為隱層輸出矩陣的Moore-Penrose廣義逆。根據(jù)其定義,可推知為該網(wǎng)絡(luò)的最小范數(shù)最小二乘解。由于在求解過(guò)程中,約束了輸出權(quán)重矩陣β的l2范數(shù),使其最小化,故可保證網(wǎng)絡(luò)具有較強(qiáng)的泛化性能。鑒于ELM的優(yōu)點(diǎn),其也在諸多應(yīng)用領(lǐng)域得到了應(yīng)用,如行為識(shí)別[10]、遙感圖像分類[11]、電價(jià)預(yù)測(cè)[12]、風(fēng)能生成預(yù)測(cè)[13]及生物信息學(xué)[14]等。
主動(dòng)極限學(xué)習(xí)機(jī),即AL-ELM算法,是Yu等人[4]所提出的一種以ELM作為基分類器,且以樣本在ELM中的輸出值作為不確定性度量準(zhǔn)則,進(jìn)而選取“查詢樣本”的主動(dòng)學(xué)習(xí)算法。受篇幅所限,在此不再贅述,有關(guān)該算法的具體細(xì)節(jié),可參見(jiàn)文獻(xiàn)[4]。
結(jié)合AL-ELM算法與樣本采樣技術(shù),可知主動(dòng)不平衡極限學(xué)習(xí)機(jī)算法的具體流程如下:
算法2:主動(dòng)不平衡極限學(xué)習(xí)機(jī)算法
輸入:初始已標(biāo)注樣本集L,未標(biāo)注樣本集U;樣本采樣算法P
輸出:最終的極限學(xué)習(xí)機(jī)分類器M
算法步驟:
1)利用初始已標(biāo)注樣本集L訓(xùn)練一個(gè)初始的極限學(xué)習(xí)機(jī)分類器M;
2)采用M,并利用AL-ELM算法中的“查詢樣本”選擇策略,選取并標(biāo)注查詢樣本,進(jìn)而將其置入集合Sselect中;
3)while(未達(dá)到學(xué)習(xí)停止條件)
①L=L+Sselect;
②U=U-Sselect;
③ 置Sselect為空;
④調(diào)用樣本采樣算法P對(duì)樣本集L進(jìn)行采樣處理;
⑤利用已標(biāo)注樣本集樣本集L對(duì)分類器M進(jìn)行更新;
⑥采用M,并利用AL-ELM算法中的“查詢樣本”選擇策略,在U中選取并標(biāo)注查詢樣本,進(jìn)而將其置入集合Sselect中;
⑦若達(dá)到學(xué)習(xí)停止條件,則退出,否則轉(zhuǎn)步驟①;
End
4)輸出最終訓(xùn)練的極限學(xué)習(xí)機(jī)分類器M。
從上述算法流程中,可以看出:其與傳統(tǒng)的主動(dòng)學(xué)習(xí)算法僅有一點(diǎn)不同,即該算法在提取并標(biāo)注“查詢樣本”后,多出了一個(gè)平衡控制過(guò)程,而這一過(guò)程采用了樣本采樣的策略,采樣算法既可以選擇RUS、ROS、SMOTE,也可以選擇本文所提出的BOS算法。
文中實(shí)驗(yàn)共采用了12個(gè)采集自Keel數(shù)據(jù)庫(kù)[15]的基準(zhǔn)數(shù)據(jù)集,用以比較傳統(tǒng)的主動(dòng)學(xué)習(xí)算法和采用了樣本采樣技術(shù)作為平衡控制策略的主動(dòng)學(xué)習(xí)算法之間的性能。特別需要說(shuō)明的是,實(shí)驗(yàn)所選取的數(shù)據(jù)集均為二類數(shù)據(jù)集,有關(guān)這些數(shù)據(jù)集的具體信息如表1所示。
表1 實(shí)驗(yàn)所用數(shù)據(jù)集
為證明樣本的不平衡分布確實(shí)會(huì)對(duì)主動(dòng)學(xué)習(xí)產(chǎn)生影響,同時(shí)也為了展示加入了平衡控制策略的算法的優(yōu)越性,確定了如下5種比較算法:
1)AL-ELM:即基準(zhǔn)的主動(dòng)極限學(xué)習(xí)機(jī)算法[4];
2)AL-ELM-RUS:即以RUS算法作為平衡控制策略的主動(dòng)極限學(xué)習(xí)機(jī)算法;
3)AL-ELM-ROS:即以ROS算法作為平衡控制策略的主動(dòng)極限學(xué)習(xí)機(jī)算法;
4)AL-ELM-SMOTE:即以 SMOTE 算法作為平衡控制策略的主動(dòng)極限學(xué)習(xí)機(jī)算法;
5)AL-ELM-BOS:即以BOS算法作為平衡控制策略的主動(dòng)極限學(xué)習(xí)機(jī)算法;
在實(shí)驗(yàn)中,預(yù)設(shè)各數(shù)據(jù)集初始已標(biāo)注樣本比例為15%,未標(biāo)記樣本比例為55%,剩余的30%作為測(cè)試樣本。主動(dòng)學(xué)習(xí)考慮基于池的場(chǎng)景,以批處理方式進(jìn)行,每輪標(biāo)注初始未標(biāo)注樣本集規(guī)模的5%。為了窺探主動(dòng)學(xué)習(xí)過(guò)程的全貌,故未預(yù)設(shè)學(xué)習(xí)停止條件,即意味著學(xué)習(xí)過(guò)程將隨著未標(biāo)注樣本池中的樣本耗盡位置。
此外,考慮到對(duì)于不平衡分類問(wèn)題而言,整體分類精度不再是一種有效的性能測(cè)度,故采用G-mean測(cè)度及ALC測(cè)度[4]來(lái)反應(yīng)各算法的性能。
最后,對(duì)于ELM分類器,其參數(shù)在各類算法上均保持統(tǒng)一設(shè)置,即激活函數(shù)選用Sigmoid,隱層節(jié)點(diǎn)數(shù)為100,懲罰因子則設(shè)為10000。
圖2 五種學(xué)習(xí)算法在12個(gè)數(shù)據(jù)集上的學(xué)習(xí)曲線
圖2給出了5種主動(dòng)學(xué)習(xí)算法在12個(gè)數(shù)據(jù)集上的學(xué)習(xí)曲線,而表2則給出了它們對(duì)應(yīng)的ALC測(cè)度值和學(xué)習(xí)過(guò)程中能達(dá)到的MAX G-mean測(cè)度值,其中,用粗體標(biāo)識(shí)每個(gè)數(shù)據(jù)集上最優(yōu)的結(jié)果,粗斜體則標(biāo)識(shí)第二好結(jié)果。
基于上述圖表中的結(jié)果,可得出如下結(jié)論:
1)在絕大多數(shù)數(shù)據(jù)集上,采用樣本采樣技術(shù)做平衡控制策略的主動(dòng)學(xué)習(xí)算法均要優(yōu)于原始的主動(dòng)學(xué)習(xí)算法。實(shí)際上,這一現(xiàn)象是易于解釋的,這主要是因?yàn)榍罢卟捎昧似胶饪刂撇呗?,故在學(xué)習(xí)過(guò)程中的每一輪所訓(xùn)練的分類面位置均是相對(duì)公正的,故可保證所選取的“查詢樣本”的公正性,而后者則無(wú)法保證這一點(diǎn)。另從ALC和Max G-mean測(cè)度值中可以看出,原始的主動(dòng)學(xué)習(xí)算法幾乎總是處于較低水平。所以可以得出主動(dòng)學(xué)習(xí)算法的性能確實(shí)會(huì)受到樣本不平衡分布負(fù)面影響的結(jié)論。
2)AL-ELM-RUS算法在超過(guò)半數(shù)數(shù)據(jù)集上均獲得了優(yōu)于其它算法性能的結(jié)果。這種現(xiàn)象不僅體現(xiàn)在那些不平衡比率較低的數(shù)據(jù)集上,在某些極度不平衡數(shù)據(jù)集上,如abalone19數(shù)據(jù)集,也是如此。因此,我們相信這不僅與數(shù)據(jù)集的不平衡比率有關(guān),可能還關(guān)聯(lián)著諸多的因素,如樣本的類重疊面積大小、訓(xùn)練樣本的絕對(duì)數(shù)量、噪聲樣本的比率等[16]。此外,RUS算法也有著過(guò)采樣算法所無(wú)法比擬的一個(gè)優(yōu)勢(shì),那就是時(shí)間復(fù)雜度低。故在實(shí)際應(yīng)用中,AL-ELM-RUS算法將是一個(gè)較好的備選方案。
3)相比于AL-ELM-ROS與AL-ELM-SMOTE算法,AL-ELM-BOS算法顯然已在更多數(shù)據(jù)集上獲得了較優(yōu)的性能。這一現(xiàn)象也不難理解:首先,ROS算法易于導(dǎo)致分類模型陷入過(guò)適應(yīng);其次,SMOTE算法在生成虛擬少數(shù)類樣本時(shí),采取的是均勻采樣,而主動(dòng)學(xué)習(xí)所標(biāo)注的多數(shù)類樣本則普遍存在于分類邊界附近,這就導(dǎo)致了在邊界區(qū)域的樣本分布不均衡;最后,BOS算法雖然繼承自SMOTE算法,但其生成的少數(shù)類樣本均分布于分類邊界附近,這便可保證下一輪所生成分類面位置的合理性。
4)當(dāng)然,也有一些特殊的情況存在,如在led7digit_0_2_4_5_6_7_8_9_vs_1和vowel0這兩個(gè)數(shù)據(jù)集上,原始的AL-ELM算法的分類性能始終處于一個(gè)較高的水平,甚至要好于那些添加了平衡控制策略的主動(dòng)學(xué)習(xí)算法。我們認(rèn)為上述現(xiàn)象的出現(xiàn)仍與樣本分布的特點(diǎn)相關(guān),這兩個(gè)數(shù)據(jù)集上不同類樣本的分布顯然具有更強(qiáng)的可分性。
基于上述分析,可凝練得出如下兩點(diǎn)結(jié)論:1)在大多數(shù)情況下,樣本的類別不平衡分布會(huì)對(duì)傳統(tǒng)的主動(dòng)學(xué)習(xí)算法產(chǎn)生負(fù)面影響;2)在主動(dòng)學(xué)習(xí)的每一輪迭代過(guò)程中引入樣本采樣技術(shù),確實(shí)可明顯提升其性能,且采取隨機(jī)降采樣法或本文所提出的邊界過(guò)采樣法有望獲得更好的性能。
表2 5種學(xué)習(xí)算法在12個(gè)數(shù)據(jù)集上的ALC測(cè)度值和MAX G-mean值
針對(duì)在樣本類別分布不均衡時(shí),傳統(tǒng)的主動(dòng)學(xué)習(xí)算法可能失效這一問(wèn)題展開(kāi)了調(diào)查與研究。提出在主動(dòng)學(xué)習(xí)過(guò)程中,引入樣本采樣技術(shù)作為平衡控制策略,并在分析其過(guò)程的基礎(chǔ)上,對(duì)SMOTE算法進(jìn)行了改進(jìn),進(jìn)而提出了一種邊界過(guò)采樣算法,即BOS算法??紤]到極限學(xué)習(xí)機(jī)所具有的諸多優(yōu)點(diǎn),采用其作為主動(dòng)學(xué)習(xí)的基分類器。通過(guò)12個(gè)基準(zhǔn)二類不平衡數(shù)據(jù)集對(duì)上述算法思想進(jìn)行了驗(yàn)證,表明了其有效性與可行性。在未來(lái)工作中,希望能將本文工作擴(kuò)展應(yīng)用于多類不平衡數(shù)據(jù)上,同時(shí)也希望能借鑒類別不平衡學(xué)習(xí)領(lǐng)域的最新成果,以提出更為有效與高效的平衡控制算法。
[1]Ertekin S,Huang J,Giles C L.Active learning for class imbalance problem[C]//Proceedings of the 30th annual international ACM SIGIR conference on research and developmentin information retrieval,ACM Press,2007:823-824.
[2]Ertekin S,Huang J,Bottou J,et al.Learning on the border:active learning in imbalanced data classification[C]//Proceedings of the sixteenth ACM conference on information and knowledge management,ACM Press,2007:127-136.
[3]Zhu J,Hovy E.Active Learning for Word Sense Disambiguation with Methods for Addressing the Class Imbalance Problem[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,2007:783-790.
[4]Yu H,Sun C,Yang W.AL-ELM:One uncertaintybased active learning algorithm using extreme learning machine[J].Neurocomputing,2015(166):140-150.
[5]Wang M,Hua X S.Active learning in multimedia annotation and retrieval:a survey[J].ACM Transactions on Intelligent System and Technology,2011,2(2):210-231.
[6]Chawla N,Bowyer K W,Hall L O.SMOTE:Synthetic Minority Over-Sampling Technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
[7]Huang G B,Zhu Q Y,Siew C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006(70):489-501.
[8]Huang G B,Zhou H,Ding X,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man and Cybernetics,Part B:Cybernetics,2012,42(2):513-529.
[9]Huang G,Huang G B,Song S,et al.Trends in Extreme Learning Machine:A Review[J].Neural Networks,2015,61:32-48.
[10]Minhas R,Baradarani A,Seifzadeh S,et al.Human action recognition using extreme learning machine based on visual vocabularies[J].Neurocomputing,2010,73(10-12):1906-1917.
[11]Samat A,Du P,Liu S,et al.ELMs:Ensemble ExtremeLearningMachinesforHyperspectral Image Classification[J].IEEE Journal of Selected Topics in Applied Earth Observations And Remote Sensing,2014,7(4):1060-1069.
[12]Chen X,Dong Z Y,Meng K,et al.Electricity Price Forecasting With Extreme Learning Machine and Bootstrapping[J].IEEE Transactionson Power Systems,2012,27(4):2055-2062.
[13]WanC,XuZ,PinsonP,etal.ProbabilisticForecasting of Wind Power Generation Using Extreme Learning Machine[J].IEEE Transactions on Power Systems,2014,29(29):1033-1044.
[14]Li L N,Ouyang J H,Chen H L,et al.A Computer Aided Diagnosis System for Thyroid Disease Using Extreme Learning Machine[J].Journal of Medical Systems,2012,36(5):3327-3337.
[15]Alcalá-Fdez,F(xiàn)ernandez A,Luengo J,et al.KEEL Data-Mining Software Tool:Data Set Repository,Integration of Algorithms and Experimental Analysis Framework[J].Journal of Multiple-Valued Logic and Soft Computing,2011(17):255-287.
[16]Lopez V,F(xiàn)ernandez A,Garcia S,et al.,An insight into classification with imbalanced data:Empirical results and current trends on using data intrinsic characteristics[J].Information Science,2013,250(11):113-141.