亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

不平衡超限學(xué)習(xí)機(jī)的全局懲罰參數(shù)選擇方法

2017-10-17 12:35:59柯海豐盧誠(chéng)波徐卉慧

哈爾濱工程大學(xué)學(xué)報(bào) 2017年9期

柯海豐，盧誠(chéng)波，徐卉慧

(1. 浙江大學(xué)城市學(xué)院計(jì)算機(jī)系，浙江杭州 310015； 2.麗水學(xué)院工學(xué)院，浙江麗水 323000； 3.太平洋大學(xué) 工程與計(jì)算機(jī)科學(xué)學(xué)院，加利福尼亞斯托克頓 95211)

柯海豐1，盧誠(chéng)波2，徐卉慧3

超限學(xué)習(xí)機(jī)在對(duì)不平衡數(shù)據(jù)集進(jìn)行學(xué)習(xí)和分類(lèi)時(shí)，正類(lèi)樣本容易被錯(cuò)分。而加權(quán)超限學(xué)習(xí)機(jī)只考慮了數(shù)據(jù)集類(lèi)之間的不平衡，忽視了樣本類(lèi)內(nèi)的不平衡的現(xiàn)象。本文闡述了超限學(xué)習(xí)機(jī)在不平衡數(shù)據(jù)集上分類(lèi)效果欠佳的原因，提出了根據(jù)數(shù)據(jù)集選取懲罰參數(shù)的方法，采用將類(lèi)間的懲罰參數(shù)與類(lèi)內(nèi)的懲罰參數(shù)相結(jié)合的方法，形成全局懲罰參數(shù)，即將類(lèi)懲罰參數(shù)進(jìn)一步精確到樣本個(gè)體懲罰參數(shù)。結(jié)果表明：這種方法實(shí)現(xiàn)起來(lái)簡(jiǎn)單方便，與其他類(lèi)型的超限學(xué)習(xí)機(jī)相比較，這種全局懲罰參數(shù)的選擇方法在提高分類(lèi)準(zhǔn)確率方面能夠取得更好的效果。

數(shù)據(jù)挖掘；不平衡數(shù)據(jù)集；單隱層前饋神經(jīng)網(wǎng)絡(luò)；超限學(xué)習(xí)機(jī)；加權(quán)超限學(xué)習(xí)機(jī)；全局懲罰參數(shù)；分類(lèi)器

Abstract：Conventional extreme learning machines (ELMs) usually perform poorly in learning and classifying imbalanced datasets, because positive samples are likely to be misclassified. However, weighted extreme learning machine only considered between- class imbalance but ignored within- class imbalance. This paper explained why ELMs failed, and proposed a direct method to determine the penalty parameter, we considered both of the two kinds of imbalance, combine the between- class cost parameter with within- class cost parameter to form global penalty parameter, that was, class penalty parameterwas refined further to single sample cost parameter. Theory analysis and simulation experiments showed that the global penalty parameter selection for extreme learning machine is convenient in implementation, and performed better in improving the classification accuracy than some other types of extreme learning machine.

Keywords：data mining; imbalanced data set; single hidden layer feedforward networks; extreme learning machine;weighted extreme learning machine; global penalty parameter; classifier

不平衡現(xiàn)象廣泛存在于現(xiàn)實(shí)世界中，例如，癌癥診斷、惡意騷擾電話(huà)識(shí)別、信用卡欺詐等問(wèn)題都是不平衡數(shù)據(jù)集[1-3]。大多數(shù)分類(lèi)模型和學(xué)習(xí)算法都假設(shè)樣本分布均衡，可實(shí)際數(shù)據(jù)集往往是不平衡的。不平衡數(shù)據(jù)集的主要特征是類(lèi)間樣本數(shù)不相等。在二分類(lèi)問(wèn)題中，人們通常把樣本數(shù)較多的類(lèi)稱(chēng)為負(fù)類(lèi)(多數(shù)類(lèi))，較少的類(lèi)稱(chēng)為正類(lèi)(少數(shù)類(lèi))。近年，不平衡學(xué)習(xí)問(wèn)題得到了學(xué)術(shù)界、工業(yè)界和基金機(jī)構(gòu)的廣泛關(guān)注。2000年美國(guó)人工智能協(xié)會(huì)(the association for the advance of artificial intelligence，AAAI)舉辦了第一屆不平衡數(shù)據(jù)集研討會(huì)，主要關(guān)注了在類(lèi)不平衡的情形下，如何評(píng)估學(xué)習(xí)算法，以及類(lèi)不平衡和代價(jià)敏感學(xué)習(xí)的關(guān)系這兩個(gè)主題[4]。此后，基本上每隔一兩年就會(huì)召開(kāi)一次關(guān)于不平衡學(xué)習(xí)的專(zhuān)題研討會(huì)，討論不平衡學(xué)習(xí)的最新研究成果[5-7]。

目前，不平衡學(xué)習(xí)的研究主要集中在數(shù)據(jù)層面與算法層面。數(shù)據(jù)層面上的研究通常是對(duì)訓(xùn)練集進(jìn)行重構(gòu)，包括過(guò)采樣和欠采樣。過(guò)采樣的目的是通過(guò)增加正類(lèi)樣本數(shù)量，從而平衡類(lèi)別分布。欠采樣的目的與之相同，但是通過(guò)剔除訓(xùn)練集中的負(fù)類(lèi)樣本以達(dá)到平衡分布。兩種采樣方法各有優(yōu)缺點(diǎn)[8-10]。非隨機(jī)過(guò)采樣一般是人為增加正類(lèi)樣本，其中具有代表性的方法是Chawla等提出的正類(lèi)樣本合成過(guò)采樣技術(shù)(synthetic minority over- sampling technique, SMOTE)，SMOTE通過(guò)內(nèi)插的方式合成正類(lèi)樣本[11]。比較常用非隨機(jī)欠采樣技術(shù)有Tomeklinks[12]、編輯技術(shù)[13]、單邊選擇等[14]。除了數(shù)據(jù)層面上的研究，模型和算法層面的研究也是處理類(lèi)別不平衡問(wèn)題的重要方法。比較常用的有代價(jià)敏感學(xué)習(xí)[15]，單類(lèi)分類(lèi)器方法[16]等。

文獻(xiàn)[17]利用代價(jià)敏感學(xué)習(xí)的思想提出了加權(quán)超限學(xué)習(xí)機(jī)(weighted extreme learning machine, WELM)，加權(quán)超限學(xué)習(xí)機(jī)作為標(biāo)準(zhǔn)超限學(xué)習(xí)機(jī)(extreme learning machine, ELM)的改進(jìn)模型，在訓(xùn)練過(guò)程中使用不同的類(lèi)懲罰參數(shù)對(duì)樣本的類(lèi)別差異所造成的影響進(jìn)行相應(yīng)的補(bǔ)償以提高分類(lèi)效果。但加權(quán)超限學(xué)習(xí)機(jī)只考慮了數(shù)據(jù)集的類(lèi)間不平衡，而沒(méi)有考慮類(lèi)內(nèi)的不平衡，實(shí)際上，類(lèi)內(nèi)的不平衡對(duì)分類(lèi)性能的影響也很大[18]。 Boosting 算法雖然對(duì)樣本賦予了獨(dú)立的權(quán)值，但需要反復(fù)迭代，訓(xùn)練時(shí)間長(zhǎng)[19]。

本文將類(lèi)間的懲罰參數(shù)與類(lèi)內(nèi)的懲罰參數(shù)相結(jié)合，形成全局懲罰參數(shù)，即將類(lèi)懲罰參數(shù)進(jìn)一步精確到樣本個(gè)體懲罰參數(shù)。該方法在提高不平衡數(shù)據(jù)集的分類(lèi)準(zhǔn)確率方面能夠取得更好的效果。

1 超限學(xué)習(xí)機(jī)與不平衡數(shù)據(jù)集

由于單隱層前饋神經(jīng)網(wǎng)絡(luò)能夠逼近任何復(fù)雜的非線(xiàn)性系統(tǒng)，這使得它在模式識(shí)別、自動(dòng)控制及數(shù)據(jù)挖掘等許多領(lǐng)域得到了廣泛的應(yīng)用。

圖1為一個(gè)單隱層前饋神經(jīng)網(wǎng)絡(luò)。

文獻(xiàn)[20]中提出了一種稱(chēng)為超限學(xué)習(xí)機(jī)的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法，該算法已被廣泛地應(yīng)用到模式識(shí)別、回歸問(wèn)題，高維數(shù)據(jù)的降維算法、全息數(shù)據(jù)的外推與插值技術(shù)[21-24]等各個(gè)領(lǐng)域，均取得了非常好的效果。

超限學(xué)習(xí)機(jī)與其他神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的主要區(qū)別在于隱層節(jié)點(diǎn)為隨機(jī)產(chǎn)生，與訓(xùn)練樣本無(wú)關(guān)。訓(xùn)練樣本x的隱層輸出表示為一個(gè)行向量h(x)=[f(ω1x+b1)f(ω2x+b2)…f(ωLx+bL)]。給定N個(gè)訓(xùn)練樣本(xi,ti),單隱層前饋神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型為

Hβ=T

(1)

式中：H為隱層輸出矩陣，β為輸出權(quán)，T為目標(biāo)矩陣，其中

H=[h(x1)…h(huán)(xN)]T

(2)

利用正交投影法計(jì)算H的廣義逆后可得：

(3)

為了提高網(wǎng)絡(luò)的泛化性能，引入了正實(shí)數(shù)C，其數(shù)學(xué)模型為[23]：

(4)

subject toHβ=T-ε

(5)

求解下列二次規(guī)劃問(wèn)題的最優(yōu)解，可得

(6)

圖1 單隱層前饋神經(jīng)網(wǎng)絡(luò)Fig.1 A single- hidden- layer feedfor ward neural network

2 全局懲罰參數(shù)的選擇方法

2.1 類(lèi)間懲罰參數(shù)的選擇

加權(quán)超限學(xué)習(xí)機(jī)正類(lèi)和負(fù)類(lèi)選取不同的懲罰參數(shù)，每個(gè)類(lèi)內(nèi)的樣本采取相同的懲罰參數(shù)，具體的選取方式為：

(7)

式中：W1為N階對(duì)角矩陣，其對(duì)角線(xiàn)元素wii是對(duì)應(yīng)于樣本xi的懲罰參數(shù)，#(qi)為類(lèi)qi中的樣本個(gè)數(shù)，N為訓(xùn)練樣本個(gè)數(shù)。

另一種選取方式采用黃金分割系數(shù)。

方式2：

(8)

式中AVG為類(lèi)間樣本數(shù)的均值。

上述兩種類(lèi)間懲罰參數(shù)的取法使得少數(shù)類(lèi)中的樣本能夠獲得比多數(shù)類(lèi)中的樣本更大的權(quán)值，實(shí)際上，權(quán)W2是無(wú)懲罰參數(shù)和類(lèi)懲罰參數(shù)W1的權(quán)衡。為了最大化邊界距離同時(shí)最小化所有訓(xùn)練樣本的累積權(quán)誤差，因此，計(jì)算圖1中單隱層前饋神經(jīng)網(wǎng)絡(luò)的輸出權(quán)，可以表示成下列優(yōu)化問(wèn)題：

subject to:ε=O-T=Hβ-T,

(9)

上述優(yōu)化問(wèn)題的解為

(10)

2.2 類(lèi)內(nèi)懲罰參數(shù)選擇

加權(quán)超限學(xué)習(xí)機(jī)通過(guò)選取不同的類(lèi)懲罰參數(shù)來(lái)調(diào)整類(lèi)之間的不平衡分布，但對(duì)同一類(lèi)內(nèi)的樣本賦予了相同的懲罰參數(shù)，而沒(méi)有考慮類(lèi)內(nèi)的不平衡，實(shí)際上，類(lèi)內(nèi)的不平衡同樣會(huì)影響分類(lèi)器的分類(lèi)性能。將根據(jù)樣本近鄰中同類(lèi)樣本分布的稠密性來(lái)決定該樣本的類(lèi)內(nèi)懲罰參數(shù)，提高沒(méi)有被充分表示的樣本的類(lèi)內(nèi)懲罰參數(shù)，降低已被充分表示的樣本的類(lèi)內(nèi)懲罰參數(shù)，使得懲罰參數(shù)發(fā)揮的作用更大。具體的選取方式有兩種：

方式1：對(duì)于樣本xi，選取xi的k個(gè)近鄰樣本，記這k個(gè)樣本中屬于同類(lèi)樣本的有q個(gè)，則該樣本的類(lèi)內(nèi)懲罰參數(shù)為

(11)

式中：U1為N階對(duì)角矩陣，其對(duì)角線(xiàn)元素wii是對(duì)應(yīng)于樣本xi的懲罰參數(shù)，N為訓(xùn)練樣本個(gè)數(shù)。

注：若q=0，即意味著該樣本的k個(gè)近鄰中無(wú)同類(lèi)樣本，一些研究將此類(lèi)樣本視為“噪聲”，但實(shí)際上，當(dāng)數(shù)據(jù)集不平衡程度很?chē)?yán)重時(shí)，很多非“噪聲”的正類(lèi)樣本近鄰中都可能沒(méi)有同類(lèi)樣本。因此，折衷地將這些樣本的類(lèi)內(nèi)懲罰參數(shù)取值為1。

方式2：對(duì)于樣本xi，選取xi的k個(gè)近鄰樣本，分別計(jì)算xi到k個(gè)近鄰中其他同類(lèi)樣本的距離之和，記作di, 以及xi到k個(gè)近鄰中其他類(lèi)樣本的距離之和，記作Di,則該樣本的類(lèi)內(nèi)懲罰參為

(12)

式中：U2為N階對(duì)角矩陣，其對(duì)角線(xiàn)元素wii是對(duì)應(yīng)于樣本xi的懲罰參數(shù)

為了取得更好的分類(lèi)效果，大多數(shù)分類(lèi)算法在訓(xùn)練過(guò)程中都試圖盡可能提高邊界和邊界附近樣本的分類(lèi)精度，這些樣本比那些遠(yuǎn)離邊界的樣本更容易被錯(cuò)分，因此對(duì)分類(lèi)器來(lái)說(shuō)更為重要。

上述兩種類(lèi)內(nèi)懲罰參數(shù)的取法使得處于邊界和邊界附近的樣本獲得更大的懲罰參數(shù)，即使得它們被錯(cuò)分的代價(jià)要大于同類(lèi)的其他樣本。

2.3 全局懲罰參數(shù)選擇

我們給每個(gè)樣本賦予兩個(gè)懲罰參數(shù)，一個(gè)懲罰參數(shù)為每個(gè)樣本的類(lèi)間懲罰參數(shù)，采用式(7)或式(8)中的選取方式，第二個(gè)權(quán)值為每個(gè)樣本的類(lèi)內(nèi)懲罰參數(shù)，采用式(11)或式(12)中的選取方式。全局懲罰參數(shù)為類(lèi)間懲罰參數(shù)和類(lèi)內(nèi)懲罰參數(shù)的乘積。

設(shè)類(lèi)間懲罰參數(shù)為W，類(lèi)內(nèi)懲罰參數(shù)為U，則全局懲罰參數(shù)為

D=W×U

(13)

使用全局懲罰參數(shù)，式(12)、(13)可修正為

(14)

單一地使用類(lèi)間懲罰參數(shù)時(shí)，同一類(lèi)中的訓(xùn)練樣本被賦予了相同的懲罰參數(shù)，但由于類(lèi)內(nèi)不平衡現(xiàn)象的存在，少數(shù)類(lèi)中也可能會(huì)存在冗余樣本，結(jié)合類(lèi)內(nèi)懲罰參數(shù)，這些冗余樣本的全局懲罰參數(shù)將被降低；同樣，多數(shù)類(lèi)中也可能會(huì)存在稀疏樣本，結(jié)合類(lèi)內(nèi)懲罰參數(shù)，這些稀疏樣本的全局懲罰參數(shù)將被提高，從而提高分類(lèi)器對(duì)不平衡數(shù)據(jù)集的分類(lèi)性能。

3 仿真實(shí)驗(yàn)

通過(guò)對(duì)各種不平衡程度的數(shù)據(jù)集進(jìn)行分類(lèi)測(cè)試，對(duì)ELM、加權(quán)超限學(xué)習(xí)機(jī)(W- ELM)和帶全局懲罰參數(shù)的超限學(xué)習(xí)機(jī)(G- ELM)的分類(lèi)性能進(jìn)行比較。

在對(duì)不平衡數(shù)據(jù)集進(jìn)行分類(lèi)時(shí)，不能簡(jiǎn)單地采用總體的分類(lèi)準(zhǔn)確率來(lái)評(píng)價(jià)分類(lèi)器的好壞。由于不平衡數(shù)據(jù)集中各類(lèi)的樣本數(shù)量相差較大，因此如果分類(lèi)器能夠完全識(shí)別負(fù)類(lèi)樣本，即使對(duì)正類(lèi)樣本的識(shí)別完全錯(cuò)誤，總體的準(zhǔn)確率也會(huì)維持在一個(gè)較高的水準(zhǔn)。因此，目前較多采用幾何平均值(G- mean)來(lái)評(píng)價(jià)分類(lèi)器的有效性，即先計(jì)算分類(lèi)器在每一類(lèi)中的分類(lèi)準(zhǔn)確率，G- mean值為這些準(zhǔn)確率的幾何平均。例如，對(duì)于二分類(lèi)問(wèn)題，設(shè)TP和TN分別表示被正確分類(lèi)的正類(lèi)和負(fù)類(lèi)樣本個(gè)數(shù)，F(xiàn)N表示負(fù)數(shù)類(lèi)中被誤分為正數(shù)類(lèi)的樣本個(gè)數(shù)，F(xiàn)P表示正數(shù)類(lèi)中被誤分為負(fù)類(lèi)的樣本個(gè)數(shù)，則

(15)

G- mean值能夠較準(zhǔn)確地反映分類(lèi)器在不平衡數(shù)據(jù)集上的識(shí)別性能。

實(shí)驗(yàn)中使用46個(gè)二分類(lèi)的數(shù)據(jù)集和3個(gè)多分類(lèi)的數(shù)據(jù)集作為測(cè)試樣本，數(shù)據(jù)集描述如表1、2所示。

表1 雙分類(lèi)數(shù)據(jù)集細(xì)節(jié)

表2UCI中的雙分類(lèi)與多分類(lèi)數(shù)據(jù)集細(xì)節(jié)

Table2DetailsofthebinaryandmulticlassdatasetsfromUCI

數(shù)據(jù)集屬性個(gè)數(shù)類(lèi)別訓(xùn)練樣本個(gè)數(shù)測(cè)試樣本個(gè)數(shù)不平衡率Adult12324781277800.3306Banana2240049000.8605Colon60230320.6607Leukemia60238340.4074DNA1803200011860.4415Satimage366443520000.3871USPS25610729120070.4733

注：表1和表2中的數(shù)據(jù)集可分別從網(wǎng)絡(luò)中下載[25-26]

表1和表2中的不平衡率(IR)反映了數(shù)據(jù)集各類(lèi)之間的不均衡程度，由式(16)、(17)計(jì)算得到

二分類(lèi)集：

(16)

多類(lèi)集：

(17)

本節(jié)實(shí)驗(yàn)中采用的數(shù)據(jù)集不平衡率的值最低為0.007 8，最高為0.860 5，基本上含括了各種比例的不均衡程度。因此實(shí)驗(yàn)結(jié)果有代表性。

使用的仿真軟件為：Matlab R2014a。該實(shí)驗(yàn)的環(huán)境為： Window 10 64bit操作系統(tǒng)，Intel Core i7-2620M2.70GHz，12GB內(nèi)存。

實(shí)驗(yàn)中對(duì)于數(shù)據(jù)集采用5-折交叉驗(yàn)證，運(yùn)行20次，計(jì)算G- mean值的平均值。為了便于比較，表1和表2采用文獻(xiàn)[19]中相同的數(shù)據(jù)集，同時(shí)，標(biāo)準(zhǔn)超限學(xué)習(xí)機(jī)、加權(quán)超限學(xué)習(xí)機(jī)(W1)、加權(quán)超限學(xué)習(xí)機(jī)(W2)的G- mean值結(jié)果直接引用文獻(xiàn)[19]中的結(jié)果。

從表3中的實(shí)驗(yàn)結(jié)果可以看出，由于未添加懲罰參數(shù)，標(biāo)準(zhǔn)的超限學(xué)習(xí)機(jī)在對(duì)不平衡數(shù)據(jù)集進(jìn)行分類(lèi)的時(shí)候表現(xiàn)最差。采用全局懲罰參數(shù)的不平衡超限學(xué)習(xí)機(jī)對(duì)于大多數(shù)不平衡數(shù)據(jù)集的分類(lèi)效果要優(yōu)于加權(quán)超限學(xué)習(xí)機(jī)與標(biāo)準(zhǔn)的超限學(xué)習(xí)機(jī)，這是因?yàn)椴黄胶鈹?shù)據(jù)集的不平衡程度并不完全由不平衡數(shù)據(jù)集類(lèi)間的數(shù)量差異決定，也和各個(gè)類(lèi)的類(lèi)內(nèi)空間分布有關(guān)。此外，當(dāng)不平衡率較大時(shí)，對(duì)于加權(quán)超限學(xué)習(xí)機(jī)，無(wú)論是采用類(lèi)權(quán)值W1還是W2，與標(biāo)準(zhǔn)超限學(xué)習(xí)機(jī)相比較，分類(lèi)效果區(qū)別不大，但通過(guò)賦予每個(gè)樣本全局懲罰參數(shù)之后，分類(lèi)器的識(shí)別能力得到進(jìn)一步提高。

表3 分類(lèi)器G- mean值比較

4 結(jié)論

1)提出了一種加權(quán)超限學(xué)習(xí)機(jī)懲罰參數(shù)的選取方法，進(jìn)一步考慮了不平衡數(shù)據(jù)集的類(lèi)內(nèi)不平衡現(xiàn)象，提出了類(lèi)內(nèi)懲罰參數(shù)的概念，并設(shè)計(jì)了兩種類(lèi)內(nèi)懲罰參數(shù)的選取方式，與類(lèi)間的懲罰參數(shù)一起構(gòu)成全局懲罰參數(shù)，將懲罰參數(shù)精確到了每個(gè)樣本的懲罰參數(shù)，更大地發(fā)揮出來(lái)懲罰參數(shù)的作用。

2)該方法簡(jiǎn)單且易于實(shí)現(xiàn)，利用近鄰樣本的個(gè)數(shù)或者距離獲得類(lèi)內(nèi)的懲罰參數(shù)，與類(lèi)間懲罰參數(shù)結(jié)合，從而獲得全局懲罰參數(shù)。

3)同時(shí)考慮了類(lèi)間懲罰參數(shù)和類(lèi)內(nèi)懲罰參數(shù)，因此能夠有效地處理不平衡數(shù)據(jù)集的分類(lèi)問(wèn)題，且同時(shí)保持了超限學(xué)習(xí)機(jī)的良好性能。

[1] GONZALEZ G F, JOHNSON T, ROLSTON K, et al. Predicting pneumonia mortality using CURB- 65, PSI, and patient characteristics in patients presenting to the emergency department of a comprehensive cancer center[J]. Cancer medicine, 2014, 3(4): 962-970.

[2] TRIVEDJ I, MONIKA, MRIDUSH M. Credit card fraud detection[J]. International journal of advanced research in computer and communication engineering, 2016, 5(1): 39-50.

[3] BAHNSEN A C, AOUADA D, STOJANOVIC A, et al. Feature engineering strategies for credit card fraud detection [J]. Expert systems with applications, 2016, 51: 134-142.

[4] PROVOST F. Machine learning from imbalanced data sets[C]// AAAI′2000 Workshop on Imbalanced Data Sets, 2000: 435-439.

[5] WEISS G, SAAR- TSECHANSKY M, ZADROZNY B. Report on UBDM-05: workshop on utility- based data mining[J]. ACM SIGKDD explorations newsletter, 2005, 7(2): 145-147.

[6] HULSE J V, KHOSHGOFTAAR T M, NAPOLITANO A. Experimental perspectives on learning from imbalanced data. Proceedings of the 24th international conference on Machine learning (ICML) [C]// Oregon State University, Corvallis, USA, 2007: 935-942.

[7] ERTEKIN S, HHUANG J, BOTTOU L, et al. Learning on the border: active learning in imbalanced data classification[C]// Proceedings of the Sixteenth ACM Conference on Information and Knowledge Management, Lisbon, Portugal, 2007: 127-136.

[8] BARANDELA R, VALDOVINOS R M, SANCHEZ J S，et al. The imbalanced training sample problem: Under or oversampling[C]//Joint IAPR International Workshops on Structural, Syntactic, and Statistical Pattern Recognition (SSPR/SPR′04), Lecture Notes in Computer Science 2004, 3138: 806-814.

[9] NAPOLITANO A. Alleviating class imbalance using data sampling: Examining the effects on classification algorithms[D]. Boca Raton, Florida Atlantic University, 2006.

[10] VAN HULSE J, KHOSHGOFTAAR T M, NAPOLITANO A. experimental perspectives on learning from imbalanced data[C]// Proceedings of the 24th International Conference on Machine Learning, Corvallis, OR, USA, 2007: 935-942.

[11] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over- sampling technique[J]. Journal of machine learning research, 2002, 16: 321-357.

[12] TOMEK I. Two modifications of CNN[J]. IEEE trans on systems, man and communications, 1976, 6: 769-772.

[13] WILSON D L. Asymptotic properties of nearest neighbor rules using edited data sets[J]. IEEE Trans on systems, Man and Cybernetics 2 (1972): 408-421.

[14] KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one- sided selection[C]// Proceedings of 14th International Conference on Machine Learning (ICML′97), 1997: 179-186.

[15] RAZZAGHI T, XANTHOPOULOS P,EREF O, Constraint relaxation, cost- sensitive learning and bagging for imbalanced classification problems with outliers[J].Optimization letters, 2015: 1-14.

[16] BARNABé- LORTIE V, BELLINGER C, JAPKOWICZ. Active learning for one- class classification[J]. IEEE international conference on machine learning &applications, 2015: 201-206.

[17] ZONG W W, HUANG G B, CHEN Y Q. Weighted extreme learning machine for imbalance learning [J].Neurocomputing, 2013, 101: 229-242.

[18] JAPKOWICZ N. Concept- learning in the presence of between- class and within- class imbalances[J]. Lecture notes in computer science, 2001: 67-77.

[19] FAN W, STOLFO S, ZHANG J, et al. AdaCost: misclassification cost- sensitive boosting[C]\ Proceedings of the 16th International Conference on Machine Learning. San Francisco, CA, 1999: 97-105.

[20] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: Theory and applications [J].Neurocomputing, 2006, 70(1-3): 489-501.

[21] SHRIVASTAVA N A, PANIGRAHI B K, LIM M H. Electricity price classification using extreme learning machines[J]. Neural computing &applications, 2016, 27(1): 9-18.

[22] FENG L, WANG J, LIU S L, et al. Multi- label dimensionality reduction and classification with Extreme learning machines[J].Systems engineering &electronics journal,2014, 25(3): 502-513.

[23] DENG W Y,ZHENG Q H, CHEN L. Regularized extreme learning machine[C]// IEEE Symposium on Computational Intelligence and Data Mining, 2009: 389-395.

[24] 孫超，何元安，商德江，等. 全息數(shù)據(jù)外推與插值技術(shù)的極限學(xué)習(xí)機(jī)方法[J].哈爾濱工程大學(xué)學(xué)報(bào)， 2014， 35(5): 544-551. SUN Chao, HE Yuanan, SHANG Dejiang, et al. Hologram data extrapolation method based on the extreme learning machine[J]. Journal of Harbin Engineering University, 2014， 35(5): 544-551.

[25] Keel Data, sethttp://sci2s.ugr.es/keel/study.php?cod=24 [DB]. 2017.

[26] UCI Data, http://archive.ics.uci.edu/ml/datasets.html [DB]. 2017.

Globalcostparameterselectionofextremelearningmachineforimbalancelearning

KE Haifeng1, LU Chengbo2, XU Huihui3

(1.School of computer & computing science, Zhejiang University City College, Hangzhou 310015, China; 2.Faculty of Engineering, Lishui University, Lishui 323000, China; 3.School of engineering and computer science, University of the Pacific, Stockton, 95211, USA)

10.11990/jheu.201610045

http://www.cnki.net/kcms/detail/23.1390.u.20170821.1833.002.html

TP183

1006- 7043(2017)09- 1444- 06

2016-10-12. < class="emphasis_bold">網(wǎng)絡(luò)出版日期

日期：2017-08-21.

國(guó)家自然科學(xué)基金項(xiàng)目(61373057)；浙江省自然科學(xué)基金項(xiàng)目(LY18F030003)；浙江省教育廳科研項(xiàng)目(Y201432787, Y201432200).

柯海豐(1977-), 男,副教授；盧誠(chéng)波(1977-), 男,副教授.

盧誠(chéng)波, E- mail:lu.chengbo@aliyun.com.

本文引用格式：柯海豐，盧誠(chéng)波，徐卉慧. 不平衡超限學(xué)習(xí)機(jī)的全局懲罰參數(shù)選擇方法[J]. 哈爾濱工程大學(xué)學(xué)報(bào)， 2017， 38(9): 1444-1449.

KE Haifeng, LU Chengbo, XU Huihui. Global cost parameter selection of extreme learning machine for imbalance learning[J]. Journal of Harbin Engineering University， 2017， 38(9): 1444-1449.