劉毅鵬 高 尚
(江蘇科技大學(xué) 鎮(zhèn)江 212000)
通過利用代價(jià)敏感學(xué)習(xí),研究人員已解決許多類別不平衡問題。在訓(xùn)練集訓(xùn)練分類模型時(shí)保證誤分代價(jià)最小化,而不是保證樣本的整體誤差最小化,此為代價(jià)敏感學(xué)習(xí)的思想,是代價(jià)敏感學(xué)習(xí)從算法層解決類別不平衡問題的體現(xiàn)。若要獲得無偏的分類面,就需要對(duì)少數(shù)類樣本的誤差施以更大的懲罰,也就是賦予其更大的代價(jià)權(quán)重,而對(duì)于多數(shù)類樣本,則反其道而行之。
極限學(xué)習(xí)機(jī)(ELM)[1]有以下兩個(gè)優(yōu)點(diǎn),一是泛化能力強(qiáng),二是訓(xùn)練速度快[2-3],但其分類性能會(huì)因數(shù)據(jù)集中樣本分布不平衡而下降。Zong 等[4]利用代價(jià)敏感學(xué)習(xí)技術(shù),為突出少數(shù)類,給不同類別的訓(xùn)練錯(cuò)誤設(shè)置不同的懲罰代價(jià),綜上提出了加權(quán)極限學(xué)習(xí)機(jī)(WELM);Zhang和Ji[5]通過插入一個(gè)模糊矩陣來對(duì)懲罰因子的分布進(jìn)行調(diào)整,由此提出模糊極限學(xué)習(xí)機(jī)(FELM),但研究人員并未給模糊矩陣提供統(tǒng)一的設(shè)計(jì)規(guī)則;Xia 等[6]為解決類別不平衡問題[7],將核聚類與FELM相結(jié)合,提出基于核聚類的可能性模糊極限學(xué)習(xí)機(jī)(PFELM);Li 等[8]借鑒Boosting 框架可以自動(dòng)更新訓(xùn)練樣本的權(quán)重,將其與WELM 結(jié)合;Vong 等[9]提出一種解決方案,為提高對(duì)懸浮顆粒物水平的識(shí)別率,利用一種改進(jìn)的隨機(jī)過采樣;Sun 等[10]為更好預(yù)測(cè)公司的生命周期,將合成少數(shù)類過采樣技術(shù)(SMOTE)[11]集成到ELM中;Mirza 等[12]提出了子集在線順序極限學(xué)習(xí)機(jī)(ESOS-ELM)的集成算法,以實(shí)現(xiàn)增量式類別不平衡學(xué)習(xí),其中使用了變化檢測(cè)機(jī)制來檢測(cè)概念漂移。楊澤平[13]通過研究量子行為粒子群優(yōu)化算法,發(fā)現(xiàn)其有助于提升極限學(xué)習(xí)機(jī)的性能,提出了量子行為粒子群優(yōu)化極限學(xué)習(xí)機(jī);唐曉芬[14]所提出的基于自適應(yīng)差分進(jìn)化算法優(yōu)化加權(quán)極限學(xué)習(xí)機(jī),提升了加權(quán)極限學(xué)習(xí)機(jī)的泛化性能和穩(wěn)定性。但是,以上算法對(duì)ELM 在類別不平衡數(shù)據(jù)上的分類性能提升并不明顯。
在本文中,基于加權(quán)極限學(xué)習(xí)機(jī),融合模糊加權(quán)的理念,提出一種魯棒性更強(qiáng)的新概念——相對(duì)密度信息,該方法是通過K近鄰概率密度估計(jì)策略計(jì)算各訓(xùn)練樣本間的相對(duì)密度,可以避免在高維空間下直接進(jìn)行概率密度的計(jì)算,然后進(jìn)行隸屬函數(shù)的設(shè)計(jì),模糊化和個(gè)性化設(shè)置每個(gè)樣本的權(quán)重,通過以上方法生成的權(quán)重矩陣來代替加權(quán)極限學(xué)習(xí)機(jī)中的權(quán)重矩陣,從而設(shè)計(jì)出基于類內(nèi)相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)和基于類間相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)。最后通過從Keel 數(shù)據(jù)庫(kù)[15]隨機(jī)獲取的20 個(gè)二元不平衡數(shù)據(jù)集,對(duì)所提兩種算法是否有效及可行進(jìn)行驗(yàn)證。根據(jù)實(shí)驗(yàn)結(jié)果,與流行的類別不平衡學(xué)習(xí)算法相比,所提算法在G-mean 等評(píng)價(jià)指標(biāo)上具有較優(yōu)表現(xiàn),因此所提算法構(gòu)造的預(yù)測(cè)模型具有更好的預(yù)測(cè)性能。
在本節(jié)中,首先介紹相對(duì)密度估計(jì)策略,然后介紹如何利用它來設(shè)計(jì)模糊隸屬函數(shù),最后描述所提出算法的流程。
在本節(jié)中,提出了一種方法,這種方法不必精確地測(cè)量每個(gè)訓(xùn)練樣本的概率密度,只需要提取任意兩個(gè)訓(xùn)練樣本之間的概率密度的比例關(guān)系,把反映比例關(guān)系的信息稱為相對(duì)密度。
K 近鄰的概率密度估計(jì)(KNN-PDE)是一種非參數(shù)概率密度估計(jì)方法,為了估計(jì)多維連續(xù)空間中的概率密度分布,可以通過測(cè)量每個(gè)訓(xùn)練樣本的K近鄰距離,并且當(dāng)訓(xùn)練樣本數(shù)達(dá)到無窮大,獲得結(jié)果可近似收斂到實(shí)際概率密度分布。基于以上策略,可獲得需要的相對(duì)密度。
假設(shè)有一個(gè)包含N個(gè)樣本的數(shù)據(jù)集,則對(duì)于每個(gè)樣本xi,都可以找到第K個(gè)近鄰并將它們之間的距離記錄為。越大,樣本xi的密度就越低。同時(shí),在低密度區(qū)域中會(huì)出現(xiàn)噪聲或離群值,可以使用作為評(píng)估每個(gè)樣本重要性的度量。要為高密度樣本提供較大的值,為低密度樣本提供較低的值(例如,噪聲和離群值),應(yīng)將轉(zhuǎn)換為其倒數(shù),即。而相對(duì)密度就是樣本的K近鄰距離的倒數(shù)。因此,隨機(jī)選取兩個(gè)樣本,它們相對(duì)密度的比例關(guān)系恰好和它們K近鄰距離的比例關(guān)系相等,如
同樣,對(duì)于相對(duì)密度,參數(shù)K的選擇非常重要。如果K值太小,則無法將某些噪聲和離群值與那些正常樣本區(qū)分開,倘若K值過大,那么重要樣本與噪聲或離群值將很難被區(qū)分,有些很小析取也不會(huì)被捕獲。因此,建議為參數(shù)K分配一個(gè)適當(dāng)?shù)闹?。在本文中,根?jù)經(jīng)驗(yàn),K默認(rèn)設(shè)置為,其中N表示訓(xùn)練樣本的數(shù)量。
基于相對(duì)密度,本文設(shè)計(jì)了基于類內(nèi)相對(duì)密度信息的模糊隸屬函數(shù)和基于類間相對(duì)密度信息的模糊隸屬函數(shù)。
其中Nc表示xi所屬的類的樣本數(shù)。通過上述模糊隸屬函數(shù)計(jì)算所得的模糊隸屬值,它不需要考慮樣本數(shù),也能反映類內(nèi)的相對(duì)密度。因此,它將對(duì)數(shù)據(jù)分布規(guī)模的方差魯棒性更強(qiáng)。另外,由于每個(gè)類別都是獨(dú)立處理的,因此適應(yīng)類別不平衡問題。
2)基于類間的相對(duì)密度信息。在此方法中,f(xi)與估計(jì)的類邊界聯(lián)系緊密,較高的隸屬值將被分配給更加接近估計(jì)的類邊界的樣本。根據(jù)不同的密度分布情況及樣本特征,將樣本分為四種,以此來更加精確地估計(jì)類邊界。樣本分為正類值,臨界值,噪聲和離群值。圖1 是以上四種樣本的可視化描述,其特征如下:
(1)正類值:該樣本主要出現(xiàn)在自身所屬類別密度較高的區(qū)域,也有部分在其它類別密度較低的區(qū)域出現(xiàn);
(2)臨界值:該樣本出現(xiàn)在兩個(gè)類別的中低密度區(qū)域中,而在其自身所屬類別中的密度較另一個(gè)類別的密度更高;
(3)噪聲:該樣本出現(xiàn)在同類別密度較低區(qū)域,或者出現(xiàn)在不同類別密度較高區(qū)域;
(4)離群值:該樣本在兩類別密度都較低的區(qū)域中出現(xiàn)。
依據(jù)上述特征,邊界可被定位。首先,針對(duì)不同的情況,可以將其類內(nèi)相對(duì)密度與類間相對(duì)密度進(jìn)行比較,以找到可以用判別器檢測(cè)到的噪聲。如果樣本xi來自正類,則其判別描述如下:
其中d′ 表示僅使用其它類別中的樣本計(jì)算的距離,N+和N-分別表示正類別和負(fù)類別的樣本數(shù),提供了向上取整運(yùn)算,IR是等于的類別不平衡比率。如果xi來自負(fù)類,則判別式修改為
提取滿足式(3)和式(4)中判別式條件的所有樣本,稱其為噪聲,并為這些噪聲分配隸屬值λ,λ的值很小。
然后,為其它樣本的隸屬值分配類間相對(duì)密度信息。下列分段函數(shù)可表示模糊隸屬函數(shù):
其中Nc1和Nc2分別表示屬于同一類別xi內(nèi)屬于無噪聲和噪聲的樣本數(shù),有Nc1+Nc2=N。
本節(jié)描述分別基于兩種不同的模糊隸屬函數(shù)構(gòu)建的算法的流程,即基于類內(nèi)相對(duì)密度信息的算法(FWELM-ID)和基于類間相對(duì)密度信息的算法(FWELM-TD),它們的流程簡(jiǎn)要描述如下。
2.3.1 FWELM-ID
輸入:訓(xùn)練集θ={(x1,y1),(x2,y2),…,(xN,yN)},其中yi?{+,-},懲罰因子C,隱藏層神經(jīng)元數(shù)L
步驟:
1)將θ分成θ+和θ-,這兩個(gè)數(shù)據(jù)集分別只包含正類樣本和負(fù)類樣本;
2)計(jì)算兩個(gè)數(shù)據(jù)集的樣本數(shù),將θ+的樣本數(shù)記為N+,將θ-的樣本數(shù)記為N-,滿足N++N-=N;
3)計(jì)算正類樣本的參數(shù)K+,記作K+=,計(jì)算負(fù)類樣本的參數(shù)K-,記作K-=
5)通過式(1)計(jì)算θ里的每個(gè)樣本xi的相對(duì)密度,然后通過式(2)計(jì)算它的隸屬函數(shù)值f(xi) ;6)將隸屬函數(shù)值f(xi) 嵌入到WELM 的加權(quán)矩陣Wii中;
7)用懲罰因子C,隱藏層神經(jīng)元數(shù)L 訓(xùn)練WELM,獲得新的權(quán)值矩陣。
2.3.2 FWELM-TD
輸入:訓(xùn)練集θ={(x1,y1),(x2,y2),…,(xN,yN)},其中yi?{+,-},懲罰因子C,隱藏層神經(jīng)元數(shù)L
步驟:
1)將θ分成θ+和θ-,這兩個(gè)數(shù)據(jù)集分別只包含正類樣本和負(fù)類樣本;
2)計(jì)算兩個(gè)數(shù)據(jù)集的樣本數(shù),將θ+的樣本數(shù)記 為N+,將θ-的樣本數(shù)記為N-,滿 足N++N-=N;
4)計(jì)算正類樣本的參數(shù)K+,記作,計(jì)算負(fù)類樣本的參數(shù)K-,記作
5)對(duì)于θ+里的每個(gè)樣本,計(jì)算它在θ+里的K+近鄰距離及在θ-里的K-近鄰距離并分別記為,同樣地,對(duì)于θ-里的每個(gè)樣本,計(jì)算它在θ-里的K-近鄰距離及在θ+里的K+近鄰距離并分別記為;
6)計(jì)算每個(gè)樣本的相對(duì)密度并分別通過式(3)和式(4)找出兩種不同類內(nèi)的噪聲樣本;
7)通過式(5)計(jì)算每個(gè)樣本xi的隸屬函數(shù)值Si;
8)將隸屬函數(shù)值f(xi) 嵌入到WELM 的加權(quán)矩陣Wii中;
9)用懲罰因子C,隱藏層神經(jīng)元數(shù)L 訓(xùn)練WELM,獲得新的權(quán)值矩陣。
本文采用5 折交叉驗(yàn)證,將提出的FWELM-ID、FWELM-TD 與其它十種算法在從Keel 倉(cāng)庫(kù)隨機(jī)獲取的20 個(gè)二元不平衡數(shù)據(jù)集上進(jìn)行了比較,數(shù)據(jù)集信息如表1所列。
表1 數(shù)據(jù)集信息
在實(shí)驗(yàn)中,本文對(duì)所有和ELM 相關(guān)算法中的隱藏層節(jié)點(diǎn)數(shù)L定為100,懲罰因子C 定為212,以此使得實(shí)驗(yàn)對(duì)比結(jié)果公正。
本文采用了G-mean 指標(biāo)[16]來衡量算法的性能。表2 列出了12 種算法在20 個(gè)數(shù)據(jù)集上的G-mean的平均值,粗體表示最佳結(jié)果,下劃線表示次優(yōu),斜體表示最差。根據(jù)表3,我們得出如下結(jié)論:
表2 各類算法的G-mean測(cè)度比較
1)ELM 的表現(xiàn)最差,在11 個(gè)數(shù)據(jù)集中提供了最低的G-mean值。與ELM相比,其它11種算法能夠或多或少地提高分類性能。
2)與其它算法相比,WELM2和RUS-ELM都缺少穩(wěn)定性。WELM2 傾向于過度調(diào)整分類,而RUS-ELM 則傾向于丟棄一些重要的分類信息,導(dǎo)致學(xué)習(xí)分類邊界的隨機(jī)性。。
3)SMOTE-ELM 和RWOS-ELM 的性能都比ROS-ELM 好,ROS傾向于使分類器過度擬合,因?yàn)樗皇呛?jiǎn)單地復(fù)制了原始分類器樣本,SMOTE 和RWOS 使得分類器的泛化能力提高,均可以采取合成泛化能力的方法。另外,RWOS 讓少數(shù)類的分類邊界擴(kuò)大。然而,與SMOTE 相比,RWOS 沒有優(yōu)勢(shì)。
4)對(duì)于兩種復(fù)雜的加權(quán)ELM,BWELM 明顯比PFELM 表現(xiàn)出色,因?yàn)镻FELM 只考慮原始數(shù)據(jù)分布的信息,但是BWELM 可以專注于那些易犯錯(cuò)誤的樣本,采用boosting 集成學(xué)習(xí)框架可以在很大程度上提高分類器的泛化能力。
5)FWELM-ID取得了6次最佳G-mean值,4次次最佳G-mean 值。FWELM-TD 取得了2 次最佳G-mean 值,7 次最佳G-mean 值。和ODOC-相比,F(xiàn)WELM-ID 和FWELM-TD 嵌入了更復(fù)雜的優(yōu)化技術(shù),可以明顯提高分類性能。兩種算法均精確地提取任意兩個(gè)訓(xùn)練樣本間的概率密度的比例關(guān)系,而不必按照原來的方法,即精確地測(cè)量每個(gè)訓(xùn)練樣本的概率密度。
此外,本文用Friedman檢驗(yàn)來對(duì)各算法在所有數(shù)據(jù)集上的性能,按G-mean 計(jì)算它們的排序值、P值、Holm 值和假設(shè),其中,顯著性水平α設(shè)為0.05。統(tǒng)計(jì)分析結(jié)果如表3所列。
從表3 可以看出,F(xiàn)WELM-ID 的排序值最小,即排名為1,這表明在所有算法中,該算法的預(yù)測(cè)性能最好。FWELM-TD 的排序值第三小,即排名為3,這表明在所有算法中,該算法的預(yù)測(cè)性能較好。從普遍性上看,本文所提的兩種算法與ROS-ELM、SMOTE-ELM、BWELM 和ODOC-ELM之間的差異并不明顯。
考慮到代價(jià)敏感學(xué)習(xí)存在未考慮樣本在特征空間中的具體分布情況的缺陷,本文提出了兩種基于相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)。所提算法基于加權(quán)極限學(xué)習(xí)機(jī),融合模糊加權(quán)的理念,提出一種魯棒性更強(qiáng)的新概念——相對(duì)密度信息,該方法是通過K近鄰概率密度估計(jì)策略計(jì)算各訓(xùn)練樣本間的相對(duì)密度,可以避免在高維空間下直接進(jìn)行概率密度的計(jì)算,然后進(jìn)行隸屬函數(shù)的設(shè)計(jì),模糊化和個(gè)性化設(shè)置每個(gè)樣本的權(quán)重,通過以上方法生成的權(quán)重矩陣來代替加權(quán)極限學(xué)習(xí)機(jī)中的權(quán)重矩陣。最后通過從Keel 倉(cāng)庫(kù)隨機(jī)獲取的20個(gè)二元不平衡數(shù)據(jù)集,對(duì)所提兩種算法是否有效及可行進(jìn)行驗(yàn)證。根據(jù)實(shí)驗(yàn)結(jié)果,與流行的類別不平衡學(xué)習(xí)算法相比,所提算法在G-mean 等評(píng)價(jià)指標(biāo)上具有較優(yōu)表現(xiàn),因此所提算法構(gòu)造的預(yù)測(cè)模型具有更好的預(yù)測(cè)性能。
此外,如何進(jìn)行參數(shù)K 的選擇以及降低算法的時(shí)間復(fù)雜度,需要在今后的研究工作中繼續(xù)探索。