亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)?

2023-11-21 06:17:36劉毅鵬

計(jì)算機(jī)與數(shù)字工程 2023年8期

劉毅鵬高尚

（江蘇科技大學(xué) 鎮(zhèn)江 212000）

1 引言

通過利用代價(jià)敏感學(xué)習(xí)，研究人員已解決許多類別不平衡問題。在訓(xùn)練集訓(xùn)練分類模型時(shí)保證誤分代價(jià)最小化，而不是保證樣本的整體誤差最小化，此為代價(jià)敏感學(xué)習(xí)的思想，是代價(jià)敏感學(xué)習(xí)從算法層解決類別不平衡問題的體現(xiàn)。若要獲得無偏的分類面，就需要對(duì)少數(shù)類樣本的誤差施以更大的懲罰，也就是賦予其更大的代價(jià)權(quán)重，而對(duì)于多數(shù)類樣本，則反其道而行之。

極限學(xué)習(xí)機(jī)（ELM）［1］有以下兩個(gè)優(yōu)點(diǎn)，一是泛化能力強(qiáng)，二是訓(xùn)練速度快［2-3］，但其分類性能會(huì)因數(shù)據(jù)集中樣本分布不平衡而下降。Zong 等［4］利用代價(jià)敏感學(xué)習(xí)技術(shù)，為突出少數(shù)類，給不同類別的訓(xùn)練錯(cuò)誤設(shè)置不同的懲罰代價(jià)，綜上提出了加權(quán)極限學(xué)習(xí)機(jī)（WELM）；Zhang和Ji［5］通過插入一個(gè)模糊矩陣來對(duì)懲罰因子的分布進(jìn)行調(diào)整，由此提出模糊極限學(xué)習(xí)機(jī)（FELM），但研究人員并未給模糊矩陣提供統(tǒng)一的設(shè)計(jì)規(guī)則；Xia 等［6］為解決類別不平衡問題［7］，將核聚類與FELM相結(jié)合，提出基于核聚類的可能性模糊極限學(xué)習(xí)機(jī)（PFELM）；Li 等［8］借鑒Boosting 框架可以自動(dòng)更新訓(xùn)練樣本的權(quán)重，將其與WELM 結(jié)合；Vong 等［9］提出一種解決方案，為提高對(duì)懸浮顆粒物水平的識(shí)別率，利用一種改進(jìn)的隨機(jī)過采樣；Sun 等［10］為更好預(yù)測(cè)公司的生命周期，將合成少數(shù)類過采樣技術(shù)（SMOTE）［11］集成到ELM中；Mirza 等［12］提出了子集在線順序極限學(xué)習(xí)機(jī)（ESOS-ELM）的集成算法，以實(shí)現(xiàn)增量式類別不平衡學(xué)習(xí)，其中使用了變化檢測(cè)機(jī)制來檢測(cè)概念漂移。楊澤平［13］通過研究量子行為粒子群優(yōu)化算法，發(fā)現(xiàn)其有助于提升極限學(xué)習(xí)機(jī)的性能，提出了量子行為粒子群優(yōu)化極限學(xué)習(xí)機(jī)；唐曉芬［14］所提出的基于自適應(yīng)差分進(jìn)化算法優(yōu)化加權(quán)極限學(xué)習(xí)機(jī)，提升了加權(quán)極限學(xué)習(xí)機(jī)的泛化性能和穩(wěn)定性。但是，以上算法對(duì)ELM 在類別不平衡數(shù)據(jù)上的分類性能提升并不明顯。

在本文中，基于加權(quán)極限學(xué)習(xí)機(jī)，融合模糊加權(quán)的理念，提出一種魯棒性更強(qiáng)的新概念——相對(duì)密度信息，該方法是通過K近鄰概率密度估計(jì)策略計(jì)算各訓(xùn)練樣本間的相對(duì)密度，可以避免在高維空間下直接進(jìn)行概率密度的計(jì)算，然后進(jìn)行隸屬函數(shù)的設(shè)計(jì)，模糊化和個(gè)性化設(shè)置每個(gè)樣本的權(quán)重，通過以上方法生成的權(quán)重矩陣來代替加權(quán)極限學(xué)習(xí)機(jī)中的權(quán)重矩陣，從而設(shè)計(jì)出基于類內(nèi)相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)和基于類間相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)。最后通過從Keel 數(shù)據(jù)庫(kù)［15］隨機(jī)獲取的20 個(gè)二元不平衡數(shù)據(jù)集，對(duì)所提兩種算法是否有效及可行進(jìn)行驗(yàn)證。根據(jù)實(shí)驗(yàn)結(jié)果，與流行的類別不平衡學(xué)習(xí)算法相比，所提算法在G-mean 等評(píng)價(jià)指標(biāo)上具有較優(yōu)表現(xiàn)，因此所提算法構(gòu)造的預(yù)測(cè)模型具有更好的預(yù)測(cè)性能。

2 本文方法

在本節(jié)中，首先介紹相對(duì)密度估計(jì)策略，然后介紹如何利用它來設(shè)計(jì)模糊隸屬函數(shù)，最后描述所提出算法的流程。

2.1 相對(duì)密度估計(jì)策略

在本節(jié)中，提出了一種方法，這種方法不必精確地測(cè)量每個(gè)訓(xùn)練樣本的概率密度，只需要提取任意兩個(gè)訓(xùn)練樣本之間的概率密度的比例關(guān)系，把反映比例關(guān)系的信息稱為相對(duì)密度。

K 近鄰的概率密度估計(jì)（KNN-PDE）是一種非參數(shù)概率密度估計(jì)方法，為了估計(jì)多維連續(xù)空間中的概率密度分布，可以通過測(cè)量每個(gè)訓(xùn)練樣本的K近鄰距離，并且當(dāng)訓(xùn)練樣本數(shù)達(dá)到無窮大，獲得結(jié)果可近似收斂到實(shí)際概率密度分布。基于以上策略，可獲得需要的相對(duì)密度。

假設(shè)有一個(gè)包含N個(gè)樣本的數(shù)據(jù)集，則對(duì)于每個(gè)樣本xi，都可以找到第K個(gè)近鄰并將它們之間的距離記錄為。越大，樣本xi的密度就越低。同時(shí)，在低密度區(qū)域中會(huì)出現(xiàn)噪聲或離群值，可以使用作為評(píng)估每個(gè)樣本重要性的度量。要為高密度樣本提供較大的值，為低密度樣本提供較低的值（例如，噪聲和離群值），應(yīng)將轉(zhuǎn)換為其倒數(shù)，即。而相對(duì)密度就是樣本的K近鄰距離的倒數(shù)。因此，隨機(jī)選取兩個(gè)樣本，它們相對(duì)密度的比例關(guān)系恰好和它們K近鄰距離的比例關(guān)系相等，如

同樣，對(duì)于相對(duì)密度，參數(shù)K的選擇非常重要。如果K值太小，則無法將某些噪聲和離群值與那些正常樣本區(qū)分開，倘若K值過大，那么重要樣本與噪聲或離群值將很難被區(qū)分，有些很小析取也不會(huì)被捕獲。因此，建議為參數(shù)K分配一個(gè)適當(dāng)?shù)闹?。在本文中，根?jù)經(jīng)驗(yàn)，K默認(rèn)設(shè)置為，其中N表示訓(xùn)練樣本的數(shù)量。

2.2 關(guān)于模糊隸屬函數(shù)的設(shè)計(jì)

基于相對(duì)密度，本文設(shè)計(jì)了基于類內(nèi)相對(duì)密度信息的模糊隸屬函數(shù)和基于類間相對(duì)密度信息的模糊隸屬函數(shù)。

其中Nc表示xi所屬的類的樣本數(shù)。通過上述模糊隸屬函數(shù)計(jì)算所得的模糊隸屬值，它不需要考慮樣本數(shù)，也能反映類內(nèi)的相對(duì)密度。因此，它將對(duì)數(shù)據(jù)分布規(guī)模的方差魯棒性更強(qiáng)。另外，由于每個(gè)類別都是獨(dú)立處理的，因此適應(yīng)類別不平衡問題。

2）基于類間的相對(duì)密度信息。在此方法中，f(xi)與估計(jì)的類邊界聯(lián)系緊密，較高的隸屬值將被分配給更加接近估計(jì)的類邊界的樣本。根據(jù)不同的密度分布情況及樣本特征，將樣本分為四種，以此來更加精確地估計(jì)類邊界。樣本分為正類值，臨界值，噪聲和離群值。圖1 是以上四種樣本的可視化描述，其特征如下：

（1）正類值：該樣本主要出現(xiàn)在自身所屬類別密度較高的區(qū)域，也有部分在其它類別密度較低的區(qū)域出現(xiàn)；

（2）臨界值：該樣本出現(xiàn)在兩個(gè)類別的中低密度區(qū)域中，而在其自身所屬類別中的密度較另一個(gè)類別的密度更高；

（3）噪聲：該樣本出現(xiàn)在同類別密度較低區(qū)域，或者出現(xiàn)在不同類別密度較高區(qū)域；

（4）離群值：該樣本在兩類別密度都較低的區(qū)域中出現(xiàn)。

依據(jù)上述特征，邊界可被定位。首先，針對(duì)不同的情況，可以將其類內(nèi)相對(duì)密度與類間相對(duì)密度進(jìn)行比較，以找到可以用判別器檢測(cè)到的噪聲。如果樣本xi來自正類，則其判別描述如下：

其中d′ 表示僅使用其它類別中的樣本計(jì)算的距離，N+和N-分別表示正類別和負(fù)類別的樣本數(shù)，提供了向上取整運(yùn)算，IR是等于的類別不平衡比率。如果xi來自負(fù)類，則判別式修改為

提取滿足式（3）和式（4）中判別式條件的所有樣本，稱其為噪聲，并為這些噪聲分配隸屬值λ，λ的值很小。

然后，為其它樣本的隸屬值分配類間相對(duì)密度信息。下列分段函數(shù)可表示模糊隸屬函數(shù)：

其中Nc1和Nc2分別表示屬于同一類別xi內(nèi)屬于無噪聲和噪聲的樣本數(shù)，有Nc1+Nc2=N。

2.3 提出算法的流程描述

本節(jié)描述分別基于兩種不同的模糊隸屬函數(shù)構(gòu)建的算法的流程，即基于類內(nèi)相對(duì)密度信息的算法（FWELM-ID）和基于類間相對(duì)密度信息的算法（FWELM-TD），它們的流程簡(jiǎn)要描述如下。

2.3.1 FWELM-ID

輸入：訓(xùn)練集θ={(x1,y1),(x2,y2),…,(xN,yN)}，其中yi?{+,-}，懲罰因子C，隱藏層神經(jīng)元數(shù)L

步驟：

1）將θ分成θ+和θ-，這兩個(gè)數(shù)據(jù)集分別只包含正類樣本和負(fù)類樣本；

2）計(jì)算兩個(gè)數(shù)據(jù)集的樣本數(shù)，將θ+的樣本數(shù)記為N+，將θ-的樣本數(shù)記為N-，滿足N++N-=N；

3）計(jì)算正類樣本的參數(shù)K+，記作K+=，計(jì)算負(fù)類樣本的參數(shù)K-，記作K-=

5）通過式（1）計(jì)算θ里的每個(gè)樣本xi的相對(duì)密度，然后通過式（2）計(jì)算它的隸屬函數(shù)值f(xi) ；6）將隸屬函數(shù)值f(xi) 嵌入到WELM 的加權(quán)矩陣Wii中；

7）用懲罰因子C，隱藏層神經(jīng)元數(shù)L 訓(xùn)練WELM，獲得新的權(quán)值矩陣。

2.3.2 FWELM-TD

輸入：訓(xùn)練集θ={(x1,y1),(x2,y2),…,(xN,yN)}，其中yi?{+,-}，懲罰因子C，隱藏層神經(jīng)元數(shù)L

步驟：

1）將θ分成θ+和θ-，這兩個(gè)數(shù)據(jù)集分別只包含正類樣本和負(fù)類樣本；

2）計(jì)算兩個(gè)數(shù)據(jù)集的樣本數(shù)，將θ+的樣本數(shù)記為N+，將θ-的樣本數(shù)記為N-，滿足N++N-=N；

4）計(jì)算正類樣本的參數(shù)K+，記作，計(jì)算負(fù)類樣本的參數(shù)K-，記作

5）對(duì)于θ+里的每個(gè)樣本，計(jì)算它在θ+里的K+近鄰距離及在θ-里的K-近鄰距離并分別記為，同樣地，對(duì)于θ-里的每個(gè)樣本，計(jì)算它在θ-里的K-近鄰距離及在θ+里的K+近鄰距離并分別記為；

6）計(jì)算每個(gè)樣本的相對(duì)密度并分別通過式（3）和式（4）找出兩種不同類內(nèi)的噪聲樣本；

7）通過式（5）計(jì)算每個(gè)樣本xi的隸屬函數(shù)值Si；

8）將隸屬函數(shù)值f(xi) 嵌入到WELM 的加權(quán)矩陣Wii中；

9）用懲罰因子C，隱藏層神經(jīng)元數(shù)L 訓(xùn)練WELM，獲得新的權(quán)值矩陣。

3 實(shí)驗(yàn)驗(yàn)證

3.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

本文采用5 折交叉驗(yàn)證，將提出的FWELM-ID、FWELM-TD 與其它十種算法在從Keel 倉(cāng)庫(kù)隨機(jī)獲取的20 個(gè)二元不平衡數(shù)據(jù)集上進(jìn)行了比較，數(shù)據(jù)集信息如表1所列。

表1 數(shù)據(jù)集信息

在實(shí)驗(yàn)中，本文對(duì)所有和ELM 相關(guān)算法中的隱藏層節(jié)點(diǎn)數(shù)L定為100，懲罰因子C 定為212，以此使得實(shí)驗(yàn)對(duì)比結(jié)果公正。

3.2 實(shí)驗(yàn)結(jié)果與討論

本文采用了G-mean 指標(biāo)［16］來衡量算法的性能。表2 列出了12 種算法在20 個(gè)數(shù)據(jù)集上的G-mean的平均值，粗體表示最佳結(jié)果，下劃線表示次優(yōu)，斜體表示最差。根據(jù)表3，我們得出如下結(jié)論：

表2 各類算法的G-mean測(cè)度比較

1）ELM 的表現(xiàn)最差，在11 個(gè)數(shù)據(jù)集中提供了最低的G-mean值。與ELM相比，其它11種算法能夠或多或少地提高分類性能。

2）與其它算法相比，WELM2和RUS-ELM都缺少穩(wěn)定性。WELM2 傾向于過度調(diào)整分類，而RUS-ELM 則傾向于丟棄一些重要的分類信息，導(dǎo)致學(xué)習(xí)分類邊界的隨機(jī)性。。

3）SMOTE-ELM 和RWOS-ELM 的性能都比ROS-ELM 好，ROS傾向于使分類器過度擬合，因?yàn)樗皇呛?jiǎn)單地復(fù)制了原始分類器樣本，SMOTE 和RWOS 使得分類器的泛化能力提高，均可以采取合成泛化能力的方法。另外，RWOS 讓少數(shù)類的分類邊界擴(kuò)大。然而，與SMOTE 相比，RWOS 沒有優(yōu)勢(shì)。

4）對(duì)于兩種復(fù)雜的加權(quán)ELM，BWELM 明顯比PFELM 表現(xiàn)出色，因?yàn)镻FELM 只考慮原始數(shù)據(jù)分布的信息，但是BWELM 可以專注于那些易犯錯(cuò)誤的樣本，采用boosting 集成學(xué)習(xí)框架可以在很大程度上提高分類器的泛化能力。

5）FWELM-ID取得了6次最佳G-mean值，4次次最佳G-mean 值。FWELM-TD 取得了2 次最佳G-mean 值，7 次最佳G-mean 值。和ODOC-相比，F(xiàn)WELM-ID 和FWELM-TD 嵌入了更復(fù)雜的優(yōu)化技術(shù)，可以明顯提高分類性能。兩種算法均精確地提取任意兩個(gè)訓(xùn)練樣本間的概率密度的比例關(guān)系，而不必按照原來的方法，即精確地測(cè)量每個(gè)訓(xùn)練樣本的概率密度。

此外，本文用Friedman檢驗(yàn)來對(duì)各算法在所有數(shù)據(jù)集上的性能，按G-mean 計(jì)算它們的排序值、P值、Holm 值和假設(shè)，其中，顯著性水平α設(shè)為0.05。統(tǒng)計(jì)分析結(jié)果如表3所列。

從表3 可以看出，F(xiàn)WELM-ID 的排序值最小，即排名為1，這表明在所有算法中，該算法的預(yù)測(cè)性能最好。FWELM-TD 的排序值第三小，即排名為3，這表明在所有算法中，該算法的預(yù)測(cè)性能較好。從普遍性上看，本文所提的兩種算法與ROS-ELM、SMOTE-ELM、BWELM 和ODOC-ELM之間的差異并不明顯。

4 結(jié)語

考慮到代價(jià)敏感學(xué)習(xí)存在未考慮樣本在特征空間中的具體分布情況的缺陷，本文提出了兩種基于相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)。所提算法基于加權(quán)極限學(xué)習(xí)機(jī)，融合模糊加權(quán)的理念，提出一種魯棒性更強(qiáng)的新概念——相對(duì)密度信息，該方法是通過K近鄰概率密度估計(jì)策略計(jì)算各訓(xùn)練樣本間的相對(duì)密度，可以避免在高維空間下直接進(jìn)行概率密度的計(jì)算，然后進(jìn)行隸屬函數(shù)的設(shè)計(jì)，模糊化和個(gè)性化設(shè)置每個(gè)樣本的權(quán)重，通過以上方法生成的權(quán)重矩陣來代替加權(quán)極限學(xué)習(xí)機(jī)中的權(quán)重矩陣。最后通過從Keel 倉(cāng)庫(kù)隨機(jī)獲取的20個(gè)二元不平衡數(shù)據(jù)集，對(duì)所提兩種算法是否有效及可行進(jìn)行驗(yàn)證。根據(jù)實(shí)驗(yàn)結(jié)果，與流行的類別不平衡學(xué)習(xí)算法相比，所提算法在G-mean 等評(píng)價(jià)指標(biāo)上具有較優(yōu)表現(xiàn)，因此所提算法構(gòu)造的預(yù)測(cè)模型具有更好的預(yù)測(cè)性能。

此外，如何進(jìn)行參數(shù)K 的選擇以及降低算法的時(shí)間復(fù)雜度，需要在今后的研究工作中繼續(xù)探索。

計(jì)算機(jī)與數(shù)字工程2023年8期

計(jì)算機(jī)與數(shù)字工程的其它文章: 版權(quán)聲明; 基于聯(lián)邦學(xué)習(xí)的電力施工場(chǎng)景分類?; 基于距離異常點(diǎn)的機(jī)械比能評(píng)價(jià)儲(chǔ)層物性研究?; 新辟國(guó)際航線市場(chǎng)旅客需求預(yù)測(cè)?; 輸電線路貨運(yùn)路徑規(guī)劃算法?; 基于雙環(huán)設(shè)計(jì)的PD 垂直起降飛行器軌跡跟蹤控制?