亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)?

        2023-11-21 06:17:36劉毅鵬

        劉毅鵬 高 尚

        (江蘇科技大學(xué) 鎮(zhèn)江 212000)

        1 引言

        通過利用代價(jià)敏感學(xué)習(xí),研究人員已解決許多類別不平衡問題。在訓(xùn)練集訓(xùn)練分類模型時(shí)保證誤分代價(jià)最小化,而不是保證樣本的整體誤差最小化,此為代價(jià)敏感學(xué)習(xí)的思想,是代價(jià)敏感學(xué)習(xí)從算法層解決類別不平衡問題的體現(xiàn)。若要獲得無偏的分類面,就需要對(duì)少數(shù)類樣本的誤差施以更大的懲罰,也就是賦予其更大的代價(jià)權(quán)重,而對(duì)于多數(shù)類樣本,則反其道而行之。

        極限學(xué)習(xí)機(jī)(ELM)[1]有以下兩個(gè)優(yōu)點(diǎn),一是泛化能力強(qiáng),二是訓(xùn)練速度快[2-3],但其分類性能會(huì)因數(shù)據(jù)集中樣本分布不平衡而下降。Zong 等[4]利用代價(jià)敏感學(xué)習(xí)技術(shù),為突出少數(shù)類,給不同類別的訓(xùn)練錯(cuò)誤設(shè)置不同的懲罰代價(jià),綜上提出了加權(quán)極限學(xué)習(xí)機(jī)(WELM);Zhang和Ji[5]通過插入一個(gè)模糊矩陣來對(duì)懲罰因子的分布進(jìn)行調(diào)整,由此提出模糊極限學(xué)習(xí)機(jī)(FELM),但研究人員并未給模糊矩陣提供統(tǒng)一的設(shè)計(jì)規(guī)則;Xia 等[6]為解決類別不平衡問題[7],將核聚類與FELM相結(jié)合,提出基于核聚類的可能性模糊極限學(xué)習(xí)機(jī)(PFELM);Li 等[8]借鑒Boosting 框架可以自動(dòng)更新訓(xùn)練樣本的權(quán)重,將其與WELM 結(jié)合;Vong 等[9]提出一種解決方案,為提高對(duì)懸浮顆粒物水平的識(shí)別率,利用一種改進(jìn)的隨機(jī)過采樣;Sun 等[10]為更好預(yù)測(cè)公司的生命周期,將合成少數(shù)類過采樣技術(shù)(SMOTE)[11]集成到ELM中;Mirza 等[12]提出了子集在線順序極限學(xué)習(xí)機(jī)(ESOS-ELM)的集成算法,以實(shí)現(xiàn)增量式類別不平衡學(xué)習(xí),其中使用了變化檢測(cè)機(jī)制來檢測(cè)概念漂移。楊澤平[13]通過研究量子行為粒子群優(yōu)化算法,發(fā)現(xiàn)其有助于提升極限學(xué)習(xí)機(jī)的性能,提出了量子行為粒子群優(yōu)化極限學(xué)習(xí)機(jī);唐曉芬[14]所提出的基于自適應(yīng)差分進(jìn)化算法優(yōu)化加權(quán)極限學(xué)習(xí)機(jī),提升了加權(quán)極限學(xué)習(xí)機(jī)的泛化性能和穩(wěn)定性。但是,以上算法對(duì)ELM 在類別不平衡數(shù)據(jù)上的分類性能提升并不明顯。

        在本文中,基于加權(quán)極限學(xué)習(xí)機(jī),融合模糊加權(quán)的理念,提出一種魯棒性更強(qiáng)的新概念——相對(duì)密度信息,該方法是通過K近鄰概率密度估計(jì)策略計(jì)算各訓(xùn)練樣本間的相對(duì)密度,可以避免在高維空間下直接進(jìn)行概率密度的計(jì)算,然后進(jìn)行隸屬函數(shù)的設(shè)計(jì),模糊化和個(gè)性化設(shè)置每個(gè)樣本的權(quán)重,通過以上方法生成的權(quán)重矩陣來代替加權(quán)極限學(xué)習(xí)機(jī)中的權(quán)重矩陣,從而設(shè)計(jì)出基于類內(nèi)相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)和基于類間相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)。最后通過從Keel 數(shù)據(jù)庫(kù)[15]隨機(jī)獲取的20 個(gè)二元不平衡數(shù)據(jù)集,對(duì)所提兩種算法是否有效及可行進(jìn)行驗(yàn)證。根據(jù)實(shí)驗(yàn)結(jié)果,與流行的類別不平衡學(xué)習(xí)算法相比,所提算法在G-mean 等評(píng)價(jià)指標(biāo)上具有較優(yōu)表現(xiàn),因此所提算法構(gòu)造的預(yù)測(cè)模型具有更好的預(yù)測(cè)性能。

        2 本文方法

        在本節(jié)中,首先介紹相對(duì)密度估計(jì)策略,然后介紹如何利用它來設(shè)計(jì)模糊隸屬函數(shù),最后描述所提出算法的流程。

        2.1 相對(duì)密度估計(jì)策略

        在本節(jié)中,提出了一種方法,這種方法不必精確地測(cè)量每個(gè)訓(xùn)練樣本的概率密度,只需要提取任意兩個(gè)訓(xùn)練樣本之間的概率密度的比例關(guān)系,把反映比例關(guān)系的信息稱為相對(duì)密度。

        K 近鄰的概率密度估計(jì)(KNN-PDE)是一種非參數(shù)概率密度估計(jì)方法,為了估計(jì)多維連續(xù)空間中的概率密度分布,可以通過測(cè)量每個(gè)訓(xùn)練樣本的K近鄰距離,并且當(dāng)訓(xùn)練樣本數(shù)達(dá)到無窮大,獲得結(jié)果可近似收斂到實(shí)際概率密度分布。基于以上策略,可獲得需要的相對(duì)密度。

        假設(shè)有一個(gè)包含N個(gè)樣本的數(shù)據(jù)集,則對(duì)于每個(gè)樣本xi,都可以找到第K個(gè)近鄰并將它們之間的距離記錄為。越大,樣本xi的密度就越低。同時(shí),在低密度區(qū)域中會(huì)出現(xiàn)噪聲或離群值,可以使用作為評(píng)估每個(gè)樣本重要性的度量。要為高密度樣本提供較大的值,為低密度樣本提供較低的值(例如,噪聲和離群值),應(yīng)將轉(zhuǎn)換為其倒數(shù),即。而相對(duì)密度就是樣本的K近鄰距離的倒數(shù)。因此,隨機(jī)選取兩個(gè)樣本,它們相對(duì)密度的比例關(guān)系恰好和它們K近鄰距離的比例關(guān)系相等,如

        同樣,對(duì)于相對(duì)密度,參數(shù)K的選擇非常重要。如果K值太小,則無法將某些噪聲和離群值與那些正常樣本區(qū)分開,倘若K值過大,那么重要樣本與噪聲或離群值將很難被區(qū)分,有些很小析取也不會(huì)被捕獲。因此,建議為參數(shù)K分配一個(gè)適當(dāng)?shù)闹?。在本文中,根?jù)經(jīng)驗(yàn),K默認(rèn)設(shè)置為,其中N表示訓(xùn)練樣本的數(shù)量。

        2.2 關(guān)于模糊隸屬函數(shù)的設(shè)計(jì)

        基于相對(duì)密度,本文設(shè)計(jì)了基于類內(nèi)相對(duì)密度信息的模糊隸屬函數(shù)和基于類間相對(duì)密度信息的模糊隸屬函數(shù)。

        其中Nc表示xi所屬的類的樣本數(shù)。通過上述模糊隸屬函數(shù)計(jì)算所得的模糊隸屬值,它不需要考慮樣本數(shù),也能反映類內(nèi)的相對(duì)密度。因此,它將對(duì)數(shù)據(jù)分布規(guī)模的方差魯棒性更強(qiáng)。另外,由于每個(gè)類別都是獨(dú)立處理的,因此適應(yīng)類別不平衡問題。

        2)基于類間的相對(duì)密度信息。在此方法中,f(xi)與估計(jì)的類邊界聯(lián)系緊密,較高的隸屬值將被分配給更加接近估計(jì)的類邊界的樣本。根據(jù)不同的密度分布情況及樣本特征,將樣本分為四種,以此來更加精確地估計(jì)類邊界。樣本分為正類值,臨界值,噪聲和離群值。圖1 是以上四種樣本的可視化描述,其特征如下:

        (1)正類值:該樣本主要出現(xiàn)在自身所屬類別密度較高的區(qū)域,也有部分在其它類別密度較低的區(qū)域出現(xiàn);

        (2)臨界值:該樣本出現(xiàn)在兩個(gè)類別的中低密度區(qū)域中,而在其自身所屬類別中的密度較另一個(gè)類別的密度更高;

        (3)噪聲:該樣本出現(xiàn)在同類別密度較低區(qū)域,或者出現(xiàn)在不同類別密度較高區(qū)域;

        (4)離群值:該樣本在兩類別密度都較低的區(qū)域中出現(xiàn)。

        依據(jù)上述特征,邊界可被定位。首先,針對(duì)不同的情況,可以將其類內(nèi)相對(duì)密度與類間相對(duì)密度進(jìn)行比較,以找到可以用判別器檢測(cè)到的噪聲。如果樣本xi來自正類,則其判別描述如下:

        其中d′ 表示僅使用其它類別中的樣本計(jì)算的距離,N+和N-分別表示正類別和負(fù)類別的樣本數(shù),提供了向上取整運(yùn)算,IR是等于的類別不平衡比率。如果xi來自負(fù)類,則判別式修改為

        提取滿足式(3)和式(4)中判別式條件的所有樣本,稱其為噪聲,并為這些噪聲分配隸屬值λ,λ的值很小。

        然后,為其它樣本的隸屬值分配類間相對(duì)密度信息。下列分段函數(shù)可表示模糊隸屬函數(shù):

        其中Nc1和Nc2分別表示屬于同一類別xi內(nèi)屬于無噪聲和噪聲的樣本數(shù),有Nc1+Nc2=N。

        2.3 提出算法的流程描述

        本節(jié)描述分別基于兩種不同的模糊隸屬函數(shù)構(gòu)建的算法的流程,即基于類內(nèi)相對(duì)密度信息的算法(FWELM-ID)和基于類間相對(duì)密度信息的算法(FWELM-TD),它們的流程簡(jiǎn)要描述如下。

        2.3.1 FWELM-ID

        輸入:訓(xùn)練集θ={(x1,y1),(x2,y2),…,(xN,yN)},其中yi?{+,-},懲罰因子C,隱藏層神經(jīng)元數(shù)L

        步驟:

        1)將θ分成θ+和θ-,這兩個(gè)數(shù)據(jù)集分別只包含正類樣本和負(fù)類樣本;

        2)計(jì)算兩個(gè)數(shù)據(jù)集的樣本數(shù),將θ+的樣本數(shù)記為N+,將θ-的樣本數(shù)記為N-,滿足N++N-=N;

        3)計(jì)算正類樣本的參數(shù)K+,記作K+=,計(jì)算負(fù)類樣本的參數(shù)K-,記作K-=

        5)通過式(1)計(jì)算θ里的每個(gè)樣本xi的相對(duì)密度,然后通過式(2)計(jì)算它的隸屬函數(shù)值f(xi) ;6)將隸屬函數(shù)值f(xi) 嵌入到WELM 的加權(quán)矩陣Wii中;

        7)用懲罰因子C,隱藏層神經(jīng)元數(shù)L 訓(xùn)練WELM,獲得新的權(quán)值矩陣。

        2.3.2 FWELM-TD

        輸入:訓(xùn)練集θ={(x1,y1),(x2,y2),…,(xN,yN)},其中yi?{+,-},懲罰因子C,隱藏層神經(jīng)元數(shù)L

        步驟:

        1)將θ分成θ+和θ-,這兩個(gè)數(shù)據(jù)集分別只包含正類樣本和負(fù)類樣本;

        2)計(jì)算兩個(gè)數(shù)據(jù)集的樣本數(shù),將θ+的樣本數(shù)記 為N+,將θ-的樣本數(shù)記為N-,滿 足N++N-=N;

        4)計(jì)算正類樣本的參數(shù)K+,記作,計(jì)算負(fù)類樣本的參數(shù)K-,記作

        5)對(duì)于θ+里的每個(gè)樣本,計(jì)算它在θ+里的K+近鄰距離及在θ-里的K-近鄰距離并分別記為,同樣地,對(duì)于θ-里的每個(gè)樣本,計(jì)算它在θ-里的K-近鄰距離及在θ+里的K+近鄰距離并分別記為;

        6)計(jì)算每個(gè)樣本的相對(duì)密度并分別通過式(3)和式(4)找出兩種不同類內(nèi)的噪聲樣本;

        7)通過式(5)計(jì)算每個(gè)樣本xi的隸屬函數(shù)值Si;

        8)將隸屬函數(shù)值f(xi) 嵌入到WELM 的加權(quán)矩陣Wii中;

        9)用懲罰因子C,隱藏層神經(jīng)元數(shù)L 訓(xùn)練WELM,獲得新的權(quán)值矩陣。

        3 實(shí)驗(yàn)驗(yàn)證

        3.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

        本文采用5 折交叉驗(yàn)證,將提出的FWELM-ID、FWELM-TD 與其它十種算法在從Keel 倉(cāng)庫(kù)隨機(jī)獲取的20 個(gè)二元不平衡數(shù)據(jù)集上進(jìn)行了比較,數(shù)據(jù)集信息如表1所列。

        表1 數(shù)據(jù)集信息

        在實(shí)驗(yàn)中,本文對(duì)所有和ELM 相關(guān)算法中的隱藏層節(jié)點(diǎn)數(shù)L定為100,懲罰因子C 定為212,以此使得實(shí)驗(yàn)對(duì)比結(jié)果公正。

        3.2 實(shí)驗(yàn)結(jié)果與討論

        本文采用了G-mean 指標(biāo)[16]來衡量算法的性能。表2 列出了12 種算法在20 個(gè)數(shù)據(jù)集上的G-mean的平均值,粗體表示最佳結(jié)果,下劃線表示次優(yōu),斜體表示最差。根據(jù)表3,我們得出如下結(jié)論:

        表2 各類算法的G-mean測(cè)度比較

        1)ELM 的表現(xiàn)最差,在11 個(gè)數(shù)據(jù)集中提供了最低的G-mean值。與ELM相比,其它11種算法能夠或多或少地提高分類性能。

        2)與其它算法相比,WELM2和RUS-ELM都缺少穩(wěn)定性。WELM2 傾向于過度調(diào)整分類,而RUS-ELM 則傾向于丟棄一些重要的分類信息,導(dǎo)致學(xué)習(xí)分類邊界的隨機(jī)性。。

        3)SMOTE-ELM 和RWOS-ELM 的性能都比ROS-ELM 好,ROS傾向于使分類器過度擬合,因?yàn)樗皇呛?jiǎn)單地復(fù)制了原始分類器樣本,SMOTE 和RWOS 使得分類器的泛化能力提高,均可以采取合成泛化能力的方法。另外,RWOS 讓少數(shù)類的分類邊界擴(kuò)大。然而,與SMOTE 相比,RWOS 沒有優(yōu)勢(shì)。

        4)對(duì)于兩種復(fù)雜的加權(quán)ELM,BWELM 明顯比PFELM 表現(xiàn)出色,因?yàn)镻FELM 只考慮原始數(shù)據(jù)分布的信息,但是BWELM 可以專注于那些易犯錯(cuò)誤的樣本,采用boosting 集成學(xué)習(xí)框架可以在很大程度上提高分類器的泛化能力。

        5)FWELM-ID取得了6次最佳G-mean值,4次次最佳G-mean 值。FWELM-TD 取得了2 次最佳G-mean 值,7 次最佳G-mean 值。和ODOC-相比,F(xiàn)WELM-ID 和FWELM-TD 嵌入了更復(fù)雜的優(yōu)化技術(shù),可以明顯提高分類性能。兩種算法均精確地提取任意兩個(gè)訓(xùn)練樣本間的概率密度的比例關(guān)系,而不必按照原來的方法,即精確地測(cè)量每個(gè)訓(xùn)練樣本的概率密度。

        此外,本文用Friedman檢驗(yàn)來對(duì)各算法在所有數(shù)據(jù)集上的性能,按G-mean 計(jì)算它們的排序值、P值、Holm 值和假設(shè),其中,顯著性水平α設(shè)為0.05。統(tǒng)計(jì)分析結(jié)果如表3所列。

        從表3 可以看出,F(xiàn)WELM-ID 的排序值最小,即排名為1,這表明在所有算法中,該算法的預(yù)測(cè)性能最好。FWELM-TD 的排序值第三小,即排名為3,這表明在所有算法中,該算法的預(yù)測(cè)性能較好。從普遍性上看,本文所提的兩種算法與ROS-ELM、SMOTE-ELM、BWELM 和ODOC-ELM之間的差異并不明顯。

        4 結(jié)語

        考慮到代價(jià)敏感學(xué)習(xí)存在未考慮樣本在特征空間中的具體分布情況的缺陷,本文提出了兩種基于相對(duì)密度信息的模糊代價(jià)敏感極限學(xué)習(xí)機(jī)。所提算法基于加權(quán)極限學(xué)習(xí)機(jī),融合模糊加權(quán)的理念,提出一種魯棒性更強(qiáng)的新概念——相對(duì)密度信息,該方法是通過K近鄰概率密度估計(jì)策略計(jì)算各訓(xùn)練樣本間的相對(duì)密度,可以避免在高維空間下直接進(jìn)行概率密度的計(jì)算,然后進(jìn)行隸屬函數(shù)的設(shè)計(jì),模糊化和個(gè)性化設(shè)置每個(gè)樣本的權(quán)重,通過以上方法生成的權(quán)重矩陣來代替加權(quán)極限學(xué)習(xí)機(jī)中的權(quán)重矩陣。最后通過從Keel 倉(cāng)庫(kù)隨機(jī)獲取的20個(gè)二元不平衡數(shù)據(jù)集,對(duì)所提兩種算法是否有效及可行進(jìn)行驗(yàn)證。根據(jù)實(shí)驗(yàn)結(jié)果,與流行的類別不平衡學(xué)習(xí)算法相比,所提算法在G-mean 等評(píng)價(jià)指標(biāo)上具有較優(yōu)表現(xiàn),因此所提算法構(gòu)造的預(yù)測(cè)模型具有更好的預(yù)測(cè)性能。

        此外,如何進(jìn)行參數(shù)K 的選擇以及降低算法的時(shí)間復(fù)雜度,需要在今后的研究工作中繼續(xù)探索。

        91av视频在线| 疯狂做受xxxx高潮欧美日本| 丰满精品人妻一区二区| 公和我做好爽添厨房| 免费a级毛片无码a∨中文字幕下载| 精东天美麻豆果冻传媒mv| 无码粉嫩虎白一线天在线观看| 好爽…又高潮了毛片免费看| 欧美精品AⅤ在线视频| 亚洲中文字幕日产喷水| 久久夜色精品亚洲天堂| 午夜亚洲精品视频在线| 蜜桃视频插满18在线观看| 成人毛片av免费| 久久久久久人妻一区二区三区| 亚洲成人日韩| 456亚洲人成在线播放网站| 精品视频一区二区杨幂 | 中文字幕有码无码人妻av蜜桃 | 国产少妇高潮在线视频| 久久久国产精品123| 超碰97资源站| 大地资源中文在线观看官网第二页| 亚洲两性视频一三区| 日本超骚少妇熟妇视频| 青青草国产手机观看视频| 天堂а在线中文在线新版| 亚洲黄色电影| 喷潮出白浆视频在线观看| 精品极品视频在线观看| 亚洲国产精品成人天堂| 真实单亲乱l仑对白视频 | 日韩欧美人妻一区二区三区| 久久91综合国产91久久精品| 日韩精品中文字幕综合| 日本最新一区二区三区在线视频| 亚洲av综合av成人小说| 欧美人与动人物牲交免费观看| 国产精品自产拍在线观看免费| 一区二区三区四区在线观看视频| 日本不卡一区二区三区久久精品 |