亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)的半監(jiān)督聚類的不平衡分類算法

        2022-12-18 08:10:58趙凌云白斌雯
        計算機應(yīng)用 2022年12期
        關(guān)鍵詞:質(zhì)心分類器標(biāo)簽

        陸 宇,趙凌云,白斌雯,姜 震

        (江蘇大學(xué) 計算機科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)

        0 引言

        類別不平衡是指數(shù)據(jù)集中某些類(少數(shù)類)的樣本數(shù)量與其他類(多數(shù)類)的樣本數(shù)量有很大差距[1]。不平衡數(shù)據(jù)分類廣泛存在于醫(yī)療診斷、故障診斷、信用卡欺詐檢測[2]等領(lǐng)域。傳統(tǒng)的分類算法假設(shè)各類別樣本的誤分代價相等,以最小化總體錯誤率為目標(biāo)進(jìn)行模型優(yōu)化,這會導(dǎo)致最終決策偏向于多數(shù)類樣本,造成少數(shù)類樣本被錯分。但是現(xiàn)實任務(wù)中少數(shù)類樣本往往更具有價值。因此如何有效提高少數(shù)類樣本的識別率、提升不平衡分類算法性能,已經(jīng)成為近年來機器學(xué)習(xí)領(lǐng)域的研究重點之一。

        當(dāng)前不平衡分類的算法大致可分為兩類:1)算法層面的方法[3]通過對已有分類算法進(jìn)行修改或者提出新算法以提高對少數(shù)類的識別率,這依賴于特定的算法并要求對相關(guān)領(lǐng)域有深入的了解。2)數(shù)據(jù)層面的方法通過削減多數(shù)類樣本的數(shù)量(欠采樣)或者增加少數(shù)類樣本的數(shù)量(過采樣)來實現(xiàn)訓(xùn)練集的再平衡,從而緩解分類模型的類別傾斜[4]。該類方法獨立于具體的分類算法,可擴展性高;但是欠采樣容易丟失有效的信息。過采樣通過復(fù)制原有少數(shù)類樣本或者根據(jù)原有分布合成新的少數(shù)類樣本;但是過采樣具有不確定性,且增加的樣本都是基于原有的分布,包含信息量過少,無法揭示更多的數(shù)據(jù)集分布特征。

        本文提出一種利用改進(jìn)的半監(jiān)督聚類來輔助不平衡分類的算法。首先,提出一種改進(jìn)的半監(jiān)督聚類算法CS-KMeans(Constrained-Seeded-K-Means)來挖掘數(shù)據(jù)的分布特征,并在聚簇中選擇高置信度的無標(biāo)簽樣本(偽標(biāo)簽樣本)來補充少數(shù)類樣本。這種新型的過采樣方法除了實現(xiàn)數(shù)據(jù)集的再平衡外,還可以有效引入聚類所獲得的分布特征來改善分類模型在不平衡數(shù)據(jù)集上的性能。其次,將改進(jìn)的半監(jiān)督聚類與分類模型相結(jié)合進(jìn)行最終的預(yù)測。該算法緩解了單一分類器泛化能力較差的問題,進(jìn)一步提升了不平衡分類性能。在實驗部分,通過將本文算法與經(jīng)典的Borderline-SMOTE(Borderline Synthetic Minority Oversampling TEchnique)[5]、自適應(yīng) 綜合過 采樣技 術(shù)(ADAptive SYNthetic sampling approach,ADASYN)[6]和最新 提出的RCSMOTE(Range-Controlled Synthetic Minority Oversampling TEchnique)[7]等算法在10 個數(shù)據(jù)集上進(jìn)行對比,實驗結(jié)果表明本文所提算法有更好的性能,驗證了本文算法的可行性和有效性。

        1 相關(guān)研究

        在算法層面,根據(jù)不平衡數(shù)據(jù)集的分布特點,通過對已有經(jīng)典算法進(jìn)行修改或者提出新算法以提高對不平衡數(shù)據(jù)集中少數(shù)類的識別率,代表算法有代價敏感學(xué)習(xí)[8]、集成學(xué)習(xí)[9]等?;诖鷥r敏感學(xué)習(xí)的方式分別給不同的類別賦予不同的代價因子,以求獲得誤分代價最小的分類結(jié)果[10],或者考慮對決策函數(shù)添加不同的權(quán)重,使最終的決策更傾向于少數(shù)類[11]。基于集成學(xué)習(xí)的不平衡分類算法分為數(shù)據(jù)預(yù)處理與集成學(xué)習(xí)相結(jié)合的方法[12]和代價敏感的集成學(xué)習(xí)[13]。為了對所選算法進(jìn)行適當(dāng)?shù)男薷挠糜诓黄胶鈹?shù)據(jù)分類,必須對分類算法和相關(guān)領(lǐng)域有深入的了解。

        在數(shù)據(jù)層面,通過改變數(shù)據(jù)集樣本的分布或者消除各個類別之間樣本數(shù)量的差異來平衡數(shù)據(jù)集,由于其獨立于具體的分類算法,可以與任意的分類算法結(jié)合使用[14],可擴展性高,這種方法是目前主流的算法,代表算法有SMOTE(Synthetic Minority Oversampling TEchnique)[15],Borderline-SMOTE[5]等。SMOTE通過隨機在其K近鄰中選擇樣本進(jìn)行插值,生成無重復(fù)的新的少數(shù)類樣本,可以在一定程度上解決過擬合的問題;但是新生成的樣本也會出現(xiàn)噪聲、樣本重疊的問題。后續(xù)在SMOTE 的基礎(chǔ)上又提出了許多改進(jìn)的方法,Borderline-SMOTE 認(rèn)為邊界附近的樣本比遠(yuǎn)離邊界的樣本更容易被分錯,因此在邊界的樣本應(yīng)該更重要。這個設(shè)想也符合經(jīng)典分類器的思想,如支持向量機(Support Vector Machine,SVM)就是為了最大化超平面,而超平面又由其附近的支持向量所構(gòu)成。RCSMOTE[7]為了解決引入價值量低甚至降低分類性能的噪聲樣本,將原始數(shù)據(jù)集分為安全區(qū)域、邊界區(qū)域和噪聲區(qū)域,在采樣過程中首先針對邊界區(qū)域的樣本進(jìn)行采樣,擴充會影響決策平面的樣本,若邊界區(qū)域中樣本過少,不足以滿足采樣需求,那么再對安全區(qū)域的樣本進(jìn)行采樣,而不會對噪聲區(qū)域的樣本進(jìn)行采樣,有利于引入大量信息量高的樣本,同時減少噪聲樣本的引入。CDSMOTE(Class Decomposition SMOTE)[16]通過K-Means 將多數(shù)類分解為多個子簇,并為其賦予新的子標(biāo)簽,然后針對性地對這些簇進(jìn)行過采樣。TU(Trainable Undersampling)[17]通過強化學(xué)習(xí)方式,將欠采樣過程與具體的分類過程相結(jié)合,從而有指導(dǎo)地進(jìn)行欠采樣,減少過采樣刪除過多有價值的樣本。

        近年來一個值得關(guān)注的方向是采用聚類分析發(fā)掘數(shù)據(jù)的分布特征,從而提高采樣的質(zhì)量。K-Means SMOTE(KMeans SMOTE)[18]首先利用聚類尋找“安全區(qū)域”,即那些更適合進(jìn)行過采樣的樣本簇,然后隨機選擇這些簇中的樣本使用SMOTE 進(jìn)行過采樣,這不僅解決了類間不平衡,而且有效解決了類內(nèi)不平衡。文獻(xiàn)[19]中通過在全體樣本上使用聚類算法和過濾的策略很好解決了類內(nèi)不平衡的問題,該算法首先在整個數(shù)據(jù)集上使用密度峰值聚類算法,然后根據(jù)簇的密度和距離多數(shù)類樣本的距離為每個簇分配采樣比重,最后該算法為了避免過采樣帶來的重疊的問題,開發(fā)了一種啟發(fā)式過濾策略,以迭代的方式將可能重疊的少數(shù)實例從多數(shù)類中移除。目前不平衡分類中基本傾向于在各個類內(nèi)部對有標(biāo)簽樣本進(jìn)行無監(jiān)督聚類[20]。這種方式難以發(fā)掘數(shù)據(jù)的整體分布規(guī)律,此外還有大量的有標(biāo)簽數(shù)據(jù)未被有效利用。

        2 基于改進(jìn)的半監(jiān)督聚類的不平衡分類

        針對當(dāng)前的不平衡分類研究中引入聚類技術(shù)的局限性,本文提出一種改進(jìn)的半監(jiān)督聚類算法來輔助不平衡分類。其基本思想是利用有標(biāo)簽樣本的指導(dǎo),在全體數(shù)據(jù)上進(jìn)行聚類,建立簇與類的映射關(guān)系。相較于無監(jiān)督的局部聚類,該算法可以更好地發(fā)掘原始數(shù)據(jù)分布特征以輔助分類。首先,基于半監(jiān)督聚類的結(jié)果,從無標(biāo)簽數(shù)據(jù)中選擇置信度高的部分,作為少數(shù)類的偽標(biāo)簽樣本加入訓(xùn)練集。這種新型的過采樣方法可以更好地發(fā)掘數(shù)據(jù)的分布特征,改善隨后分類模型的訓(xùn)練。然后,考慮到類別傾斜的影響,半監(jiān)督聚類預(yù)測結(jié)果中的少數(shù)類樣本可能不足以實現(xiàn)數(shù)據(jù)集的再平衡。這種情況下,使用SMOTE 作為補充,將偽標(biāo)簽數(shù)據(jù)集、原始數(shù)據(jù)集和過采樣數(shù)據(jù)集三者結(jié)合得到新的訓(xùn)練集。最后,為了進(jìn)一步提高模型的泛化性能,將改進(jìn)的半監(jiān)督聚類的預(yù)測結(jié)果和分類方法的預(yù)測結(jié)果結(jié)合得到最終的分類結(jié)果。算法原理如圖1 所示。

        圖1 本文算法原理Fig.1 Principle of the proposed algorithm

        2.1 Constrained-Seeded-K-Means算法

        半監(jiān)督聚類利用標(biāo)記數(shù)據(jù)或成對約束信息來指導(dǎo)聚類,以求得到更好的聚類結(jié)果。最常見的約束類型是成對約束,它要求數(shù)據(jù)在分配過程中滿足必連約束或勿連約束[21],其聚類結(jié)果會受到約束順序的影響。相較于成對約束,使用部分有標(biāo)簽樣本來指導(dǎo)聚類的劃分更為自然,并避免了約束的自相矛盾和順序的影響。這些有標(biāo)簽樣本通常被用于聚類模型的初始化。其中Seeded-K-Means[22]使用標(biāo)記信息初始化質(zhì)心,然后采用標(biāo)準(zhǔn)的K-Means 迭代方法來更新質(zhì)心并完成聚簇劃分。值得注意的是,迭代過程中一些預(yù)測錯誤的樣本會明顯造成聚類性能的下降。本文提出一種目標(biāo)函數(shù),利用標(biāo)記信息來指導(dǎo)質(zhì)心迭代,從而控制噪聲影響并改善聚類性能。

        2.1.1 初始化

        根據(jù)訓(xùn)練集中各個樣本的標(biāo)簽,把有標(biāo)簽樣本依次劃分到距離它們最近且標(biāo)簽相同的簇中,最后得到每個簇的初始質(zhì)心:

        其中:Pk表示第k個簇。在不平衡數(shù)據(jù)集中,由于少數(shù)類樣本數(shù)量少,而且分布可能比較分散,往往會出現(xiàn)少數(shù)類樣本被錯分到多數(shù)類的簇中的情況。針對該問題,在計算樣本到各個質(zhì)心的距離時,本文提出了一種結(jié)合各個類別的不平衡率作為權(quán)重的新型距離公式如下:

        其中:|P|代表樣本總數(shù)。該距離計算公式可以有效降低少數(shù)類樣本被誤分的概率。

        2.1.2 目標(biāo)函數(shù)

        在傳統(tǒng)的K-Means 算法中,其目標(biāo)函數(shù)是最小化各個數(shù)據(jù)點到質(zhì)心的距離和,即誤差平方和(Sum of Square Error,SSE)。

        其中:Pk是第k個簇,mk是第k個簇的質(zhì)心,Λ為聚類模型。Seeded-K-Means 利用有標(biāo)簽樣本初始化簇的個數(shù)以及對應(yīng)的質(zhì)心,通過標(biāo)準(zhǔn)的質(zhì)心迭代來最小化SSE 并獲得聚簇結(jié)果;但是質(zhì)心迭代過程中有些不屬于該類(簇)的數(shù)據(jù)可能會被錯誤劃分進(jìn)來,進(jìn)而影響質(zhì)心和簇的質(zhì)量。這種問題在不平衡數(shù)據(jù)集中更加突出,由于少數(shù)類樣本數(shù)量少且分布分散,聚類往往為了得到最小化誤差,會將少數(shù)類樣本劃分到多數(shù)類的簇中,造成聚類性能嚴(yán)重下降。

        傳統(tǒng)質(zhì)心迭代的終止條件常用的有兩種方式:方式一是設(shè)置最大迭代次數(shù);方式二是計算前后兩次迭代的差值,若小于指定的閾值,則終止迭代。這兩種終止方式都有一個缺點,迭代過程中極有可能錯過最優(yōu)的劃分結(jié)果,導(dǎo)致聚類性能下降。

        本文提出了一種新的目標(biāo)函數(shù)用來控制質(zhì)心迭代過程:利用有標(biāo)簽樣本XL來評估聚類模型的性能,進(jìn)而指導(dǎo)質(zhì)心的迭代。具體做法是將訓(xùn)練集上計算的準(zhǔn)確率(Accuracy,Acc)與少數(shù)類的查全率(Recall,Rec)相結(jié)合來判斷是否停止迭代。

        其中Rec的計算方式為:

        其中:|Y|表示數(shù)據(jù)集類別個數(shù),tpi是預(yù)測為i類且實際上屬于i類的樣本的數(shù)量,fni是未預(yù)測為i類但實際上屬于i類的樣本的數(shù)量。在保證SSE 下降的前提下,該目標(biāo)函數(shù)同時考慮了簇的預(yù)測準(zhǔn)確度以及少數(shù)類的查全率。在多數(shù)類不被誤分的情況下,最大化將少數(shù)類樣本劃分到對應(yīng)的少數(shù)類簇中。當(dāng)目標(biāo)函數(shù)下降時,表明如果繼續(xù)迭代會降低聚類算法性能,應(yīng)該停止迭代,并恢復(fù)上輪聚類結(jié)果。

        2.1.3 簇的劃分

        測試樣本x屬于所在簇的概率的計算方式為:

        其中:mi為簇Pi的質(zhì)心,‖x-mi‖是樣本x到質(zhì)心mi的距離,|P|表示簇的數(shù)量,Λ為聚類模型。在不平衡數(shù)據(jù)集中,少數(shù)類樣本數(shù)量過少且分布分散,這樣屬于少數(shù)類的簇的直徑可能過小,而多數(shù)類樣本數(shù)量較多且分布集中,這有可能造成屬于多數(shù)類的簇直徑過大,二者的差距會導(dǎo)致最終對于不同類別樣本預(yù)測概率計算存在誤差。因此通過式(6)可發(fā)現(xiàn),本文算法不僅考慮了無標(biāo)簽樣本x到其所屬簇的質(zhì)心的距離,還綜合考慮了其到所有具有相同標(biāo)簽的簇質(zhì)心的距離,這有利于避免因為簇的直徑影響不同樣本的置信度,提高了預(yù)測置信度的準(zhǔn)確性。

        Constrained-Seeded-K-Means 算法的具體步驟如下。

        算法1 Constrained-Seeded-K-Means 算法。

        2.2 基于CS-K-Means的不平衡分類算法

        本文算法首先在數(shù)據(jù)集上使用改進(jìn)的半監(jiān)督聚類得到若干簇,這些簇揭示了原數(shù)據(jù)的底層分布特征;然后根據(jù)各個簇的屬性對這些多數(shù)類簇進(jìn)一步處理,弱化多數(shù)類樣本的影響;接著基于聚類結(jié)果選擇高置信度偽標(biāo)簽樣本加入訓(xùn)練集并使用分類算法訓(xùn)練分類模型;最后為了提高算法的泛化性能,融合分類算法和改進(jìn)的半監(jiān)督聚類結(jié)果得到最終的分類結(jié)果。算法描述如下。

        算法2 基于CS-K-Means 的不平衡分類算法。

        在步驟1)結(jié)束后,可能會存在一些不純的或者規(guī)模過小的多數(shù)類的簇,即重疊區(qū)域或小集群,這可能會誤導(dǎo)分類模型的訓(xùn)練;因此通過步驟2),刪除在重疊區(qū)域中可能降低少數(shù)類識別率的過小多數(shù)類簇。該做法有助于最終的決策偏向于少數(shù)類,進(jìn)一步提高少數(shù)類的識別率。

        在步驟3)中,有別于其他重采樣算法引入大量人工生成的樣本,本文算法篩選高置信度的偽標(biāo)簽樣本補充少數(shù)類樣本,不會破壞原始的數(shù)據(jù)分布。CS-K-Means對于樣本x的置信度預(yù)測計算方式如式(6)所示,本文將用式(6)作為置信度計算的標(biāo)準(zhǔn)——置信度越高,被選為偽標(biāo)簽樣本的概率就越大。

        最終通過步驟5),將CS-K-Means 與傳統(tǒng)的分類算法相結(jié)合,得到最終分類結(jié)果,進(jìn)一步提升算法的泛化能力;理論上可以使用任意具有概率輸出的分類算法,本文采用經(jīng)典的支持向量機(SVM)算法,結(jié)合方式如式(7)所示:

        其中:P(y|x;Λ) 為CS-K-Means 的預(yù)測概率結(jié)果,根據(jù)式(6)計算;P(y|x;Θ)為分類器的預(yù)測概率結(jié)果,根據(jù)具體分類器計算所得。式(7)通過權(quán)重參數(shù)w調(diào)節(jié)CS-K-Means 和分類器對最終結(jié)果的影響,為了更好地融合二者預(yù)測概率,本文算法利用數(shù)據(jù)集的先驗知識不平衡率(Imbalance Ratio,IR)結(jié)合模型在訓(xùn)練集上的表現(xiàn),自適應(yīng)地確定w,如式(8)所示:

        其中:ri為先驗知識IR,分別為分類器和改進(jìn)的半監(jiān)督聚類在測試集上預(yù)測結(jié)果的不同類標(biāo)簽比例。因此,分類表現(xiàn)更好的模型對于最終的決策影響更大。

        3 實驗分析

        3.1 數(shù)據(jù)集介紹

        為了衡量本文算法的性能,本文使用keel 和UCI 中10 組數(shù)據(jù)集訓(xùn)練分類器并對結(jié)果進(jìn)行分析。其中部分?jǐn)?shù)據(jù)為多分類數(shù)據(jù)集,本文實驗將某些類合并成二分類數(shù)據(jù)集:規(guī)模較小的類標(biāo)記為少數(shù)類,其余類合并為多數(shù)類。數(shù)據(jù)集詳情如表1 所示,其中IR 代表數(shù)據(jù)集的不平衡率。

        表1 數(shù)據(jù)集的基本信息Tab.1 Basic information of datasets

        3.2 評估指標(biāo)

        本文將使用不平衡分類常用的G-mean 和曲線下面積(Area Under Curve,AUC)作為分類模型的評估指標(biāo)(本文將少數(shù)類定義為正類,多數(shù)類定義為負(fù)類)。令TP(True Positive)表示預(yù)測為正類的正樣本;TN(True Negative)為預(yù)測為負(fù)類的負(fù)樣本;FP(False Positive)為預(yù)測為正類的負(fù)樣本;FN(False Negative)為預(yù)測為負(fù)類的正樣本??梢杂嬎愠鲮`敏度(Sensitivity,Sens)和特異度(Specificity,Spec):

        根據(jù)這兩項指標(biāo),可以得到G-mean:

        受試者工作特征(Receiver Operating Characteristic,ROC)是一個二維平面上的曲線,以假陽率為橫軸,以真陽率為縱軸。最佳的分類器應(yīng)當(dāng)盡可能處于左上方。當(dāng)一個分類器的ROC 曲線完全覆蓋另一個分類器的ROC 曲線,則說明前者的分類性能優(yōu)于后者;若兩分類器的ROC 曲線發(fā)生交叉則無法斷言哪個分類器性能更好。因此引入了ROC 曲線下的面積,即AUC 進(jìn)行對比。

        3.3 結(jié)果分析

        本文將所提算法與6 個過采樣算法Borderline-SMOTE(B-SMOTE)、SVM-SMOTE(Support Vector Machines Synthetic Minority Oversampling TEchnique)[23]、K-Means SMOTE、ADASYN[6]、RCSMOTE 和CDSMOTE 以及1 種欠采樣算法TU進(jìn)行比較,其中前4 個算法使用Python 下的Imbalance-learn包實現(xiàn),參數(shù)均使用默認(rèn)參數(shù),RCSMOTE、CDSMOTE 和TU使用與相應(yīng)文獻(xiàn)相同的參數(shù)設(shè)置?;A(chǔ)分類器使用的都是SVM,均采用徑向基核函數(shù)(Radial Basis Function,RBF)。表2、3 同時列出了基礎(chǔ)分類器SVM 和改進(jìn)的半監(jiān)督聚類算法的結(jié)果。最終結(jié)果為5 折交叉驗證的平均值。

        表2、3分別給出了10種不同算法在10個不平衡數(shù)據(jù)集上的AUC 和G-mean 指標(biāo)的實驗結(jié)果,最優(yōu)結(jié)果加粗表示,其中CS-K-Means 表示改進(jìn)的半監(jiān)督聚類的結(jié)果,SVM 表示基分類器SVM的結(jié)果,C_SVM表示SVM在CS-K-Means處理過后的數(shù)據(jù)集上的結(jié)果。從結(jié)果可以看出,在AUC和G-mean的平均結(jié)果上本文算法都達(dá)到了最優(yōu)。這表明了本文算法對于不平衡數(shù)據(jù)分類的有效性。與基分類器SVM 相比,所有的不平衡分類算法在AUC和G-mean上都有了明顯的提升,這表明了這些算法在處理不平衡數(shù)據(jù)分類上的優(yōu)越性能。

        表2 不同算法的AUC對比Tab.2 AUC comparison of different algorithms

        表3 不同算法的G-mean對比Tab.3 G-mean comparison of different algorithms

        從表2 可以看出,改進(jìn)的半監(jiān)督聚類算法在AUC 指標(biāo)上,在pima 數(shù)據(jù)集上表現(xiàn)接近其他不平衡分類算法,其原因可能為CS-K-Means 利用式(2)重點將樣本劃分到少數(shù)類簇,因此提高了少數(shù)類的預(yù)測概率;同時利用改進(jìn)的目標(biāo)函數(shù)控制簇的迭代過程,使算法適時收斂,得到了相對最優(yōu)簇劃分。C_SVM 在2 個指標(biāo)上的平均結(jié)果表現(xiàn)也要優(yōu)于SVM,這表明了改進(jìn)的半監(jiān)督聚類算法提供的偽標(biāo)簽樣本對于發(fā)掘數(shù)據(jù)底層分布特征的作用。本文算法通過式(7)融合SVM 和改進(jìn)的半監(jiān)督聚類算法,平均結(jié)果優(yōu)于CS-K-Means 和C_SVM,算法的不平衡分類性能得到進(jìn)一步提高,充分體現(xiàn)了融合算法的效果。

        在AUC 指標(biāo)上,本文算法在6 個數(shù)據(jù)集上得到了最優(yōu)結(jié)果,并取得最高的平均結(jié)果,在ecoli-0-4-6vs5 上優(yōu)勢更加明顯。分析其原因為得益于半監(jiān)督聚類得到了該數(shù)據(jù)集的原始分布特征,并補充偽標(biāo)簽樣本和引入符合原始分布的人造樣本,在減少了不平衡的情況下很少引入噪聲數(shù)據(jù),這充分說明本文利用偽標(biāo)簽樣本,有助于發(fā)現(xiàn)更多的少數(shù)類邊緣樣本分布特征,從而推動決策面向有利于少數(shù)類的方向移動。

        在G-mean 指標(biāo)上,本文算法在5 個數(shù)據(jù)集上得到了最優(yōu)結(jié)果,同時也取得了最高的平均結(jié)果。在ijcnn1 數(shù)據(jù)集上,由于該數(shù)據(jù)集所含樣本數(shù)很大,CS-K-Means 在G-mean 指標(biāo)上表現(xiàn)較差,分析其原因可能是該樣本多數(shù)類樣本數(shù)量遠(yuǎn)多于少數(shù)類樣本,可能存在樣本重疊的情況,導(dǎo)致CS-K-Means無法得到有效的簇。但是本文算法最終的結(jié)果卻未嚴(yán)重受到其影響,這說明通過式(8)可以綜合基分類器的性能,提高算法的魯棒性。在數(shù)據(jù)集abalone19 上,SVM 無法識別出少數(shù)類樣本;而欠采樣算法TU 相較于其他過采樣算法在AUC和G-mean 上都表現(xiàn)較差。可能由于該數(shù)據(jù)集不平衡率非常大,通過大批量刪除多數(shù)類樣本取得數(shù)據(jù)集的平衡,很容易刪除掉大批信息豐富的樣本,造成性能的下降;而過采樣避免了這一問題,通過補充少數(shù)類樣本數(shù)量,大部分還是取得了不錯的表現(xiàn)。

        4 結(jié)語

        本文提出一種改進(jìn)的半監(jiān)督聚類算法,并利用該算法來輔助不平衡分類。首先,針對傳統(tǒng)的半監(jiān)督聚類算法在質(zhì)心迭代中由于噪聲引起的性能下降問題,本文提出一種改進(jìn)的目標(biāo)函數(shù)來約束質(zhì)心迭代。其次,提出一種新型的重采樣方法:利用改進(jìn)的半監(jiān)督聚類來補充少數(shù)類的偽標(biāo)簽樣本。最后,結(jié)合半監(jiān)督聚類與分類的結(jié)果進(jìn)行最終預(yù)測,以進(jìn)一步提升模型的不平衡分類性能。在與6 個基于過采樣和1 個基于欠采樣的不平衡分類算法的實驗對比中,本文算法在AUC和G-mean 指標(biāo)上均獲得了最優(yōu)的平均結(jié)果。這些實驗結(jié)果表明,基于改進(jìn)的半監(jiān)督聚類的不平衡分類算法有助于提高少數(shù)類樣本的識別率??紤]到偽標(biāo)簽樣本中可能存在的噪聲問題,計劃在下一步的研究中結(jié)合自步學(xué)習(xí)(Self-Paced Learning,SPL)技術(shù)來降低偽標(biāo)簽樣本中的噪聲影響,從而進(jìn)一步提高不平衡分類性能。

        猜你喜歡
        質(zhì)心分類器標(biāo)簽
        重型半掛汽車質(zhì)量與質(zhì)心位置估計
        基于GNSS測量的天宮二號質(zhì)心確定
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        国产自产在线视频一区| 欧美三级乱人伦电影| 久久波多野结衣av| 亚洲一区二区三区美女av| 老熟女富婆激情刺激对白| 久久久久亚洲av成人网人人网站| 青青草国产成人99久久| 久久久精品人妻一区二区三区日本| 精品中文字幕在线不卡| 欧美性猛交xxxx三人| 婷婷五月综合激情| 国产精品狼人久久久影院| 天堂蜜桃视频在线观看| 久久久久成人精品无码| 国产主播福利一区二区| 手机在线免费看av网站| 久久久精品国产性黑人| 女人高潮被爽到呻吟在线观看| 久久国产亚洲精品超碰热| 久久精品国语对白黄色| 完整版免费av片| 丰满熟女人妻中文字幕免费| 日韩一二三四精品免费| 亚洲啪啪色婷婷一区二区| 成年性生交大片免费看| 国内露脸中年夫妇交换| 亚洲av午夜福利精品一区二区 | 免费久久久一本精品久久区| 日本在线看片免费人成视频1000| 人妻无码一区二区在线影院| 久久精品国产亚洲不卡| 国产精品久久久久一区二区三区 | 末发育娇小性色xxxxx视频| 国产午夜亚洲精品一级在线| 人妻在线有码中文字幕| 国产激情久久久久久熟女老人av | 亚洲AV无码精品色午夜超碰| 一区二区三区在线乱码 | 国产av人人夜夜澡人人爽麻豆| 国产成人久久蜜一区二区| 侵犯了美丽丰满人妻中文字幕|