亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交叉區(qū)域SMOTE算法的非平衡數(shù)據(jù)分類

        2023-11-13 07:10:26吳立勝皮珣珣
        電腦與電信 2023年7期
        關鍵詞:類別分類器分類

        吳立勝 皮珣珣

        (江西科技學院信息工程學院,江西 南昌 330098)

        1 引言

        不平衡數(shù)據(jù)分類問題指的是在二分類任務中,某一類樣本的數(shù)量遠遠小于另一類樣本,導致數(shù)據(jù)分布不平衡[1]。這種情況在現(xiàn)實生活中的許多場景中都普遍存在,例如信用卡欺詐檢測、信息檢索和過濾、市場行為分析等。傳統(tǒng)分類算法通常假設待分類的兩類樣本數(shù)量大致相等,因此在處理不平衡數(shù)據(jù)時容易受到多數(shù)類樣本的影響,導致分類邊界偏移和分類錯誤的問題。

        為了解決不平衡數(shù)據(jù)分類問題,學者們提出了許多解決方案,主要從數(shù)據(jù)集和算法兩個方面入手。在數(shù)據(jù)集方面,處理不平衡數(shù)據(jù)的方法通常涉及兩個方面:過采樣增加負類樣本或者下采樣減少正類樣本,以實現(xiàn)數(shù)據(jù)樣本的平衡,并提高分類準確率。其中,過采樣增加負類樣本的方法之一是SMOTE(Synthetic Minority Over-sampling Technique)[2],它通過從負類樣本中選取K近鄰樣本,并生成新的合成負類樣本,從而增加負類樣本的數(shù)量。

        但是,SMOTE算法對負類樣本合成未考慮負類樣本點分布。Han等人針對生成負類樣本點分布不平衡提出了Borderline-SMOTE方法[3],其在最近鄰正類樣本點構成n維球體內進行隨機插值,擴大生成負類樣本點的區(qū)域,將數(shù)據(jù)集中到分類邊界。宋艷等人針對數(shù)據(jù)不平衡提出E-SMOTE算法[4],SMOTE算法在進行插值時,不僅考慮了鄰域樣本點,還考慮了附近鄰域樣本點的分布特征。它通過控制近鄰樣本點的分布特征,來生成合成的負類樣本點,以實現(xiàn)對負類樣本點分布區(qū)域的調控。

        Francisco等使用了二值化分解正類樣本并結合SMOTE算法來生成負類樣本,以平衡數(shù)據(jù)集[5]。Matwin等通過邊界、冗余和去重等方法減少正類樣本的數(shù)量。Mani等采用KNN算法刪除正類樣本點,并提出了NearMiss-1、NearMiss-2、NearMiss-3和“最遠距離”四種方法,根據(jù)負類樣本點的距離選擇正類樣本點[6]。在算法層面,Patel等采用混合加權的KNN方法對不平衡數(shù)據(jù)進行分類,通過動態(tài)設置權值,給予負類樣本較大的權值,以減小分類邊界對正類樣本的影響[7]。袁興梅等提出了一種新型的集成分類算法AdaStASVM,首先利用聚類算法獲取樣本的結構信息,然后通過Ada-Boost動態(tài)調整樣本權重,以減少數(shù)據(jù)不平衡帶來的影響[8]。

        綜上所述,現(xiàn)在對不平衡數(shù)據(jù)研究關注重點是對負類樣本合成過程、分類算法權重等方面。本文通過限制負類樣本的合成區(qū)域提出CRSMOTE算法。CRNSMOTE算法確定負類樣本點合成最佳閾值區(qū)間。將CRSMOTE與SVM相結合進行大量仿真實驗,實驗結果表明該算法提升了在不平衡數(shù)據(jù)集上的G-mean,F(xiàn)-value以及Precision值。

        2 相關理論

        2.1 經(jīng)典支持向量機在不平衡數(shù)據(jù)分類的不足

        支持向量機(Support Vector Machine,SVM)是一種常用的監(jiān)督學習算法[9],被廣泛應用于二分類和多分類問題。然而,在處理不平衡數(shù)據(jù)分類時,經(jīng)典的支持向量機算法存在一些不足之處。

        在經(jīng)典的支持向量機算法中,目標是找到一個決策邊界,將正類樣本和負類樣本盡可能地分開。然而,在不平衡數(shù)據(jù)集中,正類樣本的數(shù)量明顯多于負類樣本,這導致支持向量機更傾向于將決策邊界偏向多數(shù)類別。這種偏向會導致分類器對少數(shù)類別的識別能力下降,容易將少數(shù)類別誤分類為多數(shù)類別,影響了分類的準確性。

        此外,支持向量機的學習過程中,對每個樣本的處理是均等的,沒有對不平衡數(shù)據(jù)集進行針對性的處理。這意味著在模型訓練中,每個樣本對分類器的影響相同,無論其屬于多數(shù)類還是少數(shù)類。對于少數(shù)類樣本而言,可能受到多數(shù)類樣本的干擾,導致分類器難以捕捉到少數(shù)類樣本的特征和模式。

        因此,針對不平衡數(shù)據(jù)分類問題,僅使用經(jīng)典的支持向量機算法可能無法達到理想的分類效果。為了改進不平衡數(shù)據(jù)分類的性能,需要采用一些特殊的方法或算法來處理不平衡數(shù)據(jù)集,以提高對少數(shù)類別的識別能力和分類準確性。

        圖1中表明分類邊界向負樣本方向移動,產(chǎn)生上述情況是由于優(yōu)化函數(shù)中對正類樣本和負類樣本采用相同懲罰系數(shù),造成負類樣本分類存在較大的誤差。負類樣本其懲罰系數(shù)應遠遠小于正類樣本的懲罰系數(shù)。因此,要提高SVM在不平衡數(shù)據(jù)分類中的準確性,需要解決SVM偏向負類樣本的問題[7]。

        圖1 SVM分類的結果

        2.2 SMOTE算法

        SMOTE算法是采用人工合成增加負類樣本點降低數(shù)據(jù)不平衡性。SMOTE算法根據(jù)歐幾里德距離計算一個樣本X={x1,x2…,xn}和樣本Y={y1,y2…,yn}之間距離。那么樣本X和樣本Y之間的歐幾里德距離D:

        根據(jù)歐幾里德距離,將樣本空間中最近的樣本點分為一組。然后,將距離較近的樣本點劃分為負類樣本。接著,在每組樣本中,使用SMOTE算法構造新的負類樣本。

        其中i=1,2,…,m,X表示負類樣本點,Yi為X的第i個近鄰樣本,rand(0,1)表示0到1一個隨機數(shù)。Xnew表示新合成的樣本。

        3 基于不平衡算法的改進

        SMOTE算法在進行負類樣本合成時候,無法解決負類樣本點分布不均衡的問題[10],同時計算過于復雜。本文針對SMOTE算法負類樣本分布不均勻提出了CRSMOTE算法。CRSMOTE算法重點關注樣本點產(chǎn)生的區(qū)域和合成數(shù)量,避免樣本數(shù)據(jù)分布的邊緣化。

        CRSMOTE算法:

        輸入:訓練集I,原始樣本點正類樣本集合為S1={x1,x2…xn}、負類樣本集合為S2={y1,y2…ym}。

        (1)從負類樣本集中隨機選擇一個樣本點yi,i,j∈(1,m),以參數(shù)φ為半徑,其計算公式為:

        其中,D(yi,yj)表示采用歐式距離來計算負類樣本點yi和yj之間的距離。

        (2)將負類樣本點yi與剩下任意一個負類樣本點yj采用公式3得到數(shù)值Mi。

        (3)以負類樣本點yi為圓心,以Mi為半徑的圓Oi,計算其中包含樣本點數(shù)目Ni,其中負類樣本數(shù)目Ai,其負類樣本密度計算公式MinPtsi:

        (4)負類樣本點yj與剩下任意一個負類樣本點ya,a∈(1,m),采用公式3得到數(shù)值Mj。

        (5)以負類樣本點yj為圓心,以Mj為半徑的圓Oj采用公式計算其密度MinPtsj。

        (6)計算圓Oi和Oj之間交叉空間負類樣本點比重I,其計算公式如下:

        其中,MinPtsi∩j表示圓Oi和Oj之間相交部分負類樣本點密度。

        (7)若I小于相應閾值區(qū)間,則在yi和yj之間進行負類樣本點合成數(shù)目為N',使得I最終處于最佳閾值區(qū)間。若I值大于1,則忽略交叉區(qū)間不對負類樣本點yi和yj進行合成。

        (8)如果合成負類樣本點數(shù)目不足,則繼續(xù)轉步驟4。當步驟4中負類樣本點全部隨機完成,但是合成負類樣本點還未達到和正類樣本點數(shù)量1:1,則再轉步驟1選擇不重復負類樣本點:繼續(xù)步驟2~7,直到生成負類樣本點和正類樣本點數(shù)量達到1:1。

        如何獲得高效的閾值區(qū)間,從而進行負類樣本點合成是本實驗需要解決問題的關鍵。本文采用在非平衡數(shù)據(jù)中分類的一般性的評價標準:F-value和G-mean計算的值進行評估。采用I來確定合成的負類樣本點分布。在表1和表2分別隨機選擇3個數(shù)據(jù)集進行實驗,劃分區(qū)間為[0.0,0.2),[0.2,0.4),[0.4,0.6),[0.6,0.8),[0.8,1.0]這5個區(qū)間,分別將下面數(shù)據(jù)集中包含負類樣本點按照CRSMOT算法合成對其進行測試。經(jīng)過測試,圖1和圖2表明,不同數(shù)據(jù)集在I處于[0.2,0.4)之間F-value和G-mean值更為高效。說明交叉區(qū)域內負類樣本合成具有一定的普適性,除了改變負類樣本點分布區(qū)域之外,還可以提高分類器的分類效率。

        表1 不同區(qū)間下的G-mean值

        表2 不同區(qū)間下的F-value值

        圖2 不同區(qū)間下G-mean值和F-value

        4 實驗與結果分析

        4.1 不平衡數(shù)據(jù)評價指標

        對二分類問題采用混淆矩陣來對其進行評價?;煜仃噷颖痉譃樗姆N組合:真正類(True Positive):樣本的真正類別屬于正類,模型預測的結果也是正類。假負類(False Negative):樣本的真正類別屬于正類,模型預測的結果屬于負類。假正類(True Negative):樣本的真正類別屬于負類,但是模型將其預測成為正類。真負類(True Negative):樣本的真正類別是負類,模型預測成為負類。分類混淆矩陣如表3所示[11]。

        表3 混淆矩陣

        分類器進行分類以準確率(Precision)和召回率(Recall)為最基礎兩個指標[12]。準確率:測試數(shù)據(jù)中,分類器正確分類的樣本數(shù)量占總樣本的比重。召回率:樣本數(shù)據(jù)中,表示樣本數(shù)據(jù)集中存在多少正例樣本被正確預測。其計算公式為[13]:

        F-value是對準確率和召回率進行平均,本次實驗中β調和因子設置為1。F-value定義如下:

        在對于非平衡數(shù)據(jù)的處理中,對于分類器中兩類樣本性能一般采用G-mean值評價。G-mean其定義如下:

        4.2 實驗過程和結果

        本文為了測試CRSMOTE算法對非平衡數(shù)據(jù)的處理,文中采用了8個UCI數(shù)據(jù)集進行分析和實驗。非平衡比是指正類樣本和負類樣本的數(shù)量比。表4同時給出負類樣本、正類樣本以及非平衡比。

        表4 實驗中UCI數(shù)據(jù)集

        每次實驗采取隨機方法將樣本數(shù)據(jù)中80%劃分為訓練集,剩余20%劃分為測試集。本文對測試數(shù)據(jù)取10次數(shù)據(jù)的均值,同時采用F-value、G-mean、Precision評價指標進行評價。實驗中將CRSMOTE算法與SMOTE算法、TSMOTE算法[14]和單純SVM算法進行對比,以顯示該算法的優(yōu)勢。從圖3~5中分別采用了4種策略算法在8個數(shù)據(jù)集來表示其趨勢。從圖可以看出采用CRSMOTE算法進行過采樣,使得負類樣本的性能得到提升。

        圖3 不同策略算法Precision值變化圖

        圖4 不同策略算法F-value值變化圖

        圖5 不同策略算法G-mean值變化圖

        實驗表明在圖3~5和表5~7采用四種算法分別是:SVM、SMOTE、TSMOTE、CRSMOTE仿真得出F-value、G-mean、Precision指標進行比較。結果表明數(shù)據(jù)集中采用CRSMOTE算法在SMOTE基礎上進行改進使其指標均得到提升。本文提出的算法在處理不平衡樣本中,生成負類樣本點分布更加均勻,最終使得分類準確性得到提升。

        表5 數(shù)據(jù)集中Precision值

        表6 數(shù)據(jù)集中F-value值

        表7 數(shù)據(jù)集中G-mean值

        5 結語

        本文針對SMOTE算法進行改進提出CRSMOTE算法。改進算法考慮到數(shù)據(jù)生成區(qū)域和數(shù)量分布,使得對樣本點生成準確率得到提升,有效改善SMOTE算法樣本點分布不均勻的問題。實驗結果表明,CRSMOTE與SMOTE和TSMOTE相對比得到了比較高的F-value、G-mean和Precision值,提高了對于不平衡數(shù)據(jù)分類的準確性。本文算法改進還存在合成負類樣本點計算量過大、未考慮異常點剔除等缺陷,未來將對模型做進一步優(yōu)化。

        猜你喜歡
        類別分類器分類
        分類算一算
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        教你一招:數(shù)的分類
        加權空-譜與最近鄰分類器相結合的高光譜圖像分類
        結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        国产综合色在线精品| 久久99热精品免费观看麻豆| 亚洲一本二区偷拍精品| 精品无码久久久久久久久| 色八区人妻在线视频免费 | 国产女人乱码一区二区三区| 久久久国产精品va麻豆| 成人欧美一区二区三区a片| www.日本一区| 国产中文色婷婷久久久精品| 无码爆乳护士让我爽| 免费无码av片在线观看| 18禁国产美女白浆在线| 日本a级黄片免费观看| 人妻哺乳奶头奶水| 中文字幕久久久精品无码| 日本红怡院东京热加勒比| 日本激情网站中文字幕| 激情偷乱人成视频在线观看| 啪啪视频一区二区三区入囗| 中文亚洲一区二区三区| 无码无套少妇毛多18p| 精品久久久久久中文字幕大豆网| 91尤物在线看| 天堂av网手机线上天堂| 日本怡春院一区二区三区| 一本一本久久a久久| 国产精品黑丝美女av| 成 人色 网 站 欧美大片在线观看 | 狼人精品剧情av在线观看| 天堂中文官网在线| 亚洲成人免费网址| 亚洲成生人免费av毛片| 午夜精品久久久久久久久| 老头巨大挺进莹莹的体内免费视频| 国产精品毛片99久久久久| 中文字幕精品亚洲字幕| 午夜性无码专区| 亚洲日韩中文字幕在线播放| 久久国产精品免费专区| 天堂网在线最新版www|