亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分層重組的不平衡數(shù)據(jù)采樣方法研究

        2021-09-13 13:52:36鄧明陽郭應時
        關鍵詞:分類方法

        鄧明陽,郭應時,劉 通

        (1.長安大學 汽車學院, 西安 710064; 2.長春工業(yè)大學人文信息學院 汽車工程學院, 長春 130122;3.重慶交通大學 交通運輸學院, 重慶 400074)

        數(shù)據(jù)采樣作為機器學習中對數(shù)據(jù)處理的常用方法,經(jīng)常用于不平衡數(shù)據(jù)的重采樣過程。在現(xiàn)實生活中,各個領域都會產(chǎn)生諸多不平衡數(shù)據(jù)集合,如在自動駕駛汽車市場調查中,不同地區(qū)、不同車型的樣本中都會出現(xiàn)多種類小樣本數(shù)據(jù);其他行業(yè)如一年中天氣的統(tǒng)計,工廠產(chǎn)品抽樣檢測,臨床醫(yī)學數(shù)據(jù)統(tǒng)計中也會涉及到多種類的不平衡數(shù)據(jù)。由于小樣本數(shù)據(jù)具有種類多、信息量豐富和價值高等特點,數(shù)據(jù)采樣中不可被舍棄,而現(xiàn)有的主流分類算法無法對不平衡數(shù)據(jù)進行精確處理。故此,需要重新采樣來保留高價值的小樣本數(shù)據(jù)[1]。為保證數(shù)據(jù)分類的精準性,不平衡樣本的重采樣既要保持原有各個樣本的數(shù)據(jù)特征,又要保持樣本中各個分類數(shù)據(jù)的平衡性。因此,多種類不平衡數(shù)據(jù)的采樣成為機器學習中諸多學者研究的重點領域。

        1 采樣算法

        目前,對平衡數(shù)據(jù)采樣方法的研究主要以數(shù)據(jù)過采樣、欠采樣和混合采樣為主,每種方法適用的條件各不相同。1993年,自Anand等[2]發(fā)現(xiàn)不平衡數(shù)據(jù)影響神經(jīng)網(wǎng)絡算法的收斂性以來,針對不平衡數(shù)據(jù)的采樣方法被逐漸完善。1995年,Vapnik[3]首次提出一種機器學習算法,命名為支持向量機算法,不僅代替了之前隨機采樣分類方法,還解決了不同樣本的分類問題。在此基礎上,各國學者不斷提出各種改進算法。

        早期,對不平衡數(shù)據(jù)的研究以過采樣方法為主,Chawla等[4]在2002年提出了synthetis minority oversampling technique (SMOTE)智能過采樣方法代替隨機采樣算法。Han等[5]提出了改進算法borderline-smote,形成了基于K階的臨近思想方法;而Snchez等[6-7]提出了聚類的思想方法,擴大了數(shù)據(jù)采樣范圍。隨后,Lima等[8-9]引入進化的思想來優(yōu)化過采樣理論,而陳麗芳等[10]提出基于空間距離作為權重的方法保留了數(shù)據(jù)的特征。袁帥等[11-12]提倡的半監(jiān)督算法開始用于機器學習中,提高了算法的實用性;許皓等[13]提出基于深度學習的算法,提高了大樣本數(shù)據(jù)分類的準確率。

        為保留高價值的小樣本數(shù)據(jù),部分學者同時研究不平衡數(shù)據(jù)欠采樣方法,形成了聚類和整合2種主要思想。聚類欠采樣主要由Yen等[14]提出,后來經(jīng)過Varassin等[15-16]逐漸完善算法精度。針對多種小樣本采樣問題,研究以整合欠采樣算法為主,Liu等[17-19]對整合思想進行了擴展,提高了小樣本采樣的數(shù)據(jù)精度。混合算法是將2種算法結合起來。目前,應用最多的是張家偉等[20]提出的混合隨機采樣法,而趙學華等[21-22]提出的改進采樣算法,推動了多種類不平衡數(shù)據(jù)的研究。

        在汽車技術發(fā)展中,社會調查作為數(shù)據(jù)采集的重要手段,被廣泛應用。由于調查數(shù)據(jù)涉及地區(qū)、人群、型號等多種因素,所采集到的數(shù)據(jù)呈現(xiàn)出不平衡特性,后期數(shù)據(jù)分類較難;其他行業(yè)也有不平衡數(shù)據(jù)分析的需求,因此,不平衡數(shù)據(jù)的重采樣是一個普遍問題。然而,已有的重采樣方法無法對多種類不平衡數(shù)據(jù)進行完善[21-23]。本文提出一種基于超平面的抽樣及重組重采樣算法(SVM+RDS),先對每種類別數(shù)據(jù)進行排序;然后對不同種類樣本進行最大公共基數(shù)抽樣;再按照不同種類完成重組;最后,通過多次迭代的采樣法生成新的數(shù)據(jù)集。提出的重采樣算法不僅能保持原有數(shù)據(jù)的特征,還能為數(shù)據(jù)分類擴大訓練的數(shù)據(jù)集合種類,為機器學習中數(shù)據(jù)分類及數(shù)據(jù)挖掘提供了一種新方法。

        2 理論方法

        多種類的不平衡數(shù)據(jù)特征主要表現(xiàn)為樣本種類多,不平衡度差異大[15]。因此,數(shù)據(jù)重采樣既要保持各種類原有數(shù)據(jù)分布特征,又要平衡不同種類樣本的數(shù)量。為了平衡不同類別樣本的數(shù)據(jù)量,如果僅對大樣本數(shù)據(jù)進行欠采樣,新的數(shù)據(jù)集合會因為舍棄部分樣本而丟失重要信息;如果直接對小樣本進行過采樣,新的數(shù)據(jù)集合又會因為生成大量新樣本而出現(xiàn)過擬合現(xiàn)象。經(jīng)過對比大小樣本的數(shù)據(jù)量,以最大公共基數(shù)對所有樣本進行分層抽樣,按照公共基數(shù)倍數(shù)重組構成新的樣本數(shù)據(jù)集合,既滿足了多種類樣本中數(shù)據(jù)量的平衡,又保持了原有數(shù)據(jù)特征。

        2.1 抽樣理論

        首先,在每一類樣本中,按照樣本中各個數(shù)據(jù)到分類超平面的距離對樣本數(shù)據(jù)進行重新排序,確保采樣過程中數(shù)據(jù)的有序性。為保持數(shù)據(jù)量的平衡性,小樣本全數(shù)采樣;大樣本通過間隔抽樣的方法構成公共基數(shù),在保持原有數(shù)據(jù)特征基礎上,以防止大樣本抽樣的重復性。先對大樣本進行等距離分組,每次抽樣時從各個組內按照從頭至尾的順序只采集一個數(shù)據(jù),由此構成一個公共基數(shù),其采集數(shù)量等于分組數(shù)量。最后,在大致保持整體樣本特征的基礎上,重新組合不同種類樣本之間的公共基數(shù),構建多種類的平衡數(shù)據(jù)集。采樣過程中,公共基數(shù)為保持不同種類樣本間的平衡性,分組間隔采樣則為了保持原有數(shù)據(jù)特征完整性的前提下,能夠減少大樣本的數(shù)量,由此構建成多種類平衡的數(shù)據(jù)集合。

        2.2 采樣過程

        對于樣本種類為n的不平衡數(shù)據(jù)集D={D1,D2,D3,…,Dn},其中Di代表第i類樣本,i=1,2,…,n。每種類別的樣本數(shù)量為Di={x1,x2,x3,…,xm},m為第i類樣本中數(shù)據(jù)的數(shù)量。首先,將該集合中的樣本按照數(shù)據(jù)到超平面距離的大小進行排序,保持采樣前各種類內部的樣本數(shù)據(jù)特征。為了比較不同種類的樣本數(shù)量,定義排序后的樣本數(shù)量集合S={S1,S2,S3,…,Sn},其中Si代表第i類樣本數(shù)量,Si

        1) 當S3

        2) 當S1+S2

        3) 當2(S1+S2)

        由此可知,樣本數(shù)據(jù)的不平衡度影響G值的確定方法,也直接影響采樣后樣本數(shù)量的大小。

        3 算法設計

        輸入:多種類的不平衡數(shù)據(jù)集合,D={D1,D2,D3,…,Dn}

        輸出:多種類的平衡數(shù)據(jù)集合。

        算法流程:

        步驟1樣本數(shù)據(jù)排序。在每一類樣本中,按照數(shù)據(jù)到超平面的距離大小,樣本Ai的數(shù)據(jù)排序結果為x1

        步驟2求最大公共基數(shù)G。比較各個類別樣本的數(shù)量,結合不平衡度參數(shù),求取采樣點最大公共基數(shù)G作為采樣最小單元數(shù)。

        步驟3分層采樣。按照公共采樣基數(shù)G,在多種類樣本中進行一次采樣,每一類樣本形成(Si-G)+1組抽樣方法。

        步驟4組合數(shù)據(jù)集。按照平衡度不同,對原有樣本采樣后進行重組數(shù)據(jù)集。判斷樣本數(shù)據(jù)的不平衡度,小樣本取樣為Si或G,大樣本取樣數(shù)約為G的倍數(shù)。

        以自動駕駛汽車接受度中氣候為例,有冰雪天氣A1=110 d,雨霧天氣A2=50 d,晴天A3=200 d,以上情況符合G值確定的條件2,A2全數(shù)取樣,A1全數(shù)取樣,A3按照160 d取樣,共有41種取樣方法。

        4 仿真實驗

        為了驗證算法的可行性,從國際標準數(shù)據(jù)集UCI中選取不平衡數(shù)據(jù)集作為訓練樣本[15-16,19-20]對算法進行訓練;然后,取一組自動駕駛汽車調查數(shù)據(jù)作為測試集,以此驗證算法的實用性,選取的不平衡數(shù)據(jù)集按照不平衡度分布,見表1。

        表1 不平衡數(shù)據(jù)訓練及測試集合

        4.1 采集過程

        建立數(shù)據(jù)采樣模型后,選取自動駕駛汽車接受度調查中的價格、能耗、排量和舒適性4類數(shù)據(jù)集作為訓練數(shù)據(jù),選取安全性數(shù)據(jù)集作為測試數(shù)據(jù)。分層重組采樣過程及效果如圖1所示。

        圖1 汽車安全性市場調研中不平衡數(shù)據(jù)的重組采樣過程曲線

        4.2 算法評價指標的選取

        為了更加精確地評價本算法的性能,以機器學習分類算法來檢驗采樣數(shù)據(jù)的可用性。通過分析混淆矩陣中各個參數(shù)的含義,選用復合指標來評價算法性能。在不平衡數(shù)據(jù)中,定義少數(shù)類別為正類,大數(shù)類別為負類,混淆矩陣的類別見表2。

        表2 混淆矩陣的類別

        表中,TP表示預測為正類,實際也是正類的樣本數(shù)目;FN表示預測為負類,實際卻是正類的樣本數(shù)目;FP表示預測為正類,實際是負類的樣本數(shù)目;TN表示預測為負類,實際是負類的樣本數(shù)目。由混淆矩陣所定義的查全率、真正率和查準率3個指標,其定義式如下:

        準確率Acc=(TP+TN)/(TP+TN+FN+FP)

        (1)

        查全率Rec=TP/(TP+FN)

        (2)

        查準率Pre=TP/(TP+FP)

        (3)

        特異率Spc=TN/(FP+FN)

        (4)

        由指標定義可知,單類指標能夠精確反應平衡數(shù)據(jù)采集中的算法性能,在不平衡數(shù)據(jù)分類中,由于小樣本的樣本量少,容易分類錯誤,部分指標之間是相互矛盾的,故采用多個指標綜合評價算法的性能。經(jīng)過對比分析,Acc已經(jīng)綜合考慮了4類指標大小,適合作為綜合評價參數(shù);同理,F(xiàn)-value綜合考慮了正類樣本的查全率和查準率,G-mean考察了正、負樣本查全率和特異率大小,故選定這3個復合指標評價采樣算法的性能。F-value和G-mean 2個指標定義如下。

        1)F-value。F-value是精準率P和召回率R的調和平均數(shù)。這2個數(shù)值的調和平均數(shù)更加接近于2個數(shù)當中較小的那個。因此,如果F值較大,那么精準率和召回率都很大。

        (5)

        2) G-mean。G-mean是求Rec和Spc乘積的平方根。如果G-mean較大,則Rec和Spc這2個數(shù)都應該較大。例如,2個數(shù)相乘大于0.5,至少應該2個數(shù)都大于0.7。

        (6)

        以電動汽車市場調研舒適性數(shù)據(jù)集為測試集(見表1),經(jīng)過不同算法采樣后,利用同一分類算法來檢驗采樣數(shù)據(jù)的可用性來評價采樣算法的性能。用本文提出的算法(SVM+RDS)與當下流行的典型算法隨機過采樣(SMOTE)、超平面過采樣(SVMOM)、隨機混合采樣(SMO+TLK)和混合過采樣(SVM+ENN)對同一數(shù)據(jù)集進行重采樣和數(shù)據(jù)分類,通過對比復合指標來反映不同算法的性能,評價指標的計算結果見表3。

        表3 評價指標的計算

        由表3可以得出,本文提出的算法在F-value和G-mean兩項復合指標的值高于其他4種算法,其Acc的值與其他算法大小持平。由復合指標Acc的定義可知,本算法在樣本集合中對正、負樣本的分類方面與其他算法性能相差不大;由復合指標F-value和G-mean的定義可知,本算法SVM-RDS對小樣本的查全率和查準率明顯高于其他算法,這說明在對不平衡數(shù)據(jù)的重采樣中,本算法能夠精準地提取小樣本的數(shù)據(jù)特征,有效區(qū)分大、小樣本種類。因此,本文提出的算法在保持整體采樣準確率的基礎上,對不平衡數(shù)據(jù)重采樣具有較好的通用性和實用性。

        5 結論

        針對多種類的不平衡數(shù)據(jù),提出了一種基于最大公共采樣基數(shù)分層抽樣和總體平衡的重組采樣方法。與現(xiàn)有采樣方法相比,所提出的算法在數(shù)據(jù)特征保持方面有較好的表現(xiàn)。經(jīng)過實際數(shù)據(jù)測試,在正樣本分類中,與其他算法相比,本算法精度較高,表現(xiàn)為在真實為正的樣本中有絕大部分樣本被識別出來;而在判斷為正樣本的數(shù)據(jù)中,真正為正樣本的數(shù)據(jù)較多。通過復合指標的計算,所提出的算法在查準率和查全率均明顯高于其他算法,對不平衡數(shù)據(jù)采集具有較高的精準度。根據(jù)分層理論,在大樣本特征不變的前提下,樣本數(shù)據(jù)量減少;再根據(jù)組合理論,由不同公共基數(shù)構成的平衡新樣本集在整體數(shù)量上保持不變,但所生成的新樣本集數(shù)量是由原各類別樣本以公共基數(shù)為單元所進行的組合方式?jīng)Q定的。這種采樣方法減小了機器訓練和測試的算法耗時,為機器學習中多種類不平衡數(shù)據(jù)處理提供了一種通用的采樣方法。

        猜你喜歡
        分類方法
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        學習方法
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        高清高速无码一区二区| 亚洲综合av一区二区三区蜜桃| 国产精品99精品久久免费| 欲色天天网综合久久| 久久水蜜桃亚洲av无码精品麻豆 | 久久精品视频按摩| 日韩国产精品一区二区三区| 无码熟妇人妻av影音先锋| 欧美熟妇精品一区二区三区| 国产精彩刺激对白视频| 宅男视频一区二区三区在线观看| 国产麻豆精品精东影业av网站| 人人玩人人添人人澡| 97精品国产高清自在线看超 | 色婷婷一区二区三区久久亚洲| 中文字幕无线码一区二区| 中文字幕亚洲情99在线| 亚洲中文欧美日韩在线| 亚洲精品456在线播放狼人| 一本久久综合亚洲鲁鲁五月天| 国产成人无码免费网站| 亚洲性无码av在线| 国产成人av三级在线观看韩国 | 69av在线视频| 一区二区日本免费观看| 在线视频一区二区三区中文字幕| 国产一区二区长腿丝袜高跟鞋| 亚洲 卡通 欧美 制服 中文| 丰满岳乱妇在线观看中字无码 | 日韩一本之道一区中文字幕| a级毛片免费观看在线播放| 白嫩少妇激情无码| 亚洲av成人一区二区三区不卡| 日本熟女中文字幕在线| 一本加勒比hezyo无码人妻| 久久精品免视看国产盗摄| 亚洲精品美女中文字幕久久| 日韩少妇内射免费播放18禁裸乳 | 无码人妻一区二区三区在线视频 | 精品乱人伦一区二区三区| 成在人线av无码免费|