亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不同缺失數(shù)據(jù)處理方法對D-vine Copula分類器的影響

        2021-03-31 07:32:34付志慧
        關(guān)鍵詞:數(shù)據(jù)處理分類方法

        楊 光,王 蕾,付志慧

        (1.沈陽師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,沈陽 110034;2.閩南師范大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,福建 漳州 363000)

        0 引 言

        現(xiàn)實世界中,數(shù)據(jù)缺失是不可避免的問題。尤其是隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量級和復(fù)雜程度增加,但缺失現(xiàn)象依舊普遍存在,極大地增加了數(shù)據(jù)的管理和分析難度。如果數(shù)據(jù)集中的缺失比例過高,會導(dǎo)致數(shù)據(jù)質(zhì)量下降,分析得到的結(jié)果不夠準(zhǔn)確甚至毫無意義,影響決策的準(zhǔn)確性。因此,對缺失數(shù)據(jù)進(jìn)行填補(bǔ)是十分必要的。

        D-vine copula分類器利用D-vine copula模型在擬合變量間的線性或非線性相關(guān)性時選擇出最合適的函數(shù),對貝葉斯分類器在處理變量相關(guān)性方面進(jìn)行優(yōu)化,從而提高了貝葉斯分類器的分類性能。本文介紹了5種常用的缺失數(shù)據(jù)處理方法,模擬不同的缺失比例,說明各處理方法對D-vine copula分類器的影響。

        1 理論依據(jù)

        1.1 常見的缺失數(shù)據(jù)處理方法

        均值插補(bǔ)法(mean imputation,MeanI)一般用觀測數(shù)據(jù)的平均值代替缺失數(shù)據(jù)對數(shù)據(jù)集進(jìn)行填補(bǔ),可以選擇總體數(shù)據(jù)的均值,也可以用樣本數(shù)據(jù)填補(bǔ)缺失數(shù)據(jù)。此方法雖然簡單易行,但是用同一個均值替換變量中的缺失值,忽略了數(shù)據(jù)的特征,低估了估計量的方差,只適合比較簡單的數(shù)據(jù)集,不適合較復(fù)雜的需要方差估計的分析[1]。

        隨機(jī)插補(bǔ)法(random imputation,RI)是采用某種概率抽樣的方式,從缺失變量的已知數(shù)據(jù)中隨機(jī)抽取一些數(shù)據(jù)作為缺失數(shù)據(jù)的替補(bǔ)值。隨機(jī)插補(bǔ)法雖然會造成估計量的方差增大,但能夠避免發(fā)生均值插補(bǔ)法中替補(bǔ)值過于集中的情況,使處理后的數(shù)據(jù)分布更接近數(shù)據(jù)集的真實分布,在估計和樣本有關(guān)的參數(shù)時更具優(yōu)勢[2]。

        K最近鄰插補(bǔ)法(K nearest neighbor imputation,KNNI)[3]是基于K最近鄰算法的缺失數(shù)據(jù)插補(bǔ)算法。根據(jù)距離度量或相關(guān)分析選擇距離缺失樣本最近的K個樣本,計算與缺失樣本之間的距離,對這K個距離加權(quán)來估計缺失數(shù)據(jù)。既可以解決連續(xù)型變量又可以解決離散型變量缺失的情況,但在分析大型數(shù)據(jù)集時會非常耗時,而且對于高維數(shù)據(jù)集,最近與最遠(yuǎn)鄰居之間的差別很小時,KNNI的準(zhǔn)確性會降低。

        分類與回歸樹插補(bǔ)法(classification and regression trees imputation,CARTI)是用分類與回歸樹算法對缺失數(shù)據(jù)進(jìn)行插補(bǔ)的算法。CART[4]是一種具有縱向分析特征的樹型分析方法,由分類樹和回歸樹兩部分組成。分類樹是分類變量的數(shù)據(jù)分析,回歸樹是連續(xù)變量的數(shù)據(jù)分析。CARTI能夠處理多重共線性和偏態(tài)分布,在擬合相互作用和非線性關(guān)系時十分靈活,具有較強(qiáng)的可靠性。

        隨機(jī)森林插補(bǔ)法(random forest imputation,RFI)是基于隨機(jī)森林算法的缺失數(shù)據(jù)插補(bǔ)算法。它能夠充分利用數(shù)據(jù)集包含的信息,通過對訓(xùn)練樣本的學(xué)習(xí)來預(yù)測缺失數(shù)據(jù)。隨機(jī)森林插補(bǔ)法匯總多棵決策樹的結(jié)果得到最終的插補(bǔ)值,彌補(bǔ)單棵決策樹易受噪聲數(shù)據(jù)的干擾影響插補(bǔ)結(jié)果的不足,使得插補(bǔ)效果更加準(zhǔn)確[5]。

        1.2 D-vine Copula貝葉斯分類器

        Sklar在1959年提出了Copula理論,主要應(yīng)用在金融風(fēng)險管理領(lǐng)域上[6]。根據(jù)Sklar定理[7],對于一個n維隨機(jī)變量x=(x1,x2,…,xn)T,令F是具有邊緣分布F1(x1)、F2(x2)、…、Fn(xn)的n維隨機(jī)變量的聯(lián)合分布函數(shù),則一定存在一個Copula函數(shù)C(·)使得

        F(x1,x2,…,xn)=C(F1(x1),F2(x2),…,Fn(xn)),

        它的聯(lián)合概率密度函數(shù)寫為

        f(x1,x2,…,xn)=c(F1(x1),F2(x2),…,Fn(xn))×f(x1)×f(x2)×…×f(xn),

        其中c(F1(x1),F2(x2),…,Fn(xn))是Copula函數(shù)C(·)的密度函數(shù),f(xi)是隨機(jī)變量x的邊緣概率密度函數(shù)[8]。由此可知,Copula函數(shù)是一類將聯(lián)合分布函數(shù)與其邊緣分布函數(shù)連接起來的函數(shù),也成為連接函數(shù)[9]。

        Joe[10]首先提出Pair Copula理念,Bedford和Cooke[11]將Vine模型引入Pair Copula理念中,創(chuàng)造了Pair Copula構(gòu)建方法(PPC)。PPC就是把多元聯(lián)合密度函數(shù)分解為條件邊緣分布密度函數(shù)和一系列Pair Copula函數(shù)的乘積。分解后的Pair Copula函數(shù)可以刻畫每條邊所對應(yīng)的二元聯(lián)合分布,在描述變量間的關(guān)聯(lián)結(jié)構(gòu)時更加靈活。Aas等[12]詳細(xì)介紹了C-vine和D-vine的分解方式、參數(shù)估計和數(shù)據(jù)模擬。

        一個n維D-vine copula由n-1棵樹(Tj,j=1,2,…,n-1)構(gòu)成,每棵樹有節(jié)點和邊。其中第j棵樹Tj有n+1-j個節(jié)點和n-j條邊,每個節(jié)點對應(yīng)一個變量,每條邊對應(yīng)一個Pair Copula函數(shù)。由此可知,D-vine copula結(jié)構(gòu)的聯(lián)合概率密度函數(shù)可以表示為

        其中c·|·(·,·)為Pair Copula密度函數(shù),F·|·(·,·)為條件分布函數(shù)[12]。

        根據(jù)貝葉斯法則,對于樣本x={x1,x2,…,xn},n是樣本的變量個數(shù),x在類別e∈E中的概率表示為

        Pr(e|x)∝Pr(x|e)·Pr(e),

        其中,E=(e1,e2,…,el)′是類別變量,l是類的總數(shù),Pr(e)是樣本所屬類別的先驗概率,通常由訓(xùn)練樣本估算出來[13],Pr(x|e)是所屬類別的條件概率密度函數(shù)。結(jié)合D-vine copula結(jié)構(gòu)可以將貝葉斯概率擴(kuò)展為

        依據(jù)最大后驗概率決策規(guī)則,樣本x的分類可以表示為

        2 實證分析

        本文選擇的數(shù)據(jù)集banknote authentication Data Set來自UCI[14],包含4個變量,共1 372個數(shù)據(jù)。通過比較預(yù)測準(zhǔn)確率來檢驗各方法處理缺失數(shù)據(jù)的能力,以說明不同缺失數(shù)據(jù)處理方法對D-vine copula分類器的影響。預(yù)測準(zhǔn)確率是最常見的評價分類效果的指標(biāo),準(zhǔn)確率越高說明缺失數(shù)據(jù)的處理效果越好。預(yù)測準(zhǔn)確率的定義如下:

        在實驗過程中,首先,將數(shù)據(jù)集分為2部分,以70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,30%的數(shù)據(jù)作為測試集。為保證測試效果,選擇對訓(xùn)練集做單變量缺失,缺失機(jī)制為完全隨機(jī)缺失,缺失比例分別為5%、10%、30%、50%、70%。若同時在訓(xùn)練集和測試集上做完全隨機(jī)缺失,再利用上述缺失數(shù)據(jù)處理方法,經(jīng)過缺失數(shù)據(jù)處理后的測試集測試效果與原始測試集的測試效果相比會產(chǎn)生一定偏差,導(dǎo)致過擬合現(xiàn)象。因此,本文只在訓(xùn)練集上插入缺失數(shù)據(jù),采用不同缺失數(shù)據(jù)處理方法,用原始測試集進(jìn)行檢驗。然后,用MeanI、RI、KNNI、CARTI以及RFI填補(bǔ)缺失數(shù)據(jù),將D-vine copula模型應(yīng)用于各個訓(xùn)練集建立分類預(yù)測模型,并用不含缺失數(shù)據(jù)的測試集進(jìn)行檢驗,記錄不同缺失率下的預(yù)測準(zhǔn)確率。最后,重復(fù)上述步驟100次,得到不同缺失數(shù)據(jù)處理方法的平均準(zhǔn)確率。

        表1 預(yù)測準(zhǔn)確率Table 1 Prediction Accuracy %

        表1給出了5種缺失數(shù)據(jù)處理方法對應(yīng)的準(zhǔn)確率。通過計算準(zhǔn)確率來分析和比較5種方法對分類器的影響。從表1可以觀察到,缺失率為5%時,經(jīng)RI處理后的數(shù)據(jù)在D-vine copula分類器上的表現(xiàn)最好,MeanI和KNNI的表現(xiàn)次之;缺失率為10%時,RI處理后的數(shù)據(jù)好于其他缺失處理方法的;缺失率為30%,用CARTI、RFI以及KNNI處理后的數(shù)據(jù)得到的分類結(jié)果相等,且高于MeanI和RI的結(jié)果;缺失率為50%,經(jīng)MeanI處理后的數(shù)據(jù)得到的分類準(zhǔn)確率最大,CARTI和KNNI次之;缺失率為70%,用KNNI處理后的數(shù)據(jù)在D-vine copula分類器上的表現(xiàn)最好,其次是CARTI。隨著缺失率增加,經(jīng)KNNI和CARTI處理的缺失數(shù)據(jù)在D-vine copula分類器中得到的準(zhǔn)確率逐漸增大,并且由KNNI處理后的分類準(zhǔn)確率更高。

        3 結(jié) 論

        數(shù)據(jù)的價值和應(yīng)用范圍很大程度受到數(shù)據(jù)質(zhì)量的影響,在數(shù)據(jù)采集與整理過程中各種原因都可能導(dǎo)致數(shù)據(jù)集出現(xiàn)一些數(shù)據(jù)質(zhì)量問題,影響分類模型的預(yù)測準(zhǔn)確率。缺失數(shù)據(jù)是一種典型的數(shù)據(jù)質(zhì)量問題,所有數(shù)據(jù)集基本上都會存在不同程度的缺失問題。不恰當(dāng)?shù)娜笔?shù)據(jù)處理方法會導(dǎo)致數(shù)據(jù)無法得到有效利用,潛在信息無法挖掘。因此,選擇合適的處理方法尤為重要。

        本文比較了在數(shù)據(jù)缺失率為5%、10%、30%、50%、70%時,不同缺失數(shù)據(jù)處理方法對D-vine copula分類器的影響。隨著缺失比例的增大,填補(bǔ)得到的新數(shù)據(jù)集在D-vine copula分類器表現(xiàn)較為穩(wěn)定,總體來說KNNI要優(yōu)于其他4種方法,隨著數(shù)據(jù)缺失比例的增加,KNNI對應(yīng)的準(zhǔn)確率有所提高,缺失率為70%時準(zhǔn)確率最高。在用D-vine copula分類器對有缺失的數(shù)據(jù)做分類時,當(dāng)缺失比例在5%~10%時,用RI處理缺失數(shù)據(jù)較好,當(dāng)數(shù)據(jù)缺失比例較大時,可優(yōu)先考慮用KNNI處理缺失數(shù)據(jù)。研究中,都是對數(shù)據(jù)集做模擬缺失,數(shù)據(jù)量的大小、數(shù)據(jù)維度、變量類型、變量比例等數(shù)據(jù)結(jié)構(gòu)未發(fā)生改變,對不同數(shù)據(jù)結(jié)構(gòu)情況下的不同缺失數(shù)據(jù)處理方法有待進(jìn)一步比較。

        猜你喜歡
        數(shù)據(jù)處理分類方法
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        久久久亚洲色| 亚洲高清中文字幕视频| 久久亚洲春色中文字幕久久| 美女扒开内裤露黑毛无遮挡| 国产在线精品观看一区二区三区| 久久中文骚妇内射| 色翁荡息又大又硬又粗又视频图片| 国产av日韩a∨亚洲av电影| 国产对白刺激在线观看| 中文字幕 在线一区二区| 插入日本少妇一区二区三区| 野花社区视频在线观看 | 国产a v无码专区亚洲av| 亚洲日本国产乱码va在线观看| 最新天堂一区二区三区| 97久久精品人妻人人搡人人玩| 精品水蜜桃久久久久久久 | 欧美一区二区三区激情| 久久精品伊人无码二区| 日韩激情av不卡在线| 成人影院在线观看视频免费| 国产偷久久久精品专区| 无码国产亚洲日韩国精品视频一区二区三区| 精品中文字幕手机在线| 中国人在线观看免费的视频播放 | 精品含羞草免费视频观看| 精品亚洲成a人7777在线观看 | 亚洲区小说区图片区| 狠狠躁夜夜躁人人爽天天不卡| 中文字幕色婷婷在线视频| 久久久精品毛片免费观看| 午夜色大片在线观看| 成人午夜免费无码视频在线观看| 白白色发布视频在线播放| 午夜国产视频一区二区三区| 欧美另类高清zo欧美| 日本高清不在线一区二区色| 国产精品亚洲一区二区三区在线 | 国产成人a人亚洲精品无码| 久久久久亚洲精品美女| av毛片在线播放网址|