亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于灰色關(guān)聯(lián)分析的類中心缺失值填補(bǔ)方法

        2020-09-23 00:57:52楊有龍
        關(guān)鍵詞:集上標(biāo)準(zhǔn)差實(shí)例

        劉 莎,楊有龍

        (西安電子科技大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,西安 710126)

        1 引 言

        缺失數(shù)據(jù)是數(shù)據(jù)分析中一個(gè)不可避免的問(wèn)題,且缺失值的存在會(huì)嚴(yán)重地降低算法的有效性.因此,缺失數(shù)據(jù)的處理是一個(gè)不可缺少的數(shù)據(jù)預(yù)處理過(guò)程,一般分為兩類,一類是直接刪除含有缺失值的數(shù)據(jù)點(diǎn),這種方法簡(jiǎn)單易操作,但缺點(diǎn)是在缺失比例較高時(shí),該方法會(huì)造成信息的大量流失從而降低有效性.另一類是缺失值填補(bǔ)方法,用估計(jì)值來(lái)代替缺失值.一般地,缺失值填補(bǔ)分為基于統(tǒng)計(jì)技術(shù)和基于機(jī)器學(xué)習(xí)技術(shù)的,機(jī)器學(xué)習(xí)技術(shù)包括:k近鄰,人工神經(jīng)網(wǎng)絡(luò),支持向量機(jī),決策樹(shù)和隨機(jī)森林等.

        廣泛應(yīng)用的統(tǒng)計(jì)技術(shù)包括:均值或眾數(shù)填補(bǔ)和回歸法.均值或眾數(shù)填補(bǔ)用相同屬性的平均值或眾數(shù)來(lái)代替缺失值.最近一個(gè)名為基于類中心的缺失值填補(bǔ)(Class Center Missing Value Imputation,CCMVI)方法在文獻(xiàn)[1]被提出,其主要思想與聚類中心應(yīng)用到k均值算法中的想法相似,基于類中心,標(biāo)準(zhǔn)差和歐氏距離來(lái)填補(bǔ)缺失值,該算法的主要缺點(diǎn)是不能適用于缺失比例較高的情況.因此,我們提出了一個(gè)改進(jìn)的類中心缺失值填補(bǔ)方法,名為灰色類中心缺失值填補(bǔ)(Grey Class Center Missing Value Imputation,GCCMVI),我們改進(jìn)了類中心,標(biāo)準(zhǔn)差和閾值的計(jì)算,且利用灰色關(guān)聯(lián)度代替歐式距離來(lái)計(jì)算實(shí)例間的相關(guān)性.在17個(gè)UCI數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),最終實(shí)驗(yàn)結(jié)果表明,我們所提出的方法顯著提高了分類精度和填補(bǔ)效果.

        2 相關(guān)工作

        2.1 缺失機(jī)制

        三種不同的缺失機(jī)制,分別為:完全隨機(jī)缺失(Missing Completely at Random,MCAR),隨機(jī)缺失(Missing at Random,MAR)和非隨機(jī)缺失(Not Missing at Random,NMAR)[1].

        給出如下條件.D是一個(gè)不完整數(shù)據(jù)集,有r個(gè)特征,D={A1,A2,…,Ar},含有n個(gè)實(shí)例,則整個(gè)數(shù)據(jù)集可以分為兩個(gè)部分,D={Dobs,Dmis},其中Dobs是所有觀測(cè)到的實(shí)例的集合,Dmis是含有缺失值的實(shí)例的集合,用R表示一個(gè)回應(yīng)指標(biāo)矩陣,與D大小相同來(lái)表述D的缺失度,R的每一項(xiàng)定義如下.

        (1)

        其中,vij是第i個(gè)實(shí)例在特征Aj處的值,i=1,2,…,n,j=1,2,…,r.

        (1) 完全隨機(jī)缺失(MCAR).若缺失值在整個(gè)數(shù)據(jù)集中的分布都是完全隨機(jī)的,換句話說(shuō),一個(gè)實(shí)例中的缺失值獨(dú)立于任何其他的實(shí)例,不管該實(shí)例是缺失的還是非缺失的,則稱為完全隨機(jī)缺失.以概率公式表示有:Pr(R|Dmis,Dobs)=Pr(R).

        (2) 隨機(jī)缺失(MAR).如果缺失值可以根據(jù)不完整數(shù)據(jù)集中的其他非缺失的特征值猜測(cè)得到,它意味著缺失值獨(dú)立于任何缺失值但與觀測(cè)值有關(guān),則稱為隨機(jī)缺失.以概率公式表示如下:Pr(R|Dmis,Dobs)=Pr(R|Dobs).

        (3) 非隨機(jī)缺失(NMAR).如果不完整實(shí)例中的一個(gè)缺失值依賴于該實(shí)例中的至少一個(gè)其他的缺失值,即Pr(R|Dmis,Dobs)不等于Pr(R|Dobs),換句話說(shuō),它依賴于Dmis.

        2.2 灰色關(guān)聯(lián)分析(Grey Ralational Analysis,GRA)

        灰色系統(tǒng)理論被提出用來(lái)處理不確定系統(tǒng)(有部分知道的信息和部分不知道的信息),且可以從知道的信息中提取有價(jià)值的信息.灰色關(guān)聯(lián)系數(shù)和灰色關(guān)聯(lián)度是灰色系統(tǒng)理論中兩個(gè)重要的參數(shù),它們被用來(lái)衡量?jī)蓚€(gè)隨機(jī)實(shí)例間的相關(guān)性.例如,Pan等人[2]和Huang等人[3]展示了用灰色關(guān)聯(lián)分析代替歐式距離或其變體來(lái)衡量?jī)蓚€(gè)實(shí)例間的相似度或相關(guān)性時(shí)的有效性.此外,Sefidian等人[4]提出了一個(gè)新的缺失值填補(bǔ)算法,用一個(gè)新的基于灰色的模糊c均值,基于互信息的特征選擇和回歸模型.Tian等人[5]提出了一個(gè)缺失數(shù)據(jù)分析,即一個(gè)利用灰色系統(tǒng)理論和基于熵的聚類的綜合的多重填補(bǔ)算法.這些文獻(xiàn)進(jìn)一步反映了用灰色關(guān)聯(lián)分析作為相關(guān)性度量的有效性,這鼓勵(lì)我們?cè)诒疚闹惺褂没疑P(guān)聯(lián)分析,相關(guān)的細(xì)節(jié)和公式如下.

        考慮數(shù)據(jù)集D={x0,x1,x2,…,xn},這里x0是參考實(shí)例,其他的是比較實(shí)例,每個(gè)實(shí)例xi有m個(gè)特征,表示為:xi=(xi(1),xi(2),…,xi(m)),i=0,1,2,…,n.

        由文獻(xiàn)[2]兩個(gè)實(shí)例間的灰色關(guān)聯(lián)系數(shù)(GRC)的定義如下.

        (2)

        其中,i,j=1,2,…,n;k,p=1,2,…,m;p表示具體的一個(gè)特征;x0(p)表示實(shí)例x0中特征p處的值.就公式而言,|x0(p)-xi(p)|項(xiàng)考慮兩個(gè)實(shí)例x0和xi在特征p處取值間的差值,其余三項(xiàng)通過(guò)求最值過(guò)程,遍歷所有的實(shí)例(?j)和所有的特征(?k)求其和參考實(shí)例x0間的差值的最小值和最大值,這一過(guò)程相比于一般的距離公式的優(yōu)點(diǎn)在于它不僅考慮了x0和xi間的局部的差距,還引入了一個(gè)全局性的距離考量.顯然,這也是GRC在描述相關(guān)性時(shí)比歐式距離更為有效的原因.ρ是一個(gè)區(qū)別系數(shù),ρ∈[0,1],在本文中,根據(jù)文獻(xiàn)[3]的實(shí)驗(yàn)結(jié)果,取ρ=0.5.

        對(duì)于字符型屬性,GRC值的計(jì)算公式如下.

        (3)

        顯然,由上述公式,GRC的取值范圍是[0,1],它衡量了x0(p)和xi(p)之間的相似度或相關(guān)性,灰色關(guān)聯(lián)度(GRG)是GRC的平均值,表示為

        i=1,2,…,n

        (4)

        然而,它與歐式距離的差別在于GRG值越大,相關(guān)性越大,在本文中,我們會(huì)用兩個(gè)實(shí)例間的GRG值來(lái)衡量他們之間的相關(guān)性.

        2.3 缺失值填補(bǔ)方法

        均值填補(bǔ)(Mean Imputation,MI)是一個(gè)廣泛應(yīng)用的統(tǒng)計(jì)技術(shù),它用相同特征的觀測(cè)值的平均值或眾數(shù)來(lái)代替缺失值,它是一個(gè)直接且有效的簡(jiǎn)單的單值填補(bǔ)方法.

        回歸填補(bǔ)(Regression Imputation,RI).例如,Sefidian等人[4]提出了一個(gè)新的缺失值填補(bǔ)方法結(jié)合了灰色關(guān)聯(lián)分析,模糊c均值,互信息和回歸模型,實(shí)驗(yàn)結(jié)果表明,在7個(gè)UCI數(shù)據(jù)集上,所提出的方法優(yōu)于其他5個(gè)填補(bǔ)方法.

        K近鄰填補(bǔ)(K-Nearest Neighbors Imputation,KNNI).最簡(jiǎn)單的K近鄰填補(bǔ)用缺失實(shí)例的K個(gè)最近鄰的平均值或眾數(shù)來(lái)代替缺失值,基于此,一些改進(jìn)的K近鄰填補(bǔ)方法被提出,他們引入了灰色關(guān)聯(lián)分析和互信息來(lái)更進(jìn)一步地提高分類精度和填補(bǔ)效果[2-3,6]. 此外,核函數(shù),區(qū)間值聚合函數(shù)和加權(quán)的填補(bǔ)也被應(yīng)用于K近鄰填補(bǔ)[7-8].

        人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN).Yan等人[9]提出了一個(gè)可選擇的神經(jīng)網(wǎng)絡(luò)集成分類方法來(lái)處理不完整數(shù)據(jù),它是一個(gè)改進(jìn)的神經(jīng)網(wǎng)絡(luò),基于一個(gè)閾值和一個(gè)優(yōu)化過(guò)程來(lái)完成完整數(shù)據(jù)子集的選擇,然后用完整子集來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于一般的神經(jīng)網(wǎng)絡(luò)算法.

        多重填補(bǔ)(Multiple Imputation,MIs).在多重填補(bǔ)過(guò)程中,會(huì)產(chǎn)生若干個(gè)完整的數(shù)據(jù)子集,然后用多個(gè)估計(jì)值來(lái)代替缺失值.與單值填補(bǔ)的區(qū)別是,多重填補(bǔ)中,一個(gè)缺失值的估計(jì)值不只一個(gè),顯然,多重填補(bǔ)一般比單值填補(bǔ)更加有效[10-12].

        基于學(xué)習(xí)的填補(bǔ)(Learning-based Imputation,LBI).此時(shí),缺失值的填補(bǔ)在一個(gè)學(xué)習(xí)過(guò)程中實(shí)現(xiàn),缺失值視為目標(biāo)輸出變量,而其他的觀測(cè)值則視為輸入變量,學(xué)習(xí)模型的預(yù)測(cè)結(jié)果被用來(lái)填補(bǔ)缺失值,例如,支持向量機(jī)(Support Vector Machine,SVM),多元線性回歸(Multiple Linear Regression,MLR),樸素貝葉斯分類器(Naive Bayes Classifier,NBC),決策樹(shù)(Decision Tree,DT),隨機(jī)森林(Random Forest,RF)和多層感知機(jī)(Multi-Layer Perceptron,MLP)[13-15]被廣泛應(yīng)用于缺失值填補(bǔ)中.

        隨機(jī)森林(RF).隨機(jī)森林是多棵決策樹(shù)的集成,它是廣泛應(yīng)用的集成學(xué)習(xí)技術(shù)之一,最近一些基于隨機(jī)森林的缺失數(shù)據(jù)處理方法被提出,例如,Hapfelmeier等人[16]提出了在不完整數(shù)據(jù)集上,用隨機(jī)森林來(lái)進(jìn)行變量選擇,目的在于提高預(yù)測(cè)和解釋數(shù)據(jù)的能力.此外,Xia等人[17]提出了一個(gè)調(diào)整的加權(quán)的隨機(jī)森林算法來(lái)處理缺失值,該算法通過(guò)估計(jì)缺失值對(duì)樹(shù)的決策的影響來(lái)調(diào)整樹(shù)的投票權(quán)重,從而提高了算法在處理缺失數(shù)據(jù)時(shí)的有效性,這也是本文對(duì)比實(shí)驗(yàn)中的一個(gè)基準(zhǔn)算法.

        基于聚類的填補(bǔ)(Clustering based Imputation,CBI).一個(gè)實(shí)例中的缺失值將通過(guò)位于相同聚類中最近的實(shí)例點(diǎn)來(lái)填補(bǔ),例如,Tian等人[5]提出了一個(gè)綜合的多重填補(bǔ)算法,該算法用灰色系統(tǒng)理論和基于熵的聚類來(lái)填補(bǔ)缺失值.Tran等人[18]提出了一個(gè)新的算法,用特征選擇和聚類來(lái)處理不完整數(shù)據(jù).實(shí)驗(yàn)結(jié)果表明,這些算法顯著提高了分類效果.

        除了上述缺失數(shù)據(jù)處理方法,最近一個(gè)改進(jìn)的基于統(tǒng)計(jì)技術(shù)的算法[1]被用來(lái)處理缺失數(shù)據(jù),名為基于類中心的缺失值填補(bǔ)(Class Center Missing Value Imputation,CCMVI)方法,利用類中心和標(biāo)準(zhǔn)差這些簡(jiǎn)單的統(tǒng)計(jì)量來(lái)填補(bǔ)缺失值,先用類中心來(lái)代替缺失值,然后基于一個(gè)閾值來(lái)判斷是否加上(減去)標(biāo)準(zhǔn)差.本文所提出的方法可以視為一個(gè)改進(jìn)的類中心缺失值填補(bǔ)方法,名為灰色類中心缺失值填補(bǔ)方法GCCMVI,灰色關(guān)聯(lián)度代替文獻(xiàn)[1]中的歐式距離,用來(lái)計(jì)算實(shí)例間的相關(guān)性.此外,我們改進(jìn)了類中心,標(biāo)準(zhǔn)差和閾值的計(jì)算,具體的介紹在下文給出.

        3 灰色類中心缺失值填補(bǔ)方法

        本文所提出的灰色類中心缺失值填補(bǔ)(GCCMVI)方法包括兩個(gè)模塊,名為模塊A和模塊B,模塊A是通過(guò)計(jì)算類中心與其他觀測(cè)數(shù)據(jù)間的相關(guān)性來(lái)確定閾值,模塊B是利用上述得到的閾值來(lái)填補(bǔ)缺失值,具體介紹如下.

        3.1 模塊A:識(shí)別閾值

        模塊A的目的在于識(shí)別閾值,該閾值會(huì)用于后續(xù)的填補(bǔ)過(guò)程,它包含6步,算法的具體步驟如算法1.

        算法1 識(shí)別閾值

        輸入:不完整數(shù)據(jù)集D包含M個(gè)特征,N個(gè)類和Num個(gè)數(shù)據(jù)實(shí)例

        輸出:N個(gè)閾值

        1) 根據(jù)式(5),用最小最大標(biāo)準(zhǔn)化預(yù)處理數(shù)據(jù)集D.

        2) 根據(jù)已知的類標(biāo)簽將原始數(shù)據(jù)集D分為N個(gè)子集,表示為Di,i=1,2,…,N.

        3) 遍歷數(shù)據(jù)集的所有實(shí)例,根據(jù)是否含有缺失值,將Di分為完整子集Di_complete和不完整子集Di_incomplete,后者含有缺失值.

        4) 利用數(shù)據(jù)子集Di,i=1,2,…,N中所有的觀測(cè)值來(lái)計(jì)算特征平均值和標(biāo)準(zhǔn)差,分別記為:Avg[i,j]和Std[i,j],然后由它們得到類中心和類標(biāo)準(zhǔn)差,即centi=Avg[i,]和Std[i,].

        5) 根據(jù)centi的值,利用均值填補(bǔ)法預(yù)填補(bǔ)數(shù)據(jù)集Di從而得到完整數(shù)據(jù)集,記作Ti,i=1,2,…,N.

        6) 計(jì)算類中心centi與Ti中其他實(shí)例間的相關(guān)性,根據(jù)方程(4)中的灰色關(guān)聯(lián)度來(lái)計(jì)算相關(guān)性,相關(guān)性的中值就是類別i的閾值.

        遍歷所有的i值,就得到了每個(gè)類別的閾值.

        一般來(lái)說(shuō),數(shù)據(jù)標(biāo)準(zhǔn)化方法包括最小最大標(biāo)準(zhǔn)化和z得分標(biāo)準(zhǔn)化等方法,為了便于分析,本文采用最小最大標(biāo)準(zhǔn)化將數(shù)據(jù)值轉(zhuǎn)換為[0,1]區(qū)間內(nèi)的值,計(jì)算公式如下.

        (5)

        本文所提出的灰色類中心缺失值填補(bǔ)方法(GCCMVI)是一個(gè)改進(jìn)的算法,相比于一個(gè)名為基于類中心的缺失值填補(bǔ)(CCMVI)方法[1],兩者間的主要不同點(diǎn)反映在類中心,標(biāo)準(zhǔn)差和閾值的計(jì)算中.CCMVI算法將原始的不完整數(shù)據(jù)集分為完整子集和不完整子集,然后僅依賴于完整子集中的觀測(cè)值來(lái)計(jì)算類中心和標(biāo)準(zhǔn)差.顯然,當(dāng)缺失比例增加時(shí),相應(yīng)的完整子集中的實(shí)例數(shù)目會(huì)減少,類中心和標(biāo)準(zhǔn)差的計(jì)算就會(huì)變得困難,或者依賴于極少數(shù)的實(shí)例點(diǎn)得到的類中心和標(biāo)準(zhǔn)差就不足以代表整個(gè)數(shù)據(jù)集的信息.

        然而,我們所提出的方法解決了這一問(wèn)題,如算法1的步驟 4)所描述的,根據(jù)Di中的所有觀測(cè)值來(lái)計(jì)算類中心和標(biāo)準(zhǔn)差,這一改進(jìn),不僅考慮了Di_complete中的觀測(cè)值,也考慮了Di_incomplete中的觀測(cè)值,這使得計(jì)算得到的結(jié)果更能有效的反映整個(gè)數(shù)據(jù)集的信息.另一個(gè)不同是閾值的計(jì)算不同,CCMVI算法通過(guò)衡量類中心與Di_complete中實(shí)例間的歐式距離來(lái)得到閾值,當(dāng)缺失比例增加,閾值的計(jì)算也會(huì)產(chǎn)生上述所提到的問(wèn)題:計(jì)算困難或計(jì)算得到的結(jié)果不夠有效. GCCMVI通過(guò)一個(gè)預(yù)填補(bǔ)過(guò)程解決了這一問(wèn)題,如算法1的步驟5)和步驟6)所述.采用均值填補(bǔ)來(lái)完成預(yù)填補(bǔ)過(guò)程的原因是,模塊B會(huì)先用類中心來(lái)代替缺失值,若采用其他的填補(bǔ)方法會(huì)對(duì)最終結(jié)果產(chǎn)生較大的影響.本文中相關(guān)性的計(jì)算都依賴于灰色關(guān)聯(lián)度的計(jì)算,具體計(jì)算在式(2)~(4)中給出,就公式而言,它區(qū)別考慮了數(shù)值型屬性和字符型屬性,這比歐式距離更適合于計(jì)算字符型和混合型數(shù)據(jù)間的相關(guān)性,且很多參考文獻(xiàn)中的實(shí)驗(yàn)結(jié)果都表明:灰色關(guān)聯(lián)度比歐式距離或其變體在衡量相關(guān)性時(shí)更具有效性.

        3.2 模塊B:缺失值填補(bǔ)

        模塊B是利用模塊A得到的閾值來(lái)填補(bǔ)缺失值,主要包括三步,下面所有的相關(guān)性的計(jì)算都是根據(jù)灰色關(guān)聯(lián)度(方程(4))得到,具體算法的步驟如算法2.

        算法2 缺失值填補(bǔ)算法

        輸入:不完整數(shù)據(jù)集Di_incomplete,i=1,2,…,N,總共包含M個(gè)特征,N個(gè)類和Num個(gè)數(shù)據(jù)實(shí)例

        輸出:填補(bǔ)后的完整數(shù)據(jù)集

        1) 遍歷所有的實(shí)例,若實(shí)例含有一個(gè)缺失值,則執(zhí)行單值填補(bǔ),若實(shí)例含有多個(gè)缺失值,則執(zhí)行多值填補(bǔ).

        2) 單值填補(bǔ).先用類中心centi代替缺失值,然后計(jì)算類中心與當(dāng)前實(shí)例間的相關(guān)性,比較相關(guān)性與閾值的大小關(guān)系,若相關(guān)性大于等于閾值,則保持填補(bǔ)的值不變,若相關(guān)性小于閾值,則用填補(bǔ)的值加上或減去標(biāo)準(zhǔn)差來(lái)代替缺失值.

        3) 多值填補(bǔ).首先計(jì)算實(shí)例中缺失值的數(shù)目,且記錄每個(gè)缺失值存在的位置指標(biāo).然后用類中心centi代替缺失值,且計(jì)算類中心與當(dāng)前填補(bǔ)的實(shí)例間的相關(guān)性,比較相關(guān)性與閾值的大小關(guān)系,若相關(guān)性大于等于閾值,則保持填補(bǔ)的值不變,否則,遍歷所有的缺失位置,在每個(gè)缺失位置處依次用填補(bǔ)的值加上(減去)標(biāo)準(zhǔn)差來(lái)代替缺失值.根據(jù)位置的不同會(huì)得到與缺失值數(shù)目相同的填補(bǔ)實(shí)例,并且計(jì)算類中心與這些填補(bǔ)實(shí)例間的相關(guān)性,最終的填補(bǔ)實(shí)例是使得相關(guān)性最大的那個(gè)填補(bǔ)實(shí)例.

        4)重復(fù)上述步驟,直到不存在缺失值為止,此時(shí)就得到了填補(bǔ)后的完整數(shù)據(jù)集.

        4 實(shí)驗(yàn)設(shè)置及結(jié)果分析

        4.1 實(shí)驗(yàn)設(shè)置

        本文的實(shí)驗(yàn)用了三種不同的數(shù)據(jù)集,包括:數(shù)值型,字符型和混合型數(shù)據(jù)集,其中有8個(gè)數(shù)值型數(shù)據(jù)集,6個(gè)字符型數(shù)據(jù)集和3個(gè)混合型數(shù)據(jù)集,這些數(shù)據(jù)集都來(lái)自UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù),實(shí)例數(shù)目在101~28 056之間,特征數(shù)目在4~60之間.此外,一些數(shù)據(jù)集中存在著嚴(yán)重的不平衡問(wèn)題,為了去除不平衡對(duì)實(shí)驗(yàn)結(jié)果的影響,當(dāng)少數(shù)類的實(shí)例數(shù)目少于5時(shí),采用了一個(gè)簡(jiǎn)單的過(guò)采樣技術(shù),簡(jiǎn)單地復(fù)制少數(shù)類實(shí)例,以此來(lái)增加少數(shù)類的實(shí)例數(shù)目,從而在缺失比例較高時(shí),保證依然有足夠的實(shí)例來(lái)計(jì)算少數(shù)類的類中心和標(biāo)準(zhǔn)差,數(shù)據(jù)集的基本信息在表1中給出.

        表1 數(shù)據(jù)集的基本信息Tab.1 The basic information of the datasets

        首先,將原始數(shù)據(jù)集按照10折交叉驗(yàn)證法,分為90%的訓(xùn)練集和10%的測(cè)試集,其中訓(xùn)練集的類標(biāo)簽是已知的,假設(shè)測(cè)試集的類標(biāo)簽未知,通過(guò)訓(xùn)練集得到的分類器來(lái)預(yù)測(cè)測(cè)試實(shí)例的類標(biāo)簽,比較預(yù)測(cè)得到的類標(biāo)簽與真實(shí)的類標(biāo)簽就可以得到該分類器的分類精度.本文要研究的是不完整數(shù)據(jù)問(wèn)題,因此會(huì)人為的在原始的完整的訓(xùn)練集中引入缺失值,由上文所述,有三種缺失機(jī)制,名為完全隨機(jī)缺失,隨機(jī)缺失和非隨機(jī)缺失.一般來(lái)說(shuō),完全隨機(jī)缺失是一種最廣泛存在的缺失機(jī)制.因此,本文僅考慮了完全隨機(jī)缺失情況.實(shí)驗(yàn)所用的缺失比例為10%~50%,增加步長(zhǎng)為10%,為了避免產(chǎn)生有偏的結(jié)果,每個(gè)缺失比例會(huì)做10次實(shí)驗(yàn),每個(gè)缺失比例的最終的結(jié)果是10次實(shí)驗(yàn)的平均值.

        我們將所提出的灰色類中心缺失值填補(bǔ)方法(GCCMVI)方法與6個(gè)基準(zhǔn)算法進(jìn)行比較,分別是Mean,KNNI,SVM,WRF[17],F(xiàn)KNNI[2],和CCMVI[1],其中,WRF(Weighted Random Forest)是加權(quán)的隨機(jī)森林的縮寫(xiě),F(xiàn)KNNI(Feature K-Nearest Neighbors Imputation)是特征加權(quán)的灰色K近鄰填補(bǔ)的縮寫(xiě).在不完整訓(xùn)練集中的缺失值用上述不同的填補(bǔ)方法分別填補(bǔ)后,得到的完整的訓(xùn)練集來(lái)訓(xùn)練支持向量機(jī)(SVM)分類器,測(cè)試集用來(lái)測(cè)試分類器的分類精度,顯然分類精度越高,填補(bǔ)效果就越好.

        除了分類精度,填補(bǔ)效果是衡量填補(bǔ)方法的另一個(gè)主要指標(biāo),對(duì)于數(shù)值型屬性,均方根誤差(RMSE)用來(lái)衡量真實(shí)值與填補(bǔ)值之間的差距,顯然RMSE值越小則表示填補(bǔ)效果越好.對(duì)于字符型屬性,命中率(Hit ratio)用來(lái)衡量真實(shí)值與填補(bǔ)值之間的差距,相反Hit ratio值越大,填補(bǔ)效果越好.計(jì)算公式如下.

        (6)

        (7)

        4.2 數(shù)值型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

        表2和表3分別給出了在數(shù)值型數(shù)據(jù)集上,由不同填補(bǔ)方法得到的完整數(shù)據(jù)集訓(xùn)練得到的SVM的平均分類精度,以及平均的均方根誤差(RMSE)值,表2中,CCMVI(+),CCMVI(-)和GCCMVI(+),GCCMVI(-)分別表示在CCMVI和GCCMVI中加上和減去標(biāo)準(zhǔn)差.

        每個(gè)數(shù)據(jù)集的最好的結(jié)果用黑體標(biāo)記出來(lái)了,顯然,根據(jù)表2給出的結(jié)果可知,所提出的GCCMVI方法在5個(gè)數(shù)值型數(shù)據(jù)集上取得了最高的分類精度,且相比于其他方法,分類精度增加了10%~24%,而均值填補(bǔ)法(Mean)在ionosphere和waveform兩個(gè)數(shù)據(jù)集上效果最好,且與GCCMVI間的差距較大.此外CCMVI在ecoli數(shù)據(jù)集上取得了最好的分類效果,與GCCMVI間的差距較小.這意味著對(duì)于不同的數(shù)據(jù)集,加上或減去標(biāo)準(zhǔn)差對(duì)結(jié)果的影響可能與數(shù)據(jù)集自身的分布相關(guān).且總的來(lái)說(shuō),加上標(biāo)準(zhǔn)差(+)比減去標(biāo)準(zhǔn)差(-)的精度高一些,但兩者間沒(méi)有顯著的差距.GCCMVI的填補(bǔ)誤差普遍都低,是因?yàn)樵跀?shù)據(jù)集預(yù)處理時(shí)采用了最小最大標(biāo)準(zhǔn)化,去除了維度的影響,從而提高了填補(bǔ)效果.

        表2 數(shù)值型數(shù)據(jù)集的SVM的平均分類精度Tab.2 Average classification accuracies of SVM over numerical datasets

        表3 數(shù)值型數(shù)據(jù)集的RMSETab.3 RMSE of numerical datasets

        4.3 字符型數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果及分析

        字符型數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果在表格4和表5中給出,Hit ratio為填補(bǔ)方法的命中率,顯然命中率越高,填補(bǔ)效果就越好.

        綜上所述,GCCMVI在4個(gè)字符型數(shù)據(jù)集上效果最好,且相比于其他方法,分類精度提高了0.7%~13%,CCMVI和WRF分別在chess_m和nursery數(shù)據(jù)集上獲得了最高的分類精度.CCMVI和GCCMVI在加上標(biāo)準(zhǔn)差(+)和減去標(biāo)準(zhǔn)差(-)兩種情況下的分類精度分別相同,這表明加上或減去標(biāo)準(zhǔn)差對(duì)字符型數(shù)據(jù)集無(wú)顯著的影響.此外,GCCMVI在5個(gè)數(shù)據(jù)集上取得了最高的Hit ratio值.總體來(lái)說(shuō),所提出的GCCMVI方法在字符型數(shù)據(jù)集上效果最好.

        表4 字符型數(shù)據(jù)集的SVM的平均分類精度Tab.4 Average classification accuracies of SVM over categorical datasets

        表5 字符型數(shù)據(jù)集的Hit ratioTab.5 Hit ratio of categorical datasets

        4.4 混合型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及分析

        表6和表7分別給出了混合型數(shù)據(jù)集的平均分類精度,填補(bǔ)誤差(RMSE)和填補(bǔ)命中率(Hit).顯然,GCCMVI在card和liver數(shù)據(jù)集上表現(xiàn)都很好,在zoo數(shù)據(jù)集上效果不夠好,但差距較小.

        表 6 混合型數(shù)據(jù)集的SVM的平均分類精度Tab.6 Average classification accuracies of SVM over mixed datasets

        表7 混合型數(shù)據(jù)集的RMSE和Hit ratioTab.7 RMSE and Hit ratio of mixed datasets

        4.5 填補(bǔ)時(shí)間評(píng)估

        不同填補(bǔ)方法的填補(bǔ)時(shí)間在表8中給出,GCCMVI方法快于除了Mean和CCMVI的其他的方法.比Mean慢是因?yàn)樵贕CCMVI中,均值填補(bǔ)是其中的一個(gè)預(yù)填補(bǔ)過(guò)程;比CCMVI慢的主要原因是當(dāng)數(shù)據(jù)實(shí)例數(shù)目過(guò)大時(shí),執(zhí)行最小最大標(biāo)準(zhǔn)化過(guò)程,需要遍歷所有值找最值,這會(huì)增加計(jì)算量.但顯然這一增加量是可以接受的,因?yàn)樽钚∽畲髽?biāo)準(zhǔn)化過(guò)程導(dǎo)致了較少的填補(bǔ)時(shí)間的增加量,然而卻換來(lái)了更小的填補(bǔ)誤差,這使得填補(bǔ)效果更好.

        表8 不同方法的填補(bǔ)時(shí)間(單位: s)Tab.8 Imputation time of different methods(in seconds)

        5 結(jié) 論

        目前已有的缺失值填補(bǔ)方法都存在著填補(bǔ)效果不夠好或者不能適用于缺失比例較高等缺陷.因此,我們提出了一個(gè)有效的缺失值填補(bǔ)方法名為灰色類中心缺失值填補(bǔ)方法(GCCMVI),它包括兩個(gè)模塊,模塊A通過(guò)類中心與其他實(shí)例間的相關(guān)性來(lái)得到閾值,相關(guān)性通過(guò)灰色關(guān)聯(lián)分析來(lái)計(jì)算,模塊B用得到的閾值來(lái)填補(bǔ)缺失值.實(shí)驗(yàn)使用了3種不同類型的數(shù)據(jù)集:數(shù)值型,字符型和混合型數(shù)據(jù)集,此外,所提出的方法與6種基準(zhǔn)方法進(jìn)行了比較,它們是Mean,SVM,WRF,KNNI,FKNNI,CCMVI,實(shí)驗(yàn)結(jié)果表明,本文方法顯著提高了分類精度和填補(bǔ)效果,且GCCMVI(+)稍微好于GCCMVI(-),但它們之間沒(méi)有顯著差異.

        但本文只考慮了支持向量機(jī)一種分類器,沒(méi)有一個(gè)不同分類器間的綜合的比較實(shí)驗(yàn).未來(lái)研究中可以考慮其他的分類器.除此之外,僅考慮了完全隨機(jī)缺失的情況,其他兩種缺失機(jī)制:隨機(jī)缺失和非隨機(jī)缺失未考慮,未來(lái)研究可加入三種缺失機(jī)制間的比較實(shí)驗(yàn).

        猜你喜歡
        集上標(biāo)準(zhǔn)差實(shí)例
        用Pro-Kin Line平衡反饋訓(xùn)練儀對(duì)早期帕金森病患者進(jìn)行治療對(duì)其動(dòng)態(tài)平衡功能的影響
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        復(fù)扇形指標(biāo)集上的分布混沌
        對(duì)于平均差與標(biāo)準(zhǔn)差的數(shù)學(xué)關(guān)系和應(yīng)用價(jià)值比較研究
        完形填空Ⅱ
        完形填空Ⅰ
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        醫(yī)學(xué)科技論文中有效數(shù)字的確定
        談數(shù)據(jù)的變化對(duì)方差、標(biāo)準(zhǔn)差的影響
        久久久噜噜噜久久| 色偷偷亚洲av男人的天堂| 亚洲一区二区三区麻豆| 三级黄色片免费久久久| 手机看片久久国产免费| 热の国产AV| 日韩精品一区二区亚洲av性色 | 中文字幕国产精品中文字幕| 亚洲一区二区三区麻豆 | 亚洲色图+国产精品| 国产主播一区二区在线观看| 人妖在线一区二区三区| 亚洲熟女www一区二区三区| 免费人成再在线观看网站| 一区欧美在线动漫| 亚洲熟少妇一区二区三区| 午夜成人理论福利片| 成人免费网站视频www| 无码熟妇人妻av在线c0930| 青青草激情视频在线播放| 极品白嫩的小少妇| 国产视频毛片| 亚洲av一区二区网址| 日本少妇又色又爽又高潮| 天天躁日日躁狠狠躁av| 久久精品爱国产免费久久| 国产精品亚洲一区二区三区久久 | 久久99国产综合精品| 人妻无码中文字幕免费视频蜜桃| 青青草免费激情自拍视频| 亚洲一区二区三区偷拍厕所| 国产无遮挡又黄又爽免费网站| 综合网在线视频| 久久精品国产亚洲av网在| 国产成人精品久久亚洲高清不卡| 97午夜理论片在线影院| 粉嫩国产白浆在线播放| 中文字幕精品一区二区三区| 一本一道波多野结衣av中文| 中文AV怡红院| 精品人妻av一区二区三区四区 |