亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于距離最大化和缺失數(shù)據(jù)聚類(lèi)的填充算法

        2018-01-18 07:10:42趙星王遜黃樹(shù)成
        電子設(shè)計(jì)工程 2018年1期
        關(guān)鍵詞:方法

        趙星,王遜,黃樹(shù)成

        (江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇鎮(zhèn)江212003)

        數(shù)據(jù)挖掘中的數(shù)據(jù)往往都不可避免的存在著缺失數(shù)據(jù)、冗余數(shù)據(jù)、不確定數(shù)據(jù)和不一致數(shù)據(jù)等多種問(wèn)題[1]。在各個(gè)領(lǐng)域中,缺失數(shù)據(jù)這一問(wèn)題都是不容忽視的。尤其是目前的數(shù)據(jù)收集工作,已漸漸從人工搜集轉(zhuǎn)變?yōu)闄C(jī)器搜集。并且,由于數(shù)據(jù)量的急速膨脹,導(dǎo)致各種數(shù)據(jù)質(zhì)量問(wèn)題屢見(jiàn)不鮮,在這中間數(shù)據(jù)缺失尤為常見(jiàn)。導(dǎo)致數(shù)據(jù)中存在大量“空值”的因素有許多,例如數(shù)據(jù)收集條件的制約、度量方法錯(cuò)誤、人工錄入時(shí)出現(xiàn)遺漏和違反數(shù)據(jù)約束等[2]。在某些領(lǐng)域中的數(shù)據(jù)庫(kù)中缺失值比例高達(dá)50%~60%以上[3,11-12]。這些不完整的數(shù)據(jù)不僅意味著信息空白,更重要的是它會(huì)影響后續(xù)數(shù)據(jù)挖掘抽取模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確性[4]。因此,如何處理缺失數(shù)據(jù)已成為數(shù)據(jù)清洗及數(shù)據(jù)預(yù)處理領(lǐng)域研究的主要問(wèn)題之一。

        當(dāng)前,存在的用于缺失值處理的方法共分為兩類(lèi)[13,15]。第一種方法為直接刪除不完整數(shù)據(jù),將含有缺失值的屬性或記錄從數(shù)據(jù)集中全部刪除。這種方法的實(shí)現(xiàn)方式比較簡(jiǎn)單,并且容易實(shí)現(xiàn)。但這種方法可能會(huì)刪除潛在的有用數(shù)據(jù),使得挖掘結(jié)果產(chǎn)生偏差[14]。第二種方法為基于填充技術(shù)的方法。該方法是采取填充算法對(duì)不完整數(shù)據(jù)進(jìn)行填充,大多是運(yùn)用完整數(shù)據(jù)分析方法,分析完整數(shù)據(jù)來(lái)對(duì)不完整數(shù)據(jù)進(jìn)行填充,從而用最接近的值來(lái)替代缺失值[5]。這種方法可以提高可用數(shù)據(jù)的數(shù)量。因此,采用填充算法來(lái)處理數(shù)據(jù)缺失問(wèn)題,不管從量上還是質(zhì)上,對(duì)缺失數(shù)據(jù)的處理效果都要好于第一種。目前國(guó)內(nèi)外已提出了很多有關(guān)缺失數(shù)據(jù)填充的算法,在當(dāng)前是一個(gè)研究熱點(diǎn)。主要可以分為統(tǒng)計(jì)方法、分類(lèi)方法、關(guān)聯(lián)規(guī)則分類(lèi)方法等[6]。雖然這些方法在不同的應(yīng)用環(huán)境下都有各自的優(yōu)點(diǎn),但仍然存在一些不足[7]。

        文中研究了聚類(lèi)方法在缺失值填充中的使用,基于K-means聚類(lèi)的缺失值填充算法根據(jù)與目標(biāo)最相似的實(shí)例屬性值來(lái)估計(jì)缺失值,處理后的結(jié)果具有較高的準(zhǔn)確性。但這種算法方法依然存在一些不足,因此,文中在原有算法基礎(chǔ)上,設(shè)計(jì)了一種改進(jìn)的算法:基于距離最大化和缺失數(shù)據(jù)聚類(lèi)的填充算法。新算法根據(jù)相距最遠(yuǎn)的數(shù)據(jù)不在同一類(lèi)中的原則,改進(jìn)后的算法使用數(shù)據(jù)間的最大距離確定聚類(lèi)中心,可以自動(dòng)確定k值,使得聚類(lèi)結(jié)果達(dá)到最優(yōu),更高效的進(jìn)行數(shù)據(jù)填充;其次,對(duì)聚類(lèi)的距離函數(shù)進(jìn)行改進(jìn),采用部分距離度量方式,改進(jìn)后的算法可以對(duì)含有缺失值的記錄進(jìn)行聚類(lèi),做到同時(shí)進(jìn)行聚類(lèi)和標(biāo)記缺失數(shù)據(jù)所屬類(lèi),從而簡(jiǎn)化原填充算法步驟。最后,在填充過(guò)程中,增加對(duì)離散型數(shù)據(jù)的填充處理。

        1 改進(jìn)的基于K-means聚類(lèi)的缺失數(shù)據(jù)填充算法

        1.1 基于K-means聚類(lèi)的缺失值填充算法

        基于K-means聚類(lèi)的缺失值填充方法需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:提前除去原始數(shù)據(jù)集中缺失過(guò)多數(shù)據(jù),這些數(shù)據(jù)包括含有較多缺失值的記錄或者屬性。通常情況下,如果缺失的屬性值比重達(dá)到50%及以上就選擇去除該條記錄[8]。由于同類(lèi)事物間有許多屬性是相似的。因此,在對(duì)完整數(shù)據(jù)進(jìn)行聚類(lèi)后,可以根據(jù)聚類(lèi)結(jié)果計(jì)算出缺失值并加以填充。

        基于K-means算法的缺失值填充算法的主要步驟如圖1所示,具體描述如下:

        圖1 基于聚類(lèi)算法的缺失值填充算法流程圖

        輸入:含有m個(gè)對(duì)象的數(shù)據(jù)集D,聚類(lèi)個(gè)數(shù)k

        輸出:經(jīng)過(guò)缺失值填充處理的數(shù)據(jù)集D′

        步驟:

        Step1.根據(jù)記錄中是否含有缺失值將原始數(shù)據(jù)集D劃分為兩個(gè)數(shù)據(jù)子集,分別為完整數(shù)據(jù)子集C和缺失數(shù)據(jù)子集M。

        Step2.在完整的數(shù)據(jù)子集C上進(jìn)行K-means聚類(lèi),最終將數(shù)據(jù)集C分成k個(gè)類(lèi)。

        Step3.標(biāo)記M中的記錄所屬類(lèi)。計(jì)算缺失數(shù)據(jù)子集M中的每條記錄與C上k個(gè)類(lèi)重心之間的相似度,然后選出相似度最大的一個(gè)類(lèi),把記錄賦給該類(lèi)。

        Step4.填充M中的缺失值。根據(jù)上一步標(biāo)記的所屬類(lèi),將M中的每條記錄的缺失值用標(biāo)記類(lèi)相應(yīng)的屬性均值來(lái)填充。

        經(jīng)過(guò)填充后,得到經(jīng)過(guò)缺失值填充處理的數(shù)據(jù)集D′,D′包含完整數(shù)據(jù)子集C和經(jīng)填充后的子集M′。

        從上述描述看出,該算法的輸入值有兩個(gè),分別為含有m個(gè)對(duì)象的數(shù)據(jù)集D和聚類(lèi)個(gè)數(shù)k。需要使用者提前輸入聚類(lèi)個(gè)數(shù),這是它的缺點(diǎn)所在。并且在填充數(shù)據(jù)時(shí)使用均值,對(duì)于離散性數(shù)據(jù),正確率會(huì)大大降低。

        1.2 改進(jìn)算法的策略

        文中從以下幾個(gè)方面對(duì)K-means聚類(lèi)的缺失值填充算法進(jìn)行改進(jìn)。

        1)通過(guò)最大距離確定k值。原算法要求用戶提前輸入聚類(lèi)的個(gè)數(shù)(k值),這其實(shí)也是K-means算法自身的缺點(diǎn)。如果通過(guò)經(jīng)驗(yàn)來(lái)評(píng)估出k值,有可能會(huì)導(dǎo)致最終形成的聚類(lèi)的結(jié)果與實(shí)際的類(lèi)別數(shù)目差別甚遠(yuǎn)。數(shù)據(jù)量越龐大,k值就越難以估算,并且在聚類(lèi)的過(guò)程中極易陷入局部最優(yōu)解的局面[10]。若想選擇合適的k值,常常需要使用其他方法進(jìn)行k值的估算。所以本文將基于聚類(lèi)的缺失值填充算法加以改進(jìn),提出了基于距離最大化的k值自動(dòng)生成算法,在一定程度解決了K-means算法中k值的確定問(wèn)題。

        改進(jìn)算法思想:針對(duì)原算法的第二步加以改進(jìn),省略k值的輸入,使k值自動(dòng)生成。首先選擇盡可能離得遠(yuǎn)的數(shù)據(jù)對(duì)象作為初始的聚類(lèi)中心進(jìn)行劃分,然后分別按照歐式距離尋找各類(lèi)中離聚類(lèi)中心點(diǎn)最遠(yuǎn)的數(shù)據(jù)對(duì)象,再在其中選擇距離最大的那個(gè)數(shù)據(jù)對(duì)象為新增的聚類(lèi)中心點(diǎn),進(jìn)行重新劃分,如此反復(fù),直到滿足一定的條件算法結(jié)束。聚類(lèi)完成后,聚類(lèi)的個(gè)數(shù)也就自動(dòng)產(chǎn)生了。

        在該算中相似度的計(jì)算均采用的是歐式距離度量方式,改進(jìn)算法步驟與流程如下:

        Step1.設(shè)定一個(gè)含有n個(gè)數(shù)據(jù)對(duì)象的集合D,。首先選擇距離最大兩個(gè)數(shù)據(jù)對(duì)象xp,xq作為初始的聚類(lèi)中心,即xp,xq之間的距離滿足,則把xp作為第一個(gè)類(lèi)的聚類(lèi)中心,記為S1,即S1=xp;把xq作為第二個(gè)類(lèi)的聚類(lèi)中心,記為S2,即S2=xq。

        Step2.將集合Sn中其余的n-2個(gè)數(shù)據(jù)對(duì)象,按照歐式距離計(jì)算,并以S1,S2為聚類(lèi)中心劃分類(lèi),若,則將xi劃分到類(lèi)S1中,否則將xi劃分到類(lèi)S2中,這樣就將集合D以S1,S2為聚類(lèi)中心劃分成了兩大類(lèi),分別記作D21,D22。Step3.計(jì)算類(lèi)D21中的所有數(shù)據(jù)對(duì)象到S1的距離,并取最大距離記為d21,即計(jì)算類(lèi)D22中的所有數(shù)據(jù)對(duì)象到S2的距離,同樣取最大距離,得

        Step4.取d2=max{d21,d22} ,若d2>hd1(h為輸入?yún)?shù),一般由經(jīng)驗(yàn)獲得),對(duì)應(yīng)的那個(gè)數(shù)據(jù)對(duì)象為第3個(gè)聚類(lèi)中心點(diǎn),記為S3,把D以S1,S2,S3為聚類(lèi)中心劃分成了3大類(lèi),分別記作D31,D32,D33。

        Step5.計(jì)算類(lèi)D31中的所有數(shù)據(jù)對(duì)象到S1的距離,得,計(jì)算類(lèi)D32中的所有數(shù)據(jù)對(duì)象到S2的距離,得計(jì)算類(lèi)D33中的所有數(shù)據(jù)對(duì)象到S3的距離,得

        其中參數(shù)h的取值范圍為0.5≤h≤1,可以看出h的取值與最終形成的聚類(lèi)中心的個(gè)數(shù)成反比。因?yàn)閔越小越容易滿足Step6中的檢驗(yàn)條件,即聚類(lèi)中心之間的距離比較小,也就越容易找到新的聚類(lèi)中心。根據(jù)實(shí)際經(jīng)驗(yàn),h一般取為0.5。

        改進(jìn)后的算法必須在去除孤立點(diǎn)之后才能使用,因?yàn)閷?duì)未處理的數(shù)據(jù)進(jìn)行聚類(lèi),恰恰容易選擇兩個(gè)孤立點(diǎn)作為初始的聚類(lèi)中心,產(chǎn)生錯(cuò)誤的聚類(lèi)結(jié)果。但由于此算法應(yīng)用于數(shù)據(jù)挖掘前,數(shù)據(jù)預(yù)處理的數(shù)據(jù)清洗中,數(shù)據(jù)清洗還需要對(duì)數(shù)據(jù)集光滑噪聲并去除離群點(diǎn),糾正數(shù)據(jù)的不一致性[9]。所以在此情況下,去除了“噪聲”和孤立點(diǎn)數(shù)據(jù)的影響后,應(yīng)用此方法,去除了不足之處。并且改進(jìn)后的聚類(lèi)算法避免了用戶輸入的參數(shù)對(duì)聚類(lèi)結(jié)果的影響,在一定程度上也避免了聚類(lèi)陷入局部最優(yōu)解的局面。

        2)將聚類(lèi)和標(biāo)記操作合并,省略計(jì)算缺失數(shù)據(jù)所屬類(lèi)這一步驟。在K-means聚類(lèi)的缺失數(shù)據(jù)填充算法中,第三步為計(jì)算每個(gè)缺失記錄所屬類(lèi),該步驟需再次搜索數(shù)據(jù)集,計(jì)算缺失記錄與類(lèi)重心的相似度,增加了整個(gè)算法的處理時(shí)間,針對(duì)這一缺點(diǎn),加以改進(jìn),直接對(duì)整個(gè)數(shù)據(jù)集進(jìn)行聚類(lèi),在聚類(lèi)同時(shí)對(duì)缺失記錄做標(biāo)記。

        文中提出了將聚類(lèi)(Step2)和標(biāo)記操作(Step3)合并的方法。若要合并2、3步,需要含有缺失值的記錄同時(shí)參與聚類(lèi),但K-means聚類(lèi)算法不能計(jì)算含有缺失值記錄之間的距離。并且,在第3步中,計(jì)算每個(gè)缺失記錄所屬類(lèi),需要計(jì)算缺失記錄與每個(gè)類(lèi)重心的相似度,最大相似度對(duì)應(yīng)的類(lèi)標(biāo)記為缺失記錄所屬類(lèi)。其中相似度的計(jì)算,則利用歐氏距離計(jì)算各個(gè)屬性之間的相異度,變換之后,得到記錄間的相似度。可以看出,第二步聚類(lèi)中的距離函數(shù)和第三步計(jì)算缺失記錄所屬類(lèi)中的相似度函數(shù)均基于歐氏距離。因此若要對(duì)含有缺失記錄的數(shù)據(jù)集進(jìn)行聚類(lèi),則需要對(duì)K-means算法的距離函數(shù)加以改進(jìn),來(lái)適用于計(jì)算含缺失值數(shù)據(jù)集中對(duì)象之間的距離。改進(jìn)后的算法,屬性值之間的距離依然采用歐氏距離,當(dāng)遇到含有缺失值的記錄時(shí),使用該記錄的剩余屬性值來(lái)計(jì)算與其他記錄之間的距離。通過(guò)添加指示變量ε來(lái)區(qū)分缺失屬性值,然后再將該距離乘以擴(kuò)展系數(shù)來(lái)計(jì)算二者的整體距離。

        設(shè)整個(gè)數(shù)據(jù)集合為D,數(shù)據(jù)集D中存在缺失記錄,D中每個(gè)記錄均有m個(gè)屬性用xi表示記錄X的第i個(gè)屬性值。數(shù)據(jù)集D中存在記錄X和Y,若記錄X和Y第i個(gè)屬性值上存在缺失值,即X和Y其中一個(gè)第i個(gè)屬性值缺失,或X和Y第i個(gè)屬性值均缺失,則X和Y的第i個(gè)屬性的指示變量εi為0,否則為1,εi計(jì)算公式如式(1):

        歐式距離度量方法如式(2),在此基礎(chǔ)上加入指示變量和擴(kuò)展系數(shù),改進(jìn)后的距離函數(shù)如式(3)。

        3)使用重值對(duì)離散型數(shù)據(jù)填充。在最后一步填充過(guò)程中,原算法采用標(biāo)記類(lèi)的屬性均值來(lái)填充缺失值。若該屬性值為離散性數(shù)據(jù),使用均值填充,會(huì)大大的降低填充的準(zhǔn)確性。所以針對(duì)此處不足,加以改進(jìn):如果缺失數(shù)據(jù)為數(shù)值型數(shù)據(jù),則依然使用標(biāo)記類(lèi)的平均值作為缺失數(shù)據(jù)的值;如果缺失數(shù)據(jù)是離散型數(shù)據(jù),則改使用標(biāo)記類(lèi)中出現(xiàn)次數(shù)最多的屬性值作為缺失數(shù)據(jù)值。計(jì)算方法如下:其中Ai為缺失值所在屬性的屬性值,n為該類(lèi)記錄總數(shù)。

        1.3 改進(jìn)算法的步驟

        改進(jìn)的基于K-means算法的缺失值清洗算法的具體描述如下:

        輸入:含有m個(gè)對(duì)象的數(shù)據(jù)集D

        輸出:已經(jīng)過(guò)缺失值填充處理的數(shù)據(jù)集D′

        方法:

        Step1.不做劃分,對(duì)整個(gè)數(shù)據(jù)集D使用改進(jìn)的K-means聚類(lèi)算法進(jìn)行聚類(lèi),會(huì)得到k個(gè)類(lèi),將聚類(lèi)結(jié)果標(biāo)記為D1,D2,…,Dk。

        Step 2.依次檢查中D1,D2,…,Dk是否存在缺失記錄,若Di中包含缺失數(shù)據(jù)記錄,則將Di拆分成兩個(gè)子集,分別為完整數(shù)據(jù)子集Ci和缺失數(shù)據(jù)子集Mi,即數(shù)據(jù)子集Ci中的所有記錄均為完整記錄,不包含缺失值,而數(shù)據(jù)集Mi中的記錄均含有一個(gè)及以上的屬性存在缺失值。并且數(shù)據(jù)集Ci和Mi存在以下關(guān)系:Di=Ci?Mi,Ci?Mi=?。

        Step 3.根據(jù)數(shù)據(jù)子集Mi所在類(lèi),使用式(7),對(duì)記錄的缺失數(shù)據(jù)進(jìn)行填充,若缺失數(shù)據(jù)為數(shù)值型數(shù)據(jù),則使用標(biāo)記類(lèi)的平均值作為缺失數(shù)據(jù)的值;若缺失數(shù)據(jù)是離散型數(shù)據(jù),則使用標(biāo)記類(lèi)中出現(xiàn)次數(shù)最多的數(shù)值作為缺失數(shù)據(jù)值。填充后數(shù)據(jù)集記為

        2 實(shí)驗(yàn)結(jié)果

        本實(shí)驗(yàn)的數(shù)據(jù)集采用來(lái)自UCI的STUDENT ALCOHOL CONSUMPTION Data Set數(shù)據(jù)集,該數(shù)據(jù)集具有13個(gè)屬性,1 044條數(shù)據(jù)。由于STUDENT ALCOHOL CONSUMPTION數(shù)據(jù)集并不存在缺失數(shù)據(jù),為完整數(shù)據(jù)集,其中每條記錄都已經(jīng)含有類(lèi)標(biāo)簽,為了實(shí)驗(yàn),將人為地制造不同比例的缺失值到數(shù)據(jù)集中,也就是選取某一屬性并且將一部分實(shí)例的該屬性值設(shè)為unkown,這里要指出的是,屬性的選取非常關(guān)鍵,需要選擇對(duì)實(shí)例其他屬性有關(guān)聯(lián)的屬性。

        文中采用正確率衡量算法的填充精度。實(shí)驗(yàn)最終,將經(jīng)過(guò)算法填充的數(shù)據(jù)集與原始數(shù)據(jù)集進(jìn)行比較,通過(guò)計(jì)算正確率來(lái)體現(xiàn)填充算法的匹配程度。正確率計(jì)算方法如下:

        其中m是正確填充的屬性值個(gè)數(shù),n為原始數(shù)據(jù)集中缺失的屬性值個(gè)數(shù),P為填充算法的正確率。當(dāng)P值為0時(shí),表示所有填充的缺失值都錯(cuò)誤;相反,當(dāng)P值為1時(shí),所有填充的缺失值都正確。

        實(shí)驗(yàn)結(jié)果及分析:

        圖2 基于K-means聚類(lèi)的缺失值填充算法不同k值下的精確度曲線

        圖3 本文算法不同h值下的精確度曲線

        從圖2可以看出,對(duì)于原聚類(lèi)填充算法,并非值越大缺失值填充效果就越好,而且k的取值沒(méi)有規(guī)律可循,當(dāng)與數(shù)據(jù)集的分類(lèi)吻合時(shí),其實(shí)k驗(yàn)結(jié)果較好。從圖3可以看出,可以看出h的取值與正確率基本成反。因?yàn)閔越小表示,即聚類(lèi)中心之間的距離比較小,數(shù)據(jù)的相似度也就越高,填充效果也就更好。

        圖4 不同算法不同缺失比例下的精確度曲線

        從圖4可以看出,缺失值較少的情況下,填充的精確度普遍較高,當(dāng)缺失值比例40%以上的時(shí)候,精確度降低。

        表1 不同填充算法最優(yōu)正確率對(duì)比表

        通過(guò)此表可以看出,使用基于K-means的缺失值填充算法和經(jīng)過(guò)改進(jìn)的基于K-means的缺失值填充算法對(duì)缺失值進(jìn)行有效填充的準(zhǔn)確度較均值填充算法有所提高,特別是經(jīng)過(guò)改進(jìn)的K-means的缺失值填充算法,在沒(méi)有損失正確率的前提下,成功的解決K-means算法對(duì)用戶k值輸入的依賴(lài),另外也避免了初始值選取的非常近而增加算法迭代循環(huán)次數(shù)影響算法效率的問(wèn)題。而且可根據(jù)實(shí)際情況,調(diào)節(jié)準(zhǔn)確度??梢?jiàn),改進(jìn)后的算法對(duì)缺失值填充還是十分有效的。

        3 結(jié)論

        文中提出了一種基于距離最大化和缺失數(shù)據(jù)聚類(lèi)的填充算法。首先,對(duì)K-means聚類(lèi)算法加以改進(jìn),利用數(shù)據(jù)間的最大距離確定聚類(lèi)中心;其次對(duì)聚類(lèi)的距離函數(shù)進(jìn)行改進(jìn),使之能夠?qū)θ笔?shù)據(jù)進(jìn)行聚類(lèi),在聚類(lèi)的同時(shí)完成標(biāo)記缺失數(shù)據(jù)所屬類(lèi),簡(jiǎn)化了原填充算法步驟;最后,在填充過(guò)程中,對(duì)于離散型數(shù)據(jù),改用標(biāo)記類(lèi)中出現(xiàn)頻率最高的值填充缺失值。改進(jìn)后的算法不需要提前輸入聚類(lèi)個(gè)數(shù),避免了用戶輸入的參數(shù)對(duì)聚類(lèi)結(jié)果的影響,在一定程度上也避免了聚類(lèi)陷入局部最優(yōu)解的局面。并且通過(guò)化簡(jiǎn)原算法步驟和增加離散型數(shù)據(jù)的處理,使得填充過(guò)程更簡(jiǎn)潔高效。實(shí)驗(yàn)結(jié)果表明本文提出的算法在填充正確率上高于原有的經(jīng)典算法,而且該算法具有更高的運(yùn)行效率。

        [1]Oud J H L,Voelkle M C.Do missing values exist?Incomplete data handling in cross- national longitudinal studies by means of continuous time modeling[J].Quality&;Quantity,2014,48(6):3271-3288.

        [2]方匡南,謝邦昌.基于聚類(lèi)關(guān)聯(lián)規(guī)則的缺失數(shù)據(jù)處理研究[J].統(tǒng)計(jì)研究,2011(2):87-92.

        [3]Julie M D,Kannan B.Attribute reduction and missing value imputing with ANN:prediction of learning disabilities[J].NeuralComputing and Applications,2012,21(7):1757-1763.

        [4]Yozgatligil C,Aslan S,Iyigun C,et al.Comparison of missing value imputation methods in time series:the case of Turkish meteorological data[J].Theoretical and Applied Climatology,2013,112(1):143-167.

        [5]Juhola M,Laurikkala J.Missing values:how many can they be to preserve classification reliability[J].Artificial Intelligence Review,2013,40(3):231-245.

        [6]帥平,李曉松,周曉華,等.缺失數(shù)據(jù)統(tǒng)計(jì)處理方法的研究進(jìn)展[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2013(1):135-139,142.

        [7]金連.不完全數(shù)據(jù)中缺失值填充關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.

        [8]Li Z,Sharaf M A,Sitbon L,et al.A web-based approach to data imputation[J].World Wide Web,2014,17(5):873-897.

        [9]黃樑昌.kNN填充算法的分析和改進(jìn)研究[D].桂林:廣西師范大學(xué),2010.

        [10]Gokhale M,F(xiàn)rigo J,Mccabe K,et al.Experience withaHybridProcessor:K-MeansClustering[J].The Journal of Supercomputing,2003,26(2):131-148.

        [11]Chang G,Zhang Y,Yao D.Missing Data Imputation for Traffic Flow Based on Improved Local Least Squares[J].Tsinghua Science and Technology,2012(3):304-309.

        [12]武森,馮小東,單志廣.基于不完備數(shù)據(jù)聚類(lèi)的缺失數(shù)據(jù)填補(bǔ)方法[J].計(jì)算機(jī)學(xué)報(bào),2012(8):1726-1738.

        [13]沐守寬,周偉.缺失數(shù)據(jù)處理的期望-極大化算法與馬爾可夫蒙特卡洛方法[J].心理科學(xué)進(jìn)展,2011(7):1083-1090.

        [14]沈琳,陳千紅,譚紅專(zhuān).缺失數(shù)據(jù)的識(shí)別與處理[J].中南大學(xué)學(xué)報(bào),2013(12):1289-1294.

        [15]楊軍,趙宇,丁文興.抽樣調(diào)查中缺失數(shù)據(jù)的插補(bǔ)方法[J].數(shù)理統(tǒng)計(jì)與管理,2008(5):821-832.

        [16]Zou G H,LI Ying-fu,Zhu R,et al.Imputation of Mean ofRatios for Missing Data and Its Application to PPSWR Sampling[J]. Acta Mathematica Sinica(English Series),2010(5):863-874.

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡(jiǎn)單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢(qián)方法
        亚洲av无码乱码国产精品久久| 男女搞黄在线观看视频| 男女啪啪在线视频网站| 丝袜美腿av免费在线观看| 喷水白浆视频在线观看| 国产人妖乱国产精品人妖| 熟女体下毛毛黑森林| 国产三级在线视频播放| 美女黄网站永久免费观看网站| 久久人妻一区二区三区免费| 女人和拘做受全程看视频 | 午夜精品久久久久久久99老熟妇| 亚洲色成人网站www永久| 亚洲av无码一区二区乱子伦| 无码日韩人妻AV一区免费 | 一区二区免费中文字幕| 国产内射一级一片内射视频| 欧美一区二区三区激情| 成人片99久久精品国产桃花岛| 亚洲伊人伊成久久人综合| 欧美巨鞭大战丰满少妇| 日日噜狠狠噜天天噜av| 在线看片国产免费不卡| 亚洲成人av一区免费看| 国产成人av综合色| 免费啪啪视频一区| 国产性感丝袜美女av| 一区二区三区人妻少妇| 特级做a爰片毛片免费看无码| 97精品国产91久久久久久久| 清纯唯美亚洲经典中文字幕| 久久精品中文字幕| 曰本女人与公拘交酡免费视频| 国产精品国产三级国产an| 免费蜜桃视频在线观看| 永久天堂网av手机版| 无码h黄动漫在线播放网站| 国产精品一区二区三区不卡| 国产91色综合久久高清| 台湾佬中文娱乐网22| 手机看片久久国产免费|