亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)缺失及處理方法探析

        2016-03-12 02:00:52沈陽職業(yè)技術(shù)學(xué)院遼寧沈陽110015
        關(guān)鍵詞:方法

        李 麗(沈陽職業(yè)技術(shù)學(xué)院,遼寧 沈陽 110015)

        ?

        數(shù)據(jù)缺失及處理方法探析

        李 麗
        (沈陽職業(yè)技術(shù)學(xué)院,遼寧 沈陽 110015)

        摘 要:發(fā)生數(shù)據(jù)的缺失會(huì)使得任務(wù)分析難度增加,使得結(jié)果產(chǎn)生偏差,會(huì)使統(tǒng)計(jì)工作效率降低,因此必須找到有效的數(shù)據(jù)填補(bǔ)方法。本文總結(jié)了缺失數(shù)據(jù)產(chǎn)生的原因及數(shù)據(jù)缺失的類型,分析討論了針對(duì)不同缺失數(shù)據(jù)類型的處理方法、策略及優(yōu)缺點(diǎn),給出了缺失數(shù)據(jù)填補(bǔ)的使用原則。

        關(guān)鍵詞:缺失數(shù)據(jù);數(shù)據(jù)填補(bǔ)

        隨著科學(xué)技術(shù)的發(fā)展,軟計(jì)算技術(shù)的提出;粗糙集、模糊邏輯、神經(jīng)網(wǎng)絡(luò)等軟計(jì)算的工具迅速發(fā)展,使研究人員發(fā)現(xiàn)過去所積累的大量經(jīng)驗(yàn)數(shù)據(jù)的重要性。而最常見的問題就是數(shù)據(jù)缺失,發(fā)生缺失數(shù)據(jù)之后需要進(jìn)行及時(shí)的數(shù)據(jù)填補(bǔ),然后進(jìn)行深入分析。在國際上很多專家都對(duì)缺失數(shù)據(jù)的填補(bǔ)方法進(jìn)行了研究,為存在缺失的數(shù)據(jù)問題進(jìn)行了解決,以此保證了相關(guān)工作的正常開展。

        1 缺失數(shù)據(jù)及其產(chǎn)生原因

        在不同領(lǐng)域的研究中,一般會(huì)因?yàn)橐恍┮阎蛭粗脑蛴绊懺斐蓴?shù)據(jù)的缺失,從而增加了數(shù)據(jù)分析工作的困難,對(duì)于最終的分析結(jié)果也會(huì)存在不準(zhǔn)確。數(shù)據(jù)缺失的原因主要有以下幾種:暫時(shí)不能獲取信息,信息是被遺漏的,某個(gè)或某些屬性是不可用的,有意隱瞞或歷史局限,注定放棄獲取信息,系統(tǒng)實(shí)時(shí)性較強(qiáng)數(shù)據(jù)缺失等方面。

        2 數(shù)據(jù)缺失機(jī)制的不同類型

        要解決數(shù)據(jù)缺失的問題,就需對(duì)其形成的具體程序與特性開展研究,Little與Rubin對(duì)缺失數(shù)據(jù)的隨機(jī)性開展了不同數(shù)據(jù)缺失機(jī)制的定義[1]。

        第一種是完全隨機(jī)缺失,在數(shù)據(jù)缺失的發(fā)生幾率與其他數(shù)據(jù)不存在關(guān)聯(lián)的情況下,也就是說數(shù)據(jù)缺失的發(fā)生是獨(dú)立完成的,這種數(shù)據(jù)的類型就可以稱為“MCAR”,數(shù)據(jù)缺失的發(fā)生與其他存在的不完全變量或完全變量都沒有直接的關(guān)系。第二種數(shù)據(jù)缺失機(jī)制叫做隨機(jī)缺失,其概念與第一種缺失形式是相對(duì)存在的,數(shù)據(jù)缺失存在不完全隨機(jī)性,其缺失條件得到了放寬,這種類型數(shù)據(jù)缺失情況的發(fā)生需依賴其他的完全變量。第三種數(shù)據(jù)缺失機(jī)制叫做非隨機(jī)、不可忽略缺失,這一概念之下上面兩種缺失機(jī)制可以被叫做可忽略缺失,它屬于非隨機(jī)的一種數(shù)據(jù)缺失狀態(tài),其不完全變量中數(shù)據(jù)的缺失是需要依賴上述兩種變量本身的,具有不可忽略性。

        3 數(shù)據(jù)缺失的填補(bǔ)方法

        3.1按照完整觀測單位形式的處理方法

        完整的觀測單位是涵蓋任何調(diào)查項(xiàng)目均有觀測的總的稱謂,也可以成為在分析目的相似的調(diào)查項(xiàng)目上有著“無回答”情況的單位,在對(duì)數(shù)據(jù)有缺失的單位進(jìn)行處理之后,進(jìn)行的相關(guān)常規(guī)統(tǒng)計(jì)分析[2]。

        (1)直接刪除法。這種對(duì)數(shù)據(jù)缺失的個(gè)案進(jìn)行直接刪除的方法屬于較為原始的一種方式,在一些數(shù)據(jù)中的變量在一些單元中未被記錄時(shí),而且單元數(shù)目所占比例較大,就可以對(duì)不完整的單元進(jìn)行直接的丟棄。然后對(duì)其中具備完整記錄的單元進(jìn)行分析,直接進(jìn)行數(shù)據(jù)缺失的刪除實(shí)施起來比較方便,并且這一手段對(duì)于有小部分?jǐn)?shù)據(jù)缺失的情況時(shí)能夠比較有效的解決。但同時(shí)這種方法也屬于一種較為極端的解決策略,使用后的風(fēng)險(xiǎn)很大,對(duì)于數(shù)據(jù)缺失相對(duì)來說比較嚴(yán)重的情況,使用刪除的方式就容易造成數(shù)據(jù)估算方面的偏差,進(jìn)而得出一個(gè)錯(cuò)誤的結(jié)果。所以,一般在數(shù)據(jù)缺失很多時(shí),不建議使用這種方法進(jìn)行處理。

        (2)數(shù)據(jù)缺失處理中的加權(quán)法。在數(shù)據(jù)缺失的處理過程中,加權(quán)法也屬于其中比較常見的方式之一,當(dāng)數(shù)據(jù)缺失屬于非完全隨機(jī)缺失這一類型時(shí),能夠利用完整的數(shù)據(jù)加權(quán)來使其中的偏差一定程度的減小。對(duì)數(shù)據(jù)不完整的個(gè)案實(shí)行標(biāo)記處理,將其中完整的個(gè)案進(jìn)行不同權(quán)重的設(shè)置。在變量解釋中能出現(xiàn)對(duì)權(quán)重估計(jì)產(chǎn)生直接影響的因素變量,則在這一方法的使用中就能夠顯著的減小估算的偏差。但解釋變量與權(quán)重如果沒有關(guān)系,則這一偏差不會(huì)減小。對(duì)于其中多個(gè)屬性都有缺失的現(xiàn)象,應(yīng)對(duì)不同屬性的缺失組織賦不同的權(quán)重,相應(yīng)計(jì)算的也會(huì)增加一些難度,預(yù)測的正確率也會(huì)降低,獲得的權(quán)重法會(huì)不符合條件。

        3.2可能值的填補(bǔ)方法

        這一方法的使用是以最可能的值或經(jīng)驗(yàn)值對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),這種類型的填補(bǔ)方法比樣本的刪除所產(chǎn)生的信息丟失情況要少,按照所組成的替代值的數(shù)量可分為單一填補(bǔ)及多重填補(bǔ)。

        (1)數(shù)據(jù)缺失的單一填補(bǔ)法。單一填補(bǔ)在數(shù)據(jù)缺失處理中是以估算為基礎(chǔ)的一種方法,主要是將缺失數(shù)據(jù)進(jìn)行替代之后,對(duì)新合成的數(shù)據(jù)開展的統(tǒng)計(jì)研究,形成數(shù)據(jù)信息的充分利用。主要有:均值填補(bǔ)法、非數(shù)值型、隨機(jī)填補(bǔ)法、隨機(jī)回歸插補(bǔ)幾種方法。這種單一填補(bǔ)的方法對(duì)原有的方法是一種革新,重新開始重視了缺失值這一項(xiàng)目,這也使不同的統(tǒng)計(jì)分析都能在插補(bǔ)之后,通過完整數(shù)據(jù)集進(jìn)行呈現(xiàn)。但這其中的每種手段都具有扭曲樣本分布這一問題,雖然隨機(jī)誤差項(xiàng)已經(jīng)被引入,可以對(duì)這種問題進(jìn)行緩解,但確定隨機(jī)誤差項(xiàng)較為困難,真正實(shí)現(xiàn)難度大。

        (2)多重填補(bǔ)法。多重填補(bǔ)的方法主要利用兩個(gè)以上的侯選集來進(jìn)行填補(bǔ),其應(yīng)用彌補(bǔ)了單一填補(bǔ)法存在的一些問題。首先這一方法實(shí)施過程會(huì)產(chǎn)生多個(gè)中間填補(bǔ)值,其次,多重填補(bǔ)可以對(duì)缺失數(shù)據(jù)的分布進(jìn)行模擬,維持關(guān)系變量穩(wěn)定。

        數(shù)據(jù)缺失使用多重填補(bǔ)方法進(jìn)行處理主要有三個(gè)程序:①對(duì)數(shù)據(jù)中的空值提供一套符合要求的填補(bǔ)數(shù)值,使其可以反映無響應(yīng)模型的不確定特點(diǎn);相關(guān)值都可以來對(duì)數(shù)據(jù)集的缺失進(jìn)行填補(bǔ),使其可以達(dá)到完整的目的。②填補(bǔ)數(shù)據(jù)集合最后用完整數(shù)據(jù)集的統(tǒng)計(jì)手段來分析。③填補(bǔ)數(shù)據(jù)集中的各種結(jié)果,按照評(píng)分函數(shù)選擇,獲得最后的填補(bǔ)值。

        一組數(shù)據(jù)有三個(gè)變量Y1、Y2、Y3,其聯(lián)合分布屬于正態(tài),將數(shù)據(jù)分為3組,A組維持原始數(shù)據(jù),B組缺失Y3,C組缺失Y1和Y2。在多值填補(bǔ)方法中,不對(duì)A組處理,B組會(huì)產(chǎn)生Y3的估計(jì)值,C組則會(huì)產(chǎn)生Y1與Y2的一組估計(jì)值。

        如果使用多值填補(bǔ),對(duì)A組將不做處理,對(duì)B、C組讓完整的樣本進(jìn)行隨機(jī)抽取作為m組使用。在m組觀測值的基礎(chǔ)上,對(duì)產(chǎn)生關(guān)于參數(shù)的m組估計(jì)值進(jìn)行預(yù)測。B組要估計(jì)出Y3的值,C組要通過Y1、Y2、Y3聯(lián)合分布為正態(tài)分布的前提,估計(jì)出一組(Y1、Y2)。

        多重填補(bǔ)后的綜合推斷哪種填補(bǔ)方法都要讓數(shù)據(jù)集填補(bǔ)m次(m 〉 1) , 使數(shù)據(jù)集完整, 再用完整數(shù)據(jù)集的處理方法分析綜合結(jié)果。目前研究出了針對(duì)線性以及 logistic回歸模型的綜合統(tǒng)計(jì)模式,因子分析、結(jié)構(gòu)方程模型等還處于研究之中。

        4 結(jié)束語

        總之,在插補(bǔ)中,由于使用的人為方法干涉,這使得每一種填補(bǔ)方法對(duì)變量間的相互作用都會(huì)產(chǎn)生不同的影響,既要對(duì)其中不完整的信息進(jìn)行補(bǔ)齊,而且還要一定程度上對(duì)原始的數(shù)據(jù)的信息體系進(jìn)行改良。

        參考文獻(xiàn):

        [1]王國胤.Rough 集理論與知識(shí)獲?。跰].西安: 西安交通大學(xué)出版社,2003.

        [2]張星,郝偉.不完備或缺失數(shù)據(jù)及其填補(bǔ)方法研究[J].福建電腦,2007(14):125-126.

        (責(zé)任編輯:吳湘銀)

        中圖分類號(hào):N37

        文獻(xiàn)標(biāo)識(shí)碼:A

        doi:10.3969/j.issn.1672-7304.2016.01.056

        文章編號(hào):1672–7304(2016)01–0118–02

        作者簡介:李麗(1981-),女,遼寧營口人,講師,研究方向:計(jì)算機(jī)信息安全理論與技術(shù)。

        Data is missing and fill method in this paper

        LI Li
        (Shenyang Polytechnic College, Shenyang Liaoning 110015)

        Abstract:The lack of data will make more task analysis, makes the result deviation, will lower the efficiency of statistical work, therefore must find effective data packing method. This paper summarizes the causes of missing data and the type of data missing, missing for different types of data processing were discussed by the method, strategies, and the advantages and disadvantages, missing data fill the use of the principle is presented.

        Keywords:Missing data; Data fill

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        91精品国产色综合久久| www.91久久| 日韩精品免费在线视频| 国产中文字幕免费视频一区 | 99久久婷婷国产亚洲终合精品 | 精品三级av无码一区| 爱a久久片| av网页在线免费观看| 国内精品亚洲成av人片| 中文字幕色一区二区三区页不卡| 91精品国产色综合久久| 内射少妇36p亚洲区| 欧美成人久久久免费播放| 亚洲av噜噜狠狠蜜桃| 国产av一级片在线观看| 人妻aⅴ中文字幕| 国产特级全黄一级毛片不卡| 免费的黄网站精品久久| 一区二区三区人妻av| 性色做爰片在线观看ww| 无码熟妇人妻AV影音先锋| av男人的天堂手机免费网站| 一边摸一边做爽的视频17国产| 在线精品国产一区二区三区 | 日本精品一区二区在线看| 中文字幕中文字幕在线中二区| 人妻aⅴ中文字幕| 一本一道波多野结衣av中文| 亚洲黄色大片在线观看| 激情内射人妻1区2区3区| 内射少妇36p九色| 亚洲高清中文字幕精品不卡| 国产久色在线拍揄自揄拍| 日韩日韩日韩日韩日韩日韩| 免费人成视频在线观看视频| 亚洲色图视频在线播放| 富婆猛男一区二区三区| 国产国拍精品av在线观看按摩 | 男人边吻奶边挵进去视频| 亚洲熟妇av日韩熟妇av| 国产女主播一区二区久久|