亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)學(xué)建模中的缺失數(shù)據(jù)

2013-12-31 00:00:00孫瑜玲

中國科教創(chuàng)新導(dǎo)刊 2013年10期

摘要：高職院校參加全國大學(xué)生數(shù)學(xué)建模的學(xué)校越來越多，學(xué)生也在不斷的增加，為了能夠讓學(xué)習(xí)數(shù)學(xué)建模的學(xué)生能更全面的把握處理缺失數(shù)據(jù)的方式方法，有必要對缺失數(shù)據(jù)的產(chǎn)生、檢測及處理做一個梳理。而本文是基于SPSS軟件對缺失數(shù)據(jù)的檢測和處理進(jìn)行介紹。

關(guān)鍵詞：缺失數(shù)據(jù) 缺失值異常值檢測處理

中圖分類號：G64 文獻(xiàn)標(biāo)識碼：A 文章編號：1673-9795（2013）04（a）-0065-02

在大學(xué)生數(shù)學(xué)建模和實際生活中，大量的信息都直接或者間接的和數(shù)據(jù)建立密切的聯(lián)系，我們要從這些數(shù)據(jù)中尋找所關(guān)心的問題答案，往往我們是通過建立適當(dāng)?shù)臄?shù)據(jù)模型來完成的。而對數(shù)據(jù)預(yù)處理中缺失數(shù)據(jù)的處理是我們建立適當(dāng)數(shù)據(jù)模型必不可少的前提條件，如果不考慮缺失數(shù)據(jù)，將嚴(yán)重影響結(jié)果的穩(wěn)定性。

對數(shù)據(jù)中有明顯或明顯不合理的數(shù)據(jù)以及漏填的數(shù)據(jù)都可看做缺失數(shù)據(jù)。對缺失數(shù)據(jù)進(jìn)行處理時，必須了解缺失數(shù)據(jù)出現(xiàn)出現(xiàn)的原因，這是決定所選擇的缺失數(shù)據(jù)處理方法是否合適的一個關(guān)鍵因素，此外還有變量的分布和范圍也是決定所選的缺失數(shù)據(jù)處理方法是否合適的另一個關(guān)鍵因素。當(dāng)數(shù)據(jù)缺失的原因已知時，在數(shù)據(jù)分析的過程中加以正確考慮，產(chǎn)生的分析結(jié)果才不會產(chǎn)生較大的偏倚。當(dāng)然，如果缺失數(shù)據(jù)的產(chǎn)生的原因不明確時，那么我們就只能在對數(shù)據(jù)作合理猜測基礎(chǔ)上對數(shù)據(jù)進(jìn)行分析。

對于缺失數(shù)據(jù)的類型上來說可以為兩類：一類是缺失值；另一類是異常值。

1 缺失值

1.1 缺失值出現(xiàn)的主要原因

缺失值產(chǎn)生的原因多種多樣，主要有設(shè)備和人為兩類因素，比如數(shù)據(jù)存儲的失敗，存儲器損壞，或者由于計算機故障導(dǎo)致某時間段數(shù)據(jù)未能收集，也有在收集數(shù)據(jù)過程中沒有采集到相關(guān)的數(shù)據(jù)和數(shù)據(jù)錄入人員漏錄了數(shù)據(jù)等等。

1.2 缺失值檢測

在SPSS中，默認(rèn)缺失值通常以黑點表示，只需要對數(shù)據(jù)進(jìn)行升序（或降序）排列，通過快速瀏覽數(shù)據(jù)列表便可以發(fā)現(xiàn)以黑點表示的缺失值集中在一起，記錄下缺失值所在的變量即數(shù)據(jù)的列，便于后面的處理；也可以通過分析窗口中的描述統(tǒng)計功能，統(tǒng)計出每個變量有無缺失值以及有效值和缺失值的個數(shù)。

1.3 缺失值的處理

（1）剔除缺失值的觀測單位，即刪除SPSS數(shù)據(jù)列表中缺失值所在的數(shù)據(jù)行。

如果數(shù)據(jù)缺失問題可以通過簡單的刪除小部分樣本來達(dá)到目的，那么這種方法是有效的，在Spss的統(tǒng)計分析程序中，打開Options按鈕，便會出現(xiàn)缺失值的處理欄（missing values）。通常有三個選項：一是Exclude cases listwise，即按列表排除個案，表示對所有的分析過程剔除分組變量和因變量中所有帶有缺失值的觀測量數(shù)據(jù)；二是Exclude cases pairwise，即按對排除個案，同時剔除帶缺失值的觀測量及與缺失值有成對關(guān)系的觀測量。在當(dāng)前分析過程中用到的變量數(shù)據(jù)中剔除帶有缺失值的觀測量數(shù)據(jù)，在其他分析過程中可能包含缺失值；三是Replace with mean，即使用均值替換，將分組變量的缺失值單獨分為一組，在輸出頻數(shù)表的同時輸出缺失值。

（2）對缺失值進(jìn)行估后計填補。

在數(shù)據(jù)分析中，面對大量的數(shù)據(jù)，因為一個屬性值的缺失而放棄大量的其它屬性值，這種刪除是對信息的極大浪費，所以產(chǎn)生了對缺失值進(jìn)行估計后填補的思想，主要有兩種插補方法。

第一，在建模過程中，通過對問題的深入分析，查閱相關(guān)的文獻(xiàn)報道憑借知識經(jīng)驗進(jìn)行合理估計。

第二，是通過SPSS提供的替換缺失值選項進(jìn)行估計，對于定距型數(shù)據(jù)采用均值，對于非定距型采用眾數(shù)來補齊缺失值，通常有如下五種替代方法：一是series mean，即以列的算術(shù)平均值進(jìn)行替代；二是mean of nearly point，即以缺失值鄰近點的算術(shù)平均值進(jìn)行替代；三是Median of nearly point，即以缺失值臨近點的中位數(shù)替代；四是linear interpolation即根據(jù)缺失值前后的兩個觀察值進(jìn)行線性內(nèi)插法估計和替代；五是linear trend atpoint，即用線形回歸法進(jìn)行估計和替代。

（3）缺失值分析過程中填補。

在SPSS的分析工具欄下有針對缺失值的分析窗口，該窗口主要用于對缺失值的估計，主要方法有四種：

第一，是Listwise，即按列表狀態(tài)刪除，缺失值較少，樣本夠大，把缺失的樣本完全去除，如果任何一個變量含有缺失數(shù)據(jù)，把相應(yīng)的個案，從分析中剔除，對缺失值占的比例小，十分有效，到底多少，比例合適？有局限性，以減少樣本樣本量來換取信息的完備，會造成資源的大量浪費，嚴(yán)重影響到數(shù)據(jù)的客觀性和結(jié)果的正確性。

第二，是Pairwise，即配對狀態(tài)，其中一條記錄中有一變量缺失，將在統(tǒng)計時刪除該條信息，但在進(jìn)行其它統(tǒng)計量時不受影響。

第三，是EM，即期望最大化，可用于缺失較多，有效樣本足夠保證其服從正態(tài)分布，該估計方法是通過觀測數(shù)據(jù)的邊際分布對未知參數(shù)進(jìn)行極大似然估計，該方法比刪除個案和均值插補更具有吸引力，但缺點是只適用于大樣本。

第四，是Regression，即回歸，沒有足夠的樣本的話，缺失值較少，缺失因素比較明確，選中的連續(xù)性變量為自變量，缺失的變量為因變量，考慮殘差，回歸替換法首先需要選擇若干個預(yù)測缺失值的自變量，然后建立回歸方程估計缺失值。即用缺失數(shù)據(jù)的條件期望對缺失值進(jìn)行替換，與之前的幾種方法相比，該方法利用了數(shù)據(jù)庫中盡量多的信息，其弊端為一是容易忽視隨機誤差，在缺失信息增多會變得更加嚴(yán)重；二是必須假設(shè)缺失值所在的變量與其他變量存在線性關(guān)系，但實際上這種關(guān)系并不一定存在。

2 異常值

2.1 異常值出現(xiàn)的原因

異常值是指各變量中與整體數(shù)據(jù)相距太遠(yuǎn)的極值，由于它的夸大作用，常常會歪曲統(tǒng)計結(jié)果，導(dǎo)致分析結(jié)果犯錯誤，而這類數(shù)據(jù)的出現(xiàn)主要來源于在數(shù)據(jù)輸入的過程中輸入不正確，或在不同的數(shù)據(jù)格式之間進(jìn)行轉(zhuǎn)換時，錯誤的將代號當(dāng)成了實際觀測值，以及在數(shù)據(jù)采集過程中，由于被采集者對問題的誤解等因素，而得到不在該屬性值范圍內(nèi)的數(shù)據(jù)。

2.2 異常值的檢測

在SPSS中，我們可以對數(shù)據(jù)進(jìn)行升序（或降序）排列，通過快速瀏覽，發(fā)現(xiàn)那些明顯大于或者小于該屬性值的數(shù)據(jù)，也可以用散點圖、箱圖（凡是與四分位數(shù)值的距離超過1.5倍四分位數(shù)間距的都會被定義為異常值，在輸出的圖形中會用記號標(biāo)示）、Q-Q圖（當(dāng)數(shù)據(jù)符合指定分布時，Q-Q圖中各點近似呈一條直線等檢測有無極端值）等進(jìn)行異常值的檢測。

2.3 減少異常值方法

數(shù)學(xué)建模中不可能將數(shù)據(jù)逐一進(jìn)行核查，因此我們可在合理分析的情況下，查閱相關(guān)文獻(xiàn)，根據(jù)經(jīng)驗估計是減少異常值的一種途徑，同時也可以借助于軟件解決，盡量減少異常值對模型的影響，通過上面的檢查方法檢測出來的異常值在SPSS中通常有如下四種處理方式：

第一，是將異常值在變量視圖中進(jìn)行定義，可以定義三個離散型的數(shù)值作為缺失值，也可以定義一個連續(xù)性的范圍再加上一個離散性的數(shù)值作為缺失值。

第二，是根據(jù)檢測的異常值，在數(shù)據(jù)工具欄中有選擇個案窗口，采用設(shè)置條件的方式將異常值排除在外。

第三，是對異常值進(jìn)行估計插補，方法與前面的缺失值處理方法相同。

第四，是將原始數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)Z分?jǐn)?shù)，將范圍在[-2，2]以外的數(shù)據(jù)作為缺失值考慮。

對于SPSS而言，對于缺失數(shù)據(jù)的檢測，在不同的分析功能中也有專門的探測方法，比如在回歸分析中，對于解釋變量能用杠桿值、庫克距離以及標(biāo)準(zhǔn)化回歸系數(shù)的變化和標(biāo)準(zhǔn)化預(yù)測值的變化進(jìn)行探測，對于被解釋變量中能用標(biāo)準(zhǔn)化殘差、學(xué)生化殘差以及剔除殘差進(jìn)行探測等等。對于不同分析功能中的缺失數(shù)據(jù)的檢測及其處理就不再一一討論。

參考文獻(xiàn)

[1]胡紅曉，謝佳，韓冰.缺失值處理方法比較研究[J].商場現(xiàn)代化，2007（15）：359-360.

[2]薛薇.SPSS的數(shù)據(jù)分析[M].北京：中國人民大學(xué)出版社，2006.

中國科教創(chuàng)新導(dǎo)刊2013年10期

中國科教創(chuàng)新導(dǎo)刊的其它文章: 如何選擇軸套類零件的尺寸基準(zhǔn); 從《堂吉訶德》的中文譯本看“復(fù)譯”現(xiàn)象; 汽車電子技術(shù)專業(yè)人才培養(yǎng)模式研究; 動漫設(shè)計專業(yè)如何引入企業(yè)項目教學(xué)的探討; 技工院校制冷與空調(diào)專業(yè)一體化教學(xué)模式探究; 淺談包裝設(shè)計與技術(shù)專業(yè)“廠中?！苯虒W(xué)模式的改革