亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)學建模中的缺失數(shù)據(jù)

        2013-12-31 00:00:00孫瑜玲
        中國科教創(chuàng)新導刊 2013年10期

        摘 要:高職院校參加全國大學生數(shù)學建模的學校越來越多,學生也在不斷的增加,為了能夠讓學習數(shù)學建模的學生能更全面的把握處理缺失數(shù)據(jù)的方式方法,有必要對缺失數(shù)據(jù)的產(chǎn)生、檢測及處理做一個梳理。而本文是基于SPSS軟件對缺失數(shù)據(jù)的檢測和處理進行介紹。

        關鍵詞:缺失數(shù)據(jù) 缺失值 異常值 檢測 處理

        中圖分類號:G64 文獻標識碼:A 文章編號:1673-9795(2013)04(a)-0065-02

        在大學生數(shù)學建模和實際生活中,大量的信息都直接或者間接的和數(shù)據(jù)建立密切的聯(lián)系,我們要從這些數(shù)據(jù)中尋找所關心的問題答案,往往我們是通過建立適當?shù)臄?shù)據(jù)模型來完成的。而對數(shù)據(jù)預處理中缺失數(shù)據(jù)的處理是我們建立適當數(shù)據(jù)模型必不可少的前提條件,如果不考慮缺失數(shù)據(jù),將嚴重影響結果的穩(wěn)定性。

        對數(shù)據(jù)中有明顯或明顯不合理的數(shù)據(jù)以及漏填的數(shù)據(jù)都可看做缺失數(shù)據(jù)。對缺失數(shù)據(jù)進行處理時,必須了解缺失數(shù)據(jù)出現(xiàn)出現(xiàn)的原因,這是決定所選擇的缺失數(shù)據(jù)處理方法是否合適的一個關鍵因素,此外還有變量的分布和范圍也是決定所選的缺失數(shù)據(jù)處理方法是否合適的另一個關鍵因素。當數(shù)據(jù)缺失的原因已知時,在數(shù)據(jù)分析的過程中加以正確考慮,產(chǎn)生的分析結果才不會產(chǎn)生較大的偏倚。當然,如果缺失數(shù)據(jù)的產(chǎn)生的原因不明確時,那么我們就只能在對數(shù)據(jù)作合理猜測基礎上對數(shù)據(jù)進行分析。

        對于缺失數(shù)據(jù)的類型上來說可以為兩類:一類是缺失值;另一類是異常值。

        1 缺失值

        1.1 缺失值出現(xiàn)的主要原因

        缺失值產(chǎn)生的原因多種多樣,主要有設備和人為兩類因素,比如數(shù)據(jù)存儲的失敗,存儲器損壞,或者由于計算機故障導致某時間段數(shù)據(jù)未能收集,也有在收集數(shù)據(jù)過程中沒有采集到相關的數(shù)據(jù)和數(shù)據(jù)錄入人員漏錄了數(shù)據(jù)等等。

        1.2 缺失值檢測

        在SPSS中,默認缺失值通常以黑點表示,只需要對數(shù)據(jù)進行升序(或降序)排列,通過快速瀏覽數(shù)據(jù)列表便可以發(fā)現(xiàn)以黑點表示的缺失值集中在一起,記錄下缺失值所在的變量即數(shù)據(jù)的列,便于后面的處理;也可以通過分析窗口中的描述統(tǒng)計功能,統(tǒng)計出每個變量有無缺失值以及有效值和缺失值的個數(shù)。

        1.3 缺失值的處理

        (1)剔除缺失值的觀測單位,即刪除SPSS數(shù)據(jù)列表中缺失值所在的數(shù)據(jù)行。

        如果數(shù)據(jù)缺失問題可以通過簡單的刪除小部分樣本來達到目的,那么這種方法是有效的,在Spss的統(tǒng)計分析程序中,打開Options按鈕,便會出現(xiàn)缺失值的處理欄(missing values)。通常有三個選項:一是Exclude cases listwise,即按列表排除個案,表示對所有的分析過程剔除分組變量和因變量中所有帶有缺失值的觀測量數(shù)據(jù);二是Exclude cases pairwise,即按對排除個案,同時剔除帶缺失值的觀測量及與缺失值有成對關系的觀測量。在當前分析過程中用到的變量數(shù)據(jù)中剔除帶有缺失值的觀測量數(shù)據(jù),在其他分析過程中可能包含缺失值;三是Replace with mean,即使用均值替換,將分組變量的缺失值單獨分為一組,在輸出頻數(shù)表的同時輸出缺失值。

        (2)對缺失值進行估后計填補。

        在數(shù)據(jù)分析中,面對大量的數(shù)據(jù),因為一個屬性值的缺失而放棄大量的其它屬性值,這種刪除是對信息的極大浪費,所以產(chǎn)生了對缺失值進行估計后填補的思想,主要有兩種插補方法。

        第一,在建模過程中,通過對問題的深入分析,查閱相關的文獻報道憑借知識經(jīng)驗進行合理估計。

        第二,是通過SPSS提供的替換缺失值選項進行估計,對于定距型數(shù)據(jù)采用均值,對于非定距型采用眾數(shù)來補齊缺失值,通常有如下五種替代方法:一是series mean,即以列的算術平均值進行替代;二是mean of nearly point,即以缺失值鄰近點的算術平均值進行替代;三是Median of nearly point,即以缺失值臨近點的中位數(shù)替代;四是linear interpolation即根據(jù)缺失值前后的兩個觀察值進行線性內插法估計和替代;五是linear trend atpoint,即用線形回歸法進行估計和替代。

        (3)缺失值分析過程中填補。

        在SPSS的分析工具欄下有針對缺失值的分析窗口,該窗口主要用于對缺失值的估計,主要方法有四種:

        第一,是Listwise,即按列表狀態(tài)刪除,缺失值較少,樣本夠大,把缺失的樣本完全去除,如果任何一個變量含有缺失數(shù)據(jù),把相應的個案,從分析中剔除,對缺失值占的比例小,十分有效,到底多少,比例合適?有局限性,以減少樣本樣本量來換取信息的完備,會造成資源的大量浪費,嚴重影響到數(shù)據(jù)的客觀性和結果的正確性。

        第二,是Pairwise,即配對狀態(tài),其中一條記錄中有一變量缺失,將在統(tǒng)計時刪除該條信息,但在進行其它統(tǒng)計量時不受影響。

        第三,是EM,即期望最大化,可用于缺失較多,有效樣本足夠保證其服從正態(tài)分布,該估計方法是通過觀測數(shù)據(jù)的邊際分布對未知參數(shù)進行極大似然估計,該方法比刪除個案和均值插補更具有吸引力,但缺點是只適用于大樣本。

        第四,是Regression,即回歸,沒有足夠的樣本的話,缺失值較少,缺失因素比較明確,選中的連續(xù)性變量為自變量,缺失的變量為因變量,考慮殘差,回歸替換法首先需要選擇若干個預測缺失值的自變量,然后建立回歸方程估計缺失值。即用缺失數(shù)據(jù)的條件期望對缺失值進行替換,與之前的幾種方法相比,該方法利用了數(shù)據(jù)庫中盡量多的信息,其弊端為一是容易忽視隨機誤差,在缺失信息增多會變得更加嚴重;二是必須假設缺失值所在的變量與其他變量存在線性關系,但實際上這種關系并不一定存在。

        2 異常值

        2.1 異常值出現(xiàn)的原因

        異常值是指各變量中與整體數(shù)據(jù)相距太遠的極值,由于它的夸大作用,常常會歪曲統(tǒng)計結果,導致分析結果犯錯誤,而這類數(shù)據(jù)的出現(xiàn)主要來源于在數(shù)據(jù)輸入的過程中輸入不正確,或在不同的數(shù)據(jù)格式之間進行轉換時,錯誤的將代號當成了實際觀測值,以及在數(shù)據(jù)采集過程中,由于被采集者對問題的誤解等因素,而得到不在該屬性值范圍內的數(shù)據(jù)。

        2.2 異常值的檢測

        在SPSS中,我們可以對數(shù)據(jù)進行升序(或降序)排列,通過快速瀏覽,發(fā)現(xiàn)那些明顯大于或者小于該屬性值的數(shù)據(jù),也可以用散點圖、箱圖(凡是與四分位數(shù)值的距離超過1.5倍四分位數(shù)間距的都會被定義為異常值,在輸出的圖形中會用記號標示)、Q-Q圖(當數(shù)據(jù)符合指定分布時,Q-Q圖中各點近似呈一條直線等檢測有無極端值)等進行異常值的檢測。

        2.3 減少異常值方法

        數(shù)學建模中不可能將數(shù)據(jù)逐一進行核查,因此我們可在合理分析的情況下,查閱相關文獻,根據(jù)經(jīng)驗估計是減少異常值的一種途徑,同時也可以借助于軟件解決,盡量減少異常值對模型的影響,通過上面的檢查方法檢測出來的異常值在SPSS中通常有如下四種處理方式:

        第一,是將異常值在變量視圖中進行定義,可以定義三個離散型的數(shù)值作為缺失值,也可以定義一個連續(xù)性的范圍再加上一個離散性的數(shù)值作為缺失值。

        第二,是根據(jù)檢測的異常值,在數(shù)據(jù)工具欄中有選擇個案窗口,采用設置條件的方式將異常值排除在外。

        第三,是對異常值進行估計插補,方法與前面的缺失值處理方法相同。

        第四,是將原始數(shù)據(jù)轉換成標準Z分數(shù),將范圍在[-2,2]以外的數(shù)據(jù)作為缺失值考慮。

        對于SPSS而言,對于缺失數(shù)據(jù)的檢測,在不同的分析功能中也有專門的探測方法,比如在回歸分析中,對于解釋變量能用杠桿值、庫克距離以及標準化回歸系數(shù)的變化和標準化預測值的變化進行探測,對于被解釋變量中能用標準化殘差、學生化殘差以及剔除殘差進行探測等等。對于不同分析功能中的缺失數(shù)據(jù)的檢測及其處理就不再一一討論。

        參考文獻

        [1]胡紅曉,謝佳,韓冰.缺失值處理方法比較研究[J].商場現(xiàn)代化,2007(15):359-360.

        [2]薛薇.SPSS的數(shù)據(jù)分析[M].北京:中國人民大學出版社,2006.

        99久久精品国产片| 蜜桃视频无码区在线观看| 欧美性大战久久久久久久| 精品亚洲女同一区二区| 国产免费一区二区三区在线视频| 精品国产一区二区三区av| 亚洲欧美综合区自拍另类| 久久永久免费视频| 中文字幕一区二区三在线| 自拍偷拍 视频一区二区| 亚洲第一页综合图片自拍| 伊人网在线视频观看| 中文字幕久区久久中文字幕 | 亚洲欧美中文日韩在线v日本| 一区二区三区在线 | 欧| 99国产精品久久久蜜芽| 国产精品亚洲av一区二区三区| 欧美激情视频一区二区三区免费| 少妇人妻偷人精品免费视频| 亚洲欧美另类精品久久久| 男女性生活视频免费网站| 极品老师腿张开粉嫩小泬| 日韩精品无码一区二区中文字幕| 2021亚洲色中文字幕| 日日高潮夜夜爽高清视频| 欧美黑寡妇特a级做爰| 久久亚洲欧洲无码中文| 中文字幕亚洲乱码熟女在线| 色佬精品免费在线视频| 亚洲男人的天堂在线aⅴ视频| 国产精品天天看大片特色视频 | 国产精品福利久久香蕉中文| 激情亚洲不卡一区二区| 女人被狂躁c到高潮视频| 波多野结衣有码| 免费在线av一区二区| 综合亚洲伊人午夜网| 大伊香蕉在线精品视频75| 国产精品亚洲一区二区极品| 国内自拍速发福利免费在线观看| 亚洲国产精品第一区二区|