亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)處理中缺失數(shù)據(jù)填充方法的研究

        2013-11-12 06:32:16胡玄子陳小雪錢葉亮姜正龍趙彤洲
        湖北工業(yè)大學學報 2013年5期
        關(guān)鍵詞:方法模型

        胡玄子, 陳小雪, 錢葉亮, 姜正龍, 趙彤洲

        (武漢工程大學計算機科學與工程學院,湖北 武漢 430073)

        在海量信息處理過程中,經(jīng)常會遇到數(shù)據(jù)集不完整的情況,通常稱之為缺失數(shù)據(jù).缺失數(shù)據(jù)產(chǎn)生的原因很多,例如受客觀條件限制導致的信息無法獲取,信息因人為疏忽被遺漏,信息屬性值不存在等因素.針對這些缺失數(shù)據(jù),前人做過很多有益的工作,處理方法大致分成三類:刪除、填充、丟棄.刪除數(shù)據(jù)就是將存在確實數(shù)據(jù)的一組數(shù)據(jù)完全刪除,從而得到的數(shù)據(jù)是沒有確實數(shù)據(jù)的完整的數(shù)據(jù)集合.在數(shù)據(jù)分析中,這種方法與丟棄數(shù)據(jù)的方法都比較簡單,是以犧牲某些記錄屬性為代價的.但在多維數(shù)據(jù)處理中,數(shù)據(jù)的不同屬性之間很可能存在某種關(guān)系,而完全不考慮存在缺失數(shù)據(jù)的那些屬性,就很可能影響對數(shù)據(jù)集合的方差及數(shù)據(jù)分布的準確判斷.因此,針對缺失數(shù)據(jù)填充方法的研究成為人們關(guān)注的熱點問題.缺失數(shù)據(jù)的填充方法大致分為兩類:基于統(tǒng)計的方法和基于數(shù)據(jù)挖掘的方法.

        統(tǒng)計方法主要通過對數(shù)據(jù)進行分析,得出數(shù)據(jù)集的一些統(tǒng)計信息,然后利用這些信息填充缺失數(shù)據(jù).根據(jù)對數(shù)據(jù)集的了解程度,統(tǒng)計填充方法可以分為參數(shù)方法、非參方法以及半?yún)⒎椒ǎ畛S玫膮?shù)方法就是線性回歸、EM算法.數(shù)據(jù)挖掘算法主要有貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集規(guī)則方法等等[1].根據(jù)數(shù)據(jù)特點,本文有選擇性地對如下四種方法進行了研究.

        1 算法分析對比

        1.1 拉格朗日插值法

        其中ωn+1(x)=(x-x0)(x-x1)…(x-xn),

        (xi-xi-1)(xi-xi+1)…(xi-xn).

        在數(shù)據(jù)填充時,可以利用已知數(shù)據(jù)求出拉格朗日插值多項式,然后將待求節(jié)點帶入該多項式,就可以求出目標值.

        1.2 回歸分析法

        所謂回歸就是在已知數(shù)據(jù)基礎(chǔ)上,構(gòu)建回歸模型,找出回歸模型中的參數(shù),用以模擬和預測未知數(shù)據(jù)的過程.常用的線性回歸方法,是以誤差平方和最小為基本思想,尋找回歸參數(shù)的過程[2].本文僅討論一元線性回歸分析.

        當求出回歸模型的參數(shù)后,將缺失點數(shù)據(jù)x帶入回歸模型,即可求出填充數(shù)據(jù)y.

        1.3 灰色預測法

        灰色預測是通過少量的、不完全的信息建立數(shù)學模型,進而找到模型參數(shù)的過程.它具有運算方便,建模精度高的特點,在各種預測領(lǐng)域都有著廣泛的應用,是處理小樣本預測問題的有效工具.定義[3]如下,設(shè)給定觀測數(shù)據(jù)列

        x(0)={x(0)(1),x(0)(2),…,x(0)(N)}.

        經(jīng)一次累加得到

        x(1)={x(1)(1),x(1)(2),…,x(1)(N)}.

        特別地,當t=t0時,x(1)=x(1)(t0).對等間隔取樣的離散值則為

        采用最小二乘法來確定a、μ.當模型系數(shù)確定后,采用同樣的方法,將缺失點帶入方程,求得缺失數(shù)據(jù)的估計值.

        1.4 BP神經(jīng)網(wǎng)絡(luò)法

        BP網(wǎng)絡(luò)是由已知的輸入矢量和輸出矢量,訓練出一個網(wǎng)絡(luò)用來逼近某個函數(shù),具有較強的泛化性.主要思想是使網(wǎng)絡(luò)上的節(jié)點真實值與模擬值的誤差平方和最小,即用網(wǎng)絡(luò)的實際輸出A1,A2,…,Aq, 與目標矢量T1,T2,…,Tq之間的誤差修改其權(quán)值,使實際輸出值與期望值盡可能接近從而能得到一個訓練好的網(wǎng)絡(luò)[4-6].在此采用兩層BP網(wǎng)絡(luò)結(jié)構(gòu).

        2 數(shù)據(jù)填充方法在空氣質(zhì)量數(shù)據(jù)分析中的應用

        自2012年入冬以來,各地出現(xiàn)的霧霾天氣不斷成為人們關(guān)心的話題,也成為各大媒體關(guān)注的焦點,武漢市已經(jīng)實現(xiàn)PM2.5的24小時監(jiān)測.本實驗采集了2013年3月13日至4月29日(晚上8點)的武漢市PM2.5值(表1).由于各種原因,導致有部分數(shù)據(jù)缺失.為了得到相對完整的、可靠的數(shù)據(jù)集,我們采用上述4種方法進行了數(shù)據(jù)填充的工作,力圖尋找一種適用于該類數(shù)據(jù)填充的方法.在估計未知數(shù)據(jù)時,為檢測算法的有效性,我們將部分已知數(shù)據(jù)剔除后,進行準確性對比,并同時估計未知數(shù)據(jù).

        表1采集到的部分PM2.5原始數(shù)據(jù)μg/m3

        日期PM2.5日期PM2.5日期PM2.53/131073/301334/15773/14663/311324/16883/15754/11514/171203/26844/3964/20693/16604/4684/22303/17944/5544/23613/201534/6684/241033/21984/8734/251103/221834/9314/26833/241454/10534/27593/25674/11574/28523/27884/12414/29393/28804/13643/29944/1474

        其中,有8天數(shù)據(jù)缺失.用上述四種方法分別進行了數(shù)據(jù)填充.為檢驗算法的有效性,首先將部分已知數(shù)據(jù)剔除,然后分別用四種方法計算剔除數(shù)據(jù)的估計值,并與真實值對比,結(jié)果見表2、表3.

        表2 各種算法對剔除數(shù)據(jù)的估計值和真實值的對比 μg/m3

        表3 各種算法的殘差 μg/m3

        為定性檢驗上述算法的準確性,我們對各種算法的后驗差比值進行計算并比較.后驗差比值的計算方法為

        F=s2/s1.

        即,s1是x(0)的方差,s2是殘差的方差.由此定義可知,后驗差比值反映了殘差相對于標準偏差偏離的程度,后驗差比值越小,表明估計值偏離真實值的程度越小,就越接近真實值.通過上述方法計算各種算法的后驗差比值,見表4.從表4中可見,拉格朗日插值法的后驗差比值最小.因此模擬效果最好.按照此方法,對缺失數(shù)據(jù)進行估計,可得估計值見表5.

        表4 各種算法后驗差比值

        表5 缺失數(shù)據(jù)的估計值 μg/m3

        3 結(jié)論

        盡管填充數(shù)據(jù)的算法有很多種,但是,并不是每種算法都能適用于所有數(shù)據(jù).針對空氣質(zhì)量參數(shù)之一的PM2.5的缺失數(shù)據(jù)填充,我們進行了一些探索性嘗試,認為拉格朗日插值法能比較準確填充缺失數(shù)據(jù),進而可以實現(xiàn)部分數(shù)據(jù)的預測.考慮到研究的科學性,這種算法不一定是最好的,隨著研究的深入,我們認為還有更好的方法值得探索.

        另外,從數(shù)據(jù)預測的趨勢可見,武漢市PM2.5數(shù)值在3-4月份呈現(xiàn)下降的趨勢.

        [參考文獻]

        [1] 劉星毅,曾春華. 缺失數(shù)據(jù)的處理和挑戰(zhàn)[J].欽州學院學報,2008,23(06):25-29.

        [2] 蔣金山,何春雄,潘少華. 最優(yōu)化計算方法[M]. 廣州:華南理工大學出版社,2008.

        [3] 張光澄. 非線性最優(yōu)化計算方法[M]. 北京:高等教育出版社,2005.

        [4] 倪 勤. 最優(yōu)化方法與程序設(shè)計[M]. 北京:科學出版社,2009.

        [5] 楊淑瑩. 模式識別與智能計算:Matlab技術(shù)實現(xiàn)[M].北京: 電子工業(yè)出版社,2008.

        [6] S Theodoridis. 模式識別[M]. 第4版.北京:電子工業(yè)出版社,2010.

        [7] 張德豐. MATLAB神經(jīng)網(wǎng)絡(luò)應用設(shè)計 [M].第二版. 北京:機械工業(yè)出版社,2012.

        [8] 周建興. MATLAB從入門到精通[M]. 第二版. 北京:人民郵電出版社,2012.

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        學習方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        麻豆一区二区三区蜜桃免费| 久久深夜中文字幕高清中文| 日本频道一区二区三区| 亚洲av无码乱码国产麻豆| 久久中文精品无码中文字幕下载| 污污污污污污WWW网站免费| 精品国产亚洲av麻豆尤物| 不卡视频在线观看网站| 伊人久久大香线蕉av色| 久久国产精品久久精品国产| 无码av永久免费大全| 日本少妇熟女一区二区| 欧美日韩精品久久久久| 在线观看av永久免费| 亚洲黄片久久| 第一九区另类中文字幕| 天堂中文最新版在线中文| 欧美一片二片午夜福利在线快 | 国产精品国三级国产av| 日本一区二区三区丰满熟女| 亚洲精品第一国产综合精品| 亚洲欧美日韩国产综合一区二区| 成年人免费黄色h网| 一区二区三区亚洲视频| 鲁丝片一区二区三区免费| 成人在线激情网| 亚洲一区二区三区av色婷婷 | 欧美成人看片一区二区三区尤物| 亚洲的天堂av无码| 色老汉亚洲av影院天天精品| 中文字幕中文字幕在线中二区| 免费毛片a线观看| 精品国产av无码一道| 91九色精品日韩内射无| 久久久久99精品成人片| 久久久精品波多野结衣| 蜜桃视频免费在线视频| 午夜福利影院成人影院| 中国老熟妇自拍hd发布| 91超碰在线观看免费| 国产一区二区三区免费视|