徐鴻艷 孫云山 秦琦琳 朱明濤
摘? 要:數(shù)據(jù)缺失問(wèn)題在現(xiàn)實(shí)工作生活中不可避免,為保證信息完整度以便于后續(xù)統(tǒng)計(jì)分析,盡可能準(zhǔn)確地預(yù)測(cè)填補(bǔ)缺失值則顯得尤為重要。基于兩組分別服從于高斯分布和伽馬分布的模擬數(shù)據(jù)集和一組非洲地區(qū)部分國(guó)家預(yù)期壽命實(shí)際數(shù)據(jù),分別預(yù)設(shè)5%、10%和20%三種缺失比例,利用計(jì)算機(jī)軟件對(duì)四種插補(bǔ)方法統(tǒng)計(jì)結(jié)果進(jìn)行比較分析。試驗(yàn)結(jié)果表明,模擬數(shù)據(jù)中自回歸建模插補(bǔ)和均值插補(bǔ)整體效果略?xún)?yōu)于最近鄰插補(bǔ)和線性回歸插補(bǔ);實(shí)際數(shù)據(jù)中當(dāng)缺失數(shù)據(jù)比例較低時(shí),最近鄰插補(bǔ)和線性回歸插補(bǔ)效果優(yōu)于前兩者,當(dāng)缺失比例較高時(shí)與模擬數(shù)據(jù)效果無(wú)明顯差異。
關(guān)鍵詞:缺失數(shù)據(jù);插補(bǔ)方法;自回歸建模
中圖分類(lèi)號(hào):TP399? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Comparative Analysis of the Performance of Interpolation
Methods for Missing Data
XU Hongyan1, SUN Yunshan2, QIN Qilin1, ZHU Mingtao2
(1.School of Science, Tianjin University of Commerce, Tianjin 300134, China;
2.School of Information Engineering, Tianjin University of Commerce, Tianjin 300134, China)
2552727224@qq.com; sunyunshan@tjcu.edu.cn; 3099141857@qq.com; 648191948@qq.com
Abstract: Data missing is inevitable. In order to ensure information integrity and follow-up statistical analysis, it is particularly important to predict and fill in missing values as accurately as possible. Based on two sets of simulated data sets that are subject to Gaussian distribution and Gamma distribution respectively, and a set of actual life expectancy data of some countries in Africa, three missing ratios of 5%, 10% and 20% are preset respectively, and the statistical results of the four interpolation methods are compared and analyzed by computer software. The experimental results show that the overall effect of auto-regression modeling interpolation and mean interpolation in simulated data is slightly better than that of K-nearest neighbor interpolation and linear regression interpolation. In actual data, when the proportion of missing data is low, K-nearest neighbor interpolation and linear regression is better than the former two, and there is no significant difference in the effect of the simulated data when the missing ratio is high.
Keywords: missing data; interpolation method; autoregressive
1? ?引言(Introduction)
數(shù)據(jù)作為一種形式多變的信息載體,如今廣泛存在并應(yīng)用于各行各業(yè)中,尤其是進(jìn)入大數(shù)據(jù)時(shí)代以來(lái),各類(lèi)數(shù)據(jù)信息的完整、準(zhǔn)確、充足與否與各行業(yè)的發(fā)展息息相關(guān)。然而由于某些主觀和客觀原因(如數(shù)據(jù)統(tǒng)計(jì)或錄入過(guò)程中被遺漏,數(shù)據(jù)獲取渠道未公開(kāi)等),不可避免地會(huì)存在一些數(shù)據(jù)缺失的情況[1]。另外,現(xiàn)行的統(tǒng)計(jì)方法并不能直接對(duì)缺失數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,因而如何處理缺失數(shù)據(jù)并使其提供最大完整度的信息就成了重中之重。隨著數(shù)據(jù)缺失這一現(xiàn)實(shí)問(wèn)題逐漸受到重視,國(guó)內(nèi)外相關(guān)學(xué)者也對(duì)其進(jìn)行了一系列研究。相對(duì)而言,國(guó)外學(xué)者起步更早,早有學(xué)者于20 世紀(jì)便提出了缺失數(shù)據(jù)的相關(guān)問(wèn)題。在經(jīng)過(guò)無(wú)數(shù)次試驗(yàn)后,學(xué)者們發(fā)現(xiàn)缺失數(shù)據(jù)難以避免,因此一系列插補(bǔ)方法應(yīng)運(yùn)而生,如加權(quán)法、冷熱平臺(tái)插補(bǔ)、回歸插補(bǔ)和EM算法等[2]。而我國(guó)相關(guān)問(wèn)題的研究起步于21 世紀(jì)初,較有代表性的為金勇進(jìn)教授在其文章《缺失數(shù)據(jù)的插補(bǔ)調(diào)整》中提出的一系列插補(bǔ)方法,而后隨著其他學(xué)者的不斷深入學(xué)習(xí),除傳統(tǒng)插補(bǔ)方法以外,一些機(jī)器學(xué)習(xí)方法(支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和決策樹(shù)等[3])在缺失數(shù)據(jù)插補(bǔ)上也得到了廣泛應(yīng)用。
本文旨在通過(guò)模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)對(duì)現(xiàn)今應(yīng)用較為廣泛的幾種數(shù)據(jù)插補(bǔ)方法進(jìn)行比較分析,第二部分主要對(duì)缺失數(shù)據(jù)產(chǎn)生的原因和本文中應(yīng)用到的幾種插補(bǔ)方法進(jìn)行簡(jiǎn)要概述,第三部分基于模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)進(jìn)行實(shí)證分析,最后針對(duì)試驗(yàn)結(jié)果得出結(jié)論。
2? ?缺失數(shù)據(jù)概述(An overview of missing data)
2.1? ?缺失數(shù)據(jù)產(chǎn)生原因及分類(lèi)
從數(shù)據(jù)的收集、整理、處理到應(yīng)用,任何一個(gè)環(huán)節(jié)出現(xiàn)問(wèn)題都可能會(huì)造成數(shù)據(jù)信息的遺失,我們根據(jù)各類(lèi)數(shù)據(jù)的不同階段將其缺失原因主要分為以下幾種:(1)調(diào)查人員調(diào)查不足造成資料中的數(shù)據(jù)丟失;(2)統(tǒng)計(jì)人員在數(shù)據(jù)錄入過(guò)程中出現(xiàn)失誤,或因數(shù)據(jù)采集設(shè)備故障等原因引起數(shù)據(jù)缺失;(3)被調(diào)查人員的主觀失誤或有意隱瞞造成的數(shù)據(jù)缺失[4];(4)歷史原因造成的數(shù)據(jù)缺失;(5)未公開(kāi)數(shù)據(jù)難以獲取和其他原因造成的數(shù)據(jù)缺失,等等。
而關(guān)于缺失數(shù)據(jù)的分類(lèi),隨著近年來(lái)缺失數(shù)據(jù)問(wèn)題研究的不斷發(fā)展和相關(guān)學(xué)者研究的不斷深入,我們既可根據(jù)缺失機(jī)制將其分為隨機(jī)缺失、完全隨機(jī)缺失和非隨機(jī)缺失[5]三類(lèi),也可根據(jù)數(shù)據(jù)的缺失模式將其分為單變量缺失模式、多變量缺失模式[6]、單調(diào)缺失模式和一般缺失模式四類(lèi),各類(lèi)別的具體含義于其他相關(guān)文獻(xiàn)中均有較為詳細(xì)的介紹,我們這里不作贅述。
2.2? ?缺失數(shù)據(jù)處理方法
對(duì)于缺失數(shù)據(jù)的處理方式,較為簡(jiǎn)單的主要有不處理和直接刪除法。前者主要包括直接在含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘處理的貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)[7]等,但這種處理方式大多認(rèn)為補(bǔ)齊后的數(shù)據(jù)不一定符合客觀事實(shí),錯(cuò)誤地填充會(huì)導(dǎo)致錯(cuò)誤的結(jié)果,因此仍希望在保持原始信息不發(fā)生變化的情況下對(duì)信息系統(tǒng)進(jìn)行處理[8]。后者操作簡(jiǎn)單,但假設(shè)條件較高,容易產(chǎn)生估計(jì)偏差,且簡(jiǎn)單刪除存在缺失的數(shù)據(jù)會(huì)損失大量信息進(jìn)而影響信息的客觀性與結(jié)果的準(zhǔn)確性,因此人們?cè)趯?duì)缺失數(shù)據(jù)進(jìn)行預(yù)處理時(shí),除缺失比例極小的情況外通常也不會(huì)采用此方法。因此,插補(bǔ)法相對(duì)來(lái)說(shuō)目前更符合常理且易被各界學(xué)者及研究人員接受,即基于數(shù)理統(tǒng)計(jì)等原理對(duì)數(shù)據(jù)集中的缺失部分作填充處理,使得數(shù)據(jù)集變得完整以便開(kāi)展下一步工作,其主要用于處理項(xiàng)目無(wú)回答而造成的數(shù)據(jù)缺失,可保證數(shù)據(jù)分析的基本樣本量。目前應(yīng)用較為廣泛的插補(bǔ)法主要有特殊值替換(均值替代、眾數(shù)中位數(shù)替代等)、多重插補(bǔ)、冷熱卡插補(bǔ)、KNN、EM算法和各類(lèi)機(jī)器學(xué)習(xí)插補(bǔ)法等。此外,張量補(bǔ)全法、隨機(jī)森林算法、樸素貝葉斯等新型插補(bǔ)方法也在某些領(lǐng)域的缺失數(shù)據(jù)處理上有著一定的應(yīng)用,本文將對(duì)以下幾種插補(bǔ)方法結(jié)果做比較分析。
2.2.1? ?最近鄰插補(bǔ)方法
最近鄰插補(bǔ)方法(K-Nearest Neighbor, KNN),整體思路較為簡(jiǎn)單,即缺失數(shù)據(jù)插補(bǔ)過(guò)程中,缺失位置數(shù)值根據(jù)其特征空間內(nèi)相鄰最近的K個(gè)觀測(cè)值決定,根據(jù)距離遠(yuǎn)近決定分類(lèi)歸屬,其主要不足為計(jì)算量較大,且缺失比例較大或缺失數(shù)據(jù)點(diǎn)大量連續(xù)時(shí)計(jì)算機(jī)運(yùn)行難以得到預(yù)測(cè)結(jié)果,因此其較適用于類(lèi)域存在交叉和重疊的待估計(jì)樣本點(diǎn)分類(lèi)問(wèn)題。該分類(lèi)算法主要分為以下四個(gè)步驟:
步驟1:導(dǎo)入全部已知觀測(cè)數(shù)據(jù)與待估計(jì)數(shù)據(jù);
步驟2:計(jì)算每個(gè)待估計(jì)樣本點(diǎn)(缺失數(shù)據(jù)點(diǎn))到其他已知觀測(cè)值的距離D;
步驟3:對(duì)每個(gè)計(jì)算得出的距離D進(jìn)行排序,并選出距離最小的K個(gè)點(diǎn);
步驟4:對(duì)上述選出的K個(gè)所屬類(lèi)別進(jìn)行比較后,將待估計(jì)樣本點(diǎn)歸入在K個(gè)已知觀測(cè)點(diǎn)中占比最高的那類(lèi)。
2.2.2? ?均值插補(bǔ)與線性回歸插補(bǔ)
均值插補(bǔ)作為一種操作簡(jiǎn)便且快速的缺失數(shù)據(jù)處理方式,與眾數(shù)、中位數(shù)等插補(bǔ)方法同屬于傳統(tǒng)統(tǒng)計(jì)插補(bǔ),主要分為單一插補(bǔ)和分層插補(bǔ)兩大類(lèi),其缺點(diǎn)為容易造成變量方差和標(biāo)準(zhǔn)差變小,相對(duì)而言更適用于分布較為平均且已知樣本量信息較多的數(shù)據(jù)插補(bǔ)問(wèn)題。
而線性回歸插補(bǔ)的主要思想則為,利用已知觀測(cè)樣本點(diǎn)建立線性回歸模型,估計(jì)回歸模型參數(shù)進(jìn)而對(duì)缺失樣本點(diǎn)進(jìn)行預(yù)測(cè)填補(bǔ),其主要局限在于當(dāng)模型中的變量非線性相關(guān)或預(yù)測(cè)變量高度相關(guān)時(shí),容易產(chǎn)生有偏估計(jì)。
2.2.3? ?自回歸建模插補(bǔ)
自回歸建模方法多用于傳統(tǒng)統(tǒng)計(jì)學(xué)中處理時(shí)間序列預(yù)測(cè)的相關(guān)問(wèn)題研究,后經(jīng)過(guò)相關(guān)學(xué)者的不斷深入研究,逐漸在信號(hào)處理中的缺失音頻圖文填充、缺失數(shù)據(jù)預(yù)測(cè)等方面也有了廣泛應(yīng)用。其主要特點(diǎn)在于不僅能處理因自身因素而受影響的預(yù)測(cè)問(wèn)題,還能建立向量自回歸模型處理因其他因素受影響的缺失數(shù)據(jù)預(yù)測(cè)插補(bǔ)問(wèn)題。對(duì)于本文中非時(shí)間序列的預(yù)測(cè)問(wèn)題,則可以利用已知觀測(cè)數(shù)據(jù)進(jìn)行正向和反向自回歸擬合推斷而來(lái)的估計(jì)值代替缺失數(shù)據(jù),該方法主要運(yùn)算步驟為:
步驟1:將已知觀測(cè)數(shù)據(jù)X(k)和待估計(jì)數(shù)據(jù)X(1)的總數(shù)據(jù)變換為:
步驟2:設(shè)定總樣本數(shù)據(jù)自回歸模型的階數(shù)上限I,為避免排除有效模型,I應(yīng)該設(shè)定得足夠大。
步驟3:計(jì)算樣本自協(xié)方差:
步驟4:通過(guò)最小二乘法擬合階自回歸模型。
步驟5:通過(guò)比較FPE(Final Prediction Error,最終預(yù)報(bào)誤差)大小得出最終預(yù)測(cè)結(jié)果,整個(gè)運(yùn)算過(guò)程我們可通過(guò)計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)。
3? 基于模擬數(shù)據(jù)進(jìn)行不同插補(bǔ)方法比較分析(Comparative analysis of different interpolation methods based on simulated data)
3.1? ?數(shù)據(jù)來(lái)源及統(tǒng)計(jì)指標(biāo)說(shuō)明
本部分我們首先基于服從高斯分布和伽馬分布兩種形式生成的2,000 個(gè)模擬數(shù)據(jù),對(duì)其按照5%、10%、20%三種不同固定比例構(gòu)造缺失數(shù)據(jù)后進(jìn)行四種插補(bǔ)方法的比較,然后基于非洲地區(qū)47 個(gè)國(guó)家1993—2013 年(共21 年)的出生時(shí)預(yù)期壽命完整數(shù)據(jù)集,同樣設(shè)置三種缺失比例對(duì)缺失部分進(jìn)行插補(bǔ)預(yù)測(cè),即對(duì)以上四種方法結(jié)果的適用性進(jìn)行驗(yàn)證分析。本文主要以下面兩種統(tǒng)計(jì)指標(biāo)作為插補(bǔ)效果評(píng)判的依據(jù):
指標(biāo)1:均方誤差(Mean Square Error, MSE)。
指標(biāo)2:平均絕對(duì)百分比誤差(Mean Absolute Percentage Error, MAPE)[9]。
本文用均方誤差和平均絕對(duì)百分比誤差這兩種統(tǒng)計(jì)指標(biāo)的大小來(lái)評(píng)判插補(bǔ)效果,其中MAPE值和MSE值的大小同樣能反映插補(bǔ)值與真實(shí)值之間的差異[10],數(shù)值越小則表示預(yù)測(cè)值與真實(shí)值之間的差異越小,即插補(bǔ)效果越好,反則反之。
3.2? ?基于多種方法不同缺失比例下的插補(bǔ)結(jié)果比較分析
3.2.1? ?高斯模擬數(shù)據(jù)集
本部分基于服從高斯分布的模擬數(shù)據(jù)集,分別運(yùn)用最近鄰(K=5)插補(bǔ)、均值插補(bǔ)、線性回歸插補(bǔ)和自回歸建模插補(bǔ)四種方法進(jìn)行缺失數(shù)據(jù)的預(yù)測(cè),其中缺失比例我們預(yù)設(shè)為5%、10%和20%三種情況,預(yù)測(cè)插補(bǔ)后兩種評(píng)價(jià)指標(biāo)均方誤差和平均絕對(duì)百分比誤差的具體結(jié)果如表1、圖1和圖2所示。
由以上結(jié)果可知,三種缺失比例下的插補(bǔ)準(zhǔn)確率效果整體趨勢(shì)相同,相比較而言均值插補(bǔ)和自回歸建模插補(bǔ)兩種方法的效果較好。其中,評(píng)價(jià)指標(biāo)MSE值二者更為接近,插補(bǔ)預(yù)測(cè)后兩種插補(bǔ)方法在三種缺失比例下的均方誤差分別為0.0621、0.0984、0.1885和0.0663、0.1157、0.2001。而最近鄰插補(bǔ)和線性回歸插補(bǔ)兩者的結(jié)果較差,從統(tǒng)計(jì)結(jié)果來(lái)看與前兩者尚存在較為明顯的差距,尤其是當(dāng)缺失數(shù)據(jù)比例為10%和20%時(shí),劣勢(shì)尤為明顯。
3.2.2? ?伽馬模擬數(shù)據(jù)集
與上一部分中試驗(yàn)過(guò)程類(lèi)似,本部分試驗(yàn)基于服從伽馬分布的模擬數(shù)據(jù)集,分別運(yùn)用最近鄰(K=5)插補(bǔ)、均值插補(bǔ)、線性回歸插補(bǔ)和自回歸建模插補(bǔ)四種方法進(jìn)行缺失數(shù)據(jù)的預(yù)測(cè)插補(bǔ),為控制變量以便作插補(bǔ)效果對(duì)比,缺失比例我們同樣預(yù)設(shè)為5%、10%和20%三種情況,預(yù)測(cè)插補(bǔ)后兩種評(píng)價(jià)指標(biāo)均方誤差和平均絕對(duì)百分比誤差的具體結(jié)果如表2、圖3和圖4所示。
由以上結(jié)果可知,服從伽馬分布的模擬數(shù)據(jù)集三種缺失比例下的四種插補(bǔ)方法預(yù)測(cè)效果與高斯模擬數(shù)據(jù)集無(wú)明顯差別,同樣為均值插補(bǔ)和自回歸建模插補(bǔ)效果較好,最近鄰插補(bǔ)和線性回歸插補(bǔ)效果相對(duì)較差。另外,由圖3和圖4我們可觀察到,當(dāng)缺失比例較小時(shí),四種插補(bǔ)方法的均方誤差和平均絕對(duì)百分比誤差結(jié)果均極為接近;而當(dāng)缺失比例為10%時(shí),四種方法的均方誤差和平均絕對(duì)百分比誤差數(shù)值雖未有明顯差異,但已逐漸開(kāi)始產(chǎn)生區(qū)別;當(dāng)缺失比例為20%時(shí),平均絕對(duì)百分比誤差數(shù)值上均值插補(bǔ)和自回歸建模插補(bǔ),最近鄰插補(bǔ)和線性回歸插補(bǔ)分別兩兩接近,分別為24.0488和24.8366,27.6175和27.7256。
3.3? ?實(shí)例分析
進(jìn)行了上文中四種插補(bǔ)方法對(duì)兩種分布的模擬數(shù)據(jù)預(yù)測(cè)插補(bǔ)結(jié)果分析后,本部分選取了非洲地區(qū)47 個(gè)國(guó)家1993—2013 年(共21 年)的出生時(shí)預(yù)期壽命(Life Expectancy at Birth)實(shí)際數(shù)據(jù)進(jìn)行實(shí)證對(duì)比分析,同樣對(duì)其預(yù)設(shè)5%、10%和20%三種缺失比例,進(jìn)行存在缺失部分?jǐn)?shù)據(jù)的插補(bǔ)。在比較統(tǒng)計(jì)結(jié)果的同時(shí)檢測(cè)以上幾種方法在實(shí)際缺失數(shù)據(jù)插補(bǔ)當(dāng)中的適用性,其中具體結(jié)果如表3、圖5和圖6所示。
由以上插補(bǔ)統(tǒng)計(jì)結(jié)果可看出,最近鄰插補(bǔ)方法在實(shí)際數(shù)據(jù)中均方誤差和平均絕對(duì)百分比誤差數(shù)值明顯小于其他三種插補(bǔ)方法。但值得注意的是,模擬數(shù)據(jù)的預(yù)測(cè)插補(bǔ)過(guò)程中我們最終選用K的數(shù)值為5,而在實(shí)際數(shù)據(jù)的預(yù)測(cè)插補(bǔ)中K的最終值卻因缺失比例不同而有所變化。究其原因是在最近鄰插補(bǔ)方法的計(jì)算過(guò)程中,當(dāng)缺失比例較大時(shí),較容易出現(xiàn)大量數(shù)據(jù)連續(xù)缺失的情況,而此時(shí)計(jì)算機(jī)軟件無(wú)法對(duì)距離做出精確的測(cè)算,也就是說(shuō)無(wú)法得出具體的插補(bǔ)結(jié)果,而人工計(jì)算對(duì)于如此容量的數(shù)據(jù)測(cè)算更是難上加難,因此在本部分實(shí)際數(shù)據(jù)的插補(bǔ)效果比較中,當(dāng)缺失比例高達(dá)20%時(shí),最近鄰插補(bǔ)方法可暫時(shí)退出比較,同時(shí)這也從一定程度上檢驗(yàn)出了該方法在實(shí)際缺失數(shù)據(jù)的預(yù)測(cè)插補(bǔ)等應(yīng)用上的局限性。
另外,其他三種插補(bǔ)方法的效果按整體趨勢(shì)從好到壞依次可排序?yàn)榫挡逖a(bǔ)、自回歸建模插補(bǔ)和線性回歸插補(bǔ)。其中線性回歸插補(bǔ)除在缺失比例為5%的情況下統(tǒng)計(jì)結(jié)果略低于均值插補(bǔ)和自回歸建模插補(bǔ)外(MSE為4.0008,MAPE為0.7110),均明顯劣于前兩者,這可能說(shuō)明線性回歸插補(bǔ)在實(shí)際缺失數(shù)據(jù)的預(yù)測(cè)中較適用于缺失比例低的情況,而當(dāng)缺失數(shù)據(jù)量較大時(shí)則不適用。
4? ?結(jié)論(Conclusion)
本文通過(guò)運(yùn)用四種插補(bǔ)方法對(duì)兩組模擬數(shù)據(jù)和一組實(shí)際數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)插補(bǔ),對(duì)比統(tǒng)計(jì)指標(biāo)均方誤差和平均絕對(duì)百分比誤差數(shù)值后,得出不同分布數(shù)據(jù)和不同缺失比例下的適用插補(bǔ)方法,主要有以下結(jié)論:無(wú)論是模擬數(shù)據(jù)還是實(shí)際數(shù)據(jù),以整體插補(bǔ)效果來(lái)看(考慮不同缺失比例),自回歸建模插補(bǔ)和均值插補(bǔ)略?xún)?yōu)于最近鄰插補(bǔ)和線性回歸插補(bǔ);而在實(shí)際數(shù)據(jù)出生時(shí)預(yù)期壽命這一變量的預(yù)測(cè)插補(bǔ)過(guò)程中,若缺失樣本量較少即缺失比例較低時(shí),最近鄰插補(bǔ)和線性回歸插補(bǔ)
統(tǒng)計(jì)結(jié)果明顯優(yōu)于前者,其他缺失比例下插補(bǔ)效果則與模擬數(shù)據(jù)無(wú)異。因此也可以說(shuō),在實(shí)際缺失數(shù)據(jù)的插補(bǔ)預(yù)測(cè)中,選擇哪種插補(bǔ)方法進(jìn)行預(yù)測(cè)研究是數(shù)據(jù)容量、缺失比例、運(yùn)算速度和數(shù)據(jù)分布等因素共同作用的結(jié)果,要針對(duì)具體情況制訂具體方案。
參考文獻(xiàn)(References)
[1] 楊晟.基于數(shù)據(jù)挖掘技術(shù)的用戶(hù)異常用電檢測(cè)系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2019.
[2] 熊中敏,郭懷宇,吳月欣.缺失數(shù)據(jù)處理方法研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(14):27-38.
[3] 張松蘭,王鵬,徐子偉.基于統(tǒng)計(jì)相關(guān)的缺失值數(shù)據(jù)處理研究[J].統(tǒng)計(jì)與決策,2016(12):13-16.
[4] 朱苗苗.基于時(shí)間序列模型的網(wǎng)絡(luò)流量預(yù)測(cè)研究[D].西安:西安工程大學(xué),2017.
[5] VAZIFEHDAN M, MOATTAR M H, JALALI M. A hybrid bayesian network and tensor factorization approach for missing value imputation to improve breast cancer recurrence prediction[J]. Journal of King Saud University—Computer and Information Sciences, 2019, 31(2):175-184.
[6] 陳雁聲.時(shí)間序列中缺失數(shù)據(jù)的處理方法綜述[J].信息與電腦(理論版),2020,32(10):19-22.
[7] 張昕.不完備信息系統(tǒng)下空缺數(shù)據(jù)處理方法的分析比較[J].海南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2008(04):444-447.
[8] 黃樑昌.kNN填充算法的分析和改進(jìn)研究[D].桂林:廣西師范大學(xué),2010.
[9] 朱高培,朱樂(lè)樂(lè),孟馬承,等.基于Monte Carlo模擬的四種完全隨機(jī)雙變量缺失數(shù)據(jù)處理方法的比較[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2018,35(05):707-709.
[10] 林進(jìn)鈿.基于深度學(xué)習(xí)的電力系統(tǒng)擾動(dòng)后動(dòng)態(tài)頻率特征預(yù)測(cè)[D].成都:西南交通大學(xué),2019.
作者簡(jiǎn)介:
徐鴻艷(1997-),女,碩士生.研究領(lǐng)域:社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)學(xué).
孫云山(1980-),男,博士,教授.研究領(lǐng)域:信號(hào)與信息處理.
本文通訊作者.
秦琦琳(1997-),女,碩士生.研究領(lǐng)域:時(shí)序預(yù)測(cè),深度學(xué)習(xí).
朱明濤(2001-),男,本科生.研究領(lǐng)域:通信信息處理.