趙媛媛 季潔
摘 要:針對(duì)國(guó)省干線(xiàn)公路采集的交通數(shù)據(jù)存在缺失值的情況,文章提出了基于拉格朗日插值法的缺失數(shù)據(jù)恢復(fù)方法。首先,找出缺失數(shù)據(jù)所在位置以及所屬時(shí)間段;其次,采集該位置和該時(shí)間段的歷史平均交通數(shù)據(jù);再次,利用拉格朗日插值法對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ);最后,比較正常數(shù)據(jù)算出的插補(bǔ)值與真實(shí)數(shù)據(jù),評(píng)價(jià)插補(bǔ)的結(jié)果。試驗(yàn)結(jié)果顯示,該方法簡(jiǎn)單、方便、易實(shí)現(xiàn),可以完成對(duì)簡(jiǎn)單的公路數(shù)據(jù)缺失值的恢復(fù),確保數(shù)據(jù)在交通控制、路網(wǎng)規(guī)劃等應(yīng)用中的可靠性。
關(guān)鍵詞:拉格朗日插值法;缺失值;交通數(shù)據(jù)
1? ? 研究背景
對(duì)國(guó)省干線(xiàn)的交通狀況進(jìn)行分析時(shí),需要利用各種先進(jìn)的交通信息采集技術(shù)采集國(guó)省干線(xiàn)上的交通數(shù)據(jù),并對(duì)采集到的數(shù)據(jù)進(jìn)行相應(yīng)的處理和應(yīng)用,如集成、抽樣、壓縮、存儲(chǔ)、發(fā)布等[1]。這些數(shù)據(jù)中隱含的交通時(shí)空分布規(guī)律對(duì)有關(guān)部門(mén)在交通控制、路網(wǎng)規(guī)劃等方面有著較大的參考和利用價(jià)值[2]。
然而,由于交通采集設(shè)備故障、施工損壞、環(huán)境和氣象惡劣等因素的存在,會(huì)導(dǎo)致所采集到的交通數(shù)據(jù)有缺失的現(xiàn)象。數(shù)據(jù)缺失降低了數(shù)據(jù)的質(zhì)量,對(duì)利用數(shù)據(jù)進(jìn)行交通運(yùn)行狀況分析、交通控制、路網(wǎng)規(guī)劃等均會(huì)產(chǎn)生不利的影響。面對(duì)海量的交通數(shù)據(jù),數(shù)據(jù)缺失不可避免,因此需要選擇合適的方法對(duì)缺失數(shù)據(jù)進(jìn)行處理,以此來(lái)保證數(shù)據(jù)的質(zhì)量,保證數(shù)據(jù)在交通控制、路網(wǎng)規(guī)劃等方面的可用性。
2? ? 現(xiàn)狀分析
目前,常用的缺失值處理方法大致有兩種:刪除和填充。(1)刪除數(shù)據(jù)即剔除存在缺失的一組數(shù)據(jù),從而保證保留的數(shù)據(jù)是完整的。這種方法簡(jiǎn)單但需犧牲某些數(shù)據(jù)屬性,而各個(gè)數(shù)據(jù)間存在著一定的關(guān)聯(lián),直接剔除可能會(huì)對(duì)數(shù)據(jù)的分析結(jié)果造成不利影響,數(shù)據(jù)刪除不常用于缺失值處理。(2)填充數(shù)據(jù)即選取合適的數(shù)據(jù)填補(bǔ)缺失數(shù)據(jù),以保證數(shù)據(jù)集的完整性,利用數(shù)據(jù)填充的方法可以獲得較優(yōu)質(zhì)的數(shù)據(jù)分析結(jié)果。針對(duì)國(guó)省干線(xiàn)交通數(shù)據(jù)的缺失值,可以借助已采集的正確數(shù)據(jù)進(jìn)行異常數(shù)據(jù)的差值處理,因?yàn)槔窭嗜詹钪捣ㄓ兄?jiǎn)單、方便、易實(shí)現(xiàn)的優(yōu)點(diǎn),所以將其用于國(guó)省干線(xiàn)簡(jiǎn)單缺失數(shù)據(jù)的恢復(fù)可以取得較理想的結(jié)果。
拉格朗日插值法廣泛應(yīng)用于各個(gè)領(lǐng)域的數(shù)據(jù)處理,取得了較好的效果。楊皓翔等[4]運(yùn)用拉格朗日插值法減少了邊坡位移監(jiān)測(cè)數(shù)據(jù)的誤差對(duì)新陳代謝模型預(yù)測(cè)精度的影響。丁閃閃等[7]運(yùn)用平均法和拉格朗日插值法對(duì)交通數(shù)據(jù)采集過(guò)程中的異常數(shù)據(jù)進(jìn)行修正,結(jié)果表明,拉格朗日插值法相較于傳統(tǒng)的平均法準(zhǔn)確性更高。陳飛等[8]提出了基于拉格朗日插值的方法來(lái)實(shí)現(xiàn)射頻信號(hào)衰減的修正,在保證修正數(shù)據(jù)準(zhǔn)確度的前提下既減少了修正的工作量又降低了系統(tǒng)后期維護(hù)的難度。秦利剛[9]將拉格朗日插值法運(yùn)用于頻譜分析中,不但克服了因頻率漂移造成數(shù)據(jù)點(diǎn)采樣不足的問(wèn)題,還克服了拉格朗日插值算法在頻譜分析中的應(yīng)用的泄漏問(wèn)題。蔡文等[9]利用改進(jìn)型的拉格朗日插值算法改善了視頻分割處理圖片失真的問(wèn)題,實(shí)驗(yàn)表明改善后的拉格朗日算法即重心拉格朗日算法具有明顯優(yōu)越性。綜上所述,拉格朗日插值法在各個(gè)領(lǐng)域的數(shù)據(jù)處理方面均取得了較好的效果,因此,選擇拉格朗日插值法恢復(fù)國(guó)省干線(xiàn)的缺失數(shù)據(jù)。
3? ? 方法原理
3.1? 算法原理
拉格朗日插值法基本原理:在插值點(diǎn)的附近選取若干合適的節(jié)點(diǎn),構(gòu)造一個(gè)簡(jiǎn)單的插值函數(shù)y=p(x),要求構(gòu)造的插值函數(shù)穿過(guò)選取的節(jié)點(diǎn)。在所選數(shù)據(jù)區(qū)間用插值函數(shù)作為原來(lái)函數(shù)f(x)的值,使得f(xi)=p(xi),i=1,2,3,…,n成立。由此可見(jiàn),插值法的實(shí)質(zhì)是根據(jù)已知的節(jié)點(diǎn)數(shù)據(jù)或線(xiàn)圖上某些已知點(diǎn)的數(shù)據(jù)構(gòu)造一個(gè)既簡(jiǎn)單又能夠保證精度的插值函數(shù)p(x),并利用該插值函數(shù)快速獲取原函數(shù)在對(duì)應(yīng)位置的數(shù)據(jù),這種利用若干節(jié)點(diǎn)來(lái)構(gòu)造插值函數(shù)的方法稱(chēng)為拉格朗日插值法[3]。
對(duì)于原函數(shù)f(x)分別有給定的n+1個(gè)取值點(diǎn),分別為(x0,y0),(x1,y1), … ,(xn,yn),其中,x對(duì)應(yīng)自變量的位置,y為原函數(shù)f(x)在該點(diǎn)的取值。解設(shè)任意兩個(gè)不同的xj都互不相同,以下拉格朗日差值法填補(bǔ)缺失值的步驟。
第一步:求已知n+1個(gè)點(diǎn)對(duì)的拉格朗日基本多項(xiàng)式lj(x)(或稱(chēng)插值基函數(shù))。其表達(dá)式為:
拉格朗日基本多項(xiàng)式lj(x)的特點(diǎn)是在xj上取值為1,在其他的點(diǎn)xi(i ≠j)上取值為0。
第二步:求已知n+1個(gè)點(diǎn)對(duì)的拉格朗日差值多項(xiàng)式L(x)。其表達(dá)式為:
第三步:將缺失的函數(shù)值對(duì)應(yīng)的點(diǎn)代入插值多項(xiàng)式得到缺失值的近似值L(x),完成缺失數(shù)據(jù)的填補(bǔ)任務(wù)。
3.2? 算法流程
面對(duì)海量的交通數(shù)據(jù),利用拉格朗日插值法進(jìn)行缺失值填補(bǔ)需要借助于計(jì)算機(jī),其具體算法流程如圖1所示。
3.3? 拉格朗日插值法在國(guó)省干線(xiàn)缺失值中的使用
在面對(duì)公路的交通數(shù)據(jù)缺失時(shí),拉格朗日插值法的具體使用步驟如下:
第一步,確定缺失數(shù)據(jù)所在的位置(路段)以及缺失情況。
第二步,確定缺失數(shù)據(jù)對(duì)應(yīng)的時(shí)間段。
第三步,根據(jù)缺失數(shù)據(jù)的特征,采集缺失數(shù)據(jù)對(duì)應(yīng)的指定時(shí)間段(點(diǎn))和路段的歷史(平均)交通數(shù)據(jù)。
第四步,利用拉格朗日插值法填補(bǔ)缺失值,先構(gòu)造拉格朗日多項(xiàng)式,對(duì)指定數(shù)據(jù)進(jìn)行插值。其中,指定路段、時(shí)間段(點(diǎn))作為自變量xi,歷史(平均)交通數(shù)據(jù)作為因變量即插值函數(shù)值f(xi)。
第五步,驗(yàn)證插值效果:取正常數(shù)據(jù)作為測(cè)試集,對(duì)測(cè)試集采用相同的方法進(jìn)行插值,結(jié)合真實(shí)數(shù)據(jù),對(duì)測(cè)試集的插值進(jìn)行誤差檢測(cè),評(píng)價(jià)插值效果。選取均方誤差(MSE)、均方根誤差(RMSE)以及平均絕對(duì)百分比誤差(MAPE)作為評(píng)價(jià)指標(biāo)。誤差越小,插值效果越好,反之亦然。以下為各評(píng)價(jià)指標(biāo)的含義。
均方誤差MSE(Mean Square Error):
均方根誤差RMSE(Root Mean Square Error):
平均絕對(duì)百分比誤差MAPE(Mean Absolute Percentage Error):
其中,yi表示真實(shí)值,表示預(yù)測(cè)值,n表示樣本容量。
4? ? 實(shí)例分析
為驗(yàn)證拉格朗日插值法對(duì)缺失值修復(fù)的效果,從完整無(wú)缺失的路段中隨機(jī)選取部分值作為缺失數(shù)據(jù),采用拉格朗日插值法進(jìn)行數(shù)據(jù)恢復(fù),并對(duì)所得結(jié)果與實(shí)際值進(jìn)行比較。
本文選取了南京G235東壩下行段全月數(shù)據(jù)為例進(jìn)行說(shuō)明,將每日中午12時(shí)的小客車(chē)速度作為缺失值,利用其余時(shí)段速度的已知值對(duì)該值進(jìn)行修復(fù),得到的結(jié)果如圖2—3所示,總體誤差指標(biāo)如表1所示。
結(jié)果表明,拉格朗日插值結(jié)果與真實(shí)值的均方誤差在可接受范圍內(nèi),平均絕對(duì)百分比誤差小,拉格朗日插值法在缺失數(shù)據(jù)恢復(fù)工作中效果較好。
5? ? 結(jié)語(yǔ)
文章基于拉格朗日插值法對(duì)國(guó)省干線(xiàn)的交通數(shù)據(jù)缺失值進(jìn)行填補(bǔ),并結(jié)合具體實(shí)例驗(yàn)證了拉格朗日插值法對(duì)于缺失值填補(bǔ)的有效性。對(duì)于一些簡(jiǎn)單的缺失值,拉格朗日插值法簡(jiǎn)單、方便、易實(shí)現(xiàn),且拉格朗日插值法公式的結(jié)構(gòu)整齊緊密,為理論研究提供了便利。利用拉格朗日插值法填充國(guó)省干線(xiàn)交通數(shù)據(jù)的缺失值,可以提高數(shù)據(jù)的質(zhì)量,也確保了數(shù)據(jù)在交通控制、路網(wǎng)規(guī)劃等應(yīng)用中的可靠性。
[參考文獻(xiàn)]
[1]耿彥斌,于雷,趙慧.ITS數(shù)據(jù)質(zhì)量控制技術(shù)及應(yīng)用研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2005(1):82-87.
[2]韓衛(wèi)國(guó),王勁峰,胡建軍.交通流量數(shù)據(jù)缺失值的插補(bǔ)方法[J].交通與計(jì)算機(jī),2005(1):39-42.
[3]林昌華,楊巖.拉格朗日插值法在工程設(shè)計(jì)及CAD中的應(yīng)用[J].重慶理工大學(xué)學(xué)報(bào)。2013(12):34-37.
[4]楊皓翔.基于拉格朗日插值法的新陳代謝模型在邊坡位移監(jiān)測(cè)中的應(yīng)用[J].安全與環(huán)境工程,2017(2):33-38.
[5]胡玄子,陳小雪.數(shù)據(jù)處理中缺失數(shù)據(jù)填充方法的研究[J].湖北工業(yè)大學(xué)學(xué)報(bào),2013(5):82-84.
[6]徐小麗.拉格朗日插值法在工程應(yīng)用中的算法實(shí)現(xiàn)[J].林區(qū)教學(xué),2010(1):17-19.
[7]丁閃閃,季錦章.基于小波分析和拉格朗日的交通異常數(shù)據(jù)處理[J].公路與汽運(yùn),2015(169):59-63.
[8]陳飛,朱坤,賈建兵,等.基于拉格朗日插值法的ATS射頻信號(hào)衰減修正研究[J].海軍航空工程學(xué)院學(xué)報(bào),2018(1):45-48.
[9]秦利剛.拉格朗日插值算法在頻譜分析中的應(yīng)用[J].電子世界,2014(5):112.
[10]蔡文,吳黎明.改進(jìn)型的拉格朗日插值在視頻分割處理的實(shí)現(xiàn)[J].自動(dòng)化與信息工程,2014(2):29-32.
[11]HE R,ZHANG L W,HE X X.Interval recognition algorithm of the pavement surface condition based on lagrange interpolation method[J].Mathematical Problems in Engineering,2020(1):1-8.
(編輯 姚 鑫)
無(wú)線(xiàn)互聯(lián)科技2021年10期