王天送,張 杰,孫明明
(鄭州大學(xué),河南 鄭州 450000)
拉伊達(dá)準(zhǔn)則在交通調(diào)查數(shù)據(jù)處理中的應(yīng)用
王天送,張杰,孫明明
(鄭州大學(xué),河南鄭州450000)
關(guān)鍵詞:交通調(diào)查;統(tǒng)計(jì)數(shù)據(jù);異常值;判別方法
0引言
交通調(diào)查是通過對(duì)多種交通現(xiàn)象進(jìn)行調(diào)查,為交通規(guī)劃、交通設(shè)施建設(shè)、交通環(huán)境保護(hù)等各方面服務(wù)。[1]交通調(diào)查獲取的數(shù)據(jù)的準(zhǔn)確性及可靠性對(duì)現(xiàn)實(shí)情況的把握、規(guī)劃方案的制定、政策的實(shí)施影響深遠(yuǎn)。從數(shù)據(jù)獲取的方法和技術(shù)來(lái)看,數(shù)據(jù)實(shí)際統(tǒng)計(jì)取樣中,由于偶然誤差的存在,所獲得的數(shù)據(jù)存在一定的離散性;也有可能是統(tǒng)計(jì)者出現(xiàn)讀錯(cuò)、記錯(cuò)、測(cè)錯(cuò)以及條件沒達(dá)到要求就開始測(cè)量時(shí)出現(xiàn)個(gè)別離散性較大的數(shù)據(jù),這些數(shù)據(jù)稱為異常值或壞值[2]。例如用測(cè)速儀器測(cè)量車速,可能會(huì)因儀器的抖動(dòng)造成數(shù)據(jù)采集的誤差。而由人工采集而來(lái)的數(shù)據(jù),在經(jīng)多人收集、匯編等過程中出現(xiàn)異常值問題更為普遍。例如公交隨車調(diào)查中可能由于調(diào)查人員的疲勞疏忽造成上下客流的錯(cuò)計(jì)、漏計(jì)等。若采集數(shù)據(jù)對(duì)調(diào)查人員有明顯的利益關(guān)系,調(diào)查人員根據(jù)自身利益判斷可能會(huì)故意改動(dòng)數(shù)據(jù)。因此交通調(diào)查中必須對(duì)原始統(tǒng)計(jì)數(shù)據(jù)加以判斷識(shí)別,剔除數(shù)據(jù)中存在的異常值,并且根據(jù)對(duì)調(diào)查過程的了解,參考已有經(jīng)驗(yàn)確定數(shù)據(jù)整體置信水平,篩選之后的數(shù)據(jù)方可作進(jìn)一步分析。
1異常值檢驗(yàn)常用方法
判別異常值的準(zhǔn)則有拉依達(dá)準(zhǔn)則(3σ準(zhǔn)則)、格拉布斯準(zhǔn)則、迪克遜準(zhǔn)則等,以下分別作簡(jiǎn)要介紹。
1.1拉依達(dá)準(zhǔn)則
設(shè)對(duì)某指標(biāo)值做等精度的獨(dú)立統(tǒng)計(jì),統(tǒng)計(jì)值X1X1X2……Xn。用以下公式分別計(jì)算測(cè)得值的平均值和殘余誤差:
(1)
(2)
(3)
式中:Xi——統(tǒng)計(jì)值;
Vi——?dú)堄嗾`差;
N——測(cè)量次數(shù);
σ——標(biāo)準(zhǔn)偏差。
根據(jù)貝塞爾公式對(duì)∑V2作如下變換:
(4)
(5)
須剔除不要。對(duì)所得數(shù)據(jù)依次判斷剔除異常值,直到所有數(shù)據(jù)都不滿足如上條件為止。判別異常值流程如下頁(yè)圖1(a)所示。
1.2格拉布斯準(zhǔn)則
對(duì)某指標(biāo)統(tǒng)計(jì)n次,一次統(tǒng)計(jì)值記為Xi(i=1、2,……n),檢驗(yàn)Xi是否為異常值的格拉布斯準(zhǔn)則如下:Xi按升序排列成順序統(tǒng)計(jì)量,X(1)≤X(2)≤……≤X(n):計(jì)算格拉布斯統(tǒng)計(jì)量,包括下側(cè)格拉布斯數(shù)g(1)和上側(cè)格拉布斯數(shù)g(n)。
(6)
剔除異值步驟:(1)確定顯著水平α(一般取0.05),由α和n(n為樣本數(shù))查表格拉布斯準(zhǔn)則數(shù)T(n,α),如表1所示。(2)判斷:若g(1)≥T(n,α),則X(1)為異常值,予以剔除:若g(n)≥T(n,α),則X(n)為異常值,予以剔除:判別流程如下頁(yè)圖1(b)所示。
表1 n,α相應(yīng)的T(α,n)值表
1.3迪克遜準(zhǔn)則
設(shè)對(duì)某指標(biāo)值進(jìn)行多次重復(fù)測(cè)量的監(jiān)測(cè)數(shù)據(jù)樣本排序X1X2……Xn,構(gòu)建不同數(shù)據(jù)范圍的極差比γ,如表2所示:
表2 觀察數(shù)據(jù)極差比表
表3 α,n相應(yīng)的D(α,n)值表
(a)
(b)
(c)
2三種剔除方法適用標(biāo)準(zhǔn)
在交通調(diào)查中,例如地點(diǎn)車速調(diào)查、居民日出行次數(shù),樣本數(shù)量通常較大,且已被多次實(shí)踐證明服從正態(tài)分布[1][4][8]。根據(jù)正態(tài)分布特性,數(shù)據(jù)出現(xiàn)大偏差統(tǒng)計(jì)值的概率很小,只有5%的數(shù)據(jù)出現(xiàn)偏差大于兩倍的標(biāo)準(zhǔn)差,0.3%概率的數(shù)據(jù)出現(xiàn)偏差大于三倍標(biāo)準(zhǔn)差。根據(jù)小概率原理,將用來(lái)判別異值標(biāo)準(zhǔn)的三倍標(biāo)準(zhǔn)差,稱為統(tǒng)計(jì)上允許的合理誤差限。在小樣本測(cè)定中,其偏差超出合理誤差限的測(cè)定值判定為異常值。
以上所述三種異常值判別準(zhǔn)則都是以數(shù)據(jù)正態(tài)分布為前提,拉伊達(dá)準(zhǔn)則公式簡(jiǎn)單,經(jīng)過貝塞爾變換數(shù)據(jù)易于計(jì)算,無(wú)需查表,并且能夠循環(huán)剔除多個(gè)數(shù)據(jù)。因此,大樣本(n>50)異值判別用拉伊達(dá)準(zhǔn)則最為簡(jiǎn)單,且能得到理想效果。相比而言,格拉布斯準(zhǔn)則和迪克遜準(zhǔn)則公式利用、查表繁瑣,在小樣本量中才能發(fā)揮其功效,一般認(rèn)為迪克遜準(zhǔn)則是格拉布斯的補(bǔ)充,兩者沒有較大差異[7]。此外,在樣本量n≤10情況下,拉伊達(dá)準(zhǔn)則通常失效,無(wú)法有效提出異常值。以下舉例分析,選擇10座城市居民日出行次數(shù)如表4所示,服從正態(tài)分布N(2.82,1.1),X11為待檢驗(yàn)數(shù)據(jù)。在置信度為99.7%條件下X的置信區(qū)間為(0.75,4.89),因此,判斷X11=11為異常數(shù)據(jù)?,F(xiàn)在利用拉伊達(dá)準(zhǔn)則判別X11=11是否為異常值。
表4 待檢驗(yàn)數(shù)據(jù)組表
(1)在數(shù)據(jù)11組數(shù)據(jù)中,用拉伊達(dá)準(zhǔn)則判別:
σ=2.515
(2)將數(shù)據(jù)X3清除,剩余10組數(shù)據(jù),用拉伊達(dá)準(zhǔn)則對(duì)X11做異常值檢驗(yàn):
σ=2.645
另外兩種判別方法則能在10個(gè)數(shù)據(jù)中判別出數(shù)據(jù)X11為異常值。
3城鄉(xiāng)公交百公里配車數(shù)據(jù)處理
在浙江省城鄉(xiāng)客運(yùn)一體化研究中,百公里配標(biāo)準(zhǔn)車輛作為重要評(píng)測(cè)指標(biāo),采取縣市平行上報(bào)統(tǒng)計(jì)數(shù)據(jù),避免通過上下級(jí)采集數(shù)據(jù)出現(xiàn)的人為修改,各地縣市(區(qū))有效統(tǒng)計(jì)數(shù)據(jù)(數(shù)據(jù)全面,無(wú)缺失值)如表5所示。雖然數(shù)據(jù)采取平行上報(bào)方式,但仍不免出現(xiàn)統(tǒng)計(jì)中數(shù)據(jù)失真情況,為準(zhǔn)確把握浙江全省的城鄉(xiāng)客運(yùn)的發(fā)展?fàn)顟B(tài),必須對(duì)統(tǒng)計(jì)數(shù)據(jù)做異常性判斷,確定數(shù)據(jù)的可信度。
表5 各縣市百公里標(biāo)準(zhǔn)車數(shù)值表(標(biāo)車/百公里)
(數(shù)據(jù)來(lái)源:《城鄉(xiāng)客運(yùn)一體化指標(biāo)體系及應(yīng)用研究》)
(1)正態(tài)分布檢驗(yàn)
數(shù)據(jù)利用Minitab軟件進(jìn)行正態(tài)分布檢驗(yàn),檢驗(yàn)結(jié)果如圖2所示,其中p=0.181>0.005,說(shuō)明數(shù)據(jù)呈現(xiàn)良好的正態(tài)分布。
圖2 正態(tài)分布檢驗(yàn)
(2)異常值判別
拉伊達(dá)準(zhǔn)則選取的置信水平為99.7%,誤差范圍寬泛,對(duì)本研究不適用,為得到更準(zhǔn)確的數(shù)據(jù),本文選取85%的置信水平,置信區(qū)間反映在正態(tài)分布中為±1.04σ,以此為判斷標(biāo)準(zhǔn),刪除以下數(shù)據(jù)組(見表6):
表6 剔除數(shù)據(jù)數(shù)值表
4結(jié)語(yǔ)
各科領(lǐng)域涉及到數(shù)據(jù)的統(tǒng)計(jì)不可避免會(huì)出現(xiàn)異常值情況,在現(xiàn)有文獻(xiàn)中大多關(guān)于物理化學(xué)等領(lǐng)域測(cè)量中的異常值問題,對(duì)交通調(diào)查統(tǒng)計(jì)數(shù)據(jù)的處理幾乎沒有。從數(shù)據(jù)的純數(shù)學(xué)角度分析,數(shù)據(jù)來(lái)源是沒有區(qū)別的。因此,本文總結(jié)分析了三種常見異常值判別方法的優(yōu)缺點(diǎn)和使用條件;根據(jù)實(shí)際需要對(duì)拉伊達(dá)準(zhǔn)則做計(jì)算簡(jiǎn)化,并用其判別一組交通調(diào)查數(shù)據(jù)的異常值。
參考文獻(xiàn)
[1]王建軍,嚴(yán)寶杰,張江.交通調(diào)查與分析[M].北京:人民交通出版社,2004.
[2]張德然.統(tǒng)計(jì)數(shù)據(jù)中異常值得檢驗(yàn)方法[J].統(tǒng)計(jì)研究,2003(5):53-55.
[3]張敏.拉伊達(dá)準(zhǔn)則與異常值剔除[J].鄭州工業(yè)大學(xué)學(xué)報(bào),1997(1):84-88.
[4]石飛,陸建.居民出行調(diào)查抽樣率模型[J].交通運(yùn)輸工程學(xué)報(bào),2004(5):72-75.
[5]鄧勃.關(guān)于異常值的檢驗(yàn)與處理[J].大學(xué)化學(xué),1995(4):5-9.
[6]孫培強(qiáng).正確選擇統(tǒng)計(jì)判別方法剔除異常值[J].計(jì)量技術(shù),2013(11):71-73.
[7]何平.剔除測(cè)量數(shù)據(jù)中異常值得若干方法[J].航空計(jì)測(cè)技術(shù),1995(1):19-22.
[8]馬瑩瑩,楊曉光.城市道路自由車速與車道寬度關(guān)聯(lián)性分析[J].同濟(jì)大學(xué)學(xué)報(bào),2009(12):21-26.
摘要:文章針對(duì)交通調(diào)查統(tǒng)計(jì)數(shù)據(jù)的特點(diǎn),介紹了拉伊達(dá)準(zhǔn)則、格拉布斯準(zhǔn)則、迪克遜準(zhǔn)則三種常用的異常值剔除方法,并對(duì)拉伊達(dá)準(zhǔn)則運(yùn)算步驟做了推導(dǎo)簡(jiǎn)化;分析了這三種常見的異常值剔除方法的特點(diǎn)及適用范圍,并通過一組居民日出行次數(shù)數(shù)據(jù),比較了三者判別的差異;采用拉伊達(dá)準(zhǔn)則,對(duì)浙江省城鄉(xiāng)客運(yùn)百公里配車數(shù)數(shù)據(jù)進(jìn)行了應(yīng)用分析,得出了較好的判別結(jié)果。
Application of Pauta Criterion in Traffic Survey Data Processing
WANG Tian-song,ZHANG Jie,SUN Ming-ming
(Zhengzhou University,Zhengzhou,Henan,450000)
Abstract:According to the characteristics of traffic survey statistics data,this article introduced three commonly used outlier removing methods of Pauta Criterion,Grubbs Criterion and Dixon Criterion,and conducted the derivation simplification on the operation steps of Pauta Criterion;analyzed the features and application scope of these three common outlier removing methods,and through a group of resi-dent daily travel times data,it compared the difference among these three discrimination;Pauta Criteri-on was adopted to conduct the application analysis on vehicle number data every one hundred kilome-ters of urban and rural passenger transit in Zhejiang,then the better discrimination result was obtained.
Keywords:Traffic survey;Statistics data;Outliers;Discriminating method
作者簡(jiǎn)介
中圖分類號(hào):U491.1
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.13282/j.cnki.wccst.2016.04.026
文章編號(hào):1673-4874(2016)04-0096-04
收稿日期:2016-03-28
王天送(1988—),碩士研究生,研究方向:交通運(yùn)輸規(guī)劃與管理。