裘晨璐 季君 許卉瑩 道路交通安全公安部重點實驗室 公安部交通管理科學(xué)研究所
道路交通事故回歸分析與預(yù)測
裘晨璐 季君 許卉瑩 道路交通安全公安部重點實驗室 公安部交通管理科學(xué)研究所
根據(jù)多元線性回歸分析基本原理,以道路交通事故數(shù)據(jù)為研究基礎(chǔ),結(jié)合城市GDP、人口數(shù)、汽車保有量、城市道路長度、公路客運量、公路貨運量六項影響因素,采取逐步進(jìn)入策略,建立道路交通事故次數(shù)多元線性回歸分析數(shù)學(xué)模型;結(jié)合顯著性檢驗原理,給出了各因素導(dǎo)致道路交通事故發(fā)生的顯著性作用評估方法,為合理有效地進(jìn)行道路交通事故分析和預(yù)測提供了科學(xué)依據(jù)。
多元線性回歸 事故預(yù)測
一直以來,中國是世界上交通事故死亡人數(shù)最多的國家之一,每年都由此造成大量的人員傷亡和巨大的財產(chǎn)損失。為了有效控制和減少我國道路交通事故的發(fā)生,保障道路交通安全,開展一系列的交通安全方面的統(tǒng)計分析研究十分必要。其中基于回歸分析的預(yù)測技術(shù)開展對區(qū)域安全狀況分析及發(fā)展趨勢預(yù)測的研究就是道路安全研究的重要方面[1-3]。本文采用多元線性回歸方法,開展對影響道路交通安全趨勢的相關(guān)因素分析,包括國民生產(chǎn)總值(GDP)、人口總數(shù)、汽車保有量、城市道路長度、公路客運量和公路貨運量等,找出其主要影響因素及其關(guān)聯(lián)性,建立交通事故預(yù)測回歸模型,實現(xiàn)對區(qū)域內(nèi)交通安全狀況分析并預(yù)測其未來的發(fā)展趨勢,從而為有針對性地、科學(xué)有效地制定合理的交通安全對策提供科學(xué)依據(jù),這對于制定交通安全管理目標(biāo)、提高交通安全管理水平具有十分重要的意義。本文還提出了對模型進(jìn)行回歸方程的顯著性檢驗和回歸系數(shù)的顯著性檢驗方法。
道路交通是一個涉及到多因素的復(fù)雜系統(tǒng),一般與當(dāng)?shù)氐慕?jīng)濟發(fā)展水平、客觀環(huán)境及人類社會活動有密切關(guān)系。交通事故雖然具有隨機特性,但從統(tǒng)計的角度看,一個地區(qū)在較長時域內(nèi)發(fā)生的交通事故又具有一定的規(guī)律性,因此可以運用數(shù)理統(tǒng)計方法對交通事故總體狀況進(jìn)行研究,分析其發(fā)展趨勢及規(guī)律,科學(xué)地對道路交通事故進(jìn)行預(yù)測。道路交通事故預(yù)測是通過對交通事故的過去和現(xiàn)在狀態(tài)的系統(tǒng)探討,并考慮其相關(guān)因素的變化所做出的對交通事故未來狀態(tài)的描述過程。預(yù)測方法有多種,本文選擇回歸分析預(yù)測法[4]來進(jìn)行預(yù)測分析。
回歸分析是確定兩種或兩種以上變量間相互依賴定量關(guān)系的一種統(tǒng)計分析方法。在回歸分析中,把變量分為兩類,一類是因變量,代表實際問題中所關(guān)心的一些指標(biāo),通常Y用來表示;而影響因變量取值的另一類變量稱為自變量,用X1,X2,…Xp來表示。當(dāng)研究的因果關(guān)系只涉及因變量和一個自變量時,叫做一元回歸分析;當(dāng)研究的因果關(guān)系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。此外,回歸分析中,又依據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)表達(dá)式是線性還是非線性,分為線性回歸分析和非線性回歸分析。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以通過變量變換,將非線性回歸化為線性回歸,然后用線性回歸方法處理[4]?;貧w分析的一般步驟如下:
1. 收集資料:通過調(diào)查分析,確定待研究變量可能的相關(guān)因素,并收集和處理這些因素的相關(guān)統(tǒng)計資料;
2. 相關(guān)性分析:對待研究目標(biāo)和其影響因素作定性分析,確定是否存在相關(guān)關(guān)系;
3. 建立回歸模型:選取相關(guān)度高的因素作為自變量建立回歸分析模型,根據(jù)最小二乘法估計參數(shù),求出回歸方程;
4. 檢驗?zāi)P停涸谶\用回歸方程進(jìn)行預(yù)測之前,對回歸方程和回歸系數(shù)進(jìn)行顯著性檢驗;
5. 利用模型進(jìn)行預(yù)測:利用模型進(jìn)行預(yù)測,并討論預(yù)測結(jié)果的置信度。
自變量為多個的線性回歸稱之為多元線性回歸。設(shè)變量Y與變量X1,X2,…Xp間有線性關(guān)系,則多元線性回歸方程式為[4],
其中,β0是截距項,βj(j=1,2,…,p)為回歸系數(shù),p是自變量的個數(shù),ε代表誤差項。在有些應(yīng)用情況下,模型假設(shè)截距項β0為零。
設(shè)(xi,1,xi,2,…,xi,p,yi),i=1,2,…,n,是(X1,X2,…,Xp,Y)的次獨立觀測值,令
則多元線性模型可表示為矩陣形式Y(jié)=Xβ+ε 。其中,β是未知的回歸系數(shù)向量。最小二乘法通過最小化誤差平方和Q(β)=(Y-Xβ)T(Y-Xβ)來求回歸系數(shù)β的估計值。其他常見的估計方法有最大似然估計和矩估計。可以證明,回歸系數(shù)β的最小二乘估計為從而可得經(jīng)驗回歸方程和殘差向量
擬合優(yōu)度是指所建立的回歸模型對于數(shù)據(jù)來說,自變量能夠解釋因變量的程度。令yi代表yi的估計值,。模型的可決系數(shù)為模型的可決系數(shù)是一個取值范圍在0和1之間的非負(fù)統(tǒng)計量??蓻Q系數(shù)越大,說明模型的擬合優(yōu)度越好。在多元回歸分析中,調(diào)整可決系數(shù)剔出了自變量個數(shù)對擬合優(yōu)度的影響,作為綜合度量模型對觀測值擬合優(yōu)度的指標(biāo),可以有效地防止過擬合。
顯著性檢驗有兩種,一種是回歸方程的顯著性檢驗;另一種是回歸系數(shù)的顯著性檢驗。
回歸方程的顯著性檢驗,即檢驗整個回歸方程的顯著性,或者說評價所有自變量與因變量的線性關(guān)系是否密切,一般用F檢驗法。對于給定的顯著性水平α,假設(shè)成立時,模型的F統(tǒng)計量服從自由度為(p,n-p-1)的F分布,記為
回歸系數(shù)的顯著性檢驗,即檢驗回歸模型中各個自變量是否具有顯著性,一般用t檢驗法。給定顯著性水平α,對于每一個回歸系數(shù)βj,模型的t統(tǒng)計量服從自由度為n-p-1的t分布,記為。如果t大于臨界值則認(rèn)為α在水平下回歸系數(shù)βj顯著不為零,即自變量Xi對因變量的線性影響顯著。
當(dāng)多元線性回歸方程經(jīng)過檢驗是顯著的,且其中每一個系數(shù)均顯著時,可用此方程作預(yù)測。給定自變量將其帶入經(jīng)驗回歸方程得到估計值和一個置信度為1-α的預(yù)測區(qū)間,其中
我國目前在交通安全管理上常采用的指標(biāo)包括交通事故起數(shù)、受傷人數(shù)、死亡人數(shù)和直接經(jīng)濟損失,即交通事故四項指標(biāo)。選擇交通事故起數(shù)這一指標(biāo)進(jìn)行回歸分析。以某市2005~2012年道路交通事故起數(shù)作為因變量,與同期該市的城市GDP、人口數(shù)、汽車保有量、城市道路長度、公路客運量、公路貨運量共六項影響因素作相關(guān)分析,選取相關(guān)度高的因素作為自變量建立多元線性回歸模型。該市2005~2012年相關(guān)數(shù)據(jù)見表1。
?
回歸分析是對具有因果關(guān)系的影響因素(自變量)和預(yù)測對象(因變量)所進(jìn)行的數(shù)理統(tǒng)計分析處理。只有當(dāng)變量與因變量確實存在某種關(guān)系時,建立的回歸方程才有意義。進(jìn)行相關(guān)分析,一般要求出相關(guān)關(guān)系,以相關(guān)系數(shù)的大小來判斷自變量和因變量的相關(guān)程度。圖1展現(xiàn)了道路交通事故起數(shù)與城市GDP、人口數(shù)、汽車保有量、城市道路長度、公路客運量、公路貨運量之間的散點圖。觀察可得,事故起數(shù)和死亡人數(shù)與城市道路長度沒有明確的線性關(guān)系,與其他各指標(biāo)呈現(xiàn)明顯的負(fù)相關(guān)關(guān)系。
我們進(jìn)一步對各個變量做Pearson相關(guān)分析。對于連續(xù)型數(shù)值變量,Pearson相關(guān)系數(shù)是一個介于-1與1之間的統(tǒng)計量,測量了變量之間的相關(guān)程度[5]。表2顯示了事故起數(shù)與各指標(biāo)之間的Pearson相關(guān)系數(shù)和對應(yīng)的單邊顯著性水平。從表中可以看出,事故起數(shù)與人口數(shù)之間的相關(guān)系數(shù)為-0.916,它們在0.05顯著性水平下顯著負(fù)相關(guān);事故起數(shù)與GDP、汽車保有量、公路客運量和公路貨運量之間的相關(guān)系數(shù)分別為-0.714、-0.683、-0.688和-0.673,它們在0.05顯著性水平下顯著負(fù)相關(guān)。根據(jù)散點圖和Pearson相關(guān)分析,初步將城市道路長度這個影響因素排除。
?
一般來講,如果在一個回歸方程中忽略了對因變量有顯著影響的自變量,那么所建立的方程必然與實際有較大的偏離,但是如果自變量選的過多,特別是當(dāng)方程中還有對因變量影響不大的自變量時,就會影響回歸方程的擬合優(yōu)度和預(yù)測精度。本文采用逐步回歸策略來選擇自變量。逐步回歸策略按全部自變量對因變量的顯著程度大?。ㄘ暙I(xiàn)程度大?。?,由大到小地將自變量逐個引入回歸方程,而對那些對因變量作用不顯著的變量則不被引入回歸方程。另外,己被引入回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引入一個變量或者從回歸方程中剔除一個變量都稱為逐步回歸的一步,每一步都要進(jìn)行F檢驗,以保證在引入新變量前回歸方程中只含有對因變量影響顯著的變量,而不顯著的變量已被剔除。令y為道路交通事故起數(shù),x1為城市GDP,x2為人口數(shù)、x3為汽車保有量,x4為公路客運量、x5為公路貨運量。我們采用逐步回歸策略,通過SPSS計算求解[5],得出事故數(shù)量的回歸方程為,
模型的調(diào)整可決系數(shù) R2=0.993,這說明模型的擬合優(yōu)度較好。由回歸方程式可知,GDP與事故數(shù)量是負(fù)相關(guān)的,即隨著GDP的增加,事故數(shù)呈下降趨勢。相反,人口規(guī)模與事故數(shù)量是正相關(guān)的,即隨著人口的增加,事故數(shù)呈上升趨勢。
用F檢驗法對上述回歸方程進(jìn)行顯著性檢驗,經(jīng)過計算得出回歸方程的F統(tǒng)計量為54.721,在α=0.01水平下是顯著的,即認(rèn)為GDP和人口規(guī)模兩個影響因素總體對交通事故起數(shù)的線性影響是顯著的。用t檢驗法對單個回歸系數(shù)進(jìn)行顯著性檢驗,經(jīng)過計算得出回歸系數(shù)的t統(tǒng)計量為5.365,在α=0.01水平下是顯著的,即認(rèn)為GDP對交通事故起數(shù)的線性影響是顯著的;回歸系數(shù)的 t統(tǒng)計量為-2.496,在α=0.05水平下是顯著的,即認(rèn)為人口規(guī)模對交通事故起數(shù)的線性影響也是顯著的。因此,事故起數(shù)與GDP和人口數(shù)之間的線性關(guān)系顯著,建立的上述多元線性回歸模型是恰當(dāng)?shù)?。?jīng)檢驗,回歸方程及各回歸系數(shù)都是顯著的,給定自變量和置信水平,就可以根據(jù)回歸方程預(yù)測出因變量的估計值和置信區(qū)間。
經(jīng)檢驗,回歸方程及各回歸系數(shù)都是顯著的,那么就可以利用回歸模型計算預(yù)測值。若該市GDP按8%速度增長,2013年和2014年將分別達(dá)到8173.60億元和8827.49億元;若該市人口數(shù)按0.5%速度增長,2014年將達(dá)到472.42萬人和474.78萬人。根據(jù)式(1)中的多元回歸分析模型,2013年道路交通事故起數(shù)的90%預(yù)測上限為2485起,即2013年發(fā)生2485起以上道路交通事故的可能性不超過10%;2014年交通事故死亡人數(shù)的預(yù)測上限為2422起,即2014年發(fā)生2422起以上道路交通事故的可能性不超過10%。
本文通過建立多元線性回歸模型,對某市的道路交通事故數(shù)據(jù)進(jìn)行分析和預(yù)測。選取道路交通事故次數(shù)作為因變量,城市GDP、人口數(shù)、汽車保有量、城市道路長度、公路客運量、公路貨運量作為自變量,進(jìn)行多元線性回歸分析。分析結(jié)果說明,交通事故次數(shù)與GDP之間的線性關(guān)系是顯著的,隨著GDP的增加,事故數(shù)呈下降趨勢。根據(jù)結(jié)果建立了預(yù)測模型,且模型的擬合優(yōu)度較好,通過了模型的顯著性檢驗。多元線性回歸模型是定量分析和預(yù)測道路交通事故發(fā)展趨勢的有效手段之一,可廣泛應(yīng)用于道路交通事故的分析和預(yù)測中,科學(xué)地對道路交通事故進(jìn)行預(yù)測,從而為科學(xué)交通管理提供技術(shù)支撐。
[1] 董玉波.道路交通事故多元線性回歸模型及檢驗方法.中國人民公安大學(xué)學(xué)報(自然科學(xué)版), 2013年第2期.
[2] 房曰榮,沈斐敏.道路交通事故發(fā)展趨勢分析與預(yù)測.中國安全生產(chǎn)科學(xué)技術(shù),2012年第8卷第2期.
[3] 胡向陽, 姚慧芳.運用回歸分析法研究足跡樣本.警察技術(shù),2002年03期.
[4] 薛毅,陳立萍. 統(tǒng)計建模與R軟件.北京:清華大學(xué)出版社, 2007.
[5] 張文,張文彤, 鄺春偉. SPSS統(tǒng)計分析基礎(chǔ)教程.高等教育出版社,2011.