劉兆君
(山東工商學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院,山東煙臺264005)
?
伴隨置信度的線性回歸模型
劉兆君
(山東工商學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院,山東煙臺264005)
摘要:針對正態(tài)余項(xiàng)的線性回歸模型,研究伴隨置信度的線性回歸模型。在一定概率下,設(shè)計(jì)隨機(jī)變量以均值為中心的置信區(qū)間,建立機(jī)會約束規(guī)劃,并在一定置信度下轉(zhuǎn)化為確定性規(guī)劃,應(yīng)用LINGO 11優(yōu)化軟件求解,構(gòu)造出伴隨置信度的線性回歸模型,實(shí)現(xiàn)對隨機(jī)變量觀測值信息的動態(tài)應(yīng)用,可以實(shí)現(xiàn)伴隨置信度的預(yù)測。實(shí)證分析表明,該模型可以依置信度不同程度地反映觀測數(shù)據(jù)的多方面信息,選擇最佳線性回歸方程,更好滿足需要。該模型有異于線性分位數(shù)回歸模型的優(yōu)點(diǎn),豐富了線性回歸分析的研究內(nèi)容。
關(guān)鍵詞:線性分位數(shù)回歸模型;機(jī)會約束規(guī)劃;線性回歸方程;置信度;非線性規(guī)劃
一般地,做統(tǒng)計(jì)數(shù)據(jù)分析比較常用的線性模型有傳統(tǒng)的均值模型[1]391-415、最小一乘(線性中位數(shù))回歸模型[2]、線性分位數(shù)回歸模型等[3-8]。為討論問題方便,我們事先約定,所謂的傳統(tǒng)均值模型是指隨機(jī)余項(xiàng)是以零為均值的正態(tài)同方差分布,并且討論中所有模型的因變量都是連續(xù)型隨機(jī)變量。很明顯,上述三種常用的線性模型,依據(jù)它們隨機(jī)誤差余項(xiàng)之間的關(guān)系,容易判定其有如下關(guān)系:從均值模型、最小一乘(線性中位數(shù))回歸模型到線性分位數(shù)回歸模型是特例到一般的關(guān)系,即均值模型是最小一乘(線性中位數(shù))回歸模型的特例,最小一乘(線性中位數(shù))回歸模型是線性分位數(shù)回歸模型的特例。尤其是以零均值正態(tài)同方差分布為隨機(jī)誤差余項(xiàng)的均值模型,由于正態(tài)分布為關(guān)于均值對稱的分布,其均值與中位數(shù)相等,因此既可將其看成是均值模型,也可認(rèn)為是線性中位數(shù)回歸模型的特例,所以可以用最小一乘法研究均值模型,并且從這個(gè)意義上講,最小二乘法也是研究特殊的線性中位數(shù)回歸模型的一種方法。至此,我們關(guān)注的是上述三者關(guān)系鏈的兩端,即均值模型與線性分位數(shù)回歸模型的對比研究問題。實(shí)際上,線性分位數(shù)回歸模型就是用一定累積概率下隨機(jī)因變量取值的最大值來預(yù)測隨機(jī)因變量的可能取值,由此設(shè)想,也可以用一定概率下隨機(jī)因變量取值的均值來預(yù)測隨機(jī)因變量的可能取值。事實(shí)上,按照均值中心論的思想,可以將隨機(jī)變量的一組觀測值,視為隨機(jī)變量在其均值附近,在一定概率水平下取值的反映。因此,可以建立一定概率水平下的機(jī)會約束規(guī)劃,并將它轉(zhuǎn)化為一定置信度下的等價(jià)的確定性規(guī)劃,運(yùn)用LINGO 11優(yōu)化軟件編程求解,得到伴隨一定置信度的線性回歸方程,依置信度不同程度地反映隨機(jī)變量的多方面信息,幫助我們從優(yōu)、按需選擇伴隨置信度的線性回歸方程,實(shí)現(xiàn)伴隨置信度的預(yù)測,有利于科學(xué)決策。
設(shè)隨機(jī)變量與一般變量之間的線性關(guān)系式為:其中x1,x2,…,xn為可以精確測量或可以控制的一般變量,Y是可觀測其值的隨機(jī)變量,a0,a1,…,an是未知參數(shù),ε是不可觀測其值的隨機(jī)變量,假設(shè)ε ~N(0,σ2)。
為了估計(jì)的需要,做了m次獨(dú)立觀測試驗(yàn),得到m組獨(dú)立觀測樣本值:將上述樣本值代入式(1)可得:其中ε1,ε2,…,εm相互獨(dú)立,都服從N(0,σ2i),稱為n元線性回歸模型。
顯然,式(3)的觀測值是yi,i=1,2,…,m。
本文的目的就是在給定置信度αi<1下,利用觀測樣本值式(2),估計(jì)未知參數(shù)a0,
a1,…,an,σi,得到估計(jì),確定n元線性回歸方程:
稱為伴隨置信度α(0<α<1)的n元線性回歸方程。給定概率αi,0<αi<1,由式(4)得:
整理得:
因此,對Yi的觀測值yi,可以有置信度α下的確定性規(guī)劃等價(jià)式:
其中第一目標(biāo)函數(shù)式(12),可轉(zhuǎn)變?yōu)榫€性規(guī)劃問題[9],可以運(yùn)用多目標(biāo)加權(quán)化單目標(biāo)法,求解上述多目標(biāo)線性規(guī)劃,應(yīng)用LINGO 11優(yōu)化軟件,編程求解一個(gè)單目標(biāo)線性規(guī)劃,得到未知參數(shù)a0,a1,…,an,σi的估計(jì)值從而確立置信度為α的n元線性回歸方程式(5)。
實(shí)際應(yīng)用中,有時(shí)會出現(xiàn)諸αi或諸σi相等的情況,我們只須對式(9)~(11)以及式(12)~(14)進(jìn)行適當(dāng)調(diào)整即可。而當(dāng)αi與σi同時(shí)相等時(shí),如αi=β,σi=σ,為方便應(yīng)用,僅對式(12)~(14)進(jìn)行適當(dāng)調(diào)整,有置信度α=βm下的確定性規(guī)劃等價(jià)式:
為實(shí)用方便,一般取諸αi相等。
大氣污染近年來為人們所關(guān)注,能夠較科學(xué)地預(yù)測未來廢氣排放的情況,對治理大氣污染至關(guān)重要。本文以某省工業(yè)廢氣排放量及各影響因素的統(tǒng)計(jì)數(shù)據(jù)(如表1所示)為依據(jù)[10],建立該省工業(yè)廢氣排放量與各影響因素的伴隨置信度的線性回歸模型,更好滿足實(shí)際需要。
表1 某省工業(yè)廢氣排放量及影響因子數(shù)據(jù)
假設(shè)y表示廢氣排放量,x1表示工業(yè)總產(chǎn)值,x2表示能耗,x3表示治理設(shè)備數(shù)。
設(shè)置信度α1=0.9510,建立伴隨置信度的線性回歸模型:
εi~N(0,σ2),1≤i≤10,且相互獨(dú)立,為求伴隨置信度和回歸模型,對于置信度為建立下列非線性規(guī)劃模型:
minσ (20)
將表1中有關(guān)數(shù)據(jù)代入式(19)、(21),將兩個(gè)單目標(biāo)式(19)、(20)同取權(quán)重0.5,相加得單目標(biāo)函數(shù),并利用LINGO 11編程求解,可得:
得伴隨置信度α1=0.9510的線性回歸方程:
由式(22)計(jì)算回歸值的平均相對誤差3.03%,結(jié)果如表2所示。
表2 伴隨置信度α1=0.9510的線性回歸估計(jì)效果
同理,對于伴隨置信度α2=0.5010,α3=0.7010,α4=0.9010,也可以分別按上述過程求線性回歸方程,分別為:
計(jì)算回歸值,得到平均相對誤差分別為3.05%、3.05%和3.03%,得到的σ估計(jì)值分別為7.947、5.248和3.328。
利用傳統(tǒng)最小二乘法確定的線性回歸方程為[10]:
估計(jì)的σ值為σ=3.246,平均相對誤差為3.91%。
利用一般的最小一乘法確定的線性回歸方程為:
平均相對誤差為3.04%。
經(jīng)過簡單對比可以發(fā)現(xiàn),傳統(tǒng)最小二乘法確定的線性回歸方程式(26)和伴隨置信度的線性回歸方程式(22)、(23)、(24)與(25)相比,其預(yù)測效果明顯較差,σ估計(jì)值比置信度α1=0.9510估計(jì)的σ∧α1明顯大,由此可以推測傳統(tǒng)最小二乘法確定的線性回歸方程的質(zhì)量較差。一般的最小一乘法確定的線性回歸方程式(27)的預(yù)測效果也略差于置信度α1=0.9510的線性回歸方程式(22)的預(yù)測效果,況且一般最小一乘法尚不具備方差估計(jì)及伴隨置信度的功能。
從伴隨不同置信度的線性回歸方程的對比分析中可以發(fā)現(xiàn),置信度增高,其線性回歸方程的預(yù)測平均相對誤差有變小趨勢,預(yù)測效果趨好;置信度越高,因變量Y的根方差σ的估計(jì)值越小,其線性回歸方程的預(yù)測穩(wěn)定性越好。如果把平均相對誤差與根方差σ做為評價(jià)線性回歸方程的預(yù)測質(zhì)量指標(biāo),則表明置信度增高,其線性回歸方程的預(yù)測質(zhì)量變好。
更重要的是,從伴隨不同置信度的線性回歸方程式(23)、(24)、(25)與(22)的對比分析中可以發(fā)現(xiàn),隨著置信度的提高,線性回歸方程預(yù)測質(zhì)量的提升,影響工業(yè)廢氣排放量的因素x1的系數(shù)逐漸變大,而因素x2與因素x3的系數(shù)卻逐漸變小,這說明隨著數(shù)據(jù)分析的逐漸深入、預(yù)測質(zhì)量的提升,不同因素對工業(yè)廢氣排放量的影響作用越來越清楚地顯現(xiàn)出來,因素x1的影響作用在提升,而因素x2與因素x3的影響作用在下降,因此因素x1的影響作用是主要的,而因素x2與因素x3的影響作用次之。這種動態(tài)實(shí)證分析過程不是一個(gè)線性回歸方程所能比擬的,這就為我們控制工業(yè)廢氣排放量指明了方向,即在現(xiàn)有生產(chǎn)技術(shù)及廢氣治理技術(shù)條件下,因素x1工業(yè)總產(chǎn)值是控制的主要因素。
當(dāng)然,實(shí)用中我們可以根據(jù)實(shí)際需要選用不同置信度的回歸方程。最有意義的是清楚了所使用的線性回歸方程及其預(yù)測結(jié)果的置信度,為科學(xué)決策提供了依據(jù)。
很明顯,機(jī)會約束規(guī)劃式(9)、(10)和(11)的建立方法具有一般性,我們也可以按最小二乘法設(shè)立目標(biāo)函數(shù),建立機(jī)會約束規(guī)劃。只是由于最小一乘法具有較好的穩(wěn)健性,所以選擇以最小一乘法建立機(jī)會約束規(guī)劃。
伴隨置信度的線性回歸模型,是遵循以一定概率下隨機(jī)因變量取值的均值,來預(yù)測隨機(jī)因變量可能取值的研究思想得到的研究成果。伴隨的置信度就是對線性回歸模型及其以均值做為預(yù)測結(jié)果的不確定性風(fēng)險(xiǎn)的刻劃。而線性分位數(shù)回歸模型實(shí)質(zhì)是研究利用一定累積概率下隨機(jī)因變量取值的最大值來預(yù)測隨機(jī)因變量的可能取值,雖然也具備一定的不確定性風(fēng)險(xiǎn)意義,但由于是累積概率,過于抽象,在實(shí)際應(yīng)用中無法刻劃具體預(yù)測的不確定性風(fēng)險(xiǎn)。因此,伴隨置信度的線性回歸模型中置信度的變化,一方面可以調(diào)整預(yù)測的效果,另一方面又可以調(diào)整預(yù)測值的可靠度;而線性分位數(shù)回歸模型中概率的變化是為了全面刻劃因變量分布的特征,得到較全面的分析結(jié)果[4]。這就是兩種線性回歸模型的區(qū)別,也是伴隨置信度的線性回歸模型的優(yōu)點(diǎn)所在。
與傳統(tǒng)的均值模型相比,伴隨置信度的線性回歸模型,除了具有能對預(yù)測結(jié)果的不確定性風(fēng)險(xiǎn)進(jìn)行刻劃的優(yōu)點(diǎn)外,還具有借助不同置信度對隨機(jī)觀測值所含有的信息加以動態(tài)的不同程度利用的特點(diǎn),通過伴隨不同置信度的回歸方程可知,由于不同程度的信息挖掘得到伴隨不同風(fēng)險(xiǎn)的預(yù)測結(jié)果。
伴隨置信度的線性回歸模型,由于模型要求在一定置信度下,將隨機(jī)變量所有觀測值做為具有最小方差的正態(tài)分布的均值附近,因此適合分析的樣本數(shù)據(jù)分布特征與傳統(tǒng)的均值模型基本相同,一般適合樣本數(shù)據(jù)比較集中、少有最好沒有離群的異常點(diǎn)的數(shù)據(jù),否則會導(dǎo)致回歸方程向離群點(diǎn)的不良傾斜,影響預(yù)測的穩(wěn)健性。
伴隨置信度的線性回歸模型,就是在一定置信度下,將隨機(jī)變量所有觀測值做為具有最小方差的正態(tài)分布的均值附近,依據(jù)此概率思想,按最小一乘法建立關(guān)于均值的機(jī)會約束規(guī)劃,求得回歸方程。因此,該模型具有最小一乘法估計(jì)的性質(zhì),即較好的穩(wěn)健性、線性回歸方程通過至少n+1個(gè)樣本點(diǎn)與漸近正態(tài)性。又由于該模型確定的線性回歸方程是擁有最小方差的正態(tài)分布的均值,故此線性回歸方程的預(yù)測效果較好,具有較好的預(yù)測穩(wěn)定性。
參考文獻(xiàn):
[1]魏宗舒.概率論與數(shù)理統(tǒng)計(jì)教程[M].北京:高等教育出版社,1983.
[2]陳希孺.最小一乘線性回歸(下)[J].數(shù)理統(tǒng)計(jì)與管理,1989(6).
[3]陳建寶,丁軍軍.分位數(shù)回歸技術(shù)綜述[J].統(tǒng)計(jì)與信息論壇,2008,23(3).
[4]張濤.工資收入差異的解釋:基于分位數(shù)回歸的經(jīng)驗(yàn)研究[J].統(tǒng)計(jì)與信息論壇,2011,26(11).
[5]姜?jiǎng)?lì)卿,錢文榮.公共部門與非公共部門工資差異的分位數(shù)回歸分析[J].統(tǒng)計(jì)研究,2012,29(1).
[6]劉鑫,趙濤.基于分位數(shù)回歸的天津市二氧化碳排放影響因素研究[J].環(huán)境衛(wèi)生工程,2014,22(1).
[7]壽暉,張永安.基于分位數(shù)回歸商業(yè)銀行系統(tǒng)性風(fēng)險(xiǎn)研究[J].技術(shù)經(jīng)濟(jì)與管理研究,2014(9).
[8]張雨,劉倩,曾林蕊.生長曲線模型的分位數(shù)回歸[J].應(yīng)用概率統(tǒng)計(jì),2014,30(3).
[9]王新宇,趙紹娟.基于分位數(shù)回歸模型的滬深股市風(fēng)險(xiǎn)測量研究[J].中國礦業(yè)大學(xué)學(xué)報(bào),2008,37(3).
[10]鄭敏敏,肖秀欽,陳慶華,等,福建省工業(yè)廢氣排放量的因子分析與灰色預(yù)測[J].環(huán)境科學(xué)與管理,2012,37(4).
(責(zé)任編輯:崔國平)
【統(tǒng)計(jì)理論與方法】
Model of Linear Regression with Confidence Degree
LIU Zhao-jun
(School of Mathematics and Information Science,Shandong Institute of Business and Technology,Yantai 264005,China)
Abstract:For linear regression model with normal remainder,we studied linear regression model with confidencedegree.Underacertainprobability,bydesigningrandomvariablemean-centeredconfidenceinterval,book=7,ebook=8we set up a chance constrained programming,then turned it into a certain programming with a confidence degree and made use of Lingo11optimization software to solve the certain programming.At last we structured linear regression model with confidence degree and realized the dynamic application for random variable observed values information,we can predict with confidence degree.Empirical analysis shows the model can reflect in varying degrees on multifaceted information at observed data according to confidence degree and help us to select the best linear regression equation and better meet our needs.The model has the advantages of different from the linear quantile regression model,it enriches the content of linear regression analysis.
Key words:linear quantile regression model;chance constrained programming;linear regression equation;confidence degree;nonlinear programming
收稿日期:2015-02-26
文章編號:1007-3116(2015)07-0003-05
文獻(xiàn)標(biāo)志碼:A
中圖分類號:O212∶F222.3
作者簡介:劉兆君,男,山東龍口人,教授,研究方向:不確定性的數(shù)學(xué)理論。