張林泉
(廣東女子職業(yè)技術學院,廣東廣州 511450)
線性回歸模型的置信區(qū)間與預測區(qū)間應用分析*
張林泉
(廣東女子職業(yè)技術學院,廣東廣州 511450)
論述線性回歸的因變量置信區(qū)間和因變量個別值的預測區(qū)間原理后,結合實例分析了學生總數(shù)與季度營業(yè)額2個變量的關系.研究發(fā)現(xiàn),學生總數(shù)與季度營業(yè)額關系存在很強的正向線性關系(r=0.950 1),可決系數(shù)(R2=0.902 7)可以解釋總平方和中的90.27%,表明其擬合度很好.之后,給出了因變量平均值的置信區(qū)間、因變量個別值的預測區(qū)間及圖形.
回歸分析;置信區(qū)間;預測區(qū)間;學生總數(shù);季度營業(yè)額
一元線性回歸預測法是指成對的2個變量數(shù)據(jù)分布大體上呈直線趨勢時,運用合適的參數(shù)估計方法,求出一元線性回歸模型,然后根據(jù)自變量與因變量之間的關系,預測因變量的趨勢[1].進行一元線性回歸預測時,必須選用合適的統(tǒng)計方法估計模型參數(shù),并對模型及其參數(shù)進行統(tǒng)計檢驗.對于自變量x的一個給定值xp,根據(jù)回歸方程得到因變量y的一個估計區(qū)間.區(qū)間估計有2種類型:置信區(qū)間估計(confidence interval estimate)和預測區(qū)間估計(prediction interval estimate).利用回歸方程進行預測時,會出現(xiàn)因變量置信區(qū)間和因變量個別值的預測區(qū)間的誤用問題.筆者試圖對二者關系進行分析,同時闡明影響區(qū)間寬度的因素.
利用估計的回歸方程,對于自變量x的一個給定值xp,求出因變量y的平均值的估計區(qū)間,這一估計區(qū)間稱為置信區(qū)間(confidence interval).因變量均值時的方差的估計值為
E(yp)在1-α置信水平下的置信區(qū)間為[2-3]
利用估計的回歸方程,對自變量的一個給定值x0,求出因變量y的個別值的估計區(qū)間,這一區(qū)間稱為預測區(qū)間(prediction interval).因變量個別值的方差的估計值為
因變量個別值的預測區(qū)間為[3-4]
數(shù)據(jù)(見表1)源于臨近大學校園的10家餐館的樣本,xi是學生總數(shù)(單位:千人),yi是季度營業(yè)額(單位:千美元).
3.1 確定估計回歸方程
n=10,經(jīng)計算可得
因此,建立的一元線性估計回歸方程為^y=60+5x.
3.2 判斷擬合優(yōu)度情況
若用估計回歸方程^y=60+5x來預測營業(yè)額,則可以解釋總平方和中的90.27%,說明回歸方程擬合度很好.樣本相關系數(shù)=(β1的符號)表明x和y之間具有很強的正向線性關系.
3.3 顯著性檢驗
3.3.1 回歸方程的顯著性檢驗(線性關系的檢驗) 提出假設H0,即學生總體與營業(yè)額之間的線性關系不顯著.計算檢驗統(tǒng)計量F(見圖1),
因為74.248 37>F0.01(1,8)=11.258 6,可知顯著水平為0.01時,β1不等于0,所以拒絕原假設,認為所建立的線性回歸模型是顯著的.學生總體與營業(yè)額之間線性關系顯著,即回歸方程線性關系顯著.
3.3.2 回歸系數(shù)的顯著性檢驗 提出假設H0:β1=0(沒有線性關系),H1:β1≠0(有線性關系).計算檢驗的統(tǒng)計量t(見圖2),
對應于顯著水平為0.01時,自由度為n-2=10-2=8,雙尾檢驗t值是t0.005(8)=3.355.因8.616 7>3.355,在顯著水平為0.01下,β1不等于0,故學生總體與營業(yè)額之間存在顯著關系,表明自變量是影響因變量的一個顯著因素.
圖1 F分布,df1=1,df2=8的概率密度函數(shù)
圖2 T分布,df=8的概率密度函數(shù)
3.4 利用回歸方程進行預測
3.4.1 因變量平均值的置信區(qū)間 若x=xp=10,點估計^yp=60+5×10=110,則
由(2)式得
即置信度為95%的因變量均值的置信區(qū)間為(98.582 991 48,121.417 008 5),學生數(shù)為10千名的學校,其營業(yè)額的平均值有95%的可能位于98.583 0和121.417 0之間.
3.4.2 因變量個別值的預測區(qū)間 若x=xp=10,有^yp=60+5×10=110,則由(3)式可得
即位于有10千名學生的校園附近的單個餐館營業(yè)額95%的預測區(qū)為(76.127 45,143.872 5).
圖3顯示顯著水平為0.05時,自由度為8的雙尾檢驗t概述密度函數(shù).由圖4可知,因變量個別值的預測區(qū)間總是要比因變量平均值的置信區(qū)間寬,這是因為在對單個響應與響應均值的預測中包括了更多的不確定性.因變量平均值的預測值與真實平均值有誤差,主要是受抽樣波動影響;因變量個別值的預測值與真實個別值的差異,不僅受抽樣波動影響,而且受隨機擾動項的影響[5].
圖3 T分布,df=8的概率密度函數(shù)
圖4 均值置信區(qū)間帶和個別值的預測區(qū)間帶
討論了如何利用樣本數(shù)據(jù)建立回歸分析模型,并進行相應的顯著性檢驗,由估計回歸方程給出因變量均值的置信區(qū)間和因變量個別值的預測區(qū)間;應用SPSS和MATLAB做出因變量均值的置信區(qū)間和因變量單個值的預測區(qū)間等相關圖形.綜上分析,影響區(qū)間寬度的因素有用于預測的xp與x-的差異程度、置信水平、數(shù)據(jù)的離散程度、樣本容量.區(qū)間寬度隨xp與x-的差異程度的增大而增大,xp與x-的差異程度越大預測精度越差;區(qū)間寬度隨置信水平的增大而增大;區(qū)間寬度隨離散程度的增大而增大;區(qū)間寬度隨樣本容量的增大而減小.
[1] 徐國祥.統(tǒng)計學[M].上海:上海財經(jīng)大學出版社,2007.
[2] 龐 皓.計量經(jīng)濟學[M].北京:科學出版社,2007:48-54.
[3] [美]戴維·R·安德森.商務與經(jīng)濟統(tǒng)計精要(英文版)[M].第2版.北京:機械工業(yè)出版社,2005:364-422.
[4] RON LARSON,BESTY FARBER.基礎統(tǒng)計學(英文版)[M].第4版.北京:中國人民大學出版社,2010:330.
[5] [美]黙里.計量經(jīng)濟學:現(xiàn)代方法:上(經(jīng)濟學精選教材·英文影印版)[M].北京:北京大學出版社,2009:175.
(責任編輯 向陽潔)
Application of Confidence Intervals and Prediction Intervals of Linear Regression
ZHANG Lin-quan
(Guangdong Women’s Polytechnic College,Guangzhou 511450,China)
After describing the principle of confidence intervals and prediction intervals,this paper,which applies it to analyze the relationship between such two variables as student size and quarterly turnover,tests regression equation.And the result shows that there exists high degree of fitting between these two variables since there exists a positive linear relationship between the two variables(r=0.950 1)and a bout 90.27%of the variation in the quarterly turnover data is explained by student size;The paper offers not only confidence intervals for the mean of y and prediction intervals for an individual y by using estimated equation,but some relevant graphs as well.
regression analysis;confidence intervals;prediction intervals;student size;quarterly turnover
F222.1;O212.7
A
10.3969/j.issn.1007-2985.2013.06.005
1007-2985(2013)06-0015-04
2013-04-15
廣東省教育科學“十二五”規(guī)劃2012年度項目(2012JK078)
張林泉(1965-),男,廣東化州人,廣東女子職業(yè)技術學院副研究員,碩士,主要從事統(tǒng)計、數(shù)量經(jīng)濟學與數(shù)學教學研究.