郭月玲,李春波
(1.湖南工學(xué)院數(shù)理部,湖南 衡陽(yáng) 421002;2.湖南工學(xué)院體育部,湖南 衡陽(yáng) 421002)
分位數(shù)回歸理論及其應(yīng)用*
郭月玲1,李春波2
(1.湖南工學(xué)院數(shù)理部,湖南 衡陽(yáng) 421002;2.湖南工學(xué)院體育部,湖南 衡陽(yáng) 421002)
介紹了分位數(shù)回歸的概念、擬合優(yōu)度、置信區(qū)間,并將分位數(shù)回歸方法應(yīng)用到肺活量的研究中.結(jié)果表明,體重在肺活量分布上的變化趨勢(shì)是遞減的,呼吸差在肺活量分布上的變化趨勢(shì)是遞增的,而在肺活量分布的中端,胸圍的影響較強(qiáng).
分位數(shù)回歸;參數(shù)估計(jì);肺活量
在進(jìn)行定量分析時(shí),通常采用最小二乘法(OLS).但是運(yùn)用最小二乘法的條件比較高,如線性回歸模型要求滿足同方差性、隨機(jī)誤差間兩兩不相關(guān)等條件,在實(shí)際中,完全滿足這些條件的情況并不多見(jiàn),那么在應(yīng)用時(shí)就難以得到無(wú)偏的、有效的參數(shù)估計(jì)量.針對(duì)上述問(wèn)題,Koenker R等[1]于1978年提出分位數(shù)回歸模型.相對(duì)于OLS模型,分位數(shù)回歸具有以下幾個(gè)優(yōu)勢(shì):首先,它對(duì)模型中的誤差項(xiàng)不需做任何分布的假定,表現(xiàn)出很強(qiáng)的穩(wěn)健性;其次,對(duì)條件分布的刻畫(huà)更加細(xì)致,尤其能有效地分析數(shù)據(jù)分布中極端值的影響;還有,分位數(shù)回歸通過(guò)使加權(quán)誤差絕對(duì)值之和最小得到參數(shù)的估計(jì)具有大樣本理論下的漸進(jìn)優(yōu)良性.因此,目前該方法被廣泛應(yīng)用.筆者利用該方法探索大學(xué)生體重、肺活量、呼吸差、胸圍四者之間的相互關(guān)系,對(duì)大學(xué)生肺活量的影響因素進(jìn)行分析.
(1)
(1)式中,yi代表因變量的向量,xi代表自變量的向量,τ是要估計(jì)的分位數(shù)值,β是一個(gè)系數(shù)向量.這個(gè)模型的特點(diǎn)是β將隨著τ的變化而有所不同.τ可以取0~1之間的任何值,然后依靠(1)式的線性規(guī)劃估算出Y的相應(yīng)分位數(shù)的回歸系數(shù).實(shí)際上,最小絕對(duì)偏差法估計(jì)的值就是回歸分位數(shù)在τ=0.5時(shí)的一個(gè)特例.
假設(shè)待估計(jì)的模型為
(2)
其中β1:(p-q)×1,β2:q×1.
偽R2定義為
參數(shù)的可信區(qū)間[4]可近似用t分布原理方法.
為了解影響肺活量的因素,收集湖南工學(xué)院2012年電氣系、機(jī)械系共1 800名學(xué)生的健康體質(zhì)測(cè)試成績(jī)數(shù)據(jù),利用分位數(shù)回歸方法對(duì)數(shù)據(jù)進(jìn)行分析.考慮肺活量對(duì)體重、胸圍、呼吸差的分位數(shù)回歸,選擇分位點(diǎn)0.05,0.25,0.5,0.75,0.9,利用統(tǒng)計(jì)軟件STATA計(jì)算,輸出結(jié)果見(jiàn)表1.
表1 多分位點(diǎn)的分位數(shù)回歸
從表1可以看出,各解釋變量在各分位點(diǎn)都具有顯著意義.對(duì)于變量x1(體重),各分位數(shù)回歸系數(shù)依次遞減,說(shuō)明體重在各分位數(shù)的分布是不同的,對(duì)于具有不同肺活量的學(xué)生而言,處于條件分布低端的學(xué)生,體重的影響要高于平均水平,而處于條件分布高端的學(xué)生,體重的影響相對(duì)較低.對(duì)于變量x2(胸圍),除了在5%和90%分位數(shù)回歸上系數(shù)分別為20.502 5和24.181 8外,在25%,50%,75%的分位數(shù)回歸上系數(shù)都較高,其系數(shù)分別為32.683 2,36.898 1,40.355 9,這說(shuō)明對(duì)于不同肺活量的學(xué)生而言,胸圍處于中端的學(xué)生,其邊際貢獻(xiàn)較大.對(duì)于變量x3(呼吸差),各分位數(shù)回歸系數(shù)依次遞增,且回歸系數(shù)為正,表明呼吸差與肺活量之間具有顯著正相關(guān),且處于條件分布低端的學(xué)生的呼吸差影響要低于平均水平.
將分位數(shù)回歸應(yīng)用到肺活量的研究中,分析結(jié)果表明,在影響肺活量的諸因素中,體重、胸圍、呼吸差對(duì)肺活量不同分位點(diǎn)的影響是不同的,但均為正向效應(yīng).其中,體重因素的作用隨著分位點(diǎn)的升高而降低,呼吸差因素的作用隨著分位點(diǎn)的升高而升高,胸圍因素則表現(xiàn)在中端影響效應(yīng)最強(qiáng).當(dāng)然,該結(jié)論也受到數(shù)據(jù)抽樣代表性不足的限制,比如涵蓋院系較少、個(gè)別學(xué)生無(wú)成績(jī)等,這可能在一定程度上對(duì)結(jié)論存在影響.
[1] KOENKER R,BASSETT G.The Asymptotic Distribution of the Least Absolute Error Estimator[J].Journal of the American Statistical Association,1978,73:618-622.
[2] 李育安.分位數(shù)回歸及應(yīng)用簡(jiǎn)介[J].統(tǒng)計(jì)與信息論壇,2006,5(3):35-38.
[3] 朱平芳,朱先智.企業(yè)創(chuàng)新人力投入強(qiáng)度規(guī)模效應(yīng)的分位點(diǎn)回歸研究[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2007,24(3):69-80.
[4] 季 莘,陳 峰.百分位數(shù)回歸及其應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),1998,15(6):9-11.
(責(zé)任編輯 向陽(yáng)潔)
IntroductiontoQuantileRegressionandItsApplication
GUO Yueling1,LI Chunbo2
(1.Department of Mathematics,Hunan Institute of Technology,Hengyang 421002,Hunan China;2.Department of Physical Education,Hunan Institute of Technology,Hengyang 421002,Hunan China)
The concepts of quantile regression,the goodness of fit,and the confidence interval are introduced.The method of quantile regression is applied to the research on lung capacity.It is concluded that the weight distribution in lung capacity has the tendency to decrease,the breathing difference distribution in lung capacity has tendency to increase,and the chest circumference has strong impact in the middle part of lung capacity distribution.
quantile regression;parameter estimation;lung capacity
1007-2985(2014)05-0026-03
2014-03-20
湖南省教育廳科學(xué)研究項(xiàng)目(12C0665)
郭月玲(1983—),女,山東菏澤人,湖南工學(xué)院數(shù)理部講師,碩士研究生,主要從事經(jīng)濟(jì)數(shù)學(xué)研究.
O212
A
10.3969/j.issn.1007-2985.2014.05.007