摘 要:在進(jìn)行定量分析時(shí),最小二乘法已經(jīng)成為一種可信賴的工具。但是運(yùn)用最小二乘法的條件比較高,在實(shí)際問題中,完全滿足條件的情況并不多見,那么在應(yīng)用時(shí)就難以得到無偏的、有效的參數(shù)估計(jì)量。針對(duì)上述問題,以O(shè)ILPLUS公司取暖用燃油消耗的分布為主要研究對(duì)象,在進(jìn)行參數(shù)估計(jì)時(shí),應(yīng)用百分位數(shù)回歸方法,既可以看到采用百分位數(shù)回歸方法與采用最小二乘法得到的模型顯著不同,又可以得到比最小二乘法更為豐富的信息。
關(guān)鍵詞:百分位數(shù)回歸方法;最小二乘法;取暖用燃油消耗的分布
中圖分類號(hào):F224 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2013)22-0009-02
一、問題的提出
通常的線性回歸模型用于描述自變量對(duì)因變量均值的影響。但是在許多時(shí)候,僅僅描述自變量對(duì)均值的影響是不夠的。更一般的理想模型應(yīng)該能夠描述給定自變量下,因變量的條件分布。因?yàn)橛辛藯l件分布,我們就能夠全面了解因變量對(duì)自變量的依賴關(guān)系。正是基于這一思想,引入百分位數(shù)回歸,該方法被公認(rèn)為是統(tǒng)計(jì)研究領(lǐng)域的一個(gè)重要突破。
二、百分位數(shù)回歸方法
假設(shè)因變量為Y,k個(gè)解釋變量為X1,X2…,Xk則τ分位數(shù)回歸模型:
Y=β0(τ)+β1(τ)X1+β2(τ)X2+…+βk(τ)Xk (1)
參數(shù)β0(τ),β1(τ),…,βk(τ)依賴于參數(shù)τ,表示參數(shù)可以隨著分位數(shù)不同而變化。若記X=(X1,X2…,Xk)′,β(τ)=(β0(τ),β1(τ),…,βk(τ))′,樣本為(Yi,Xi),i=1,2,…n。那么模型(1)中的參數(shù)可以通過下面的式子得到:
■(τ)=arg■ ■τ(Yi-Xi′β(τ))+■(τ-1)(Yi-Xi′β(τ))
τ可以取0~1之間的任何值。實(shí)際上,最小絕對(duì)偏差法估計(jì)的值就是回歸分位數(shù)在τ=0.5時(shí)的一個(gè)特例。因此,我們又稱最小絕對(duì)值法為中位數(shù)回歸法(Median Regression)。最小絕對(duì)值法適用于各類殘差的分布類型,特別適合于具有重尾分布或是在中位數(shù)附近有較大密度的分布(如Cauchy分布,Laplace分布),是一種較最小二乘法更穩(wěn)健,有效的回歸分析方法。
三、實(shí)證研究
下面通過OILPLUS公司取暖用燃油消耗的數(shù)據(jù)集,揭示除平均值以外的更多信息,以展示分位數(shù)回歸的魅力。從1989年8月至1994年2月的數(shù)據(jù)可以看出OILPLUS公司的客戶連續(xù)55個(gè)月的取暖用燃油消耗和平均月溫度?;谶@些數(shù)據(jù),圖1取暖用燃油消耗和平均月溫度的散點(diǎn)圖。正如一般的認(rèn)識(shí)所揭示的那樣,這個(gè)散點(diǎn)圖表明了取暖用燃油消耗和平均月溫度之間的關(guān)系。其中x代表平均月溫度,y代表取暖用燃油消耗。
在統(tǒng)計(jì)軟件stata上,對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,可選擇輸出許多結(jié)果(見下頁圖2)。在下頁圖2中,按從上到下的順序算起,第5條直線表示的是最小二乘法得到的回歸直線,其余直線,從上到下,它們的值τ依次是:0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1。
下頁圖2說明了平均月溫度對(duì)取暖用燃油消耗的影響程度,揭示了取暖用燃油消耗和平均月溫度之間的相關(guān)關(guān)系:取暖用燃油消耗隨平均月溫度升高而降低。眾所周知,當(dāng)氣溫回升時(shí),人們對(duì)取暖的需求降低,取暖用燃油消耗就相應(yīng)減少;當(dāng)氣溫降低時(shí),人們對(duì)取暖的需求升高,取暖用燃油消耗就相應(yīng)增加。
從下頁圖2中可以看到隨著分位數(shù)變化,各回歸系數(shù)產(chǎn)生顯著變化,與常用的普通最小二乘法回歸的系數(shù)形成鮮明的對(duì)比,這表明,取暖用燃油消耗與平均月溫度之間的關(guān)系并不像普通最小二乘法揭示的那么簡(jiǎn)單,而是在不同的平均月溫度下具有不同的依賴形式。
不同τ值的分位數(shù)回歸直線之間的間隙先寬后窄,說明了平均月溫度低時(shí)的取暖用燃油消耗分布比平均月溫度高時(shí)更分散,也就是說平均月溫度高時(shí)對(duì)取暖用燃油消耗的分布影響不大,平均月溫度低時(shí)對(duì)取暖用燃油消耗的分布影響顯著。隨著分位數(shù)增加,回歸系數(shù)減少,表明取暖用燃油消耗與平均月溫度的負(fù)相關(guān)關(guān)系更強(qiáng)。
中位數(shù)回歸直線一直位于最小二乘法所得到的回歸直線之下,說明了取暖用燃油消耗是右偏的:分位數(shù)回歸直線左側(cè)之間間隙較寬,寓示了數(shù)據(jù)點(diǎn)比較稀疏且拖尾;而分位數(shù)回歸直線右側(cè)之間間隙較窄,寓示了數(shù)據(jù)點(diǎn)密集。從圖2還可以清楚地看出,中位數(shù)回歸直線的位置和由最小二乘法得到的線性回歸直線的位置顯著不同,這說明了條件密度的不對(duì)稱性,也說明了此時(shí)最小二乘法顯然受到異常點(diǎn)的影響較大,它的這種不穩(wěn)健性的后果,常常高估了取暖用燃油消耗。
四、結(jié)論
從這個(gè)實(shí)例可以看出,分位數(shù)分解方法有以下幾個(gè)優(yōu)點(diǎn):首先,分位數(shù)分解克服了傳統(tǒng)OLS回歸的缺陷,允許解釋變量的系數(shù)隨著分位數(shù)的變化而變化,不再是一個(gè)常數(shù)。均值只是分布的一個(gè)方面,使用QR可以提煉出更多的信息。 QR實(shí)際上是估計(jì)取暖用燃油消耗分布的逆函數(shù),通過QR可以得到任何一個(gè)分位點(diǎn)的取暖用燃油消耗數(shù)值的方程,如取暖用燃油消耗的中位數(shù)、10分位數(shù)、90分位數(shù)等。其次,QR分解不僅可以研究方程中系數(shù)變化對(duì)取暖用的燃油消耗的影響,還可以解釋變量分布的變化對(duì)取暖用的燃油消耗的影響。傳統(tǒng)的OLS方法只能研究解釋變量平均值對(duì)取暖用的燃油消耗的影響。
分位數(shù)回歸的理論從提出至今已有三十年,分位數(shù)回歸是最小二乘法的有益補(bǔ)充,并已逐漸成為一種估計(jì)條件分位數(shù)函數(shù)的標(biāo)準(zhǔn)的統(tǒng)計(jì)方法。
參考文獻(xiàn):
[1] 王震.基于分位數(shù)回歸分解農(nóng)民工性別工資差異研究[J].世界經(jīng)濟(jì)文匯,2010,(3):35-38.
[2] 齊曉麗,金善女.基于面板數(shù)據(jù)的分位數(shù)回歸及實(shí)證研究[J].河北工業(yè)大學(xué)學(xué)報(bào),2010,(3):98-101.
[3] 蔡超.基于分位數(shù)回歸的中國(guó)保險(xiǎn)需求分析[J].山東工商學(xué)院學(xué)報(bào),2012,(26):102-105.
[4] 蘇瑜,萬宇艷.分位數(shù)回歸的思想與簡(jiǎn)單應(yīng)用[J].統(tǒng)計(jì)教育,2009,(10):58-61.
[5] 陳建寶,丁軍軍.分位數(shù)回歸技術(shù)綜述[J].統(tǒng)計(jì)與信息論壇,2008,(3):89-96.
Quantile Regression and Application Research
GUO Yue-ling
(Hunan Institute of Technology,Hengyang 421008,China)
Abstract:In the quantitative analysis,the least square method (OLS) has become a reliable tool. But the conditions for using the least square method are relatively high,in the actual problem,the cases for fully meeting the conditions are rare,then it is difficult to get a unbiased and valid parameter estimator. In this paper,Aiming at these problems,taking the OILPLUS distribution of heating fuel consumption as the main research object,I apply percentile regression method,you can see the quantile regression method and the least square method is significantly different,you can get richer information than the least squares method.
Key words:quantile regression method;least square method;fuel consumption distribution
[責(zé)任編輯 吳高君]