鄧平穩(wěn),謝治州
(1.貴州財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)學(xué)院,貴州 貴陽 550025;2.黔南民族師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴州 都勻 558000)
隨著國民生活水平日益提高,買房也逐漸成為了大部分家庭的首要目標(biāo),但房價也隨著各種因素不斷上漲,房價漲跌一時備受關(guān)注。隨著房價的熱度提高,房價預(yù)測問題也成為了學(xué)者們的研究焦點(diǎn)。早期,Nelder[1]對線性回歸模型的推廣至廣義線性回歸模型;李賢增[2]利用多元回歸分析與支持向量機(jī)方法對中國房價波動進(jìn)行了預(yù)測分析,得出多元回歸分析與支持向量機(jī)方法適用于對中國房價波動進(jìn)行有效預(yù)測分析;張利君[3]基于部分線性回歸模型分析了2000~2015年全國商品房平均銷售價格,發(fā)現(xiàn)部分線性回歸模型適合預(yù)測全國商品方銷售價格;雷雨甜[4]利用線性回歸、Lasso回歸等回歸模型對房價進(jìn)行預(yù)測分析,得出在使用的單一模型中Lasso回歸預(yù)測效果最好。唐媛媛[5]對Gamma回歸模型的定義和參數(shù)估計(jì)方法進(jìn)行介紹,并提出參數(shù)分離法,證明2種方法的等價性,并進(jìn)行了實(shí)例分析。Idais Osama等[6]概述廣義線性模型實(shí)驗(yàn)設(shè)計(jì)中的等方差和不變性概念,并論證其有用性。Wu Zixu[7]基于加州房價數(shù)據(jù),對影響因素進(jìn)行線性和lasso回歸分析,解決了如何通過多個變量預(yù)測加州房屋的平均年銷售價格的問題。Myrovali Glykeria等[8]評估出租車數(shù)據(jù)相對于總體交通的可靠性,在處理傾斜和異方差流量數(shù)據(jù)時,使用伽馬模型的廣義線性模型的建模似乎是合適的。本文旨在將線性回歸模型推廣至廣義線性回歸模型中伽馬回歸模型和逆高斯回歸模型,并將其應(yīng)用于臺灣新北市新店區(qū)的房子單價的預(yù)測。
伽馬回歸模型與逆高斯回歸模型均是廣義線性模型,分別是在假設(shè)因變量服從伽馬分布與逆高斯分布下建立。兩者主要用于大于零的連續(xù)型因變量的擬合與預(yù)測。
假設(shè)y是廣義線性模型中的因變量,形狀參數(shù)為α,尺度參數(shù)為β,Γ表示伽馬函數(shù),StacyEW[9]將伽馬分布的密度函數(shù)表示為:
(1)
(2)
式(2)中,指數(shù)分布族的參數(shù)與伽馬分布的關(guān)系如下:
(3)
由式(3),對b(θ)求一階導(dǎo)、二階導(dǎo),則伽馬指數(shù)分布族的均值和方差函數(shù)分別為b'(θ)=μ,b''(θ)=μ2,故伽馬分布的方差為var(y)=φb''(θ)/ω=φμ2。利用伽馬分布易得到其對數(shù)似然函數(shù)[11],求得伽馬回歸模型的殘差偏差D為:
(4)
綜上所述,伽馬回歸模型的一般形式表示為式(5):
如果因變量y服從正態(tài)分布,常用逆高斯分布的概率密度函數(shù)[13]如下:
(6)
式(6)中,σ是標(biāo)準(zhǔn)差,對數(shù)指數(shù)化后,可以將其表示為指數(shù)分布族的一般形式,其密度函數(shù)為:
(7)
式(7)中,逆高斯分布與指數(shù)分布族的參數(shù)對應(yīng)關(guān)系如下:
(8)
式(8)中,b(θ)是已知參數(shù)(θ為自然參數(shù)),同理逆高斯指數(shù)分布族的均值和方差函數(shù)分別為b'(θ)=μ,b''(θ)=μ3,故逆高斯分布的方差為var(y)=σ2μ3。利用逆高斯分布易得其對數(shù)似然函數(shù),進(jìn)而可以求得逆高斯回歸模型的殘差偏差D為:
(9)
為了與伽馬回歸模型進(jìn)行對比,本文在逆高斯回歸模型中也選擇對數(shù)函數(shù)作為的連接函數(shù),即g(μ)=η=lnμ。
綜上所述,逆高斯回歸模型的一般形式表示為:
(10)
本文選用迭代加權(quán)最小二乘估計(jì)法[14]對參數(shù)進(jìn)行估計(jì),其迭代公式為:
β(m)=(XTW(m-1)X)-1XTW(m-1)z(m-1)
(11)
式(11)中,β為回歸參數(shù)向量,m為迭代次數(shù),X為設(shè)計(jì)矩陣,W為一個n×n的對角矩陣,z為一個n維向量。
(12)
z=[ηi+(yi-μi)g'(μ)]n×1
(13)
式(12)中,v(μi)為逆高斯分布的方差函數(shù)。若W為單位陣時,式(11)可以簡化為:
β(m)=(XTX)-1XTz(m-1)
(14)
因此,將伽馬分布的方差函數(shù)v(μi)=μ2和連接函數(shù)一階導(dǎo)數(shù)g'(μ)=1/μ代入式(12)和式(13)可得W=diag[1/φ]n×n,z=[ηi+(yi-μi)/μi]n×1,將逆高斯分布的方差函數(shù)v(μi)=μ3和g'(μ)=1/μ代入式(12)和式(13)可得W=diag[1/σ2μi]n×n,z=[ηi+(yi-μi)/μi]n×1。
伽馬和逆高斯回歸模型的迭代加權(quán)最小二乘估計(jì)算法如表1所示。
本文使用臺灣新北市新店區(qū)的房價數(shù)據(jù)集源自UCI[15],數(shù)據(jù)集中共有414個樣本,6個解釋變量,1個被解釋變量(房子單價)。
利用上述迭代加權(quán)最小二乘估計(jì)算法編寫相應(yīng)R程序可對伽馬回歸模型和逆高斯回歸模型進(jìn)行估計(jì),也可利用R自帶函數(shù)Gamlss估計(jì)參數(shù),參數(shù)估計(jì)結(jié)果如表2所示。
由表2,伽馬和逆高斯回歸模型各個解釋變量參數(shù)估計(jì)的P值均小于0.05,說明2個模型中每個解釋變量參數(shù)估計(jì)均顯著;前者周邊便利店數(shù)量和緯度對臺灣新北市新店區(qū)的房子單價有正向影響,交易時間、地鐵站距離和經(jīng)度對臺灣新北市新店區(qū)的房子單價有負(fù)向影響。除了前者已有的解釋上,后者對房子單價有著正向影響的還有經(jīng)度;另外,伽馬回歸模型的離散參數(shù)估計(jì)為0.232(通過exp(-1.46255)計(jì)算),逆高斯回歸模型的離散參數(shù)估計(jì)為0.042。
利用AIC函數(shù)[16]調(diào)出伽馬和逆高斯回歸模型的AIC值分別為2938.518、2991.044,伽馬斯回歸模型擬合效果優(yōu)于逆高斯回歸模型的擬合效果。也可利用分位殘差圖來比較模型的擬合效果。本文伽馬和逆高斯回歸模型的分位殘差圖如圖1和圖2所示。
表1 迭代加權(quán)最小二乘算法
表2 伽馬和逆高斯回歸模型參數(shù)估計(jì)結(jié)果
圖1 伽馬回歸模型分位殘差圖
由圖1和圖2,在Against Fitted Values圖和Against index圖中的散點(diǎn)均是均勻分布在零值周圍,說明兩者擬合效果都較好,而且差異不是很大;在Density Estimate圖中,密度函數(shù)均是近似對稱的,表明兩者擬合效果較好,但是伽馬回歸模型的密度函數(shù)比逆高斯回歸模型更具對稱性;在Normal Q-Q plot圖中,兩模型的散點(diǎn)分布在斜線附近,說明兩者擬合效果較好,對比兩圖發(fā)現(xiàn),斜線首尾位置,伽馬回歸模型的散點(diǎn)更為集中靠近斜線。綜上所述,伽馬和逆高斯回歸模型的擬合效果均較好,但是伽馬回歸模型擬合效果優(yōu)于逆高斯回歸模型。
圖2 逆高斯回歸模型分位殘差圖
在R中,伽馬回歸模型和逆高斯回歸模型可以通過predict函數(shù)進(jìn)行預(yù)測,伽馬回歸模型預(yù)測值與觀測值、逆高斯回歸模型預(yù)測值與觀測值的對比圖分別如圖3和圖4所示。
圖3 伽馬回歸模型預(yù)測值與觀測值對比
圖4 逆高斯回歸模型預(yù)測值與觀測值對比
在圖3和圖4中,多數(shù)散點(diǎn)分布在直線附近,說明伽馬和逆高斯回歸模型預(yù)測值與觀測值相接近,兩個模型適用于對臺灣的房價進(jìn)行預(yù)測。本文還利用R計(jì)算出兩模型的均方誤差(MSE),以此來評價預(yù)測效果。計(jì)算伽馬和逆高斯回歸模型的均方誤差分別為81.368、 82.517。說明兩者預(yù)測效果很好,而且伽馬回歸模型比逆高斯回歸模型的預(yù)測效果更好些。
從模型檢驗(yàn)和預(yù)測效果來看,伽馬回歸模型和逆高斯回歸模型均適用于對臺灣新北市新店區(qū)房價數(shù)據(jù)進(jìn)行建模和預(yù)測,而且伽馬回歸模型擬合效果和預(yù)測效果均優(yōu)于逆高斯回歸模型擬合效果和預(yù)測效果。本次研究為臺灣新北市新店區(qū)房價的預(yù)測提供了可行性。
2個模型的參數(shù)估計(jì)都大致說明了周邊便利店數(shù)量越多,則該地區(qū)房子單價相對較高,反之,房子房價較低。交易時間越晚,房子單價相對較低,反之,則房子單價相對較高。其次地鐵站距離越近,房子單價相對較高,反之,房子單價相對較低。因此分別從房地產(chǎn)開發(fā)商和購房者兩個角度提出以下建議:對于前者,對該地區(qū)便利店的店家進(jìn)行優(yōu)惠補(bǔ)貼,吸引更多的商店入駐,為該地區(qū)的居民提供便利服務(wù),同時開展大量的購房優(yōu)惠活動,以吸引更多的人前來買房;對于后者,能夠?yàn)榭蛻籼峁┮粋€相對合理的購房參考。