何賽琦,金升平,陳家清
(武漢理工大學 理學院,武漢 430070)
中央經(jīng)濟工作會議上多次強調(diào)“房住不炒”,要全面落實因城施策,促進房地產(chǎn)業(yè)的良性循環(huán)和平穩(wěn)健康發(fā)展。準確的房屋價格指數(shù)是評估房地產(chǎn)市場平穩(wěn)健康的重要依據(jù),因此科學且方便地編制房屋價格指數(shù)具有重要的理論和現(xiàn)實意義。由于國家已嚴格控制或禁止高檔住宅的建設規(guī)模,同時取消了使用經(jīng)濟適用房的價格數(shù)據(jù)來編制房價指數(shù),因此針對我國新建普通住宅的價格指數(shù)編制問題進行研究具有重要的意義。然而,住宅存在異質(zhì)性,沒有兩套住宅是完全同質(zhì)的,指數(shù)編制的同質(zhì)要求與住宅異質(zhì)的矛盾造成房價指數(shù)編制理論面臨巨大困難。國外學者提出了特征價格模型和重復交易模型,國內(nèi)學者近年來結合我國的房地產(chǎn)實際,也取得了房價指數(shù)編制方法的系列研究成果。但是,仍然存在一些理論和實踐上的問題,需要通過不斷地研究和改進,以得到科學準確的房價指數(shù)編制模型與方法,更為準確地度量我國普通商品房的價格變化情況,為政府制定合理的房地產(chǎn)政策提供更科學的依據(jù)。
特征價格法將房價與房產(chǎn)的結構特征、鄰里特征和環(huán)境特征聯(lián)系起來,建立房價與各種特征之間的回歸模型,并利用該模型預測房價水平。
特征價格法可以調(diào)整房產(chǎn)樣本的異質(zhì)性,在理論上具有一定優(yōu)勢。但在實際應用中,特征價格法需要收集大量特征變量的數(shù)據(jù),而且不同城市或同一城市的不同發(fā)展階段,房屋的特征變量可能有較大變化,有些特征變量難以量化。在具體應用時,若某些特征變量缺失或特征函數(shù)的形式設置不當,所編制的房價指數(shù)反映出來的房價變動情況會與真實房地產(chǎn)市場存在偏差。因此,采用特征價格法編制我國新建普通住宅房價指數(shù)不具備普適性。
重復交易法試圖通過發(fā)生過兩次或兩次以上交易的樣本數(shù)據(jù)來消除房屋樣本的異質(zhì)性,從而回避特征價格法選擇特征變量的難題[1]。
在實踐中,由于重復交易的樣本數(shù)量較少,因此重復交易法存在樣本的代表性較差問題[2]。而且我國新建普通住宅的交易只有一次交易記錄,這些問題使得重復交易法難以直接應用于我國新建普通住宅的房價指數(shù)編制。為克服以上問題,有學者提出類重復交易規(guī)則,利用平均的思想將同一樓盤不同時期銷售的房產(chǎn)轉(zhuǎn)化成具有同質(zhì)性的產(chǎn)品的“重復交易”,并將重復交易法應用于我國新房市場,對我國房價指數(shù)編制模型的完善具有重要意義。但是,以中間樓層的單價作為配對后房產(chǎn)的均價可能存在平均過度的問題。還有學者提出擬(偽)重復交易模型[3],將且只將同一匹配空間內(nèi)相鄰時間上的兩個樣本看作一個匹配對。閔繼勇(2018)[4]基于同一小區(qū)內(nèi)不同時期交易的房產(chǎn)來構造有序交易對提出類重復交易法,但當匹配房產(chǎn)分布差別較大時可能會導致誤差過大。先倚懿和金升平(2016)[5]通過對新建普通住宅現(xiàn)有的交易數(shù)據(jù)及其結構特征進行研究,采用插值法產(chǎn)生虛擬重復交易數(shù)據(jù),該方法能有效擴充樣本數(shù)據(jù),但是模擬數(shù)據(jù)與真實數(shù)據(jù)間的偏差可能導致計算的房價指數(shù)準確性不足。
McMillen(2012)[6]基于特征價格法,將重復交易法置于匹配的框架下進行研究,并利用傾向值進行匹配,提出了房價指數(shù)編制的匹配模型。然而,基于傾向值的匹配模型要求較大的樣本規(guī)模,在某些狹窄的共同支持域設定下,一些干預組房產(chǎn)可能找不到匹配的控制組房產(chǎn)或者一些控制組房產(chǎn)可能并不被使用,這會導致房價指數(shù)信息損失,存在與特征價格法類似的問題。金升平等(2017,2019)[7,8]、董艷玲等(2020)[9]基于上下樓集合生成匹配對來構建匹配模型。
為分析方便起見,本文給出“上下樓集合”的概念[8]。圖1 是一棟樓房的一個單元結構,每層有兩套商品房,其總樓層或總高度為6,A1—A6為一個上下樓集合,其與B1—B6分別為不同的上下樓集合。
圖1 上下樓集合
引入上下樓集合概念可以更好地處理我國城市居民對住宅朝向十分敏感的問題。本文將屬于同一上下樓集合的房產(chǎn)按一定的順序組成匹配對[7—9],建立了房價指數(shù)的匹配模型,最終歸納出一個普通的線性回歸模型:
基于OLS得到參數(shù)的估計公式:
如果同一上下樓集合中收集了3 層商品房的樣本數(shù)據(jù)fli1、fli2、fli3,則在這3 個樣本中模型(1)有3 種方法選擇 匹 配 對:(fli1,fli2) 和(fli2,fli3) 、(fli1,fli2) 和(fli1,fli3) 、(fli1,fli3)和(fli2,fli3)。雖然從模型(1)和實際背景來看,3種選擇方法都可以,但從參數(shù)估計的角度來看,計算的結果不一樣。
假設式(1)為以一定方式選擇匹配對對應的回歸方程,則以另外方式選擇匹配對對應的回歸方程為:
如果仍假定Pε是獨立同分布的,那么利用OLS 計算的式(2)來估計式(3)中的參數(shù)β,結果為[(PX)T(PX)]-1(PX)TPy=(XTPTPX)-1XTPTPy。由于PTP=I不成立,因此回歸方程(1)與回歸方程(3)估計的參數(shù)不再相等。
以上論證說明,基于匹配模型,當屬于同一個上下樓集合的樣本組成匹配對的方式不同時,用OLS所估計出的房價指數(shù)是不同的。房價指數(shù)的所有重復交易模型中都存在類似的問題[3]。
我國新建普通住宅同一上下樓集合中的房產(chǎn)面積、朝向和房間結構都基本相同,具有較高的同質(zhì)性。房產(chǎn)價格不同主要是所在樓層不同或者銷售時間不同造成的,因此,在建立房價指數(shù)編制模型時可將同一上下樓集合中的所有交易房產(chǎn)當作一個整體來研究。由于并不是所有上下樓集合中的房產(chǎn)在每個月均會產(chǎn)生交易,故用來編制房價指數(shù)的房產(chǎn)交易數(shù)據(jù)在時間上是非平衡的。而且在某個上下樓集合中,某個月份可能有兩套及以上的房產(chǎn)被銷售,這時被觀測的樣本在時間上是重復的。綜上,將上下樓集合作為整體來研究的房產(chǎn)交易數(shù)據(jù)集構成縱向非平衡面板數(shù)據(jù)集。
為了統(tǒng)一處理不同高度的樓棟,使用房產(chǎn)的標準高度來反映房產(chǎn)的樓層特征。對于不同的樓棟類型,房價隨高度變化的趨勢也不相同,故在模型中加入樓棟類型與房屋標準高度的交互項。表1為變量說明。
表1 變量說明
建立新建普通住宅房價指數(shù)的縱向非平衡面板數(shù)據(jù)模型:
其中,βti,j表示時間ti,j的固定效應,也是房價指數(shù)的對數(shù),記β0為基期房價指數(shù)的對數(shù),取β0=0;α1和α2分別為標準高度和標準高度平方的固定效應;γ1和γ2分別為樓棟類型與標準高度和標準高度平方的交互效應;μi表示第i個上下樓集合的效應;vi,j表示剩余的隨機擾動項,vi,j~N(0,σv2);N表示上下樓集合的總數(shù);ni表示第i個上下樓集合中交易的房產(chǎn)總個數(shù),ni≥2。
當μi都是確定性參數(shù)時,稱式(4)為縱向非平衡面板固定效應模型;當μi都是隨機變量時,稱式(4)為縱向非平衡面板隨機效應模型。
縱向非平衡面板模型(4)的數(shù)據(jù)要求i=1,…,N,ni>1,意味著每個上下樓集合至少有兩套商品房銷售。
文獻[7]設定價格指數(shù)為較一般的半線性模型:
若令f(Li,Oi)=μi,則μi是第i個上下樓集合對應的固定效應。所以模型(5)實際上是一個非平衡面板固定效應模型,但是文獻[7]采取了基于上下樓集合將兩個不同樓層的房產(chǎn)生成匹配對的方法來求解模型參數(shù),存在匹配對選擇不同計算出來的房價指數(shù)不同的問題。
將縱向非平衡面板模型(4)寫成矩陣形式,記為:
式(7)的計算用到了QZμ=O,Qen=0。由Frish-Waugh-Lovell定理知式(6)關于β的最小二乘估計β?與式(7)關于β的最小二乘估計β?一樣:
式(8)亦可看成由式(7)利用廣義逆矩陣使用廣義最小二乘法得到的計算公式。利用式(8)亦可設計出求固定效應μi的方法[10]。
若將式(6)中的μi看作固定效應,每一個上下樓集合對應一個μi,那么μi代表了該上下樓集合對房價帶來的效應,在參數(shù)估計時自由度損失較大。如果將個體效應μi設定為隨機的,即μi~N(0,σ2μ),這時稱式(6)為房價指數(shù)的縱向非平衡面板數(shù)據(jù)隨機效應模型。
對于縱向非平衡面板數(shù)據(jù)隨機效應模型,將其作為一個混合效應模型[10]來求解比用面板數(shù)據(jù)理論中的有關算法來求解更適合本文的情況,便于以統(tǒng)一的框架論述房價指數(shù)編制問題,以及擴展該模型。
在實際編制房價指數(shù)時,到底是選擇縱向非平衡面板數(shù)據(jù)的固定效應模型還是隨機效應模型,是一個較為理論化且復雜的問題。在統(tǒng)計學上選擇面板數(shù)據(jù)的固定效應模型與隨機效應模型時,往往使用Hausman 檢驗,根據(jù)統(tǒng)計量的P 值進行顯著性判斷。在選擇房價指數(shù)編制模型時,除了上述一般性的方法外,還可以利用房價指數(shù)的經(jīng)濟學意義和回測誤差來進行選擇。
2.4.1 指數(shù)經(jīng)濟學意義的房價指數(shù)評價方法
一般而言,價格指數(shù)由樣本數(shù)據(jù)經(jīng)統(tǒng)計回歸模型計算而得,樣本數(shù)據(jù)的噪聲不可避免地會出現(xiàn)在指數(shù)中。Guo等(2014)[3]針對兩個或多個指數(shù)編制方法的比較問題,提出了兩個數(shù)量指標:指數(shù)回報的標準差和1 階自相關系數(shù)。這兩個數(shù)量指標直接反映了指數(shù)回報的精確度。在其他情形相同的條件下,標準差越小、1 階自相關系數(shù)越大,則指數(shù)就越準確,或者說指數(shù)中含有的噪聲越小。Cocconcelli 和Medda 在分析宏觀經(jīng)濟變量及房地產(chǎn)的價格序列時,提出用HP濾波設計數(shù)量指標來評價指數(shù)的光滑性。
式(10)第一部分是對波動部分的度量,第二部分是對趨勢成分平滑程度的度量。λ(λ≥0)是平滑參數(shù),用于調(diào)節(jié)兩者的比例。分別對g1,g2,…,gn求導,并令導數(shù)等于0,容易解得趨勢部分:
對于不同的房價指數(shù)模型所估計的指數(shù)序列,對應的dev的值越小,則指數(shù)質(zhì)量越好。
2.4.2 均方根誤差和平均絕對誤差的評價方法
既然房價指數(shù)反映的是商品房價格的市場走勢,那么用已經(jīng)估計出來的房價指數(shù)去預測樣本的房價,其預測房價與真實房價的差的大小可用來設計評價房價指數(shù)編制模型的優(yōu)劣。
均方根誤差(RMSE)如下:
平均絕對誤差(MAE)如下:
其中,n為測試集中的個數(shù),Yi和Y?i分別為商品房i的實際價格和回測價格。
對于不同的模型,為計算RMSE 和MAE,首先由原始數(shù)據(jù)產(chǎn)生上下樓集合,產(chǎn)生模型要求的樣本數(shù)據(jù),進行參數(shù)的估計;然后,用計算的參數(shù)估計值進行每個樣本的房價回測;最后,就可以按式(13)和式(14)進行計算。
對于縱向非平衡面板數(shù)據(jù)模型(4),利用樣本數(shù)據(jù)集分別用固定效應和隨機效應的計算方法估計模型(4)中房價指數(shù)參數(shù)和其他幾個參數(shù),得到各參數(shù)的估計值:β?t(t=1,2,…,T)、α?0、α?1、α?2、γ?1、γ?2、μ?i(i=1,2,…,N),其中μ?i(i=1,2,…,N)是各個上下樓集合的固定效應的估計值或者隨機效應的實際值。對于樣本集中的第i個上下樓集合中的房產(chǎn)j,可得到其價格的預測值Y?i,j:
而對于文獻[8]中的模型(5),利用同樣的樣本數(shù)據(jù)集形成匹配對,估計相關參數(shù)。對樣本集中的第i個上下樓集合中的房產(chǎn)j,找到第i個上下樓集合的另一個房產(chǎn)k的yi,k,利用其價格得到房產(chǎn)j的預測值Y?i,j:
本文從透明售房網(wǎng)(http://tz.tmsf.com/)上獲取的2015年1月至2019年12月包括浙江省臺州市開發(fā)區(qū)、黃巖區(qū)、路橋區(qū)及椒江區(qū)的99 個樓盤的數(shù)萬條網(wǎng)簽數(shù)據(jù),在剔除內(nèi)容不完整的信息后,獲得28552條有效樣本信息。按照關于上下樓集合的要求,刪除頂樓和一樓的樣本后,至少還有兩個樣本。本文共得到2661 個上下樓集合,包含26869條數(shù)據(jù)。
分別考慮模型(4)的個體為固定效應和隨機效應,進行計算和顯著性檢驗。當顯著性水平為5%時,兩種方法所有的系數(shù)都顯著。對每個月對應的估計值β?取自然底的冪,再乘以100即可得到相應月份的房價指數(shù)。為后續(xù)研究方便,將2015 年1 月作為基期,并設其房價指數(shù)為100。固定效應和隨機效應面板模型計算的臺州市2015—2019年部分月份的房價指數(shù)如下頁表2中列(1)和列(2)所示。表2 中列(3)為按照文獻[8]中模型計算的2015—2019年部分月份的房價指數(shù)。
表2 縱向非平衡面板模型的計算結果
為了更加直觀地比較三種模型計算的房價指數(shù),利用表2中的數(shù)據(jù)繪制如下頁圖2所示的房價指數(shù)折線圖。
從表2 和圖2 可以看出,縱向非平衡面板數(shù)據(jù)模型的計算結果與文獻[8]中對數(shù)匹配模型的結果總體上相近。由于所選樣本中房屋類型主要是小高層和高層,將同一上下樓集合中的房產(chǎn)進行匹配和將其看成整體進行計算沒有太大差別。對本文的樣本數(shù)據(jù)來說,縱向非平衡面板數(shù)據(jù)固定效應模型與隨機效應模型的計算結果非常接近。
用式(9)和式(12)進行評價指標的計算,得到如表3所示的結果。由于本文采用的數(shù)據(jù)是月度數(shù)據(jù),用式(10)進行計算時,取λ=14400。
表3 3種模型的評價指標的值
從表3 中3 個指標的計算結果可以看出,縱向非平衡面板數(shù)據(jù)固定效應模型的表現(xiàn)比對數(shù)參數(shù)匹配模型要好很多,比縱向非平衡面板數(shù)據(jù)隨機效應模型也要稍好一些。
同樣以2015 年1 月至2019 年12 月臺州市開發(fā)區(qū)、黃巖區(qū)、路橋區(qū)及椒江區(qū)的99 個樓盤的數(shù)萬條網(wǎng)簽數(shù)據(jù)為例,對以上3個模型進行比較分析。用式(13)和式(14)計算可得每個模型對應的RMSE和MAE,如表4所示。
表4 3種模型的誤差
從表4可以看出,總體上面板數(shù)據(jù)模型比參數(shù)匹配模型的RMSE 和MAE 要小很多,說明使用面板數(shù)據(jù)模型有一定的優(yōu)勢。對于本文實證分析采用的數(shù)據(jù)來說,縱向非平衡面板數(shù)據(jù)固定效應模型相較于隨機效應模型只有微小的改進,區(qū)別幾乎不大。在具體應用時,應針對不同城市的實際數(shù)據(jù),應用上述方法進行比較,選定相對較優(yōu)的模型,進行新建普通住宅房價指數(shù)的編制與發(fā)布。
針對現(xiàn)有的特征價格法、重復交易法及樣本匹配法在特征變量選取、樣本選擇缺乏代表性及同一上下樓集合的房產(chǎn)以不同順序組成匹配對所產(chǎn)生的理論問題與計算問題,本文在房價指數(shù)的編制過程中將上下樓集合中的所有交易房產(chǎn)看作一個整體來研究,構建了縱向非平衡面板模型。對于縱向非平衡面板數(shù)據(jù)固定效應模型,給出了消除組內(nèi)共同項的回歸方法。對于縱向非平衡面板隨機效應模型,通過將縱向非平衡數(shù)據(jù)模型化為一個混合效應模型,給出了計算房價指數(shù)的方法。此外,還設計了模型評價方法,為研究房價指數(shù)編制選定模型與計算方法提供了量化標準。隨著我國房地產(chǎn)市場的成熟和完善,可以預見二手普通住宅和新建普通住宅在房屋結構等方面的差距會逐漸縮小,由于歷史原因暫時分開的兩個住宅市場將會合并進而編制一個統(tǒng)一的房價指數(shù)。從本文的論述和計算結果可以看出,幾乎不需要做太大的改動,就可用縱向非平衡面板模型來編制二手房市場與新建房市場合并后的統(tǒng)一的房價指數(shù)。