黃明宇 夏典
[提要] 房地產價格變化一向是社會關注的熱點。本文從鏈家二手網站上爬取了近萬組合肥市截止到2018年3月的最新二手房交易數據,據此建立因變量為二手房售價,自變量分別為建筑面積、使用年限、戶型等11個變量的多元線性回歸模型,并對模型進行優(yōu)化,最終得到較優(yōu)的二手房價預測模型,為合肥二手房交易各方提供一種有實用價值的房價定價工具。
關鍵詞:合肥二手房價格;房價預測模型;逐步回歸
本文為云南師范大學研究生核心課程建設項目(項目編號:YH2018-C08);指導老師:郭民之
中圖分類號:F293.3 文獻標識碼:A
收錄日期:2019年2月25日
一、引言
住房是我國城鄉(xiāng)居民的一個基本生活需求,房屋價格一向是社會熱點話題。2016年內合肥房屋均價漲幅為48.4%,漲幅排名全球第一,受到了國內外特別關注。本文選用了涉及建筑面積、戶型、區(qū)域均價等13個影響因素共9,185組合肥市二手房相關交易數據,據此建立二手房售價預測模型,并對模型進行優(yōu)化,為合肥二手房交易各方提供了一種有實際價值房價定價工具。
二、數據預處理
本文數據主要來自鏈家二手房網(https://hf.lianjia.com),全部為介于2017年3月至2018年3月合肥二手房交易相關數據,首先對原始數據進行拆分、歸類和缺失值處理,共得到9,185組有效數據,每組數據中Price(房價)為因變量,其余13個變量為自變量,分別為:Avep(區(qū)域均價)、Deco(裝修程度)、Towards(房屋朝向)、HT(戶型)、HA(建筑面積)、TF(該樓層高度)、KF(樓層段)、HY(使用年限)、Focus(網絡關注人數)、Visit(看房人數)、Ad(信息發(fā)布時間)、HCY(房產證是否滿五年唯一)、NTS(是否靠近地鐵站)。例如變量區(qū)域均價Avep就包括政務區(qū)、濱湖區(qū)、蜀山區(qū)、廬陽區(qū)、包河區(qū)、瑤海區(qū)六個城區(qū)的二手房均價、裝修程度分為精裝、簡裝、毛坯和其他四類;其余自變量類似處理,這里略。本文主要考慮二手房交易中常規(guī)的交易數據,故將原始數據中價格超高的數據(超過1,000萬)直接刪除。
三、多元線性回歸模型
(一)模型定義。多元線性回歸模型通常用來描述因變量y與p(p≥1)個自變量x1,x2,…,xp之間的線性相關關系,模型形式為:
y=?茁0+?茁1x1+…+?茁pxp+?著
其中,?茁0,?茁1,…,?茁p是回歸系數,?著~N(0,?滓2)是隨機誤差。
(二)建立模型。本文借助R軟件中線性回歸函數lm()給出模型回歸系數的最小二乘估計,并對回歸方程和回歸系數進行顯著性檢驗,程序輸出結果見表1,從中看出檢驗統計量F所對應的p值為2.2×10-16,說明回歸方程是非常顯著的,但是對諸回歸系數的t檢驗所對應的p值顯示自變量Towards、KF不顯著,其余自變量和常數項顯著;判定系數R2等于0.8349,擬合程度較高。(表1)
下面,用R軟件中的逐步回歸函數step()對上面建立的線性回歸方程進行變量篩選和優(yōu)化,程序輸出結果見表2所示。(表2)
結果顯示采用全部自變量作回歸(即
現用R軟件中函數summary()函數觀察Price關于Avep、Deco、HT(不包括Towards、KF變量)等11個變量的回歸模型的信息,并同樣做逐步回歸,結果如表3所示。(表3)
從表3中,看出檢驗統計量F所對應的p值幾乎為零,說明回歸方程是非常顯著的,對諸回歸系數的t檢驗所對應的p值顯示全部11個自變量和常數項均顯著;判定系數R2等于0.8349,模型擬合效果較好。
綜上所述,我們得到了較優(yōu)模型:
Price=-168+0.009849×Avep+2.99Deco+1.49×HT+1.754×HA+0.2396×TF-0.6414×HY-0.3608×Focus+0.3472×Visit-0.4947×Ad-2.587×HCY+2.01×NTS
從模型中可以看出,因變量Price與Avep、Deco、HT、HA、TF、Visit、NTS等7個自變量成正相關關系(區(qū)域均價上漲、或裝修程度越高、或住房面積越大、或戶型越好等必然會導致房價越高),因變量Price與Focus、Ad、HY、HCY等4個自變量成負相關關系(網絡關注度高(但無人買),或發(fā)售日期長,或使用年限長,或待售房產“滿五唯一”,會導致房價下降)??梢姡疚乃玫降姆績r預測模型與二手房交易的實際意義是相符合的。
四、模型的交叉驗證及實際預測示例
用十折交叉驗證法對模型預測結果做交叉驗證,其平均標準化均方誤差(NMSE)為0.1659765,遠小于1,模型交叉驗證效果較好。
再隨機抽取鏈家二手網上已經成交的10套房的房價與模型預測的房價作對比如表4所示。(表4)
預測模型使用說明:合肥某人有一房產,一個月前在鏈家二手交易市場中發(fā)布房屋出售信息,信息如下:房屋地處政務區(qū),3室2廳,建筑面積為120平方米,簡裝房,共2層,房屋使用2年,網絡關注有2人,0人參觀,房產證沒有滿五年,靠近地鐵站。將上述信息量化后帶入到模型中,計算出的房價為255.49萬元。于是買賣雙方可在255.49萬元這個參考價格進行議價,最終完成交易過程。
五、總結與評價
本文中最終得出了擬合度較高的房價預測模型,為合肥市二手房交易提供了一個有實用價值的房價參考定價工具,買賣雙方或中介公司只要將模型中所需的變量值帶入,就可得出相對應的二手房價,在這個參考房價上雙方可以商議具體房屋交易價格。
當然,模型也存在著一些問題。根據經驗,建立模型時去除的自變量Towards(房屋朝向)和KF(樓層處于哪段),在二手房交易中往往也是不能忽略的因素。另外,由于數據是從網絡收集到的,有的重要數據資料難于收集,比如是否為學區(qū)房、房屋建筑的安全系數等。所以,模型還可以結合實際數據作進一步的優(yōu)化。
主要參考文獻:
[1]中商情報網.http://www.askci.com/news/dxf/20170119/
16085988495.shtml,2017.1.19.
[2]合肥鏈家網.https://hf.lianjia.com/.
[3]南方財富網.http://www.southmoney.com/paihangbang/201712/1834628.html,2017.12.
[4]費宇.郭民之.陳貽娟.多元統計分析——基于R[M].北京.中國人民大學出版社,2014.
[5]郭會利.多元回歸分析的逐步回歸預測模型[J].考試周刊,2009(26).