胡夷 蔡近近 張敬鴻 袁鵬程
摘 要:收集上海市14個(gè)區(qū)的11 195條有效二手房成交數(shù)據(jù)作為樣本,首先對樣本進(jìn)行相關(guān)性檢驗(yàn)并選擇9個(gè)變量,分別用線性模型和半對數(shù)模型對樣本進(jìn)行初步分析,通過比較模型的擬合優(yōu)度等最終選取半對數(shù)模型對樣本進(jìn)行回歸分析建模,由此得到模型的常數(shù)值和各變量相關(guān)系數(shù)。根據(jù)此模型分析得到各自變量對上海市14個(gè)區(qū)的單位面積房價(jià)的影響程度,其中房源所處的行政區(qū)對單位面積房價(jià)的影響較大。此外,運(yùn)用該半對數(shù)模型可對指定特征信息的房源進(jìn)行房價(jià)預(yù)測。
關(guān)鍵詞:上海市;二手房價(jià)格;單位面積房價(jià);虛擬變量
中圖分類號:F299.23? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號:1673-291X(2022)04-0070-03
引言
據(jù)報(bào)告統(tǒng)計(jì),2020年,上海二手房市場量價(jià)走勢與新房市場基本一致。全年二手住宅成交約30.2萬套,同比增長27%,達(dá)近4年來新高。其中,2020年12月上海二手房的成交量刷新了近幾年來的新高,二手住宅月度成交套數(shù)約為3.9萬套,環(huán)比增長20.3%,同比增長96.2%。由此可見,二手房交易在上海市房地產(chǎn)市場逐漸占據(jù)重要地位。
在此前提下,對于二手房價(jià)格影響因素的研究越來越多。如戴瑗、鄭傳行通過Python對南京市二手房數(shù)據(jù)進(jìn)行了收集和分析,經(jīng)過可視化分析從中提煉出能幫助人們做出購房決策的信息[1];黃明宇、夏典收集了合肥市二手房交易數(shù)據(jù)并進(jìn)行分析,建立了多元線性回歸模型,為合肥市二手房交易提供了一個(gè)有實(shí)用價(jià)值的房價(jià)參考定價(jià)工具[2];傅行行利用ArcGIS分析了上海市二手房價(jià)格空間分布特征,探索影響二手房價(jià)格的可能因素[3]。
本文以上海市的14個(gè)區(qū)(除金山區(qū)和崇明區(qū)外)為研究對象,對其進(jìn)行數(shù)據(jù)收集和處理,并建立了多元線性回歸模型和半對數(shù)模型,通過比較得出各因素對二手房單位面積房價(jià)的影響程度,最終選擇了半對數(shù)模型進(jìn)行房價(jià)的預(yù)測。
一、數(shù)據(jù)收集和變量選擇
本文通過數(shù)據(jù)收集工具“Gooseeker”從鏈家網(wǎng)站上爬取了上海市14個(gè)區(qū)的二手房成交數(shù)據(jù),共采集了12 316條2020年上海市成交的二手房數(shù)據(jù),經(jīng)過初步相關(guān)性檢驗(yàn),剔除了房屋結(jié)構(gòu)和廚房數(shù)等無關(guān)變量,最終選取了9個(gè)變量,其中單位面積房價(jià)為因變量,其余為自變量,具體變量如表1所示。
二、變量處理和描述性分析
對采集的數(shù)據(jù)進(jìn)行預(yù)處理:一是刪除數(shù)據(jù)異常和存在無關(guān)信息的數(shù)據(jù)條;二是對于數(shù)值型缺失值,采用平均數(shù)代替;對于虛擬變量型缺失值,采用眾數(shù)代替。通過異常值篩選和缺失值填充處理后,有效數(shù)據(jù)共11 195條。
所有樣本數(shù)據(jù)中,單位面積房價(jià)最高為100 977元/平方米,對應(yīng)于黃浦區(qū)士林華苑的一套住房,此住房2室2廳,面積90.12平方米;單位面積房價(jià)最低為20 842元/平方米,對應(yīng)于奉賢區(qū)金水苑的一套住房,此住房3室1廳,面積103.4平方米。面積最大為586.15平方米,對應(yīng)為青浦區(qū)的圣安德魯斯莊園,成交總價(jià)為1 940萬元;面積最小為19.6平方米,對應(yīng)為黃埔區(qū)尊德里的住房,此住房為1室0廳。
上海市14個(gè)區(qū)的平均房價(jià)為54 358.72元/平方米。平均單位面積房價(jià)最高的行政區(qū)為黃浦區(qū),高達(dá)96 675.5元/平方米。黃浦區(qū)為上海市中心城區(qū),擁有南京東路,人民廣場和外灘等比較繁華的地段。平均單位面積房價(jià)最低的行政區(qū)為奉賢區(qū),低至23 305元/平方米。奉賢區(qū)位于上海南部,距離上海市中心較為遙遠(yuǎn),且經(jīng)濟(jì)發(fā)展較為緩慢。
部分變量樣本分布情況如表2所示,可以看出,配備電梯的二手房樣本相對較少,且低樓層和中樓層占比較高,經(jīng)查閱資料可知其主要原因是上海市大部分老舊小區(qū)樓層較低,沒有配備電梯設(shè)施。
三、模型建立
(一)創(chuàng)建虛擬變量
本文將單位面積房價(jià)作為因變量,面積,臥室數(shù)等作為自變量,其中是否有電梯,裝修情況,樓層,地區(qū)為定性變量,對于是否有電梯引入0—1虛擬變量來處理;對于裝修情況和樓層這兩個(gè)3種取值的變量,分別以毛坯和高樓層為基準(zhǔn),各引入兩個(gè)0—1虛擬變量;同樣對于行政區(qū)這一定性變量,該變量有14個(gè)取值,以奉賢區(qū)為基準(zhǔn),引入13個(gè)0—1虛擬變量進(jìn)行處理。其中,1均表示是,0均表示否。
(二)模型選擇和擬合結(jié)果比較
本文選擇多元線性回歸模型和半對數(shù)模型這兩種模型對上海市的二手房單位面積房價(jià)進(jìn)行分析建模,表現(xiàn)形式分別為:
其中,P為單位面積房價(jià),a為常數(shù)項(xiàng),bi為各影響因素的特征系數(shù),?著為誤差項(xiàng)。
將因變量和所有自變量導(dǎo)入SPSS 26.0,分別建立線性模型和半對數(shù)模型,分析結(jié)果如表3所示。
通過比較可知,線性模型和半對數(shù)模型的調(diào)整后R2分別為0.967和0.976,擬合優(yōu)度均較好,其中半對數(shù)模型更接近于1,且半對數(shù)模型的估計(jì)標(biāo)準(zhǔn)誤差為0.05871,遠(yuǎn)遠(yuǎn)小于線性模型的估計(jì)標(biāo)準(zhǔn)誤差,因此半對數(shù)模型對該二手房房價(jià)樣本解釋能力更好。
(三)模型建立和顯著性檢驗(yàn)
經(jīng)過上述分析,本文選擇半對數(shù)模型對樣本進(jìn)行回歸分析,其中因變量為單位面積房價(jià),其余為自變量,各變量回歸系數(shù)和顯著性如下頁表4所示。
模型F值為18 779.693,對應(yīng)的P值為 0.000<0.05,說明引入的22個(gè)自變量在a=0.05的顯著水平下總體上對因變量單位面積房價(jià)有顯著性影響,且每個(gè)自變量對應(yīng)的P值均小于0.05,說明每個(gè)自變量在a=0.05的顯著水平下均對因變量有顯著性影響。同時(shí)由共線性檢驗(yàn)可知,各自變量的方差膨脹因子(VIF)均遠(yuǎn)小于10,說明此半對數(shù)回歸分析模型不存在多重共線性的問題。
綜上分析可得本文建立的回歸模型如下:
LnP=11.437-0.009x1-0.002x2+0.007x3+0.008x4+0.011x5+0.006x6+0.016x7+0.005x8+0.006x9+0.326x10+0.417x11+0.801x12+0.629x13+0.694x14+0.253x15+0.566x16+0.685x17+0.757x18+0.539x19+0.207x20+0.737x21+0.931x22
由模型可知,面積和房齡與單位面積房價(jià)為負(fù)相關(guān),其余特征變量均為正相關(guān)。
(四)結(jié)論和預(yù)測
通過控制變量可以得到以下結(jié)論:一是面積每增加1平方米,單位面積房價(jià)下降約0.9%;房齡每增加1年,單位面積房價(jià)下降約0.2%。二是臥室數(shù)每增加1個(gè),單位面積房價(jià)增加約0.7%;客廳數(shù)每增加1個(gè),單位面積房價(jià)增加約0.8%。三是單位面積房價(jià)中,有電梯比無電梯增加約1.1%。四是單位面積房價(jià)精裝比毛坯增加約1.6%,單位面積房價(jià)簡裝比毛坯增加約0.6%。五是單位面積房價(jià)低樓層比高樓層增加約0.5%,單位面積房價(jià)中樓層比高樓層增加為0.6%。
由于模型擬合度較好,且變量總體和個(gè)體均通過顯著性檢驗(yàn),因此可以利用此模型來進(jìn)行預(yù)測。假設(shè)楊浦區(qū)有一套3室2廳的120平方米的精裝修房,房齡10年,樓層處于中樓層,有電梯,根據(jù)此模型預(yù)測的單位面積房價(jià)為66 237元/平方米,總價(jià)約795萬元。
結(jié)語
本文以上海市11 195條有效二手房數(shù)據(jù)為樣本,經(jīng)過相關(guān)性檢驗(yàn)確定了8個(gè)自變量,并通過對比分析選擇了半對數(shù)模型對樣本進(jìn)行回歸分析,可以得出8個(gè)特征變量對單位面積房價(jià)的影響程度,其中行政區(qū)對單位面積房價(jià)影響較大,房齡對單位面積房價(jià)影響較小,最后,根據(jù)此模型對假設(shè)房源進(jìn)行了房價(jià)預(yù)測并驗(yàn)證。由于房價(jià)影響因素較多,未來可以引入是否臨近地鐵、月收入水平等因素進(jìn)一步完善模型,使模型更加精準(zhǔn)。
參考文獻(xiàn):
[1]? 戴瑗,鄭傳行.基于Python的南京二手房數(shù)據(jù)爬取及分析[J].計(jì)算機(jī)時(shí)代,2021,(1):37-40+45.
[2]? 黃明宇,夏典.合肥市二手房價(jià)多元線性回歸預(yù)測模型[J].合作經(jīng)濟(jì)與科技,2019,(9):80-82.
[3]? 傅行行.上海市二手房價(jià)格空間分布及其影響因素研究[J].上海房地,2020,(7):11-15.