【摘 要】 住房是保障民生安定的根本條件之一。相較于新房房?jī)r(jià)的飆升與波動(dòng),二手房的價(jià)格更具規(guī)律性,對(duì)于民眾更加經(jīng)濟(jì)適用。因此,研究二手房?jī)r(jià)格的影響因素,對(duì)于社會(huì)住房經(jīng)濟(jì)鏈的形態(tài)與穩(wěn)定有重要意義。本文收集昆明二手房?jī)r(jià)格及面積、朝向、樓層、裝修、區(qū)域、建筑、產(chǎn)權(quán)、結(jié)構(gòu)、物業(yè)費(fèi)、廳室和衛(wèi)生間數(shù)等變量,對(duì)其進(jìn)行嶺回歸分析,結(jié)果表明,昆明二手房?jī)r(jià)格與房屋面積、朝向、樓層等有更加密切的關(guān)系
【關(guān)鍵詞】 二手房 嶺回歸 價(jià)格
1 引言
隨著社會(huì)和經(jīng)濟(jì)的發(fā)展,人們對(duì)住房的需求更大、要求更高。新樓盤(pán)的影響因素復(fù)雜,價(jià)格居高或持續(xù)波動(dòng),此時(shí),二手房相對(duì)來(lái)說(shuō)成為了不錯(cuò)的備用選擇。
二手房有自己獨(dú)特的優(yōu)勢(shì)。二手樓盤(pán)的小區(qū)或周邊配套多數(shù)比新房成熟,往往生活便利、交通方便;物權(quán)法頒布后,表明二手房和新房在產(chǎn)權(quán)使用年限并無(wú)較大區(qū)別,所以在使用權(quán)上無(wú)本質(zhì)差異;最重要的是,相對(duì)于新房,二手房的價(jià)格更加實(shí)惠,減輕了民眾的購(gòu)房壓力,可以有更多自主選擇的可能。因此研究二手房?jī)r(jià)格的主要影響因素有較大的現(xiàn)實(shí)意義,可以為民眾選擇,宏觀調(diào)控提供一定的依據(jù)。
2 數(shù)據(jù)來(lái)源及數(shù)據(jù)處理
本文的數(shù)據(jù)來(lái)自房源網(wǎng)站-房天下,首先使用python軟件,以網(wǎng)絡(luò)爬蟲(chóng)的方式獲取,經(jīng)過(guò)清洗整合,得到了房天下網(wǎng)站的964組2017年9月昆明二手房信息,其中包括價(jià)格(price)及面積(area)、朝向(orientations)、樓層(floor)、裝修(decoration)、區(qū)域(district)、建筑(district)、產(chǎn)權(quán)(rights)、結(jié)構(gòu)(structure)、物業(yè)費(fèi)(property costs)、廳室(bedroom)和衛(wèi)生間數(shù)(toilet)等12個(gè)變量。其中面積、物業(yè)費(fèi)是定量變量,其余朝向、樓層等10個(gè)變量是分類(lèi)型的定性變量。
將964組數(shù)據(jù)按0.5的概率劃分成訓(xùn)練集和測(cè)試集,用訓(xùn)練集來(lái)擬合嶺回歸模型,用cew來(lái)得出前者模型的預(yù)測(cè)誤差。
3 基于嶺回歸的實(shí)驗(yàn)分析
3.1嶺回歸
當(dāng)設(shè)計(jì)陣存在復(fù)共線(xiàn)關(guān)系時(shí),最小二乘回歸的性質(zhì)就會(huì)不夠理想,前人提出有偏估計(jì)嶺估計(jì),并定義為
嶺回歸,是一種專(zhuān)用于共線(xiàn)性數(shù)據(jù)分析的有偏估計(jì)回歸方法,通過(guò)放棄最小二乘法的無(wú)偏性,以損失部分信息、降低精度為代價(jià),對(duì)最小二乘法進(jìn)行改良,獲得回歸系數(shù)更為符合實(shí)際、更可靠的回歸方法。
首先,使用R軟件在上章分好的訓(xùn)練集上擬合嶺回歸,再使用10折交叉驗(yàn)證找到使預(yù)測(cè)誤差最小的最優(yōu)的參數(shù)lambda。
3.2交叉驗(yàn)證
10折交叉驗(yàn)證即將原始數(shù)據(jù)分成10組(一般均分),將每個(gè)子集數(shù)據(jù)分別做一次測(cè)試集,其余的9組子集數(shù)據(jù)作為訓(xùn)練集,這樣總共可擬合10個(gè)模型,用10個(gè)模型最終測(cè)試集的預(yù)測(cè)準(zhǔn)確率的平均數(shù)作為此10折交叉驗(yàn)證的回歸性能指標(biāo)??梢杂行У谋苊膺^(guò)學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說(shuō)服性。10折交叉驗(yàn)證得到的均方誤差,見(jiàn)下圖:
3.3 測(cè)試誤差
接下來(lái),本節(jié)使用上文通過(guò)訓(xùn)練集擬合的模型以及通過(guò)交叉驗(yàn)證得到的最優(yōu)參數(shù)在測(cè)試集上擬合變量,來(lái)得到預(yù)測(cè)誤差,誤差約為為37.77。
3.4 回歸系數(shù)
本節(jié)使用最優(yōu)lambda擬合全集以得到對(duì)昆明二手房?jī)r(jià)格有顯著影響的變量,以及這些變量的回歸系數(shù),詳見(jiàn)表1。
由上表可見(jiàn),最終得到的回歸系數(shù)顯示,面積的系數(shù)為正但很小,說(shuō)明房屋面積雖對(duì)二手房?jī)r(jià)有一定影響,但較小。朝向中東北、東南、東西、西、西北的都有較大的回歸系數(shù)且為負(fù)值,則會(huì)說(shuō)明這些朝向和昆明二手房?jī)r(jià)格呈負(fù)向相關(guān);而朝向?yàn)槟匣蚰媳辈季值南禂?shù)較大且為正數(shù),說(shuō)明朝南、南北布局對(duì)房?jī)r(jià)有正向影響。高樓層的回歸系數(shù)也較大,但為負(fù)數(shù),說(shuō)明高樓層對(duì)昆明二手房?jī)r(jià)的影響顯著并且是負(fù)方向的。
4 結(jié)論
本文通過(guò)通過(guò)嶺估計(jì)來(lái)擬合昆明二手房的價(jià)格和面積、朝向、樓層、裝修、區(qū)域、建筑、產(chǎn)權(quán)、結(jié)構(gòu)、物業(yè)費(fèi)、廳室和衛(wèi)生間數(shù)等其他因素的回歸模型,找到了對(duì)昆明二手房?jī)r(jià)格有明顯影響的因素。綜上得到的結(jié)果可以總結(jié)并作如下解釋?zhuān)?/p>
面積大小對(duì)二手房的單價(jià)影響不明顯??赡苡捎谌藗兏?xí)慣傳統(tǒng)南北朝向的房屋、偏愛(ài)朝南向陽(yáng)的居室,所以朝向?yàn)槟?、南北的二手房房?jī)r(jià)更高??赡苡捎谌藗兏?xí)慣傳統(tǒng)平樓,故樓層越高,二手房?jī)r(jià)格越低。關(guān)于其他裝修、區(qū)域、建筑、產(chǎn)權(quán)、結(jié)構(gòu)、物業(yè)費(fèi)、廳室和衛(wèi)生間數(shù)這些因素,在本研究中未發(fā)現(xiàn)對(duì)昆明二手房的價(jià)格有明顯影響。
【參考文獻(xiàn)】
[1] 王松桂. 線(xiàn)性模型引論[M]. 科學(xué)出版社, 2004.:78-186.
[2] Shao, J. (1993). Linear model selection by cross-validation. Journal of the American statistical Association 88, 486-494.
作者簡(jiǎn)介:姓名:白婧毓,性別:女,出生年月:199205,民族:漢,學(xué)歷:在讀碩士,學(xué)校:云南財(cái)經(jīng)大學(xué),學(xué)校郵編:650221,研究方向:數(shù)據(jù)挖掘。