丁家益,周躍進(jìn)
(安徽理工大學(xué)數(shù)學(xué)與大數(shù)據(jù)學(xué)院,安徽 淮南 232001)
房地產(chǎn)是國民經(jīng)濟(jì)的重要組成部分,合理的房屋價(jià)格對(duì)經(jīng)濟(jì)能夠起到推動(dòng)作用。而房價(jià)的不合理上漲嚴(yán)重抑制了經(jīng)濟(jì)發(fā)展,減少了資金流向?qū)嶓w經(jīng)濟(jì),對(duì)發(fā)展循環(huán)經(jīng)濟(jì)是不利的。房屋的價(jià)格不僅對(duì)普通購房者很重要,而且對(duì)保險(xiǎn)公司、房地產(chǎn)開發(fā)商、稅務(wù)評(píng)估師、銀行、抵押貸款機(jī)構(gòu)和政策制定者也很重要[1]。因此,準(zhǔn)確地對(duì)房屋進(jìn)行定價(jià)是一項(xiàng)重要而艱巨的任務(wù)。一般來說,房屋只有不到8%的價(jià)格水平變化受到國家宏觀經(jīng)濟(jì)的影響,而更多部分需要用房屋自身屬性因素來解釋[2]。房屋的自身屬性如房屋總面積、是否鄰近地鐵、房屋建筑年份、房屋所處樓層等直接影響房屋價(jià)格。
近年來,隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法已發(fā)展成為房地產(chǎn)大規(guī)模評(píng)估技術(shù)??导瘟醄3]利用隨機(jī)森林模型對(duì)二手房價(jià)格進(jìn)行了有效的預(yù)測和研究。湯新程等[4]使用BP神經(jīng)網(wǎng)絡(luò)對(duì)房屋價(jià)格進(jìn)行了預(yù)測和研究。運(yùn)用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測可以提高預(yù)測結(jié)果的準(zhǔn)確性,但不具備可解釋性[5]。
為了提高房屋定價(jià)的準(zhǔn)確性,探究影響房屋價(jià)格的具體房屋屬性,本文分別運(yùn)用隨機(jī)森林模型、神經(jīng)網(wǎng)絡(luò)模型與享樂價(jià)格模型對(duì)合肥市二手房實(shí)際交易數(shù)據(jù)進(jìn)行分析,比較了三種模型的性能。
決策樹學(xué)習(xí)的思想主要來源于Quinlan提出的ID3算法和C4.5算法[6]以及Breiman等人提出的CART算法。本文主要使用C4.5算法進(jìn)行建模預(yù)測,其核心是以決策樹為基礎(chǔ),在決策樹的各個(gè)節(jié)點(diǎn)上利用信息增益比實(shí)現(xiàn)特征選擇,遞歸式地構(gòu)建決策樹。
先計(jì)算出數(shù)據(jù)集D的經(jīng)驗(yàn)熵:
(1)
其中,D為訓(xùn)練集,|D|是樣本容量,Ck是特征的類別,|Ck|是對(duì)應(yīng)特征的個(gè)數(shù)。經(jīng)驗(yàn)熵反映了數(shù)據(jù)集D的內(nèi)部混亂程度,根節(jié)點(diǎn)的經(jīng)驗(yàn)熵最大,葉節(jié)點(diǎn)的經(jīng)驗(yàn)熵為0。
計(jì)算特征A對(duì)數(shù)據(jù)集D的經(jīng)驗(yàn)條件熵:
(2)
其中,Di是D的子集,|Di|是數(shù)據(jù)集Di的樣本個(gè)數(shù),Dik是子集Di中屬于特征類別Ck的樣本的集合。
再計(jì)算特征A對(duì)數(shù)據(jù)集D的信息增益比:
(3)
最后,通過比較各特征的信息增益比,選擇信息增益比最大的特征作為最優(yōu)特征。
隨機(jī)森林是一種經(jīng)典的集成學(xué)習(xí)算法模型[7]。集成學(xué)習(xí)算法是使用一系列的弱學(xué)習(xí)器(基礎(chǔ)模型)進(jìn)行學(xué)習(xí),并將各弱學(xué)習(xí)器的結(jié)果進(jìn)行整合,從而獲得比單個(gè)學(xué)習(xí)器更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)算法[8]。隨機(jī)森林模型的弱學(xué)習(xí)器是決策樹模型,通過在原始數(shù)據(jù)集中隨機(jī)抽樣,生成n個(gè)不同的樣本數(shù)據(jù)集,構(gòu)造n個(gè)不同的決策樹模型,最后根據(jù)這些決策樹模型得到的結(jié)果求平均值或投票來獲取最終結(jié)果[9]。圖1展示了隨機(jī)森林模型的具體構(gòu)造過程。
圖1 隨機(jī)森林模型
通常,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用于大型數(shù)據(jù)集,以識(shí)別難以通過回歸模型檢測到的隱性情況。本研究的房屋數(shù)據(jù)來源于鏈家網(wǎng)站,通過對(duì)數(shù)據(jù)的清洗,去除了不清晰、離群、缺失的數(shù)據(jù)。共刪除286個(gè)數(shù)據(jù),其中包括165個(gè)房齡過老的離群數(shù)據(jù)、55個(gè)房屋特征屬性缺失的數(shù)據(jù)和66處房產(chǎn)被法院強(qiáng)制執(zhí)行的法拍房數(shù)據(jù)。在數(shù)據(jù)清洗之后,本研究共使用了1 714個(gè)觀察數(shù)據(jù)。
為了評(píng)估模型對(duì)房屋定價(jià)的準(zhǔn)確性和可靠性,將樣本數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。在本研究中,隨機(jī)選取75%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,其余25%的數(shù)據(jù)作為測試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集用于習(xí)得一個(gè)模型,測試數(shù)據(jù)集用于測試模型的準(zhǔn)確性和可靠性。為了處理這些數(shù)據(jù),探索分析房價(jià)的具體分布情況,繪制房屋售價(jià)分布圖(圖2),使用高斯曲線進(jìn)行擬合。由圖2可以看出,房屋售價(jià)主要分布在100萬至200萬之間。
圖2 房屋售價(jià)和售價(jià)頻數(shù)相關(guān)圖
房屋數(shù)值變量的數(shù)據(jù)匯總統(tǒng)計(jì)如表1所示。除常見的統(tǒng)計(jì)量外,表1還給出了頻率分布離散程度的標(biāo)準(zhǔn)化度量--變異系數(shù)。從表1可以看出,不同房屋之間的售價(jià)差別較大,房屋建筑年份的數(shù)據(jù)離散程度最小。
表1 數(shù)值變量的統(tǒng)計(jì)數(shù)據(jù)
房屋描述變量的數(shù)據(jù)匯總統(tǒng)計(jì)如表2所示,給出了描述變量的頻率和百分比。由表2可以看出,大部分房主都急于出售房屋,其中大部分房屋朝向?yàn)闁|,為精裝修,需繳納契稅,無須繳納營業(yè)稅,不鄰近地鐵。
表2 描述變量的統(tǒng)計(jì)數(shù)據(jù)
在表1和表2中,S表示房屋的總面積(包括公攤面積);R表示房屋的房間數(shù);L表示衛(wèi)生間個(gè)數(shù);F表示房屋所處樓層;Y表示房屋建筑年份;N表示關(guān)注房屋的人數(shù);T表示房屋在鏈家網(wǎng)的掛牌天數(shù);U表示房主是否急于售賣房屋;O表示房屋朝向;T2表示契稅;T5表示營業(yè)稅;M表示是否鄰近地鐵;D表示房屋裝修情況;P表示房屋售賣價(jià)格。
數(shù)值變量的相關(guān)系數(shù)矩陣如圖3所示。取顯著性水平為0.05,由圖3可見,房屋售價(jià)與一些房屋屬性之間有很強(qiáng)的相關(guān)性,如房屋的售價(jià)與房屋的面積、房間數(shù)呈顯著正相關(guān),而與房屋在鏈家網(wǎng)上掛價(jià)天數(shù)呈小幅度負(fù)相關(guān)。
圖3 相關(guān)系數(shù)矩陣圖
在機(jī)器學(xué)習(xí)中,描述變量數(shù)據(jù)通常不是連續(xù)型數(shù)據(jù),而是標(biāo)稱型數(shù)據(jù)。本文中的描述變量如房屋的朝向O的東、南、西、北屬性并不能直接使用[0,1,2,3]等數(shù)據(jù)來表示,可以采用獨(dú)熱編碼方式進(jìn)行編碼。獨(dú)熱編碼是利用0和1來表示參數(shù),使用N位狀態(tài)寄存器來對(duì)N種狀態(tài)進(jìn)行編碼。例如“東”對(duì)應(yīng)的是[1,0,0,0],“西”對(duì)應(yīng)的是[0,1,0,0],由此處理非連續(xù)特征屬性。
為了評(píng)估這些模型的性能,本文采用平均絕對(duì)百分比誤差M和決定系數(shù)指標(biāo)R2來評(píng)估機(jī)器學(xué)習(xí)模型和傳統(tǒng)定價(jià)模型在房屋定價(jià)研究中的性能表現(xiàn)。
(4)
(5)
平均絕對(duì)百分比誤差越小,決定系數(shù)越大,則定價(jià)精準(zhǔn)度越高,定價(jià)模型的預(yù)測效果就越好。
本文實(shí)驗(yàn)在Python語言環(huán)境下Scikit-learn的機(jī)器學(xué)習(xí)框架上進(jìn)行,分別編寫隨機(jī)森林模型(RF)、神經(jīng)網(wǎng)絡(luò)模型(NN)、享樂價(jià)格模型(HP)的相關(guān)程序代碼,并將其定價(jià)結(jié)果與實(shí)際售賣價(jià)格進(jìn)行對(duì)比,如圖4所示,這些模型性能評(píng)估指標(biāo)的計(jì)算結(jié)果如表3所示。
(a)RF模型
(b)NN模型
(c)HP模型圖4 RF、NN、HP模型定價(jià)結(jié)果和真實(shí)價(jià)格的比較情況
表3 RF、NN、HP模型的性能比較
由表3可知,機(jī)器學(xué)習(xí)模型的預(yù)測精度高于傳統(tǒng)享樂價(jià)格模型,其中RF模型的預(yù)測精度最高、R2最大、M最小。此外,由圖4看出,機(jī)器學(xué)習(xí)模型的擬合優(yōu)度也好于傳統(tǒng)享樂價(jià)格模型,其中RF模型的表現(xiàn)最優(yōu)。
選擇擬合程度最好的RF模型來探究影響房價(jià)的主要房屋屬性,對(duì)比訓(xùn)練后的RF模型中各種房屋屬性重要度,如圖5所示。
圖5 房屋屬性重要度的對(duì)比
由圖5可知,影響房屋價(jià)格P的13個(gè)房屋屬性變量中重要度的前四位變量為房屋總面積、房屋建筑年份、房屋所處樓層、關(guān)注房屋的人數(shù)。房屋屬性變量中重要度的前四位變量對(duì)房屋價(jià)格的邊際效應(yīng)如圖6所示。由圖6可以看出,居住面積對(duì)房屋價(jià)格有正的邊際效應(yīng),隨著居住面積的增加,房屋價(jià)格以不同速度上漲。高房價(jià)住宅的建筑年份往往集中于2010-2020年間。房屋價(jià)格先是隨著樓層的增加而增加,而后逐漸遞減。房屋的關(guān)注人數(shù)對(duì)房屋價(jià)格也有著正的邊際效應(yīng),隨著房屋關(guān)注人數(shù)的增加,房屋價(jià)格以非恒定速率上升。
(a)房屋總面積 (b)房屋建筑年份
(c)房屋所處樓層 (d)關(guān)注房屋的人數(shù)圖6 房屋屬性對(duì)房屋價(jià)格的邊際效應(yīng)
本研究比較了隨機(jī)森林模型、神經(jīng)網(wǎng)絡(luò)模型、享樂價(jià)格模型的房屋定價(jià)效果。數(shù)值結(jié)果表明,與傳統(tǒng)的享樂價(jià)格模型相比,機(jī)器學(xué)習(xí)模型的預(yù)測精度高,其中隨機(jī)森林模型的定價(jià)效果最好。經(jīng)研究得出二手房售價(jià)與房屋屬性變量之間存在非線性關(guān)系,并對(duì)當(dāng)?shù)囟址渴蹆r(jià)差異給出了解釋。房屋的評(píng)估和定價(jià)預(yù)測可以為房屋交易提供有用的信息,機(jī)器學(xué)習(xí)模型在房屋定價(jià)評(píng)估方面有著廣泛的應(yīng)用。