呂 昊
(天津市南開城市建設(shè)投資有限公司 天津300110)
隨著經(jīng)濟(jì)的持續(xù)發(fā)展,房地產(chǎn)行業(yè)已經(jīng)成為支柱產(chǎn)業(yè),房屋價(jià)格不僅直接影響著居民的生活水平,也間接影響著國(guó)家經(jīng)濟(jì)的持續(xù)、健康、平穩(wěn)發(fā)展,房屋價(jià)格已經(jīng)成為關(guān)系民生的熱點(diǎn)問(wèn)題[1]。
房屋價(jià)格受到很多因素的制約和影響,在當(dāng)前房屋價(jià)格預(yù)測(cè)模型中,主要提取的因素集中在綜合國(guó)民經(jīng)濟(jì)發(fā)展水平、消費(fèi)水平、人均生產(chǎn)總值、人均居住面積、人均可支配性收入等方面[1],所選取的指標(biāo)涵蓋了從人均水平到整體經(jīng)濟(jì)水平的描述,但是所選指標(biāo)依然不夠,對(duì)房屋的位置、屬性、格局等自身屬性考慮不足。因此,在房屋價(jià)格預(yù)測(cè)模型中,選取的特征因素應(yīng)當(dāng)具有全面性、多樣性[2]。
近年來(lái),國(guó)內(nèi)外學(xué)者已經(jīng)應(yīng)用多種學(xué)習(xí)模型對(duì)房屋銷售價(jià)格進(jìn)行預(yù)測(cè)。申瑞娜等[3]收集了影響房?jī)r(jià)的8個(gè)因素,結(jié)合主成分分析和支持向量機(jī)對(duì)房屋價(jià)格進(jìn)行預(yù)測(cè);周學(xué)君等[4]采用了影響房?jī)r(jià)的6個(gè)主要因素輸入到人工神經(jīng)網(wǎng)絡(luò)中進(jìn)行房?jī)r(jià)預(yù)測(cè);劉瓊芳[5]建立灰度 GM(1,1)預(yù)測(cè)模型,預(yù)測(cè)福州市的房?jī)r(jià)走勢(shì),具有較高的精確度;王瑾等[6]通過(guò)多元逐步回歸方法建立房?jī)r(jià)預(yù)測(cè)模型對(duì)北京市房屋價(jià)格進(jìn)行統(tǒng)計(jì)分析;陳世鵬等[7]根據(jù)襄陽(yáng)房貸數(shù)據(jù)建立隨機(jī)森林模型對(duì)測(cè)試樣本進(jìn)行房?jī)r(jià)預(yù)測(cè),取得了較好的效果;韋光蘭等[8]以馬爾可夫鏈為預(yù)測(cè)模型,采用數(shù)理統(tǒng)計(jì)的計(jì)算方法,預(yù)測(cè)了昆明近期房?jī)r(jià)走勢(shì),分析房?jī)r(jià)的動(dòng)態(tài)變化過(guò)程。從以上研究成果來(lái)看,在進(jìn)行房屋價(jià)格預(yù)測(cè)時(shí),由于所選取的特征維數(shù)有限,并不能全面反映影響房屋價(jià)格的制約因素,并且所選用的預(yù)測(cè)模型較為簡(jiǎn)單,能夠分析處理的特征維數(shù)較少,并不能全面挖掘特征因素與房?jī)r(jià)之間的影響關(guān)系。
以受限玻爾茲曼機(jī)為基礎(chǔ)構(gòu)造的深度置信網(wǎng)是深度學(xué)習(xí)的典型算法之一,通過(guò)多層特征的學(xué)習(xí)與訓(xùn)練,能夠有效挖掘輸入特征的關(guān)鍵信息,在一定程度上,克服了人工神經(jīng)網(wǎng)絡(luò)容易局部最優(yōu)和訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題,已經(jīng)在信號(hào)處理、圖像分析等領(lǐng)域取得了較為成功的應(yīng)用。本文以深度置信網(wǎng)模型為基礎(chǔ),以Kaggle平臺(tái)的房屋價(jià)格作為數(shù)據(jù)庫(kù),建立影響房屋價(jià)格的多維因素與房屋價(jià)格之間的深度學(xué)習(xí)預(yù)測(cè)模型。
深度置信網(wǎng)(Deep Belief Network,DBN)的基本構(gòu)成元件是受限玻爾茲曼機(jī)(Restricted Boltzmann Machines,RBM) 。上一層的 RBM 的特征訓(xùn)練輸出作為下一層 RBM 的特征訓(xùn)練輸入,依此進(jìn)行多層RBM 的疊加訓(xùn)練 DBN結(jié)構(gòu),能夠更加深入全面地進(jìn)行特征分析,避免人工神經(jīng)網(wǎng)絡(luò)容易局部最優(yōu)的缺點(diǎn),是深度學(xué)習(xí)的典型結(jié)構(gòu)之一[9-10]。
圖 1顯示了 DBN的網(wǎng)絡(luò)結(jié)構(gòu)模型??梢钥闯?,其中主要包括特征輸入層、隱藏層和特征輸出層。將收集的影響房屋價(jià)格的特征因素經(jīng)過(guò)預(yù)處理之后輸入到特征輸入層;隱藏層是由多個(gè) RBM 疊加形成的深度特征處理結(jié)構(gòu),每一個(gè)隱藏層的特征計(jì)算作為下一個(gè)隱藏層的輸入迭代計(jì)算;最后的特征輸出層是一層人工神經(jīng)網(wǎng)絡(luò),將特征計(jì)算結(jié)果映射到房屋價(jià)格,完成房屋價(jià)格的預(yù)測(cè)。
圖1 深度置信網(wǎng)絡(luò)結(jié)構(gòu)模型Fig.1 Structure of deep belief network
基于深度置信網(wǎng)的房屋價(jià)格預(yù)測(cè)模型在訓(xùn)練過(guò)程中,首先無(wú)監(jiān)督地訓(xùn)練其中的每一層 RBM,將影響房屋價(jià)格的特征因素經(jīng)過(guò)預(yù)處理之后作為特征輸入映射到不同的特征空間中進(jìn)行訓(xùn)練;然后將經(jīng)過(guò)多層 RBM 訓(xùn)練之后得到的輸出特征作為輸入因素,輸入到最后一層的人工神經(jīng)網(wǎng)絡(luò),并在其中進(jìn)行監(jiān)督預(yù)測(cè),得到房屋價(jià)格的預(yù)測(cè)結(jié)果,計(jì)算預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的差異并反向傳播,不斷調(diào)整 DBN網(wǎng)絡(luò),直至差異在允許范圍之內(nèi)或連續(xù)訓(xùn)練達(dá)到一定次數(shù)時(shí),完成訓(xùn)練過(guò)程,輸出最終的房屋價(jià)格預(yù)測(cè)結(jié)果[11-12]。
在本文中得到的房屋價(jià)格為預(yù)測(cè)的連續(xù)值,因此采用平均誤差(RMSE)和決定系數(shù)(R-squared)對(duì)房屋價(jià)格預(yù)測(cè)模型的準(zhǔn)確度和可靠性進(jìn)行評(píng)價(jià)[13-14]。平均誤差能夠衡量預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的偏差,平均誤差越小表示預(yù)測(cè)結(jié)果與真實(shí)結(jié)果越接近,反之則差異越大;決定系數(shù)能夠評(píng)價(jià)房屋價(jià)格預(yù)測(cè)模型的擬合優(yōu)度值,決定系數(shù)越接近 1,代表預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的擬合程度越好。通過(guò) RMSE和R-squared兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)能夠衡量房屋價(jià)格預(yù)測(cè)模型的優(yōu)劣。兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn)的公式定義分別為:
式中:ypred代表本文模型得到的房屋預(yù)測(cè)價(jià)格;yact為該房屋的真實(shí)價(jià)格;n為樣本的個(gè)數(shù);為yact的平均值。
Kaggle建立于 2010年,是一個(gè)進(jìn)行數(shù)據(jù)挖掘與預(yù)測(cè)競(jìng)賽的在線平臺(tái)。本文所使用的數(shù)據(jù)庫(kù)是其中的House Prices:Advanced Regression Techniques(https:// www.kaggle.com/c/house-prices-advanced-regression-techniques)。
Kaggle House Prices中列出了愛荷華州埃姆斯(Ames)房屋市場(chǎng)已經(jīng)成交的1461座房屋的79個(gè)特征(其中包括 41個(gè)分類變量,38個(gè)連續(xù)數(shù)值變量) ,主要涉及地段、面積、層數(shù)、地下室、與街道之間的距離、房屋的外墻材料等項(xiàng)數(shù)據(jù),根據(jù)這些數(shù)據(jù)特征來(lái)預(yù)測(cè)房屋的銷售價(jià)格。
對(duì) Kaggle中的房屋價(jià)格數(shù)據(jù)進(jìn)行預(yù)處理操作,刪除其中某一特征缺失較多的選項(xiàng),同時(shí)刪除個(gè)別離散較大的特征,最終得到用于房屋價(jià)格預(yù)測(cè)模型輸入的較重要特征。
本文所使用的數(shù)據(jù)庫(kù)中共包含 1461套已經(jīng)成交的房?jī)r(jià)特征與其出售價(jià)格。按照訓(xùn)練集∶測(cè)試集=3∶1的比例分割數(shù)據(jù)庫(kù),得到隨機(jī)的訓(xùn)練集樣本數(shù)為1096個(gè),測(cè)試集樣本數(shù)為365個(gè),采取10折交叉驗(yàn)證的方式進(jìn)行模型的訓(xùn)練,得到最終的房屋價(jià)格預(yù)測(cè)結(jié)果。
本文所使用的DBN模型中包含3個(gè)隱藏層,隱藏層中的節(jié)點(diǎn)數(shù)分別為 300、150、100,學(xué)習(xí)率為0.01,動(dòng)量為 0.4。
偏最小二乘回歸(PLSR) 、支持向量機(jī)(PCA+SVM) 、神經(jīng)網(wǎng)絡(luò)(PCA+ANN)是機(jī)器學(xué)習(xí)領(lǐng)域中經(jīng)典和常用的預(yù)測(cè)模型,本文使用這3種模型作為對(duì)比實(shí)驗(yàn),以R-square和RMSE作為評(píng)價(jià)指標(biāo),驗(yàn)證基于深度置信網(wǎng)的房屋價(jià)格預(yù)測(cè)模型的準(zhǔn)確性。
表 1中列出了本文方法與 3種對(duì)比實(shí)驗(yàn)方法的預(yù)測(cè)結(jié)果,從中可以看出,本文方法的 R-square達(dá)到了0.6872,高于3種對(duì)比模型,說(shuō)明本文方法預(yù)測(cè)的結(jié)果與真實(shí)結(jié)果的擬合程度最好。同理,本文方法的RMSE達(dá)到了 23511,小于 3種對(duì)比方法,說(shuō)明本文方法預(yù)測(cè)得到的結(jié)果與真實(shí)結(jié)果之間的偏差最小。綜上所述,本文基于深度置信網(wǎng)模型進(jìn)行房屋價(jià)格預(yù)測(cè)的結(jié)果要優(yōu)于3種常用的預(yù)測(cè)模型。
房屋價(jià)格受到多種因素的影響,是社會(huì)關(guān)注的熱點(diǎn)問(wèn)題之一,對(duì)房屋價(jià)格進(jìn)行預(yù)測(cè),能夠有效輔助房地產(chǎn)業(yè)研究。本文使用基于深度置信網(wǎng)的預(yù)測(cè)模型,在 Kaggle房屋價(jià)格數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明,該方法的預(yù)測(cè)結(jié)果要優(yōu)于對(duì)比實(shí)驗(yàn)中3種經(jīng)典預(yù)測(cè)模型的預(yù)測(cè)結(jié)果,能夠更有效地進(jìn)行房屋價(jià)格的預(yù)測(cè)。