亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于RNN的房地產(chǎn)估價回歸模型

2021-06-24 07:24:44謝志偉

微型電腦應(yīng)用 2021年6期

關(guān)鍵詞：模型

謝志偉

(東莞職業(yè)技術(shù)學(xué)院計算機工程系，廣東東莞 523808)

0 引言

對大多數(shù)人來說，住房一直是最大的開支之一。買房是一個高度參與的決定。消費者對房產(chǎn)價值的判斷和對房產(chǎn)未來價值的估計，會影響他們的購買決策和預(yù)算分配[1]。此外，房地產(chǎn)價格是反映經(jīng)濟活動的重要因素之一。因此，對土地價格的準確預(yù)測，可以幫助政府或企業(yè)在未來的財政年度內(nèi)做出操縱財務(wù)狀況的關(guān)鍵決策。從這個角度看，房地產(chǎn)價格的測算過程與人們的生活和國民經(jīng)濟息息相關(guān)[2]。

自動估價模型(AVM)是在分析房地產(chǎn)的區(qū)位、周圍條件和特性的基礎(chǔ)上，對房地產(chǎn)市場價值進行評估的數(shù)學(xué)程序[3]。房地產(chǎn)行業(yè)的一些企業(yè)提供了易于訪問的AVM Web應(yīng)用程序來估計房產(chǎn)價格，主要是基于套索回歸(LASSO)和支持向量回歸(SVR)[4-5]。但這些方法沒有更多考慮房屋本身的屬性，如房間數(shù)量、房屋大小和房屋的裝修情況等。所以為了更加準確地評估房產(chǎn)價格，在此基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和房屋自身屬性，提出了一種新的房地產(chǎn)價格評估方法。同時，Boosting樹模型作為數(shù)據(jù)分析競爭中一種很有前途的機器學(xué)習(xí)方法[6-7]。因此，在本研究中，為了使結(jié)果更加準確，通過RNN網(wǎng)絡(luò)模型與Boosting樹的一種變體，XGBoost模型相結(jié)合，對房價進行預(yù)測。

1 基于LSTM和XGBoost的模型

在本節(jié)中，簡要介紹所提出模型的主要組成部分。首先，介紹RNN中的長期短期記憶(LSTM)的基本體系結(jié)構(gòu),然后介紹了XGBoost模型。

1.1 長期短期記憶

在自然語言處理(NLP)中，整個句子被定義為順序數(shù)據(jù)，每個詞都基于對先前詞的理解。當(dāng)人工神經(jīng)網(wǎng)絡(luò)執(zhí)行自然語言處理時，它需要一種結(jié)構(gòu)來根據(jù)句子的上下文來推理下一個單詞，該結(jié)構(gòu)將先前的輸出作為推論的輸入進行組合。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是用于處理順序數(shù)據(jù)的一系列神經(jīng)網(wǎng)絡(luò)[8-9]。

RNN結(jié)構(gòu)示意圖如圖1所示。

圖1 RNN結(jié)構(gòu)示意圖

圖1說明了簡單RNN的結(jié)構(gòu)。{O(1),…,O(T)}是給定輸入序列{x(1),…,x(T)}和隱藏單元的神經(jīng)網(wǎng)絡(luò)的隱藏層{h(1),…,h(T)}。來自輸入單元的單向信息流到達隱藏單元，而來自隱藏單元的另一單向信息流到達輸出單元。h(t)是基于當(dāng)前輸入層的輸出和先前隱藏層h(t-1)的狀態(tài)來計算的，估算方法如式(1)。

h(t)=f(Ux(t)+Wh(t-1))

(1)

式中,f表示非線性激活函數(shù)，如tan或ReLU，具有共享參數(shù)U，W。O(t)是步驟t的輸出，它取決于當(dāng)前神經(jīng)元的激活函數(shù)，如式(2)。

O(t)=σ(Vh(t))

(2)

式中,σ表示輸出層的激活函數(shù)。

從理論上講，RNN可以從句子開始處理上下文，這樣可以更準確地預(yù)測句子結(jié)尾的單詞。然而，序列長度越長，隱藏層就越多，這就產(chǎn)生了消失梯度問題，從而阻礙了RNN的優(yōu)化[8]。

LSTM是解決這個問題的架構(gòu)[10],每個LSTM將整個神經(jīng)網(wǎng)絡(luò)分割成多個單元{C(1),…,C(T)},如圖2所示。

圖2 LSTM的結(jié)構(gòu)

每個單元包含輸入門、遺忘門和輸出門，其能夠在正向傳播階段存儲錯誤。遺忘門將誤差從單元中刪除，以求解消失梯度。

Wf、Wc和Wo分別是輸入門、遺忘門和輸出門的對應(yīng)參數(shù)。輸入門將電流輸入和先前的輸出結(jié)合起來，在神經(jīng)元中使用激活函數(shù)σ和偏置bf。然后，tan為單元值創(chuàng)建新的候選值，并分別用偏差bi和bc與先前的更新決策值進行比較,如式(3)—式(5)。

ft=σ(Wf[h(t-1),x(t)]+bf)

(3)

(4)

ot=σ(Wc[h(t-1),x(t)]+bo)*tan(ct+ft)

(5)

1.2 XGBoost原理

XGBoost是Boost算法的一種，是基于gradientboosting框架實現(xiàn)的[11-12]。它是一個分布式梯度的優(yōu)化增強庫，由很多分類回歸樹組成。由于XGBoost可以進行多線程計算，所以它具有運算速度快、體積小的特點[13-14]。XGBoost算法核心是為了擬合前一次迭代中實際值和預(yù)測值的差，所以在每次迭代的過程中都會增加一棵樹，從而讓預(yù)測值不斷接近真實值。然后每棵樹的總得分就是該樣本的得分。XGBoost的預(yù)測值計算如式(6)。

fg∈F,r∈n

(6)

(7)

(8)

式中，P表示損失系數(shù);C表示損失因子;V表示分裂的節(jié)點數(shù)。在XGBoost中判斷節(jié)點是否進行分裂的方法是通過分裂后的左右節(jié)點的分數(shù)減去未分裂的節(jié)點分數(shù)。由于XGBoost中利用正則化因子來限制樹的增長，所以當(dāng)收益小于正則化因子時，節(jié)點分裂則停止。整個XGBoost的流程如圖3所示。

圖3 XGBoost預(yù)測流程圖

2 模型建立

一般來說，圖像包含的有價值的信息不能簡單地寫下來，例如,屬性的質(zhì)量或狀態(tài)是什么?它看起來如何？這些顏色是否很好地融合并增強了房屋的外觀和感覺？所以在此，希望有一個圖像評估模型可以給定一個圖像作為輸入，自動分配一個評分,可以模仿人類來觀察和欣賞其價值，并從不同的圖像中評估房屋屬性。

2.1 數(shù)據(jù)預(yù)處理

由于相關(guān)房屋照片的尺寸大小不一，所以在進行特征提取之前，需要對圖片數(shù)據(jù)進行預(yù)處理。首先先要將圖片尺寸統(tǒng)一，在此，LSTM網(wǎng)絡(luò)的輸入尺寸是244×244像素的圖像。同時，由于提出的LSTM網(wǎng)絡(luò)需要對房屋多個屬性進行評分，因此，在此將輸入的圖像切割成122×122像素的4個小圖像。

由4個小圖像構(gòu)成整個大的輸入圖像,如圖4所示。

圖4 LSTM輸入圖像示例

同時，由于房屋圖片存在通過調(diào)亮光線進行美化的情況，因此,為了使得整個模型對房屋的評估更加準確，所以對于美化過的房屋圖片需要進行反美化處理。為了確定圖像是否經(jīng)過光線增強處理，首先需要統(tǒng)計同一房屋其他區(qū)域的圖片及相似房源的圖片的光線強度。因此，將原RGB圖像轉(zhuǎn)為YCbCr圖像，然后計算每一幅圖像的光亮值，對參考圖像的光亮值進行平均處理，確定閾值。如果高于閾值則說明該幅圖像經(jīng)過美化處理,需要調(diào)低光亮,如圖5所示。

該圖顯示了去美化前后圖像對比。

2.2 特征的選擇和提取

盡管網(wǎng)上的房產(chǎn)圖片可以對一棟房子進行整體評價，但卻不能捕捉到一些特征，如窗戶、門、鏡子、屋角等。文獻[15]指出，從房地產(chǎn)圖像中提取視覺特征與正常屬性有顯著關(guān)系，可以提高房價估計的準確性。因此,利用RNN神經(jīng)網(wǎng)絡(luò)中的LSTM網(wǎng)絡(luò)進行圖像的特征提取和視覺特征學(xué)習(xí)。

輸入層是對應(yīng)的視頻幀特征向量，在輸入層上層是正向的LSTM層，由一系列的LSTM單元構(gòu)成。再將全部時刻的LSTM輸出進行加權(quán)平均操作后的結(jié)果作為上層的表示。最后通過softmax層，進行全連接的操作。

數(shù)據(jù)集中有太多用于建模的變量,選擇這些功能有兩個原因。一是特征集過大會使算法速度變慢;二是當(dāng)變量的個數(shù)明顯高于最優(yōu)值時，會導(dǎo)致機器學(xué)習(xí)的不精確性。因此，根據(jù)真實性和相關(guān)性來選擇最佳特征是至關(guān)重要的。Boruta是一種基于隨機森林的特征選擇方法，并應(yīng)用于我們的實驗中進行特征提取。在特征選擇之后，只有部分特征被用來構(gòu)建模型。特征選擇的結(jié)果包括有樓房單元號、屋頂類型、房間數(shù)、附加設(shè)施和地址等一系列與房產(chǎn)有關(guān)的因素。

每個特征的相關(guān)屬性都有不同數(shù)量的圖像，其中有些屬性有5個圖像，有些屬性有大約35個圖像。通過對現(xiàn)有的數(shù)據(jù)進行統(tǒng)計，大部分記錄都有10到30幅房產(chǎn)圖片。對于構(gòu)建此模塊，將刪除少于10個圖像或多于30個圖像的屬性記錄。受文獻[16]發(fā)表的神經(jīng)圖像評估的啟發(fā)，屬性平均質(zhì)量評分可以定義為式(9)。

(9)

式中，M表示每個屬性的圖像總數(shù)，對于這個實驗，M被設(shè)置為5≤M≤30，因為大多數(shù)屬性都在這個范圍內(nèi)；S表示1到10的評分等級，所以S的范圍為S∈[1，10]；N表示總分列數(shù)，通過大樣本分析，N設(shè)置為10，這意味著它有10列評分；P表示每個評分的響應(yīng)百分比。

2.3 價格預(yù)測

這一部分說明了房價預(yù)測模型的具體流程，該模型結(jié)合了一些用于房價預(yù)測的特征?；旌夏Ｐ桶ㄔ跀?shù)據(jù)集上預(yù)先訓(xùn)練的LSTM模型，具有softmax功能，用于評估房產(chǎn)圖像，并給出總體房屋評分；激活校正線性單位(ReLU)以分析表格數(shù)據(jù)集/數(shù)字特征；另一個具有ReLU激活功能的LSTM模型用于從屬性圖像中提取視覺特征，作為屬性評估的附加屬性;用XGBoost預(yù)測房地產(chǎn)價格。

3 實驗與評估

3.1 實驗環(huán)境與數(shù)據(jù)

本文的實驗環(huán)境是基于一臺聯(lián)想ThinkPad筆記本電腦，其處理器為英特爾I7處理器，顯卡為英偉達Quadro T2 000，內(nèi)存大小為16GB,系統(tǒng)為windows 10 64位系統(tǒng)。

在整個實驗中，數(shù)據(jù)都是來自于Data Nerds的數(shù)據(jù)庫。收集的數(shù)據(jù)來自美國最大城市之一的伊利諾伊州的芝加哥市，以及美國房產(chǎn)的多重上市服務(wù)系統(tǒng)中的圖片數(shù)據(jù)。本節(jié)介紹如何與SVR和LASSO回歸相比，對數(shù)據(jù)進行預(yù)處理和評估所提出的模型。整個數(shù)據(jù)集隨機分成抽取80%的數(shù)據(jù)作為訓(xùn)練集，剩下20%的數(shù)據(jù)作為測試集。

3.2 數(shù)據(jù)集預(yù)處理

美國房價指數(shù)(Housing Price Index，HPI)數(shù)據(jù)集由聯(lián)邦政府提供。整個數(shù)據(jù)集包含1979年至2019年美國所有地級市的所有HPI。在這個實驗中，我們提取了芝加哥郵政編碼級別的60個HPI系列。

原始數(shù)據(jù)集包含許多變量，如房屋質(zhì)量，房產(chǎn)地理信息。它還包含了房價隨時間變化的交易記錄。在這里，只選擇了2017年內(nèi)，并通過HPI將2018年和2019年的價格轉(zhuǎn)換為該實驗的真實數(shù)據(jù)。在全市范圍內(nèi)篩掉了價格極高或極低的房子,篩選數(shù)據(jù)的摘要如表1所示。

表1 芝加哥的平均價格和標準價格偏差

為了訓(xùn)練和驗證提出的模型并防止過度擬合，采用了5倍交叉驗證技術(shù)。該算法將完整的數(shù)據(jù)隨機分成五個子集。一個唯一的子集作為測試的驗證數(shù)據(jù)，其余四個子集用于每個驗證過程中的訓(xùn)練。經(jīng)過5倍交叉驗證，我們可以得到每套房子的預(yù)測價格。

3.3 訓(xùn)練方法

模型訓(xùn)練過程,如圖6所示。

圖6 模型訓(xùn)練過程

首先，預(yù)處理后的過濾數(shù)據(jù)包含1979年至2017年的房屋和其屬性，如前所述。其次，采用多個LSTMs分別對每個郵政編碼級別的HPIs，以及房屋自身照片進行評分和預(yù)測。它是一個具有4個激活ReLu神經(jīng)元的單隱層LSTM,窗口大小是3，這意味著預(yù)測HPI是由前3個HPI預(yù)測的。同時，XGBoost模型有義務(wù)根據(jù)房產(chǎn)屬性預(yù)測2017年的房價。最后，利用預(yù)測的2017年的結(jié)果對2018年和2019年的房價進行評估。

3.4 評估模型和實驗結(jié)果

模型對于不同房屋的評分結(jié)果如圖7所示。

由圖7可知，兩個房屋的評分均顯示在臥室圖片中，可以看到(a)圖的評分高于(b)圖,這與實際結(jié)果也是相同的。

(a) 未處理的圖像及其均衡化直方圖

(b) 反增強后的圖像及其直方圖

(b) B房屋臥室圖

(a) A房屋臥室圖

在整個評估過程中，所采用的評價指標為平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)。兩個度量的定義,如式(12)、式(13)。

(12)

(13)

式中,turei表示真實值;predi表示預(yù)測值。

在此使用相同的訓(xùn)練和測試集來評估所有的模型。所有不同模型的回歸結(jié)果如表2所示。

表2 結(jié)果比較

結(jié)果表明，提出的方法，相對于LASSO回歸，誤差減小了近15%，相對于SVR回歸，誤差減小了10%，所以該模型比其他兩個模型具有更好的性能。

4 總結(jié)

本文提出了一種用于房地產(chǎn)估價的集成學(xué)習(xí)回歸模型。該模型能夠綜合考慮房屋質(zhì)量、區(qū)位和市場價格走勢。實驗結(jié)果表明了所提出方法是有效的,也為深度學(xué)習(xí)方法與統(tǒng)計學(xué)習(xí)算法的集成提供了一種新的途徑。這也說明了深度學(xué)習(xí)在房地產(chǎn)領(lǐng)域具有廣闊的未來。