亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RNN的房地產(chǎn)估價回歸模型

        2021-06-24 07:24:44謝志偉
        微型電腦應(yīng)用 2021年6期
        關(guān)鍵詞:模型

        謝志偉

        (東莞職業(yè)技術(shù)學(xué)院 計算機工程系, 廣東 東莞 523808)

        0 引言

        對大多數(shù)人來說,住房一直是最大的開支之一。買房是一個高度參與的決定。消費者對房產(chǎn)價值的判斷和對房產(chǎn)未來價值的估計,會影響他們的購買決策和預(yù)算分配[1]。此外,房地產(chǎn)價格是反映經(jīng)濟活動的重要因素之一。因此,對土地價格的準確預(yù)測,可以幫助政府或企業(yè)在未來的財政年度內(nèi)做出操縱財務(wù)狀況的關(guān)鍵決策。從這個角度看,房地產(chǎn)價格的測算過程與人們的生活和國民經(jīng)濟息息相關(guān)[2]。

        自動估價模型(AVM)是在分析房地產(chǎn)的區(qū)位、周圍條件和特性的基礎(chǔ)上,對房地產(chǎn)市場價值進行評估的數(shù)學(xué)程序[3]。房地產(chǎn)行業(yè)的一些企業(yè)提供了易于訪問的AVM Web應(yīng)用程序來估計房產(chǎn)價格,主要是基于套索回歸(LASSO)和支持向量回歸(SVR)[4-5]。但這些方法沒有更多考慮房屋本身的屬性,如房間數(shù)量、房屋大小和房屋的裝修情況等。所以為了更加準確地評估房產(chǎn)價格,在此基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和房屋自身屬性,提出了一種新的房地產(chǎn)價格評估方法。同時,Boosting樹模型作為數(shù)據(jù)分析競爭中一種很有前途的機器學(xué)習(xí)方法[6-7]。因此,在本研究中,為了使結(jié)果更加準確,通過RNN網(wǎng)絡(luò)模型與Boosting樹的一種變體,XGBoost模型相結(jié)合,對房價進行預(yù)測。

        1 基于LSTM和XGBoost的模型

        在本節(jié)中,簡要介紹所提出模型的主要組成部分。首先,介紹RNN中的長期短期記憶(LSTM)的基本體系結(jié)構(gòu),然后介紹了XGBoost模型。

        1.1 長期短期記憶

        在自然語言處理(NLP)中,整個句子被定義為順序數(shù)據(jù),每個詞都基于對先前詞的理解。當(dāng)人工神經(jīng)網(wǎng)絡(luò)執(zhí)行自然語言處理時,它需要一種結(jié)構(gòu)來根據(jù)句子的上下文來推理下一個單詞,該結(jié)構(gòu)將先前的輸出作為推論的輸入進行組合。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是用于處理順序數(shù)據(jù)的一系列神經(jīng)網(wǎng)絡(luò)[8-9]。

        RNN結(jié)構(gòu)示意圖如圖1所示。

        圖1 RNN結(jié)構(gòu)示意圖

        圖1說明了簡單RNN的結(jié)構(gòu)。{O(1),…,O(T)}是給定輸入序列{x(1),…,x(T)}和隱藏單元的神經(jīng)網(wǎng)絡(luò)的隱藏層{h(1),…,h(T)}。來自輸入單元的單向信息流到達隱藏單元,而來自隱藏單元的另一單向信息流到達輸出單元。h(t)是基于當(dāng)前輸入層的輸出和先前隱藏層h(t-1)的狀態(tài)來計算的,估算方法如式(1)。

        h(t)=f(Ux(t)+Wh(t-1))

        (1)

        式中,f表示非線性激活函數(shù),如tan或ReLU,具有共享參數(shù)U,W。O(t)是步驟t的輸出,它取決于當(dāng)前神經(jīng)元的激活函數(shù),如式(2)。

        O(t)=σ(Vh(t))

        (2)

        式中,σ表示輸出層的激活函數(shù)。

        從理論上講,RNN可以從句子開始處理上下文,這樣可以更準確地預(yù)測句子結(jié)尾的單詞。然而,序列長度越長,隱藏層就越多,這就產(chǎn)生了消失梯度問題,從而阻礙了RNN的優(yōu)化[8]。

        LSTM是解決這個問題的架構(gòu)[10],每個LSTM將整個神經(jīng)網(wǎng)絡(luò)分割成多個單元{C(1),…,C(T)},如圖2所示。

        圖2 LSTM的結(jié)構(gòu)

        每個單元包含輸入門、遺忘門和輸出門,其能夠在正向傳播階段存儲錯誤。遺忘門將誤差從單元中刪除,以求解消失梯度。

        Wf、Wc和Wo分別是輸入門、遺忘門和輸出門的對應(yīng)參數(shù)。輸入門將電流輸入和先前的輸出結(jié)合起來,在神經(jīng)元中使用激活函數(shù)σ和偏置bf。然后,tan為單元值創(chuàng)建新的候選值,并分別用偏差bi和bc與先前的更新決策值進行比較,如式(3)—式(5)。

        ft=σ(Wf[h(t-1),x(t)]+bf)

        (3)

        (4)

        ot=σ(Wc[h(t-1),x(t)]+bo)*tan(ct+ft)

        (5)

        1.2 XGBoost原理

        XGBoost是Boost算法的一種,是基于gradientboosting框架實現(xiàn)的[11-12]。它是一個分布式梯度的優(yōu)化增強庫,由很多分類回歸樹組成。由于XGBoost可以進行多線程計算,所以它具有運算速度快、體積小的特點[13-14]。XGBoost算法核心是為了擬合前一次迭代中實際值和預(yù)測值的差,所以在每次迭代的過程中都會增加一棵樹,從而讓預(yù)測值不斷接近真實值。然后每棵樹的總得分就是該樣本的得分。XGBoost的預(yù)測值計算如式(6)。

        fg∈F,r∈n

        (6)

        (7)

        (8)

        式中,P表示損失系數(shù);C表示損失因子;V表示分裂的節(jié)點數(shù)。在XGBoost中判斷節(jié)點是否進行分裂的方法是通過分裂后的左右節(jié)點的分數(shù)減去未分裂的節(jié)點分數(shù)。由于XGBoost中利用正則化因子來限制樹的增長,所以當(dāng)收益小于正則化因子時,節(jié)點分裂則停止。整個XGBoost的流程如圖3所示。

        圖3 XGBoost預(yù)測流程圖

        2 模型建立

        一般來說,圖像包含的有價值的信息不能簡單地寫下來,例如,屬性的質(zhì)量或狀態(tài)是什么?它看起來如何?這些顏色是否很好地融合并增強了房屋的外觀和感覺?所以在此,希望有一個圖像評估模型可以給定一個圖像作為輸入,自動分配一個評分,可以模仿人類來觀察和欣賞其價值,并從不同的圖像中評估房屋屬性。

        2.1 數(shù)據(jù)預(yù)處理

        由于相關(guān)房屋照片的尺寸大小不一,所以在進行特征提取之前,需要對圖片數(shù)據(jù)進行預(yù)處理。首先先要將圖片尺寸統(tǒng)一,在此,LSTM網(wǎng)絡(luò)的輸入尺寸是244×244像素的圖像。同時,由于提出的LSTM網(wǎng)絡(luò)需要對房屋多個屬性進行評分,因此,在此將輸入的圖像切割成122×122像素的4個小圖像。

        由4個小圖像構(gòu)成整個大的輸入圖像,如圖4所示。

        圖4 LSTM輸入圖像示例

        同時,由于房屋圖片存在通過調(diào)亮光線進行美化的情況,因此,為了使得整個模型對房屋的評估更加準確,所以對于美化過的房屋圖片需要進行反美化處理。為了確定圖像是否經(jīng)過光線增強處理,首先需要統(tǒng)計同一房屋其他區(qū)域的圖片及相似房源的圖片的光線強度。因此,將原RGB圖像轉(zhuǎn)為YCbCr圖像,然后計算每一幅圖像的光亮值,對參考圖像的光亮值進行平均處理,確定閾值。如果高于閾值則說明該幅圖像經(jīng)過美化處理,需要調(diào)低光亮,如圖5所示。

        該圖顯示了去美化前后圖像對比。

        2.2 特征的選擇和提取

        盡管網(wǎng)上的房產(chǎn)圖片可以對一棟房子進行整體評價,但卻不能捕捉到一些特征,如窗戶、門、鏡子、屋角等。文獻[15]指出,從房地產(chǎn)圖像中提取視覺特征與正常屬性有顯著關(guān)系,可以提高房價估計的準確性。因此,利用RNN神經(jīng)網(wǎng)絡(luò)中的LSTM網(wǎng)絡(luò)進行圖像的特征提取和視覺特征學(xué)習(xí)。

        輸入層是對應(yīng)的視頻幀特征向量,在輸入層上層是正向的LSTM層,由一系列的LSTM單元構(gòu)成。再將全部時刻的LSTM輸出進行加權(quán)平均操作后的結(jié)果作為上層的表示。最后通過softmax層,進行全連接的操作。

        數(shù)據(jù)集中有太多用于建模的變量,選擇這些功能有兩個原因。一是特征集過大會使算法速度變慢;二是當(dāng)變量的個數(shù)明顯高于最優(yōu)值時,會導(dǎo)致機器學(xué)習(xí)的不精確性。因此,根據(jù)真實性和相關(guān)性來選擇最佳特征是至關(guān)重要的。Boruta是一種基于隨機森林的特征選擇方法,并應(yīng)用于我們的實驗中進行特征提取。在特征選擇之后,只有部分特征被用來構(gòu)建模型。特征選擇的結(jié)果包括有樓房單元號、屋頂類型、房間數(shù)、附加設(shè)施和地址等一系列與房產(chǎn)有關(guān)的因素。

        每個特征的相關(guān)屬性都有不同數(shù)量的圖像,其中有些屬性有5個圖像,有些屬性有大約35個圖像。通過對現(xiàn)有的數(shù)據(jù)進行統(tǒng)計,大部分記錄都有10到30幅房產(chǎn)圖片。對于構(gòu)建此模塊,將刪除少于10個圖像或多于30個圖像的屬性記錄。受文獻[16]發(fā)表的神經(jīng)圖像評估的啟發(fā),屬性平均質(zhì)量評分可以定義為式(9)。

        (9)

        式中,M表示每個屬性的圖像總數(shù),對于這個實驗,M被設(shè)置為5≤M≤30,因為大多數(shù)屬性都在這個范圍內(nèi);S表示1到10的評分等級,所以S的范圍為S∈[1,10];N表示總分列數(shù),通過大樣本分析,N設(shè)置為10,這意味著它有10列評分;P表示每個評分的響應(yīng)百分比。

        2.3 價格預(yù)測

        這一部分說明了房價預(yù)測模型的具體流程,該模型結(jié)合了一些用于房價預(yù)測的特征?;旌夏P桶ㄔ跀?shù)據(jù)集上預(yù)先訓(xùn)練的LSTM模型,具有softmax功能,用于評估房產(chǎn)圖像,并給出總體房屋評分;激活校正線性單位(ReLU)以分析表格數(shù)據(jù)集/數(shù)字特征;另一個具有ReLU激活功能的LSTM模型用于從屬性圖像中提取視覺特征,作為屬性評估的附加屬性;用XGBoost預(yù)測房地產(chǎn)價格。

        3 實驗與評估

        3.1 實驗環(huán)境與數(shù)據(jù)

        本文的實驗環(huán)境是基于一臺聯(lián)想ThinkPad筆記本電腦,其處理器為英特爾I7處理器,顯卡為英偉達Quadro T2 000,內(nèi)存大小為16GB,系統(tǒng)為windows 10 64位系統(tǒng)。

        在整個實驗中,數(shù)據(jù)都是來自于Data Nerds的數(shù)據(jù)庫。收集的數(shù)據(jù)來自美國最大城市之一的伊利諾伊州的芝加哥市,以及美國房產(chǎn)的多重上市服務(wù)系統(tǒng)中的圖片數(shù)據(jù)。本節(jié)介紹如何與SVR和LASSO回歸相比,對數(shù)據(jù)進行預(yù)處理和評估所提出的模型。整個數(shù)據(jù)集隨機分成抽取80%的數(shù)據(jù)作為訓(xùn)練集,剩下20%的數(shù)據(jù)作為測試集。

        3.2 數(shù)據(jù)集預(yù)處理

        美國房價指數(shù)(Housing Price Index,HPI)數(shù)據(jù)集由聯(lián)邦政府提供。整個數(shù)據(jù)集包含1979年至2019年美國所有地級市的所有HPI。在這個實驗中,我們提取了芝加哥郵政編碼級別的60個HPI系列。

        原始數(shù)據(jù)集包含許多變量,如房屋質(zhì)量,房產(chǎn)地理信息。它還包含了房價隨時間變化的交易記錄。在這里,只選擇了2017年內(nèi),并通過HPI將2018年和2019年的價格轉(zhuǎn)換為該實驗的真實數(shù)據(jù)。在全市范圍內(nèi)篩掉了價格極高或極低的房子,篩選數(shù)據(jù)的摘要如表1所示。

        表1 芝加哥的平均價格和標準價格偏差

        為了訓(xùn)練和驗證提出的模型并防止過度擬合,采用了5倍交叉驗證技術(shù)。該算法將完整的數(shù)據(jù)隨機分成五個子集。一個唯一的子集作為測試的驗證數(shù)據(jù),其余四個子集用于每個驗證過程中的訓(xùn)練。經(jīng)過5倍交叉驗證,我們可以得到每套房子的預(yù)測價格。

        3.3 訓(xùn)練方法

        模型訓(xùn)練過程,如圖6所示。

        圖6 模型訓(xùn)練過程

        首先,預(yù)處理后的過濾數(shù)據(jù)包含1979年至2017年的房屋和其屬性,如前所述。其次,采用多個LSTMs分別對每個郵政編碼級別的HPIs,以及房屋自身照片進行評分和預(yù)測。它是一個具有4個激活ReLu神經(jīng)元的單隱層LSTM,窗口大小是3,這意味著預(yù)測HPI是由前3個HPI預(yù)測的。同時,XGBoost模型有義務(wù)根據(jù)房產(chǎn)屬性預(yù)測2017年的房價。最后,利用預(yù)測的2017年的結(jié)果對2018年和2019年的房價進行評估。

        3.4 評估模型和實驗結(jié)果

        模型對于不同房屋的評分結(jié)果如圖7所示。

        由圖7可知,兩個房屋的評分均顯示在臥室圖片中,可以看到(a)圖的評分高于(b)圖,這與實際結(jié)果也是相同的。

        (a) 未處理的圖像及其均衡化直方圖

        (b) 反增強后的圖像及其直方圖

        (b) B房屋臥室圖

        (a) A房屋臥室圖

        在整個評估過程中,所采用的評價指標為平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)。兩個度量的定義,如式(12)、式(13)。

        (12)

        (13)

        式中,turei表示真實值;predi表示預(yù)測值。

        在此使用相同的訓(xùn)練和測試集來評估所有的模型。所有不同模型的回歸結(jié)果如表2所示。

        表2 結(jié)果比較

        結(jié)果表明,提出的方法,相對于LASSO回歸,誤差減小了近15%,相對于SVR回歸,誤差減小了10%,所以該模型比其他兩個模型具有更好的性能。

        4 總結(jié)

        本文提出了一種用于房地產(chǎn)估價的集成學(xué)習(xí)回歸模型。該模型能夠綜合考慮房屋質(zhì)量、區(qū)位和市場價格走勢。實驗結(jié)果表明了所提出方法是有效的,也為深度學(xué)習(xí)方法與統(tǒng)計學(xué)習(xí)算法的集成提供了一種新的途徑。這也說明了深度學(xué)習(xí)在房地產(chǎn)領(lǐng)域具有廣闊的未來。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        国产超碰人人做人人爱ⅴa| 高潮内射主播自拍一区| 国产人妻高清国产拍精品| 影音先锋男人站| 国产综合自拍| 国产麻豆剧传媒精品国产av蜜桃| 美女视频黄a视频全免费网站色| 日韩亚洲欧美久久久www综合| 99精品热这里只有精品| 亚洲黄色在线看| 成年女人18毛片观看| 色吧噜噜一区二区三区| 亚洲亚洲人成综合网络| 试看男女炮交视频一区二区三区| 精品人妻一区二区久久| 我要看免费久久99片黄色 | 亚洲人成精品久久久久| 国产精品天天狠天天看| 91精品综合久久久久m3u8| 中文字幕日韩精品永久在线| 国产免费又爽又色又粗视频 | 国产一区二区三区视频在线观看| 色先锋av影音先锋在线| 日本精品一区二区三区在线视频 | 蜜桃视频在线免费观看完整版| 一本一道久久综合久久| 欧美乱妇高清无乱码在线观看 | 无遮挡h肉动漫在线观看| 欧美黑人性色黄在线视频| 午夜亚洲精品视频网站| 亚洲视频在线一区二区| 亚洲精品乱码久久久久久蜜桃图片| 呦泬泬精品导航| 亚洲啪啪色婷婷一区二区| 日本熟妇色xxxxx日本妇| 国产成人av一区二区三区无码 | 99视频一区二区日本| 国产97在线 | 日韩| 亚洲午夜精品久久久久久人妖| 久久国产精品一区二区| 亚洲乱码av中文一区二区|