段永輝,高 紳,郭一斌,王 翔
(1. 河南工業(yè)大學(xué)土木工程學(xué)院,河南 鄭州 450001;2. 鄭州航空工業(yè)管理學(xué)院土木工程學(xué)院,河南 鄭州 450015)
經(jīng)過(guò)二十多年的快速發(fā)展,中國(guó)房地產(chǎn)市場(chǎng)已經(jīng)逐步趨于成熟。高額的住宅價(jià)格一直是政府部門(mén)和人民群眾關(guān)注的熱點(diǎn)。如何準(zhǔn)確預(yù)測(cè)住宅價(jià)格走勢(shì)和價(jià)格波動(dòng)區(qū)間一直是學(xué)術(shù)界關(guān)注的重要的經(jīng)濟(jì)課題。準(zhǔn)確的預(yù)測(cè)住宅價(jià)格不僅可以為消費(fèi)者與投資者提供購(gòu)房意向參考,同時(shí)也可以為政府相關(guān)部門(mén)發(fā)布購(gòu)房政策提供理論依據(jù)。因此,探索一套快速高效的商用住宅價(jià)格預(yù)測(cè)模型對(duì)房地產(chǎn)市場(chǎng)的健康發(fā)展十分重要。
針對(duì)商用住宅價(jià)格的預(yù)測(cè)的問(wèn)題,國(guó)內(nèi)外學(xué)者進(jìn)行了各種各樣的嘗試,旨在尋求一種快捷高效的預(yù)測(cè)方法。目前,以自回歸移動(dòng)平均模型(Auto-Regressive and Moving Average Model,ARMA)為代表的傳統(tǒng)預(yù)測(cè)模型雖有強(qiáng)大的數(shù)學(xué)理論基礎(chǔ)支撐,但仍存在準(zhǔn)確度相對(duì)較低的問(wèn)題。近年來(lái),速率更快準(zhǔn)確度更高的機(jī)器學(xué)習(xí)模型已被多位學(xué)者引入住宅價(jià)格預(yù)測(cè)問(wèn)題的研究中,顯示出良好的效果。
在眾多住宅價(jià)格預(yù)測(cè)的研究中,文獻(xiàn)[1-3]采用線性回歸模型進(jìn)行預(yù)測(cè),但是該模型不能進(jìn)行有效處理非線性數(shù)據(jù),同時(shí)其重點(diǎn)是解釋而非預(yù)測(cè),且對(duì)類(lèi)似工程數(shù)據(jù)樣本大小與工程項(xiàng)目相似程度依賴性較大[4]。支持向量機(jī)模型(Support Vector Machines,SVM)[5-7]是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的統(tǒng)計(jì)學(xué)習(xí)算法,該算法理論基礎(chǔ)扎實(shí),泛化能力強(qiáng),能夠有效處理非線性問(wèn)題,但是也存在處理大樣本數(shù)據(jù)速度較慢,以及參數(shù)及核函數(shù)選取對(duì)模型預(yù)測(cè)結(jié)果影響較大等問(wèn)題。文獻(xiàn)[8,9]將集成學(xué)習(xí)模型(Ensemble Learning)應(yīng)用于住宅價(jià)格預(yù)測(cè)問(wèn)題的研究中,并取得良好的預(yù)測(cè)效果,但該模型仍然存在理論框架不統(tǒng)一、集成標(biāo)準(zhǔn)難于確定、訓(xùn)練樣本不足、集成算法之間度量差異等問(wèn)題[10]。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[11]是目前最流行預(yù)測(cè)算法之一,它對(duì)于建模的限制較少,只要擁有足夠樣本就可以進(jìn)行預(yù)測(cè)。目前,針對(duì)住宅價(jià)格預(yù)測(cè)問(wèn)題,已經(jīng)有很多學(xué)者利用ANN進(jìn)行了一些有益的嘗試,且取得優(yōu)異的預(yù)測(cè)效果[12-15]。但是ANN模型也存在容易陷入局部極值的缺陷。
綜合以上分析,本文針對(duì)商用住宅價(jià)格預(yù)測(cè)問(wèn)題主要進(jìn)行了以下兩項(xiàng)創(chuàng)新工作。
第一,提出了一種基于粒子群優(yōu)化的神經(jīng)網(wǎng)絡(luò)算法(Particle swarm optimization Neural Networks,PSO-NN),用于克服ANN模型易于陷入局部極值的缺陷。
第二,為了進(jìn)一步提升PSO-NN算法的泛化性能,本文基于集成學(xué)習(xí)的bagging思想,提出了一種集成PSO-NN算法。
集成學(xué)習(xí)是一種通過(guò)集成策略將多個(gè)模型的預(yù)測(cè)結(jié)果融合,從而提高預(yù)測(cè)精度的方法。它對(duì)于模型泛化能力提升具有顯著的效果,近年來(lái)一直是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。bagging方法(bootstrap aggregation,Bagging)是集成學(xué)習(xí)中最經(jīng)典的策略之一。
Bagging集成策略旨在通過(guò)集成多個(gè)基學(xué)習(xí)器,進(jìn)而提升模型的穩(wěn)定性和準(zhǔn)確性,并有效避免過(guò)擬合現(xiàn)象的發(fā)生。該策略的基本思想是通過(guò)bootstrap方法對(duì)訓(xùn)練集采取有放回抽樣的方式抽取多個(gè)子訓(xùn)練集,并分別對(duì)子訓(xùn)練集進(jìn)行訓(xùn)練,得到相對(duì)應(yīng)的基學(xué)習(xí)器。本文借助Bagging策略建立集成PSO-NN模型,流程如圖1所示。
圖1 集成PSO-NN模型
在訓(xùn)練完所有基學(xué)習(xí)器之后,采用softmax函數(shù)對(duì)基學(xué)習(xí)器結(jié)果進(jìn)行加權(quán)平均,最后輸出結(jié)果。softmax函數(shù)通過(guò)歸一化方式,使基學(xué)習(xí)器的權(quán)重均為小于1的正數(shù),且所有基學(xué)習(xí)器的權(quán)重之和為1。該函數(shù)能凸顯出相對(duì)重要的基學(xué)習(xí)器,即對(duì)預(yù)測(cè)精度更高的基學(xué)習(xí)模型賦予較大的權(quán)值。假設(shè)共有n個(gè)基學(xué)習(xí)器,第i個(gè)基學(xué)習(xí)器中預(yù)測(cè)結(jié)果與真實(shí)值的百分比誤差小于10%的比例為mi,則第i個(gè)基學(xué)習(xí)器的權(quán)重xi的計(jì)算公式如下所示。
(1)
(2)
ANN模型是一種模擬人類(lèi)大腦信息處理過(guò)程的人工智能技術(shù),具有較強(qiáng)的自學(xué)習(xí)或自組織能力,特別適用于處理非線性現(xiàn)象間的復(fù)雜關(guān)系。在ANN模型中,信息通過(guò)相互連接的神經(jīng)元進(jìn)行處理和傳遞,同時(shí)相互連接的神經(jīng)元分別位于不同的的網(wǎng)絡(luò)結(jié)構(gòu)層中。典型的網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、隱藏層和輸出層構(gòu)成[16]。
ANN的性能取決于網(wǎng)絡(luò)結(jié)構(gòu)中各層包含神經(jīng)元節(jié)點(diǎn)的數(shù)量。常見(jiàn)的ANN學(xué)習(xí)過(guò)程是學(xué)習(xí)神經(jīng)元節(jié)點(diǎn)連接的權(quán)重,它包含正向傳播與反向傳播兩個(gè)步驟,正向傳播是輸入信息由輸入層經(jīng)隱含層到輸出層的過(guò)程,若輸出層得到的預(yù)測(cè)結(jié)果與真實(shí)值之間的誤差過(guò)大或不滿足要求時(shí),則啟動(dòng)反向傳播過(guò)程,所得的誤差信息通過(guò)網(wǎng)絡(luò)從隱藏層傳回輸入層,進(jìn)而調(diào)節(jié)神經(jīng)元連接的權(quán)值與閾值。如此反復(fù)的多次訓(xùn)練直至預(yù)測(cè)結(jié)果滿足要求為止。目前,較為常用的三層ANN結(jié)構(gòu)如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
1995年提出的粒子群優(yōu)化算法[17](Particle Swarm Optimization,PSO)是一種基于鳥(niǎo)類(lèi)捕食行為的進(jìn)化算法,主要用于求解無(wú)約束優(yōu)化問(wèn)題。PSO算法是基于種群中個(gè)體間的相互合作和信息共享進(jìn)行尋優(yōu)求解,它具有操作簡(jiǎn)潔、參數(shù)較少等優(yōu)點(diǎn)。在PSO算法中,一群粒子代表一個(gè)需要優(yōu)化的個(gè)體,每個(gè)粒子具有速度和位置兩個(gè)性質(zhì)。粒子通過(guò)適應(yīng)度函數(shù)衡量當(dāng)前位置的優(yōu)劣,進(jìn)而基于適應(yīng)度值選擇個(gè)體的歷史最優(yōu)位置和群體的歷史最優(yōu)位置,最終在連續(xù)迭代中找到最優(yōu)解。標(biāo)準(zhǔn)粒子群算法的數(shù)學(xué)表達(dá)式如下:
(3)
(4)
其中i=1,2,…,n表示粒子編號(hào);d=1,2,…,D表示問(wèn)題維度;t表示迭代次數(shù);rand()表示取值為介于0到1的隨機(jī)數(shù);ω為慣性權(quán)重;c1和c2為學(xué)習(xí)因子。本文設(shè)置ω=0.72984,c1=c2=1.496172。pBest為個(gè)體歷史最佳位置,gBest為群體歷史最佳位置,pBest與gBest通過(guò)式(5)和式(6)進(jìn)行更新。在每個(gè)粒子進(jìn)行搜尋時(shí),其移動(dòng)速度和位置也同樣受到搜尋空間的限制,即,V∈[Vmin,Vmax],X∈[Xmin,Xmax]。
(5)
(6)
本文通過(guò)整理分析相關(guān)文獻(xiàn)資料,進(jìn)而選取了對(duì)住宅項(xiàng)目?jī)r(jià)格具有影響的指標(biāo)。首先,以“住宅價(jià)格特征分析”為關(guān)鍵詞在CNKI進(jìn)行檢索,共計(jì)得到55篇文獻(xiàn)。其次,針對(duì)其中29篇核心期刊文獻(xiàn)進(jìn)行重點(diǎn)分析,結(jié)果發(fā)現(xiàn)土地成本價(jià)格是最重要的影響因素之一,由于土地價(jià)格受其所在區(qū)位影響較大,又考慮到本文僅選取鄭州市區(qū)內(nèi)的50組數(shù)據(jù)進(jìn)行研究,故本文不對(duì)其進(jìn)行深入研究。最終,將影響住宅特征指標(biāo)歸結(jié)為四類(lèi):建筑特征、鄰里特征、區(qū)位特征以及政府調(diào)控。針對(duì)指標(biāo)對(duì)進(jìn)一步分析發(fā)現(xiàn),在三篇以上文獻(xiàn)中的指標(biāo)共計(jì)18個(gè),占指標(biāo)總數(shù)的80%,需要特別指出的是多位學(xué)者對(duì)建筑特征類(lèi)指標(biāo)進(jìn)行了重點(diǎn)研究。
基于以上研究,結(jié)合專家訪談法和線上咨詢法進(jìn)一步指標(biāo)篩選,最終確定商用住宅售價(jià)影響指標(biāo)分為以下三類(lèi):建筑特征類(lèi),鄰里特征類(lèi)和區(qū)位特征類(lèi),具體包含16個(gè)指標(biāo),如表1所示。以下所有實(shí)驗(yàn)都以鄭州市50棟住宅樣本的16個(gè)指標(biāo)量化數(shù)值作為輸入,整個(gè)住宅項(xiàng)目的價(jià)格作為輸出。
表1 商用住宅價(jià)格影響因素分析
為了評(píng)價(jià)不同模型的預(yù)測(cè)能力強(qiáng)弱,本文選取均方誤差(mean-square error,MSE)和平均絕對(duì)誤差(Mean Absolute Error,MAE)兩個(gè)最常用的損失函數(shù)作為標(biāo)準(zhǔn)。若MSE與MAE值越小,則表明模型預(yù)測(cè)性能越好;反之模型預(yù)測(cè)效果越差。MSE和MAE的具體公式如下
(7)
(8)
為檢驗(yàn)集成PSO-NN模型預(yù)測(cè)效果,本文以四類(lèi)經(jīng)典機(jī)器學(xué)習(xí)模型針對(duì)鄭州市50組住宅價(jià)格數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn)。以下是對(duì)各模型的簡(jiǎn)單描述。
集成學(xué)習(xí)[18]集成學(xué)習(xí)模型是由多個(gè)具有獨(dú)立決策能力的分類(lèi)器按照一定的策略組合進(jìn)行決策分析與預(yù)測(cè)。根據(jù)個(gè)體分類(lèi)器之間的關(guān)系,可將集成學(xué)習(xí)模型分為同質(zhì)集成和異質(zhì)集成兩類(lèi)。
線性回歸該模型是進(jìn)行回歸分析時(shí)一種重要的統(tǒng)計(jì)技術(shù),通過(guò)建立函數(shù)分析多個(gè)自變量與因變量之間的線性關(guān)系,在小樣本情況下效果同樣顯著。
支持向量機(jī)[19]支持向量機(jī)模型是以一種監(jiān)督式學(xué)習(xí)方法對(duì)數(shù)據(jù)集進(jìn)行線性分類(lèi)的分類(lèi)器。此算法本質(zhì)上是在三維空間中尋找一個(gè)最大邊緣超平面(其超平面為二維平面)使得超平面與最近的數(shù)據(jù)點(diǎn)之間的距離最大。
神經(jīng)網(wǎng)絡(luò)模型[11]人工神經(jīng)網(wǎng)絡(luò)模型是受生物神經(jīng)系統(tǒng)啟發(fā)而建立的智能非參數(shù)數(shù)學(xué)模型。近三十年來(lái),人工神經(jīng)網(wǎng)絡(luò)模型在分類(lèi)、模式識(shí)別、回歸和預(yù)測(cè)問(wèn)題中得到了廣泛應(yīng)用。
對(duì)上述給出的集成學(xué)習(xí)、線性回歸、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)四類(lèi)模型分別進(jìn)行住宅價(jià)格預(yù)測(cè)。為保證實(shí)驗(yàn)效果的準(zhǔn)確性,在每類(lèi)模型中分別選出兩種常見(jiàn)的子模型進(jìn)行建模。其中,神經(jīng)網(wǎng)絡(luò)模型中ANN模型和PSO-NN模型為三層網(wǎng)絡(luò)結(jié)構(gòu),輸入層神經(jīng)元均設(shè)置為16個(gè),并通過(guò)多次實(shí)驗(yàn)對(duì)比顯示當(dāng)ANN模型隱含層神經(jīng)元個(gè)數(shù)為16、PSO-NN模型隱含層神經(jīng)元個(gè)數(shù)為4時(shí)兩模型預(yù)測(cè)效果最佳。表2給出了子模型選取以及在三項(xiàng)指標(biāo)中的預(yù)測(cè)情況,各模型預(yù)測(cè)效果如圖4所示。
圖3 單模型預(yù)測(cè)結(jié)果
表2 對(duì)比模型選取
通過(guò)表2和圖3可知,四類(lèi)模型預(yù)測(cè)中各子模型預(yù)測(cè)效果各不相同,集成學(xué)習(xí)模型、支持向量機(jī)模型與神經(jīng)網(wǎng)絡(luò)模型整體差異不大。為進(jìn)一步提高對(duì)商用住宅價(jià)格的預(yù)測(cè)精度,本文提取四類(lèi)模型中預(yù)測(cè)效果更好,且與真實(shí)曲線更為貼合的子模型進(jìn)行進(jìn)一步分析,分別為集成學(xué)習(xí)類(lèi)中的Gradient Tree Boosting模型、線性回歸類(lèi)中的LinearRegression模型、支持向量機(jī)類(lèi)中的SVM Regressor (Poly Kernel)和神經(jīng)網(wǎng)絡(luò)類(lèi)中的PSO-NN模型。
在得到四類(lèi)模型中預(yù)測(cè)精度較高的子模型后,本文采取以下組合策略進(jìn)行進(jìn)一步的預(yù)測(cè)精度提升:①采取bagging集成策略對(duì)PSO-NN模型進(jìn)行集成優(yōu)化;②對(duì)上述四種表現(xiàn)最好的單模型結(jié)果進(jìn)行算數(shù)平均法組合;③采取softmax函數(shù)思想對(duì)四種單模型進(jìn)行加權(quán)平均法組合。各模型在MSE和MAE評(píng)價(jià)指標(biāo)中的預(yù)測(cè)結(jié)果如表3所示。
表3 各模型實(shí)驗(yàn)結(jié)果對(duì)比
通過(guò)表3可知,經(jīng)過(guò)組合策略優(yōu)化的模型精度整體上優(yōu)于單模型預(yù)測(cè),其中集成PSO-NN模型在上述模型中的兩項(xiàng)指標(biāo)排名均為第一,相較于單模型中預(yù)測(cè)效果最優(yōu)的PSO-NN模型在兩項(xiàng)指標(biāo)中分別提升了26.14%和27.61%;在組合模型中,集成PSO-NN模型比排名第二的softmax加權(quán)平均法預(yù)測(cè)精度分別提升了35.11%和24.41%。綜上所述,經(jīng)bagging集成策略優(yōu)化的PSO-NN模型在商用住宅價(jià)格預(yù)測(cè)問(wèn)題中效果最佳。
為清晰展示集成PSO-NN模型對(duì)住宅價(jià)格預(yù)測(cè)效果的提升程度,本文對(duì)集成PSO-NN模型及其子模型從擬合曲線效果和可信度分析兩個(gè)角度進(jìn)行效果對(duì)比。
圖4為集成PSO-NN模型、PSO-NN模型與ANN模型的預(yù)測(cè)結(jié)果與測(cè)試集真實(shí)樣本的擬合曲線,通過(guò)對(duì)三條曲線的對(duì)比分析,集成PSO-NN模型與真實(shí)曲線更為貼合,ANN模型貼合程度最差。
圖4 bagging集成策略擬合效果
可信度分析是指通過(guò)設(shè)置百分比誤差來(lái)衡量模型預(yù)測(cè)結(jié)果與真實(shí)樣本之間的差距[20],并定義當(dāng)百分比誤差在區(qū)間[0,10%]時(shí)具有較高的可信度,當(dāng)百分比誤差在區(qū)間(10%,20%)時(shí)模型預(yù)測(cè)結(jié)果可信度為中等,當(dāng)百分比誤差在區(qū)間[20%,100%]時(shí)結(jié)果可信度較低。百分比誤差計(jì)算公式為
(10)
圖5 可信度分析
圖5為本文三種模型的可信度分析結(jié)果,從圖中可以看出,集成PSO-NN模型在10%以內(nèi)的百分比誤差相較于PSO-NN模型和ANN模型分別提升了15.38%和84.62%,集成模型的全部預(yù)測(cè)結(jié)果都處于可信度較高的區(qū)間范圍內(nèi),進(jìn)一步說(shuō)明該模型在住宅價(jià)格預(yù)測(cè)問(wèn)題中優(yōu)勢(shì)較大。
綜上所述,在商用住宅價(jià)格預(yù)測(cè)問(wèn)題中,對(duì)于神經(jīng)網(wǎng)絡(luò)模型中收斂速度慢,易陷入局部極值等問(wèn)題導(dǎo)致的模型預(yù)測(cè)結(jié)果較差,粒子群優(yōu)化算法具有較好的解決能力,同時(shí)使用bagging集成策略對(duì)單模型預(yù)測(cè)精度具有明顯的提升效果。
本文針對(duì)住宅價(jià)格預(yù)測(cè)問(wèn)題,提出一種基于bagging集成策略的PSO-NN模型,通過(guò)對(duì)鄭州市50組商用住宅項(xiàng)目數(shù)據(jù)進(jìn)行仿真,得出以下結(jié)論:
1)相對(duì)于神經(jīng)網(wǎng)絡(luò)模型、集成學(xué)習(xí)模型、支持向量機(jī)模型和線性回歸模型這四類(lèi)傳統(tǒng)機(jī)器學(xué)習(xí)模型,集成PSO-NN模型具有較高的預(yù)測(cè)精度,并在均方誤差、平均絕對(duì)誤差兩項(xiàng)指標(biāo)上相較于最優(yōu)的單模型算法分別提升了26.14%和27.61%;
2)使用算術(shù)平均法和softmax加權(quán)平均法組合策略對(duì)上述四種單模型進(jìn)行模型組合,預(yù)測(cè)結(jié)果精度整體上有一定幅度的提升,但預(yù)測(cè)效果與bagging集成學(xué)習(xí)策略有一定的差距;
3)集成PSO-NN模型在可信度分析角度相對(duì)于PSO-NN模型和ANN模型預(yù)測(cè)精度分別提升了15.38%和84.62%,且集成模型全部預(yù)測(cè)結(jié)果都處于可信度較高的區(qū)間范圍,從而反映出本文提出的集成模型在商用住宅價(jià)格預(yù)測(cè)問(wèn)題中具有較高的實(shí)用性。