徐文慧,申建紅,2,*,陳 雪,萬(wàn)索妮
(1.青島理工大學(xué) 管理工程學(xué)院,青島 266525;2.山東省高校智慧城市建設(shè)管理研究中心,青島 266525)
準(zhǔn)確的造價(jià)預(yù)測(cè)不僅有助于建設(shè)單位做出投融資決策,還能降低建設(shè)過(guò)程中造價(jià)超支的可能性.為進(jìn)一步提高造價(jià)預(yù)測(cè)的精確度,學(xué)者們進(jìn)行了廣泛研究[1-3].其中,BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Natural Net,BPNN)具有較強(qiáng)的自主學(xué)習(xí)能力和自我適應(yīng)能力,能夠準(zhǔn)確地處理多因素和非線性問(wèn)題,因此被廣泛地應(yīng)用于工程造價(jià)預(yù)測(cè)領(lǐng)域.蔣紅妍等[4]針對(duì)高層住宅工程造價(jià)管理的難點(diǎn)及傳統(tǒng)造價(jià)估算方法存在的不足,采用灰關(guān)聯(lián)分析與粒子群優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,實(shí)現(xiàn)了對(duì)高層住宅造價(jià)的快速估算.楊無(wú)疆等[5]選取6個(gè)工程特征類目作為BPNN的輸入向量來(lái)預(yù)測(cè)工程造價(jià),并通過(guò)實(shí)例驗(yàn)證了該方法的精確性和有效性.梁喜等[6]考慮了決策者判斷的不確定性,將模糊數(shù)學(xué)與AHP方法相結(jié)合,篩選出與工程造價(jià)有較大相關(guān)性的工程特征指標(biāo),并把這些指標(biāo)數(shù)據(jù)作為BPNN的輸入集來(lái)預(yù)測(cè)造價(jià),最后通過(guò)實(shí)例證明了該模型能有效地提高工程項(xiàng)目造價(jià)預(yù)測(cè)的精確度.然而,由于工程造價(jià)預(yù)測(cè)需要的初始數(shù)據(jù)較多,過(guò)多的數(shù)據(jù)輸入維數(shù)會(huì)增加BPNN結(jié)構(gòu)的復(fù)雜性,從而降低網(wǎng)絡(luò)的擬合速度,甚至陷入局部極值.不同于全局逼近的BPNN,徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Natural Net,RBFNN)是1種局部逼近的網(wǎng)絡(luò),這一特性不僅使其具有更簡(jiǎn)單的結(jié)構(gòu)和更快的學(xué)習(xí)收斂速度,而且避免了局部最優(yōu)問(wèn)題的出現(xiàn),克服了BPNN的缺點(diǎn).劉書(shū)賢、嚴(yán)薇等分別將RBFNN與BPNN用于工程造價(jià)的預(yù)測(cè),并通過(guò)案例分析結(jié)果的對(duì)比,得出了RBFNN更適合于造價(jià)的預(yù)測(cè)的結(jié)論[7-8].
工程造價(jià)預(yù)測(cè)通常是預(yù)先收集已建類似工程的造價(jià)特征指標(biāo)數(shù)據(jù),然后通過(guò)一定的數(shù)學(xué)模型進(jìn)行分析預(yù)測(cè)待建工程的造價(jià).但是收集的特征指標(biāo)數(shù)據(jù)之間通常存在大量的冗余信息,使得數(shù)據(jù)噪聲較大,而RBFNN對(duì)數(shù)據(jù)噪聲的敏感性不高,若不對(duì)數(shù)據(jù)噪聲進(jìn)行弱化處理,會(huì)降低RBFNN的學(xué)習(xí)擬合速度以及預(yù)測(cè)的精確程度.粗糙集理論(Rough Set Theory,RS)是波蘭學(xué)者PAWLAK Z于1982年提出的一種處理不確定知識(shí)的數(shù)學(xué)工具,其屬性約簡(jiǎn)功能在保留重要信息的前提下可簡(jiǎn)化數(shù)據(jù)并消除變量之間的冗余信息.因此,將RS作為RBFNN的數(shù)據(jù)降噪工具,找出與工程造價(jià)相關(guān)性較大的影響因素,剔除非主要影響因素,減少RBFNN的輸入數(shù)據(jù)維數(shù),就能進(jìn)一步縮短網(wǎng)絡(luò)的訓(xùn)練時(shí)間并提高它的預(yù)測(cè)準(zhǔn)確性.
本文利用RS和RBFNN的優(yōu)勢(shì)互補(bǔ)特性,將兩者有機(jī)結(jié)合用于工程造價(jià)的預(yù)測(cè).首先,利用RS理論對(duì)影響工程造價(jià)的因素進(jìn)行約簡(jiǎn),減少RBFNN輸入數(shù)據(jù)的維數(shù);其次,將約簡(jiǎn)后的數(shù)據(jù)作為輸入,總造價(jià)作為輸出,構(gòu)建RS-RBFNN模型進(jìn)行造價(jià)預(yù)測(cè);最后通過(guò)比較不同預(yù)測(cè)方法的預(yù)測(cè)結(jié)果偏差以及預(yù)測(cè)速度,得出了RS-RBFNN模型更適合于工程造價(jià)預(yù)測(cè)的結(jié)論.
粗糙集理論是PAWLAK Z提出的1種處理不確定性、模糊性和不一致性問(wèn)題的智能算法[9].它能夠?qū)Ω鞣N不完備的信息進(jìn)行分析和處理,從中發(fā)現(xiàn)隱藏的知識(shí),揭示潛在的規(guī)律.粗糙集理論的屬性約簡(jiǎn)功能可有效降低數(shù)據(jù)的噪聲,簡(jiǎn)化數(shù)據(jù)維數(shù).利用RS理論將獲取的造價(jià)相關(guān)數(shù)據(jù)構(gòu)成1個(gè)造價(jià)決策系統(tǒng),在不改變系統(tǒng)決策能力的前提下,根據(jù)不同特征指標(biāo)對(duì)總造價(jià)的重要程度,去除掉非關(guān)鍵指標(biāo)數(shù)據(jù),保留關(guān)鍵指標(biāo)數(shù)據(jù),以此簡(jiǎn)化RBFNN的輸入.具體的屬性約簡(jiǎn)步驟如下:
1) 外部數(shù)據(jù)獲取形成決策表.將工程特征指標(biāo)作為條件屬性,工程總造價(jià)作為決策屬性,構(gòu)造原始造價(jià)數(shù)據(jù)決策表,決策表如式(1)所示:
S=(U,A,V,f)
(1)
式中:U為論域;A=C∪D,C是條件屬性工程特征指標(biāo)的集合,D為決策屬性總造價(jià)的集合,2種屬性的并集構(gòu)成非空有限集合A;V是屬性集的V=∪(Va),Va∈A,Va集合,且是屬性a?A的值域;f:U×A→V,f(xi,a)∈V是1個(gè)信息映射函數(shù),賦予每個(gè)對(duì)象相應(yīng)的信息值.
2) 屬性值離散化.利用粗糙集進(jìn)行屬性約簡(jiǎn)有一定的前提條件,即決策表中的屬性值必須是離散的,所以需要提前對(duì)決策表中的屬性值進(jìn)行離散化處理.離散化是在不改變數(shù)據(jù)相對(duì)大小的條件下,對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的縮小,從而提高算法的時(shí)空效率.
3) 屬性約簡(jiǎn).數(shù)據(jù)離散化處理后即可以進(jìn)行屬性約簡(jiǎn),將約簡(jiǎn)后的最簡(jiǎn)屬性集作為RBFNN的輸入向量,不僅可以降低RBFNN的計(jì)算復(fù)雜度,減少運(yùn)行時(shí)間,還能提高RBFNN的預(yù)測(cè)精度.
RBFNN是1種局部逼近的前饋式神經(jīng)網(wǎng)絡(luò).RBF指的是徑向基函數(shù),是由POWELL于1985年提出的.1988年,MOODY等將RBF函數(shù)與神經(jīng)網(wǎng)絡(luò)相結(jié)合,自此,RBFNN得到了發(fā)展和應(yīng)用[10].RBFNN不僅有較快的學(xué)習(xí)收斂速度,而且泛化能力好,與目前廣泛使用的BPNN相比,RBFNN具有最佳逼近和全局最優(yōu)的性能,能夠很好地處理非線性問(wèn)題,且不存在局部最優(yōu)問(wèn)題,所以RBFNN更適合于工程造價(jià)的預(yù)測(cè).
RBFNN是1種3層前向網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.第1層輸入層由多個(gè)神經(jīng)元組成,起到輸入數(shù)據(jù)的作用,本文中的輸入數(shù)據(jù)即約簡(jiǎn)后的多個(gè)工程特征指標(biāo);第2層隱含層包含多個(gè)徑向基神經(jīng)元,隱含層的作用是通過(guò)RBF激活函數(shù)將低維非線性可分的輸入映射到高維線性可分的空間,隱含層輸出的大小是由輸入與基函數(shù)中心點(diǎn)的距離決定的;第3層輸出層的激活函數(shù)為線性函數(shù),最終的輸出結(jié)果是隱含層神經(jīng)元輸出的線性加權(quán).RBFNN的主要算法如下:
圖1 RBFNN結(jié)構(gòu)
對(duì)于輸入的工程特征指標(biāo)X=(x1,x2,…,xp),選取隱含層的激活函數(shù)為徑向基高斯函數(shù),如式(2)所示:
(2)
經(jīng)過(guò)式(2)的非線性變換之后,便實(shí)現(xiàn)了從輸入層到隱含層的映射.隱含層到輸出層的線性映射,需要借助線性激活函數(shù)來(lái)實(shí)現(xiàn),其函數(shù)公式以及權(quán)重調(diào)節(jié)公式分別如式(3)、式(4)所示:
(3)
ωij(L+1)=ωij(L)+β(Fi*d-Fi*(L))aj(x)/[aT(x)a(x)]
(4)
式中:Fi*為第i個(gè)輸出量第L次計(jì)算的輸出值;Fi*d為第i個(gè)輸出量的期望值;a為學(xué)習(xí)率;a(x)為隱含層徑向基高斯函數(shù)的映射向量.
所謂工程特征是指能表示工程特點(diǎn),且能反映工程主要成本構(gòu)成的重要因素.本文在參照歷史工程資料的基礎(chǔ)上,咨詢專家意見(jiàn),對(duì)影響工程造價(jià)的特征指標(biāo)進(jìn)行了全面的篩選和分析,初步確定了樓地面類型C1、基礎(chǔ)類型C2、結(jié)構(gòu)類型C3、建筑面積C4、層數(shù)C5、防水工程C6、砌筑工程C7、三級(jí)鋼占比C8、門窗面積C9、門窗類型C10、內(nèi)裝飾C11、外裝飾C12、安裝工程C13這13個(gè)主要因素作為工程特征.
在所選的初始工程特征里,樓地面類型C1、基礎(chǔ)類型C2、結(jié)構(gòu)類型C3、防水工程C6、砌筑工程C7、三級(jí)鋼占比C8、門窗類型C10、內(nèi)裝飾C11、外裝飾C12、安裝工程C13為分類變量,建筑面積C4、層數(shù)C5、門窗面積C9為連續(xù)變量,總造價(jià)D也是連續(xù)變量.由于利用粗糙集理論進(jìn)行屬性約簡(jiǎn)時(shí),決策表中的屬性值需要用離散數(shù)據(jù)表示,所以需要賦予分類變量以及連續(xù)變量相應(yīng)的離散值,本文中分類變量的數(shù)據(jù)離散化見(jiàn)表1.
表1 分類變量離散化
本文收集了某建筑企業(yè)承建的15個(gè)類似住宅工程的樣本數(shù)據(jù),進(jìn)行案例分析.首先采用粗糙集專業(yè)軟件Rosetta中的Booleanreasoning algorithm離散化算法對(duì)建筑面積、層數(shù)、門窗面積、總造價(jià)這4個(gè)連續(xù)變量進(jìn)行數(shù)據(jù)的離散化,然后將離散化的分類變量和連續(xù)變量形成初始決策表,選用Genetical algorithm對(duì)離散化數(shù)據(jù)進(jìn)行屬性約簡(jiǎn).在運(yùn)算結(jié)果中,以頻次大于等于15為篩選標(biāo)準(zhǔn),得到樓地面類型(17次)、建筑面積(30次)、門窗類型(15次)、外裝飾(33次) 4個(gè)核心指標(biāo).初始決策表、初始特征約簡(jiǎn)信息表以及約簡(jiǎn)后的RBFNN輸入樣本數(shù)據(jù)分別見(jiàn)表2—4.
表2 初始決策
表3 初始特征約簡(jiǎn)信息
3.2.1 數(shù)據(jù)歸一化
本文在MATLAB環(huán)境下,將粗糙集屬性約簡(jiǎn)得到的樓地面類型、建筑面積、門窗類型、外墻裝飾這4個(gè)指標(biāo)作為網(wǎng)絡(luò)輸入,工程總造價(jià)作為網(wǎng)絡(luò)輸出,構(gòu)建RBFNN模型來(lái)預(yù)測(cè)工程造價(jià).
由于樓地面類型、建筑面積、門窗類型、外墻裝飾這4個(gè)指標(biāo)的數(shù)據(jù)單位不一致,它們的數(shù)據(jù)跨度也比較大,若直接輸入會(huì)降低RBFNN的運(yùn)行速度和預(yù)測(cè)精度.而且模型函數(shù)對(duì)輸出值的范圍也有所限制,所以在訓(xùn)練之前需要對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理,將有量綱的表達(dá)式轉(zhuǎn)化為無(wú)量綱的表達(dá)式.MATLAB環(huán)境下,樣本數(shù)據(jù)的歸一化需要調(diào)用premnmx函數(shù),其命令格式為
[QN1,minQ,maxQ,RN1,mint,maxt]=
premnmx(Q,R)
其中,Q,R分別為輸入矩陣和輸出矩陣;minQ,maxQ分別為矩陣Q中的最小值、最大值,minR,maxR分別為矩陣R中的最小值、最大值.預(yù)測(cè)結(jié)果的輸出也要進(jìn)行歸一化處理,這里需要調(diào)用的是反歸一化函數(shù)Postmnmx,使數(shù)據(jù)分布在區(qū)間[-1,1]內(nèi).
表4 RBFNN輸入樣本數(shù)據(jù)
3.2.2 RBFNN預(yù)測(cè)
造價(jià)數(shù)據(jù)經(jīng)過(guò)歸一化處理之后,即可調(diào)用RBFNN進(jìn)行造價(jià)預(yù)測(cè).RBFNN調(diào)用的命令格式為
net=newrb;
[net,tr]=newrb(QN1,RN1,mse,speed,MN,DF)
其中,QN1,RN1分別為經(jīng)過(guò)歸一化處理之后的輸入矩陣和輸出矩陣;mse為均方誤差,本文將均方誤差精度設(shè)為mse=0.001;speed為徑向基函數(shù)的擴(kuò)展速度,其值越大,網(wǎng)絡(luò)逼近的函數(shù)就越平滑,但speed值過(guò)大或者過(guò)小,都會(huì)使模型在逼近函數(shù)時(shí)神經(jīng)元增多,降低模型的預(yù)測(cè)速度,所以speed值需進(jìn)行多次調(diào)試,找出最適合的值,經(jīng)過(guò)多次調(diào)整,本文將speed值設(shè)為3.5;MN為最大的神經(jīng)元個(gè)數(shù),即神經(jīng)元個(gè)數(shù)到了MN后立即停止網(wǎng)絡(luò)訓(xùn)練,本文將MN值設(shè)為5;DF是每次加進(jìn)來(lái)的網(wǎng)絡(luò)參數(shù),DF值設(shè)置為1.
將本文的15個(gè)樣本數(shù)據(jù)分為兩部分,前10個(gè)樣本作為訓(xùn)練集,用來(lái)建立模型,后5個(gè)樣本作為測(cè)試集,測(cè)試模型的性能.經(jīng)過(guò)多次調(diào)試,RS-RBFNN模型的最終預(yù)測(cè)結(jié)果如圖2、圖3所示.
3.2.3 預(yù)測(cè)結(jié)果分析
為進(jìn)一步找出RS-RBFNN模型在造價(jià)預(yù)測(cè)方面的優(yōu)勢(shì),將該模型的預(yù)測(cè)結(jié)果分別與未經(jīng)RS處理的BPNN、未經(jīng)RS處理的RBFNN以及RS-BPNN的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比.
為了方便比較,選取歸一化均方誤差(NMSE)以及平均絕對(duì)百分比誤差(MAPE)作為評(píng)價(jià)標(biāo)準(zhǔn),誤差計(jì)算公式見(jiàn)式(5)、式(6):
(5)
(6)
未經(jīng)RS處理的BPNN、未經(jīng)RS處理的RBFNN,RS-BPNN的預(yù)測(cè)結(jié)果對(duì)比見(jiàn)表5.
表5 不同預(yù)測(cè)模型預(yù)測(cè)結(jié)果對(duì)比
由表5可知,在預(yù)測(cè)誤差方面,未經(jīng)RS處理的BPNN的預(yù)測(cè)誤差最大,MAPE達(dá)到18.64%,NMSE為0.205;RS-BPNN預(yù)測(cè)的誤差明顯減小,MAPE降低了9.81%,NMSE降低了0.148;未經(jīng)RS處理的RBFNN的預(yù)測(cè)誤差較小,MAPE達(dá)到9.20%,NMSE為0.061,RS-RBFNN的預(yù)測(cè)結(jié)果比上述3種模型的精度都要高,MAPE為2.46%,NMSE為0.007.在預(yù)測(cè)速度方面,RS-BPNN需要4.82 s,而RS-RBFNN只需要1.93 s,預(yù)測(cè)時(shí)間明顯縮短,預(yù)測(cè)速度快.
1) 本文利用粗糙集的屬性約簡(jiǎn)功能,從13個(gè)工程造價(jià)影響因素中,篩選出4個(gè)主要因素:樓地面類型、建筑面積、門窗類型、外墻裝飾,粗糙集的屬性約簡(jiǎn)很好地消除了變量間的冗余信息,簡(jiǎn)化了數(shù)據(jù)輸入維數(shù),提高了RBFNN的學(xué)習(xí)速度和預(yù)測(cè)精度,使得預(yù)測(cè)結(jié)果更加準(zhǔn)確.
2) 將RS-RBFNN的預(yù)測(cè)結(jié)果與其他方法的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,得出RS-RBFNN的預(yù)測(cè)誤差和預(yù)測(cè)速度明顯小于其他方法,所以RS-RBFNN模型更適合于建筑工程造價(jià)的預(yù)測(cè).
3) 本文作為工程造價(jià)預(yù)測(cè)在智能化方向上的一次嘗試性研究,以期對(duì)建筑企業(yè)提高造價(jià)管理水平有所裨益.
4) 本文提出的工程造價(jià)預(yù)測(cè)模型在預(yù)測(cè)速度、精度方面都有一定的提高,但是也存在一些不足和有待于進(jìn)一步研究的地方:人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的預(yù)測(cè)精度隨著樣本數(shù)目的增大而提高,而本文中的樣本數(shù)據(jù)是筆者通過(guò)調(diào)查搜集得到的,其數(shù)量有限,所以預(yù)測(cè)精度尚有提升空間;在目前大數(shù)據(jù)應(yīng)用的背景下,今后可以考慮采用互聯(lián)網(wǎng)集成技術(shù),建立全面專業(yè)的數(shù)據(jù)庫(kù),以此來(lái)進(jìn)一步提升造價(jià)預(yù)測(cè)的精度.