趙 山,蘇一帆
(華北水利水電大學(xué)土木與交通學(xué)院,河南 鄭州 450045)
建筑能耗在通常情況下是指建筑從建設(shè)前的材料、施工、到投入使用的整個(gè)過(guò)程中產(chǎn)生的能耗,這些能耗的計(jì)算是每個(gè)建筑企業(yè)管理過(guò)程中不可或缺的內(nèi)容[1]。能耗計(jì)算是建筑的一種高級(jí)能耗分析形式,可針對(duì)建筑中的全部用能項(xiàng)目類(lèi)別數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和計(jì)算,其可用于建筑成本的分析,掌握建筑各個(gè)項(xiàng)目類(lèi)別的能耗情況,對(duì)建筑成本掌控具有重要意義[2]。但是在對(duì)這些數(shù)據(jù)計(jì)算時(shí),會(huì)存在缺失或者受損,以及無(wú)效等異常數(shù)據(jù),這些異常數(shù)據(jù)對(duì)于計(jì)算的結(jié)果存在較大影響。當(dāng)數(shù)據(jù)中含有的數(shù)據(jù)類(lèi)別較多時(shí),識(shí)別的結(jié)果越容易受到影響。因此,在對(duì)各類(lèi)能耗計(jì)算時(shí),需準(zhǔn)確識(shí)別能耗數(shù)據(jù)中的異常數(shù)據(jù),保證計(jì)算結(jié)果的準(zhǔn)確性。回歸分析是一種用于數(shù)據(jù)分析的方法,其可通過(guò)相關(guān)的數(shù)據(jù)統(tǒng)計(jì)結(jié)果,針對(duì)數(shù)據(jù)間存在的某些關(guān)聯(lián)構(gòu)建回歸分析方程,用于完成數(shù)據(jù)分析?;貧w分析存在兩種方式,分別為線(xiàn)性以及非線(xiàn)性分析,回歸分析使用過(guò)程中需要以數(shù)據(jù)為依據(jù),構(gòu)建回歸方程后求解回歸系數(shù),采用相關(guān)性對(duì)其進(jìn)行檢驗(yàn),獲取相關(guān)系數(shù),將其與實(shí)際情況相結(jié)合,確定目標(biāo)的實(shí)際情況,實(shí)現(xiàn)需求的分析[3]。
當(dāng)下用于識(shí)別建筑能耗異常數(shù)據(jù)的方法較多,例如文獻(xiàn)[4]提出的基于分層聚合的異常數(shù)據(jù)識(shí)別算法和文獻(xiàn)[5]提出的基于DCNDA算法的異常數(shù)據(jù)識(shí)別算法,均可完成單屬性數(shù)據(jù)集中的異常數(shù)據(jù)識(shí)別,但是在多屬性數(shù)據(jù)集中的異常數(shù)據(jù)識(shí)別的效果相對(duì)不夠理想,異常數(shù)據(jù)數(shù)量越多,其識(shí)別效果越差,識(shí)別的相關(guān)系數(shù)較低?;诖?,本文提出基于回歸分析的建筑能耗異常數(shù)據(jù)識(shí)別算法,以回歸分析理論為依據(jù),構(gòu)建回歸模型,實(shí)現(xiàn)建筑能耗異常數(shù)據(jù)的識(shí)別,保證異常數(shù)據(jù)可被準(zhǔn)確識(shí)別。
2.1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是識(shí)別的基礎(chǔ),為完成異常數(shù)據(jù)識(shí)別,需對(duì)建筑能耗數(shù)據(jù)進(jìn)行挖掘[6],本文采用梯度提升回歸樹(shù)完成建筑能耗數(shù)據(jù)挖掘,將建筑能耗數(shù)據(jù)定義為目標(biāo)數(shù)據(jù)。該算法挖掘目標(biāo)數(shù)據(jù)過(guò)程中,以挖掘目標(biāo)數(shù)據(jù)的關(guān)聯(lián)主特征為目標(biāo),則輸出為
(1)
式中:f表示特征;k和k-1分別表示第k個(gè)和第k-1個(gè)數(shù)據(jù)。
為獲取目標(biāo)數(shù)據(jù)的密度特征,通過(guò)回歸樹(shù)分析方法完成,該特征屬于統(tǒng)計(jì)分布概率,其計(jì)算公式為
(2)
式中:一個(gè)更新周期的差距存在tn+1和tn兩個(gè)時(shí)刻;D表示量化特征分布集,屬于本文算法進(jìn)行挖掘的目標(biāo)數(shù)據(jù),求解互為信息量,且屬于目標(biāo)數(shù)據(jù),采用梯度提升回歸樹(shù)完成[7],其計(jì)算公式為
(3)
(4)
梯度提升回歸模型的建立依據(jù)多隊(duì)列調(diào)度方法完成,si={xj:d(xj,yi)≤d(xj,yl)}表示訓(xùn)練集,其中,d表示交互性統(tǒng)計(jì)數(shù)據(jù),其屬于目標(biāo)數(shù)據(jù);以其為依據(jù)獲取目標(biāo)數(shù)據(jù)的挖掘幀序列[8]
MinWH=min{w(cc),h(cc)}
(5)
(6)
核函數(shù)依據(jù)式(5)和(6)的結(jié)果構(gòu)建,對(duì)加權(quán)進(jìn)行調(diào)整后可得出目標(biāo)數(shù)據(jù)的統(tǒng)計(jì)輸出和幾何鄰域[9],分別為Nj*和NEj*(t),同時(shí)獲取目標(biāo)數(shù)據(jù)挖掘的模糊聚類(lèi)中心,其為
U={μik|i=1,2,…,c,k=1,2,…,n}
(7)
為獲取回歸樹(shù)目標(biāo)數(shù)據(jù)的分析目標(biāo)函數(shù),以關(guān)聯(lián)規(guī)則為參考,其公式為
(8)
優(yōu)化后聚類(lèi)中心為
(9)
(10)
式中:適應(yīng)度函數(shù)用m表示;xk表示目標(biāo)數(shù)據(jù)樣本;Vi表示關(guān)聯(lián)數(shù)據(jù)樣本;dik表示兩者間的測(cè)度距離??臻g聚類(lèi)分布通過(guò)挖掘結(jié)果獲取,其為
(11)
式(11)需滿(mǎn)足(12)的條件:
(12)
2.1.2 數(shù)據(jù)融合聚類(lèi)
如果x(t)表示目標(biāo)數(shù)據(jù)挖掘區(qū)域的離散序列,t=0,1,…,n-1;梯度提升基函數(shù)則用式(13)表示,且其屬于設(shè)置的每一個(gè)隊(duì)列范圍內(nèi)
u=[u1,u2,…,uN]∈RmN
(13)
目標(biāo)數(shù)據(jù)挖掘最大梯度差的獲取,需對(duì)目標(biāo)數(shù)據(jù)的丟包率和傳送延時(shí)進(jìn)行分析后計(jì)算得出[10],其公式為
(14)
關(guān)聯(lián)指向性特征通過(guò)式(15)獲取,且屬于目標(biāo)數(shù)據(jù)回歸樹(shù),其為
(15)
目標(biāo)數(shù)據(jù)梯度差異化信息特征的提取在差異程度明顯的情況下完成,且該差異屬于梯度特征;為獲取挖掘目標(biāo)數(shù)據(jù)的輸出,對(duì)挖掘到的數(shù)據(jù)進(jìn)行融合[11],得出輸出結(jié)果
(16)
式中:差異化的隊(duì)列融合屬性數(shù)據(jù)分別用X、Y表示;密度函數(shù)分別用P(X)、P(Y)表示;概率分布用P(X∩Y)表示。
2.2.1 自回歸模型
基于回歸分析理論構(gòu)建自回歸模型,其可根據(jù)變量自身存在的規(guī)律完成。為準(zhǔn)確識(shí)別目標(biāo)數(shù)據(jù)中的異常數(shù)據(jù),本文將殘差平方和(SSE)引入模型中,完成新的統(tǒng)計(jì)量建立,用于識(shí)別數(shù)據(jù)中的異常數(shù)據(jù)[12]。回歸模型公式為
yi=β0+β1xi1+β2xi2+…+βpxip+εi,i=1,2,…,n
(17)
式中:回歸系數(shù)用βj(j=0,1,…,p)表示;隨機(jī)誤差和階數(shù)分別用εi和p表示。
異常數(shù)據(jù)識(shí)別變量用γi表示,將其引入各個(gè)識(shí)別數(shù)據(jù)中,引入γi后模型成為均值轉(zhuǎn)移模型,其為
yi=β0+β1xi1+β2xi2+…+βpxip+δiγi+εi,
i=1,2,…,n
(18)
根據(jù)式(18)可知數(shù)據(jù)是否為異常值,可通過(guò)γi判斷。
模型在進(jìn)行異常數(shù)據(jù)識(shí)別時(shí),無(wú)法確定是否存在異常數(shù)據(jù),因此,如果異常數(shù)據(jù)不存在模型中,則模型可通過(guò)式(19)表示
Y=Xβ+ε
(19)
SSE=YT(I-H(X))Y
(20)
2.2.2 異常數(shù)據(jù)的計(jì)算和識(shí)別
將獲取的差異化屬性數(shù)據(jù)特征分別輸入至模型中,通過(guò)模型進(jìn)行異常數(shù)據(jù)的計(jì)算和識(shí)別。
如果輸入模型中的數(shù)據(jù)為異常數(shù)據(jù),則表示γk=1,δk則表示該異常數(shù)據(jù)的大?。怀酥獾臄?shù)據(jù)均為非異常數(shù)據(jù),則此刻SSE的計(jì)算公式為
SSEk=(Y-δkIk)T(I-H(X))(Y-δkIk)
(21)
(22)
將式(22)的結(jié)果帶入式(21)中進(jìn)行求解后得出SSEk=SSE-Δk,其中
(23)
式中:在數(shù)據(jù)為異常數(shù)據(jù)的情況下,Δk表示殘差平方和。
選取某建筑企業(yè)2019年多屬性建筑能耗統(tǒng)計(jì)數(shù)據(jù)集為測(cè)試對(duì)象,數(shù)據(jù)集數(shù)量共1550個(gè),該數(shù)據(jù)數(shù)量中包含兩種異常數(shù)據(jù),分別為缺失數(shù)據(jù)和無(wú)效數(shù)據(jù)。數(shù)據(jù)集中包含三種屬性數(shù)據(jù),分別為建筑材料數(shù)據(jù)數(shù)量650個(gè)(異常數(shù)據(jù)24個(gè))、施工數(shù)據(jù)550個(gè)(異常數(shù)據(jù)17個(gè))、投入使用數(shù)據(jù)350個(gè)(異常數(shù)據(jù)5個(gè))。采用Matlab軟件完成,回歸樹(shù)迭代次數(shù)為200次。
數(shù)據(jù)特征分布集的挖掘是異常數(shù)據(jù)識(shí)別的基礎(chǔ)。采用本文算法挖掘數(shù)據(jù)集,獲取數(shù)據(jù)特征分布集,結(jié)果見(jiàn)圖1。
圖1 數(shù)據(jù)特征分布集
根據(jù)圖1測(cè)試結(jié)果可知:獲取的數(shù)據(jù)特征分布集中,分散三種數(shù)據(jù)的特征,說(shuō)明本文算法具備數(shù)據(jù)特征挖掘性能,可獲取數(shù)據(jù)集中不同屬性的數(shù)據(jù)特征分布集,為異常數(shù)據(jù)識(shí)別提供依據(jù)。
為分析本文算法的特征挖掘效果,采用文本算法對(duì)圖1獲取的數(shù)據(jù)特征分布集進(jìn)行挖掘,獲取不同屬性數(shù)據(jù)特征,用于分析本文算法數(shù)據(jù)挖掘效果,結(jié)果見(jiàn)圖2。
圖2 空間聚類(lèi)分布結(jié)果
根據(jù)圖2測(cè)試結(jié)果可知:本文算法可根據(jù)不同特征的聚類(lèi)中心,有效完成不同屬性數(shù)據(jù)特征聚類(lèi),并且實(shí)現(xiàn)不同屬性特征的分類(lèi)聚類(lèi)。該結(jié)果表明:本文算法的聚類(lèi)效果良好,可有效依據(jù)不同數(shù)據(jù)特征屬性,可靠完成數(shù)據(jù)的特征分類(lèi)聚類(lèi)。
為測(cè)試本文算法對(duì)于異常數(shù)據(jù)的識(shí)別效果,進(jìn)行異常數(shù)據(jù)識(shí)別,在單屬性施工數(shù)據(jù)特征中第35個(gè)識(shí)別數(shù)據(jù)上引入大小為-22的缺失數(shù)據(jù),測(cè)試本文算法對(duì)其識(shí)別效果,見(jiàn)圖3;在單屬性建筑材料數(shù)據(jù)特征中第125個(gè)和155個(gè)識(shí)別數(shù)據(jù)上,分別引入大小為19和-16的無(wú)效數(shù)據(jù)和缺失數(shù)據(jù),測(cè)試本文算法對(duì)其識(shí)別效果,見(jiàn)圖4;在多屬性數(shù)據(jù)中,第445個(gè)識(shí)別數(shù)據(jù)上,同時(shí)引入大小為31和-34的無(wú)效數(shù)據(jù)和缺失數(shù)據(jù)、第1265個(gè)識(shí)別數(shù)據(jù)上,同時(shí)引入大小為38和-44的無(wú)效數(shù)據(jù)和缺失數(shù)據(jù),測(cè)試本文算法的識(shí)別效果,見(jiàn)圖5。
圖3 單一屬性數(shù)據(jù)中的一種異常數(shù)據(jù)識(shí)別結(jié)果
圖4 單一屬性數(shù)據(jù)中的多種異常數(shù)據(jù)識(shí)別結(jié)果
圖5 多屬性數(shù)據(jù)中的多種異常數(shù)據(jù)識(shí)別結(jié)果
根據(jù)圖3、圖4和圖5測(cè)試結(jié)果可知:?jiǎn)我活?lèi)型數(shù)據(jù)中只存在一種異常數(shù)據(jù)時(shí),本文算法可較好完成異常數(shù)據(jù)的識(shí)別;當(dāng)存在的異常數(shù)據(jù)為多種時(shí),依舊可準(zhǔn)確識(shí)別出引入的所有數(shù)據(jù);在綜合類(lèi)數(shù)據(jù)中,當(dāng)兩種異常數(shù)據(jù)同時(shí)出現(xiàn)在一個(gè)識(shí)別數(shù)據(jù)上時(shí),本文算法仍能夠可靠完成異常數(shù)據(jù)的識(shí)別;同時(shí),在識(shí)別引入的異常數(shù)據(jù)的同時(shí),數(shù)據(jù)集中原有的異常數(shù)據(jù)均可有效識(shí)別出。該結(jié)果表明:本文算法可同時(shí)完成單一數(shù)據(jù)中已有的和引入的異常數(shù)據(jù)識(shí)別;綜合數(shù)據(jù)中的已有的和引入的并發(fā)多種異常數(shù)據(jù)識(shí)別,并且識(shí)別效果良好,在不同類(lèi)別的異常數(shù)據(jù)同時(shí)存在一個(gè)數(shù)據(jù)上時(shí),依據(jù)可準(zhǔn)確識(shí)別。
為進(jìn)一步衡量本文算法對(duì)于異常數(shù)據(jù)的識(shí)別性能,將文獻(xiàn)[4]的基于分層聚合的異常數(shù)據(jù)識(shí)別算法和文獻(xiàn)[5]的基于DCNDA算法的異常數(shù)據(jù)識(shí)別算法作為本文算法的對(duì)比算法,以相關(guān)系數(shù)作為衡量標(biāo)準(zhǔn),采用三種算法對(duì)數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行識(shí)別,計(jì)算三種算法識(shí)別的相關(guān)系數(shù),以此分析三種算法的異常數(shù)據(jù)識(shí)別性能,結(jié)果見(jiàn)圖6。相關(guān)系數(shù)值越高,表示算法的識(shí)別性能越好。
相關(guān)系數(shù)計(jì)算公式為:
(24)
圖6 三種算法的相關(guān)系數(shù)測(cè)試結(jié)果
根據(jù)圖6測(cè)試結(jié)果可知:對(duì)多屬性數(shù)據(jù)集的異常數(shù)據(jù)進(jìn)行識(shí)別時(shí),本文算法識(shí)別相關(guān)系數(shù)值最佳,并且異常數(shù)據(jù)量的增加,相關(guān)系數(shù)值的變化較小,沒(méi)有受到數(shù)量增加的影響,呈現(xiàn)緩慢小幅度的增長(zhǎng)趨勢(shì);兩種對(duì)比算法異常數(shù)據(jù)識(shí)別的相關(guān)系數(shù)值明顯低于本文算法,并且異常數(shù)據(jù)數(shù)量的增加,兩種算法相關(guān)系數(shù)呈顯著下降趨勢(shì),說(shuō)明在多屬性數(shù)據(jù)集中的異常數(shù)據(jù)數(shù)量越多,兩種算法的識(shí)別效果降低。該測(cè)試結(jié)果表明:本文算法的異常數(shù)據(jù)識(shí)別性能良好,多屬性數(shù)據(jù)集中異常數(shù)據(jù)識(shí)別的相關(guān)系數(shù)均在0.972以上,顯著優(yōu)于兩種對(duì)比算法。
建筑能耗數(shù)據(jù)對(duì)于建筑企業(yè)的成本預(yù)算和利潤(rùn)計(jì)算存在直接關(guān)聯(lián),因此,各建筑企業(yè)需依據(jù)建筑能耗數(shù)據(jù)完成能耗計(jì)算。由于數(shù)據(jù)中會(huì)存在各種異常數(shù)據(jù),對(duì)于計(jì)算結(jié)果存在直接影響,本文提出基于回歸分析的建筑能耗異常數(shù)據(jù)識(shí)別算法,識(shí)別建筑能耗數(shù)據(jù)中的異常數(shù)據(jù)。經(jīng)測(cè)試:該算法具備較好的數(shù)據(jù)分類(lèi)聚類(lèi)效果,可根據(jù)數(shù)據(jù)屬性的差異完成數(shù)據(jù)特征挖掘,并且有效完成多屬性數(shù)據(jù)中異常數(shù)據(jù)的識(shí)別,識(shí)別性能優(yōu)于兩種對(duì)比方法,可用于建筑能耗異常數(shù)據(jù)的識(shí)別,保證識(shí)別結(jié)果具備良好的可靠性,為建筑企業(yè)的成本預(yù)算以及利潤(rùn)核算提供可靠依據(jù)。