劉 崢,黃真銀,徐成良,陳煥新*,李昱瑾
(1-華中科技大學(xué)中歐清潔與再生能源學(xué)院,湖北武漢 430074;2-湖北卓立集控智能技術(shù)有限公司,湖北宜昌 443000;3-華中科技大學(xué)能源與動(dòng)力工程學(xué)院,湖北武漢 430074)
隨著新時(shí)期下城鎮(zhèn)化及工業(yè)化進(jìn)行的飛速推進(jìn),我國(guó)能源需求不斷增加,節(jié)能減排工作也日益緊迫。高能耗設(shè)備因其在用數(shù)繁多、點(diǎn)多面廣、耗能大和能源使用效率低等特點(diǎn),具有巨大的節(jié)能潛力[1]。因此,對(duì)高能耗設(shè)備的能耗分析和節(jié)能改進(jìn)尤為重要[2-6]。
近年來(lái),基于數(shù)據(jù)挖掘的建筑能耗數(shù)據(jù)分析相關(guān)研究正在越來(lái)越廣泛[7-8]。WANG 等[9]基于建筑能耗數(shù)據(jù)開發(fā)了一個(gè)集成工具包原型,并進(jìn)行了驗(yàn)證,該方法能夠有效地檢測(cè)運(yùn)行不良和能源浪費(fèi)。侯博文等[10]采用網(wǎng)格搜索法優(yōu)化的支持向量機(jī)模型用于建筑能耗預(yù)測(cè),優(yōu)化結(jié)果顯著,能很好地完成建筑能耗預(yù)測(cè)工作。丁飛鴻等[11]采用遺傳算法優(yōu)化決策樹模型用于短期建筑能耗預(yù)測(cè),與傳統(tǒng)的回歸模型相比,該模型預(yù)測(cè)精度有明顯提高。鄧曉紅等[12]利用粒子群算法優(yōu)化最小二乘支持向量機(jī)(Particle Swarm Optimization of the Least Squares Support Vector Machine,PSO-LS-SVMR)模型用于公共建筑短期能耗預(yù)測(cè),并將預(yù)測(cè)結(jié)果與遞歸神經(jīng)網(wǎng)絡(luò)(Leven-Berg-Marquardt Back Propagation Neuron Network,LBM-BPNN)模型作對(duì)比,結(jié)果表明PSO-LS-SVMR模型具有更好的預(yù)測(cè)精度。
除了用于建筑的能耗分析,數(shù)據(jù)挖掘在空調(diào)領(lǐng)域的能耗研究也正在成為一項(xiàng)重要的課題[13-15]。XIAO等[16]通過(guò)關(guān)聯(lián)規(guī)則算法分析建筑中空調(diào)設(shè)備能耗數(shù)據(jù)的問題,有效降低了能耗。YU等[17]利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)算法分析了耗能體的年能耗數(shù)據(jù)和日能耗數(shù)據(jù),通過(guò)對(duì)空調(diào)系統(tǒng)運(yùn)行能耗數(shù)據(jù)的異常識(shí)別,找出了空調(diào)設(shè)備運(yùn)行過(guò)程中的能源浪費(fèi)及設(shè)備故障問題,挖掘了節(jié)能潛力,證明了該方法的有效性。廖文強(qiáng)等[18]利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對(duì)空調(diào)系統(tǒng)進(jìn)行能耗預(yù)測(cè),與傳統(tǒng)的預(yù)測(cè)方法相比具有更好的精度。王智銳等[19]分別用支持向量機(jī)(Support Vector Machine,SVM)模型和自回歸滑動(dòng)平均(Autoregressive Moving Average,ARMA)模型對(duì)夏季空調(diào)負(fù)荷進(jìn)行預(yù)測(cè),結(jié)果表明SVM模型具有更好的精度和泛化能力。
本文利用 10折交叉驗(yàn)證和網(wǎng)格搜索法優(yōu)化的支持向量機(jī)模型對(duì)冷水機(jī)組的能耗進(jìn)行預(yù)測(cè),在獲得輸入數(shù)據(jù)階段,引入了主成分分析(Principal Component Analysis,PCA)數(shù)據(jù)簡(jiǎn)化方法,觀察PCA對(duì)支持向量機(jī)模型的影響。在模型評(píng)價(jià)階段,本文采用了平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)、擬合優(yōu)度(R2)三個(gè)評(píng)價(jià)指標(biāo)。
網(wǎng)格搜索法是支持向量機(jī)可調(diào)參數(shù)尋優(yōu)的一種方法,主成分分析(PCA)的目的是獲得變量降維的簡(jiǎn)化計(jì)算,將兩者與支持向量機(jī)(SVM)結(jié)合得到網(wǎng)格搜索法優(yōu)化PCA-SVM模型。
在能耗預(yù)測(cè)模型建立過(guò)程中,若存在多個(gè)與能耗具有相關(guān)性的變量,這些變量全部參與建模,無(wú)疑增大了建模問題的復(fù)雜程度,進(jìn)而增加建模成本,PCA是一種對(duì)數(shù)據(jù)進(jìn)行降維并找到更少的彼此線性不相關(guān)的變量來(lái)代替原有變量的數(shù)據(jù)簡(jiǎn)化方法[20]。判斷是否利用 PCA進(jìn)行降維主要通過(guò)相關(guān)性分析,若存在兩個(gè)變量之間的相關(guān)性達(dá)到0.7及以上,需利用PCA進(jìn)行降維。
分析不同屬性數(shù)據(jù)之間線性相關(guān)程度的強(qiáng)弱,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來(lái)的過(guò)程稱為相關(guān)性分析[21]。本文在進(jìn)行相關(guān)性分析時(shí)所采用的指標(biāo)為Pearson相關(guān)系數(shù)(r),其計(jì)算如式(1)所示:
SVM是基于統(tǒng)計(jì)學(xué)的一種監(jiān)督式學(xué)習(xí)方法,普遍應(yīng)用于數(shù)據(jù)分類和回歸分析。
SVM用于回歸分析的基本思路為:對(duì)于n個(gè)輸入變量和m組數(shù)據(jù)的訓(xùn)練樣本,即T={(x11, y1),…(xij,yj),…(xmm, ym)}。設(shè)支持向量回歸的超平面的擬合函數(shù)為y=b+WTX,W為權(quán)重系數(shù)向量,b為偏置量。利用擬合函數(shù)所得的預(yù)測(cè)值和實(shí)際值之間有一定的差值,若差值大于 ε,則對(duì)損失函數(shù)有貢獻(xiàn),若小于ε,則無(wú)貢獻(xiàn)。
損失函數(shù)為:
在使用SVM算法建模時(shí),存在懲罰參數(shù)C、核函數(shù)參數(shù)g等可調(diào)參數(shù)會(huì)對(duì)建模結(jié)果產(chǎn)生較大影響。其中懲罰參數(shù)C影響模型的擬合程度,而核函數(shù)參數(shù)g影響支持向量的個(gè)數(shù)。確定最佳的C、g參數(shù)在SVM算法建模中顯得尤為重要,本文通過(guò)交叉驗(yàn)證法與網(wǎng)格搜索法對(duì)C、g參數(shù)進(jìn)行尋優(yōu),以實(shí)現(xiàn)對(duì)SVM的優(yōu)化。
N折交叉驗(yàn)證法的基本原理:輪流N次將數(shù)據(jù)集劃分為大小一致的N部分,用其中的N-1部分作為訓(xùn)練集,剩余的1部分作為驗(yàn)證集,N次驗(yàn)證結(jié)果的精度的平均值作為對(duì)建模精度的估計(jì)值。
網(wǎng)格搜索法優(yōu)化SVM模型參數(shù)的基本思路:1)利用網(wǎng)格搜索法找出用于建模的所有可調(diào)參數(shù)并進(jìn)行參數(shù)組合;2)依次對(duì)所有參數(shù)組合進(jìn)行支持向量機(jī)建模;3)以N折交叉驗(yàn)證法下的建模精度為判斷依據(jù)得出最佳模型和可調(diào)參數(shù)。
圖1所示為PCA-SVM算法流程,整個(gè)流程分為4個(gè)部分。
1)數(shù)據(jù)預(yù)處理:對(duì)原始數(shù)據(jù)集進(jìn)行冗余屬性剔除,缺失值及異常值處理,數(shù)據(jù)規(guī)范化處理等工作;
2)主成分分析:利用相關(guān)性分析計(jì)算各個(gè)變量之間的相關(guān)系數(shù),利用主成分分析構(gòu)建新變量;
3)構(gòu)建模型:將得到新變量的數(shù)據(jù)按照4:1的比例構(gòu)建訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),利用訓(xùn)練數(shù)據(jù)訓(xùn)練出支持向量機(jī)模型;
4)優(yōu)化模型:利用10折交叉驗(yàn)證和網(wǎng)格搜索法得到最優(yōu)的懲罰參數(shù)C、核函數(shù)參數(shù)g的取值,同時(shí)得到最優(yōu)的支持向量機(jī)模型。
圖1 PCA-SVM算法流程
本文以某醫(yī)院的離心式冷水機(jī)組為研究對(duì)象。該醫(yī)院總建筑面積為37,000 m2,地上5層,地下2層。建筑包含病房、包間、貴賓室、會(huì)議室和大堂等多種不同類型的空間,所有空間的夏季冷負(fù)荷為1,797 kW,冬季熱負(fù)荷為1,677 kW。建筑的供冷需求時(shí)段在6月至10月,供暖需求時(shí)段為11月至第二年的4月。
圖2所示為該建筑的空調(diào)水系統(tǒng)工作原理,整個(gè)系統(tǒng)以兩臺(tái)離心式冷水機(jī)組作為冷源。在冷凍水部分,采用復(fù)式泵系統(tǒng),冷源側(cè)一臺(tái)泵對(duì)應(yīng)一臺(tái)冷水機(jī)組,泵的揚(yáng)程用于克服冷水機(jī)組中換熱器的阻力;負(fù)荷側(cè)3臺(tái)泵并聯(lián),泵的揚(yáng)程用于克服空調(diào)末端換熱器和管路中各個(gè)部件的阻力,負(fù)荷側(cè)的循環(huán)泵流量隨負(fù)荷變化而變化。在冷卻水部分,采用“一泵對(duì)一機(jī)”的方式,當(dāng)一臺(tái)冷水機(jī)組關(guān)閉時(shí)冷卻水循環(huán)泵隨之關(guān)閉。
圖2 空調(diào)水系統(tǒng)工作原理
采集課題研究所用的數(shù)據(jù)時(shí),在系統(tǒng)的各個(gè)關(guān)鍵位置布置傳感器,利用中央空調(diào)機(jī)房群控與樓控裝置對(duì)數(shù)據(jù)進(jìn)行記錄和儲(chǔ)存,頻率為1次/min,記錄對(duì)象包括室外溫度、濕度以及分布在室內(nèi)的各類傳感器采集的數(shù)據(jù)。本文選擇裝置存儲(chǔ)的 2017-09-04—2017-10-04一整月的數(shù)據(jù)為源數(shù)據(jù),以其中冷水機(jī)組的瞬時(shí)功率作為預(yù)測(cè)對(duì)象,剩余的因素作為可能影響冷水機(jī)組能耗的對(duì)象展開研究。
離心式冷水機(jī)組作為高能耗設(shè)備,其能耗數(shù)據(jù)具有非線性、多因素、時(shí)變復(fù)雜、高重疊與強(qiáng)噪音等特點(diǎn)[20],需通過(guò)數(shù)據(jù)預(yù)處理得到對(duì)建立模型有意義的數(shù)據(jù)。本文依次對(duì)原始數(shù)據(jù)進(jìn)行了缺失值及異常值處理,冗余屬性剔除和數(shù)據(jù)規(guī)范化等處理,其中缺失值處理采用回歸補(bǔ)插法,數(shù)據(jù)規(guī)范化處理采用最小-最大規(guī)范化法,最終確定冷凍水進(jìn)水溫度、蒸發(fā)溫度和瞬時(shí)功率等16個(gè)變量以及24,953組時(shí)序數(shù)據(jù)用于建立能耗預(yù)測(cè)模型。
對(duì)變量進(jìn)行相關(guān)性分析,計(jì)算除瞬時(shí)功率外其他 15個(gè)變量?jī)蓛芍g的相關(guān)系數(shù),相關(guān)系數(shù)絕對(duì)值分布如圖3所示。
圖3 相關(guān)系數(shù)絕對(duì)值分布
圖3中總共120個(gè)相關(guān)系數(shù),絕對(duì)值落在(0, 0.3]區(qū)間的數(shù)量為31,絕對(duì)值落在(0.3, 0.5]區(qū)間的數(shù)量為32,絕對(duì)值落在(0.5, 0.7]區(qū)間的數(shù)量為25,絕對(duì)值落在(0.7, 1]區(qū)間的數(shù)量為32。即存在多組變量之間的相關(guān)性達(dá)到0.7及以上,需要利用主成分分析進(jìn)行降維,主成分分析結(jié)果如表1所示。
表1 主成分分析
由表1可知,前4個(gè)新主成分累計(jì)方差比率達(dá)到92.43%,可選取這4個(gè)變量作為新的建模變量,將輸入數(shù)據(jù)從15個(gè)變量的維度減少至4個(gè)變量的維度。
本課題分別對(duì)訓(xùn)練數(shù)據(jù)建立 SVM-A、SVM-B和PCA-SVM-B預(yù)測(cè)模型。SVM-A模型直接將影響冷水機(jī)組瞬時(shí)功率的 15個(gè)變量作為模型的輸入,利用支持向量機(jī)回歸模型進(jìn)行預(yù)測(cè)。SVM-B模型在SVM-A模型的基礎(chǔ)上進(jìn)行可調(diào)參數(shù)尋優(yōu),利用優(yōu)化后的模型進(jìn)行預(yù)測(cè)。PCA-SVM-B模型對(duì)上述15個(gè)變量進(jìn)行主成分分析,將構(gòu)建的4個(gè)新變量作為模型的輸入,參數(shù)尋優(yōu)之后利用優(yōu)化后的模型進(jìn)行預(yù)測(cè)。
進(jìn)行網(wǎng)格搜索時(shí),利用2的指數(shù)窮舉參數(shù)取值,SVM-B模型和PCA-SVM-B模型可調(diào)參數(shù)C的取值范圍為(2-2, 210)、g的取值范圍為(2-5, 25),參數(shù)的所有組合種類為143種。參數(shù)尋優(yōu)時(shí),采用10折交叉驗(yàn)證算法對(duì)模型進(jìn)行精度評(píng)估。
在對(duì)支持向量機(jī)算法進(jìn)行可調(diào)參數(shù)尋優(yōu)時(shí),往往存在多組參數(shù)組合的模型精度相近的情況,為了避免大C值造成模型過(guò)擬合、泛化能力差,此時(shí)參數(shù)值應(yīng)盡量選取C值較小的參數(shù)組合。本課題SVM-B模型中C=16、g=0.125,PCA-SVM-B模型中C=16、g=1。
SVM-A模型的能耗預(yù)測(cè)結(jié)果如圖 4所示,粗實(shí)線代表預(yù)測(cè)值與實(shí)際值完全吻合,細(xì)實(shí)線之間區(qū)域?yàn)?90%的置信度空間。進(jìn)一步分析,SVM 模型預(yù)測(cè)值與實(shí)際值之間的平均絕對(duì)誤差(MAE)為0.023,均方根誤差(RMSE)為 0.059,擬合優(yōu)度(R2)為0.877,建模時(shí)長(zhǎng)為0.15 min。
圖4 SVM-A模型的能耗預(yù)測(cè)結(jié)果
SVM-B模型的能耗預(yù)測(cè)結(jié)果如圖5所示,將圖5和圖4作對(duì)比,發(fā)現(xiàn)優(yōu)化后的模型SVM-B較模型SVM-A的預(yù)測(cè)精度有較大提升。
PCA-SVM-B模型的能耗預(yù)測(cè)結(jié)果如圖6所示,將圖6和圖5作對(duì)比,發(fā)現(xiàn)采用PCA-SVM-B模型預(yù)測(cè)精度較SVM-B模型預(yù)測(cè)精度有略微降低。
表2所示為模型評(píng)價(jià)指標(biāo)的對(duì)比。由表2可知,SVM-B模型較SVM-A模型在MAE、RMSE和R2這3個(gè)指標(biāo)上都有較大的提升,其中MAE減小了43.48%,RMSE減小了71.19%,R2增加了12.88%,但是建模時(shí)長(zhǎng)增加了近130倍。而PCA-SVM-B模型較SVM-B模型在MAE、RMSE和R2這3個(gè)指標(biāo)上數(shù)值相近,但是建模時(shí)長(zhǎng)縮短了80%。
圖5 SVM-B模型的能耗預(yù)測(cè)結(jié)果
圖6 PCA-SVM-B模型的能耗預(yù)測(cè)結(jié)果
表2 模型評(píng)價(jià)指標(biāo)的對(duì)比
本文提出了一種基于主成分分析(PCA)和支持向量機(jī)(SVM)的冷水機(jī)組能耗預(yù)測(cè)模型。采用交叉驗(yàn)證和網(wǎng)格搜索法優(yōu)化支持向量機(jī)(SVM),將PCA-SVM的預(yù)測(cè)結(jié)果與優(yōu)化后的SVM進(jìn)行比較,得到如下結(jié)論:
1)利用SVM算法構(gòu)建離心式冷水機(jī)組能耗預(yù)測(cè)模型時(shí),采用網(wǎng)格搜索法和交叉驗(yàn)證法優(yōu)化模型的效果較理想;優(yōu)化后的SVM預(yù)測(cè)模型的擬合優(yōu)度達(dá)到0.99,較未經(jīng)優(yōu)化的模型提升了12.88%;
2)PCA數(shù)據(jù)簡(jiǎn)化方法可以在不對(duì)預(yù)測(cè)精度產(chǎn)生較大影響的情況下有效地節(jié)省計(jì)算資源,經(jīng)過(guò)PCA簡(jiǎn)化數(shù)據(jù)后的模型較未經(jīng)簡(jiǎn)化的模型的計(jì)算時(shí)長(zhǎng)縮短了80%,而兩者的3個(gè)評(píng)價(jià)指標(biāo)的差值保持在8%的范圍內(nèi);在相同的計(jì)算資源下,利用PCA數(shù)據(jù)方法的模型可以處理更多的數(shù)據(jù)。