王珣玥, 馮文亮、2
(1.北京市公用事業(yè)科學(xué)研究所,北京100011;2.北京市建設(shè)工程質(zhì)量第四檢測所,北京100011)
目前,對于供暖室內(nèi)溫度預(yù)測的研究引起了學(xué)者們的廣泛關(guān)注。2017年,龐明月等人[1]采用粒子群優(yōu)化算法對支持向量機方法進(jìn)行優(yōu)化,利用優(yōu)化后的模型對288組數(shù)據(jù)進(jìn)行實驗,結(jié)果表明此模型對于建筑室內(nèi)溫度的預(yù)測有著較高的精度。2018年,孫燾等人[2]基于供熱系統(tǒng)的傳熱物理規(guī)律建立優(yōu)化模型,提出了最小二乘意義上的時延求解剪枝算法,完成了室內(nèi)溫度預(yù)測,適用于工程計算。2019年,潘世英等人[3]構(gòu)建了基于MLP神經(jīng)網(wǎng)絡(luò)的室內(nèi)溫度預(yù)測模型,預(yù)測結(jié)果顯示預(yù)測室內(nèi)溫度與實測室內(nèi)溫度的平均相對誤差為-2.27%。
為了得到更為精確的預(yù)測效果,本文在多元線性回歸和多層感知器(Multi-layer Perceptron,MLP)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,采用集成學(xué)習(xí)算法對供暖室內(nèi)溫度進(jìn)行預(yù)測研究。本文以北京市某小區(qū)作為研究對象,選取30 d供暖數(shù)據(jù),數(shù)據(jù)每隔0.5 h采集一次,采集參數(shù)包括一級管網(wǎng)供回水溫度、二級管網(wǎng)供回水溫度、用戶室內(nèi)溫度等。室外溫度數(shù)據(jù)從北京市氣象局獲取,數(shù)據(jù)為每隔1 h發(fā)布,將前后兩個時刻的室外溫度數(shù)據(jù)的平均值,作為室外溫度數(shù)據(jù)缺失的部分。
① 多元線性回歸的基本原理
在統(tǒng)計學(xué)中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數(shù)對一個或多個自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)是一個或多個稱為回歸系數(shù)的模型參數(shù)的線性組合。當(dāng)自變量大于一個時,這種情況被稱為多元線性回歸。
設(shè)因變量為y,自變量為x1,x2,…,xn-1,xn,多元線性回歸數(shù)學(xué)模型為[4]:
y=β0+β1x1+β2x2+…+βn-1xn-1+βnxn+ε
(1)
式中y——因變量
β0,β1,…,βn-1,βn——回歸系數(shù)
n——自變量數(shù)量
x1,…,xn-1,xn——自變量
ε——隨機因素
② MLP神經(jīng)網(wǎng)絡(luò)的基本原理
MLP是對感知機模型的推廣,感知機模型是有若干輸入,一個輸出,輸出和輸入之間學(xué)習(xí)到一個線性關(guān)系,對于線性不可分?jǐn)?shù)據(jù),感知機模型不能識別。MLP是一個人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它是前饋式并且具有監(jiān)督的,基本運算單元為人工神經(jīng)元[5]。MLP神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層和輸出層,不同層之間是全連接的,上一層的任何一個神經(jīng)元與下一層的所有神經(jīng)元都有連接。
基于反向傳播誤差算法的MLP神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)過程包括前向傳播和反向傳播,前向傳播是輸入數(shù)據(jù)到輸出的映射過程,反向傳播是將輸出結(jié)果與真實結(jié)果的誤差向前傳播的過程,通過傳播每一層的誤差來更新網(wǎng)絡(luò)的權(quán)重,反向傳播算法是用來優(yōu)化網(wǎng)絡(luò)參數(shù)最重要的手段。
③ 集成學(xué)習(xí)算法的基本原理
集成學(xué)習(xí)因其能顯著提高一個學(xué)習(xí)系統(tǒng)的泛化能力而得到了廣泛關(guān)注[6]。集成學(xué)習(xí)通過訓(xùn)練數(shù)據(jù),構(gòu)建起多個有差異的模型,最終通過結(jié)合得到一個最優(yōu)預(yù)測模型。結(jié)合方法包括平均法、投票法和學(xué)習(xí)法等。集成方法是將幾種機器學(xué)習(xí)技術(shù)組合成一個預(yù)測模型的元算法,以達(dá)到減小方差、偏差或改進(jìn)預(yù)測的效果。
集成方法可分為序列集成方法和并行集成方法,前者參與訓(xùn)練的基礎(chǔ)學(xué)習(xí)器按照順序生成,后者為并行生成。序列集成方法的原理為利用各基礎(chǔ)學(xué)習(xí)器的依賴關(guān)系,對之前訓(xùn)練中錯誤標(biāo)記的樣本賦較高權(quán)重,用來提升預(yù)測效果,代表算法為Boosting。并行集成方法原理為利用各基礎(chǔ)學(xué)習(xí)器的獨立性,用平均來降低錯誤,代表算法為Bagging和隨機森林。
選取北京市某小區(qū)連續(xù)30 d供暖數(shù)據(jù)和室外溫度數(shù)據(jù),數(shù)據(jù)按每隔0.5 h作為一個時刻的數(shù)據(jù),包括一級管網(wǎng)供水溫度、一級管網(wǎng)回水溫度、二級管網(wǎng)供水溫度、二級管網(wǎng)回水溫度、室外溫度和室內(nèi)溫度??紤]到供熱系統(tǒng)的滯后性和建筑系統(tǒng)的熱惰性,將預(yù)測時刻之前6個時刻的室外溫度、一級管網(wǎng)供水溫度、一級管網(wǎng)回水溫度、二級管網(wǎng)供水溫度、二級管網(wǎng)回水溫度,共30個特征值作為模型的輸入,將下一時刻的室內(nèi)溫度作為模型的輸出。
由于所選各個特征值的大小有著較大差別,為了防止建模過程中某些特征值的作用被放大而使預(yù)測結(jié)果不準(zhǔn)確,因此需要對特征值進(jìn)行歸一化處理。本文采用特征歸一化方法為min-max,通過對數(shù)據(jù)做線性變換,將原始數(shù)據(jù)值映射到[0,1]區(qū)間,基本公式為:
(2)
式中Xnorm——歸一化后的數(shù)據(jù)
X——原始數(shù)據(jù)
Xmin——數(shù)據(jù)最小值
Xmax——數(shù)據(jù)最大值
對數(shù)據(jù)進(jìn)行歸一化處理后,使用歸一化的訓(xùn)練數(shù)據(jù)更加容易正確收斂到最優(yōu)解,并且模型尋優(yōu)過程更加平緩,從而提升模型精度。
本次實驗中,采用平均相對誤差(mean relative error,MRE)和均方誤差(mean square error,MSE)作為衡量模型性能的指標(biāo)。平均相對誤差和均方誤差的計算式分別為:
(3)
(4)
式中IMRE——平均相對誤差
m——測試集樣本數(shù)量
yi——第i個實際值
IMSE——均方誤差
將當(dāng)前時刻的室內(nèi)溫度和之前6個時刻的室外溫度、一級管網(wǎng)供水溫度、一級管網(wǎng)回水溫度、二級管網(wǎng)供水溫度、二級管網(wǎng)回水溫度,共同作為一組數(shù)據(jù)。將前28 d共1 344組數(shù)據(jù)用于模型的建立,將后2 d共96組數(shù)據(jù)作為測試數(shù)據(jù)來測試所建立模型的性能并得到預(yù)測結(jié)果。
在前28 d共1 344組數(shù)據(jù)中,隨機選取6 d數(shù)據(jù)共288組數(shù)據(jù)作為模型的不變的評估數(shù)據(jù)。將剩余的22 d數(shù)據(jù)共1 056組數(shù)據(jù)作為模型的基礎(chǔ)訓(xùn)練數(shù)據(jù),采用Bagging的方式進(jìn)行有放回采樣,得到采樣后訓(xùn)練數(shù)據(jù),共1 056組;用采樣后訓(xùn)練數(shù)據(jù)構(gòu)建多元線性回歸模型,得到1個基模型。共重復(fù)進(jìn)行30次,得到30個基模型。MLP神經(jīng)網(wǎng)絡(luò)模型建立基模型的方法與多元線性回歸模型相同。在供暖室內(nèi)溫度預(yù)測階段,分別選取多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型中平均相對誤差指標(biāo)最優(yōu)的基模型,采用將選取的這兩個最優(yōu)基模型的預(yù)測結(jié)果進(jìn)行加權(quán)平均的方式來產(chǎn)生最終的集成學(xué)習(xí)模型預(yù)測結(jié)果。
對于MLP神經(jīng)網(wǎng)絡(luò)模型的參數(shù)及最終進(jìn)行集成的權(quán)重參數(shù),采用網(wǎng)格搜索的方式來獲得最優(yōu)模型的參數(shù)。對于集成的權(quán)重參數(shù),選擇步長為0.1,MLP權(quán)重初始值為0.3,多元線性回歸模型權(quán)重初始值為0.7,進(jìn)行遍歷運算,最終得到的最優(yōu)結(jié)果為多元線性回歸模型的權(quán)重為0.6,MLP神經(jīng)網(wǎng)絡(luò)模型的權(quán)重為0.4。對于MLP神經(jīng)網(wǎng)絡(luò)模型,采用RELU激活函數(shù),隱藏層設(shè)置為兩層。在實驗過程中,當(dāng)學(xué)習(xí)率為0.001并且兩個隱藏層的神經(jīng)元均為32時,效果最優(yōu)。
① 集成學(xué)習(xí)模型
經(jīng)過集成學(xué)習(xí)算法實驗,集成學(xué)習(xí)模型預(yù)測結(jié)果見圖1,為集成學(xué)習(xí)模型的室內(nèi)溫度預(yù)測值和實測值的對比曲線。集成學(xué)習(xí)模型預(yù)測結(jié)果的絕對誤差曲線見圖2,可以看出,絕對誤差絕對值的大部分都在0.3 ℃以內(nèi)。圖3為集成學(xué)習(xí)模型預(yù)測結(jié)果的相對誤差曲線,可以看出,相對誤差的大部分在1.3%以下。集成學(xué)習(xí)模型的整體預(yù)測效果較好。
圖1 集成學(xué)習(xí)模型預(yù)測結(jié)果
② 多元線性回歸模型
在實驗過程中,效果最優(yōu)的多元線性回歸模型預(yù)測結(jié)果見圖4,為多元線性回歸模型的室內(nèi)溫度預(yù)測值和實測值的對比曲線。多元線性回歸模型預(yù)測結(jié)果的絕對誤差曲線見圖5,將圖5和圖2對比可看出,圖5的絕對誤差較大。圖6為多元線性回歸模型預(yù)測結(jié)果的相對誤差曲線,和圖3進(jìn)行對比可看出,圖6的相對誤差較大。
圖2 集成學(xué)習(xí)模型絕對誤差曲線
圖3 集成學(xué)習(xí)模型相對誤差曲線
圖4 多元線性回歸模型預(yù)測結(jié)果
圖5 多元線性回歸模型絕對誤差曲線
③ MLP神經(jīng)網(wǎng)絡(luò)模型
在實驗過程中,效果最優(yōu)的MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果見圖7,為MLP神經(jīng)網(wǎng)絡(luò)模型的室內(nèi)溫度預(yù)測值和實測值的對比曲線。圖8為MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果的絕對誤差曲線,將圖8和圖2對比可看出,圖8的絕對誤差較大。圖9為MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果的相對誤差曲線,和圖3進(jìn)行對比可看出,圖9的相對誤差較大。
圖6 多元線性回歸模型相對誤差曲線
圖7 MLP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果
圖8 MLP神經(jīng)網(wǎng)絡(luò)模型絕對誤差曲線
圖9 MLP神經(jīng)網(wǎng)絡(luò)模型相對誤差曲線
將集成學(xué)習(xí)模型、多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型平均相對誤差和均方誤差進(jìn)行對比,見表1??梢钥闯?,采用集成學(xué)習(xí)模型的平均相對誤差和均方誤差均小于單個模型的多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型。這是因為不同模型在同一份訓(xùn)練數(shù)據(jù)中的表現(xiàn)會有差異,綜合不同模型的表現(xiàn),能夠在一定程度上提高模型的泛化能力和預(yù)測性能。
表1 集成學(xué)習(xí)模型、多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型平均相對誤差和均方誤差對比
提出利用基于多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型的集成學(xué)習(xí)算法對供暖室內(nèi)溫度預(yù)測進(jìn)行研究。以北京市某小區(qū)作為研究對象,選取30 d供暖數(shù)據(jù)和室外溫度數(shù)據(jù),將預(yù)測時刻之前6個時刻的室外溫度、一級管網(wǎng)供水溫度、一級管網(wǎng)回水溫度、二級管網(wǎng)供水溫度、二級管網(wǎng)回水溫度,共30個特征值作為模型的輸入,將下一時刻的室內(nèi)溫度作為模型的輸出。研究結(jié)果表明,采用集成學(xué)習(xí)模型的平均相對誤差和均方誤差均小于單個模型的多元線性回歸模型和MLP神經(jīng)網(wǎng)絡(luò)模型,預(yù)測效果較好,平均相對誤差為0.802 2%,均方誤差為0.057 665 ℃2。