黃澤天 楊正霞
摘要:針對(duì)建筑能耗數(shù)據(jù)成因復(fù)雜,及能耗數(shù)據(jù)樣本不足,導(dǎo)致現(xiàn)有建筑能耗預(yù)測(cè)模型不精確等問(wèn)題,結(jié)合遷移學(xué)習(xí)和強(qiáng)化學(xué)習(xí)中的Sarsa學(xué)習(xí)方法,提出一種基于降維式自主遷移強(qiáng)化學(xué)習(xí)的建筑能耗預(yù)測(cè)方法——STRL。該方法通過(guò)提取影響建筑物能耗的重要維度進(jìn)行降維,采用歐式度量對(duì)滿足遷移條件的原始建筑MDP狀態(tài)進(jìn)行遷移,結(jié)合Sarsa算法構(gòu)建能耗獎(jiǎng)賞函數(shù),實(shí)現(xiàn)能耗預(yù)測(cè)。將所提出的STRL與VFT-HSA1以及FTRL2方法用于模擬建筑物能耗問(wèn)題進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,STRL具有較快的收斂速度以及較好的收斂精度。
關(guān)鍵詞:遷移學(xué)習(xí);強(qiáng)化學(xué)習(xí);降維;建筑能耗預(yù)測(cè)
中圖分類號(hào): TP181? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)25-0205-04
Abstract: the building energy has many influencing factors, and the energy data samples are insufficient, which leads to the inaccuracy of the existing building energy n prediction model. Combined with Transfer Learning and the Sarsa in reinforcement learning, a building energy prediction method with dimensional reduction and self-transfer reinforcement learning is proposed. which extract the important dimensions that affect the energy of buildings, reducing the dimensions, using European metrics to transfer the source building MDP states that meet the transfer conditions and combining the Sarsa algorithm to build the building energy and reward function model. Which realize energy prediction. Compared with the VFT-HSA and FTRL, the proposed STRL has a better convergence performance in speed and accuracy.
Key words: transfer learning; reinforcement learning; dimension reduction; building energy prediction
1 引言
目前,我國(guó)城市飛速發(fā)展,建筑物不斷擴(kuò)建,能耗不斷攀升,截至2015年,中國(guó)建筑所消費(fèi)能源總量約為8.57億噸標(biāo)準(zhǔn)煤,建筑能耗占比約為能源總消耗的20% [1]。根據(jù)建設(shè)部最新報(bào)告指出,到2020至2030年左右我國(guó)建筑能耗將高達(dá)1089億噸煤,占總能耗的30%-40%[2],在未來(lái)一段時(shí)間能耗將仍持續(xù)增長(zhǎng),其中建筑能耗將趕超工業(yè)能耗,成為能耗占比最高的領(lǐng)域。隨著能耗的日益增加,建筑能耗的預(yù)測(cè)顯得更加緊迫、重要。因此,準(zhǔn)確、有效、合理地進(jìn)行建筑物能耗預(yù)測(cè)是建筑節(jié)能與控制的關(guān)鍵基礎(chǔ),也是制定相關(guān)建筑節(jié)能法規(guī)、政策,及開(kāi)展建筑節(jié)能相關(guān)工作的重要前提。
目前在建筑能耗預(yù)測(cè)方面有很多方法,通過(guò)分析影響能耗的相關(guān)因素,構(gòu)建模型或簡(jiǎn)化相關(guān)模型,實(shí)現(xiàn)建筑能耗的預(yù)測(cè)。但在諸多研究過(guò)程中,其建筑能耗的歷史數(shù)據(jù)總被遺忘擱置,歷史真實(shí)能耗數(shù)據(jù)中存在對(duì)未來(lái)能耗預(yù)測(cè)的影響因素,如果加以有效利用有助于能耗預(yù)測(cè)。本文運(yùn)用遷移學(xué)習(xí)方法對(duì)能耗歷史數(shù)據(jù)加以運(yùn)用,結(jié)合強(qiáng)化學(xué)習(xí)Sarsa算法,對(duì)建筑能耗預(yù)測(cè)方法進(jìn)行研究,為后期建筑節(jié)能打下基礎(chǔ),達(dá)到降低能耗的目的。目前遷移學(xué)習(xí)與強(qiáng)化學(xué)習(xí)在理論研究方面已相當(dāng)成熟,在能耗應(yīng)用方面也有突出進(jìn)展,因此遷移學(xué)習(xí)與強(qiáng)化學(xué)習(xí)在建筑能耗預(yù)測(cè)方面研究意義重大,并且存在巨大的探索潛力。
傳統(tǒng)的建筑能耗預(yù)測(cè)方法,有收斂速度慢和穩(wěn)定性差的缺點(diǎn),于是提出一種基于降維式自主遷移強(qiáng)化學(xué)習(xí)的方法STRL(dimensional reduction and self-transfer reinforcement learning)。STRL運(yùn)用稀疏編碼統(tǒng)一不同建筑物的狀態(tài)維度,提取影響建筑物能耗的重要維度進(jìn)行降維,采用歐式度量對(duì)滿足遷移條件的原始建筑MDP狀態(tài)進(jìn)行遷移,結(jié)合Sarsa算法構(gòu)建能耗獎(jiǎng)賞函數(shù),實(shí)現(xiàn)能耗預(yù)測(cè)。進(jìn)行幾組對(duì)比實(shí)驗(yàn)結(jié)果表明,STRL方法與VFT-HSA以及FTRL方法相比較,有更快的收斂速度,收斂之后更加穩(wěn)定。
2 相關(guān)理論
2.1 遷移學(xué)習(xí)
遷移學(xué)習(xí)的本質(zhì)是知識(shí)的遷移再利用,其核心是,找到源領(lǐng)域和目標(biāo)領(lǐng)域之間的相似性,并加以合理利用。在遷移學(xué)習(xí)中,首先需要找到源領(lǐng)域和目標(biāo)領(lǐng)域之間的相似性,再通過(guò)度量準(zhǔn)則,如歐氏距離,余弦相似度等方法,定量地給出相似程度,增大兩個(gè)領(lǐng)域之間的相似性,從而完成遷移學(xué)習(xí)。
假設(shè)源域與目標(biāo)域模型之間共享一些參數(shù)或某些模型先驗(yàn)分布。通過(guò)將源域中的參數(shù)或先驗(yàn)分布遷移至目標(biāo)域幫助其學(xué)習(xí)。這一類遷移學(xué)習(xí)方法被稱為基于模型的遷移方法,這類遷移學(xué)習(xí)方法的目標(biāo)就是獲取可遷移的共享信息。
2.2 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是環(huán)境狀態(tài)到動(dòng)作映射的學(xué)習(xí),以使選取的動(dòng)作獲取最大的獎(jiǎng)賞信號(hào)。在學(xué)習(xí)的過(guò)程中,學(xué)習(xí)器不被告知?jiǎng)幼鲬?yīng)如何采取,強(qiáng)化學(xué)習(xí)問(wèn)題通過(guò)與環(huán)境不斷交互試錯(cuò)獲得最優(yōu)策略,使得獎(jiǎng)賞最大化[3]。
馬爾可夫決策過(guò)程(Markov decision process, MDP)可以用來(lái)對(duì)強(qiáng)化學(xué)習(xí)問(wèn)題進(jìn)行建模,一個(gè)MDP通??梢员硎緸橐粋€(gè)四元組,[M=],S表示所有狀態(tài)的集合,其中[st∈S]是在t時(shí)間步下的狀態(tài);A表示所有動(dòng)作的集合,其中[at∈A]是在t時(shí)間步下的動(dòng)作;R表示獎(jiǎng)賞函數(shù),其中[R(st,at)]是指在狀態(tài)[st]下采取動(dòng)作[at]所獲得的立即獎(jiǎng)賞;P是狀態(tài)轉(zhuǎn)移函數(shù),[p(s,a,s')]表示在狀態(tài)[s∈S]下采用動(dòng)作[a∈A]轉(zhuǎn)移到下一狀態(tài)[s'∈S]的概率。
在評(píng)估MDP策略[π]時(shí),引入值函數(shù)的概念,具體分為狀態(tài)值函數(shù)[Vπ(s)]和狀態(tài)動(dòng)作值函數(shù)[Qπ(s,a)]。[Vπ(s)]是在s狀態(tài)下采取策略[π]獲得的回報(bào)的期望值,[Qπ(s,a)]是在狀態(tài)動(dòng)作對(duì)下采取策略[π]獲得的回報(bào)的期望值。[Vπ(s)]和[Qπ(s,a)]可表示為相應(yīng)Bellman公式的不動(dòng)點(diǎn)解??擅枋鰹楣剑?)和公式(2):
3 基于降維式自主遷移強(qiáng)化學(xué)習(xí)的建筑能耗預(yù)測(cè)
3.1 稀疏編碼降維遷移
稀疏編碼首次由Olshausen等人模仿生物的視覺(jué)神經(jīng)提出[4],稀疏編碼可多維的表示數(shù)據(jù),是一種特征表示方法,并且數(shù)據(jù)稀疏后僅有少量的有用數(shù)據(jù)被激活,同時(shí)稀疏編碼被運(yùn)用于多個(gè)領(lǐng)域中,其中包括特征降維問(wèn)題、遷移學(xué)習(xí)問(wèn)題、圖像處理問(wèn)題等[5]。
為了對(duì)稀疏編碼進(jìn)行更好的表示,本文采用[ξ=ξ1,ξ2...,ξMT∈RM×K]代表輸入的向量集合,其中[ξi∈R1×K,i=1,2,...,M]為第i個(gè)向量,K為向量維數(shù),同時(shí)用[B=b1,b2,...,bNT∈RN×K]表示基向量的集合,N為向量的個(gè)數(shù),[bj,j=1,2,...,N]代表第j個(gè)向量,采用[aj,j=1,2,...,N]代表對(duì)應(yīng)[bj]的系數(shù),因而,一般N>K,對(duì)于所有的輸入向量都滿足[ξi≈j=1Nbjaj]。具體的數(shù)學(xué)模型如公式(3)所示:
稀疏編碼可解決維度問(wèn)題,通過(guò)運(yùn)用稀疏編碼統(tǒng)一遷移學(xué)習(xí)中源域與目標(biāo)域之間MDP的不同的維度,其次通過(guò)稀疏編碼降維,找出源域與目標(biāo)域之間影響因素關(guān)鍵特征,通過(guò)提取源域中最有影響因素的特征進(jìn)行遷移,提高目標(biāo)域的學(xué)習(xí)效果。
3.2 能耗建模
在能耗預(yù)測(cè)過(guò)程中,實(shí)際的能耗受多維度因素的影響,對(duì)于圖書(shū)館能耗預(yù)測(cè),本文采集維度有溫度(t)、濕度(h)、太陽(yáng)輻射(r)、風(fēng)速(w)、光照強(qiáng)度(i)、PM2.5(p)、Co2濃度(c)、So2濃度(s)、Co濃度(co),使用這些參數(shù)對(duì)該數(shù)據(jù)構(gòu)建多維模型,構(gòu)成狀態(tài)[S′]=[t,h,r,w,i,p,c,s,co]。狀態(tài)中附加的一個(gè)參數(shù)是實(shí)時(shí)能耗e。
利用稀疏編碼對(duì)[S′]進(jìn)行降維處理,根據(jù)各個(gè)參數(shù)對(duì)能耗的影響,選取影響較大的參數(shù)作為影響能耗的重要因素,同時(shí)作為強(qiáng)化學(xué)習(xí)Sarsa算法的輸入,即為狀態(tài)集合S=[t,h,w,i]。在算法中,降維后動(dòng)作為C=[[Δt,Δh,Δw,Δi]],動(dòng)作C與狀態(tài)S的維度是一致的,通過(guò)對(duì)動(dòng)作和當(dāng)前狀態(tài)的分析,從而獲得預(yù)測(cè)的下一個(gè)能耗值。
在建模過(guò)程中,下一時(shí)刻的預(yù)測(cè)能耗為[E'],實(shí)際能耗值為[e],真實(shí)值與預(yù)測(cè)能耗的誤差為[E*=E'-e],因?yàn)椴煌木S度對(duì)能耗均會(huì)有影響,因此先對(duì)多維度的預(yù)測(cè)能耗的值與實(shí)際值進(jìn)行歸一化的相關(guān)處理,歸一化后獲得的權(quán)值之和為最終強(qiáng)化學(xué)習(xí)Sarsa算法的獎(jiǎng)賞函數(shù)[r]。
本文獎(jiǎng)賞模型設(shè)為能耗誤差的負(fù)值,[r=-λE*],通過(guò)給予Agent懲罰加快其探索進(jìn)程,當(dāng)預(yù)測(cè)值與實(shí)際值相差較大時(shí),獎(jiǎng)賞的值越小,懲罰越大,當(dāng)預(yù)測(cè)值與實(shí)際值相差較小時(shí),獎(jiǎng)賞的越大,懲罰越小。多維因素影響中獎(jiǎng)賞函數(shù)為[R=-λ1E*1-λ2E*2-...-λnE*n]。其中[λ]為不同維度上的權(quán)值參數(shù),參數(shù)越大,R值越小,懲罰越大,反之R值越大,獎(jiǎng)賞函數(shù)懲罰越小,說(shuō)明預(yù)測(cè)能耗與實(shí)際能耗更接近。
3.3 降維式自主遷移強(qiáng)化學(xué)習(xí)算法
本文提出的降維式自主遷移強(qiáng)化學(xué)習(xí)方法(dimensional reduction and self-transfer reinforcement learning,STRL),通過(guò)降低能耗影響維度,并運(yùn)用強(qiáng)化學(xué)習(xí)方法進(jìn)行能耗建模,結(jié)合遷移學(xué)習(xí)方法進(jìn)行源域與目標(biāo)域之間的學(xué)習(xí),從而提高能耗預(yù)測(cè)性能。在遷移學(xué)習(xí)過(guò)程中不同任務(wù)間實(shí)現(xiàn)遷移,需要進(jìn)行任務(wù)間映射,存在映射關(guān)系[χ],使得源域[(ss,as,ss')]與目標(biāo)域[(st,at,st')]相互對(duì)應(yīng),本文采用歐式距離度量的方法實(shí)現(xiàn)源域與目標(biāo)域之間的適配,滿足[{sis,ais,sis'}=χ{sit,ait,sit'}],通過(guò)遷移不同任務(wù)間影響能耗的相同特征提高能耗預(yù)測(cè)速度。
具體算法流程如算法3.2所示:
4 實(shí)驗(yàn)及分析結(jié)果
4.1 實(shí)驗(yàn)設(shè)置
本文采用的建筑能耗數(shù)據(jù)通過(guò)當(dāng)?shù)仉娏緮?shù)據(jù)30分鐘采集一次,能耗數(shù)據(jù)如圖4-1,其他數(shù)據(jù)類型包括:溫度、濕度、太陽(yáng)輻射、風(fēng)速、光照強(qiáng)度、PM2.5、Co2濃度、So2濃度、Co濃度,實(shí)驗(yàn)中源域?yàn)锳地建筑物能耗,目標(biāo)域B地建筑物能耗。溫度、濕度、太陽(yáng)輻射等為氣象局公開(kāi)數(shù)據(jù),預(yù)測(cè)中溫度等數(shù)據(jù)為該天的最高數(shù)值。
強(qiáng)化學(xué)習(xí)中學(xué)習(xí)因子[α=0.75],折扣因子[γ=0.9]。在實(shí)驗(yàn)驗(yàn)證過(guò)程中建筑能耗預(yù)測(cè)的衡量指標(biāo)采用均方根誤差(Root mean square error,RMSE):
圖2為B地某建筑能耗實(shí)際值與Sarsa、VFT-HSA、FTRL、STRL算法能耗預(yù)測(cè)值對(duì)比結(jié)果圖,圖中橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示建筑能耗。在實(shí)驗(yàn)過(guò)程中,算法都被獨(dú)立執(zhí)行20次,求出平均值。由圖(d)可知STRL算法的預(yù)測(cè)值與能耗的實(shí)際值最接近,由圖(a)可知Sarsa算法的預(yù)測(cè)值與能耗實(shí)際值相差最大,由圖(b)可知VFT-HSA算法預(yù)測(cè)性能優(yōu)于Sarsa算法,主要因?yàn)閂FT-HSA算法運(yùn)用值函數(shù)遷移與啟發(fā)式探索方法提高能耗預(yù)測(cè)性能,由圖(c)可知FTRL算法能耗預(yù)測(cè)性能優(yōu)于VFT-HSA算法,因FTRL算法通過(guò)堆疊去噪自動(dòng)編碼器挖掘數(shù)據(jù)之間的共同特征,并共享隱藏層的結(jié)構(gòu)遷移源域與目標(biāo)域之間有用信息從而提高建筑能耗的預(yù)測(cè)性能,由圖(d)可知,STRL算法相較于其他算法其能耗預(yù)測(cè)性能最優(yōu),這是因?yàn)橛绊懡ㄖ锬芎牡囊蛩剌^多,STRL算法通過(guò)降維遷移提取影響建筑能耗的關(guān)鍵因素,通過(guò)強(qiáng)化學(xué)習(xí)構(gòu)建能耗獎(jiǎng)賞函數(shù),從而進(jìn)行能耗的預(yù)測(cè),同時(shí)利用源域能耗提高目標(biāo)域建筑能耗的預(yù)測(cè)性能,更加準(zhǔn)確、高效地完成能耗預(yù)測(cè),綜上可知,STRL算法相對(duì)而言是最為有效的建筑能耗預(yù)測(cè)方法。
表1主要展示了不同[α]值下不同Sarsa、VFT-HSA、FTRL、STRL算法的建筑能耗衡量指標(biāo)RMSE的值,其值為每個(gè)算法都獨(dú)立執(zhí)行20次求出的平均值。由表可知,當(dāng)[α]=0.7時(shí),Sarsa、VFT-HSA、FTRL、STRL算法的RMSE值分別為0.483、0.394、0.324、0.209,每一個(gè)值都為不同算法RMSE的最小值,在該[α]值下不同算法的能耗預(yù)測(cè)性能相對(duì)較好。當(dāng)[α]=0.03時(shí),Sarsa、VFT-HSA、FTRL、STRL算法的RMSE值分別為0.745、0.609、0.597、0.479,對(duì)于不同算法而言預(yù)測(cè)性能較差,分析可知,當(dāng)[α]值越大時(shí),RMSE值越小,能耗預(yù)測(cè)性能越好,但超過(guò)一定值時(shí)預(yù)測(cè)性能變差,是因?yàn)閇α]值過(guò)大,使得狀態(tài)值會(huì)振蕩,從而影響預(yù)測(cè)效果。同時(shí),由橫向可知,RMSE值越來(lái)越小,說(shuō)明能耗預(yù)測(cè)性能越來(lái)越好。綜上所述,不同[α]值會(huì)影響預(yù)測(cè)性能,因此[α]值的選取極其重要,選擇較優(yōu)[α]值可提高算法預(yù)測(cè)性能,并且各算法能耗預(yù)測(cè)方法依次Sarsa、VFT-HSA、FTRL、STRL算法越來(lái)越準(zhǔn)確。
圖3為不同算法收斂情況下不同Sarsa、VFT-HSA、FTRL、STRL算法的R值的大小,該值為每個(gè)算法都獨(dú)立執(zhí)行20次求出的平均值。由表可知,算法收斂時(shí)Sarsa、VFT-HSA、FTRL、STRL算法的R值分別為0.57、0.32、0.29、-0.21,因R值為能耗實(shí)際值與預(yù)測(cè)值之間的差值和,由表可知,不同Sarsa、VFT-HSA、FTRL、STRL算法的R值越來(lái)越接近零值,可知預(yù)測(cè)值與實(shí)際值之間的差值越來(lái)越小,建筑能耗預(yù)測(cè)的準(zhǔn)確性越來(lái)越高,因?yàn)榻ㄖ芎念A(yù)測(cè)過(guò)程中STRL算法更多地考慮影響能耗的因素,從而使得預(yù)測(cè)準(zhǔn)確性提高。綜上可知,各算法能耗預(yù)測(cè)方法依次Sarsa、VFT-HSA、FTRL、STRL算法越來(lái)越接近實(shí)際值,能耗預(yù)測(cè)效果越好。
5 結(jié)束語(yǔ)
針對(duì)建筑能耗預(yù)測(cè)過(guò)程中影響能耗的因素較多,能耗數(shù)據(jù)不足,對(duì)于能耗預(yù)測(cè)帶來(lái)較多不便,提出一種降維式自主遷移強(qiáng)化學(xué)習(xí)的建筑能耗預(yù)測(cè)方法,運(yùn)用稀疏編碼統(tǒng)一遷移學(xué)習(xí)中源域與目標(biāo)域之間MDP的不同的維度,其次通過(guò)稀疏編碼降維找出源域與目標(biāo)域之間影響因素更高級(jí)別的特征,通過(guò)提取源域中最有影響因素的特征進(jìn)行遷移,提高目標(biāo)域的學(xué)習(xí)效果,同時(shí)結(jié)合強(qiáng)化學(xué)習(xí)Sarsa算法進(jìn)行能耗建模,通過(guò)構(gòu)造能耗相關(guān)的獎(jiǎng)賞函數(shù)從而建立能耗預(yù)測(cè)模型,提高建筑能耗預(yù)測(cè)性能。利用該算法對(duì)某建筑物進(jìn)行能耗數(shù)據(jù)預(yù)測(cè),結(jié)果表明采用STRL算法進(jìn)行能耗預(yù)測(cè)是有效的,同時(shí)將VFT-HSA、FTRL算法應(yīng)用于實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,兩種算法的能耗預(yù)測(cè)性能都優(yōu)于Sarsa算法,但不及STRL算法,因而該算法在多維影響因素下使得能耗預(yù)測(cè)性能進(jìn)一步提高,具有較好的準(zhǔn)確性。
注釋:
1. 基于值函數(shù)遷移的啟發(fā)式Sarsa算法 (Heuristic Sarsa Algorithm Based on Value Function Transfer, VFT-HSA)
2. 基于特征遷移的強(qiáng)化學(xué)習(xí)Sarsa算法(Reinforcement learning Sarsa Algorithm Based on Feature transfer, FTRL)
參考文獻(xiàn):
[1] 胡達(dá)明, 陳定藝, 單平平,等. 夏熱冬暖地區(qū)居住建筑朝向?qū)δ芎牡挠绊懛治鯷J]. 建筑節(jié)能, 2017(5):57-60.
[2] 陳礎(chǔ). 綠色節(jié)能理念建筑結(jié)構(gòu)設(shè)計(jì)探討[J]. 低碳世界,2019,9(1):168-169.
[3] 侯恩哲. 《中國(guó)建筑節(jié)能年度發(fā)展研究報(bào)告2018》發(fā)布[J]. 建筑節(jié)能, 2018(4):133-133.
[4] 何熹. 量面保溫:建筑節(jié)能的“頂”層工作[J]. 保溫材料與節(jié)能技術(shù),2018(1):4-11.
[5] SUTTON R S, BARTO G A. Reinforcement learning: an introduction[M]. Cambridge: MIT Press, 1998.
[6] Olshausen B A, Field DJ.Emergence of simple-cell receptive field properties by learning a sparse code for nature images[J]. Nature, 1996, 381(6583):607—609.
[7] Sch?lkopf B, Platt J, Hofmann T. Efficient sparse coding algorithms[C]// The 13th International Conference on Neural Information Processing Systems. Hong Kong, China. 2006:1672-1680.
[8] 胡齡爻, 傅啟明, 陳建平, 等. 一種面向建筑節(jié)能的強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017, 53(21):239-246.
[9] 沈丹丹. LEED與《綠色建筑評(píng)價(jià)標(biāo)準(zhǔn)》認(rèn)證體系的比較[J]. 建設(shè)科技, 2018(6): 40-43.
[10] Qureshi A S, Khan A, Zameer A, et al. Wind power prediction using deep neural network based meta regression and transfer learning[J]. Applied Soft Computing, 2017, 58(1):742-755.
【通聯(lián)編輯:梁書(shū)】