一種面向建筑節(jié)能的強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法

2017-11-28 09:51:24胡齡爻陳建平傅啟明胡文倪慶文

中成藥 2017年11期

胡齡爻，陳建平，傅啟明，4，胡文，倪慶文

1.蘇州科技大學(xué) 電子與信息工程學(xué)院，江蘇蘇州 215009 2.江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室，江蘇蘇州 215009 3.蘇州市移動(dòng)網(wǎng)絡(luò)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室，江蘇蘇州 215009 4.吉林大學(xué) 符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室，長春 130012

胡齡爻1，2，3，陳建平1，2，3，傅啟明1，2，3，4，胡文1，2，3，倪慶文1，2，3

針對(duì)建筑節(jié)能領(lǐng)域中傳統(tǒng)控制方法對(duì)于建筑物相關(guān)設(shè)備控制存在收斂速度慢、不穩(wěn)定等問題，結(jié)合強(qiáng)化學(xué)習(xí)中經(jīng)典的Q學(xué)習(xí)方法，提出一種強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法——RLAC。該方法通過對(duì)建筑物內(nèi)能耗交換機(jī)制進(jìn)行建模，結(jié)合Q學(xué)習(xí)方法，求解最優(yōu)值函數(shù)，進(jìn)一步得出最優(yōu)控制策略，確保在不降低建筑物人體舒適度的情況下，達(dá)到建筑節(jié)能的目的。將所提出的RLAC與On/Off以及Fuzzy-PD方法用于模擬建筑物能耗問題進(jìn)行對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明，RLAC具有較快的收斂速度以及較好的收斂精度。

強(qiáng)化學(xué)習(xí)；馬爾科夫決策過程；Q學(xué)習(xí)；建筑節(jié)能；自適應(yīng)控制

1 引言

縱觀近幾十年建筑領(lǐng)域的發(fā)展，建筑結(jié)構(gòu)設(shè)計(jì)與設(shè)備管理方面，特別是涉及到生態(tài)控制和能源消耗的領(lǐng)域上，都有很顯著的進(jìn)步和變化。一個(gè)明顯的轉(zhuǎn)折點(diǎn)是在20世紀(jì)70年代石油危機(jī)爆發(fā)之后，提出封閉的建筑物以最小化建筑物的能源消耗這一概念，但是這導(dǎo)致室內(nèi)空氣質(zhì)量直線下降和全世界范圍的健康問題。這就直接造成了研究確保人類舒適度的前提下，同時(shí)聯(lián)系光照、溫濕度和空氣質(zhì)量等其他因素的研究趨勢(shì)。

在現(xiàn)有的能耗研究中，建筑物能耗占世界范圍內(nèi)總基礎(chǔ)能耗的45%，這是在總能源消耗中占比例最高的一項(xiàng)。全球范圍的建筑能耗，包括民用住宅和商業(yè)建筑，在發(fā)達(dá)國家每年的增長速率已達(dá)到20%～40%。然而在一項(xiàng)調(diào)查中，商業(yè)建筑物的年均耗能大約是70～300 kWh/m2，這個(gè)數(shù)據(jù)是民用住宅的10到20倍。人口的增長、建筑服務(wù)壓力的提升和舒適標(biāo)準(zhǔn)的提高都增大了建筑物的能源消耗，這些預(yù)示著未來仍然會(huì)持續(xù)能源需求的增長趨勢(shì)。正是因?yàn)樯鲜鲈?，建筑?jié)能已然成為當(dāng)今所有國家和國際水平在能源政策上重視的首要目標(biāo)。建筑物的能源消耗問題已經(jīng)得到越來越多的關(guān)注，畢竟建筑物是與人類生活工作息息相關(guān)的，也是現(xiàn)代化發(fā)展中必不可少的一個(gè)環(huán)節(jié)。

控制器是實(shí)現(xiàn)建筑節(jié)能必不可少的重要組成部分。神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、預(yù)測(cè)控制和它們之間的組合是現(xiàn)有在建筑領(lǐng)域的主流控制器研發(fā)的方向[1-4]。Dounis等人提出一種Fuzzy-PD方法的控制器，用模糊的比例微分方法來控制建筑領(lǐng)域內(nèi)的相關(guān)設(shè)備[2]。然而在智能控制算法上應(yīng)用廣泛的是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)[5]，有許多學(xué)者將強(qiáng)化學(xué)習(xí)的方法應(yīng)用在能耗預(yù)測(cè)或控制領(lǐng)域上[6-11]。其中較為典型的是Dalamagkidis等人于2007年提出的一種線性強(qiáng)化學(xué)習(xí)控制器——LRLC（Linear Reinforcement Learning Controller）[6]，主要是用基于強(qiáng)化學(xué)習(xí)的時(shí)間差分方法（Temporal-Difference，TD）的算法，進(jìn)行能耗監(jiān)測(cè)和策略決策。LRLC與傳統(tǒng)的On/Off控制器和Fuzzy-PD控制器相比較，在監(jiān)測(cè)能耗和控制穩(wěn)定性上有更好的表現(xiàn)，但是由于其算法要求有足夠的探索過程，在真實(shí)的建筑物中，抽出一個(gè)很小的時(shí)間讓控制器去選擇隨機(jī)的動(dòng)作是不可能實(shí)現(xiàn)的。因?yàn)榧词惯x擇的動(dòng)作是接近最優(yōu)動(dòng)作的，這也會(huì)導(dǎo)致用戶不滿度或者整體能源消耗臨時(shí)增加。在實(shí)際中出現(xiàn)的問題有：在冬天（或夏天）的時(shí)候控制器會(huì)允許開冷氣（或暖氣）。在此之后，Dalamagkidis等人還提出了一種基于RLS-TD（recursive least-squares algorithm）遞歸最小二乘算法的強(qiáng)化學(xué)習(xí)控制器[12]，其實(shí)驗(yàn)結(jié)果表明與之前的方法比較有進(jìn)一步的提升。

由于傳統(tǒng)的方法如Fuzzy-PD[13-14]，控制建筑領(lǐng)域內(nèi)的相關(guān)設(shè)備，有收斂速度慢和穩(wěn)定性差的缺點(diǎn)，于是提出一種強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法RLAC（Reinforcement Learning Adaptive Control）。RLAC采用Q學(xué)習(xí)算法對(duì)空調(diào)系統(tǒng)和通風(fēng)系統(tǒng)等建筑內(nèi)設(shè)備進(jìn)行控制，通過狀態(tài)s得到r值進(jìn)而得到Q值，從Q值中得到的策略選擇動(dòng)作a，采取動(dòng)作之后更新s，一直重復(fù)更新至終止時(shí)間步。RLAC與LRLC的差異在于：LRLC是需要確切模型的，而RLAC是不需要模型的，在與環(huán)境的交互中可最終收斂到最優(yōu)策略。進(jìn)行幾組對(duì)比實(shí)驗(yàn)結(jié)果表明，RLAC方法具有有效的節(jié)能性；RLAC在不同初始狀態(tài)設(shè)置下均能達(dá)到良好的收斂速度和精度；與Fuzzy-PD方法和On/Off方法相比較，有更快的收斂速度，收斂之后更加穩(wěn)定。

2 相關(guān)理論

一個(gè)強(qiáng)化學(xué)習(xí)任務(wù)可以被建模為馬爾可夫決策過程（Markov Decision Process，MDP），其中環(huán)境的狀態(tài)只取決于當(dāng)前狀態(tài)和選擇的動(dòng)作，因此可以利用現(xiàn)有的信息去預(yù)測(cè)未來的狀態(tài)和該狀態(tài)的期望回報(bào)。此時(shí)獎(jiǎng)賞值函數(shù)只取決于當(dāng)前狀態(tài)和動(dòng)作，與其他歷史狀態(tài)和動(dòng)作無關(guān)。MDP一般可以表示為一個(gè)四元組(S,A,T,R)，其中S表示所有環(huán)境狀態(tài)s構(gòu)成的狀態(tài)空間，狀態(tài)s可由多個(gè)變量構(gòu)成；A表示學(xué)習(xí)器（Agent）所能執(zhí)行的所有動(dòng)作a構(gòu)成的集合；T:S×A×S→[ ]0,1為環(huán)境狀態(tài)遷移概率函數(shù)，T(s,a,s′)表示Agent在狀態(tài)s中執(zhí)行動(dòng)作a后環(huán)境遷移到新狀態(tài)s′的概率；R:S×A×S→?為獎(jiǎng)賞函數(shù)，R(s,a,s′)表示Agent在環(huán)境狀態(tài)s中執(zhí)行動(dòng)作a且環(huán)境遷移到狀態(tài)s′所能得到的立即獎(jiǎng)賞，一般也用r表示。

策略（policy）定義了強(qiáng)化學(xué)習(xí)Agent的行為方式，簡單地說，策略就是從環(huán)境感知的狀態(tài)到可采用動(dòng)作的一個(gè)映射。策略分為確定策略和隨機(jī)策略，確定策略是從狀態(tài)到動(dòng)作的映射；隨機(jī)策略是從狀態(tài)動(dòng)作對(duì)到概率的映射。因此，強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)最優(yōu)策略，該最優(yōu)策略能夠獲得最大的期望累積獎(jiǎng)賞，通常也被稱為回報(bào)，如式（1）所示：

其中γ是一個(gè)0≤γ≤1的參數(shù)，被稱為折扣率。γ越小，就表示Agent越關(guān)心長期獎(jiǎng)賞。值函數(shù)是關(guān)于回報(bào)的期望，因此，強(qiáng)化學(xué)習(xí)問題也可以轉(zhuǎn)換為求解最優(yōu)值函數(shù)的問題。值函數(shù)分為動(dòng)作值函數(shù)Q(s,a)和狀態(tài)值函數(shù)V(s)，其中狀態(tài)值函數(shù)V(s)用來表示狀態(tài)的好壞，動(dòng)作值函數(shù)Q(s,a)用于表示動(dòng)作狀態(tài)對(duì)的好壞。Q(s,a)與V(s)的更新公式如式（3）和式（4），其中 α在強(qiáng)化學(xué)習(xí)中被稱為學(xué)習(xí)率，其取值范圍是（0，1]。

很多強(qiáng)化學(xué)習(xí)問題是一個(gè)沒有終止?fàn)顟B(tài)的問題，因此，回報(bào)值也會(huì)趨于無窮大。為了解決這個(gè)問題，強(qiáng)化學(xué)習(xí)中給出折扣回報(bào)的定義，公式如下：

強(qiáng)化學(xué)習(xí)方法可基本分為三類，每一種都有其適用范圍和優(yōu)缺點(diǎn)，按照是否需要模型分為需要模型的動(dòng)態(tài)規(guī)劃方法（Dynamic Programming，DP），以及不需要模型的蒙特卡羅方法（Monte-Carlo，MC）和時(shí)間差分方法（Temporal-Difference，TD）。MC和TD的區(qū)別在于MC需要走完一個(gè)情節(jié)到終止?fàn)顟B(tài)再估計(jì)值函數(shù)，而TD則不需要完整的情節(jié)樣本。本文用的是時(shí)間差分的學(xué)習(xí)方法中的Q學(xué)習(xí)算法，是一種異策略（off-policy）的TD控制算法。在不依賴策略的情況下，Q學(xué)習(xí)學(xué)到的動(dòng)作值函數(shù)Q會(huì)直接逼近最優(yōu)動(dòng)作值函數(shù)。Q學(xué)習(xí)的Q值更新公式為[15]：

3 強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法

3.1 算法框架建模

RLAC采用Q學(xué)習(xí)算法，狀態(tài)s是二氧化碳濃度、室內(nèi)溫度和設(shè)置溫度的矩陣表示，動(dòng)作a是空調(diào)系統(tǒng)動(dòng)作、開窗動(dòng)作和通風(fēng)系統(tǒng)動(dòng)作的排列組合，達(dá)到室內(nèi)溫度穩(wěn)定在設(shè)定溫度、通風(fēng)并減少能耗的效果。

3.1.1 環(huán)境建模

對(duì)于Agent而言，外部環(huán)境是一個(gè)封閉性房間，需要的參數(shù)是房間內(nèi)的溫度Tt（單位是攝氏度），室內(nèi)CO2濃度ρt（單位為10-6）以及設(shè)置溫度setT（單位是℃），這三個(gè)參數(shù)構(gòu)成了RLAC中的狀態(tài)s。根據(jù)實(shí)際情況，設(shè)置室內(nèi)溫度Tt的范圍為[0，40]，ρt的范圍為[200，1 000]，實(shí)際情況的溫度和CO2濃度一定是處于這個(gè)范圍內(nèi)的。CO2濃度的作用是：當(dāng)CO2濃度低至300×10-6時(shí)給一個(gè)接近于0的值；當(dāng)該濃度高于850×10-6時(shí)給一個(gè)接近于1的值。這里設(shè)置的300×10-6是室外CO2濃度能達(dá)到的最低水平，而850×10-6則是室內(nèi)人體感覺舒適的最高水平。在開啟空調(diào)系統(tǒng)的同時(shí)，采取通風(fēng)系統(tǒng)和開窗動(dòng)作，會(huì)一定程度上減弱空調(diào)系統(tǒng)的作用，本文模型設(shè)定減弱參數(shù)為0.2。模型中CO2濃度與開窗動(dòng)作和通風(fēng)系統(tǒng)有關(guān)，影響因子比例設(shè)為1∶2。

3.1.2 算法框架設(shè)計(jì)

RLAC中全部動(dòng)作建模為64×3的矩陣，action_num=64，其橫向量是一個(gè)三維的向量，表示一個(gè)動(dòng)作。動(dòng)作向量第一位kongtiao_fig表示空調(diào)系統(tǒng)動(dòng)作：1表示取暖小風(fēng)，2表示制冷小風(fēng)，3表示取暖大風(fēng)，4表示制冷大風(fēng)；第二位windows_fig表示開窗狀態(tài)：0為關(guān)閉，1為微張，2為半張，3為全開；最后一位tongfeng_fig表示通風(fēng)系統(tǒng)動(dòng)作：0是關(guān)閉，1是小檔，2是中檔，3是大檔。

RLAC中狀態(tài)s=[Tt,ρt,setT]由房間內(nèi)的溫度Tt，室內(nèi)二氧化碳濃度ρt，以及空調(diào)設(shè)置溫度setT幾個(gè)參數(shù)構(gòu)成，其計(jì)算公式如式（7）～（9）所示。狀態(tài)中附加的一個(gè)參數(shù)是實(shí)時(shí)能耗Et，其中T0是室內(nèi)初始溫度，Emax是一個(gè)片段的空調(diào)系統(tǒng)、電動(dòng)開窗系統(tǒng)和通風(fēng)系統(tǒng)的最大總能耗值，這個(gè)值通常是由經(jīng)驗(yàn)獲得，可以從空調(diào)與通風(fēng)系統(tǒng)設(shè)備的操作特性和它的近期操作設(shè)置中得到。T_penalty是室內(nèi)溫度參數(shù)；indoor_air_quality_penalty是室內(nèi)空氣質(zhì)量參數(shù)；E_penalty是能耗參數(shù)。

獎(jiǎng)賞被建模為在區(qū)間[-1，0]中可取任何值的變量，這個(gè)變量是作為一個(gè)懲罰值，也就是說在能源消耗非常高或者二氧化碳濃度很高時(shí)，這個(gè)變量值很?。ń咏?1），反之這個(gè)變量值將很大（接近于0），其計(jì)算如式（6）所示。w1、w2、w3分別是其權(quán)重參數(shù)，室內(nèi)溫度穩(wěn)定在設(shè)置溫度是首要目的，同樣也要考慮CO2濃度和能耗因素，經(jīng)過多次實(shí)驗(yàn)效果對(duì)比，RLAC模型中參數(shù)的設(shè)置為：w1=0.7，w2=0.25，w3=0.05。這樣能保證最終r值在在區(qū)間[-1，0]內(nèi)，并且整個(gè)系統(tǒng)保持良好的性能表現(xiàn)。

RLAC中狀態(tài)轉(zhuǎn)移公式如式（10）～（13）所示，其中T_changerate表示溫度變化速率，與采取動(dòng)作是大風(fēng)還是小風(fēng)有關(guān)，其公式如式（12）所示。

r值作為模型最終評(píng)價(jià)標(biāo)準(zhǔn)，是室內(nèi)溫度參數(shù)、室內(nèi)空氣質(zhì)量參數(shù)與能耗參數(shù)的加權(quán)值，設(shè)置r為一個(gè)負(fù)值，如公式（6）所示，當(dāng)三個(gè)相關(guān)參數(shù)越小時(shí)，r的值就越大，模型需要的就是盡可能大的r值。也就是說，當(dāng)室內(nèi)溫度越接近設(shè)置溫度，室內(nèi)CO2濃度越低，能耗值越低時(shí)，模型獲得的r值就越大，這也就是控制器要達(dá)到的最終目的——在不影響人的舒適度的條件下達(dá)到節(jié)能的目的。

3.2 控制算法

（9）直到s是終止?fàn)顟B(tài)。

算法1主要借鑒Q學(xué)習(xí)的主要思想，在狀態(tài)s下采取動(dòng)作a之后更新r值，利用Q中得到的策略選擇a并采取動(dòng)作，之后進(jìn)一步更新r和s。每一個(gè)時(shí)間步都采取動(dòng)作并更新狀態(tài)和r值來改變策略，最終收斂于最優(yōu)策略。

RLAC方法的具體算法，見算法1：

算法1 RLAC

（1）初始化r=0，a為64×3的矩陣。

（2）重復(fù)（對(duì)于每個(gè)片段）。

（3）初始化 s0(T0,ρ0,setT)。

（4）重復(fù)（對(duì)片段的每個(gè)時(shí)間步）。

（5）根據(jù)r的值選擇一個(gè)動(dòng)作a，并采取這個(gè)動(dòng)作。

（6）根據(jù)公式（10）～（13）進(jìn)行狀態(tài)轉(zhuǎn)移 s←s'。

（7）根據(jù)公式（6）～（9）更新 r值。

（8）根據(jù)公式（5）更新Q 值。

4 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證RLAC模型的有效性，將仿真實(shí)驗(yàn)在Pytho2.7環(huán)境中進(jìn)行，采用的編輯器為Sublime Text3。下列實(shí)驗(yàn)均設(shè)置每個(gè)情節(jié)最大步數(shù)為5 000步，一共160個(gè)情節(jié)共800 000步。

4.1 RLAC的仿真步驟

RLAC的仿真步驟如下：

步驟1 建立狀態(tài)變遷模型（如式（10）～（13）、獎(jiǎng)懲反饋模型（如式（6）～（9）和評(píng)價(jià)行為值函數(shù) Q(st,at)（如式（5））。

步驟2初始化評(píng)價(jià)行為值函數(shù)Q(st,at)、學(xué)習(xí)率α，折扣率γ，其中，s表示狀態(tài)因素，a表示行為因素，γ是一個(gè)0≤γ≤1的參數(shù)，狀態(tài)因素是由室內(nèi)溫度Tt、室內(nèi)二氧化碳濃度ρt、實(shí)時(shí)能耗Et和空調(diào)設(shè)置溫度setT構(gòu)成，行為因素是由空調(diào)系統(tǒng)行為、電動(dòng)開窗系統(tǒng)行為和通風(fēng)系統(tǒng)行為構(gòu)成。

步驟3運(yùn)行片段，每個(gè)片段包括N個(gè)單位時(shí)間步，令時(shí)刻t=0，初始化初始狀態(tài)因素s0，也就是確定0時(shí)刻的T0、ρ0、E0=0和 setT 。

步驟3.1每個(gè)單位時(shí)間步的運(yùn)行包括：對(duì)當(dāng)前狀態(tài)因素st，根據(jù)貪心選擇策略h(st)計(jì)算確定出當(dāng)前狀態(tài)因素st在時(shí)刻t的行為因素at，a∈h(st)。

采取這個(gè)行為因素at，根據(jù)建立的狀態(tài)變遷模型計(jì)算狀態(tài)因素的變遷，狀態(tài)因素變遷到下一狀態(tài)因素st+1。

根據(jù)建立的獎(jiǎng)懲反饋模型計(jì)算得出在狀態(tài)因素st和行為因素at下的獎(jiǎng)懲rt。

更新（如式（5））當(dāng)前評(píng)價(jià)行為值函數(shù)Q(st,at)。

更新學(xué)習(xí)率α，t=t+1。

步驟4進(jìn)行判斷，具體為：

若st+1對(duì)應(yīng)的狀態(tài)不符合狀態(tài)結(jié)束條件，則返回到步驟3.1，進(jìn)行下一單位時(shí)間步的運(yùn)行。

若st+1對(duì)應(yīng)的狀態(tài)符合狀態(tài)結(jié)束條件，則監(jiān)測(cè)所有狀態(tài)因素下的評(píng)價(jià)行為值函數(shù)是否滿足預(yù)定的精度要求，若有評(píng)價(jià)行為值函數(shù)不滿足精度要求，則返回到步驟3進(jìn)行新的片段的運(yùn)行，若評(píng)價(jià)行為值函數(shù)都滿足精度要求，則結(jié)束循環(huán)。

步驟4中，若st+1對(duì)應(yīng)的狀態(tài)不符合狀態(tài)結(jié)束條件是指：若st+1對(duì)應(yīng)的單位時(shí)間步的步數(shù)小于循環(huán)設(shè)置的最大步數(shù)N；若st+1對(duì)應(yīng)的狀態(tài)符合狀態(tài)結(jié)束條件是指：若st+1對(duì)應(yīng)的單位時(shí)間步的步數(shù)等于循環(huán)設(shè)置的最大步數(shù)N。當(dāng)然，狀態(tài)結(jié)束條件也可以設(shè)置為其他的狀態(tài)因素結(jié)束條件。

4.2 RLAC的仿真實(shí)驗(yàn)結(jié)果

（1）關(guān)于模型的節(jié)能性的對(duì)比實(shí)驗(yàn)

如表1所示，實(shí)驗(yàn)1.1，1.2為一組，初始狀態(tài)都是s0=[8,850,30]，其獎(jiǎng)賞函數(shù)r的權(quán)重參數(shù)不同，實(shí)驗(yàn)1.1設(shè)置為 w=[0.7,0.25,0.05]，實(shí)驗(yàn)1.2設(shè)置為 w=[0.7,0.3,0]，其區(qū)別在于實(shí)驗(yàn)1.1的獎(jiǎng)賞函數(shù)中考慮了能耗參數(shù)，而實(shí)驗(yàn)1.2的獎(jiǎng)賞函數(shù)中未考慮能耗參數(shù)。實(shí)驗(yàn)1.3，1.4為一組，初始狀態(tài)都是s0=[30,770,20]，這兩個(gè)實(shí)驗(yàn)區(qū)別也是在獎(jiǎng)賞函數(shù)的權(quán)重參數(shù)設(shè)置上，與上一組實(shí)驗(yàn)設(shè)置相同。實(shí)驗(yàn)結(jié)果表明，是否考慮能耗參數(shù)并未影響實(shí)驗(yàn)的收斂速度和收斂效果，只在總能耗值和平均能耗上產(chǎn)生差異。如表1所示，雖然在實(shí)驗(yàn)收斂前，實(shí)驗(yàn)1.1比實(shí)驗(yàn)1.2的平均能耗分別高出430左右，但在實(shí)驗(yàn)數(shù)據(jù)收斂之后，其平均能耗比實(shí)驗(yàn)1.2的數(shù)據(jù)低了1 000左右，從長遠(yuǎn)節(jié)能的方面考慮，考慮節(jié)能因素的實(shí)驗(yàn)1.1比較未考慮節(jié)能因素的實(shí)驗(yàn)1.2更符合節(jié)能的目的。實(shí)驗(yàn)1.3與實(shí)驗(yàn)1.4的實(shí)驗(yàn)數(shù)據(jù)更能說明這一點(diǎn)，實(shí)驗(yàn)1.3在收斂前后的平均能耗比實(shí)驗(yàn)1.4分別低了2 000和4 300左右，表明考慮節(jié)能因素在內(nèi)的獎(jiǎng)賞函數(shù)使整個(gè)系統(tǒng)更節(jié)能。

表1 實(shí)驗(yàn)1中四組子實(shí)驗(yàn)各參數(shù)表

接下來的所有實(shí)驗(yàn)均考慮能耗參數(shù)，即獎(jiǎng)賞函數(shù)權(quán)重值w=[0.7,0.25,0.05]。

（2）關(guān)于RLAC方法收斂性能的對(duì)比實(shí)驗(yàn)

實(shí)驗(yàn)2.1的初始狀態(tài)為s0=[30,770,26]，實(shí)驗(yàn)2.2的初始狀態(tài)為s0=[16,770,26]，實(shí)驗(yàn)2.3的初始狀態(tài)為s0=[30,850,20]，實(shí)驗(yàn)2.4的初始狀態(tài)為s0=[8,850,30]。實(shí)驗(yàn)數(shù)據(jù)如圖1至圖4所示。

圖1 實(shí)驗(yàn)2收斂后CO2濃度變化

圖2 實(shí)驗(yàn)2收斂之后溫度變化圖

圖1 是實(shí)驗(yàn)2四組子實(shí)驗(yàn)收斂之后CO2濃度的變化圖，由圖可知RLAC方法與實(shí)驗(yàn)2.1在1 400步左右達(dá)到最低濃度300×10-6，并保持良好的穩(wěn)定性；而實(shí)驗(yàn)2.2、實(shí)驗(yàn)2.3和實(shí)驗(yàn)2.4則在1 200、1 600和1 400步左右達(dá)到一樣的效果。相比較而言，F(xiàn)uzzy-PD方法表現(xiàn)不如RLAC方法，在四組實(shí)驗(yàn)中分別在1 400、1 500、2 000和2 200步左右達(dá)到最低400×10-6左右。實(shí)驗(yàn)表明，RLAC能在更短時(shí)間步內(nèi)達(dá)到更好的通風(fēng)效果，以保證良好的室內(nèi)空氣質(zhì)量。

圖2是實(shí)驗(yàn)2中四組子實(shí)驗(yàn)收斂之后室內(nèi)溫度的變化圖，由圖可知兩種方法均可達(dá)到設(shè)置溫度并保持穩(wěn)定，其差別在于收斂速度不同：RLAC在四組子實(shí)驗(yàn)中分別在1 600、2 600、1 600和2 200步左右達(dá)到收斂；而Fuzzy-PD方法則需要2 600、3 500、2 400和2 800步。實(shí)驗(yàn)表明，RLAC方法比較Fuzzy-PD方法能在更短的時(shí)間步內(nèi)達(dá)到設(shè)置溫度，并保持良好的穩(wěn)定性，保證室內(nèi)良好舒適的熱環(huán)境。

圖3是實(shí)驗(yàn)2在實(shí)驗(yàn)過程中的總回報(bào)收斂圖，如圖所示實(shí)驗(yàn)2.1每個(gè)情節(jié)總回報(bào)在前20個(gè)情節(jié)內(nèi)RLAC回報(bào)處在震蕩非常大的階段，振幅一度超過6 000，但在20～80個(gè)情節(jié)內(nèi)振幅保持在4 000以內(nèi)，此時(shí)的震蕩幅度還是比較大；400 000步即80個(gè)情節(jié)左右收斂在-2 000左右，振幅不超過1 000。實(shí)驗(yàn)2.2、實(shí)驗(yàn)2.3和實(shí)驗(yàn)2.4的總回報(bào)則分別在100、108和122個(gè)情節(jié)收斂到-4 500、-5 000和-13 000左右。

圖4是實(shí)驗(yàn)2在160個(gè)情節(jié)內(nèi)的每個(gè)情節(jié)所需收斂步數(shù)圖，如圖所示：實(shí)驗(yàn)2.1在實(shí)驗(yàn)剛剛開始幾個(gè)情節(jié)并未收斂，所以顯示的收斂步數(shù)是最大值5 000步；在60個(gè)情節(jié)之前收斂步數(shù)很不穩(wěn)定，震蕩幅度很大，這個(gè)時(shí)間段RLAC處于學(xué)習(xí)階段；而在60～80個(gè)情節(jié)內(nèi)，系統(tǒng)達(dá)到有微振幅的階段，此時(shí)系統(tǒng)在調(diào)整策略；最終在80個(gè)情節(jié)之后基本收斂在1 400步左右，系統(tǒng)達(dá)到穩(wěn)定最優(yōu)策略。實(shí)驗(yàn)2.2、實(shí)驗(yàn)2.3和實(shí)驗(yàn)2.4則分別在100、100和120個(gè)情節(jié)之后達(dá)到1 500步左右并保持穩(wěn)定。

圖3 實(shí)驗(yàn)2總回報(bào)收斂圖

圖4 實(shí)驗(yàn)2收斂步數(shù)圖

（3）關(guān)于RLAC方法對(duì)建筑物內(nèi)相關(guān)設(shè)備控制性能的實(shí)驗(yàn)

本實(shí)驗(yàn)主要是將RLAC方法與Fuzzy-PD方法和On/Off方法進(jìn)行對(duì)比實(shí)驗(yàn)。

圖5是設(shè)置初始狀態(tài)為s0=[30,850,26]的情況下，總回報(bào)與情節(jié)數(shù)的收斂情況，該圖數(shù)據(jù)為20次實(shí)驗(yàn)數(shù)據(jù)取平均得到。實(shí)驗(yàn)中設(shè)置一共有160個(gè)情節(jié)，每個(gè)情節(jié)是5 000步，總步數(shù)為800 000步。

圖5 實(shí)驗(yàn)3總回報(bào)收斂圖

由圖5可看出，RLAC模型在實(shí)驗(yàn)開始階段表現(xiàn)很不穩(wěn)定，每個(gè)情節(jié)的總回報(bào)值上下波動(dòng)超過了±2 000，平均到每一步的獎(jiǎng)賞波動(dòng)超過±0.4，這是因?yàn)檫@個(gè)階段是Agent剛開始學(xué)習(xí)的階段，采取試錯(cuò)的方法在探索與利用之間找到平衡。經(jīng)過約30個(gè)情節(jié)訓(xùn)練與學(xué)習(xí)，RLAC模型的總回報(bào)值波動(dòng)值縮小到±500左右，平均到每一步的獎(jiǎng)賞波動(dòng)幅度約為±0.1；最后模型經(jīng)過60個(gè)情節(jié)之后基本收斂，每個(gè)情節(jié)的總回報(bào)值上下波動(dòng)不超過±70，平均到每一步的獎(jiǎng)賞上下波動(dòng)不超過±0.014，基本可以確定模型收斂?？梢詮膱D中看到，RLAC模型Agent的學(xué)習(xí)速率是很快的，基本在300 000步（60個(gè)情節(jié)）就能收斂，總的實(shí)驗(yàn)時(shí)間為0∶34∶57，收斂時(shí)間約為0∶13∶00。

圖6是RLAC在每一個(gè)情節(jié)內(nèi)達(dá)到收斂所需步數(shù)，由圖中可看出：實(shí)驗(yàn)設(shè)置每個(gè)情節(jié)為5 000步，剛開始實(shí)驗(yàn)?zāi)Ｐ筒荒茉? 000步內(nèi)收斂；0～50個(gè)情節(jié)內(nèi)收斂步數(shù)一直在2 500～4 400步的范圍里震蕩，這個(gè)階段是Agent的學(xué)習(xí)階段；50個(gè)情節(jié)之后收斂步數(shù)有個(gè)明顯下降的趨勢(shì)，直到60個(gè)情節(jié)基本穩(wěn)定收斂在1 400步，說明在60個(gè)情節(jié)之后Agent找到了最優(yōu)策略，使得系統(tǒng)在之后的每個(gè)情節(jié)內(nèi)都能在14 00步左右達(dá)到穩(wěn)定。

圖6 實(shí)驗(yàn)3每個(gè)情節(jié)的收斂步數(shù)

圖7 是在每個(gè)情節(jié)總回報(bào)值基本收斂之后，隨機(jī)取出其中一個(gè)情節(jié)，在5 000步內(nèi)室內(nèi)溫度T的變化情況，每200步采樣一次。由圖可知，0～1 400步階段，RLAC模型Agent在探索學(xué)習(xí)階段，溫度變化很不穩(wěn)定。但在1 400步之后本文模型基本穩(wěn)定，室內(nèi)溫度T保持在設(shè)置溫度26℃左右。由此可得出結(jié)論，RLAC模型Agent可滿足空調(diào)系統(tǒng)維持室內(nèi)溫度等于設(shè)置溫度的要求。Fuzzy-PD方法在2 000步左右才收斂到設(shè)置溫度26℃，On/Off方法則需要在2 600步之后才能收斂。由圖7可得出，RLAC采用強(qiáng)化學(xué)習(xí)方法比傳統(tǒng)Fuzzy-PD方法和On/Off方法效果更好，在更少的步數(shù)內(nèi)就能收斂達(dá)到穩(wěn)定。

圖7 實(shí)驗(yàn)3情節(jié)收斂后室內(nèi)溫度變化圖

圖8 是在每個(gè)情節(jié)總回報(bào)值基本收斂之后，隨機(jī)取出其中一個(gè)情節(jié)，每200步采樣一次，在5 000步內(nèi)室內(nèi)CO2濃度的變化情況。由圖可知，0～1 200步階段，RLAC模型Agent在探索學(xué)習(xí)階段，CO2濃度沒有達(dá)到要求的低于450×10-6。但在1 200步之后本文模型基本穩(wěn)定，室內(nèi)CO2濃度保持在與室外CO2濃度380×10-6左右。而Fuzzy-PD方法在1 800步之后才到達(dá)穩(wěn)定值400，；On/Off方法要經(jīng)過2 400步的學(xué)習(xí)才達(dá)到收斂，收斂于485左右。由圖8可知RLAC模型可以滿足室內(nèi)通風(fēng)的效果，比另外兩個(gè)方法在更少的步數(shù)內(nèi)收斂，并且CO2濃度穩(wěn)定值最低，通風(fēng)效果最好。

圖8 實(shí)驗(yàn)3情節(jié)收斂后CO2濃度變化圖

5 結(jié)束語

針對(duì)傳統(tǒng)控制方法對(duì)于建筑物通風(fēng)與空調(diào)系統(tǒng)控制存在收斂速度慢、不穩(wěn)定等問題，提出一個(gè)基于強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)自適應(yīng)控制模型RLAC，RLAC采用Q學(xué)習(xí)算法，對(duì)真實(shí)房屋空調(diào)系統(tǒng)與通風(fēng)系統(tǒng)進(jìn)行模型構(gòu)造，并將節(jié)能因素考慮在內(nèi)。RLAC輸入為CO2濃度、室內(nèi)溫度和設(shè)置溫度三個(gè)狀態(tài)的矩陣表示，輸出是空調(diào)系統(tǒng)動(dòng)作、開窗動(dòng)作和通風(fēng)系統(tǒng)動(dòng)作的排列組合，目的是在保證達(dá)到設(shè)置溫度和CO2濃度的基礎(chǔ)上達(dá)到節(jié)能的效果。實(shí)驗(yàn)中設(shè)置一共有160個(gè)情節(jié)，每個(gè)情節(jié)是5 000步，通過160個(gè)情節(jié)的實(shí)驗(yàn)，并將RLAC數(shù)據(jù)與Fuzzy-PD方法和On/Off方法的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明：（1）RLAC方法具有有效的節(jié)能性；（2）RLAC在不同設(shè)置參數(shù)下均能達(dá)到良好的收斂性和穩(wěn)定性；（3）強(qiáng)化學(xué)習(xí)的算法思想用于建筑物空調(diào)與通風(fēng)系統(tǒng)的控制領(lǐng)域，對(duì)比Fuzzy-PD和On/Off兩種方法RLAC有更好的收斂性和魯棒性。

[1]Dounis A I，Santamouris M J，Lefas C C，et al.Thermal comfort degradation by a visual comfort fuzzy reasoning machineunder natural ventilation[J].Journal of Applied Energy，1994，48（2）：115-130.

[2]Dounis A I，Santamouris M J，Lefas C C，et al.Design of a fuzzyset environmentcomfort system[J].Energy and Buildings，1995，22（1）：81-87.

[3]Dounis A I，Bruant M，Guarracino G，et al.Indoor air quality control by a fuzzy reasoning machine in naturallyventilated buildings[J].Journal of Applied Energy，1996，54（1）：11-28.

[4]Clarke J A，Cockroft J，Conner S，et al.Simulation-assisted control in building energy management systems[J].Energy and Buildings，2002，34（9）：933-940.

[5]Mnih V，Kavukcuoglu K，Silver D，et al.Playing atari with deep reinforcement learning[C]//NIPS Deep Learning Workshop，2013.

[6]Dalamagkidis K，Kolokotsa D，Kalaitzakis K，et al.Reinforcement learning for energy conservation and comfort in buildings[J].Building and Environment，2007，42（7）：2686-2698.

[7]Mocanu E，Nguyen P H，King W L，et al.Unsupervised energy prediction in a smart grid context using reinforcement cross-building transfer learning[J].Energy and Buildings，2016，116：646-655.

[8]Shaikh P H，Nor N B M，Nallagownden P，et al.A review on optimized control systems for building energy and comfort management of smart sustainable buildings[J].Renewable and Sustainable Energy Reviews，2014，34：409-429.

[9]Whiffen T R，Naylor S，Hill J，et al.A concept review of power line communication in building energy management systems for the small to medium sized nondomestic built environment[J].Renewable and Sustainable Energy Reviews，2016，64：618-633.

[10]Hazyuk I，Ghiaus C，Penhouet D.Model predictive control of thermal comfort as a benchmark for controller performance[J].Automation in Construction，2014，43：98-109.

[11]Yang L，Nagy Z，Goffin P，et al.Reinforcement learning for optimal control of low exergy buildings[J].Applied Energy，2015，156：577-586.

[12]Dalamagkidis K，Kolokotsa D.Reinforcement learning for building environment control[M].[S.l.]：INTECH Open Access Publisher，2008：283-294.

[13]Egilegor B，Uribe J P，Arregi G，et al.A fuzzy control adapted by a neural network to maintain a dwelling within thermal comfort[C]//Proceedings of Building Simulation，1997，97：87-94.

[14]Ulpiani G，Borgognoni M，Romagnoli A，et al.Comparing the performance of on/off，PID and fuzzy controllers applied to the heating system of an energy-efficient building[J].Energy and Buildings，2016，116：1-17.

[15]Sutton R S，Barto A G.Reinforcement learning：An introduction[M].Cambridge：MIT Press，1998.

HU Lingyao1，2，3,CHEN Jianping1，2，3,FU Qiming1，2，3，4,HU Wen1，2，3,NI Qingwen1，2，3

1.College of Electronics and Information Engineering,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China 2.Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency,Suzhou,Jiangsu 215009,China 3.Suzhou Key Laboratory of Mobile Network Technology and Application,Suzhou,Jiangsu 215009,China 4.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012,China

Building energy efficiency oriented reinforcement learning adaptive control method.Computer Engineering and Applications,2017,53（21）：239-246.

With respect to the problem of slow convergence and instability for the traditional methods,in the field of building energy efficiency,this paper proposes a new reinforcement learning adaptive control method,RLAC by combining Q-learning.The proposed method models the exchange mechanism of the building energy consumption,and tries to find the better control policy by solving the optimal value function.Furthermore,RLAC can decrease the energy consumption without losing the performance of good comfort of the building occupants.Compared with the On/Off and Fuzzy-PD,the proposed RLAC has a better convergence performance in speed and accuracy.

reinforcement learning;Markov Decision Process(MDP);Q-learning;building energy efficiency;adaptive control

TP181

10.3778/j.issn.1002-8331.1702-0217

國家自然科學(xué)基金（No.61502329，No.61602334，No.61672371）；住房與城鄉(xiāng)建設(shè)部科學(xué)技術(shù)項(xiàng)目（No.2015-K1-047）；江蘇省自然科學(xué)基金（No.BK20140283）；蘇州市體育局體育科研局管課題（No.TY2015-301）；蘇州市科技計(jì)劃項(xiàng)目（No.SYG201255，No.SZS201304）。

胡齡爻（1994—），女，碩士，主要研究領(lǐng)域?yàn)閺?qiáng)化學(xué)習(xí)、建筑節(jié)能；陳建平（1963—），男，教授，碩士生導(dǎo)師，主要研究領(lǐng)域?yàn)榻ㄖ?jié)能、智能信息處理；傅啟明（1985—），男，講師，中國計(jì)算機(jī)學(xué)會(huì)會(huì)員，主要研究領(lǐng)域?yàn)閺?qiáng)化學(xué)習(xí)、模式識(shí)別、建筑節(jié)能，E-mail：fqm_1@126.com；胡文（1992—），女，碩士，主要研究領(lǐng)域?yàn)閺?qiáng)化學(xué)習(xí)、建筑節(jié)能；倪慶文（1993—），女，碩士，主要研究領(lǐng)域?yàn)榻ㄖ?jié)能。

2017-02-22

2017-05-03

1002-8331（2017）21-0239-08

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種面向建筑節(jié)能的強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法

1 引言

2 相關(guān)理論

3 強(qiáng)化學(xué)習(xí)自適應(yīng)控制方法

3.1 算法框架建模

3.2 控制算法

4 實(shí)驗(yàn)結(jié)果與分析

4.1 RLAC的仿真步驟

4.2 RLAC的仿真實(shí)驗(yàn)結(jié)果

5 結(jié)束語