亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q-Learning算法的建筑能耗預測①

        2019-01-18 08:30:18陳建平陳其強吳宏杰傅啟明
        計算機系統(tǒng)應用 2019年1期
        關鍵詞:隱層步長能耗

        陳建平, 陳其強, 胡 文, 陸 悠, 吳宏杰, 傅啟明

        (蘇州科技大學 電子與信息工程學院, 蘇州 215009)

        (江蘇省建筑智慧節(jié)能重點實驗室, 蘇州 215009)

        (蘇州市移動網(wǎng)絡技術與應用重點實驗室, 蘇州 215009)

        1 引言

        建筑作為能耗占比最大的領域, 雖然自身擁有巨大的節(jié)能潛力, 但是, 隨著經(jīng)濟的高度發(fā)展, 建筑面臨的高能耗低能效的問題也日益嚴峻. 近年來, 我國在建筑節(jié)能領域取得了明顯進展, 但從能耗預測的角度看,建筑能耗預測仍然存在很多不足之處[1]. 構建建筑能耗預測模型是預測建筑未來時刻能耗、在線控制能耗以及獲取能耗運行最優(yōu)策略的前提和核心[2-4]. 但是, 建筑具有面積大、能耗大和能耗復雜等特點, 并且建筑自身是一個包含多種系統(tǒng), 設備相互連接的復雜非線性系統(tǒng). 因此, 研發(fā)精度高、適應性強的能耗預測模型并非是件容易的事. 從建筑自身來說, 其能耗受到多種外界因素的影響, 例如外界氣候、建筑物自身結構、內(nèi)部設備運行特點、人員分布動態(tài)特征等, 這些因素使得建筑物能耗變得更加復雜, 也加劇了能耗預測的難度. 近年來, 國內(nèi)外許多業(yè)界學者和專家的主要關注點在于如何在提高建筑能耗預測的準確性并簡化能耗預測模型的同時, 實現(xiàn)在線控制及優(yōu)化建筑能耗. 建筑的完整生命周期包括很多環(huán)節(jié), 如設計、建造、運行、維護等, 其中每個環(huán)節(jié)運用的節(jié)能方法或者技術都能夠?qū)崿F(xiàn)節(jié)能的目標產(chǎn)生重要影響, 因此, 能耗預測在建筑節(jié)能中就顯得勢在必行. 與此同時, 建筑在自身運行中產(chǎn)生的一大批真實能耗數(shù)據(jù)被擱置或者直接丟棄, 并沒有真正實現(xiàn)任何價值, 對節(jié)能而言, 又是一種資源浪費.

        強化學習在智能建筑領域, 尤其是在建筑節(jié)能問題上已經(jīng)引起國內(nèi)外相關學者的廣泛關注. Dalamagkidis等人提出設計一種線性強化學習控制器, 可監(jiān)督控制建筑熱舒適度、空氣質(zhì)量、光照需求度、噪音等, 與傳統(tǒng)Fuzzy-PD相比, 其效果更優(yōu)[5]; Yu等人提出了一種用強化學習在線調(diào)整低能耗建筑系統(tǒng)的監(jiān)督模糊控制器的無模型方法, 其中用Q-learning算法監(jiān)控建筑物的能源系統(tǒng)[6]; Bielskis等人利用強化學習方法構建室內(nèi)照明控制器, 通過強化學習方法自適應調(diào)節(jié)照明系統(tǒng), 進而節(jié)約能源消耗[7]; Li等人提出一種多網(wǎng)格Q-learning方法, 通過近似建筑環(huán)境模型求解近似節(jié)能優(yōu)化策略, 并將初始策略用于精確建筑模型, 在線學習最優(yōu)控制策略, 加快算法求解實際問題中的收斂速度[8];Liu等人提出基于強化學習Q-learning算法監(jiān)督控制建筑熱質(zhì)量, 進而節(jié)約能源消耗[9]; Yang等人提出基于強化學習方法的建筑能耗控制方法, 該控制方法運用表格式Q學習和批量式Q學習在Matlab平臺上實現(xiàn)建筑能耗控制, 實驗結果表明, 該方法較其他方法多節(jié)約百分之十的能耗[10]; Zamora-Martínez 等人給出一種利用位置環(huán)境在線預測建筑物能耗的方法, 該方法從一個完全隨機的模型或者一個無偏的先驗知識獲得模型參數(shù), 并運用自動化技術使得房屋適應未來的溫度條件, 達到節(jié)能的效果[11]; Nijhuis等人提出一種基于公開可用的數(shù)據(jù)開發(fā)住宅負載模型, 該模型運用強化學習中蒙特卡羅算法, 基于時間使用規(guī)律對家庭居住房屋進行建模, 該模型中主要影響能耗的相關因素為天氣變量、領域特征和人員行為數(shù)據(jù), 通過對100多個家庭每周的用電量進行驗證, 實驗結果表明, 該方法的預測性能較其他類似方法更精確[12]; Liesje Van Gelder等人基于強化學習中蒙特卡羅方法提出一種整合影響建筑能耗諸多不確定因素的概率分析和設計方法, 該方法可以合并原模型, 取代原始模型, 并檢查潛在情景的優(yōu)化結果[13].

        本文利用DBN將建筑能耗初始狀態(tài)映射至高維特征空間, 結合強化學習中Q-learning算法, 將輸出的狀態(tài)特征向量作為Q-learning算法的輸入, 實現(xiàn)對建筑能耗的預測. 實驗表明, 運用強化學習進行能耗預測是可行的, 并且改進后的能耗預測方法精度更高, 這充分說明了強化學習在建筑能耗預測領域具有很大的研究潛力.

        2 相關理論

        2.1 馬爾可夫決策過程

        能成功保留所有相關信息的狀態(tài)信號就是具有馬爾科夫性(Markov Property)的, 而只要具有馬爾可夫性的強化學習問題就被稱為馬爾可夫決策過程(Markov Decision Process, MDP). 馬爾可夫性可作如下定義: 假設強化學習問題中, 狀態(tài)和獎賞值的數(shù)量都是有窮的,在問題中, 學習器(Agent)與環(huán)境交互, 在t時刻執(zhí)行動作后, 會在時刻獲得一個反饋, 在最普通的情況中,這個反饋可能是基于前面發(fā)生的一切, 因此, 這種環(huán)境動態(tài)性可以通過概率分布來定義, 如公式(1)所示:

        然而, 如果狀態(tài)信號也是有馬爾可夫性的, 那么Agent在t+1時獲得的環(huán)境反饋就只取決于Agent在t時刻的狀態(tài)和動作. 在此情況下, 這種環(huán)境動態(tài)性可以通過公式(2)來定義:

        MDP可以用來對強化學習問題進行建模, 其通常被定義為一個四元組其中表示狀態(tài)集合;表示動作集;表示獎賞函數(shù)是指Agent在狀態(tài)時采取動作所獲得的回報值;是狀態(tài)轉移函數(shù),是指Agent在狀態(tài)下 采取動作后轉移到狀態(tài)的概率.

        強化學習的最終目標是要學習到一個能夠獲得最大期望累計獎賞的最優(yōu)策略, 并利用該策略進行決策.然而, 由于最終計算獲得的最優(yōu)策略可能是一個動作,也可能是某個動作被選擇的概率, 因此, 策略被分為確定策略(deterministic policy)和隨機策略(random policy)兩種. 其中, 確定策略表示 Agent在某一狀態(tài)下執(zhí)行某一動作, 例如表示Agent在狀態(tài)下執(zhí)行動作; 隨機策略表示Agent在某一狀態(tài)下執(zhí)行某一動作的概率, 例如表示Agent在狀態(tài)下執(zhí)行動作的概率. 在本文中, 策略直接用表示, 策略是每個狀態(tài)和動作在狀態(tài)下執(zhí)行動作的概率的映射. 假設當前時刻為, 當前狀態(tài)為, 策略為, 而Agent依據(jù)當前狀態(tài)和策略執(zhí)行動作后, 在時刻, Agent通過環(huán)境反饋, 獲得的立即獎賞為Agent在強化學習問題中, 不斷地重復上述過程, 并且與環(huán)境不斷交互,學習到最優(yōu)策略, 并達到獲取最大期望累計獎賞的目的.

        對Agent在給定一個狀態(tài)或者狀態(tài)動作對時, 為了評估該狀態(tài)或者狀態(tài)動作對的好壞程度, 在強化學習中給出值函數(shù)的定義. 幾乎所有強化學習算法都是通過值函數(shù)對策略進行評估, 而值函數(shù)有狀態(tài)值函數(shù)Vk(x)和動作值函數(shù)Qk(x,u)兩種. 其中,Vk(x)表示Agent在當前狀態(tài)下遵循策略的期望回報; 而Qk(x,u)表示Agent在當前狀態(tài)動作對(x,u)下遵循策略h所 能獲得的期望回報.Vk(x)和Qk(x,u)是相應Bellman公式的不動點解, 如公式(3)和公式(4)所示:

        上述兩個公式也被稱作最優(yōu)Bellman公式.

        2.2 Q-learning算法

        Q-learning是一種經(jīng)典的離策略算法, 其更新準則:, 即Q-learning是利用基于行為策略所選擇的實際動作來更新目標策略Q值的. Q-learning算法具體流程如算法1所示[14].

        算法1. Q-learning算法3. 初始化4. Repeat(for each step of episode)1. 隨機初始化2. Repeat(for each episode) 5. 利用從 中得到的策略在中選擇 6. 采取動作 , 得到 7.8.9. 直到是終止狀態(tài)10. 直到 最優(yōu)

        3 基于Q-learning算法的建筑能耗預測方法

        3.1 建筑能耗狀態(tài)表示

        DBN可以應用在多種領域的問題中, 例如執(zhí)行非線性維數(shù)減少、圖像識別、視頻序列和動作捕捉數(shù)據(jù)等問題. 此外, DBN可以根據(jù)不同的抽象層將學習任務分解成相應的子問題.

        DBN由很多限制玻爾茲曼機堆疊在一起, DBN是一個時滯神經(jīng)網(wǎng)絡, 主要分為可視層和隱層, 每一層之間存在相關鏈接, 但每一層內(nèi)的單元之間不存在相互鏈接. 隱層每個單元的作用主要在于獲取可視層單元的輸入數(shù)據(jù)所具有的高階數(shù)據(jù)的特征, 因此, 由可視層和隱層鏈接配置的能量被定義為:

        其中,i表示可視層節(jié)點,表示隱層節(jié)點,表示第i個可視單元與第個隱層單元之間的權重. 此外和表示第i個可視單元與第個隱層單元的狀態(tài),和表示可視層與隱層的偏置向量.表示隱層和可視單元之間的輸出與它們的相關權重的乘積和分別表示可視層和隱層的輸出. RBM定義了一個聯(lián)合的概率p(v,h), 覆蓋了隱層和可視層.

        在RBM中隱藏層和可視層被激活的概率可以用下面的公式來表示:

        總的來說, 一個深度信念網(wǎng)絡是由一個任意的數(shù)字給出的. 其中, 可視層(輸入向量)和l層隱層的之間的聯(lián)合分布的定義如公式(13)所示:

        如圖1所示, 一個DBN包含1個可視層和3個隱層, 其中,層是可視層;是隱層. 可視層的每個單元代表真實值, 隱層的每個單元代表2進制的神經(jīng)元. DBN可以通過貪心無監(jiān)督的方法進行訓練, 通過從下到上的順序分別訓練其中的每一個RBM, 使用隱層的輸出作為下一個RBM的輸入, 直到最后一個RBM被訓練結束. 此外, DBN通過在模型的底層修改初始狀態(tài)以此推斷出最頂層的隱藏層, 從而將從環(huán)境中獲取的初始狀態(tài)映射到二值狀態(tài)空間.

        圖1 DBN框架圖

        3.2 環(huán)境建模

        3.3 基于Q-learning算法的建筑能耗預測算法

        DBN將從環(huán)境中獲取的初始狀態(tài)映射到一個二值狀態(tài)空間, 并且將獲得的狀態(tài)作為Q-learning算法的輸入, 基于Q-learning算法的建筑能耗預測算法具體流程如算法2所示.

        算法2. 基于Q-learning算法的建筑能耗預測算法X 4. For each 1. 初始化 DBN, 輸入狀態(tài)集2. For each RBM in DBN 3. Repeat x∈X 5. 令RBM可見層6. 執(zhí)行RBM, 訓練出RBM的參數(shù)7. 更新RBM的權重及各個節(jié)點的偏置, 固定RBM的參數(shù)RBMvisible=x

        8. End for 9. Until converge x∈X 10. For each 11. 令RBM可見層RBMhidden RBMvisible=x 12. 推斷出RBMhidden 13. 將 作為下一個RBM的可見層14. End for 15. End for X 16. 將最后計算出的 作為Q-learning算法的狀態(tài)集Q(s,a)17. 隨機初始化 ;18. Repeat(for each episode)s s∈X 19. 初始化20. Repeat(for each step of episode)Q 21. 利用從 中得到的策略在 中選擇α s α 22. 采取動作 , 得到 ,Q(s,a)←Q(s,a)+α[r+γmaxQ(s′,a′)-Q(s,a)]r s′23.24.25. 直到是終止狀態(tài)26. 直到最優(yōu)s←s′

        4 實驗及結果分析

        4.1 實驗設置

        為了驗證本文所提出的建筑能耗預測方法的有效性, 本章節(jié)采用的實驗數(shù)據(jù)是美國巴爾的摩燃氣和電力公司記載的建筑能耗數(shù)據(jù), 具體時間為2007年1月至2017年12月. 本節(jié)以其中General Service(< 60 kW)部分數(shù)據(jù)為實驗數(shù)據(jù)集, 如圖2所示, 子圖1表示2017年9月共30天的能耗數(shù)據(jù), 子圖2展示的是2017年9月23日至9月29日共一周7天的能耗數(shù)據(jù), 圖2中數(shù)據(jù)采集的步長為1次/1 h. 在所有實驗中,數(shù)據(jù)集分為兩部分, 一部分用于模型的訓練, 一部分用來評估該能耗預測方法的性能, 學習速率 α =0.4, 折扣因子 γ =0.99.

        圖2 能耗實際值

        4.2 實驗結果分析

        圖3 和圖4主要展示了Q-learning、基于DBN的Q-learning算法對一個星期的建筑能耗預測值與實際值的對比圖, 橫坐標表示時間, 縱坐標表示建筑能耗.在實驗過程中, 每個算法都被獨立執(zhí)行20次, 圖中的數(shù)據(jù)即20次實驗的平均值. 從兩幅圖中可以看出, 兩種算法都可以預測出未來一周的建筑能耗值. 因此, 用DBN構建能耗動態(tài)模型, 并采用Q-learning算法進行建筑能耗預測的方法是可行的. 此外, 從圖中可以清晰地看出, 改進的基于DBN的Q-learning算法的能耗預測準確性較經(jīng)典Q-learning算法更高, 主要原因是通過DBN構造高維特征向量, 進一步提高函數(shù)逼近器的泛化能力, 提高算法預測的準確性.

        圖3 Q-learning算法能耗預測值與實際值對比

        圖4 基于DBN的Q-learning算法能耗預測值與實際值對比

        表1主要表示了DBN隱藏層神經(jīng)元個數(shù)不同時,不同算法對能耗預測的性能分析. 表格中的數(shù)據(jù)表示建筑能耗實際值與預測值的均方根誤差, 表格中的數(shù)據(jù)是算法被獨立執(zhí)行20次的平均值. 從表1還可以看出相同算法在不同隱藏層神經(jīng)元的個數(shù)下, 算法的性能也不一致, 當隱藏層神經(jīng)元個數(shù)為 5, 10, 20, 50,100時, 建筑能耗的預測值與實際值的均方根誤差分別為 0.325, 0.225, 0.122, 0.127, 0.138. 由此可以看出, 神經(jīng)元個數(shù)越少, 預測的準確性越差, 而神經(jīng)元個數(shù)越多時, 預測的準確性越好, 但是當神經(jīng)元數(shù)量足夠多時,預測的準確性幾乎保持一致, 甚至準確性變差. 由此可見, 為了提高建筑能耗預測的準確性, 選擇合適的隱藏層神經(jīng)元個數(shù)是有必要的, 由表 1 可知, 本文中, 隱藏層神經(jīng)元個數(shù)取20.

        表1 神經(jīng)元個數(shù)對基于DBN的Q-learning算法預測性能的影響

        表2主要表示了不同α值以及在不同數(shù)據(jù)步長對基于DBN的Q-learning算法預測性能的影響分析. 表格的第一行表示α的不同取值, 表格的第一列表示數(shù)據(jù)的步長, 即每個數(shù)據(jù)之間的時間間隔分別為1 h, 1 day, 1 week和1 month. 表格中的數(shù)據(jù)表示建筑能耗實際值與預測值的均方根誤差, 都是算法被獨立執(zhí)行20次的平均值. 由表2可以清晰地知道, 當數(shù)據(jù)步長為1 h時, 盡管α的取值在不斷變化, 建筑能耗的預測值與實際值的均方根誤差總是比較穩(wěn)定, 預測的準確性較高; 當數(shù)據(jù)步長為 1 week 時,α取值越大, 建筑能耗的預測值和實際值的均方根誤差越小, 預測的準確性相對較低; 而當數(shù)據(jù)步長為1 week和1 month時,α取值越大, 建筑能耗的預測值和實際值的均方根誤差越大, 預測的準確性更低. 同樣的, 當α(α≥0.4)取值一致時, 數(shù)據(jù)的步長越小, 建筑能耗的預測值和實際值的均方根誤差越小, 預測的準確性越高; 數(shù)據(jù)的步長越大,建筑能耗的預測值和實際值的均方根誤差越大, 預測的準確性越低. 綜上所述, 為了最大化能耗預測的準確性, 這里我們選取數(shù)據(jù)步長為1 h,α取值我們選取0.4.

        表2 不同 值及不同數(shù)據(jù)步長對基于DBN的Q-learning算法預測性能的影響

        表2 不同 值及不同數(shù)據(jù)步長對基于DBN的Q-learning算法預測性能的影響

        數(shù)據(jù)步長 α值0.2 0.3 0.4 0.5 0.6 0.7 1 h 0.136 0.132 0.122 0.119 0.129 0.135 1 day 1.233 1.156 0.985 0.912 0.685 0.843 1 week 1.312 1.114 1.109 1.112 1.698 1.723 1 month 1.205 2.209 2.352 2.417 2.423 2.436

        5 結束語

        本文提出一種基于Q-learning算法的建筑能耗預測模型. 該模型通過深度置信網(wǎng)自動提取特征, 并利用貪心無監(jiān)督的方法自下而上地訓練深度置信網(wǎng)中的每一個RBM. 所提出的模型將隱層的輸出作為下一個RBM的輸入, 實現(xiàn)對能耗狀態(tài)的預處理, 并以此構建高維狀態(tài)向量. 此外, 該模型將能耗預測問題建模為一個標準的馬爾可夫決策過程, 將深度置信網(wǎng)的輸出狀態(tài)向量作為Q-learning算法的輸入, 利用Q-learning實現(xiàn)對能耗的實時預測. 為了驗證模型的有效性, 本文采用美國巴爾的摩燃氣和電力公司記載的建筑能耗數(shù)據(jù)進行測試實驗, 實驗結果表明, 所提出的模型可以有效地預測建筑能耗, 并且基于DBN的Q-learning算法較傳統(tǒng)的Q-learning算法有較高的預測精度. 此外, 本文還進一步分析了相關參數(shù)對算法性能的影響.

        本文主要對單一固定建筑能耗進行預測, 下一步,將考慮對多樣變化的建筑能耗進行預測和遷移研究,同時不斷完善模型, 更好地實現(xiàn)建筑能耗預測, 進一步達到建筑節(jié)能的目的.

        猜你喜歡
        隱層步長能耗
        120t轉爐降低工序能耗生產(chǎn)實踐
        昆鋼科技(2022年2期)2022-07-08 06:36:14
        能耗雙控下,漲價潮再度來襲!
        基于Armijo搜索步長的BFGS與DFP擬牛頓法的比較研究
        探討如何設計零能耗住宅
        基于RDPSO結構優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡水質(zhì)預測模型及應用
        人民珠江(2019年4期)2019-04-20 02:32:00
        日本先進的“零能耗住宅”
        華人時刊(2018年15期)2018-11-10 03:25:26
        基于逐維改進的自適應步長布谷鳥搜索算法
        基于近似結構風險的ELM隱層節(jié)點數(shù)優(yōu)化
        計算機工程(2014年9期)2014-06-06 10:46:47
        最優(yōu)隱層BP神經(jīng)網(wǎng)絡的滾動軸承故障診斷
        一種新型光伏系統(tǒng)MPPT變步長滯環(huán)比較P&O法
        電測與儀表(2014年2期)2014-04-04 09:04:00
        婷婷成人基地| 午夜射精日本三级| 乱子伦一区二区三区| 亚洲av福利无码无一区二区| 亚洲av一宅男色影视| 久久精品国产热| 少妇高潮喷水正在播放 | 亚洲成a人片在线播放观看国产| 亚洲综合色婷婷七月丁香| 日韩一区中文字幕在线| 91麻豆精品国产91久久麻豆| 色天使久久综合网天天| 中文字幕丰满乱子无码视频| 免费男人下部进女人下部视频| 一级一级毛片无码免费视频| 一本色道久久综合亚洲精品蜜臀| 国产自拍一区二区三区| 免费亚洲一区二区三区av| 正在播放老肥熟妇露脸| 女厕厕露p撒尿八个少妇| 日子2020一区二区免费视频| 福利片免费 亚洲| 国产精品久久av高潮呻吟| 少妇被又大又粗又爽毛片| 亚洲美腿丝袜 欧美另类| 在线观看91精品国产免费免费| 国产精品无码久久久久久蜜臀AV| 麻豆视频在线观看免费在线观看| 日本免费一区二区三区影院| 射死你天天日| 国产乱子伦农村xxxx| 国产在线视频一区二区三区| 蜜桃尤物在线视频免费看| 亚洲乱码日产精品一二三| 亚洲av日韩av不卡在线观看 | 国产丝袜在线福利观看| 最新日本人妻中文字幕| 无码人妻久久一区二区三区免费 | av无码精品一区二区三区四区| 99久久精品一区二区三区蜜臀| 亚洲香蕉久久一区二区|