亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)區(qū)間多目標(biāo)優(yōu)化的智能建筑低碳優(yōu)化調(diào)度

        2023-11-20 09:28:08何梓姻侯婷婷唐金銳吳細(xì)秀
        電力系統(tǒng)自動化 2023年21期
        關(guān)鍵詞:不確定性舒適度區(qū)間

        侯 慧,何梓姻,陳 躍,2,侯婷婷,唐金銳,吳細(xì)秀

        (1.武漢理工大學(xué)自動化學(xué)院,湖北省武漢市 430070;2.國網(wǎng)湖北省電力有限公司十堰供電公司,湖北省十堰市 442000;3.國網(wǎng)湖北省電力有限公司經(jīng)濟(jì)技術(shù)研究院,湖北省武漢市 430077;4.武漢理工大學(xué)深圳研究院,廣東省深圳市 518000)

        0 引言

        據(jù)清華大學(xué)建筑節(jié)能研究中心發(fā)布的《中國建筑節(jié)能年度發(fā)展研究報(bào)告2022(公共建筑專題)》,2020 年建筑運(yùn)行總能耗占全國能耗總量的21%,預(yù)計(jì)到2050 年,建筑節(jié)能潛力達(dá)74%,可減少碳排放約50%[1]。隨著多種形式能源及分布式發(fā)電資源的滲透,傳統(tǒng)用能建筑正轉(zhuǎn)變?yōu)橐越ㄖ橹黧w的多能源系統(tǒng)[2]。因此,如何開展建筑優(yōu)化調(diào)度與能量管理,已成為實(shí)現(xiàn)建筑經(jīng)濟(jì)運(yùn)行、促進(jìn)建筑減排的關(guān)鍵問題。

        近年對于智能建筑已有許多研究。針對建筑熱特性,文獻(xiàn)[3]通過建筑熱力學(xué)簡化一階熱模型,評估了建筑運(yùn)行條件對建筑供能靈活性的影響。文獻(xiàn)[4]將考慮建筑圍護(hù)結(jié)構(gòu)的對流換熱、門窗滲透、冷風(fēng)侵入和內(nèi)熱源散熱等因素的熱平衡模型引入調(diào)度問題,以提升室內(nèi)溫度計(jì)算的精確性。具體到建筑中暖通系統(tǒng),文獻(xiàn)[5-6]提出了對商業(yè)建筑中暖通系統(tǒng)的監(jiān)督控制,為電網(wǎng)提供頻率調(diào)節(jié)服務(wù)。其中,文獻(xiàn)[6]通過與儲能技術(shù)比較,表明建筑溫控負(fù)荷的調(diào)控更具經(jīng)濟(jì)效益。上述研究基于建筑熱特性展開,但未涉及需求響應(yīng)調(diào)控。文獻(xiàn)[7]構(gòu)建了基于階梯型補(bǔ)貼的需求響應(yīng)機(jī)制下含精細(xì)化建筑虛擬儲能的綜合能源站經(jīng)濟(jì)調(diào)度模型,綜合考慮多種熱量擾動因素,統(tǒng)籌協(xié)調(diào)能源站與用戶側(cè)的資源。文獻(xiàn)[8-9]通過電熱能源耦合替代進(jìn)行協(xié)同控制,基于電價(jià)預(yù)測模型預(yù)測運(yùn)行。然而,上述研究未在計(jì)及新能源出力及負(fù)荷需求等不確定性因素的同時(shí),統(tǒng)籌考慮居住者體驗(yàn)、天氣及建筑結(jié)構(gòu)特性等。

        針對需求側(cè)資源,尤其是能耗占比大的智能建筑系統(tǒng)的減排潛力亟待開發(fā)。同時(shí),隨著碳交易機(jī)制的引入,智能建筑的分布式發(fā)電等因素的強(qiáng)隨機(jī)性、波動性等特點(diǎn)也更加顯著,這對調(diào)度策略及不確定求解方法也提出更高要求?,F(xiàn)有不確定性研究的主要方法包括備用容量調(diào)度[10-11]、隨機(jī)規(guī)劃[12-14]、場景分析[15-17]、魯棒優(yōu)化[18-19]及區(qū)間優(yōu)化[20]等。文獻(xiàn)[10]提出了一種綜合考慮發(fā)電機(jī)故障等約束下儲能作為備用容量的調(diào)度方法。文獻(xiàn)[11]通過儲能等備用容量進(jìn)行微網(wǎng)兩階段不確定性調(diào)度。文獻(xiàn)[12]計(jì)及光伏及能源價(jià)格的不確定性,提出了一種建筑能源管理的隨機(jī)規(guī)劃模型。文獻(xiàn)[13-14]構(gòu)建了兩階段隨機(jī)規(guī)劃模型,將新能源出力不確定性整合到優(yōu)化中。文獻(xiàn)[15-16]基于場景分析方法構(gòu)建了微網(wǎng)能源管理模型。文獻(xiàn)[17]采用場景生成及場景削減的方法處理可再生能源的不確定性。文獻(xiàn)[18]建立兩階段魯棒優(yōu)化模型,考慮可再生能源與負(fù)荷不確定的同時(shí),兼顧系統(tǒng)調(diào)度成本及運(yùn)行可靠性。文獻(xiàn)[19]基于魯棒優(yōu)化建立了高比例可再生能源滲透的配電網(wǎng)儲能規(guī)劃模型,并通過蒙特卡洛抽樣驗(yàn)證了可行性。文獻(xiàn)[20]通過區(qū)間數(shù)將不確定性轉(zhuǎn)換為區(qū)間表達(dá)式,建立了一種針對蓄熱建筑的多時(shí)間尺度區(qū)間優(yōu)化調(diào)度模型。整體而言,備用容量調(diào)度會增加系統(tǒng)的容量配置成本,隨機(jī)規(guī)劃及場景分析方法則會影響結(jié)果準(zhǔn)確性。魯棒優(yōu)化在處理不確定問題方面具有一定優(yōu)勢,但基于最壞情景來優(yōu)化系統(tǒng)運(yùn)行勢必會使優(yōu)化結(jié)果偏于保守,難以滿足運(yùn)行經(jīng)濟(jì)性。區(qū)間優(yōu)化通過將不確定性因素轉(zhuǎn)化為區(qū)間數(shù),并求解得到相關(guān)不確定變量的決策區(qū)間,可有效解決上述在實(shí)際應(yīng)用中大量不確定信息困難問題,但區(qū)間過大可能影響結(jié)果精確度及算法收斂性等[21]。

        深度強(qiáng)化學(xué)習(xí)將感知、學(xué)習(xí)及決策等整合到同一個(gè)框架內(nèi),不需要通過精確的數(shù)學(xué)公式刻畫物理模型信息。因此,基于深度強(qiáng)化學(xué)習(xí)的方法可以捕捉到難以精確建模系統(tǒng)的動態(tài)特性,在一些高維復(fù)雜任務(wù)中的表現(xiàn)優(yōu)于傳統(tǒng)基于模型的優(yōu)化算法,能更好地處理優(yōu)化過程中的動態(tài)問題。深度強(qiáng)化學(xué)習(xí)單獨(dú)作為動態(tài)優(yōu)化算法或結(jié)合機(jī)器學(xué)習(xí)模型在微網(wǎng)實(shí)時(shí)調(diào)度[22-23]及負(fù)荷預(yù)測[24]等領(lǐng)域已取得較好效果,但對于提高優(yōu)化算法性能的參數(shù)優(yōu)化方面還鮮有研究。

        基于以上分析,本文提出多重不確定性影響下基于深度強(qiáng)化學(xué)習(xí)的區(qū)間多目標(biāo)優(yōu)化智能建筑調(diào)度方法。在源荷不確定性基礎(chǔ)上,考慮建筑熱彈性、設(shè)備參數(shù)、響應(yīng)程度、智能建筑圍護(hù)參數(shù)、環(huán)境溫度等多重不確定性因素,采用區(qū)間數(shù)等方法進(jìn)行建模;以運(yùn)行成本最低及用戶舒適度最優(yōu)為目標(biāo),提出基于深度強(qiáng)化學(xué)習(xí)的區(qū)間多目標(biāo)粒子群算法對其求解,通過深度強(qiáng)化學(xué)習(xí)指導(dǎo)區(qū)間多目標(biāo)優(yōu)化,提升尋優(yōu)效率及算法收斂性,以實(shí)現(xiàn)系統(tǒng)最優(yōu)運(yùn)行。最后,通過算例仿真驗(yàn)證本文所提方法的有效性。

        1 不確定性建筑能量管理系統(tǒng)模型

        經(jīng)典的智能建筑系統(tǒng)如圖1 所示。能源供給側(cè)由上級電網(wǎng)、上級氣網(wǎng)等組成,同時(shí),建筑具有分布式電源單元協(xié)同供給。建筑內(nèi)機(jī)組設(shè)備根據(jù)用戶需求安排生產(chǎn)計(jì)劃,在滿足用戶基本需求的同時(shí),協(xié)同、轉(zhuǎn)換用能形式,提高經(jīng)濟(jì)性。

        圖1 智能建筑系統(tǒng)結(jié)構(gòu)Fig.1 Structure of smart building system

        建筑內(nèi)部機(jī)組主要包含電空調(diào)、電熱水器與燃?xì)忮仩t(gas boiler,GB)等設(shè)備,以滿足建筑內(nèi)部供電、供暖及熱水等各類需求。本文假設(shè)上述建筑供能設(shè)備可由建筑物能源管理系統(tǒng)統(tǒng)一進(jìn)行智能控制。

        1.1 電氣設(shè)備不確定性模型

        本文將建筑內(nèi)部電氣設(shè)備因溫度、濕度、負(fù)載率等外界因素影響下的變工況運(yùn)行特性看作不確定性因素,對機(jī)組轉(zhuǎn)換效率不確定性區(qū)間建模如下。

        1.1.1 電鍋爐

        系統(tǒng)中電鍋爐(electric boiler,EB)可滿足用戶部分熱負(fù)荷需求,考慮轉(zhuǎn)換效率不確定性,其模型如式(1)所示。

        式中:上標(biāo)“±”表示區(qū)間變量;QEB,t為t時(shí)刻EB 輸出熱功率;PEB,t為t時(shí)刻EB 消耗的電功率;ηEB為EB制熱效率。

        1.1.2 GB

        GB 通過燃燒天然氣為建筑系統(tǒng)用戶集中供熱,滿足用戶主要熱需求,其模型如式(2)所示。

        式 中:QGB,t為t時(shí) 刻GB 輸 出 熱 功 率;VGB,t為t時(shí) 刻GB 耗氣量;ηGB為GB 產(chǎn)熱效率;Hg為天然氣熱值。

        1.1.3 空氣源熱泵

        空氣源熱泵(air-source heat-pump,AH)也是系統(tǒng)的電-熱能源耦合裝置之一,其數(shù)學(xué)模型如式(3)所示,環(huán)境溫度對AH 的影響模型如式(4)所示[4]。

        式中:QAH,t為t時(shí)刻AH 制熱功率;PAH,t為t時(shí)刻AH消耗的電功率;ηAH,t為t時(shí)刻AH 制熱能效比;Δt為時(shí)間間隔;αi為冪級數(shù)i下制熱能效比擬合系數(shù);Tout,t為t時(shí)刻室外環(huán)境溫度。

        1.1.4 蓄電池

        蓄電池(battery energy storage,BES)主要用于系統(tǒng)新能源消納、新能源出力緩解、負(fù)荷波動平抑等。其充放電模型如式(5)所示。

        式 中:SBES,t為BES 在t時(shí) 刻 的 荷 電 狀 態(tài);PBES,t為BES 在t時(shí)刻的出力,值大于0 為放電,值小于0 為充 電;EBES為BES 容 量;σBES為BES 自 損 耗 系 數(shù);ηBES,c和ηBES,d分別為BES 充、放電系數(shù)。

        1.2 建筑熱彈性模型

        現(xiàn)有研究在衡量建筑蓄熱特性時(shí)通常采用簡單的電阻電容等值電路模型[8]。本節(jié)在此基礎(chǔ)上,采用基于圍護(hù)結(jié)構(gòu)的熱傳遞模型,如式(6)所示。

        式中:Tin,t為t時(shí)刻建筑系統(tǒng)室內(nèi)溫度;ΔTt為Δt時(shí)段內(nèi)建筑系統(tǒng)室內(nèi)溫度變化,如式(7)所示。

        式中:S為建筑系統(tǒng)占地面積;H為建筑室內(nèi)高度;ρa(bǔ)ir為 空 氣 密 度;Cair為 空 氣 比 熱 容;Qhd,t為t時(shí) 刻 圍護(hù)結(jié)構(gòu)的耗熱量,如式(8)所示。

        式中:Oarc為建筑圍護(hù)結(jié)構(gòu)集合;α為由圍護(hù)結(jié)構(gòu)空間位置導(dǎo)致的溫差修正系數(shù);kj為第j類圍護(hù)結(jié)構(gòu)傳熱系數(shù);Sj為第j類圍護(hù)結(jié)構(gòu)面積。

        1.3 源荷不確定性模型

        影響新能源出力以及負(fù)荷需求變化的因素眾多,通常難以獲得完備的數(shù)據(jù)。文獻(xiàn)[25]表明風(fēng)電/光伏/負(fù)荷具有混沌特性,采用相空間重構(gòu)技術(shù)對歷史數(shù)據(jù)進(jìn)行處理,可不考慮除歷史數(shù)據(jù)以外的影響因素。本節(jié)采用相空間重構(gòu)及機(jī)器學(xué)習(xí)結(jié)合的方式,將相空間重構(gòu)后的高維相空間作為機(jī)器學(xué)習(xí)模型的訓(xùn)練輸入數(shù)據(jù)進(jìn)行預(yù)測。

        基于數(shù)據(jù)驅(qū)動的預(yù)測算法及非參數(shù)核密度估計(jì)法構(gòu)建源荷不確定性模型[25-26],無須進(jìn)行先驗(yàn)假設(shè),具有更強(qiáng)的適應(yīng)性,包含點(diǎn)預(yù)測與區(qū)間預(yù)測兩部分。點(diǎn)預(yù)測僅能預(yù)測單點(diǎn)期望值,難以反映不確定性,而區(qū)間預(yù)測輸出的是可能變化的區(qū)間[25]。因此,可采用區(qū)間預(yù)測對新能源出力與負(fù)荷進(jìn)一步預(yù)測?;诤嗣芏裙烙?jì)法[26]得到預(yù)測誤差的概率密度函數(shù)及概率分布函數(shù)F(ζ),通過F(ζ)反函數(shù)計(jì)算得到給定置信水平下的預(yù)測區(qū)間。以系統(tǒng)用戶電負(fù)荷為例,t時(shí)刻的點(diǎn)預(yù)測值為PEL,pre,t,預(yù)測誤差為ξEL,則在置信水平為1-β下的預(yù)測區(qū)間可表示為:

        式 中:PEL,t為t時(shí) 刻 系 統(tǒng) 電 負(fù) 荷 需 求;EL,t和EL.t分別為t時(shí)刻系統(tǒng)電負(fù)荷需求上、下界。

        2 計(jì)及碳交易的區(qū)間多目標(biāo)優(yōu)化調(diào)度

        智能建筑的供能設(shè)備、新能源出力等具有強(qiáng)隨機(jī)性與波動性,現(xiàn)有研究缺乏對智能建筑系統(tǒng)中多重不確定性的統(tǒng)籌考慮。同時(shí),在經(jīng)濟(jì)調(diào)度過程中大多僅考慮調(diào)度成本,較少研究計(jì)及系統(tǒng)用戶舒適度方面的影響,存在一定的片面性。因此,本文計(jì)及系統(tǒng)用戶對于運(yùn)行經(jīng)濟(jì)性及人體舒適度的要求,綜合考慮碳排放等因素的影響,計(jì)及多重不確定性及多元調(diào)度目標(biāo),構(gòu)建區(qū)間多目標(biāo)優(yōu)化調(diào)度模型。

        2.1 碳排放與碳交易機(jī)制

        2.1.1 系統(tǒng)碳排放計(jì)量

        本文所構(gòu)造的建筑系統(tǒng)模型包含電、熱、氣等多種形式能源,且各種能源相互耦合。為清晰界定不同能源引起的碳排放,本文采用生命周期評價(jià)(life cycle assessment,LCA)法[27]對不同能源鏈遷移轉(zhuǎn)化過程中的碳排放進(jìn)行計(jì)量,充分考慮每條能源鏈從生產(chǎn)源頭到負(fù)荷需求側(cè)的碳軌跡,精確判斷建筑系統(tǒng)碳排放總量。

        式中:E為系統(tǒng)碳排放總量;eq為系統(tǒng)設(shè)備q相應(yīng)能源種類能源鏈碳排放量系數(shù);ec,q、et,q、eu,q分別為系統(tǒng)設(shè)備q相應(yīng)能源種類生產(chǎn)環(huán)節(jié)、存儲運(yùn)輸環(huán)節(jié)及使用環(huán)節(jié)的碳排放量系數(shù);Ω為系統(tǒng)能源供應(yīng)存儲環(huán)節(jié)設(shè)備集合;Pq,t為t時(shí)刻設(shè)備q的有功功率;T為系統(tǒng)調(diào)度周期。

        2.1.2 碳交易機(jī)制

        碳交易最初是由聯(lián)合國為應(yīng)對氣候變化創(chuàng)建的一種貿(mào)易體系。碳交易機(jī)制通過建立合法碳排放權(quán)并允許對其進(jìn)行買賣,實(shí)現(xiàn)碳排放量控制[27]。本文根據(jù)碳權(quán)分配基線法進(jìn)行系統(tǒng)碳排放成本的歸算[28],系統(tǒng)碳交易成本如式(13)所示。

        式中:c(·)為碳交易成本函數(shù);E*為系統(tǒng)碳排放權(quán)配額;ξ為碳價(jià)。

        2.2 目標(biāo)函數(shù)

        系統(tǒng)優(yōu)化目標(biāo)為綜合經(jīng)濟(jì)成本最低與人體熱舒適度最優(yōu)。

        2.2.1 綜合經(jīng)濟(jì)成本

        經(jīng)濟(jì)調(diào)度過程中綜合成本主要包含系統(tǒng)購能成本、機(jī)組運(yùn)維成本及系統(tǒng)碳交易成本等。

        式中:F1為綜合經(jīng)濟(jì)成本子函數(shù);fe、fma、fc分別為系統(tǒng)購能成本、機(jī)組運(yùn)維成本、系統(tǒng)碳交易成本;Pgrid,t為t時(shí)刻電網(wǎng)功率;peb,t和pes,t分別為系統(tǒng)向電網(wǎng)購電及售電價(jià)格;pg為系統(tǒng)購氣氣價(jià);c、c、c、c分別為調(diào)控周期內(nèi)EB、GB、AH、BES 的單位運(yùn)維成本。

        2.2.2 人體熱舒適度

        為了更全面表征用戶舒適度,本文引入根據(jù)國際標(biāo)準(zhǔn)ISO 7730 制定的人體熱舒適度預(yù)測平均指標(biāo)(predicted mean vote,PMV)[29]來量化用戶的冷熱舒適度。忽略室內(nèi)風(fēng)速、濕度等影響,PMV 計(jì)算公式可簡化為式(18)。

        式中:IPMV,t為t時(shí)刻建筑系統(tǒng)內(nèi)用戶PMV 值;Tsk為舒適溫度;M和Icl分別為人體代謝率和服裝熱阻。

        PMV 是一個(gè)綜合性指標(biāo),將人體舒適度量化在[-3,3]內(nèi)。PMV 與用戶舒適度關(guān)系如附錄A 圖A1 所示,PMV 值為負(fù)表示人體產(chǎn)生冷的感覺,值為正表示人體產(chǎn)生熱的感覺,其絕對值越大,表示感覺越強(qiáng)烈,-0.5~0.5 為合理的人體舒適環(huán)境。人體熱舒適度子函數(shù)可表示為:

        式中:F2為人體熱舒適度子函數(shù),為區(qū)間函數(shù),表征調(diào)控過程中建筑系統(tǒng)熱環(huán)境脫離人體生理舒適環(huán)境整體程度;‖ · ‖2表示 二范數(shù)。

        2.3 運(yùn)行約束

        針對構(gòu)建的調(diào)度模型需滿足以下約束條件。

        2.3.1 功率平衡約束

        式中:PPV,t和PWT,t分別為系統(tǒng)風(fēng)、光功率預(yù)測值;PTL,t為系統(tǒng)熱負(fù)荷需求預(yù)測值。

        2.3.2 設(shè)備功率約束

        式 中:QEB,max、QGB,max、QAH,max、PBES,max分 別 為EB、GB、AH、BES 的最大輸出功率。

        2.3.3 儲能容量約束

        除儲能設(shè)備輸出功率約束外,還應(yīng)滿足荷電狀態(tài)約束,如式(26)所示。同時(shí),考慮到儲能調(diào)度周期的連續(xù)性[30],調(diào)度周期始末系統(tǒng)儲能狀態(tài)應(yīng)保持一致,如式(27)所示。

        式中:SBES,min和SBES,max分別為荷電狀態(tài)最小值和最大值;SS,0和SS,T分別為調(diào)度周期T始、末系統(tǒng)儲能狀態(tài)。

        3 深度強(qiáng)化學(xué)習(xí)區(qū)間多目標(biāo)優(yōu)化算法

        本章針對上述考慮碳交易的多重不確定性模型調(diào)度求解問題,構(gòu)建了基于深度強(qiáng)化學(xué)習(xí)的區(qū)間多目標(biāo)優(yōu)化算法。區(qū)間多目標(biāo)優(yōu)化問題是實(shí)際應(yīng)用中普遍存在且復(fù)雜的優(yōu)化問題。由于問題的目標(biāo)函數(shù)取值不再是精確數(shù)值,同時(shí),區(qū)間目標(biāo)使非支配解數(shù)量快速增長,致使傳統(tǒng)區(qū)間多目標(biāo)優(yōu)化算法如區(qū)間多目標(biāo)粒子群優(yōu)化(interval multi-objective particle swarm optimization,IMOPSO)算法等,面臨巨大選擇壓力,且存在算法迭代尋優(yōu)效率下降、區(qū)間收斂困難等問題。

        深度強(qiáng)化學(xué)習(xí)利用神經(jīng)網(wǎng)絡(luò)擬合狀態(tài)動作價(jià)值函數(shù),并根據(jù)狀態(tài)價(jià)值函數(shù)指導(dǎo)對象運(yùn)動,更好地處理優(yōu)化過程中的動態(tài)問題。通過離線歷史數(shù)據(jù)進(jìn)行模型訓(xùn)練,能夠應(yīng)用于在線的策略生成,極大縮短策略生成時(shí)間,將已有模型應(yīng)用在其他類似場景時(shí),可以進(jìn)行模型自主進(jìn)化?;诖?本文利用深度強(qiáng)化學(xué)習(xí)與IMOPSO 算法交互,從而學(xué)習(xí)建筑模型狀態(tài)、動作、獎勵間的隱式關(guān)系,進(jìn)而指導(dǎo)區(qū)間種群運(yùn)動,實(shí)現(xiàn)Pareto 前沿的快速逼近與區(qū)間收斂。最后,利用模糊隸屬度函數(shù)從Pareto 解集中權(quán)衡篩選出最終調(diào)度方案。本文模型求解框架如圖2 所示,具體模型與算法耦合關(guān)系如附錄A 圖A2 所示。

        圖2 模型求解框架Fig.2 Model solving framework

        3.1 深度強(qiáng)化學(xué)習(xí)模型

        強(qiáng)化學(xué)習(xí)的本質(zhì)是當(dāng)前對象(Agent)與環(huán)境的交互。交互過程中涉及動作-狀態(tài)轉(zhuǎn)移與狀態(tài)價(jià)值函數(shù)獎懲,實(shí)現(xiàn)滿足目標(biāo)期望的迭代學(xué)習(xí)優(yōu)化,使得Agent 最終獲得最多的累計(jì)獎勵。

        3.1.1 狀態(tài)與動作

        在IMOPSO 迭代求解過程中,強(qiáng)化學(xué)習(xí)模型中智能體即為概念實(shí)體IMOPSO 算法。

        IMOPSO 算 法 具 體 為 含Dimen維 變 量、Mpop,size個(gè)粒子的區(qū)間種群優(yōu)化Nobj維目標(biāo)。設(shè)粒子m的位置為,速度為,個(gè)體歷史最優(yōu)位置為,群體最優(yōu)位置為,則狀態(tài)、動作如式(28)和式(29)所示。

        式中:S為智能體狀態(tài);A為智能體決策動作;ω為初始網(wǎng)絡(luò)權(quán)重;c1和c2為權(quán)重ω下的兩種動作。

        3.1.2 獎勵函數(shù)

        本文將獎勵函數(shù)設(shè)定為種群IMOPSO 粒子適應(yīng)度及其區(qū)間長度。

        式中:R(·)為獎勵函數(shù);βz為第z類系數(shù);z∈{d,l}表示包含適應(yīng)度和區(qū)間長度兩類要素;fz和fz,max分別為第z類當(dāng)前獎勵及最大程度優(yōu)化所對應(yīng)的獎勵;fm和fl分別為適應(yīng)度和區(qū)間長度獎勵值;F±n為第n個(gè)子目標(biāo)區(qū)間函數(shù),共計(jì)Nobj個(gè)目標(biāo);δn為目標(biāo)n的 權(quán) 重;d(·) 為 區(qū) 間 中 值 函 數(shù);l(·) 為 區(qū) 間 長 度函數(shù)。

        3.1.3 動作決策

        動作決策過程為Agent 由當(dāng)前狀態(tài)根據(jù)決策網(wǎng)絡(luò)做出動作決策,同時(shí)引入ε-greedy 機(jī)制:

        式中:At為t時(shí)刻智能體決策動作;“random”表示有ε的概 率取隨機(jī)動作;p為隨機(jī)數(shù);St為t時(shí)刻智能體所處狀態(tài);Q(·)為智能體決策的網(wǎng)絡(luò),有1-ε的概率取網(wǎng)絡(luò)最大輸出對應(yīng)動作值,網(wǎng)絡(luò)可由貝爾曼方程定義。

        式中:Q(St+1,A)為t+1 時(shí)刻在狀態(tài)St+1下可能得到的網(wǎng)絡(luò)輸出;β′和γ分別為網(wǎng)絡(luò)更新學(xué)習(xí)因子和折扣因子。

        3.2 耦合DQN 的改進(jìn)IMOPSO 算法

        為解決區(qū)間多目標(biāo)優(yōu)化問題,提出一種耦合DQN 的改進(jìn)IMOPSO 算法,優(yōu)化功能實(shí)現(xiàn)具體分為“離線訓(xùn)練”和“在線指導(dǎo)”兩部分,如附錄A 圖A3所示。

        3.2.1 離線訓(xùn)練

        在“離線訓(xùn)練”過程中,IMOPSO 將狀態(tài)傳入智能體得到?jīng)Q策動作,并進(jìn)行狀態(tài)獎勵評價(jià)以及網(wǎng)絡(luò)訓(xùn)練優(yōu)化。網(wǎng)絡(luò)訓(xùn)練過程為:基于經(jīng)驗(yàn)回放機(jī)制,智能體將IMOPSO 迭代一次得到的四元數(shù)組[St,At,Rt,St+1]儲存在記憶池中,記憶池通過不斷的存儲、溢出,保持實(shí)時(shí)更新,其中,Rt為t時(shí)刻獎勵函數(shù)。在網(wǎng)絡(luò)參數(shù)更新中,通過式(33)構(gòu)造標(biāo)簽,并引入目標(biāo)網(wǎng)絡(luò)用于輸出最大目標(biāo)值maxQ(St+1,A)。

        3.2.2 在線指導(dǎo)

        在“在線指導(dǎo)”部分,首先導(dǎo)入訓(xùn)練完成的網(wǎng)絡(luò),其中存放了提升算法綜合性能最大的動作策略。然后初始化種群,與各網(wǎng)絡(luò)一一對應(yīng)。最后,反復(fù)調(diào)用網(wǎng)絡(luò),在線指導(dǎo)個(gè)體運(yùn)動,完成算法迭代尋優(yōu)直至收斂。模型中狀態(tài)為種群位置速度等,動作對應(yīng)參數(shù)選擇,測試環(huán)境為IMOPSO 算法整體規(guī)劃過程,訓(xùn)練的參數(shù)策略對于不同優(yōu)化場景具有通用性。

        4 算例分析

        4.1 算例參數(shù)設(shè)置

        本文風(fēng)機(jī)/光伏/負(fù)荷數(shù)據(jù)來源為美國PJM 電網(wǎng)的數(shù)據(jù)管理工具Data Miner 2 網(wǎng)站[31]。對系統(tǒng)采取日前調(diào)度,時(shí)間間隔為1 h。設(shè)備運(yùn)行參數(shù)如表1所示[32],建筑系統(tǒng)參數(shù)如表2 所示[32],電/氣交易價(jià)格見附錄A 圖A4。

        表1 設(shè)備運(yùn)行參數(shù)Table 1 Operation parameters of devices

        表2 建筑系統(tǒng)建筑參數(shù)Table 2 Building parameters of building systems

        本文設(shè)定經(jīng)驗(yàn)池容量為500,回放單元樣本數(shù)為20,探索率為0.1,折扣因子為0.9,學(xué)習(xí)因子為0.1,目標(biāo)網(wǎng)絡(luò)更新步長為10,訓(xùn)練步數(shù)為5 000,測試步數(shù)為500。網(wǎng)絡(luò)學(xué)習(xí)率取0.001。狀態(tài)空間維數(shù)作為神經(jīng)網(wǎng)絡(luò)輸入,包括粒子個(gè)體位置144 維(含EB 出 力 區(qū) 間 值48 維、GB 出 力 區(qū) 間 值48 維、AH 出力區(qū)間值48 維,BES 出力由等式約束確定)、個(gè)體速度144 維、個(gè)體歷史最優(yōu)144 維、種群歷史最優(yōu)144維,合計(jì)576 維。狀態(tài)空間為30 維,作為網(wǎng)絡(luò)輸出。隱藏層神經(jīng)元數(shù)量分別為1 000、1 000、200。

        本文采用超量(hypervolume)指標(biāo)和不精確度(imprecision)指標(biāo)衡量算法性能[33],定義如下。

        給定一組預(yù)先設(shè)置分布在目標(biāo)空間的參考點(diǎn)r與一組由算法得到的Pareto 近似解集P,滿足r被P中所有解支配。超量指標(biāo)H(P)衡量的是以r為邊界、被P支配目標(biāo)空間的體積大小,可表示為:

        式中:v±(p,r)表示參考點(diǎn)r與解集P中單個(gè)解p構(gòu)成的超體積區(qū)間。本節(jié)將超量的中點(diǎn)用作性能指標(biāo),H值越大,表示P越近似于Pareto。

        不精確度指標(biāo)I(P)可以測量所獲得解集的不確定性,解集P 的不精確度被定義為:

        式中:F(p)為單個(gè)解p的不精確度區(qū)間函數(shù),解集P的不精確度越小,不確定性性能越好。

        4.2 算法仿真試驗(yàn)

        4.2.1 區(qū)間預(yù)測

        采用互信息法對歷史用戶負(fù)荷數(shù)據(jù)及光伏功率數(shù)據(jù)求取延遲時(shí)間,采用偽近鄰法求取嵌入維數(shù)[34],所得用戶負(fù)荷數(shù)據(jù)的延遲時(shí)間和嵌入維數(shù)分別為4 和3,光伏功率數(shù)據(jù)的延遲時(shí)間和嵌入維數(shù)分別為9 和6。根據(jù)延遲時(shí)間和嵌入維數(shù)分別對各微網(wǎng)用戶負(fù)荷及光伏功率進(jìn)行相空間重構(gòu)。

        在選擇預(yù)測方法時(shí),本文對比多種預(yù)測方法及其學(xué)習(xí)算法[35-40],采用多種指標(biāo)評價(jià)預(yù)測精度[41],比較結(jié)果如表3 所示。其中,極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)預(yù)測精度最高,因此,采用ELM 對用戶負(fù)荷及光伏功率進(jìn)行預(yù)測。

        表3 不同機(jī)器學(xué)習(xí)算法的負(fù)荷預(yù)測結(jié)果對比Table 3 Comparison of load forecasting results with different machine learning algorithms

        整合點(diǎn)預(yù)測結(jié)果,在95%置信度水平下對系統(tǒng)的風(fēng)電/光伏/負(fù)荷進(jìn)行區(qū)間預(yù)測,結(jié)果如圖3 所示。圖 中:和分 別為t時(shí)刻系統(tǒng)用戶熱負(fù)荷、光伏、風(fēng)機(jī)功率的上界和下界;和分別為t時(shí)刻室外溫度上、下界。

        圖3 95%置信度水平下區(qū)間預(yù)測結(jié)果Fig.3 Interval forecasting results at 95%confidence level

        4.2.2 訓(xùn)練過程

        為體現(xiàn)訓(xùn)練過程中粒子運(yùn)動后的適應(yīng)度值,網(wǎng)絡(luò)輸出見附錄A 圖A5??梢钥闯?在前500 次訓(xùn)練中,由于處于記憶池填充階段,網(wǎng)絡(luò)輸出穩(wěn)定在較低值。隨后,通過記憶回放機(jī)制訓(xùn)練更新網(wǎng)絡(luò),網(wǎng)絡(luò)輸出開始提升并伴隨振蕩。因深度強(qiáng)化學(xué)習(xí)存在隨機(jī)探索過程,因此,圖A5 中網(wǎng)絡(luò)輸出曲線存在隨機(jī)波動。整體上,所提算法模型的決策能力呈穩(wěn)步上升趨勢并逐漸趨于穩(wěn)定。

        4.2.3 測試結(jié)果

        選取種群規(guī)模為20,最大迭代次數(shù)為500,得到Pareto 前沿見附錄A 圖A6。Pareto 中非支配適應(yīng)度解為歸一化雙區(qū)間表現(xiàn)形式,即圖A6 中方框區(qū)域?yàn)閰^(qū)間范圍,點(diǎn)表示區(qū)間中點(diǎn)。由圖A6 可知,綜合經(jīng)濟(jì)成本與人體熱舒適度之間存在矛盾性,即若調(diào)度安排更偏重經(jīng)濟(jì)成本,則會根據(jù)電網(wǎng)電價(jià)以及各分布式能源供電成本選擇更為廉價(jià)的供電方式,可能會造成AH 等靈活性設(shè)備出力不足,出現(xiàn)環(huán)境舒適性降低的情況。相反地,若偏重舒適性,為改善系統(tǒng)人體熱舒適度情況,需要系統(tǒng)相關(guān)設(shè)備提供更多的功率支撐,此時(shí)經(jīng)濟(jì)成本靈活性相對不足,不可避免地會增加成本支出。在調(diào)控過程中,需要權(quán)衡各方因素選擇最佳的調(diào)度方案。

        本文選取Pareto 最優(yōu)解集中的2 個(gè)典型最優(yōu)解(即經(jīng)濟(jì)性方案和舒適性方案)進(jìn)行對比,調(diào)度結(jié)果如附錄A 圖A7 和圖A8 所示。從圖A7(a)可以看出,經(jīng)濟(jì)性方案通過“低充高放”的策略實(shí)現(xiàn)電能在不同電價(jià)區(qū)間轉(zhuǎn)移,從而實(shí)現(xiàn)獲利,例如,10:00—15:00 時(shí)段處于峰時(shí)電價(jià),儲能放電,向電網(wǎng)售電獲利;而00:00—07:00 時(shí)段處于谷時(shí)電價(jià),儲能大幅充電,且此時(shí)風(fēng)電富足,向電網(wǎng)售電。從經(jīng)濟(jì)性方案整體電平衡狀態(tài)出發(fā),可以看到電負(fù)荷相對平穩(wěn),但AH 調(diào)度不頻繁。圖A7(b)和(c)中,EB 與GB 功率并未跟隨熱舒適度情況。對于圖A7(c),本文設(shè)定灰線范圍內(nèi)為用戶舒適度最佳,此時(shí)PMV 為-1~1,而經(jīng)濟(jì)性方案中,用戶熱舒適度相對較低,整體在滿足建筑系統(tǒng)用戶負(fù)荷需求的同時(shí)更注重經(jīng)濟(jì)性。

        附錄A 圖A8 中,舒適性方案顯示室內(nèi)溫度基本維持在18~28 ℃范圍內(nèi),用戶舒適度最佳。從 圖A8(b)和(c)可以看出,針對熱舒適度,AH 調(diào)度較經(jīng)濟(jì)性方案更頻繁,并且在負(fù)荷高峰時(shí),功率可調(diào)節(jié)裕度更少,運(yùn)行經(jīng)濟(jì)成本較高。

        對比兩種調(diào)度方案,若決策者優(yōu)先考慮經(jīng)濟(jì)性因素,經(jīng)濟(jì)成本最低可達(dá)[407.67,475.39]元,但用戶舒適度較差,為[79.54,166.45]。反之,若以用戶舒適度為重點(diǎn),優(yōu)化目標(biāo)可達(dá)到[62.12,76.01],將顯著增加系統(tǒng)的經(jīng)濟(jì)成本,為[833.61,908.49]元。系統(tǒng)調(diào)度時(shí)應(yīng)綜合權(quán)衡以確定規(guī)劃方案。

        4.3 算法有效性分析

        為驗(yàn)證本文所提算法的有效性,將本文所提算法與傳統(tǒng)IMOPSO 算法對比,IMOPSO 參數(shù)采用慣性權(quán)重,即分別從個(gè)體運(yùn)動以及種群非劣解的變化過程兩方面分析。

        4.3.1 個(gè)體收斂情況

        隨機(jī)選取某測試中10 個(gè)個(gè)體,分別比較兩種算法個(gè)體前兩維變量及個(gè)體適應(yīng)度迭代第0、5、10、20 次時(shí)的情況。

        附錄A 圖A9 為兩種算法個(gè)體區(qū)間長度分析,其中,不同顏色代表不同個(gè)體。比較圖A9(a)和(b)可以看到,在迭代過程中,圖A9(a)中的個(gè)體變量區(qū)間長度能夠有效迅速收斂,在20 次迭代過后收斂效果明顯優(yōu)于圖A9(b)中的個(gè)體變量。

        附錄A 圖A10 為兩種算法個(gè)體運(yùn)動區(qū)間方向分析。耦合DQN 的改進(jìn)IMOPSO 算法個(gè)體適應(yīng)度值在運(yùn)動方向上更加明確,個(gè)體適應(yīng)度區(qū)間值能夠快速聚集于歷史最優(yōu)位置。在20 次迭代時(shí),耦合DQN 的改進(jìn)IMOPSO 算法收斂效果明顯優(yōu)于傳統(tǒng)IMOPSO 算法。同時(shí),區(qū)間長度迅速收斂,個(gè)體適應(yīng)度的不確定性大大降低。這直觀證明了耦合DQN 的改進(jìn)IMOPSO 算法獎勵函數(shù)部分的有效性。因此,耦合DQN 的改進(jìn)IMOPSO 算法能有效引導(dǎo)個(gè)體適應(yīng)度區(qū)間快速收斂。

        4.3.2 Pareto 收斂情況

        Pareto 前沿的運(yùn)動收斂過程見附錄A 圖A11?;趥€(gè)體運(yùn)動情況,在Pareto 上呈現(xiàn)為累計(jì)效應(yīng),即在網(wǎng)絡(luò)指導(dǎo)下,圖A11(a)中種群快速聚集于非支配區(qū)域,相較于圖A11(b),區(qū)間長度較小,非劣解分散程度更高,前沿更靠前。

        綜上,耦合DQN 的改進(jìn)IMOPSO 算法有較強(qiáng)的求解能力,結(jié)果的收斂性能和分布性能比傳統(tǒng)IMOPSO 算法相對較強(qiáng),體現(xiàn)了該算法的有效性。

        4.4 算法必要性分析

        不同參數(shù)會對系統(tǒng)調(diào)度結(jié)果產(chǎn)生一定影響,為精確量化對比最終結(jié)果,對本文所提算法與傳統(tǒng)IMOPSO 算法進(jìn)行100 次測試,獲得的Pareto 集見附錄A 圖A12,具體指標(biāo)見表4。

        表4 算法對比Table 4 Comparison of algorithms

        從附錄A 圖A12 可以看出,通過耦合DQN 的改進(jìn)IMOPSO 算法獲得的Pareto 最優(yōu)解集中點(diǎn)和區(qū)間比傳統(tǒng)IMOPSO 算法所得結(jié)果分布更加靠近坐標(biāo)原點(diǎn),同時(shí)分布更加均勻,區(qū)間長度更小,表明結(jié)果不確定性更低。表4 顯示了這兩種算法結(jié)果的性能指標(biāo)平均值,其中,求解時(shí)間是載入訓(xùn)練好的深度網(wǎng)絡(luò)算法求解區(qū)間優(yōu)化問題的時(shí)間??梢钥闯?本文所提算法的超量和不精確度性能指標(biāo)均優(yōu)于傳統(tǒng)IMOPSO 算法,且求解速度更優(yōu)。實(shí)際調(diào)度中,為更好地分析實(shí)時(shí)調(diào)度情況,在確保有效性的前提下縮短求解時(shí)間同樣非常必要。

        4.5 模型效益及系統(tǒng)調(diào)度分析

        不同參數(shù)會對系統(tǒng)調(diào)度結(jié)果產(chǎn)生一定影響,本節(jié)分別從碳交易價(jià)格及系統(tǒng)負(fù)荷區(qū)間置信度等方面分析了模型效益及系統(tǒng)調(diào)度情況。

        4.5.1 碳交易價(jià)格影響分析

        對于本模型,改變碳交易價(jià)格得到系統(tǒng)各項(xiàng)成本與碳排放量的變化曲線見附錄A 圖A13。隨著碳交易價(jià)格的提高,系統(tǒng)碳交易成本整體呈先上升后下降趨勢。因?yàn)楫?dāng)碳排放量基本穩(wěn)定時(shí),碳交易成本與價(jià)格呈正相關(guān),交易價(jià)格增加到一定程度后,基于綜合成本考慮,系統(tǒng)調(diào)度轉(zhuǎn)向低排放機(jī)組,此時(shí)碳排放量顯著降低,交易成本也減少。隨著交易價(jià)格繼續(xù)增加,由于容量及負(fù)荷需求限制,當(dāng)EB 與GB利用率穩(wěn)定后,系統(tǒng)碳排放量穩(wěn)定在較低水平,此時(shí)交易成本與價(jià)格呈正相關(guān)。即碳交易價(jià)格的改變可以有效實(shí)現(xiàn)系統(tǒng)運(yùn)行的經(jīng)濟(jì)性和低碳性之間的協(xié)調(diào)與均衡,碳價(jià)波動能顯著影響系統(tǒng)碳排放量。

        4.5.2 區(qū)間置信度分析

        區(qū)間預(yù)測的置信水平反映了調(diào)度決策對系統(tǒng)運(yùn)行可靠性要求,本文分析了不同置信水平提取的系統(tǒng)電負(fù)荷需求,如圖4 所示。

        圖4 不同置信度下的系統(tǒng)電負(fù)荷需求Fig.4 System electrical load requirements at different confidence levels

        由圖4 可知,置信度取98%時(shí)能保證所提取區(qū)間的全面性,但區(qū)間范圍較大,在實(shí)際應(yīng)用中容易造成干擾。

        為明確建模中考慮多重不確定性的意義,將不同置信度下各調(diào)度目標(biāo)及算法效率提取的區(qū)間變量代入模型優(yōu)化,結(jié)果如表5 所示。

        表5 不同置信度下的調(diào)度結(jié)果對比Table 5 Comparison of dispatch results at different confidence levels

        隨著置信區(qū)間的減小,運(yùn)營成本的上下限逐漸減??;同時(shí),綜合成本的平均值隨之減小,區(qū)間范圍不斷縮小。當(dāng)不確定性增加時(shí),算法求解時(shí)間有所增加,但仍在可接受范圍內(nèi)。在實(shí)際調(diào)度策略中,可以靈活調(diào)整不確定性參數(shù),改變調(diào)度方案的保守性,以滿足不同調(diào)度用戶的風(fēng)險(xiǎn)偏好。另一方面,綜合考慮系統(tǒng)不確定性影響能避免對最惡劣情況的過度估計(jì),改善傳統(tǒng)方案的保守性,提高調(diào)度互動靈活性,并一定程度降低調(diào)度成本。

        5 結(jié)語

        本文建立了不確定性建筑能量管理系統(tǒng)模型,考慮各類不確定因素,計(jì)及系統(tǒng)用戶對于運(yùn)行經(jīng)濟(jì)性及人體舒適度的要求,對智能建筑優(yōu)化調(diào)控模型進(jìn)行求解,算例仿真結(jié)果表明:

        1)基于深度強(qiáng)化學(xué)習(xí)的IMOPSO 算法利用DQN 與IMOPSO 交互,學(xué)習(xí)建筑模型狀態(tài)、動作、獎勵間的隱式關(guān)系,進(jìn)而指導(dǎo)區(qū)間種群運(yùn)動,可以實(shí)現(xiàn)Pareto 前沿的快速逼近與區(qū)間收斂。求解得到負(fù)荷動作策略區(qū)間,將優(yōu)化決策由點(diǎn)拓展到區(qū)間,克服了傳統(tǒng)確定性方法以點(diǎn)代面的分析思想,提高了調(diào)度互動的靈活性。

        2)隨著置信區(qū)間的減小,運(yùn)營成本區(qū)間與綜合成本區(qū)間均會縮小,在置信度區(qū)間為80%時(shí),成本運(yùn)行區(qū)間為98.02 元,占成本區(qū)間均值的6.62%;置信度區(qū)間為98%時(shí),運(yùn)行成本區(qū)間寬度增加155 元,占成本區(qū)間均值上升到9.69%。隨著不確定性程度增加,調(diào)度方案的保守性風(fēng)險(xiǎn)增大,降低不確定性能夠提高調(diào)度互動的靈活性,并一定程度降低調(diào)度成本。

        需要指出的是,本文在負(fù)荷動作空間的取值上進(jìn)行了離散化處理,基于深度強(qiáng)化學(xué)習(xí)算法的變量連續(xù)性問題仍有待優(yōu)化。同時(shí),所考慮的系統(tǒng)用能需求不夠全面,包含電負(fù)荷、熱負(fù)荷、氫負(fù)荷及氣負(fù)荷等用能需求的綜合能源系統(tǒng)協(xié)同優(yōu)化有待進(jìn)一步研究。

        本文僅初步探索了將深度強(qiáng)化學(xué)習(xí)融入多目標(biāo)區(qū)間優(yōu)化的一種方式,如何比較不同強(qiáng)化學(xué)習(xí)的模型動態(tài)指導(dǎo)能力,以及如何深度耦合優(yōu)化算法,將成為下一步工作的研究重點(diǎn)。

        本文研究得到深圳市科技計(jì)劃(JCYJ20210324131409026)、國網(wǎng)湖北省電力 有 限 公 司 2022 年 科 技 項(xiàng) 目(521538220005)資助,特此感謝!

        附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

        猜你喜歡
        不確定性舒適度區(qū)間
        解兩類含參數(shù)的復(fù)合不等式有解與恒成立問題
        你學(xué)會“區(qū)間測速”了嗎
        法律的兩種不確定性
        法律方法(2022年2期)2022-10-20 06:41:56
        基于用戶內(nèi)衣穿著舒適度的彈性需求探討
        改善地鐵列車運(yùn)行舒適度方案探討
        英鎊或繼續(xù)面臨不確定性風(fēng)險(xiǎn)
        中國外匯(2019年7期)2019-07-13 05:45:04
        某異形拱人行橋通行舒適度及其控制研究
        具有不可測動態(tài)不確定性非線性系統(tǒng)的控制
        區(qū)間對象族的可鎮(zhèn)定性分析
        淺談提高奶牛舒適度的方法
        日韩精品极品免费在线视频| 最新四色米奇影视777在线看| 欧美a在线播放| 少妇高潮紧爽免费观看| 国产精品熟女少妇不卡| 国产av无码国产av毛片| 亚州少妇无套内射激情视频| 久久成人永久免费播放| 白白色福利视频在线观看| 人妻av有码中文字幕| 人妻久久久一区二区三区| 色丁香色婷婷| 亚洲日本视频一区二区三区| 人妻少妇精品视频一区二区三区l| 亚洲日韩av一区二区三区中文| 中国极品少妇videossexhd| 国产 在线播放无码不卡| 亚洲1区第2区第3区在线播放| 国产av无码国产av毛片| 国产主播一区二区三区在线观看| yy111111少妇影院| 国产成人亚洲精品91专区高清 | 中文字幕被公侵犯的丰满人妻| 日本激情网站中文字幕| 国产无遮挡又黄又爽在线观看 | 国产二级一片内射视频插放| 日韩免费小视频| 亚洲天堂av在线免费看| 激情综合婷婷色五月蜜桃| 无码国产69精品久久久孕妇| 午夜福利不卡无码视频| 国产精品久久av高潮呻吟| 老色鬼在线精品视频| 亚洲欧美国产双大乳头| 久久久亚洲精品免费视频| 久久99天堂av亚洲av| 丰满人妻被黑人猛烈进入| 久久亚洲国产成人亚| 午夜一区二区三区福利视频| 无码无套少妇毛多18p| 色婷婷欧美在线播放内射|