亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于柔性策略-評價網(wǎng)絡(luò)的微電網(wǎng)源儲協(xié)同優(yōu)化調(diào)度策略

        2022-01-20 07:05:20劉林鵬朱建全陳嘉俊葉漢芳
        電力自動化設(shè)備 2022年1期
        關(guān)鍵詞:智能優(yōu)化環(huán)境

        劉林鵬,朱建全,陳嘉俊,葉漢芳

        (華南理工大學(xué)電力學(xué)院,廣東 廣州 510640)

        0 引言

        近年來,為了實(shí)現(xiàn)可再生能源的就地消納,微電網(wǎng)中可再生能源的占比日益提高[1-2]。為抑制可再生能源的間歇性和隨機(jī)性,維持微電網(wǎng)的穩(wěn)定運(yùn)行,有必要裝設(shè)一定比例的儲能,實(shí)現(xiàn)源儲協(xié)同運(yùn)行[3]。在這種背景下,如何充分地考慮可再生能源與儲能系統(tǒng)的特點(diǎn),對微電網(wǎng)進(jìn)行源儲協(xié)同優(yōu)化調(diào)度成為一個熱點(diǎn)問題。

        目前,微電網(wǎng)的優(yōu)化調(diào)度問題已經(jīng)得到了大量的研究。已有的方法可以分為基于模型的數(shù)學(xué)優(yōu)化算法和無模型的強(qiáng)化學(xué)習(xí)算法2 類。基于模型的數(shù)學(xué)優(yōu)化算法通常是通過直接求解集中式的數(shù)學(xué)優(yōu)化問題以獲取最優(yōu)策略。例如:文獻(xiàn)[4]將微電網(wǎng)調(diào)度問題轉(zhuǎn)化成二次型最優(yōu)控制問題,并利用黎卡提方程解的特性對其進(jìn)行求解;文獻(xiàn)[5]將微電網(wǎng)調(diào)度問題轉(zhuǎn)化為二階魯棒優(yōu)化模型,利用列約束生成和強(qiáng)對偶原理將原問題分解后交替求解;文獻(xiàn)[6]使用KKT(Karush-Kuhn-Tucker)條件及二階錐松弛技術(shù)將微電網(wǎng)調(diào)度模型轉(zhuǎn)換為單層的混合整數(shù)線性規(guī)劃問題,并調(diào)用CPLEX 求解器對其進(jìn)行求解;文獻(xiàn)[7]構(gòu)建了微電網(wǎng)雙層調(diào)度模型,并利用交替方向乘子法對其進(jìn)行求解。上述文獻(xiàn)為求解微電網(wǎng)優(yōu)化調(diào)度問題,對原問題中的非凸非線性約束進(jìn)行了一定簡化處理。這些簡化處理方法通常建立在一定假設(shè)的基礎(chǔ)上,它們求得的最優(yōu)策略與原問題的最優(yōu)策略在某些情況下并不等價。無模型的強(qiáng)化學(xué)習(xí)算法將智能體不斷與環(huán)境進(jìn)行交互,通過觀察交互后得到的結(jié)果改進(jìn)策略。例如:文獻(xiàn)[8]使用基于值的深度Q 網(wǎng)絡(luò)DQN(Deep Q-Network)算法得到了微電網(wǎng)的在線調(diào)度策略;文獻(xiàn)[9]使用基于隨機(jī)性策略的策略-評價網(wǎng)絡(luò)AC(Actor-Critic)算法求解微電網(wǎng)的最優(yōu)調(diào)度策略;文獻(xiàn)[10]使用基于確定性策略的深度確定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法求解微電網(wǎng)中共享儲能的最優(yōu)控制問題。上述強(qiáng)化學(xué)習(xí)算法相較于基于模型的數(shù)學(xué)優(yōu)化算法的優(yōu)勢在于其不需要模型的信息,可通過觀察到的數(shù)據(jù)尋找最優(yōu)策略。此外,其得到的策略泛化能力強(qiáng),在強(qiáng)隨機(jī)性環(huán)境下有較好的表現(xiàn)[8-9]。盡管強(qiáng)化學(xué)習(xí)方法在微電網(wǎng)優(yōu)化調(diào)度問題的求解過程中有較好的表現(xiàn),但由于它在訓(xùn)練過程中為保證智能體的探索性能,往往需要在策略探尋過程中加入一定的隨機(jī)性,這可能導(dǎo)致所搜尋的策略不滿足約束條件。為解決這個問題,已有的文獻(xiàn)主要采取了以下措施:文獻(xiàn)[11]結(jié)合了壁壘函數(shù)的特性以保證智能體在滿足約束的條件下進(jìn)行策略學(xué)習(xí);文獻(xiàn)[12]通過在獎勵函數(shù)中設(shè)置懲罰因子,使智能體在學(xué)習(xí)過程中避開不滿足約束條件的策略;文獻(xiàn)[13]使用元學(xué)習(xí)的方式使得策略更新過程滿足約束條件。上述方法本質(zhì)上都是通過無模型學(xué)習(xí)的方式使得智能體朝著滿足約束條件的方向?qū)Σ呗赃M(jìn)行更新,但這類方法并不能保證所得策略嚴(yán)格滿足約束條件。

        針對以上問題,本文結(jié)合有模型的數(shù)學(xué)優(yōu)化與無模型的強(qiáng)化學(xué)習(xí)的思想,提出了一種基于柔性策略-評價網(wǎng)絡(luò)SAC(Soft Actor-Critic)的微電網(wǎng)源儲協(xié)同優(yōu)化調(diào)度方法。一方面,所提方法在不對原問題進(jìn)行簡化處理的前提下,利用強(qiáng)化學(xué)習(xí)算法將原問題分解為多個子問題進(jìn)行求解,并通過貝爾曼最優(yōu)定理保證了所得策略與原問題最優(yōu)策略的等價性;另一方面,所提方法利用部分模型信息使得策略嚴(yán)格滿足約束條件。此外,為減少智能體在訓(xùn)練過程中與環(huán)境的交互時長,本文提出了一種基于深層長短期記憶LSTM(Long Short-Term Memory)網(wǎng)絡(luò)的環(huán)境建模方法。

        1 微電網(wǎng)源儲協(xié)同調(diào)度模型

        1.1 目標(biāo)函數(shù)

        以微電網(wǎng)的運(yùn)行成本最小化為目標(biāo),則有:

        式中:Pg,t和Ps,t分別為t時段機(jī)組g和儲能s的有功出力,Ps,t取值為正時表示儲能放電,取值為負(fù)時表示儲能充電,其最大值為Pmaxs;Pl,t為t時段聯(lián)絡(luò)線l傳輸?shù)挠泄β剩淙≈禐檎龝r表示從主網(wǎng)購電,取值為負(fù)時表示向主網(wǎng)售電;og,t為t時段機(jī)組g狀態(tài),其取值為0時表示處于離線狀態(tài),取值為1時表示處于工作狀態(tài);ct為t時段即時成本。

        1.2 馬爾可夫決策過程

        在利用強(qiáng)化學(xué)習(xí)求解優(yōu)化問題時,需要先將原問題構(gòu)建為一個馬爾可夫決策過程[14]。本文從時間維度對原問題進(jìn)行解耦,構(gòu)建了以下的馬爾可夫決策過程。

        1)狀態(tài)。

        式中:Pcha,t和Pdis,t分別為t時段儲能的充電和放電功率;η為儲能的充放電效率系數(shù);μL,t+1、μwt,t+1、μpv,t+1和μp,t+1分別為分布DL、Dwt、Dpv和Dp的均值;σL,t+1、σwt,t+1、σpv,t+1和σp,t+1分別為分布DL、Dwt、Dpv和Dp的標(biāo)準(zhǔn)差。

        4)獎勵。

        獎勵是智能體每次與環(huán)境進(jìn)行交互時收到的反饋信號,可用于指導(dǎo)策略的更新方向。為了實(shí)現(xiàn)微電網(wǎng)的運(yùn)行成本最小化,本文將獎勵設(shè)置為即時成本的負(fù)值:

        式中:rt為t時段智能體在狀態(tài)st下做出動作at獲得的獎勵。

        5)環(huán)境。

        在本文的微電網(wǎng)源儲協(xié)同優(yōu)化調(diào)度模型問題中,智能體所處的環(huán)境為原問題在時間維度解耦后的單時段優(yōu)化問題:

        在微電網(wǎng)源儲協(xié)同調(diào)度問題中,決策變量包含機(jī)組出力、儲能充放電功率、機(jī)組的啟停狀態(tài)以及聯(lián)絡(luò)線功率。若直接用無模型的強(qiáng)化學(xué)習(xí)算法搜尋這4 個變量對應(yīng)的策略,將無法保證其搜尋的策略嚴(yán)格滿足約束條件。為解決這一問題,將這4個變量分成了兩部分:一部分為儲能充放電功率和機(jī)組的啟停狀態(tài),這部分變量通過強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò)輸出得到;另一部分為機(jī)組的出力和聯(lián)絡(luò)線功率,這部分變量由策略網(wǎng)絡(luò)輸出儲能充放電功率和機(jī)組的啟停狀態(tài)后通過CPLEX 商業(yè)求解器求解式(10)—(15)組成的單時段的優(yōu)化問題得到。通過這種方式求解這4個決策變量可以保證它們嚴(yán)格滿足約束條件。

        2 基于SAC的源儲協(xié)同優(yōu)化調(diào)度

        2.1 SAC優(yōu)化策略

        2.1.1 智能體的目標(biāo)函數(shù)

        SAC 算法作為無模型的強(qiáng)化學(xué)習(xí)算法之一,能夠有效地在模型未知的情況下,通過不斷地與環(huán)境進(jìn)行交互以搜尋最優(yōu)策略[15]。本文將利用SAC算法學(xué)習(xí)最優(yōu)策略的智能體稱為SAC智能體。在微電網(wǎng)源儲協(xié)同優(yōu)化調(diào)度問題中,SAC 智能體的目標(biāo)可定義為最大化智能體調(diào)度周期內(nèi)的總獎勵與策略熵的期望值[16]:

        通過求解式(18)所示的目標(biāo)函數(shù),所得策略便可實(shí)現(xiàn)總獎勵的最大化(即運(yùn)行成本最小化)。另一方面,由于目標(biāo)函數(shù)考慮了將策略熵最大化,所得策略具有更強(qiáng)的探索性能以及更好的魯棒性。

        2.1.2 智能體結(jié)構(gòu)

        式中:γ為獎勵折扣系數(shù)。

        根據(jù)貝爾曼方程,可以推導(dǎo)出狀態(tài)-動作值函數(shù)Qπ(st,at)的遞歸方程為[14]:

        2.1.3 評價網(wǎng)絡(luò)的參數(shù)更新

        對于評價網(wǎng)絡(luò),其參數(shù)是朝著真實(shí)狀態(tài)-動作值函數(shù)的方向更新的。因此,基于式(21)以及時序差分算法可得SAC 智能體評價網(wǎng)絡(luò)的參數(shù)更新公式為[17]:

        式中:θQ和θπ分別為評價網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的參數(shù),可利用文獻(xiàn)[18]所提的小批量梯度下降法分別求解式(22)和式(24)以獲得θQ和α的更新值;H′為目標(biāo)策略熵;M為小批量更新的樣本數(shù)量;i表示樣本編號,每個樣本由(si,ai,ri,s′i)構(gòu)成,其中s′i為轉(zhuǎn)移后狀態(tài);a′i為智能體在s′i下根據(jù)當(dāng)前策略所得動作。智能體每次與環(huán)境進(jìn)行交互時均會產(chǎn)生一個樣本,并將其存入經(jīng)驗(yàn)回放池中[19]。

        2.1.4 策略網(wǎng)絡(luò)的參數(shù)更新

        對于策略網(wǎng)絡(luò),其參數(shù)是朝著最大化總獎勵和策略熵的方向進(jìn)行更新的。因此,可利用梯度上升法求解式(25)對其參數(shù)θπ進(jìn)行更新。

        SAC 智能體不斷地與環(huán)境進(jìn)行交互產(chǎn)生新的樣本并存入經(jīng)驗(yàn)回放池中,且每次與環(huán)境進(jìn)行交互后都根據(jù)經(jīng)驗(yàn)回放池中的樣本對評價網(wǎng)絡(luò)和策略網(wǎng)絡(luò)進(jìn)行一次參數(shù)更新。在超參數(shù)設(shè)置合理的前提下,通過一定次數(shù)的交互訓(xùn)練后,SAC 智能體的策略最終可收斂到最優(yōu)策略[20]。

        通過這種方式,可以將原問題分解為多個子問題求解。根據(jù)貝爾曼最優(yōu)定理,所得策略與原問題最優(yōu)策略具有等價性,相關(guān)證明見附錄B。

        2.2 基于深層LSTM網(wǎng)絡(luò)的環(huán)境建模

        由于SAC 智能體每次與環(huán)境進(jìn)行交互時,都需要求解一個由式(10)—(16)組成的單時段優(yōu)化問題,這將導(dǎo)致訓(xùn)練的時間大幅增加。為加快SAC 智能體的訓(xùn)練速度,本文利用深層LSTM 網(wǎng)絡(luò)對環(huán)境進(jìn)行建模。

        深層LSTM 神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)的一種類型,其基本結(jié)構(gòu)如附錄C 圖C1所示。從圖中可以看出,RNN 的隱藏層包含了當(dāng)前時刻的輸入信息以及上一時刻的輸入信息,因此它具有記憶功能。為解決RNN 的梯度爆炸和消失問題,LSTM 對RNN 進(jìn)行了改進(jìn),其結(jié)果如附錄C 圖C2 所示,圖中σ表示Logistic 函數(shù),輸出區(qū)間為(0,1)。LSTM 在RNN 的基礎(chǔ)上引入內(nèi)部狀態(tài)ct,用于傳遞循環(huán)信息,引入外部狀態(tài)ht用于接收內(nèi)部狀態(tài)傳遞的信息,具體如下:

        式中:⊙表示向量元素相乘;ft、it、ot分別為遺忘門、輸入門和輸出門,它們控制其對應(yīng)的信息通過比例,且ft、it、ot中各元素取值范圍為[0,1];Wc、Uc和bc為可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)參數(shù)。

        與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)類似,使用小批量梯度下降法更新LSTM網(wǎng)絡(luò)參數(shù)θn:

        式中:K為小批量樣本數(shù)目;xj、yj分別為樣本j的特征與標(biāo)簽;y?j為樣本j的LSTM 網(wǎng)絡(luò)輸出量;β為學(xué)習(xí)率。

        3 算例分析

        3.1 參數(shù)設(shè)置

        以圖1 所示的微電網(wǎng)為例對所提方法進(jìn)行測試,相關(guān)參數(shù)見附錄D。評價網(wǎng)絡(luò)與策略網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)以及用于環(huán)境建模的深層LSTM 網(wǎng)絡(luò)超參數(shù)見附錄E。所有算例均基于MATLAB R2021a實(shí)現(xiàn),并在64位Windows系統(tǒng)、Intel Core i7-6700K@3.7 GHz的環(huán)境下運(yùn)行。

        圖1 微電網(wǎng)結(jié)構(gòu)Fig.1 Structure of microgrid

        由于深層LSTM 網(wǎng)絡(luò)的訓(xùn)練是一種“端到端”的有監(jiān)督學(xué)習(xí)方法,因此在訓(xùn)練前,首先需要準(zhǔn)備一定數(shù)量的樣本。本文通過CPLEX 商業(yè)求解器求解1 000 個不同場景下由式(10)—(16)組成的優(yōu)化問題,得到了1 000 個樣本,并將90%的樣本作為訓(xùn)練集,用于訓(xùn)練深層LSTM 網(wǎng)絡(luò);將其余10%的樣本作為測試集,用于測試模型的準(zhǔn)確性。每個樣本包含了用于訓(xùn)練的標(biāo)簽和特征,其中標(biāo)簽為ct,特征為{Ps,t,og,t+1,ES,t,pt,Pwt,t,Ppv,t,Lt,og,t}。

        3.2 智能體的離線訓(xùn)練過程

        為驗(yàn)證SAC 智能體在隨機(jī)環(huán)境下的學(xué)習(xí)能力,假設(shè)負(fù)荷、風(fēng)電出力、光伏出力和電價分別服從式(31)—(34)中均值和標(biāo)準(zhǔn)差的高斯分布。

        圖2 展示了SAC 智能體在設(shè)置的隨機(jī)環(huán)境訓(xùn)練時,微電網(wǎng)的運(yùn)行成本期望隨訓(xùn)練次數(shù)增加而變化的過程,其中該期望值通過最近100 次訓(xùn)練結(jié)果的平均值近似表示。從圖2 中可以看出:在訓(xùn)練前期,微電網(wǎng)運(yùn)行成本的期望值隨著訓(xùn)練次數(shù)的增加而降低;在完成2 400 次訓(xùn)練之后,微電網(wǎng)運(yùn)行成本的期望值基本保持不變,因此可以認(rèn)為此時SAC 智能體找到了近似最優(yōu)策略。

        圖2 SAC智能體訓(xùn)練過程Fig.2 Training process of SAC agent

        為驗(yàn)證本文所提方法的優(yōu)勢,圖3 展示了無模型的SAC智能體在設(shè)置的隨機(jī)環(huán)境訓(xùn)練時的運(yùn)行成本變化情況。其中,無模型的SAC 智能體采用了文獻(xiàn)[12]中的方法,在獎勵函數(shù)中對于不滿足約束條件的策略設(shè)置了懲罰因子。在本算例中,對不滿足式(12)的策略增加一個值為$200 的懲罰成本。從圖3 中可以看出,這種在獎勵函數(shù)中增加懲罰因子的無模型強(qiáng)化學(xué)習(xí)方法無法保證策略嚴(yán)格滿足約束條件,造成其運(yùn)行成本產(chǎn)生較大波動。

        圖3 無模型的SAC智能體訓(xùn)練過程Fig.3 Training process of model-free SAC agent

        3.3 智能體在線決策分析

        將離線訓(xùn)練后的SAC智能體用于微電網(wǎng)源儲協(xié)同優(yōu)化調(diào)度的在線決策,并與短視(myopic)策略進(jìn)行對比。其中,短視策略通過求解式(35)中的單時段優(yōu)化問題得到。

        圖4 展示了2 種策略連續(xù)進(jìn)行1 個月的在線決策的情況。從圖中可以看出,所提方法的優(yōu)化效果明顯優(yōu)于短視策略。采用短視策略時,微電網(wǎng)在該月運(yùn)行成本均值為$766.90;而采用本文策略后,微電網(wǎng)在該月運(yùn)行成本均值為$726.36(比短視策略所得運(yùn)行成本降低了5.29%),這主要得益于本文所提的方法具有遠(yuǎn)視能力,能全局考慮調(diào)度周期內(nèi)的情況以獲得更優(yōu)的結(jié)果。

        圖4 運(yùn)行1個月的結(jié)果對比Fig.4 Comparison of results in a month

        進(jìn)一步地,圖5 以第一天的在線決策結(jié)果為例,詳細(xì)展示了采用本文所提方法進(jìn)行在線決策時各時段的狀態(tài)變量以及動作變量情況??梢园l(fā)現(xiàn),在電價較低時,微電網(wǎng)需要從主網(wǎng)購電以滿足負(fù)荷需求。由于此時微電網(wǎng)自備機(jī)組的運(yùn)行成本比購電成本高,所以發(fā)電機(jī)處于停機(jī)狀態(tài)。另一方面,儲能選擇在電價較低時盡可能充電,隨后在電價較高時放電以獲取更高的利益。

        圖5 日內(nèi)在線決策結(jié)果Fig.5 Intra-day online decision results

        3.4 LSTM網(wǎng)絡(luò)環(huán)境建模分析

        為測試本文所提的LSTM 網(wǎng)絡(luò)環(huán)境建模方法的有效性,將基于原環(huán)境和深層LSTM 網(wǎng)絡(luò)模型得到的微電網(wǎng)的源儲協(xié)同優(yōu)化調(diào)度策略進(jìn)行對比分析。

        圖6 展示了不同測試場景下基于原環(huán)境和深層LSTM 網(wǎng)絡(luò)模型得到的成本對比情況。從圖中可以看出,基于深層LSTM 模型的輸出成本曲線與基于原環(huán)境的成本曲線基本重合,均方根誤差僅為0.315 3,這說明深層LSTM 模型所建的環(huán)境與原環(huán)境近似等效。

        圖6 深層LSTM網(wǎng)絡(luò)誤差分析Fig.6 Error analysis of deep LSTM network

        表1 進(jìn)一步對比了SAC 智能體在原環(huán)境與深層LSTM 網(wǎng)絡(luò)所建環(huán)境下的離線訓(xùn)練時長以及在線決策的平均成本。從表中可見,深層LSTM 網(wǎng)絡(luò)所構(gòu)建的環(huán)境減少了80.03%的離線訓(xùn)練時長,而在線決策平均成本僅與原環(huán)境相差0.01%。這表明所提深層LSTM 網(wǎng)絡(luò)環(huán)境建模在不影響在線決策精度的前提下,顯著減少了智能體的離線訓(xùn)練時長。需要說明的是,盡管智能體的離線訓(xùn)練時間較長,但在在線決策階段,由于可以直接利用離線訓(xùn)練好的策略網(wǎng)絡(luò)進(jìn)行決策,其耗時僅為0.41 s,因而可以滿足在線決策的需求。

        表1 2種環(huán)境模型效果對比Table 1 Comparison of effects between two environment models

        4 結(jié)論

        本文提出了一種基于SAC的微電網(wǎng)源儲協(xié)同調(diào)度策略,得到的主要結(jié)論如下:

        1)所提方法能夠通過不斷地與環(huán)境進(jìn)行交互的方式獲得最優(yōu)策略,并基于部分模型信息進(jìn)行策略搜尋,確保所得策略滿足安全約束;

        2)所提環(huán)境建模方法在不影響策略準(zhǔn)確性的前提下,減少了SAC智能體的訓(xùn)練時長,提高了SAC智能體的學(xué)習(xí)效率;

        3)所提方法對模型信息的依賴程度較低,僅用時0.41 s 便可獲得顯著優(yōu)于短視策略的解,可以較好地滿足微電網(wǎng)源儲協(xié)同調(diào)度的在線決策要求。

        附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。

        猜你喜歡
        智能優(yōu)化環(huán)境
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        一道優(yōu)化題的幾何解法
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        国产成人精品无码片区在线观看| 极品av一区二区三区| 鲁丝一区鲁丝二区鲁丝三区| 俄罗斯老熟妇色xxxx| 精品少妇一区二区av免费观看| 午夜日本理论片最新片| 福利片福利一区二区三区| 白丝兔女郎m开腿sm调教室| 亚洲专区路线一路线二网| 久久无码高潮喷水免费看| 玩弄少妇高潮ⅹxxxyw| 欧美性生交大片免费看app麻豆| 天堂麻豆精品在线观看| 色噜噜狠狠色综合欧洲| 少妇精品久久久一区二区三区| 亚洲av成人片在线观看| 国产一区二区三免费视频| 日本一区二区视频免费观看| 午夜精品久久久| 久久久久久国产精品无码超碰动画| 亚洲丁香婷婷久久一区二区| 亚洲中文中文字幕乱码| 久久亚洲一级av一片| 国产V日韩V亚洲欧美久久| 久久久久99精品成人片试看| 97日日碰曰曰摸日日澡| 蜜桃一区二区在线视频| 精品国产免费一区二区久久| 粉嫩av一区二区在线观看| 国产一级片毛片| 亚洲学生妹高清av| 欧美又大又色又爽aaaa片 | 久久九九精品国产不卡一区| 中文字幕乱码av在线| 国产又黄又爽又无遮挡的视频| 免费av片在线观看网站| 国产成人综合久久亚洲精品 | 亚洲精品女同在线观看| 在线观看精品国产福利片87| 狠狠色狠狠色综合| 亚洲人成亚洲精品|