亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)型DDPG算法的多智能體編隊控制與仿真

        2023-07-17 21:45:11景永年耿雙雙向瑤文家燕
        廣西科技大學(xué)學(xué)報 2023年3期
        關(guān)鍵詞:避障強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)

        景永年 耿雙雙 向瑤 文家燕

        摘 要:針對多智能體系統(tǒng)編隊在路徑規(guī)劃過程中隊形不穩(wěn)定、獲取路徑時間較慢以及在避障過程中存在與障礙物距離較近的問題,本文采用角度距離度量的方式對多智能體進(jìn)行編隊,通過改變傳統(tǒng)的由起始點到達(dá)終點避障過程所形成的路徑規(guī)劃方法,弱化起始點和終點概念,添加路徑中點的方式,使智能體同時從起點以及終點向中點移動,形成由起點指向中點、終點指向中點的2條路徑。將獎勵函數(shù)設(shè)計為同號智能體相碰為正向獎勵,異號智能體相碰以及智能體(同號智能體和異號智能體)與障礙物之間相碰均為負(fù)向獎勵。在搭建的靜態(tài)和動態(tài)障礙物2種仿真環(huán)境下分別進(jìn)行可變?nèi)萘矿w驗池深度確定性策略梯度算法(deep deterministic policy gradient -variable capacity experience pool, DDPG-vcep)驗證,并對比不同訓(xùn)練次數(shù)下的獎賞值。仿真結(jié)果表明,改進(jìn)后的DDPG編隊算法較傳統(tǒng)DDPG算法節(jié)約了路徑獲取時間,編隊避障的效果更加明顯。

        關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);深度確定性策略梯度算法(DDPG算法);多智能體;編隊控制;避障

        中圖分類號:TP273 DOI:10.16375/j.cnki.cn45-1395/t.2023.03.009

        0 引言

        隨著多智能體系統(tǒng)在軍事和民用領(lǐng)域上的應(yīng)用越來越廣泛,其中多智能體系統(tǒng)之間的協(xié)作或協(xié)調(diào)問題受到了越來越多的關(guān)注,在衛(wèi)星群協(xié)同控制、無人機(jī)編隊控制、多機(jī)器人系統(tǒng)分布式優(yōu)化、自動化公路系統(tǒng)調(diào)度等領(lǐng)域有著廣泛的應(yīng)用[1-4]。

        在多智能體群體中,編隊控制是最基本、最重要的研究課題之一,它要求一組智能體保持預(yù)定的隊形在期望的軌跡上運動,也可以看作是所有的自治智能體通過協(xié)作來完成共同的任務(wù)。因此,多智能體編隊可以廣泛應(yīng)用于航空航天、工業(yè)、娛樂等領(lǐng)域[5-7]。隨著理論研究的深入和現(xiàn)實應(yīng)用需求的增加,圍繞多智能體編隊控制的研究越來越結(jié)合實際工況約束。現(xiàn)有的編隊控制方法主要是針對確定性多智能體系統(tǒng),不考慮任何隨機(jī)干擾。然而多智能體通信中經(jīng)常受到各種隨機(jī)噪聲的干擾,如熱噪聲、信道衰落和編解碼過程中的量化效應(yīng)[8-12],因此,隨機(jī)動態(tài)模型比確定性模型更能準(zhǔn)確地描述實際的多智能體系統(tǒng)。為確定性系統(tǒng)開發(fā)的許多控制技術(shù)已成功地擴(kuò)展到隨機(jī)動態(tài)系統(tǒng),但由于高維度問題[13],這些技術(shù)無法直接應(yīng)用于多智能體系統(tǒng)控制中。近年來,隨著深度強(qiáng)化學(xué)習(xí)方法在多智能體系統(tǒng)編隊控制的深入研究,為解決維度高的問題提供了新思路。

        深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法是一種只適用于連續(xù)動作空間的off-policy算法,是深度Q-Learning算法在連續(xù)動作空間中的擴(kuò)展。本文在傳統(tǒng)的DDPG算法的基礎(chǔ)上進(jìn)行改進(jìn),在多智能體編隊避障過程出現(xiàn)“局部困擾”和獲得避障路徑效率低的情況下,結(jié)合雙向搜索以及改進(jìn)獎勵函數(shù)解決多智能體編隊避障控制問題。

        1 整體框架

        在傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)算法DDPG基礎(chǔ)上研究多智能體系統(tǒng)編隊整體框架,如圖1所示,主要由4個模塊構(gòu)成。

        1) 環(huán)境建模模塊:設(shè)置智能體需要訓(xùn)練的環(huán)境,包括多智能體的起始點位置、中點位置、障礙物位置等。

        2) 多智能體系統(tǒng)模塊:由多個智能體構(gòu)成,本實驗設(shè)置的是4個智能體。多智能體系統(tǒng)設(shè)置的是智能體本身的一些參數(shù),包括轉(zhuǎn)角、移動速度等。

        3) 基于改進(jìn)的DDPG算法的多智能體系統(tǒng)編隊控制算法模塊:該模塊中涉及到的改進(jìn)算法是在DDPG算法基礎(chǔ)上作了獎勵函數(shù)以及智能體編隊方式、智能體起點中點設(shè)置的改進(jìn)。

        4) 任務(wù)分配(編隊)模塊:每個智能體在保持自身與其他智能體相對位置的情況下,構(gòu)建成菱形編隊到達(dá)中點位置,遇到障礙物會切換隊形,并重新設(shè)置智能體之間的相對距離,形成一字型繞過障礙物。

        1.1 環(huán)境建模

        多智能體避障所構(gòu)建的環(huán)境如圖2所示,環(huán)境地圖較為簡單。所建環(huán)境大小為10×10,其中地圖中的數(shù)字由小到大分別對應(yīng)的是智能體可行使區(qū)域、障礙物位置、智能體所在位置、中點位置。在二維坐標(biāo)平面分別在(1,2)、(1,3)、(2,2)、(2,3)位置處設(shè)立智能體的初始位置;在二維坐標(biāo)平面(5,5)、(5,6)、(6,5)、(6,6)位置處建立第一次由起始位置所到達(dá)的中點位置;在二維坐標(biāo)平面(8,7)、(8,8)、(9,7)、(9,8)位置處建立4個智能體的第二次起點位置;重點設(shè)立的障礙物在二維平面坐標(biāo)的中點位置附近,目的是干擾智能體到達(dá)中點,驗證改進(jìn)算法的可行性。

        1.2 任務(wù)分配

        任務(wù)分配是多智能體系統(tǒng)編隊中必須應(yīng)用到的。本文研究的多智能體編隊控制的任務(wù)分配問題是:在環(huán)境中有4個智能體,每個智能體對應(yīng)的任務(wù)分配為從起點以一定的隊形到達(dá)對應(yīng)的目標(biāo)點,此為任務(wù)分配一;對于任務(wù)分配二,要求4個智能體從目標(biāo)點出發(fā)按照相同的隊形到達(dá)起點,在遇到障礙物時變換隊形越過障礙物,最終實現(xiàn)任務(wù)一與任務(wù)二的統(tǒng)一,在中點處重合,形成一條完整的避障路徑,以達(dá)到獲取避障路徑效率最快的目的。

        1.3 多Agent編隊控制算法

        本文采用的多智能體系統(tǒng)編隊控制方法是多智能體首先在障礙物環(huán)境中有一個起始位置,然后按照智能體之間設(shè)置的安全距離進(jìn)行菱形編隊,向著中點方向進(jìn)行移動,在移動過程中若遇到障礙物則進(jìn)行編隊重構(gòu),形成一字型,繞過障礙物,之后恢復(fù)菱形編隊到達(dá)中點。與同類型編隊算法不同的是,本文算法新添加了一重反方向的編隊,中點位置沒有發(fā)生改變,從第一次多智能體到達(dá)的目標(biāo)點為起點向著中點進(jìn)行編隊前行。最終二者會形成一條完整的避障路徑,會在避障效率上大大減少訓(xùn)練時間。

        1.3.1 菱形編隊

        多智能體采用菱形編隊的示意圖如圖3所示。其中黑色方塊代表的是智能體[P1]、[P2]、[P3]、[P4],對應(yīng)位置坐標(biāo)分別為[(x1,y1)]、[(x2,y2)]、[(x3,y3)]、[(x4,y4)]。智能體[P1]、[P2]之間的夾角為[θ1],智能體[P2]、[P3]之間的夾角為[θ2],智能體[P3]、[P4]之間的夾角為[θ3]。通過采用角度距離的測量方式保持智能體間的相對距離,形成菱形編隊。

        角度距離度量的是智能體之間的方向,角度度量的距離更多的是衡量在各個維度上的比例差異,和絕對距離數(shù)值關(guān)系不大。其中一個特點是在智能體與原點連線上的角度距離不變,因此單獨2個智能體避障時不宜采用角度距離的方式限制它們之間的相對位置。但本文采用4個智能體進(jìn)行編隊,角度距離度量可以使智能體之間產(chǎn)生菱形編隊。由于直接計算智能體之間的夾角比較困難,可采用[arccosθ]來代替[θ]角的計算,具體計算公式如式(1)—式(4)所示:

        研究表明[17],如果獎賞值設(shè)置過小,會導(dǎo)致智能體在訓(xùn)練過程中所得到的獎勵變化不大,使得智能體在到達(dá)目標(biāo)點的過程中效率變低;如果獎賞值設(shè)置過大,而對應(yīng)懲罰太小,則會導(dǎo)致智能體在進(jìn)行避障探索中出現(xiàn)無作為的現(xiàn)象,即無法獲得大的獎勵,智能體將會在原位置保持不動,使整個路徑規(guī)劃緩慢。基于文獻(xiàn)[17],將式(9)、式(10)中的數(shù)值設(shè)置為100。將改進(jìn)后的獎賞函數(shù)值設(shè)置為100的目的有二:其一為與對比仿真算法保持一致;其二是使獎賞值與懲罰保持在合理區(qū)間,使得智能體快速到達(dá)目標(biāo)點。

        3 數(shù)值仿真分析

        為了使算法學(xué)習(xí)到的策略更吻合真實環(huán)境下多智能體系統(tǒng)編隊避障,使用Python語言與pyglet數(shù)據(jù)庫搭建了仿真環(huán)境模型,最大程度地還原真實環(huán)境信息。本文仿真環(huán)境模型搭建以及算法實驗驗證所使用的計算機(jī)配置為:編程語言Python3.6.0,深度學(xué)習(xí)框架Tensorflow2.0.0,pyglet、numpy、matplotlib等數(shù)據(jù)庫。

        3.1 靜態(tài)障礙物環(huán)境下仿真

        圖8為驗證改進(jìn)算法的多智能體系統(tǒng)避障環(huán)境。設(shè)置環(huán)境地圖大小為[400×400]的二維空間,采用柵格法模擬環(huán)境。黑色的圓形部分代表障礙物,其大小不一;4個綠色的三角構(gòu)成的是同構(gòu)智能體,其大小設(shè)置為每個邊長為[L=5],速度設(shè)置為[v=1];紅色的三角位置分別代表每個智能體需要到達(dá)的中點位置,其坐標(biāo)由起點和終點的位置決定,其中橫縱坐標(biāo)僅表示智能體和障礙物的相對位置信息,計算公式為[xend-xstart/2,] [yend-ystart/2]。

        仿真實驗以4個智能體為例,仿真結(jié)果如圖9所示。

        圖9所示為多智能體系統(tǒng)采用改進(jìn)的DDPG算法與編隊隊形切換方法結(jié)合后在靜態(tài)障礙物環(huán)境下的避障仿真圖。從圖9(a)—(f)中可以看出,多智能體的起始位置隨機(jī)變化,將智能體以菱形隊形編隊并設(shè)置其初始位置,設(shè)置移動速度[v=1]向中點移動,在移動的過程中遇到障礙物時,為保障智能體能安全繞過障礙物,并縮小智能體間的相對空間,以“一”字隊形繞開障礙物,然后恢復(fù)到菱形編隊到達(dá)中點位置。從圖9(g)—(l)中可以看出,多智能體設(shè)置移動速度[v=-1]向中點移動,其移動過程為鏡像下的起點向中點移動。當(dāng)智能體同時進(jìn)行如圖9(a)—(f)和圖9(g)—(l)所示的訓(xùn)練時,所獲得的多智能體編隊避障路徑時間將減少近50%。為驗證改進(jìn)的DDPG算法以及編隊算法的通用性,設(shè)置了多智能體在動態(tài)障礙物環(huán)境下的仿真實驗。

        3.2 動態(tài)障礙物環(huán)境下仿真

        在圖8搭建的靜態(tài)障礙物環(huán)境基礎(chǔ)上,添加了2個動態(tài)障礙物,其在不同時刻下的狀態(tài)圖如圖10所示。動態(tài)障礙物以[v=1]的速度分別在[X=150]處和[X=300]處向豎直方向上下移動,其移動規(guī)則設(shè)置為:在設(shè)置的平面內(nèi)進(jìn)行移動時不與靜態(tài)障礙物發(fā)生碰撞,這樣可以維持整個搭建環(huán)境的穩(wěn)定性。

        多智能體系統(tǒng)采用改進(jìn)的DDPG算法與編隊隊形切換方法結(jié)合后在動態(tài)障礙物環(huán)境下的避障仿真圖如圖11所示。

        從圖11(a)—(f)中可以看出,將智能體以菱形隊形編隊并設(shè)置其初始位置,設(shè)置移動速度[v=1]向中點移動,在移動的過程中遇到動態(tài)障礙物時,為保障智能體能安全繞過障礙物,縮小智能體間的相對空間,以“一”字隊形繞開障礙物,然后恢復(fù)到菱形編隊到達(dá)中點位置。從圖11(g)—(l)中可以看出,多智能體設(shè)置移動速度為[v=-1]向中點移動,其移動過程與鏡像下的多智能體起點向中點移動不同,當(dāng)遇到在[X=300]位置處上下移動的動態(tài)障礙物時,多智能體會通過隊形切換方式轉(zhuǎn)換成“一”字形隊形,繞開障礙物,之后恢復(fù)菱形隊形向中點移動。當(dāng)智能體同時進(jìn)行如圖11(a)—(f)和圖11(g)—(l)所示的訓(xùn)練時,所獲得的多智能體編隊避障路徑時間將會減少。結(jié)合靜態(tài)障礙物環(huán)境以及動態(tài)障礙物環(huán)境下的仿真驗證的結(jié)果,可以得出:改進(jìn)的DDPG算法在結(jié)合編隊隊形切換方法使用時,具有通用性以及在獲取避障路徑時的高效性。

        4 對比實驗與分析

        為了驗證改進(jìn)DDPG算法的有效性,以本文構(gòu)建的路徑規(guī)劃仿真環(huán)境為實驗平臺,通過對改進(jìn)的DDPG算法與其他同類型的智能避障算法在不同訓(xùn)練次數(shù)下的比較來驗證改進(jìn)算法在編隊避障過程中的高效性。仿真結(jié)果如圖12所示,其中縱坐標(biāo)表示智能體在避障環(huán)境中獲得的獎賞值,[memory_][size=2 000],[r=0.9]。

        圖12(a)—(e)為算法DDPG-nature、DDPG-other以及本文的改進(jìn)DDPG算法(DDPG-vcep)在不同訓(xùn)練次數(shù)時的獎賞對比,其中DDPG-nature[18]指傳統(tǒng)的深度確定性策略梯度算法,DDPG-other為Zong等[19]提出的DDPG改進(jìn)算法,DDPG-vcep是本文提出的對DDPG算法中的獎勵函數(shù)采用稀疏函數(shù)設(shè)計的方法,vcep是可變?nèi)萘矿w驗池(variable capacity experience pool)。由圖12可以得出如下結(jié)論:

        1)從整個訓(xùn)練過程可以看出,采用本文改進(jìn)算法的智能體在避障環(huán)境中獲得的獎賞值均處于領(lǐng)先地位,較其他同類型的智能避障算法的優(yōu)勢明顯。

        2)在前期訓(xùn)練過程中可以看出,在訓(xùn)練步數(shù)較少的情況下所獲得的獎勵較小,說明多智能體系統(tǒng)編隊的避障效果不理想。但隨著訓(xùn)練步數(shù)的不斷增多,訓(xùn)練效果越來越突出,編隊避障效果越來越好。

        3)從整個訓(xùn)練步數(shù)可以看出,在步數(shù)為2 000步之后,使用改進(jìn)的算法訓(xùn)練智能體,獎勵將不發(fā)生變化,而使用其他同類型的算法,獎勵卻依然增加,說明改進(jìn)后的編隊避障算法收斂速度更快,獲得的避障路徑效率更高。

        5 結(jié)論

        本文以傳統(tǒng)的DDPG算法為基礎(chǔ),分別對多智能體編隊方式和算法獎勵函數(shù)以及多智能體編隊算法進(jìn)行改進(jìn),通過對多智能體模型進(jìn)行起始點同色編號,對DDPG算法中的獎勵函數(shù)采用稀疏函數(shù)設(shè)計的方法,提出一種改進(jìn)的DDPG算法;通過采用角度度量的方式,使多智能體編隊時的穩(wěn)定性更高;在本文建立的障礙物環(huán)境中將該算法與其他典型算法進(jìn)行對比實驗,得到驗證結(jié)果。實驗結(jié)果表明,與其他同類型的智能避障算法相比,改進(jìn)后的算法在訓(xùn)練步數(shù)較少時獲得獎勵較小,但隨著訓(xùn)練步數(shù)的增加,獎勵會逐漸增加,且訓(xùn)練步數(shù)在到達(dá)一定數(shù)量之后將不再變化,說明其收斂速度更快,獲得避障的路徑效率更高。但本研究僅涉及二維地圖環(huán)境中的多智能體系統(tǒng)編隊避障控制,缺乏三維立體的算法驗證,下一步將拓展研究范圍,建立復(fù)雜的三維立體仿真環(huán)境,進(jìn)一步研究該避障算法的適用性。

        參考文獻(xiàn)

        [1] 顧大強(qiáng),鄭文鋼.多移動機(jī)器人協(xié)同搬運技術(shù)綜述[J].智能系統(tǒng)學(xué)報,2019,14(1):20-27.

        [2] 劉延棟.基于DDPG強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃[D].呼和浩特:內(nèi)蒙古工業(yè)大學(xué),2019.

        [3] 楊帆.多移動機(jī)器人編隊控制與協(xié)作運輸研究[D].上海:華東理工大學(xué),2011.

        [4] 班林林.多移動機(jī)器人群體協(xié)同編隊與路徑規(guī)劃[D].北京:北京交通大學(xué),2018.

        [5] KARTAL Y,SUBBARAO K,GANS N R, et al. Distributed backstepping based control of multiple UAV formation flight subject to time delays[J]. IET Control Theory and Applications,2020,14(12):1628-1638.

        [6] 霍祥.基于自適應(yīng)控制的機(jī)器人軌跡跟蹤算法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2019.

        [7] ZHANG W X,MA L,LI X N.Multi-agent reinforcement learning based on local communication[J].Cluster Computing,2019,22(6):15357-15366.

        [8] 楊繼明,朱先睿.一類非線性最優(yōu)控制問題的間斷有限元方法[J].湖南工程學(xué)院學(xué)報(自然科學(xué)版),2017,27(3):37-39.

        [9] 徐鵬,謝廣明,文家燕,等.事件驅(qū)動的強(qiáng)化學(xué)習(xí)多智能體編隊控制[J].智能系統(tǒng)學(xué)報,2019,14(1):93-98.

        [10] 王文欣,葉洪濤,羅文廣,等.事件觸發(fā)機(jī)制下多智能體系統(tǒng)的非對稱二分一致性[J].廣西科技大學(xué)學(xué)報,2021,32(4):28-34.

        [11] 唐博文,王智文,胡振寰.基于事件驅(qū)動的無人機(jī)強(qiáng)化學(xué)習(xí)避障研究[J].廣西科技大學(xué)學(xué)報,2019,30(1):96-102,117.

        [12] 賈丙佳,李平.復(fù)雜環(huán)境下移動機(jī)器人路徑規(guī)劃算法[J].華僑大學(xué)學(xué)報(自然科學(xué)版),2021,42(1):103-112.

        [13] 鄧小豪,侯進(jìn),譚光鴻,等.基于強(qiáng)化學(xué)習(xí)的多目標(biāo)車輛跟隨決策算法[J].控制與決策,2021,36(10):2497-2503.

        [14] 李文超.移動機(jī)器人環(huán)境建模與路徑規(guī)劃方法研究[D].邯鄲:河北工程大學(xué),2019.

        [15] JOHNSON J D,LI J H,CHEN Z S.Reinforcement learning:an introduction[J].Neurocomputing,2000,35(1-4):205-206.

        [16] SILVER D,LEVER G,HEESS N,et al.Deterministic policy gradient algorithms[C]//International Conference on Machine Learning,2014:387-395.

        [17] PROENCA H,NEVES J C.Deep-PRWIS:periocular recognition without the iris and sclera using deep learning frameworks[J]. IEEE Transactions on Information Forensics and Security,2018,13(4):888-896.

        [18] XING X R,DING H W,LIANG Z G,et al.Robot path planner based on deep reinforcement learning and the seeker optimization algorithm[J].Mechatronics,2022,88:102918.

        [19] ZONG X P,XU G Y,YU G Z,et al.Obstacle avoidance for self-driving vehicle with reinforcement learning[J].SAE International Journal of Passenger Cars-Electronic and Electrical Systems,2017,11(1):30-39.

        Multi-agent formation control and simulation based on improved DDPG algorithm

        JING Yongnian1,2, GENG Shuangshuang1,3, XIANG Yao1,3, WEN Jiayan*1,3,4

        (1. School of Automation, Guangxi University of Science and Technology, Liuzhou 545616, China;

        2. Black Sesame Technologies Company Limited, Shenzhen 518055, China;

        3. Research Center for Intelligent Cooperation and Cross-application,Guangxi University of Science and Technology, Liuzhou 545616, China;

        4. Guangxi Key Laboratory of Automobile Components and Vehicle Technology, Guangxi University of Science and Technology, Liuzhou 545616, China)

        Abstract: In view of the problems of unstable formation in the path planning process, slow time to obtain path, and close distance to obstacles in the process of obstacle avoidance, in this paper, the method of angular distance measurement is used to form multiple agents, and by changing the traditional path planning method formed by the obstacle avoidance process from the start point to the end point, weakening the concept of start point and end point, and adding the path midpoint, the agent moves from the start point and the end point to the midpoint at the same time, forming two paths from the start point to the midpoint and the end point to the midpoint. The reward function is designed to meet agents of the same number as a positive reward, and the collision of different agents and the collision between agents(agents of the same number and different agents)and obstacles are all negative rewards. The deep deterministic policy gradient-variable capacity experience pool(DDPG-vcep)algorithm is verified respectively in the static and dynamic obstacle simulation environments, and the reward values under different training times are compared. The simulation results show that compared with the traditional DDPG algorithm, the improved DDPG formation algorithm saves the path acquisition time and has a more obvious obstacle avoidance effect.

        Key words: deep learning; reinforcement learning; deep deterministic policy gradient algorithm(DDPG algorithm); multi-agent; formation control; obstacle avoidance

        (責(zé)任編輯:黎 婭)

        猜你喜歡
        避障強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)
        基于強(qiáng)化學(xué)習(xí)的在線訂單配送時隙運能分配
        論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
        智能交通車流自動導(dǎo)引系統(tǒng)
        基于LabVIEW的自主巡航與遙控雙功能智能小車研發(fā)
        基于HC—SR04超聲波傳感器的智能避障小車設(shè)計
        基于STM32芯片的移動機(jī)器人的避障研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        日本美女性亚洲精品黄色| 人妻少妇边接电话边娇喘| 风韵丰满熟妇啪啪区老熟熟女| 永久黄网站色视频免费看| 老色鬼永久精品网站| 久久精品免视看国产明星 | 刺激一区仑乱| 精精国产xxxx视频在线播放| 草草网站影院白丝内射| 亚洲综合网一区二区三区| 91久久精品一区二区三区大全| 国产综合精品久久99之一| 永久黄网站免费视频性色| 久久精品成人欧美大片| 国产成人AⅤ| 国产av天堂一区二区二区| 国产精品成人无码久久久久久| 卡一卡二卡三无人区| 亚洲色欲大片AAA无码| 精品国产乱码一区二区三区| 亚洲第一女人的天堂av| 亚洲免费国产中文字幕久久久| 国产人妻高清国产拍精品| 精品淑女少妇av久久免费| 国产精品网站夜色| 日韩av他人妻中文字幕| 成人一区二区人妻少妇| 免费无码高潮流白浆视频| 久久天天躁狠狠躁夜夜96流白浆| 无码AⅤ最新av无码专区| 亚洲天堂av免费在线| 婷婷久久精品国产色蜜蜜麻豆| 国产精品美女久久久久av超清| 少妇被粗大的猛进69视频| 中文字幕日韩熟女av| 日韩精品久久午夜夜伦鲁鲁| 特黄aaaaaaaaa毛片免费视频| 欧美日韩亚洲国产精品| 亚洲中文字幕日产喷水| 国产三区三区三区看三区| 极品粉嫩小仙女高潮喷水网站|