亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向軌跡規(guī)劃的深度強化學(xué)習(xí)獎勵函數(shù)設(shè)計

        2020-01-17 01:46:18邵振洲趙振東施智平
        計算機工程與應(yīng)用 2020年2期
        關(guān)鍵詞:方向機械規(guī)劃

        李 躍,邵振洲,趙振東,施智平,關(guān) 永

        1.首都師范大學(xué) 信息工程學(xué)院,北京100048

        2.首都師范大學(xué) 輕型工業(yè)機械臂與安全驗證北京市重點實驗室,北京100048

        3.首都師范大學(xué) 成像技術(shù)北京市高精尖創(chuàng)新中心,北京100048

        1 引言

        機械臂軌跡規(guī)劃是機器人控制的重要組成部分。傳統(tǒng)機械臂的軌跡規(guī)劃方法一般適用于已知的結(jié)構(gòu)化環(huán)境,無法解決機械臂在未知工作環(huán)境下的軌跡規(guī)劃問題[1-4]。深度強化學(xué)習(xí)(DRL)的出現(xiàn)使得機械臂具備了自主學(xué)習(xí)能力[5],讓其能夠在未知環(huán)境下自主完成軌跡規(guī)劃。如圖1所示,深度強化學(xué)習(xí)中的智能體采用“探索-試錯”機制[6],根據(jù)獎勵函數(shù)所提供的獎勵值,控制機械臂對未知工作環(huán)境不斷探索,最終通過自主學(xué)習(xí)的方式規(guī)劃出一條累計獎勵最大的動作軌跡。近年來,基于深度強化學(xué)習(xí)的機械臂軌跡規(guī)劃成為一個新的研究熱點[7-9]。

        圖1 深度強化學(xué)習(xí)示意圖

        在深度強化學(xué)習(xí)中,典型的優(yōu)化策略有深度Q網(wǎng)絡(luò)(DQN)[10]、深度SARSA(State Action Reward State Action)[11]和彩虹(Rainbow)[12]等。然而,上述方法的動作輸出均為離散型動作,無法應(yīng)用于機械臂軌跡規(guī)劃這類動作空間連續(xù)的任務(wù)。為此,深度確定性策略梯度(DDPG)[13]和異步優(yōu)勢行動者評論家(A3C)[14]等方法相繼被提出,使用非線性函數(shù)逼近將動作空間擴展為連續(xù)型。Giuseppe Paolo 等人[7]對DDPG 方法做了改進,通過異步執(zhí)行技術(shù)讓機器人在迷宮環(huán)境中成功規(guī)劃出運動軌跡,但由于其采用經(jīng)驗回放機制,導(dǎo)致規(guī)劃速度較慢。Michael Everett等人[8]使用混合CPU/GPU的A3C方法,該方法的優(yōu)點是用多線程并行的異步更新技術(shù)取代經(jīng)驗回放機制,提升了規(guī)劃速度,實現(xiàn)了機械臂避障任務(wù)的快速軌跡規(guī)劃。

        然而,目前基于深度強化學(xué)習(xí)的機械臂軌跡規(guī)劃方法仍然存在著一些不足。首先,現(xiàn)有方法忽略了不合理的學(xué)習(xí)步長對規(guī)劃策略的影響,在未知環(huán)境中魯棒性不足。其次,在機械臂軌跡規(guī)劃過程中現(xiàn)有方法存在大量的無效探索,導(dǎo)致學(xué)習(xí)效率偏低,特別是在存在障礙物的未知工作環(huán)境中,這一問題更加突出。

        近幾年,研究學(xué)者們提出了新的深度強化學(xué)習(xí)方法分布式近似策略優(yōu)化(DPPO)[15]。該方法采用懲罰項機制,為策略提供合理的更新比例,降低了不合理學(xué)習(xí)步長的影響。本文以六自由度機械臂為研究對象,提出一種基于新型方位獎勵函數(shù)的機械臂軌跡規(guī)劃方法ADPPO,首次將DPPO 用于存在障礙物的未知環(huán)境下機械臂的軌跡規(guī)劃任務(wù),利用其懲罰項機制,讓規(guī)劃策略的更新幅度保持在合理范圍內(nèi)。另外,本文綜合考慮了機械臂在學(xué)習(xí)規(guī)劃過程中,與障礙物和目標的相對方向和相對位置等因素,提出一種新型方位獎勵函數(shù),用于準確評價所規(guī)劃軌跡的優(yōu)劣程度,減少機械臂的無效探索。方位獎勵函數(shù)由方向和位置獎勵函數(shù)兩部分組成。

        其中,方向獎勵函數(shù)參照庫倫定律構(gòu)建,使得機械臂能夠快速安全地避障,位置獎勵函數(shù)采用高斯函數(shù)建模,并結(jié)合Triplet 損失函數(shù)的設(shè)計思想[16],使得機械臂能夠快速到達目標點。最后依據(jù)機械臂與障礙物的相對距離,動態(tài)調(diào)整方向獎勵和位置獎勵的權(quán)重,構(gòu)建出更全面合理的方位獎勵函數(shù)。

        2 方位獎勵函數(shù)設(shè)計

        為提高機械臂在未知環(huán)境中軌跡規(guī)劃的魯棒性和學(xué)習(xí)效率,本文利用機械臂末端與障礙物和目標點的相對方向和相對位置,為深度強化學(xué)習(xí)算法設(shè)計了一種新型方位獎勵函數(shù),包括位置獎勵函數(shù)和方向獎勵函數(shù)。

        2.1 位置獎勵函數(shù)

        在有障礙物的未知環(huán)境中,機械臂既要避開障礙物,又要快速到達目標點。因此,本文設(shè)計的位置獎勵函數(shù)由兩部分組成,分別為避障項和目標引導(dǎo)項,避障項負責警示機械臂,讓其與障礙物保持一定的安全距離,目標引導(dǎo)項用于激勵機械臂在避開障礙物的同時迅速到達目標點。

        (1)避障項:本文依據(jù)高斯分布建模避障項,根據(jù)機械臂末端E 相對于障礙物O 的位置求得二者相對距離DEO。 DEO越小代表風(fēng)險越高,會獲得越多的懲罰獎勵。避障項由函數(shù)fobstacle(DEO)描述,如公式(1)所示:

        (2)目標引導(dǎo)項:為了讓機械臂既能避開障礙物又能快速靠近目標點T ,受Triplet損失函數(shù)的設(shè)計思想啟發(fā),目標引導(dǎo)項如公式(2)所示:

        [·]+符號表示當[]內(nèi)的值大于0 的時候,函數(shù)值正常輸出,反之則輸出為0。DET表示機械臂末端E 與目標點T 的相對距離,而α 是DEO和DET的較小間隔。α 的取值需要根據(jù)實際的工作環(huán)境做具體調(diào)整,本文經(jīng)過20次實驗后,α 值設(shè)置為0.095。

        綜合避障項和目標引導(dǎo)項,本文設(shè)計的位置獎勵函數(shù)如公式(3)所示:

        2.2 方向獎勵函數(shù)

        機械臂在有障礙物的未知環(huán)境中工作時,如何安全合理地避障是一個十分關(guān)鍵的問題。在實際工作中,機械臂末端與障礙物、目標這兩者的相對運動方向有十分緊密的交疊,加大了避障的難度,這就需要為機械臂設(shè)定一個合理的方向取舍策略。

        本文參照庫倫定律來建模方向獎勵函數(shù)。電荷間的吸引和排斥與障礙物環(huán)境中的機械臂軌跡規(guī)劃任務(wù)有良好的契合度。障礙物與機械臂末端的關(guān)系可以表示為同種電荷間相互排斥,目標點與機械臂末端的關(guān)系則可以視為異種電荷的相互吸引。

        方向獎勵函數(shù)設(shè)計如圖2所示,圖中ET′為目標點的吸引向量,EO′為障礙物的排斥向量,二者的數(shù)學(xué)表達式如公式(4)和公式(5)所示:

        其中,r1為機械臂末端到目標點的相對距離,r2為機械臂末端到障礙物的相對距離,QE為機械臂末端的“電荷量”,QO為障礙物的“電荷量”,QT為目標的“電荷量”。在實際工作中,目標點對機械臂的吸引作用應(yīng)大于障礙物的排斥作用,否則有可能會導(dǎo)致機械臂為躲避障礙物而無法到達目標點的情況,設(shè)置QT為QO的兩倍,以保證機械臂既能避障,又能完成任務(wù)。 EB 表示所期望的相對運動方向,EC 為機械臂末端當前的實際運動向量,φ 為EB 和EC 的夾角,用于度量當前運動向量與智能體所規(guī)劃的運動向量間的契合程度,φ 越小,表示契合度越高。φ 的數(shù)學(xué)表達式如公式(6)所示:

        本文所設(shè)計的方向獎勵函數(shù)如公式(7)所示,式中τ 為正向補償參數(shù),τ 的取值根據(jù)實驗經(jīng)驗得到,本文選取τ 值為0.785。

        圖2 方向獎勵函數(shù)示意圖

        2.3 方位獎勵函數(shù)設(shè)計

        機械臂在規(guī)劃路徑過程中,需要綜合考慮與障礙物和目標點的相對方向和位置。本文采用權(quán)重向量λ=[λorientation,λlocation]構(gòu)建方位獎勵函數(shù)。同時,本文以障礙物為中心,將機械臂工作空間劃分為危險區(qū)、警戒區(qū)和安全區(qū)。如圖3所示,在不同區(qū)域內(nèi)動態(tài)調(diào)整λ 以提高算法的學(xué)習(xí)效率。在安全區(qū)域內(nèi),位置獎勵函數(shù)起主導(dǎo)作用;在警戒區(qū)域內(nèi),隨著離障礙物越來越近,位置獎勵函數(shù)作用降低,方向獎勵函數(shù)作用提高;在危險區(qū)域內(nèi),方向獎勵函數(shù)起主導(dǎo)作用。權(quán)重λ 的表達式如公式(8)所示:

        結(jié)合權(quán)重λ,方位獎勵函數(shù)綜合表達式如公式(9)和(10)所示,Rglobal為方向獎勵和位置獎勵的拼接。

        圖3 動態(tài)加權(quán)示意圖

        3 基于方位獎勵函數(shù)的DPPO軌跡規(guī)劃

        A-DPPO 學(xué)習(xí)過程由初始化、動作選擇執(zhí)行、獎勵值獲取和網(wǎng)絡(luò)訓(xùn)練4 個階段構(gòu)成,如圖4 所示。在初始化階段,隨機初始化A-DPPO 智能體中的策略網(wǎng)絡(luò)μ(S|Θμ)、估值網(wǎng)絡(luò)Q(S,a|ΘQ)和懲罰項KL,其中估值網(wǎng)絡(luò)負責評判動作的價值,策略網(wǎng)絡(luò)負責預(yù)測應(yīng)執(zhí)行的動作軌跡,Θμ和ΘQ分別為策略網(wǎng)絡(luò)μ 和估值網(wǎng)絡(luò)Q的權(quán)重;在動作選擇執(zhí)行階段,將機械臂與障礙物和目標點的相對方向和相對位置信息作為環(huán)境狀態(tài)St,策略網(wǎng)絡(luò)根據(jù)環(huán)境狀態(tài)St和估值網(wǎng)絡(luò)的評判價值計算機械臂六關(guān)節(jié)的轉(zhuǎn)矩at(動作)并執(zhí)行,環(huán)境狀態(tài)變?yōu)镾t+1;在獎勵值獲取階段,方位獎勵函數(shù)依據(jù)機械臂與障礙物、目標點的相對運動方向和相對位置計算當前動作的獎勵值Rt;在網(wǎng)絡(luò)訓(xùn)練部分,依據(jù)狀態(tài)St、動作at、獎勵值Rt、下一時刻狀態(tài)St+1和懲罰項KL 分別訓(xùn)練策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò),修正動作偏差,尋找最優(yōu)化的運動軌跡。A-DPPO偽代碼如算法1所示。

        圖4 A-DPPO訓(xùn)練過程示意圖

        算法1 A-DPPO:基于方位獎勵函數(shù)的機械臂軌跡規(guī)劃方法

        輸入:環(huán)境狀態(tài)S

        輸出:動作a

        1. 初始化策略網(wǎng)絡(luò)μ(S|Θμ)、估值網(wǎng)絡(luò)Q(S,a|ΘQ)和懲罰項KL

        2. for episode=1 to M do

        3. for t=1 to T do

        4. at←μ(S|Θμ)

        5. 依據(jù)方位獎勵函數(shù)獲得獎勵值Rt

        6. 更新策略網(wǎng)絡(luò)權(quán)重Θμ

        7. 更新估值網(wǎng)絡(luò)權(quán)重ΘQ

        8. end for

        9. end for

        A-DPPO的算法流程如圖5所示。每一次迭代包含動作選擇執(zhí)行、獎勵值獲取和網(wǎng)絡(luò)訓(xùn)練三個階段。在策略網(wǎng)絡(luò)輸出動作后,動作選擇執(zhí)行階段結(jié)束,進入獎勵值獲取階段。方位獎勵函數(shù)綜合考慮機械臂與障礙物的相對方向和位置輸出當前動作獎勵值,進入網(wǎng)絡(luò)訓(xùn)練階段。在網(wǎng)絡(luò)訓(xùn)練階段,更新策略網(wǎng)絡(luò)與估值網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)重。

        圖5 A-DPPO算法流程圖

        4 實驗與討論

        本文設(shè)計了兩組實驗來驗證A-DPPO 的性能。在第一組實驗中,DPPO分別使用基本、方向、位置和方位四種不同獎勵函數(shù),通過對比收斂速度和獎勵值的均值驗證方位獎勵函數(shù)的有效性。其中,基本獎勵函數(shù)只有在機械臂末端成功到達目標點后才能夠得到獎勵。在第二組實驗中,通過將A-DPPO與目前主流的深度強化學(xué)習(xí)方法DDPG和A3C進行對比,驗證A-DPPO的學(xué)習(xí)效率和魯棒性。

        每組實驗分別在難度不同的兩種存在障礙物的未知工作環(huán)境中進行,如圖6 所示,在工作環(huán)境A 中距離目標稍遠處放置一個障礙物,用于對規(guī)劃任務(wù)干擾較小的情況。工作環(huán)境B 中在距離目標較近的地方放置兩個障礙物,障礙物對規(guī)劃任務(wù)干擾較大。

        圖6 未知工作環(huán)境示意圖

        所有實驗中獎勵最大值設(shè)置為2 000,當獎勵值穩(wěn)定達到該上限的90%,即認為軌跡規(guī)劃任務(wù)完成。圖7~9的坐標系中橫坐標表示幕(episode),縱坐標表示獎勵值(reward),本實驗環(huán)境配置見表1。

        圖7 DPPO在不同工作環(huán)境下的獎勵函數(shù)曲線圖

        圖9 A3C在工作環(huán)境B下的獎勵函數(shù)曲線圖

        圖8 DDPG和A3C在工作環(huán)境A下的獎勵函數(shù)曲線圖

        表1 實驗環(huán)境配置

        4.1 A-DPPO性能分析

        4.1.1 學(xué)習(xí)效率

        在深度強化學(xué)習(xí)中,學(xué)習(xí)效率能夠反映算法性能的優(yōu)劣。本文將障礙物初始化在同一位置,進行了30 次重復(fù)實驗,在表2 中對不同獎勵函數(shù)收斂之后,所獲獎勵值的均值以及所需幕數(shù)的均值進行了統(tǒng)計,并在圖7中繪制了獎勵函數(shù)曲線圖用于評估其學(xué)習(xí)效率。由圖7和表2 可以看出在兩種未知工作環(huán)境中,A-DPPO 均達到了最高的學(xué)習(xí)效率,在最少的幕數(shù)獲得了最大的獎勵值,相比使用基本獎勵函數(shù)的DPPO,收斂速度提高了43.9%,獎勵值提高了2.55%。說明本文所提出的方位獎勵函數(shù)具有良好的性能。

        表2 DPPO收斂后獎勵值均值及幕數(shù)均值統(tǒng)計表

        基于方向或位置獎勵函數(shù)的DPPO 學(xué)習(xí)效率提升幅度雖然不如A-DPPO,但相比使用基本獎勵函數(shù)的DPPO,收斂速度分別提高了16.6%和29.2%,獎勵值分別提高了1.25%和0.61%。方向和位置獎勵函數(shù)的數(shù)值曲線有一個交點,位置獎勵函數(shù)的獎勵值在前期低于方向獎勵函數(shù),但隨著訓(xùn)練時間的增加,逐漸高于方向獎勵函數(shù)。這是因為在訓(xùn)練前期,機械臂會頻繁碰到障礙物,使用方向獎勵函數(shù)可以有效減少與障礙物的碰撞次數(shù),在訓(xùn)練后期,機械臂已經(jīng)能熟練地躲避障礙物,位置獎勵函數(shù)在到達目標點這一任務(wù)中更具有優(yōu)勢。方向獎勵函數(shù)能夠有效地提升獎勵值,但收斂速度稍慢。位置獎勵函數(shù)能夠快速地提升收斂速度,但獎勵值提升幅度稍低。方位獎勵函數(shù)綜合了兩者優(yōu)點,達到了最高的學(xué)習(xí)效率。基本獎勵函數(shù)在探索前期由于探索的盲目性,會有一段時間獎勵值持續(xù)偏低的情況。而方位獎勵函數(shù)能夠在機械臂的學(xué)習(xí)過程中提供有效的探索指導(dǎo),從而大幅度減少了這一情況,使得A-DPPO的學(xué)習(xí)效率得到有效的提高。

        4.1.2 魯棒性

        本文依據(jù)獎勵值的均值與標準差來評定算法魯棒性的優(yōu)劣。本文進行了30次重復(fù)實驗,在表3中統(tǒng)計了基于不同獎勵函數(shù)的DPPO 方法在兩種工作環(huán)境中所獲獎勵值的均值與標準差。

        表3 DPPO使用不同獎勵函數(shù)的魯棒性對比

        通過分析表3 可以看出,A-DPPO 在兩個未知工作環(huán)境中魯棒性均達到了最優(yōu),均值提升了2.55%,標準差下降了34.6%。這主要得益于方向和位置兩個獎勵函數(shù)的綜合使用,能夠獲得更多準確有效的獎勵。單一使用方向或位置獎勵函數(shù)的DPPO 方法魯棒性雖然不如A-DPPO,但相比基本獎勵函數(shù),均值提升了0.61%以上,標準差下降了16%以上。

        4.2 深度強化學(xué)習(xí)方法對比

        4.2.1 學(xué)習(xí)效率對比

        本文在重復(fù)30 次實驗后,統(tǒng)計了DDPG 與A3C 收斂之后所獲獎勵值的均值以及所需幕數(shù)的均值,如表4所示。由表2 和表4 可得,A-DPPO 方法在工作環(huán)境A中,用最少的幕數(shù)獲得了最大的獎勵值,收斂速度平均提升了58.5%,并且獎勵值平均提高了9.6%。圖7 為DDPG 和A3C 在工作環(huán)境A 中的獎勵函數(shù)曲線圖。結(jié)合圖7(a)和圖8可得,在工作環(huán)境A中,A-DPPO相比基于基本獎勵函數(shù)的DDPG,收斂速度提升了98.5%以上,相比基于基本獎勵函數(shù)的A3C,收斂速度也有18.5%的提升。但是相比基于方位獎勵函數(shù)的A3C方法,收斂速度稍低。其主要原因是A3C中使用優(yōu)勢函數(shù)作為動作的附加評價標準,優(yōu)勢函數(shù)的附加評價與方位獎勵函數(shù)的獎勵值相結(jié)合能夠有效加速收斂。由于DDPG 學(xué)習(xí)效率過低,無法適用于難度較高的工作環(huán)境B,因此在工作環(huán)境B的實驗中,本文提出的方法A-DPPO主要與A3C進行對比。

        表4 DDPG和A3C收斂后獎勵值均值及幕數(shù)均值統(tǒng)計表

        圖9 是A3C 在工作環(huán)境B 中的獎勵函數(shù)曲線圖。結(jié)合圖7(b)和圖9綜合分析可得,本文所提出的A-DPPO方法在環(huán)境B中相比基于基本獎勵函數(shù)的A3C,收斂速度提高了57.3%以上。由表2和表4可得,A-DPPO方法相比基于方位獎勵函數(shù)的A3C 方法,收斂速度提升了33.3%,獎勵值提高了1.3%。這是因為環(huán)境B的工作任務(wù)相對困難,A3C 在探索過程中會存在更多的無效探索,而方位獎勵函數(shù)能夠為A-DPPO 提供探索指導(dǎo),有效地減少了無效探索,提升了A-DPPO的學(xué)習(xí)效率。

        4.2.2 魯棒性對比

        統(tǒng)計了DDPG、A3C基于不同獎勵函數(shù)在進行30次重復(fù)實驗后,所獲獎勵值的均值與標準差,如表5所示,并結(jié)合表3在圖10中進行了可視化分析。根據(jù)圖10分析可得,A-DPPO在環(huán)境A中相比基于基本獎勵函數(shù)的DDPG,均值提升了15.12%,標準差下降了75.5%。雖然A-DPPO 在環(huán)境A 中相比基于方位獎勵函數(shù)的A3C 方法提升有限,但在工作難度很高的環(huán)境B 中,均值提升了2.9%,標準差下降了36.4%,并且A-DPPO 方法在環(huán)境B 下相比基于基本獎勵函數(shù)的A3C,均值提升了5.3%,標準差下降了54.6%。這主要得益于A-DPPO 使用了懲罰項機制,即使在較高難度的任務(wù)中,也能夠保持合理的規(guī)劃策略更新幅度。這也是在工作環(huán)境B中,A-DPPO 的獎勵值曲線比A3C 更加平滑的原因。A3C在環(huán)境B中的魯棒性相比環(huán)境A有明顯降低,其主要原因是A3C的優(yōu)勢函數(shù)對于相對困難任務(wù)的優(yōu)勢評價具有一定的偏差。

        表5 DDPG和A3C使用不同獎勵函數(shù)的魯棒性對比

        圖10 魯棒性可視化對比圖

        4.2.3 討論

        綜合以上實驗結(jié)果,可以看出本文提出的A-DPPO方法,在不同的未知工作環(huán)境中相比現(xiàn)有方法均取得了最高的學(xué)習(xí)效率和最好的魯棒性。雖然A-DPPO 在工作環(huán)境A 中的學(xué)習(xí)效率相比基于方位獎勵函數(shù)的A3C稍低,但在實際應(yīng)用環(huán)境中,工作環(huán)境B更具有代表性,A-DPPO 在環(huán)境B 中具有更高的學(xué)習(xí)效率和更優(yōu)的魯棒性。

        5 結(jié)束語

        本文提出了一種基于方位獎勵函數(shù)的機械臂軌跡規(guī)劃方法A-DPPO。本文根據(jù)機械臂與障礙物和目標的相對方向和位置設(shè)計了一種新型方位獎勵函數(shù),有效地解決了無效探索導(dǎo)致的學(xué)習(xí)效率偏低的問題。首次將DPPO 用于在未知工作環(huán)境中的機械臂軌跡規(guī)劃任務(wù),提升了規(guī)劃策略的魯棒性。實驗證明,本文提出的A-DPPO 在不同難度的未知工作環(huán)境中均取得了良好的效果,學(xué)習(xí)效率更高,魯棒性更好。

        猜你喜歡
        方向機械規(guī)劃
        2022年組稿方向
        2021年組稿方向
        2021年組稿方向
        調(diào)試機械臂
        當代工人(2020年8期)2020-05-25 09:07:38
        規(guī)劃引領(lǐng)把握未來
        簡單機械
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        多管齊下落實規(guī)劃
        機械班長
        迎接“十三五”規(guī)劃
        日韩人妻无码精品一专区二区三区| 亚洲国产日韩欧美高清片a| 一区二区三区免费观看在线视频| 亚洲一区二区三区精品视频| 亚洲中文字幕无码天然素人在线| 无码午夜人妻一区二区三区不卡视频 | 精品亚洲不卡一区二区| 大香蕉国产av一区二区三区| 国产精品亚洲а∨天堂2021| 国产精品后入内射日本在线观看 | 国产精品福利高清在线| 窝窝午夜看片| 欧美性福利| 亚洲中文有码一区二区| 日本二一三区免费在线| 中文字幕天天躁日日躁狠狠躁免费| 精品一级毛片| 精品三级久久久久久久电影| 久草视频华人在线观看| 免费黄片小视频在线播放| 风韵多水的老熟妇| 国产精品青草视频免费播放| 日本视频一区二区三区三州| 国产精品免费一区二区三区四区| 高中生粉嫩无套第一次| 国产成人精品cao在线| 蜜桃视频第一区免费观看| 又大又紧又粉嫩18p少妇| 日韩二三区| 日本老熟女一区二区三区| 少妇高潮太爽了在线视频| 人人妻人人爽人人做夜欢视频九色 | 熟女精品视频一区二区三区| 美女一级毛片免费观看97| 色小姐在线视频中文字幕| 人妻丰满av无码中文字幕| 欧美日韩亚洲精品瑜伽裤| 二区三区视频在线观看| 妺妺窝人体色www在线| 最近中文字幕视频高清| 久久婷婷免费综合色啪|