亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的軟體機(jī)構(gòu)抓捕策略研究

        2019-10-26 01:33:20張文奇谷程鵬
        上海航天 2019年5期
        關(guān)鍵詞:獎懲賦值物體

        張文奇,陳 萌,谷程鵬

        (上海宇航系統(tǒng)工程研究所,上海 201109)

        0 引言

        隨著人類太空活動的不斷增多,在軌服務(wù)技術(shù)受到越來越多的重視,已經(jīng)成為空間技術(shù)發(fā)展的一個新熱點(diǎn)。在軌服務(wù)主要包括在軌維修、在軌加注、在軌試驗(yàn)、輔助空間站組裝、軌道垃圾清理等方面[1]。傳統(tǒng)在軌服務(wù)中,宇航員是完成相關(guān)復(fù)雜任務(wù)的主要執(zhí)行者,太空中極度惡劣的環(huán)境會對宇航員的生命安全造成了嚴(yán)重威脅。在輔助變軌、軌道垃圾清理、失控衛(wèi)星救助等方面,空間機(jī)器人擁有獨(dú)特優(yōu)勢,因此成為幫助或取代宇航員的最佳選擇,各航天大國相繼開展空間機(jī)器人的研究[2]。無人空間機(jī)器人是解決這些問題的關(guān)鍵技術(shù)之一[3]。由于故障航天器一般不具備專門的合作機(jī)構(gòu),往往處于自旋或翻滾狀態(tài),針對此類非合作目標(biāo)的交會對接/捕獲技術(shù)是未來自主在軌服務(wù)發(fā)展的重要方向[4]。

        機(jī)器學(xué)習(xí)就是研究如何使機(jī)器通過識別和利用現(xiàn)有知識來獲取新知識和新技能。目前,機(jī)器學(xué)習(xí)算法可以分成三類:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)[5]。強(qiáng)化學(xué)習(xí)方法更注重機(jī)器人對環(huán)境和行為的適應(yīng)性,而不依賴于完善的先驗(yàn)知識環(huán)境。將機(jī)器人置于完全未知環(huán)境中,機(jī)器人會自動通過自身的傳感器來獲取外部環(huán)境狀態(tài),最后通過試錯的方式積累與外界環(huán)境的交互經(jīng)驗(yàn),不斷完善學(xué)習(xí)過程,最終完成改善自身的行為能力和對環(huán)境的適應(yīng)能力。

        1 國內(nèi)外發(fā)展現(xiàn)狀

        1991年,MAHADEVAN和CONNELL將強(qiáng)化學(xué)習(xí)算法的應(yīng)用領(lǐng)域拓寬,采用強(qiáng)化學(xué)習(xí)算法使“OBELIX”機(jī)器人學(xué)習(xí)推箱子的行為[6]。在此基礎(chǔ)上,為了減少傳感器信息的不確定性,HOAR等重新設(shè)計了強(qiáng)化算法中的函數(shù)變量,同時將學(xué)習(xí)應(yīng)用到指定行為學(xué)習(xí)中[7],并得到了很好的學(xué)習(xí)效果。

        1992年 TAKEDA等提出另一種重要的強(qiáng)化學(xué)習(xí)算法(Q-Learning算法),對一定條件下Q-Learnin算法的收斂性進(jìn)行了驗(yàn)證[8]。它的提出成為強(qiáng)化學(xué)習(xí)的里程碑。

        NIV等人研究了多種強(qiáng)化學(xué)習(xí)算法,討論了幾種基于模型的強(qiáng)化學(xué)習(xí)算法。根據(jù)不同的模型結(jié)構(gòu),將智能機(jī)器人需要完成的任務(wù)化分成兩個子任務(wù),然后通過強(qiáng)化學(xué)習(xí)方法分別設(shè)計每個子任務(wù)的控制器,通過不同的控制器得到機(jī)器人完成任務(wù)的行動軌跡[9]。

        隨著智能理論和算法的日漸成熟,Q-Learning模型被應(yīng)用到人工智能機(jī)器學(xué)習(xí)和自動控制等多種領(lǐng)域,成為設(shè)計智能的核心技術(shù)[10-11]。Q-Learning模型來源于生物研究,近年來也逐漸應(yīng)用于生物研究。2008年MA等將Q-Learning模型引入強(qiáng)化學(xué)習(xí)模型中[12],2014年LABER等將Q-Learning模型引入抑郁癥的最佳治療方案制定中[13]。

        目前,強(qiáng)化學(xué)習(xí)算法尚未應(yīng)用于基于多指柔性機(jī)構(gòu)的抓捕領(lǐng)域,并且針對功能復(fù)合材料為基底的柔性機(jī)構(gòu)的抓捕特征,強(qiáng)化學(xué)習(xí)模型尚缺乏理論分析,因此如何選擇合適的強(qiáng)化學(xué)習(xí)算法,是利用強(qiáng)化學(xué)習(xí)算法確定物體抓捕過程本質(zhì)特征的關(guān)鍵。

        2 針對IPMC的強(qiáng)化學(xué)習(xí)建模

        2.1 強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu)圖

        強(qiáng)化學(xué)習(xí)算法是智能系統(tǒng)通過感知外界環(huán)境狀態(tài)信息,利用獲取的信息來學(xué)習(xí)動態(tài)系統(tǒng)的最優(yōu)策略,它是機(jī)器人領(lǐng)域的一種重要的學(xué)習(xí)方法[14]。強(qiáng)化學(xué)習(xí)是一種實(shí)時的、在線的學(xué)習(xí)方法,它通過反復(fù)試錯的學(xué)習(xí)方法來實(shí)現(xiàn)學(xué)習(xí)的整個過程;強(qiáng)化學(xué)習(xí)在訓(xùn)練過程中不斷地獲得先驗(yàn)知識,通過這些知識來改變行動策略,實(shí)現(xiàn)到達(dá)目標(biāo)的目的。強(qiáng)化學(xué)習(xí)狀態(tài)一動作的映射過程如圖1所示,Agent通過傳感器感知到當(dāng)前環(huán)境狀態(tài)T(環(huán)境狀態(tài))下的狀態(tài),并得到了一個相應(yīng)的回報值r,然后Agent通過分析當(dāng)前狀態(tài)下的回報做出行為動作A,在到達(dá)下一位置時系統(tǒng)又將得到一個狀態(tài)信息,它將繼續(xù)通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)整個學(xué)習(xí)過程,如圖2所示。

        圖1 強(qiáng)化學(xué)習(xí)算法結(jié)構(gòu)圖Fig.1 Structure diagram of reinforcement learning algorithm

        在研究基于多模態(tài)信息的跨模態(tài)融合學(xué)習(xí)算法時,由于IPMC材料存在時間較長會發(fā)生性能衰退的特性,因此通過試驗(yàn)所測得的數(shù)據(jù)量有限,無法進(jìn)行大樣本數(shù)據(jù)庫的建立,因此綜合各方面因素,采用強(qiáng)化學(xué)習(xí)的方法,從而達(dá)到降低樣本數(shù)量的要求,同時也滿足材料不易多次進(jìn)行反復(fù)試驗(yàn)的特點(diǎn)。本文將Q-Learning算法結(jié)合IPMC采集得到的數(shù)據(jù)進(jìn)行結(jié)合,通過對Q-Learning的獎懲函數(shù)進(jìn)行多次學(xué)習(xí)迭代,從而得到最終的獎勵函數(shù)矩陣。利用該矩陣進(jìn)行最終的學(xué)習(xí)選擇,從而使得基于IPMC人工肌肉的軟體抓捕機(jī)構(gòu)達(dá)到柔性抓捕的智能化水平。

        2.2 試驗(yàn)?zāi)P?/h3>

        在進(jìn)行強(qiáng)化學(xué)習(xí)算法之前,需要對一定訓(xùn)練樣本進(jìn)行初步學(xué)習(xí),從而得到針對不同種類物體實(shí)施抓取的最優(yōu)動作,然后對不同物體的抓取結(jié)果進(jìn)行獎勵值的設(shè)定,具體流程如圖3所示。

        圖2 學(xué)習(xí)過程結(jié)構(gòu)圖Fig.2 Structure diagram of reinforcement learning process

        圖3 獎懲矩陣建立過程Fig.3 Reward and punishment matrix establishment process

        1)樣本設(shè)計

        首先,制作8個不同形狀的樣本(被測對象),測試IPMC在不同爪數(shù)和電壓條件下對樣本的抓取情況。樣本如圖4所示。

        2)抓取模型設(shè)計

        抓取模型如圖5所示,左圖中的兩個紅色虛線圓圈區(qū)域表示相對應(yīng)的兩指,而三個藍(lán)色虛線圓圈區(qū)域代表了相應(yīng)的三指,正如右圖中紅色線對應(yīng)的是兩指結(jié)構(gòu),白色線對應(yīng)的是三指結(jié)構(gòu)。整個抓取機(jī)構(gòu)由機(jī)械臂、IPMC抓取結(jié)構(gòu)、計算機(jī)(控制部分)組成。

        通過試驗(yàn)調(diào)研,不同的電壓信號以及不同的手指指數(shù)對試驗(yàn)的結(jié)果有較大影響。通過對IPMC人工肌肉的軟體抓捕機(jī)構(gòu)(IPMC搭載在機(jī)械臂上面)進(jìn)行抓捕試驗(yàn),同時對試驗(yàn)現(xiàn)象進(jìn)行總結(jié)并整理得到如表1、表2的數(shù)據(jù)。表中,√ 表示成功抓取樣本,× 表示未能抓取樣本。

        圖4 抓取樣本Fig.4 Grip samples

        圖5 抓取器模型Fig.5 Gripper model

        表1 4種電壓信號下的抓取結(jié)果

        表2 不同電壓下的抓取結(jié)果

        圖6 抓取器抓取物體時的電流變化Fig.6 The change in current as the crawler grips the object

        低電壓(2.5 V)時IPMC的輸出力相對較小,發(fā)生彎曲(達(dá)到彎曲峰值)所需的時間較長。通過樣本試驗(yàn)總結(jié),得到如表1的結(jié)果。隨著工作時間的延長IPMC的工作電流逐漸減小,如圖6所示。本文所測的電流是剛好抓起物體時的電流。

        3 Q-Learning算法訓(xùn)練

        3.1 試驗(yàn)驗(yàn)證

        抓取失敗樣例:試驗(yàn)抓取塑料杯。當(dāng)試驗(yàn)所給電壓為2.0 V,指數(shù)為兩指時,試驗(yàn)現(xiàn)象如圖7所示。

        圖7 塑料杯抓取試驗(yàn)Fig.7 Grip experiment for plastic cup

        從試驗(yàn)過程可以明顯看到,在該條件下并不能成功抓取塑料杯,塑料杯并未有明顯豎直方向上的位移。

        抓取成功試驗(yàn)樣例:試驗(yàn)抓取乒乓球。在3.0 V電壓、兩指的條件下,試驗(yàn)現(xiàn)象如圖8所示。

        圖8 乒乓球抓取試驗(yàn)Fig.8 Grip experiment for table tennis

        通過試驗(yàn)現(xiàn)象可以看出,乒乓球在該條件下被成功抓取,乒乓球在抓取過程中在豎直方向上有明顯的位移。因此在樣本有限的前提下,可以借助強(qiáng)化學(xué)習(xí)的算法進(jìn)行IPMC手指的訓(xùn)練及學(xué)習(xí)。

        3.2 Q-Learning算法及其訓(xùn)練

        Q-Learning學(xué)習(xí)中的術(shù)語包括狀態(tài)(state)和動作(action)。在整個試驗(yàn)過程中,可以將兩指、三指和四種電壓信號2.0 V、2.5 V、3.0 V、3.5 V進(jìn)行排列組合,從而得到八種組合,這八種組合對應(yīng)八種不同的動作,不同動作會得到不同的結(jié)果。通過前期的試驗(yàn)總結(jié)將最終結(jié)果分為四種狀態(tài),分別為抓取成功同時消耗的功率最少、抓取成功同時消耗功率中等、抓取成功同時消耗功率最大以及抓取失敗。為方便描述,在后續(xù)的試驗(yàn)結(jié)果中分別記為抓取成功1、抓取成功2、抓取成功3及抓取失敗。

        試驗(yàn)針對小樣本訓(xùn)練時,選擇樣本為n=8、動作m=8,進(jìn)行電壓、電流數(shù)據(jù)采集,見表2。對于不同的物體,在抓取過程中獲得的電壓電流值也是不同的,因此,對于小樣本物體進(jìn)行抓取時,可以通過所對應(yīng)的電壓電流數(shù)值來進(jìn)行匹配;對于試驗(yàn)過程中的獎懲值賦值,可以根據(jù)P=UI來進(jìn)行賦值。在試驗(yàn)過程中電流會有一定的波動,選擇以電流值的±10%為準(zhǔn),一旦所抓取的陌生物體的功率值在這個區(qū)間內(nèi)時,就可以執(zhí)行該動作進(jìn)行抓??;進(jìn)行大樣本測試時,不論是抽取取樣測試,還是針對未知物體進(jìn)行取樣測試,同時電壓以及電流值會有多個,從而產(chǎn)生多個動作值,因此假設(shè):1)N個樣本(N≥1 000,10 000,…);2)M個動作(M≥100,1 000,…)。

        此時,采用小樣本強(qiáng)化學(xué)習(xí)的結(jié)論來對大樣本來進(jìn)行訓(xùn)練研究。首先隨機(jī)選擇動作來執(zhí)行,針對執(zhí)行動作獲得的功率結(jié)果,依據(jù)小樣本初始矩陣進(jìn)行重新獎懲值賦值,然后在反復(fù)迭代的同時,在訓(xùn)練過程中改變訓(xùn)練次數(shù)(10,20,30),直至收斂,得到新的獎懲矩陣,依據(jù)訓(xùn)練得到的最終獎懲矩陣,找出最優(yōu)的抓取動作,如圖9所示。針對陌生物體進(jìn)行抓取學(xué)習(xí)如圖10所示。

        圖9 不同功率對應(yīng)的獎懲值Fig.9 Rewards and punishments corresponding to different powers

        圖10 針對陌生物體進(jìn)行抓取學(xué)習(xí)Fig.10 Grip learning for unfamiliar objects

        在這個試驗(yàn)中,無論從哪個動作開始,以IPMC能夠快速準(zhǔn)確地抓取樣本作為目標(biāo)的最終結(jié)束,將每個動作設(shè)為一個節(jié)點(diǎn),同時對于每個節(jié)點(diǎn)進(jìn)行獎懲值的賦值,對于不同的狀態(tài)賦予不同的獎懲值,對于抓取成功3狀態(tài)將獎勵值賦值為0,抓取成功2獎勵值賦值為5,當(dāng)節(jié)點(diǎn)能夠快速且準(zhǔn)確抓取樣本的時候(抓取成功1),將獎勵值賦值為100,將抓取失敗獎勵值賦值為-1,這樣可以加快學(xué)習(xí)的效率。

        Q-Learning算法流程如下:

        步驟1:初始化Q值。構(gòu)造了一個4列(狀態(tài)數(shù))、8行(動作數(shù))的Q-table,并將其中的值初始化為0。

        步驟2:在整個訓(xùn)練周期中(或者直到訓(xùn)練被中止前),步驟3到步驟5會一直被重復(fù),直到達(dá)到了最大的訓(xùn)練次數(shù)(由用戶指定)或者手動中止訓(xùn)練。

        步驟3:選取一個動作。在基于當(dāng)前的Q值估計得出的狀態(tài)s下選擇一個動作a。在一開始,使用epsilon貪婪來進(jìn)行動作的選擇,指定一個探索速率epsilon,設(shè)定初始值為1,即為隨機(jī)采用的步長。在一開始,這個速率應(yīng)該處于最大值,因?yàn)椴恢繯-table中任何的值。這意味著,需要通過隨機(jī)選擇動作進(jìn)行大量的探索,生成一個隨機(jī)數(shù)。如果這個數(shù)大于epsilon,將會進(jìn)行獎懲值的對應(yīng)選擇賦值。否則,將繼續(xù)進(jìn)行探索。

        步驟4-5:評價采用動作a,并且觀察輸出的狀態(tài)s′和獎勵r,然后更新函數(shù)Q(s,a)。采用在步驟3中選擇的動作a,執(zhí)行這個動作會返回一個新的狀態(tài)s′和獎勵r,接著使用Bellman方程去更新Q(s,a),有

        NewQ(s,a)=Q(s,a)+α[R(s,a)+

        γmaxQ′(s′,a′)-Q(s,a)]

        (1)

        智能體利用上述的算法從經(jīng)驗(yàn)中學(xué)習(xí),每一次經(jīng)歷等價于一次訓(xùn)練。在每一次訓(xùn)練中,智能體對環(huán)境進(jìn)行探索(用獎懲矩陣R表示),并且其一旦到達(dá)抓取狀態(tài),就得到獎勵值。訓(xùn)練的目的是增強(qiáng)智能體的大腦,用矩陣Q表示。越多的訓(xùn)練結(jié)果將得到更優(yōu)的矩陣Q。在這種情況下,如果矩陣Q就被增強(qiáng),那么智能體就不會四處盲目地探索,而是會找到最快的路線到達(dá)目標(biāo)狀態(tài)。

        如果智能體通過多次的經(jīng)歷學(xué)到了更多的知識,Q矩陣中的值會達(dá)到收斂狀態(tài)。一旦矩陣Q接近于收斂狀態(tài),就知道智能體已經(jīng)學(xué)習(xí)到了到達(dá)目標(biāo)狀態(tài),最終會形成一個新的獎懲矩陣。為了更加形象地描述該抓取動作是在逐漸收斂的狀態(tài),分別取訓(xùn)練20次、30次、40次、50次時的獎懲矩陣,如圖11所示(0-7對應(yīng)八種不同動作,a、b、c、d依次對應(yīng)抓取失敗、抓取成功1、抓取成功2、抓取成功3),訓(xùn)練收斂以及準(zhǔn)確率如圖12所示。

        圖11 最終Q獎懲矩陣Fig.11 Q reward and punishment matrix

        圖12 強(qiáng)化學(xué)習(xí)訓(xùn)練收斂以及準(zhǔn)確率Fig.12 Reinforcement learning and training convergence and accuracy

        4 試驗(yàn)結(jié)果與分析

        通過Q獎懲矩陣我們可以得出,當(dāng)IPMC面對不同樣本時,可以選擇最優(yōu)的動作進(jìn)行執(zhí)行,從而完成一系列的學(xué)習(xí)過程。結(jié)合圖9的功率值來進(jìn)行獎懲值的賦值迭代,借助最終Q獎懲矩陣,可以選擇相對動作的最優(yōu)解。當(dāng)環(huán)境改變時也可以借助該算法進(jìn)行學(xué)習(xí),從而獲得最優(yōu)解。雖然環(huán)境改變了,但學(xué)習(xí)的方法是不變的,同樣可以利用該訓(xùn)練迭代方式進(jìn)行得到最終的Q獎懲矩陣,不同的環(huán)境所對應(yīng)的最終Q獎懲矩陣是不同的,從而進(jìn)行相應(yīng)的最優(yōu)解的選擇,可進(jìn)行以下試驗(yàn)進(jìn)行試驗(yàn)驗(yàn)證。

        當(dāng)隨機(jī)選擇抓取對象為塑料杯時,根據(jù)最終Q獎懲矩陣,應(yīng)當(dāng)選取電流為3.0 V、指數(shù)為三指的動作執(zhí)行,試驗(yàn)效果如圖13所示。

        圖13 抓取塑料杯試驗(yàn)成功Fig.13 Successful grip of the plastic cup

        當(dāng)抓取對象為陌生物體時,需要進(jìn)行數(shù)據(jù)采集,根據(jù)已有的數(shù)據(jù)進(jìn)行訓(xùn)練。當(dāng)抓取對象為不規(guī)則陌生物體時,通過不斷地嘗試試驗(yàn)以及強(qiáng)化學(xué)習(xí)算法的迭代計算,借助最終Q矩陣可以得出,應(yīng)當(dāng)選取電流為3.5 V、指數(shù)為三指的動作執(zhí)行,試驗(yàn)效果如圖14所示。

        圖14 抓取不規(guī)則體試驗(yàn)成功Fig.14 Successful grip of the irregular body

        在上述試驗(yàn)及算法驗(yàn)證過程中,發(fā)現(xiàn)通過強(qiáng)化學(xué)習(xí)算法迭代出來的結(jié)果,有時并不是試驗(yàn)得到的最優(yōu)解,但是可以看到,在動作2以及動作6所對應(yīng)的狀態(tài)是相似的,結(jié)果都是可以抓取的,同時在最終的Q獎懲矩陣中,每個動作對應(yīng)的獎勵值范圍沒有發(fā)生錯誤,因此在環(huán)境局限因素的影響下,該結(jié)果依然在誤差允許的范圍內(nèi)。

        綜上,建立基于IPMC功能材料的多自由度軟體機(jī)構(gòu),解決制約在軌抓捕技術(shù)發(fā)展的難題,實(shí)現(xiàn)空間抓捕過程的智能化,推動空間抓捕技術(shù)的跨越式發(fā)展。通過試驗(yàn)證明,最終學(xué)習(xí)結(jié)果是成功且有效的。當(dāng)面對抓取物體為已有訓(xùn)練樣本中的物體時,可以結(jié)合表1來進(jìn)行動作選擇;當(dāng)面對陌生樣本物體時,借鑒已有的小樣本訓(xùn)練結(jié)果,再結(jié)合表2以及圖9進(jìn)行綜合選擇和獎懲值賦值,采用小樣本強(qiáng)化學(xué)習(xí)的結(jié)論對大樣本來進(jìn)行訓(xùn)練研究,首先隨機(jī)選擇動作來執(zhí)行,針對執(zhí)行動作獲得的功率結(jié)果,將該結(jié)果依據(jù)小樣本初始矩陣進(jìn)行重新獎懲值賦值,然后在反復(fù)迭代的同時,在訓(xùn)練過程中改變訓(xùn)練次數(shù)(10,20,30),直至收斂,得到新的獎懲矩陣,依據(jù)訓(xùn)練得到的最終Q獎懲矩陣,找出最優(yōu)的抓取動作。通過初步嘗試,可以高效實(shí)現(xiàn)對有限樣本數(shù)據(jù)的訓(xùn)練以及學(xué)習(xí)。當(dāng)以后面對大量樣本學(xué)習(xí)的時候可以進(jìn)行下一步的改進(jìn),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對數(shù)據(jù)樣本的處理與分析,可彌補(bǔ)Q-Learning本身存在的數(shù)據(jù)存儲量少、空間不足的特點(diǎn),同時也可將reward值以及action進(jìn)行細(xì)分,從而使得結(jié)果更加精確且有效,同時,當(dāng)機(jī)構(gòu)變化參數(shù)更多的時候更加適合該強(qiáng)化學(xué)習(xí)模型,可變參數(shù)越多也意味著得到的結(jié)果更加復(fù)雜以及精確度會更高。卷積神經(jīng)網(wǎng)絡(luò)本身的優(yōu)勢就是可以對大量高維樣本進(jìn)行訓(xùn)練,從而起到節(jié)省空間的作用,與強(qiáng)化學(xué)習(xí)的結(jié)合,可實(shí)現(xiàn)對更加復(fù)雜環(huán)境以及大量樣本數(shù)據(jù)的訓(xùn)練以及學(xué)習(xí)。

        猜你喜歡
        獎懲賦值物體
        關(guān)于1 1/2 … 1/n的一類初等對稱函數(shù)的2-adic賦值
        L-代數(shù)上的賦值
        基于模糊馬爾可夫鏈的獎懲系統(tǒng)*
        深刻理解物體的平衡
        我們是怎樣看到物體的
        強(qiáng)賦值幺半群上的加權(quán)Mealy機(jī)與加權(quán)Moore機(jī)的關(guān)系*
        論如何正確對待高校學(xué)生獎懲工作
        長江叢刊(2017年10期)2017-11-24 21:42:52
        我國納稅信用體系建設(shè)研究
        利用賦值法解決抽象函數(shù)相關(guān)問題オ
        獎懲
        无遮挡18禁啪啪羞羞漫画| 精品亚洲不卡一区二区| 97久久精品人人妻人人| 国产精品综合日韩精品第一页| 无码天堂在线视频| 亚洲中文字幕免费精品| 蜜桃传媒免费在线播放| 正在播放国产多p交换视频 | 丁香五月缴情综合网| 久久夜色精品国产亚洲噜噜| 97女厕偷拍一区二区三区| 国产情侣一区二区| 亚洲国产成人精品无码区二本| 久久久国产精品麻豆| 国产精品,在线点播影院| 午夜少妇高潮在线观看视频| 蜜臀亚洲av无码精品国产午夜.| 午夜福利视频合集1000| 欧美日韩激情在线一区二区| 蜜桃在线视频一区二区| 免费不卡无码av在线观看| 激情综合色五月丁香六月亚洲 | 国产成人久久精品激情| 无码片久久久天堂中文字幕| 日韩av综合色区人妻| 久久久精品人妻一区二区三区四区| 欧美成人免费全部| 伊人22综合| 亚洲成人黄色av在线观看| 久久天堂精品一区二区三区四区 | 自拍偷自拍亚洲精品播放| 久久久久久人妻一区二区无码Av| 久久久国产精品黄毛片| 人妻丰满熟妇无码区免费| 精品国产a∨无码一区二区三区| 国内自拍第一区二区三区| 国产一区二区三区在线观看第八页| 国产女人高潮叫床视频| 国产午夜福利精品| 国产一区二区三区免费小视频| 韩国av一区二区三区不卡|