亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度增強學習的智能體行為演進研究綜述

        2017-10-16 23:37:01郭憲
        中國新通信 2017年17期
        關鍵詞:訓練策略人工智能

        郭憲

        【摘要】 智能體行為演進技術是人工智能方面一個新興且具有潛力的領域。隨著AlphaGo勝利,基于深度增強學習的智能體行為演進技術被大量應用。首先介紹深度增強學習的基本概念及原理,然后介紹當前主流的智能體訓練策略,著重分析單智能體提升以及多智能體協(xié)作問題的解決方法并對其優(yōu)缺點進行全面的闡述,最后在深入分析多智能體協(xié)作技術目前存在的問題的基礎上,對未來發(fā)展趨勢進行展望。

        【關鍵詞】 智能體 行為演進 人工智能 深度增強學習 訓練策略

        Overview of agent behaviors evolution based on deep reinforcement learning GUO Xian (School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044)

        Abstract: agent behaviors evolution technology is a new and emerging field for artificial intelligence. With the victory of AlphaGo, agent behaviors evolution technology based on deep reinforcement learning has been widely used. Firstly, concepts and principles of deep reinforcement learning were introduced, then the current mainstream training strategies of multi-agent were discussed. This paper analyzed the solution to multi-agent cooperation problem and made an overview about their advantages and disadvantages.Finally, the direction of future work was proposed based on in-depth study of current multi-agent collaboration technology researches.

        Key words: multiagent;artificial intelligence; deep reinforcement learning; training strategy; collaborative technology

        引言

        目前,單智能體的研究已取得了重大的進展,包括下圍棋的AlphaGo[1]、打德州撲克的Libratus[2]以及用于醫(yī)療診斷的Watson[3]。但是,智能的提升一方面來自個體,另一方面群體交流、協(xié)作也是提升智能水平的重要手段;尤其針對人類不擅長的復雜問題,多智能體協(xié)作、共同決策可能是個有效途徑[4],在電商、游戲、醫(yī)療健康等領域都有廣泛應用前景。

        如何訓練機器人進行相互協(xié)作,在對信息進行高效整合利用的同時,對敵對方機器人做出打擊和摧毀。在訓練中,期望讓機器人根據(jù)對抗訓練的動態(tài)反饋,自我生成出一套應對的智能體戰(zhàn)術,配合彼此,完成戰(zhàn)役設想。

        一、深度增強學習

        1.1增強學習的基本理念架構

        目前,解決智能體行為演進的基本思路是把這一問題作為一個增強學習[5]問題來解決。不同于分類學習根據(jù)類別結果評價智能體表現(xiàn),增強學習利用狀態(tài)下的環(huán)境反饋來改善自己的行為。一個增強學習問題,一般可以被抽象為:在環(huán)境狀態(tài)s下尋求合理行為a,利用環(huán)境反饋r來做出修正。這里,狀態(tài)s是指隨著行動發(fā)生,個體與相關區(qū)域所處的狀態(tài)(state);行為a是指在環(huán)境狀態(tài)s下,智能體所做出的對應行為(action);反饋r是指智能體在環(huán)境s中做出行為a的評價激勵(reward)。在增強學習問題中,智能體可以通過行為a來改變環(huán)境狀態(tài)s;提升手段利用評價反饋r來改變行為a;行為a和狀態(tài)s聯(lián)合起來,決定對應的反饋值r[6]。

        二、智能體訓練策略

        基于環(huán)境反饋信息自主形成應對策略,一直是智能體研究領域里的核心話題。在過去的一段時間中,計算能力不足和提升策略的限制使得這一領域一直缺乏根本性的進展。近年來,由于摩爾定律以及深度神經網(wǎng)絡方法的應用[9-11],硬件性能和提升算法有了長足的進步。隨著神經網(wǎng)絡在增強學習任務中投入應用,業(yè)界不斷發(fā)展出來一系列相對成熟的智能體訓練策略。

        2.1單智能體訓練策略

        到目前為止,滿足實踐檢驗的單智能體策略演進機理,可分為DQN (Deep Q Network, 深度Q值網(wǎng)絡) [12]和DDPG(Deep Deterministic Policy Gradient,深度決定策略梯度)[13]兩類。為了加速神經網(wǎng)絡收斂速度,兩者采用了逐步優(yōu)化的TD(Time Difference,時間差)方法[14-16]取代了整體優(yōu)化的MC(Monte-Carlo,蒙特卡洛)方法[17-18]。

        DQN使用Q值網(wǎng)絡對步驟行為的逐步長期回報進行預計,在有限離散的行動策略中選取長期回報最大的一個選項;DDPG則在DQN的基礎上更進一步,使用Actor-Critic(行動-評價)[19-20]的雙網(wǎng)絡架構對智能體行動策略進行優(yōu)化:使用值網(wǎng)絡生成連續(xù)行動,使得策略總體長期回報J最大;再使用Q值網(wǎng)絡對逐步長期回報進行實時評價,以輔助對總體長期回報J的更新優(yōu)化。DQN與DDPG方法作為單智能體行動策略的基本訓練方法,已經在多種機器人的行為訓練如機器臂取物[21]、機器腿行走[22]中起到了顯著的效果。DQN由于原理限制,能夠處理活動速度固定的少數(shù)離散自由度的訓練問題;而DDPG由于原理上的優(yōu)勢,能夠進一步處理活動速度變化的大量連續(xù)自由度的訓練問題。目前,業(yè)內很多智能個體的訓練方法正在從人為給定行為策略轉變?yōu)楦鶕?jù)反饋自動生成的DQN乃至DDPG方法。因此,應用DQN和 DDPG的自動訓練方法替代人為給定方法,解決多智能體問題,被認為有更大的前景和空間。

        2.2多智能體訓練策略

        智能單體策略訓練的進展,使得關于智能群體協(xié)作訓練的探討,變得日益重要。同時,現(xiàn)實中的大量零和博弈[23-24]使得團體間的對抗十分常見。由此,多智能體的協(xié)作問題[25]應運而生。

        相對于以往的單體環(huán)境問題,這里探討的多智能體協(xié)作具有更高的復雜度:一方面在于智能團體協(xié)同對抗相對于智能單體任務,不但要考慮環(huán)境因素,還要考慮到己方、敵方、中立方的行動和意圖;另一方面在于考慮個體行動策略的以外,智能團體間的神經元網(wǎng)絡聯(lián)結模式[26]也應納入考慮。

        現(xiàn)有的多智能體協(xié)作方法,大都是2016之后提出的。CommNet(Communication Neural Net,交流神經網(wǎng))[27]默認智能體一定范圍內的全聯(lián)結,對多個同類的智能體采用了同一個網(wǎng)絡,用當前態(tài)(隱態(tài))和交流信息得出下一時刻的狀態(tài),信息交流從利用隱態(tài)的均值得出。其優(yōu)點能夠根據(jù)現(xiàn)實位置變化對智能體聯(lián)結結構做出自主規(guī)劃,而缺點在于信息采用均值過于籠統(tǒng),不能夠處理多個種類的智能體。除此以外,RIAL(Reinforced Inter-agent Learning,增強智能體間學習)[28]和DIAL(Differentiable Inter-agent Learning,差異智能體間學習)[29]個體行為中采取了類DQN的解決方式,在智能體間進行單向信息交流,采用了單向環(huán)整體架構[30]兩者的區(qū)別在于RIAL向一個智能體傳遞的是Q網(wǎng)絡結果中的極大值,DIAL則傳遞的是Q網(wǎng)絡的所有結果。在實驗中,兩者均可以解決多種類協(xié)同的現(xiàn)實問題,且DIAL表現(xiàn)出了很好的抗信號干擾能力。但是,在處理非靜態(tài)環(huán)境的快速反應問題上,RIAL與DIAL的表現(xiàn)仍舊不足。借鑒之前CommNet和DIAL的研究,阿里巴巴團隊為了解決多智能體的協(xié)作問題,提出了使用BiCNet(Bidirectionally - Coordinated Nets,雙向協(xié)作網(wǎng)絡)[31]決多智能體協(xié)作的方法。相較于之前的研究,BiCNet在個體行為上采取了DDPG取代DQN作為提升方法,在群體連接中采用了雙向循環(huán)網(wǎng)絡取代單向網(wǎng)絡進行聯(lián)結。這一方法在DIAL的基礎上利用了雙向信息傳遞取代單向信息傳遞,在多種類協(xié)同的基礎上一定程度上解決了快速反應的問題。然而,BiCNet的組織架構思想仍舊沒有擺脫鏈狀拓撲或者環(huán)狀拓撲結構,且不具有動態(tài)規(guī)劃能力,在現(xiàn)實實踐中會有很大問題。在相互摧毀的真實戰(zhàn)術背景下,不具有動態(tài)規(guī)劃能力的網(wǎng)絡中一點的破壞會導致所有經過該點的所有信息交流徹底終止。在無恢復的前提下,鏈狀拓撲和環(huán)狀拓撲對于網(wǎng)絡中的每一端點過分依賴,導致少量幾點的破壞會對智能體交流網(wǎng)絡造成毀滅性影響,團體被徹底拆分失去交流協(xié)同能力。

        三、單智能體策略提升的基本方法

        3.1深度Q值網(wǎng)絡DQN

        3.1.1 DQN的基本方法

        在策略的生成中,由于DDPG的神經網(wǎng)絡能夠自主產生解,取代了在DQN的已知枚舉結果中選擇最大的值,DDPG彌補了DQN只能選擇有限離散行動的不足,能夠解決連續(xù)策略生成的訓練提升問題。在處理對象自由度提升時,所要做的僅僅是線性加寬μ和Q網(wǎng)絡的輸入層,而不是指數(shù)性地增加Q網(wǎng)絡輸入層中的行動對應項。在處理多復雜度問題[32]和連續(xù)行動策略的表現(xiàn)上,DDPG相較于DQN有著顯著的優(yōu)勢。

        DQN和DDPG中的Q網(wǎng)絡,因為離散枚舉和連續(xù)求解的區(qū)別,在形式上稍有不同,但兩種表述等價。DQN采用的是枚舉多個Q值,輸入層的是狀態(tài) ,輸出層是所有行動 對應的多個Q值 。DDPG的輸入層是狀態(tài) 和行動 ,輸出層是一個Q值 。兩者的區(qū)別僅僅是前者未定行動但能有限枚舉,后者行動既定允許連續(xù)變化。在其他方面,例如Bellman公式終止環(huán)節(jié)的處理以及神經網(wǎng)絡反向傳播的方法,DQN和DDPG并不存在本質上的差異。

        四、多智能體協(xié)同問題的解決方法

        受到單智能體策略演進方法的啟發(fā),當前較先進的多智能體協(xié)同問題多采用DQN[12]或者DDPG[13]作為個體行動策略,在此基礎上進行個體間神經網(wǎng)絡的設計與規(guī)劃。在多智能體協(xié)作問題的研究中[33],相對主流的實現(xiàn)方法是2016年提出的CommNet[27]和DIAL(RIAL)[28],基于二者發(fā)展出的最新方法是2017年提出的BiCNet[31]。

        4.1交流神經網(wǎng)CommNet

        4.1.1CommNet技術原理

        CommNet(Communication Neural Net,交流神經網(wǎng))是最早提出的一類多體問題解決方案,不同于為每一個個體分配一個不同的神經網(wǎng)絡來進行決策,CommNet利用同一個網(wǎng)絡解決所有個體的行動。在網(wǎng)絡中的每一層中,CommNet進行了一次信息的范圍交互。而且每一層之間的輸入和輸出可以形成迭代關系[34]。

        然而其缺點是只能處理同種智能體。CommNet在交流公式遞推中采取了平均值的形式,假設了所有智能體的權重相同。這其實意味著,CommNet描述的問題默認了智能體的一致性[35]。

        4.2差異(增強)智能體間學習

        4.2.1 DIAL(RIAL)的基本方法

        RIAL(Reinforced Inter-agent Learning,增強智能體間學習)和DIAL(Differentiable Inter-agent Learning,差異智能體間學習)是單智能體策略演進方法DQN在多體問題上擴展。就具體進步而言,RIAL和DIAL在智能個體的DQN步驟間構建了網(wǎng)絡聯(lián)結,使得智能體的DQN評價Q和行動a對應的最大Q做到了信息的單向共享。

        RIAL和DIAL的思路是,將第i智能體中的步驟結果,輸出到i+1智能體的原始數(shù)據(jù)中,作為和si+1相同作用的一部分。DIAL將第i智能體諸多{Qk}作為信息進行傳遞,RIAL僅僅將行動對應最大值maxQk進行傳遞。

        4.2.2 DIAL(RIAL)的優(yōu)劣

        在實際的表現(xiàn)中,DIAL表現(xiàn)出了優(yōu)于RIAL的性質,這一方面是因為傳遞的信息更多,另一方面是因為Q網(wǎng)絡的全部結果體現(xiàn)了行動的全部可能性,勝過某一個結果所內含的可能性。DIAL相對RIAL在智能體間的信號傳遞過程中表現(xiàn)出極好的噪聲容忍性,對于傳遞信號添加的適當噪聲,仍然能保證訓練的正常進行[36-37]。

        不過,DIAL(RIAL)在通信架構上實際上采取了單向環(huán)狀的通信架構,而且動態(tài)規(guī)劃能力不足。總言之,DIAL解決了多種智能體協(xié)作的問題,但是在處理快速變化環(huán)境上的表現(xiàn)不佳。另外,聯(lián)結結構僵化脆弱,無法處理動態(tài)強的問題,無法耐受網(wǎng)絡架構上的破壞,也是DIAL不足之處。

        4.3雙向協(xié)作網(wǎng)絡BiCNet

        4.3.1BiCNet的基本方法

        BiCNet(Bidirectionally-Coordinated Nets, 雙向協(xié)作網(wǎng)絡),是迄今為止實現(xiàn)方法最為先進的多智能體協(xié)同方法,結合了 CommNet和DIAL的優(yōu)點,在能夠處理多種類智能體協(xié)作問題的同時,在快速變化問題的表現(xiàn)上有了提高。

        BiCNet以雙向循環(huán)網(wǎng)絡(Bi-Directional RNN)[38]作為智能體間的聯(lián)結方式,這樣做一方面是為了在智能體間信息交互,另一方面是為了產生局域記憶。在智能個體的行動策略上,BiCNet采用DDPG作為智能體的個體策略。這也就意味著BiCNet實際上使用了兩個網(wǎng)絡來處理多智能體訓練問題,μ網(wǎng)絡形成行動策略[39Q網(wǎng)絡評價行動??傮w來看,BiCNet的μ網(wǎng)絡,在作用上等于DDPGμ網(wǎng)絡形成策略、雙向RNN進行交流、智能體局域關聯(lián)進行組織三者的有機組合。

        4.3.2 BiCNet的優(yōu)劣

        BiCNet的改進之處在于使用了雙向循環(huán)網(wǎng)絡代替了單向網(wǎng)絡,使得信息可以進行雙向的交流。這樣使得智能體的信息交流速度變快,處理動態(tài)問題表現(xiàn)更好。同時,BiCNet采用了DDPG而非DQN作為智能體個體策略,一方面能夠處理連續(xù)策略問題,一方面復雜度有所降低。另外,又因為其本身并沒有做出一些特別的智能體假設限制,使得其對于多種類智能體有處理能力。

        五、結束語

        現(xiàn)有多智能體協(xié)作方法大多具有的結構脆弱以及組織僵化的弱點[40在網(wǎng)絡中,信息傳遞只能按照固有的智能體編號進行傳遞:以1,2,…,i,…,I,1,…的順序往復循環(huán)。當智能體數(shù)量增大時,一次信息遍歷需要歷經比較長的時間,在這段時間內智能體狀態(tài)一旦大幅改變,會造成網(wǎng)絡失去實時性,進而失效無法有效訓練多智能體。這一問題是單向環(huán)狀通信導致的,i+1對i的通信需要多種連接繞環(huán)一周,影響傳遞的速度可以想見是非常慢的。另外,如果環(huán)狀網(wǎng)絡上的某點出現(xiàn)問題,通信序列在后的智能體將永遠無法將信息傳給通信在前的智能體,智能體的交流徹底失效。

        因此,在智能體連接的信息交換方面,信息交換網(wǎng)絡的端點和內容,有很大的探討的空間。就具體而言,可以在BiCNet的DDPG方法基礎上,嘗試仿照DIAL(RIAL)中對DQN網(wǎng)絡做出的調整,為智能體內部的 網(wǎng)絡和Q網(wǎng)絡,提供更多種類的交互信息,找尋對應信息的提取源頭和最佳的輸出點。

        綜上所述,為多智能體協(xié)作提供一種能夠耐受打擊破壞的有效聯(lián)結架構,并且為之提供一種動態(tài)組織方式。使多智能體架構能夠在高破壞烈度的戰(zhàn)場環(huán)境中保證有效運轉并具有自我恢復、調配和規(guī)劃能力,是未來多智能體協(xié)作技術的研究重點。

        參 考 文 獻

        [1]田淵棟. 阿法狗圍棋系統(tǒng)的簡要分析[J]. 自動化學報,2016,42(5):671-675.

        [2] Matej Morav?ík,Martin Schmid,,Neil Burch,et al. DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker[J]. Science,2017,356 (6337):508

        [3]Murthy Devarakonda, Ching-Huei Tsou. Automated Problem List Generation from Electronic Medical Records in IBM Watson[C]. Proceedings of the 27th Conference on Innovative Applications of Artificial Intelligence. 2015: 3942-3947.

        [4] Burt Wilsker. A Study of Multi-Agent Collaboration Theories [R]. Information Science Institute,Research Report. 1996

        [5] L. Busoniu, R. Babuska, B. De Schutter. A comprehensive survey of multiagent reinforcement learning[J]. IEEE Transactions on Systems Man & Cybernetics Part C,2008,38(2):156-172.

        [6] 劉佳,陳增強,劉忠信. 多智能體系統(tǒng)及其協(xié)同控制研究進展[J]. 智能系統(tǒng)學報,2010, 5(1):1-9.

        [7]Christopher JCH Watkins,Peter Dayan. Q-learning[J]. Machine learning,1992,8(3-4):279-292,

        [8]Hu J L, Wellman M P. Nash. Q-learning for general-sum stochastic games[J]. Journal of Machine Learning Research,2004,4(6):1039-1069.

        [9]郭麗麗,丁世飛. 深度學習研究進展[J]. 計算機科學. 2015,42(5):28-33.

        [10] C. J. Maddison, A. Huang, I. Sutskever, et al. Move evaluation in go using deep convolutional neural networks[C]. ICLR. 2015.

        [11]A. Tampuu, T. Matiisen, D. Kodelja, et al. Multiagent cooperation and competition with deep reinforcement learning[J]. Plos One,2017,12(4):e0172395.

        [12]V. Mnih, K. Kavukcuoglu, D. Silver, et al. Playing Atari with deep reinforcement learning[C]. In Deep Learning, Neural Information Processing Systems Workshop. 2013.

        [13] TP. Lillicrap,JJ. Hunt, A. Pritzel. Continuous control with deep reinforcement learning[C]. ICLR. 2016

        [14]Jordan B. Pollack,Alan D. Blair. Why did td-gammon work[C]. International Conference on Neural Information Processing Systems. 1996,10-16.[15]Gerald Tesauro. Temporal difference learning and td-gammon[J]. Communications of the ACM,1995,38(3):58-68.

        [16] J. Schmidhuber. Deep learning in neural networks: An overview[J]. Neural Networks,2014,61-85.

        [17]L. Kocsis,C. Szepesvari. Bandit based Monte-Carlo planning[C]. European Conference on Machine Learning,2006:282-293.

        [18] X. Guo, S. Singh, H. Lee. Deep learning for real-time atari game play using offline monte-carlo tree search planning[C]. NIPS. 2014

        [19]Xin Xu, Chunming Liu, Dewen Hu. Continuous-action reinforcement learning with fast policy search and adaptive basis function selection[J]. Soft Computing - A Fusion of Foundations, Methodologies and Applications,2011,15(6):1055-1070.

        [20]陳興國, 高陽, 范順國. 基于核方法的連續(xù)動作Actor-Critic學習[J]. 模式識別與人工智能, 2017,27(2):103-110.

        [21]祁若龍,周維佳,王鐵軍. 一種基于遺傳算法的空間機械臂避障軌跡規(guī)劃方法[J]. 機器人, 2014 , 36 (3) :263-270.

        [22]任陳俊. 基于機器視覺的場景目標檢測與分類研究[D]. 杭州:杭州電子科技大學,2016.

        [23]黎萍,楊宜民. 基于博弈論的多機器人系統(tǒng)任務分配算法[J]. 計算機應用研究,2013,30(2):392-395.

        [24]葉曄,岑豫皖,謝能剛. 基于博弈論的多移動機器人聚集任務路徑規(guī)劃[J]. 計算機工程與應用, 2009,45(06):216-218.

        [25]段勇,徐心和. 基于多智能體強化學習的多機器人協(xié)作策略研究[J]. 系統(tǒng)工程理論與實踐,2014,34(5):1305-1310.

        [26]D. Maravall, J. De Lope, R. Domnguez. Coordination of communication in robot teams by reinforcement learning[J]. Robotics and Autonomous Systems,2013,61(7):661-666.

        [27] S. Sukhbaatar, A. Szlam, R. Fergus. Learning Multiagent Communication with Backpropagation[C]. NIPS. 2016

        [28]JN Foerster , YM Assael , ND Freitas. Learning to Communicate with Deep Multi-Agent Reinforcement Learning[C]. NIPS. 2016

        [29]S. Ioffe,C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]. ICML,2015:448-456.

        [30] F. S. Melo, M. Spaan, S. J. Witwicki. QueryPOMDP: POMDP-based communication in multiagent systems[C]. European Conference on Multi-agent Systems,2011,7541 :189-204.

        [31] Peng Pengy, Quan Yuany, YingWen.Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games[EB/OL].https://arxiv. org/abs/1703.10069,2017-03-29.

        [32] Angeliki Lazaridou, Alexander Peysakhovich, Marco Baroni. Multi-agent cooperation and the emergence of (natural) language[EB/OL].https://arxiv. org/abs/1612.07182,2017-03-05.

        [33] Caroline Claus,Craig Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems[C]. AAAI/IAAI, 1998:746-752.

        [34]Y. Li, D. Tarlow, M. Brockschmidt, et al. Gated graph sequence neural networks. ICLR, 2015

        [35]袁坤. 多智能體網(wǎng)絡一致性問題的分布式算法研究[D]. 合肥:中國科學技術大學,2014.

        [36]M. Courbariaux,Y. Bengio. BinaryNet: Training deep neural networks with weights and activations constrained to +1 or -1[EB/OL]. https://arxiv.org/ abs/1602.02830,2016-03-17.

        [37] G. Hinton,R. Salakhutdinov.Discovering binary codes for documents by learning deep generative models[J]. Topics in Cognitive Science,2011,3(1):74-91.

        [38]Mike Schuster,Kuldip K Paliwal.Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

        [39]Nicolas Usunier, Gabriel Synnaeve,Zeming Lin, et al. Episodic exploration for deep deterministic policies: An application to starcraft micromanagement tasks[EB/OL].https://arxiv.org/abs/1609.02993,2016-11-26.

        [40] Long-Ji Lin. Reinforcement learning for robots using neural networks[R]. Technical report, DTIC Document, 1993.

        猜你喜歡
        訓練策略人工智能
        我校新增“人工智能”本科專業(yè)
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        IT經理世界(2018年20期)2018-10-24 02:38:24
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        核心力量在短跑運動中的作用及其訓練策略
        淺議初中英語聽力障礙及訓練策略
        農村初中英語教學中聽力訓練的加強措施
        下一幕,人工智能!
        南風窗(2016年19期)2016-09-21 16:51:29
        下一幕,人工智能!
        南風窗(2016年19期)2016-09-21 04:56:22
        高職選修課《演講與口才》訓練策略與原則探析
        考試周刊(2016年45期)2016-06-24 19:27:20
        av网站影片在线观看| 丰满少妇被粗大的猛烈进出视频| 国产成人无码免费视频在线| 精品无码一区二区三区爱欲九九| 欧美1区二区三区公司| 日本伦理视频一区二区| 亚洲中文字幕久久在线| 大学生粉嫩无套流白浆| 久久99精品国产99久久6尤物| 中文字幕一区二区三区在线不卡| 日本红怡院东京热加勒比| 日本视频一区二区三区观看| av无码电影一区二区三区| 久久99热久久99精品| 欧美激情中文字幕在线一区二区| 成人短篇在线视频夫妻刺激自拍 | 国产一区二区三区在线蜜桃| 亚洲精品成人网站在线播放| 亚洲av无码国产剧情| 九九99久久精品在免费线97| 国产久久久自拍视频在线观看 | 精品福利一区二区三区免费视频| 色多多a级毛片免费看| 精品国产亚洲一区二区三区演员表| 亚洲一区二区三区美女av| 91精品国产综合久久久密臀九色| 乱中年女人伦av一区二区| 亚洲av第一成肉网| 妇女自拍偷自拍亚洲精品| 久久国产精品一区av瑜伽| 亚洲国产一区二区三区在线观看| 精品久久久久久中文字幕大豆网| 极品av在线播放| 东京热加勒比视频一区| 蜜臀av色欲a片无码精品一区| 久久无码av三级| 亚洲精品中文字幕乱码二区| 在线观看视频免费播放| 亚洲精品国产精品国自产| 激情偷乱人伦小说视频在线| 中文字幕精品一区二区日本|