亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)電力巡檢任務(wù)規(guī)劃

        2022-02-12 02:49:08歐陽(yáng)權(quán)吳兆香叢玉華王志勝
        關(guān)鍵詞:動(dòng)作智能

        馬 瑞,歐陽(yáng)權(quán),吳兆香,叢玉華,王志勝

        (1.南京航空航天大學(xué)自動(dòng)化學(xué)院,江蘇 南京 211106; 2.南京理工大學(xué)紫金學(xué)院計(jì)算機(jī)學(xué)院,江蘇 南京 210023)

        0 引 言

        由于大規(guī)模電網(wǎng)的空間距離較遠(yuǎn),人工巡檢效率低下,因此很多電力企業(yè)開始使用無(wú)人機(jī)對(duì)電力系統(tǒng)進(jìn)行巡檢[1]。無(wú)人機(jī)憑借其成本低、靈活性高、操控性強(qiáng)等特點(diǎn),在電力巡檢任務(wù)中發(fā)揮了重要的作用[2]。在應(yīng)對(duì)大范圍電力系統(tǒng)巡檢任務(wù)時(shí),由于電塔與電力設(shè)施數(shù)量較多,結(jié)構(gòu)復(fù)雜,設(shè)施之間距離較遠(yuǎn),會(huì)采用多無(wú)人機(jī)同時(shí)進(jìn)行巡檢[3]。多架無(wú)人機(jī)協(xié)作可以為重要電力設(shè)施帶來(lái)多角度、全方位的觀測(cè)信息,也可以分別對(duì)不同的電力設(shè)施進(jìn)行巡視,提高巡檢任務(wù)的效率。因而針對(duì)多無(wú)人機(jī)、多目標(biāo)的任務(wù)場(chǎng)景,無(wú)人機(jī)的任務(wù)規(guī)劃是研究的重點(diǎn)[4-6]。

        目前多無(wú)人機(jī)任務(wù)規(guī)劃的方法可分為傳統(tǒng)方法[7-9]和人工智能[10]方法。傳統(tǒng)算法是在已有的任務(wù)模型基礎(chǔ)上,將任務(wù)規(guī)劃轉(zhuǎn)化為一個(gè)多目標(biāo)優(yōu)化問題,進(jìn)而利用智能優(yōu)化算法或隨機(jī)優(yōu)化算法如蟻群算法[11]、遺傳算法[12-15]、啟發(fā)式算法[16]等對(duì)其進(jìn)行在線的求解計(jì)算,如文獻(xiàn)[17]將多目標(biāo)任務(wù)序列轉(zhuǎn)化為TSP問題并利用遺傳算法求解。文獻(xiàn)[18]利用群算法求解動(dòng)態(tài)任務(wù)分配問題。在面對(duì)多無(wú)人機(jī)多目標(biāo)的優(yōu)化問題時(shí)往往需要耗費(fèi)較大的算力與時(shí)間,滿足不了對(duì)任務(wù)動(dòng)態(tài)實(shí)時(shí)分配的要求。隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)為強(qiáng)化學(xué)習(xí)帶來(lái)了新的生命力。深度強(qiáng)化學(xué)習(xí)算法是在馬爾科夫決策這一框架下,通過(guò)觀測(cè)環(huán)境的狀態(tài)做出自身的動(dòng)作決策,并反作用于環(huán)境以達(dá)到最高累計(jì)回報(bào)的智能算法[19]。深度網(wǎng)絡(luò)的引入提高了強(qiáng)化學(xué)習(xí)對(duì)于不同狀態(tài)信息的解析與記憶學(xué)習(xí)能力,使得其在面對(duì)多目標(biāo)任務(wù)規(guī)劃問題時(shí)展現(xiàn)了較為優(yōu)秀的實(shí)時(shí)決策能力,減少了優(yōu)化計(jì)算的過(guò)程[20]。

        由于單智能體強(qiáng)化學(xué)習(xí)算法在解決多無(wú)人機(jī)協(xié)同問題時(shí),會(huì)引起動(dòng)作空間的維度爆炸與環(huán)境狀態(tài)的不確定問題,增加了網(wǎng)絡(luò)的收斂難度[21]。而基于值函數(shù)的多智能體強(qiáng)化學(xué)習(xí)算法可以將每個(gè)智能體的動(dòng)作值函數(shù)融合,利用聯(lián)合動(dòng)作值函數(shù)將多智能體的聯(lián)合動(dòng)作價(jià)值表征出來(lái)并指導(dǎo)訓(xùn)練,取得了很好的效果[22]。

        在多無(wú)人機(jī)電力巡檢這一任務(wù)場(chǎng)景下,關(guān)鍵需求是多架無(wú)人機(jī)協(xié)作巡視同一個(gè)電力設(shè)施以達(dá)到多角度巡視的目的,這要求無(wú)人機(jī)在多智能體強(qiáng)化學(xué)習(xí)算法下激發(fā)其協(xié)作完成任務(wù)的能力。因此本文設(shè)計(jì)多智能體強(qiáng)化學(xué)習(xí)算法與協(xié)作任務(wù)獎(jiǎng)賞函數(shù),使得多無(wú)人機(jī)在集中訓(xùn)練后,執(zhí)行任務(wù)時(shí)可以在分布式框架下根據(jù)不同的環(huán)境狀態(tài)與自身觀測(cè)做出協(xié)作完成任務(wù)的動(dòng)作,使任務(wù)完成時(shí)間減少,最大化任務(wù)收益。

        1 問題概述與建模

        1.1 問題概述

        本文基于大范圍電力巡檢的任務(wù)分配場(chǎng)景如圖1所示,大范圍電力巡檢由輸電線路巡查、設(shè)施巡檢這2個(gè)部分組成。多個(gè)無(wú)人機(jī)部署在起點(diǎn)處,區(qū)域內(nèi)隨機(jī)分布多個(gè)電力設(shè)施,多無(wú)人機(jī)通過(guò)任務(wù)規(guī)劃來(lái)對(duì)目標(biāo)進(jìn)行抵近巡視,獲取電力設(shè)施的信息。假設(shè)每個(gè)設(shè)施的任務(wù)復(fù)雜度不同,導(dǎo)致無(wú)人機(jī)巡檢所需時(shí)間也不同。當(dāng)多個(gè)無(wú)人機(jī)同時(shí)對(duì)某個(gè)目標(biāo)進(jìn)行巡檢時(shí),可以實(shí)現(xiàn)多角度的電力設(shè)施巡檢,相較于單一無(wú)人機(jī)巡檢,任務(wù)時(shí)間明顯縮短。

        圖1 多無(wú)人機(jī)大范圍電力巡檢示意圖

        1.2 問題建模

        本任務(wù)是要求在上述任務(wù)場(chǎng)景下,多個(gè)無(wú)人機(jī)從起點(diǎn)出發(fā),盡可能在最短的時(shí)間內(nèi),對(duì)多個(gè)電力設(shè)施進(jìn)行抵近偵察。用TG={TG1,TG2,…,TGN}表示電力目標(biāo)設(shè)施,無(wú)人機(jī)群表示為Drone={Drone1,Drone2,…,DroneM},其中,N表示目標(biāo)個(gè)數(shù),M表示無(wú)人機(jī)個(gè)數(shù)。di表示目標(biāo)TGi的復(fù)雜程度。無(wú)人機(jī)Dronej在t時(shí)刻是否對(duì)目標(biāo)TGi進(jìn)行抵近偵察由xj,i,t表示,xj,i,t∈{0,1},其中,1表示正在巡檢,0表示未巡檢。設(shè)定總體飛行時(shí)間為T個(gè)單位時(shí)間,無(wú)人機(jī)Dronej對(duì)目標(biāo)的巡查速率用τj來(lái)表示。綜上可得約束為:

        (1)

        (2)

        xj,i,t∈{0,1}

        2 基于QMIX的任務(wù)規(guī)劃算法

        本文將任務(wù)環(huán)境抽象概括成一個(gè)部分可觀的馬爾科夫決策過(guò)程,將無(wú)人機(jī)飛向電力目標(biāo)并進(jìn)行信息收集與傳遞的過(guò)程綜合為一個(gè)抽象動(dòng)作,在此基礎(chǔ)上對(duì)該任務(wù)進(jìn)行分析建模,并通過(guò)基于QMIX的多智能體強(qiáng)化學(xué)習(xí)算法來(lái)解決多機(jī)規(guī)劃問題,具體過(guò)程如下。

        2.1 多無(wú)人機(jī)多目標(biāo)場(chǎng)景下的DEC-POMDP模型

        本文建立的分布式部分馬爾可夫決策過(guò)程(DEC-POMDP)模型主要由元組G=〈S,U,P,r,O〉組成。其中多智能體P、環(huán)境狀態(tài)S、智能體觀測(cè)狀態(tài)O、動(dòng)作U以及獎(jiǎng)勵(lì)r等要素闡述如下。

        1)多智能體:多無(wú)人機(jī)可以看做多智能體。在任務(wù)過(guò)程中,每個(gè)無(wú)人機(jī)Dronej將從當(dāng)前環(huán)境總體狀態(tài)st中獲取自身的狀態(tài)觀測(cè)ot,j,按照自身內(nèi)部策略πt,j得到輸出動(dòng)作ut,j,多個(gè)智能體的動(dòng)作結(jié)合形成聯(lián)合動(dòng)作ut,環(huán)境將根據(jù)狀態(tài)轉(zhuǎn)換函數(shù)P(st+1|st,ut)做出對(duì)應(yīng)的環(huán)境狀態(tài)轉(zhuǎn)移,得到下一時(shí)刻狀態(tài)st+1,并且以此循環(huán)往復(fù),直至任務(wù)結(jié)束。

        2)狀態(tài)與觀測(cè):設(shè)定每一時(shí)刻的環(huán)境總體狀態(tài)為st=(ynt,loct),其中ynt為任務(wù)區(qū)域中全部電力設(shè)施的巡檢情況,ynt=(ynt,1,ynt,2,…,ynt,N),ynt,i∈{0,1},0表示未巡檢或正在巡檢,1表示巡檢完畢,loct表示多無(wú)人機(jī)自身位置信息,即loct=(loct,1,loct,2,…,loct,M)。由于是該任務(wù)為部分可觀模型,因此設(shè)定每個(gè)智能體的觀測(cè)量為ot,j=(dynt,j,loct,j),其中dynt,j表示Dronej在t時(shí)刻自身距離X范圍內(nèi)的所有設(shè)施TGi的當(dāng)前巡檢狀態(tài),loct,j為每個(gè)無(wú)人機(jī)自身當(dāng)前時(shí)刻的位置狀態(tài)。

        3)動(dòng)作:將單個(gè)無(wú)人機(jī)巡檢的動(dòng)作過(guò)程集合成一個(gè)抽象動(dòng)作,即將向設(shè)施飛行,對(duì)設(shè)施進(jìn)行抵近巡視、信息采集集合為動(dòng)作ut,TG,將多個(gè)無(wú)人機(jī)的動(dòng)作集合為一個(gè)聯(lián)合動(dòng)作ut,作用于環(huán)境并引起狀態(tài)轉(zhuǎn)移。每一個(gè)動(dòng)作的結(jié)束條件為完成抵近巡視、目標(biāo)信息采集2個(gè)步驟。完成當(dāng)前動(dòng)作后進(jìn)行下一步動(dòng)作決策。

        (3)

        協(xié)作獎(jiǎng)懲指的是相鄰無(wú)人機(jī)協(xié)作巡檢同一電力設(shè)施的獎(jiǎng)賞,即:

        (4)

        路程獎(jiǎng)懲與無(wú)人機(jī)飛過(guò)的路程距離成反比,以引導(dǎo)無(wú)人機(jī)用最短的路程、最少的時(shí)間來(lái)完成巡檢任務(wù),即:

        (5)

        綜上所述,對(duì)于單個(gè)無(wú)人機(jī)來(lái)說(shuō),即時(shí)獎(jiǎng)勵(lì)表示為3種獎(jiǎng)勵(lì)之和,即:

        (6)

        2.2 QMIX算法

        傳統(tǒng)的基于值函數(shù)的單智能體算法Deep Q Network(DQN),是利用深度學(xué)習(xí)網(wǎng)絡(luò)表示值函數(shù),并利用經(jīng)驗(yàn)回放池儲(chǔ)存經(jīng)驗(yàn)元組〈st,ut,rt,st+1〉,其中狀態(tài)st+1是在狀態(tài)st時(shí)采用動(dòng)作ut后轉(zhuǎn)移到的,同時(shí)會(huì)得到回報(bào)rt。通過(guò)最小化TD誤差來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)θ。

        (7)

        但是當(dāng)DQN算法應(yīng)用到多智能體環(huán)境中時(shí),智能體的動(dòng)作會(huì)使環(huán)境改變,單純地對(duì)每個(gè)智能體使用DQN算法訓(xùn)練效果并不好。相比之下,VDN旨在學(xué)習(xí)一種聯(lián)合動(dòng)作價(jià)值函數(shù)Qtot(τ,u),其中τ∈T≡TN為動(dòng)作-觀測(cè)對(duì)的歷史記錄,u為聯(lián)合動(dòng)作。它代表每個(gè)智能體的獨(dú)立值函數(shù)之和,即:

        (8)

        用Qtot(τ,u)代替式(7)中的Q,可以通過(guò)每個(gè)智能體的局部值函數(shù)得到聯(lián)合值函數(shù)。

        為了能夠提取出與集中式的策略完全一致的去中心化策略,需確保每個(gè)獨(dú)立智能體Qj的結(jié)果最優(yōu),即滿足下式:

        (9)

        進(jìn)一步,在VDN的基礎(chǔ)上做出更充分的假設(shè)[23],只需要滿足如下的單調(diào)性:

        (10)

        QMIX使用一個(gè)體系結(jié)構(gòu)來(lái)表示Qtot以實(shí)現(xiàn)上述單調(diào)性,該結(jié)構(gòu)由智能體網(wǎng)絡(luò)和混合網(wǎng)絡(luò)構(gòu)成,如圖2(a)所示。將環(huán)境的總體狀態(tài)信息st作為超網(wǎng)絡(luò)的輸入量,輸出得到該混合網(wǎng)絡(luò)的權(quán)值與偏置。通過(guò)這樣的方式,將環(huán)境的總體狀態(tài)信息混入聯(lián)合狀態(tài)值函數(shù)Qtot(τ,u)中,在集中式的訓(xùn)練中取得更好的全局效果,更好地指導(dǎo)分布式多智能體網(wǎng)絡(luò)處理整體任務(wù)需求下的并行與順序邏輯關(guān)系。

        QMIX旨在通過(guò)訓(xùn)練使以下?lián)p失函數(shù)最?。?/p>

        (11)

        本文提出利用QMIX算法來(lái)解決多無(wú)人機(jī)目標(biāo)偵查問題。QMIX的算法架構(gòu)如圖2所示,將t時(shí)刻的多無(wú)人機(jī)的聯(lián)合動(dòng)作ut作用于區(qū)域環(huán)境,環(huán)境狀態(tài)由st轉(zhuǎn)移至st+1,并給予每個(gè)無(wú)人機(jī)對(duì)應(yīng)的獎(jiǎng)勵(lì)rt,j。st包括目標(biāo)的偵查情況ynt、多無(wú)人機(jī)自身位置loct,但是每個(gè)無(wú)人機(jī)在訓(xùn)練結(jié)束后的執(zhí)行過(guò)程中只能觀測(cè)到部分信息ot,j=(dynt,j,loct,j)。

        圖2 QMIX訓(xùn)練網(wǎng)絡(luò)框架

        首先為每個(gè)智能體建立一個(gè)Deep Recurrent Q-Learning Network(DRQN)網(wǎng)絡(luò),該DRQN網(wǎng)絡(luò)由輸入全連接層、門控循環(huán)網(wǎng)絡(luò)層、輸出全連接層構(gòu)成。輸入全連接層采用ReLU激活函數(shù),網(wǎng)絡(luò)可以表示為:

        (12)

        其中W1、b1分別為輸入層的權(quán)重參數(shù)和偏置。然后進(jìn)入門控循環(huán)網(wǎng)絡(luò)(GRU),該網(wǎng)絡(luò)由更新門和重置門構(gòu)成,輸入為X1,輸出表達(dá)式為:

        (13)

        循環(huán)更新T次,輸出hT,進(jìn)而輸出全連接層,采用softmax激活函數(shù),網(wǎng)絡(luò)可以表示為:

        (14)

        其中W3、b3分別為輸出層的權(quán)重參數(shù)和偏置。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 DRQN網(wǎng)絡(luò)結(jié)構(gòu)圖

        最后DRQN網(wǎng)絡(luò)的輸出是該智能體每個(gè)動(dòng)作的概率,然后通過(guò)ε-greedy算法來(lái)選擇動(dòng)作,即以ε的概率進(jìn)行隨機(jī)選擇,以1-ε的概率使用貪心算法選擇最大Q值的動(dòng)作。將多無(wú)人機(jī)組成的聯(lián)合動(dòng)作ut=(ut,1,ut,2,…,ut,M)與環(huán)境進(jìn)行交互,并將經(jīng)驗(yàn)存于經(jīng)驗(yàn)池D=〈st,ut,rt,st+1〉中。

        2.3 QMIX訓(xùn)練

        通過(guò)利用DRQN的經(jīng)驗(yàn)回放訓(xùn)練網(wǎng)絡(luò),DRQN中的門控循環(huán)網(wǎng)絡(luò)對(duì)一段時(shí)間內(nèi)的連續(xù)動(dòng)作觀測(cè)對(duì)的信息進(jìn)行處理,解決了多智能體中部分馬爾科夫可觀問題。

        將每個(gè)智能體DRQN網(wǎng)絡(luò)輸出的(Q1(τ1,u1),Q2(τ2,u2),…,QM(τM,uM))送入Mixing網(wǎng)絡(luò),該網(wǎng)絡(luò)可以將部分動(dòng)作值函數(shù)混合為聯(lián)合動(dòng)作值函數(shù)。設(shè)θP為DRQN的評(píng)估網(wǎng)絡(luò)參數(shù),θT為DRQN的目標(biāo)網(wǎng)絡(luò)參數(shù),訓(xùn)練時(shí)端對(duì)端的最小化損失函數(shù)為:

        (15)

        3 實(shí)驗(yàn)結(jié)果與分析

        對(duì)所提出的任務(wù)分配算法進(jìn)行仿真驗(yàn)證,并與傳統(tǒng)的VDN算法、基于DQN的IQL算法進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證所提算法的有效性。

        設(shè)定大范圍電力系統(tǒng)的區(qū)域面積為2.5 km×2.5 km,區(qū)域中隨機(jī)分布著12座電力設(shè)施,3架無(wú)人機(jī)在起點(diǎn)位置出發(fā),且在分布式執(zhí)行過(guò)程中只能感受到距離自身1.5 km的電力設(shè)施。無(wú)人機(jī)飛行速度限定在5 m/s。分別采用本文設(shè)計(jì)的QMIX算法和傳統(tǒng)的VDN、IQL算法對(duì)該任務(wù)環(huán)境進(jìn)行訓(xùn)練,仿真平臺(tái)采用的CPU為I7-9700,GPU為RTX2080Ti,內(nèi)存為16 GB,在OpenAI Gym環(huán)境下訓(xùn)練。每個(gè)算法訓(xùn)練6000回合,經(jīng)驗(yàn)池大小設(shè)置為50000,采樣訓(xùn)練樣本大小為32,回報(bào)折扣率為0.9,學(xué)習(xí)率為0.005,ε值為0.05,網(wǎng)絡(luò)更新速率β為0.01。3種算法的訓(xùn)練過(guò)程累計(jì)回報(bào)如圖4所示。

        從圖4可以看出,QMIX算法在訓(xùn)練開始后回合累計(jì)回報(bào)開始逐漸升高,并在1300回合左右就完成了收斂,而VDN算法由于其對(duì)多智能體問題的表征能力欠缺,因此在2500回合左右才收斂。而IQL算法會(huì)導(dǎo)致智能體之間互相影響,智能體難以通過(guò)統(tǒng)一的聯(lián)合動(dòng)作值函數(shù)協(xié)同行動(dòng),因此難以適應(yīng)多智能體問題。進(jìn)一步,所提出的QMIX算法由于采用了協(xié)同獎(jiǎng)賞函數(shù),可以激發(fā)無(wú)人機(jī)之間的協(xié)作能力,仿真結(jié)果與軌跡如表1、圖5所示。

        圖4 算法訓(xùn)練過(guò)程累計(jì)回報(bào)

        表1 QMIX與VDN、IQL算法結(jié)果對(duì)比

        圖5 多無(wú)人機(jī)巡檢結(jié)果軌跡圖

        由圖5可以看出,3架無(wú)人機(jī)在獲得自身觀測(cè)量后,各自執(zhí)行不同電力設(shè)施的巡檢任務(wù)以實(shí)現(xiàn)最短時(shí)間合作完成整體巡檢任務(wù)。并且1號(hào)、2號(hào)無(wú)人機(jī)在遇到2號(hào)電力設(shè)施時(shí)激發(fā)了智能體間協(xié)作能力,2架無(wú)人機(jī)共同協(xié)作完成同一目標(biāo)巡檢任務(wù),縮短了任務(wù)完成時(shí)間,使得任務(wù)時(shí)間相比于VDN算法縮短了350.4 s。

        4 結(jié)束語(yǔ)

        本文結(jié)合多智能體強(qiáng)化學(xué)習(xí)理論提出了一種基于QMIX的多無(wú)人機(jī)大規(guī)模電力巡檢的任務(wù)分配算法,仿真實(shí)驗(yàn)驗(yàn)證了算法能有效地激發(fā)無(wú)人機(jī)之間的協(xié)作能力。在集中式訓(xùn)練、分布式執(zhí)行的框架下,每架無(wú)人機(jī)根據(jù)自身對(duì)環(huán)境的觀測(cè)進(jìn)行動(dòng)作選擇,實(shí)現(xiàn)了多無(wú)人機(jī)協(xié)作快速完成巡檢。此外,多架無(wú)人機(jī)能夠同時(shí)巡檢同一目標(biāo),與傳統(tǒng)算法相比加快了任務(wù)完成速度,提高了智能體間的協(xié)作能力。

        猜你喜歡
        動(dòng)作智能
        下一個(gè)動(dòng)作
        智能制造 反思與期望
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來(lái)
        商周刊(2018年18期)2018-09-21 09:14:46
        動(dòng)作描寫要具體
        畫動(dòng)作
        讓動(dòng)作“活”起來(lái)
        国产AV无码专区亚洲AⅤ| 日本精品视频免费观看| 中文人妻熟女乱又乱精品| 三级特黄60分钟在线观看| 中国大陆一级毛片| 日本人妻伦理片在线观看| 亚洲一区二区三区偷拍女| 亚洲中文字幕无码中文字| 国产精品美女久久久浪潮av| 四虎影视国产884a精品亚洲| 亚洲国语对白在线观看| 色噜噜亚洲男人的天堂| 自拍偷自拍亚洲精品情侣| 欧美日韩亚洲一区二区精品| 国产一级自拍av播放| 又硬又粗进去好爽免费| 婷婷久久久亚洲欧洲日产国码av| 98精品国产综合久久| 成人av一区二区亚洲精| 无码人妻精品中文字幕| 野花社区www高清视频| 欧美手机在线视频| 国产久色在线拍揄自揄拍| 疯狂做受xxxx高潮视频免费| 又粗又大又黄又爽的免费视频| 麻豆国产成人AV网| 在教室轮流澡到高潮h免费视| 香港三级日本三级a视频| 日韩手机在线免费视频| 中文少妇一区二区三区| 婷婷亚洲岛国热超碰中文字幕| 午夜精品久久久久久| 波多野结衣一区二区三区视频 | av国产传媒精品免费| 红杏亚洲影院一区二区三区| 国产精品亚洲综合色区丝瓜| 日本视频一中文有码中文| 边喂奶边中出的人妻| 日韩一区二区肥| 日本国产精品高清在线| 精品国产综合区久久久久久|