亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學習的無人機間通信鏈路智能決策

        2022-08-20 08:44:26周世陽程郁凡
        信號處理 2022年7期
        關鍵詞:策略

        周世陽 程郁凡 徐 豐 雷 霞

        (1.電子科技大學通信抗干擾技術國家級重點實驗室,四川成都 611731;2.中國航空無線電電子研究所,上海 200241)

        1 引言

        在過去的幾十年中,無線通信的研究主要集中在包括中繼和地面基站(Base Station,BS)在內的蜂窩移動通信網絡上,這限制了進一步提高網絡吞吐量和應用多樣性的能力[1]。隨著無線通信對超可靠性、高質量服務(Quality of Service,QoS)和低能耗的前所未有的需求,對空中基站的研究,特別是無人機(Unmanned Aerial Vehicles,UAVs)的研究引起了國內外的廣泛關注[2-6]。

        無人機集群,是人們受自然界生物群體行為的啟發(fā),研究的多架無人機通過相互通信產生整體效應,實現較高程度的自主協作的技術。與單架無人機相比,無人機集群主要有以下優(yōu)勢:首先,無人機之間可以通過相互協調和合作,完成單架無人機難以完成的復雜任務;其次,無人機集群具有魯棒性,去中心化的集群可以在單個節(jié)點受損時,依靠系統的自我調整完成既定任務;最后,無人機集群一般由低成本、功能單一的無人機組成,因此成本遠低于具有相同能力的單架無人機[7]。事實上,無人機集群已經部署在多種軍事和民事應用中,包括監(jiān)視[8]、集中攻擊和協同救援[9]等。而無人機之間的通信,對于無人機集群的協同任務,具有重要的研究價值和實際意義。然而,無人機集群間的高效通信是當下無人機集群面臨的重大挑戰(zhàn),而無人機間通信鏈路的資源管理是保證無人機集群間的高效通信的前提。比如,無人機集群結構不僅影響無人機對地面用戶的無線覆蓋,還影響集群內的通信質量;功率控制可以使通信雙方能夠以合適的功率正常通信,避免不必要的功率開銷,還避免了對其他通信用戶的干擾。因此,無人機間通信的無人機集群方案與發(fā)射功率的決策是很有必要的。

        已有國內外論文對無人機集群和資源管理算法進行研究。在文獻[10]中,作者提出了應急通信場景下基于粒子群優(yōu)化的無人機集群和坐標規(guī)劃算法。文獻[11]的作者提出了一種主動拓撲感知方案來跟蹤無人機網絡的拓撲變化,優(yōu)化無人機間的路由協議,以更好地進行群體協調。文獻[12]的作者提出了一種基于規(guī)則系統的無人機集群控制模型,進行自組織軌跡的規(guī)劃。資源管理是保證無人機集群間的高效通信的前提,近年來,無人機間通信鏈路的資源管理正在逐步得到關注。其中,文獻[13]研究了基于無人機間安全通信的軌跡算法。文獻[14]分析了頻譜分配、功率控制、天線模式對無人機間通信的影響。然而,傳統的優(yōu)化理論受限于計算能力,難以解決高復雜度優(yōu)化的問題。此外,這些算法需要環(huán)境模型的相關先驗信息并且對于變化的環(huán)境(如通信帶寬的變化、集群任務的變化等)應對不足。

        為此,對于沒有完整先驗信息的場景,可以考慮基于強化學習的算法。Q學習算法利用表格存儲狀態(tài)-動作的獎勵,以解決控制問題。文獻[15]中提出了一種基于多智能體Q學習的無人機布局和功率控制算法,以最大化瞬時總傳輸速率。在文獻[16]中,Q學習算法被用來尋找最優(yōu)的無人機軌跡和資源分配,以最大化系統的平均安全傳輸速率。由于Q 學習算法缺乏表示連續(xù)狀態(tài)的能力,深度Q網絡(Deep Q-network,DQN)算法[17]使用深度神經網絡(Deep Neural Network,DNN)來逼近狀態(tài)-動作值。文獻[17]提出了一種具有集中訓練和獨立接入策略的DQN 算法來優(yōu)化多用戶接入控制問題。然而,大多數強化學習算法應用在無人機對地的通信場景中,無人機間通信的決策算法還鮮有研究。由于無人機間的通信組網具有很強的靈活性,需要根據不斷變化的環(huán)境(如通信帶寬的變化、集群任務的變化等)作出響應,強化學習算法可以根據環(huán)境的反饋調整其策略,因此適用于無人機間通信鏈路的決策。

        本文研究無人機間通信鏈路的決策問題,提出基于深度強化學習的集群方案和功率控制決策算法,在滿足無人機間通信速率的前提下,最小化無人機間通信總的發(fā)射功率。首先,本文設計了三種無人機集群方案,對圓形區(qū)域內的地面用戶提供無縫的無線覆蓋;然后,本文提出了基于重要性采樣(Importance Sampling,IS)的深度Q網絡無人機集群和功率控制決策算法,用深度神經網絡擬合Q 函數與狀態(tài)和決策動作的關系,根據可分配的帶寬和傳輸速率要求,給出相應的決策的無人機集群方案和發(fā)射功率,而重要性采樣技術可以通過非均勻的采樣,著重訓練值得重點訓練的樣本,進而提高訓練效率;最后,本文通過仿真探究了深度神經網絡中超參數對性能的影響,綜合性能和復雜度設定了超參數。仿真結果證明了本文提出的深度強化學習算法與不帶強化學習的深度學習(Deep Learning Without Reinforcement Learning,DL-WO-RL)算法相比,決策的參數能以更低的發(fā)射功率滿足無人機之間的通信速率要求。并且,重要性采樣技術可以有效加快訓練速度,縮短訓練時間。

        2 系統模型及問題建模

        2.1 系統模型

        本文考慮一個空對空的傳輸模型,無人機群M={1,2,…,M}作為空中基站,需要對地面用戶提供無線覆蓋,并且集群內的無人機能夠相互通信。假設無人機已經部署在服務區(qū)上空,高度為H,三維笛卡爾坐標系可以用來表示無人機的位置,其中,無人機m的坐標表示為無人機m與無人機n之間的距離為

        文獻[18]的研究表明無人機間的傳輸主要由視距路徑組成,因此無人機間的信道增益可以建模為自由空間損失模型:

        其中μ0為傳輸距離為d0時的信道增益,k為路徑損失指數,一般情況下2 ≤k≤4。令無人機的發(fā)射功率為Ps,0 ≤Ps≤Pmax,其中Pmax為無人機的最大發(fā)射功率。假設當無人機m與無人機n之間能夠直接通信時,am,n=1,否則am,n=0。它們之間的信噪比(Signal-to-Noise Ratio,SNR)可以表示為

        其中為加性高斯白噪聲(Additive White Gaussian Noise,AWGN)的功率。所以,無人機m與無人機n之間的信道容量可以表示為

        其中B為通信帶寬。

        2.2 無人機集群方案

        本文考慮在半徑為Rc的圓形區(qū)域為地面用戶提供無線覆蓋,為了無縫覆蓋這個圓形區(qū)域,本文借鑒了無線蜂窩通信的區(qū)群構成方式,給出了3 種無人機集群的方案,分別由3、4、7架無人機組成,如圖1所示。

        當環(huán)境不變時,無人機集群保持相對靜止,以整體的形式朝任務方向移動;當環(huán)境變化時,無人機集群的距離也會隨之改變。比如,當任務要求無人機集群覆蓋范圍變大時,無人機集群的距離也會變大,通信鏈路的發(fā)射功率也會隨之增加。

        2.3 問題建模

        本文考慮無人機間通信鏈路在需要滿足一定的速率要求Rreq的前提下,聯合優(yōu)化無人機集群方案和發(fā)射功率以最小化無人機間通信的總發(fā)射功率。因此,優(yōu)化問題可以建模為

        求解問題(5)比較困難,主要有以下兩個原因:首先,問題(5)是一個組合優(yōu)化問題,包含了離散變量i和連續(xù)變量Ps,聯合優(yōu)化兩個變量使總體性能達到最優(yōu),是比較困難的;其次,問題(5)是一個非凸問題,傳統的優(yōu)化算法容易使解陷入局部最優(yōu)。為此,本文提出了深度強化學習(Deep Reinforcement Learning,DRL)算法聯合優(yōu)化這個問題,通過不斷與環(huán)境進行交互,根據反饋信息調整策略來優(yōu)化性能,并采用ε貪婪算法探索策略集,避免陷入局部最優(yōu)。

        3 基于深度強化學習的無人機集群和功率控制決策算法原理

        本節(jié)研究基于深度強化學習的無人機間通信鏈路的智能決策算法。其中,采用的深度強化學習為DQN 算法,原理框圖由圖2 給出。在訓練前,無人機以7機集群,最大發(fā)射功率進行通信,優(yōu)先滿足無人機間通信質量要求。訓練過程中,DQN 算法從經驗池中隨機抽取小批量數據訓練,經驗池中的經驗來源于智能體與環(huán)境的不斷交互。決策過程中,DQN 算法根據環(huán)境的狀態(tài),輸出Q 值最大的聯合策略為決策結果。

        3.1 馬爾可夫決策過程

        由于回報函數僅與觀察的狀態(tài)及當前動作有關,所以智能體與環(huán)境的交互可以建模為馬爾可夫決策過程(Markov decision process,MDP)。MDP 由4個元素組成的元組(S,A,Pa,R):

        S 是觀察狀態(tài)s的集合,s由可分配帶寬和無人機間通信所需速率兩個連續(xù)的變量組成;

        A是當前動作a的集合,a為發(fā)射功率和無人機集群方案的組合,假設發(fā)射功率被量化為L階,則一種有3L個不同的決策結果;

        Pa(s,s′)=Pr(st+1=s′,at=a)為在狀態(tài)s采用動作a產生下一個狀態(tài)s′的概率,由于下采取的動作不會影響觀察的狀態(tài),所以狀態(tài)s′=s;

        R 為回報r的集合,回報定義為由傳輸速率和功率開銷組成的函數。函數需要滿足以下條件:

        1)當策略滿足傳輸速率要求時,回報值不低于未滿足傳輸速率要求的策略;

        2)當策略滿足傳輸速率要求時,回報值是發(fā)射功率的減函數;

        3)回報值歸一化到[0,1]。

        所以令傳輸速率和功率開銷的權重都為0.5,并將功率開銷用最大總功率開銷歸一化,其中,最大總功率為7 機集群時的最大發(fā)射功率,記為,如(6)所示。

        其中I(x)為指示函數,如果x為真,則I(x)=1,否則I(x)=0。

        3.2 Q學習算法

        MDP 的目的是根據當前狀態(tài)s,通過選擇一個策略π(s),最大化長期回報函數,它被定義為

        其中r[t]為時刻t的回報值,計算方法如(6)所示。γ是折扣因子,0 ≤γ≤1,由于該模型中采取的動作不會影響觀察的狀態(tài),所以γ=0。定義在狀態(tài)s采取動作a的回報的期望值為Q(s,a),如(8)所示。

        根據貝爾曼方程,

        其中a′表示下一個狀態(tài)s′下采取的動作。Q 函數的最大值可以通過梯度下降學習,如(10)所示。

        其中α為學習率。式(10)求解Q 值的過程稱為Q 學習算法。

        3.3 深度Q學習算法

        由于狀態(tài)空間是連續(xù)的,Q表無法利用有限的資源存儲所有狀態(tài)的Q值。換個角度,有限的資源可以用來儲存Q 表的近似值。為此,DQN 算法可以使用權重為w的深度神經網絡作為參數化函數來逼近狀態(tài),寫為Q(s,a;w)≈Q(s,a)。在深度神經網絡中,將觀察狀態(tài)作為神經網絡的輸入,可能的決策結果作為神經網絡的輸出,因此輸入層包含2個神經元,輸出層包含3L個神經元。此外,ε貪婪算法被用來探索決策集,避免局部最優(yōu),探索策略如(11)所示:

        其中ε是探索率,探索率越大,智能體以更高的概率選擇隨機策略進行探索,當ε=0 時,式(11)變?yōu)樨澙匪惴ā榱藴p少觀察序列中的相關性并平滑數據分布,經驗池D用于在每個時間t存儲智能體的經驗元組e[t]=(s[t],a[t],r[t])。在訓練中,智能體從經驗池中隨機抽取小批量經驗訓練參數w以最小化均方誤差(Mean Squared Error,MSE):

        然后,神經網絡參數w根據梯度下降更新,如(13)所示。

        3.4 重要性采樣

        在使用經驗池時,有兩種方法可以改變訓練數據的狀態(tài)分布:改變存入經驗池的狀態(tài)分布和改變經驗的抽取概率。前者已經被用來探索未知策略的性能,后者在本小節(jié)中討論,被用來提升抽取效率。

        均勻抽樣并不是一種有效的抽樣方法。相反,重要性抽樣是更合理的選擇,重要性采樣的關鍵在于決定每個經驗在內存池中的重要性。在無人機集群和功率控制的聯合決策中,我們需要找的是聯合最優(yōu)的策略,而那些性能比較差的策略,具體的性能不應該被重點關注。因此,回報值更高的經驗理應以更高的優(yōu)先級被抽取。為了量化經驗的重要性,本文設計了重要性采樣深度Q 網絡算法(Importance Sampling Deep Q-network,IS-DQN),根據回報值大小映射為經驗抽取概率。更具體地說,用softmax 函數將回報值歸一化為抽取概率,如式(14)所示:

        這樣一來,在所有經驗都有一定概率被抽取的情況下,回報值更高的經驗將以更高的概率被抽取,智能體就有更高的可能性學習到聯合最優(yōu)的策略,訓練效率得到提升。

        基于IS-DQN 的無人機集群和功率控制聯合決策算法的訓練過程如算法1所示。

        當訓練過程結束后,向神經網絡輸入測試狀態(tài),選取Q 值最大的輸出為決策結果。在測試中,智能體的貪婪策略可以表述為:

        4 仿真結果與分析

        本節(jié)對提出的DQN 算法決策性能仿真進行仿真。首先仿真DQN 算法超參數對決策性能的影響,然后對比DQN 算法與DL-WO-RL 算法及隨機策略的性能。仿真的參數由表1給出。發(fā)射功率量化為20 個功率等級,3 機和4 機集群發(fā)射功率量化到6 dBm~25 dBm,7 機集群邊緣節(jié)點發(fā)射功率量化到3 dBm~22 dBm,為了使每條通信鏈路的功率相同,7 機集群中心節(jié)點發(fā)射功率量化到10.78 dBm~29.78 dBm,每個功率等級相差1 dB。因此,神經網絡輸出層包含了60 個神經元,每個神經元代表一種決策結果。輸入層包含2 個神經元,分別表示可分配帶寬和所需傳輸速率。其中,訓練集中可分配帶寬為80~150 MHz 的隨機帶寬,所需傳輸速率為10~50 Mbps的隨機速率,測試集中共包含12 個樣本,可分配帶寬分別為80、100、150 MHz,所需傳輸速率分別為10、20、40、50 Mbps。在訓練過程中,一個片段包含了60 個訓練樣本,小批量的大小為60,本節(jié)仿真了1500個片段的決策性能。

        表1 仿真參數Tab.1 Simulation parameters

        4.1 DQN超參數仿真結果與分析

        本小節(jié)仿真DQN 算法超參數對決策性能的影響,主要包括網絡層數、每層神經元數、學習率和探索因子,其中,DQN 算法用的是均勻抽取深度Q 網絡算法(Uniform Sampling Deep Q-network,US-DQN)。本小節(jié)考慮無人機集群覆蓋半徑1 km 的區(qū)域,在沒有特別說明的情況下,Q網絡設計為一個具有三隱藏層的全連接神經網絡。其中,每個隱藏層包含64個神經元,隱藏層中的激活函數設計為線性整流函數(Rectified Linear Unit,ReLU),輸出層激活函數為線性激活函數,這樣可以有效避免在反向傳播過程中的梯度消失。此外,學習率設為0.001,探索因子ε初始值設為1,隨后線性退火到0.1。

        圖3示出了神經網絡隱藏層數對決策性能的影響。從圖中可看出,當隱藏層數為3時,平均回報收斂結果最優(yōu)。當隱藏層數過少時,神經網絡對回報函數的擬合能力不足,處于欠擬合狀態(tài)。當隱藏層數過多時,神經網絡處于過擬合狀態(tài),欠缺測試集的泛化能力。值得注意的是,神經網絡隱藏層數較多時,初始訓練較慢,主要是神經網路的權重更新依賴于反向傳播,在深度神經網絡中,傳播值隨網絡深度遞減??紤]到收斂性能,本文設計的神經網絡的隱藏層數設定為3。

        圖4給出了每層網絡神經元數對決策性能的影響。仿真表明,當神經元數小于64 時,測試集平均回報隨神經元數的增加而變大。這一現象主要是因為神經元過少時,神經網絡對回報函數的擬合能力不足。而當神經元數大于64時,平均回報幾乎不再增加,僅僅在訓練開始時性能有所提升。因此,綜合考慮決策性能和復雜度,神經元數設定為64。

        圖5顯示了探索率對決策性能的影響。從圖中可看出,當探索率較大時,平均回報能迅速達到一個較優(yōu)的值,但在之后的訓練中,由于沒有重點訓練最優(yōu)策略的回報值,平均回報最終結果沒能再增加。當探索率較小時,由于對其他策略的探索較少,平均回報增加較慢,尤其是ε=0 時,其他策略無法得到探索,平均回報不再增加。但在之后的訓練中,最優(yōu)策略的回報值能夠被重點訓練,平均回報仍然能夠緩慢增加。因此,綜合考慮收斂速度和最終收斂性能,本文采用了初始為1,線性退火到0.1的探索因子。

        圖6 給出了學習率對決策性能的影響,仿真使用了Adam 優(yōu)化器以克服局部最優(yōu)并且退火學習率。與預料情況相同,學習率越大,決策性能提升越快,但可能導致損失函數在最小值附近在震蕩,達不到最小值。當學習率α=0.001時,決策性能能夠在學習速度和最終收斂結果中達到平衡,所以本文采用了α=0.001的學習率。

        4.2 DQN與其他算法比較與分析

        本小節(jié)仿真DQN 算法與其他算法的性能對比,其中DQN 算法包括IS-DQN 算法和US-DQN 算法,對比的算法包括DL-WO-RL 算法、隨機策略和最優(yōu)策略。其中,DL-WO-RL 算法需要收集當前狀態(tài)下每個決策動作的回報值,并采用了和DQN 算法相同的神經網絡結構訓練。隨機策略指的是在策略集中隨機選擇無人機集群方案和發(fā)射功率。最優(yōu)策略是指人工遍歷當前狀態(tài)下所有策略,并選擇回報值最大的策略。

        圖7 示出了覆蓋半徑1 km 區(qū)域時IS-DQN 算法與US-DQN 算法、DL-WO-RL 算法和隨機策略平均回報的對比。仿真結果表明,本文提出的IS-DQN和US-DQN 算法性能優(yōu)于DL-WO-RL 算法和隨機策略,平均回報分別提升了0.02 和0.26。與DL-WORL 相比,IS-DQN 和US-DQN 算法只需要根據輸入狀態(tài)采樣其中一個策略,而不需要對每個策略進行遍歷,因此可以在相同數量學習樣本的情況下,學習更多狀態(tài)下策略,平滑了經驗池的狀態(tài)分布,提升了泛化能力和學習效率。并且,DQN 算法決策性能逐漸逼近最優(yōu)策略,當學習1500 個片段后,ISDQN 和US-DQN 算法的平均回報只比最優(yōu)策略低0.02。由于DL-WO-RL 算法遍歷了所有策略,會迅速找到某一訓練樣本的最優(yōu)策略,這一策略會成為測試數據一個次優(yōu)解,在圖中體現為訓練初期回報函數比US-DQN 算法增加更快。但IS-DQN 算法彌補了這個缺點,重要性采樣技術提高了采樣效率,加快了訓練速度,具體而言,IS-DQN 算法比USDQN 算法少用了100 個片段達到回報值0.9。更詳細的測試集性能如表2所示。

        表2 給出了覆蓋半徑1 km 區(qū)域時每個測試樣本下IS-DQN算法、US-DQN算法、DL-WO-RL算法和最優(yōu)策略的總通信功率開銷。IS-DQN 算法平均消耗的功率與US-DQN 相當,低0.07 dB,比DL-WORL 算法低0.9 dB,僅比最優(yōu)策略高0.18 dB。數據表明,在12 個測試樣本中,IS-DQN 和US-DQN 算法各有7個測試樣本(58.3%的測試樣本)達到最優(yōu)策略,而DL-WO-RL 算法僅有1 個測試樣本(8.3%的測試樣本)達到最優(yōu)策略。并且,IS-DQN 和USDQN 算法在高速率需求以及較小可分配帶寬時,能夠達到最優(yōu)策略,在高功率消耗的場景,盡可能節(jié)約耗能。

        圖8 示出了覆蓋半徑5 km 區(qū)域時IS-DQN 算法與US-DQN 算法、DL-WO-RL 算法和隨機策略平均回報的對比。由于無人機間的通信距離較遠,通信速率只能支持到15 Mbps,所以在該仿真中訓練集中需要的速率設為10~15 Mbps的隨機數,測試集中需要的速率設為10 和15 Mbps。與圖7 的結論類似,本文提出的IS-DQN 和US-DQN 算法性能優(yōu)于DL-WO-RL 算法和隨機策略,平均回報分別提升了0.03 和0.26,比最優(yōu)策略低0.02。IS-DQN 算法訓練速度比US-DQN 算法快,具體而言,IS-DQN 算法比US-DQN 算法少用了100 個片段達到回報值0.9。更詳細的測試集性能如表3所示。

        表3 給出了覆蓋半徑5 km 區(qū)域時每個測試樣本下IS-DQN算法、US-DQN算法、DL-WO-RL算法和最優(yōu)策略的總通信功率開銷。與表2 的結果類似,IS-DQN 算法平均消耗的功率與US-DQN 算法相當,高0.03 dB,比DL-WO-RL 算法低0.28 dB,僅比最優(yōu)策略高0.14 dB。所有智能決策算法均選了7 機集群策略,主要是因為在通信距離較遠時,3、4機集群策略的機間距過遠,導致接收功率較小,無法滿足通信速率要求。數據還表明,在6個測試樣本中,IS-DQN 和US-DQN 算法各有5 個測試樣本(83.3%的測試樣本)達到最優(yōu)策略,而DL-WO-RL 算法僅有3 個測試樣本(50%的測試樣本)達到最優(yōu)策略,最優(yōu)策略的概率均高于1 km 覆蓋半徑的場景,主要是因為訓練集需要的速率范圍更小,訓練集的概率分布更集中,因此能更有效地訓練Q網絡。

        表2 覆蓋半徑1 km區(qū)域時無人機間通信鏈路決策結果Tab.2 Decision results of communication links between the UAVs when covering an area with a radius of 1 km

        表3 覆蓋半徑5 km區(qū)域時無人機間通信鏈路決策結果Tab.3 Decision results of communication links between the UAVs when covering an area with a radius of 5 km

        5 結論

        本文研究基于深度強化學習的無人機間通信鏈路的智能決策算法,給出了三種可選擇的對地面用戶提供無縫無線覆蓋的無人機集群方案,然后用DQN 算法聯合決策無人機集群方案和發(fā)射功率,并研究了能夠加快訓練速度的IS-DQN 算法。仿真結果證明了重要性采樣技術能夠有效加快算法的收斂,且本文提出的IS-DQN 算法在1 km、5 km 覆蓋半徑的場景中分別有超過50%、80%的測試數據達到理論最優(yōu),并且在滿足傳輸速率要求的前提下,與DL-WO-RL 算法相比,平均發(fā)射功率更低。未來的研究將給出更多的無人機集群方案,以更貼近實際的無人機集群情況,并進一步提升決策性能,直到性能達到最優(yōu)。

        猜你喜歡
        策略
        基于“選—練—評”一體化的二輪復習策略
        幾何創(chuàng)新題的處理策略
        求初相φ的常見策略
        例談未知角三角函數值的求解策略
        我說你做講策略
        “我說你做”講策略
        數據分析中的避錯策略
        高中數學復習的具體策略
        數學大世界(2018年1期)2018-04-12 05:39:14
        “唱反調”的策略
        幸福(2017年18期)2018-01-03 06:34:53
        價格調整 講策略求互動
        91视频免费国产成人| 无码人妻精品一区二区三区夜夜嗨| 人妻哺乳奶头奶水| 岛国AV一区二区三区在线观看| 亚洲日韩国产精品不卡一区在线| 91久久精品一区二区| 亚洲日韩激情无码一区| 2019年92午夜视频福利| 狠狠躁夜夜躁人人爽天天不卡| 91色综合久久熟女系列| 国产三级精品三级| 品色堂永远的免费论坛| 亚洲国产精品日韩专区av| 国产精品一区二区三区播放| 熟女少妇内射日韩亚洲| 欧美日韩在线免费看| 亚洲传媒av一区二区三区| 一区二区三区国产在线视频| 少妇无码av无码专区| 高清无码精品一区二区三区| 久久久国产精品首页免费| 国产精品无码一区二区三级| 高中生粉嫩无套第一次| 无码国产精品色午夜| 亚洲女厕偷拍一区二区| 亚洲一区二区三区四区五区六| 麻豆AⅤ无码不卡| 在线免费观看亚洲毛片| 人妻精品在线手机观看| 一本一道av无码中文字幕| 欧美日韩一区二区三区视频在线观看| 亚洲精品一区二区三区在线观| 中文字幕色av一区二区三区 | 国产91精品成人不卡在线观看| 人妻少妇无乱码中文字幕| 本道天堂成在人线av无码免费| 国产成人精品日本亚洲| 久久国产A∨一二三| 成人麻豆视频免费观看| 精品成人av一区二区三区| 精品九九视频|