亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        獎勵引導(dǎo)的輔助防空反導(dǎo)自主作戰(zhàn)決策研究

        2021-07-27 06:13:36韓興豪曹志敏劉家祺李旭輝
        艦船電子對抗 2021年3期
        關(guān)鍵詞:動作智能環(huán)境

        韓興豪,曹志敏,劉家祺,李旭輝

        (江蘇自動化研究所,江蘇 連云港 222061)

        0 引 言

        目前,在軍事作戰(zhàn)中主要靠指揮員以自己的直覺和經(jīng)驗做出實時決策。然而現(xiàn)代作戰(zhàn)態(tài)勢愈加復(fù)雜,場面瞬息萬變,獨以人力很難在短時間內(nèi)根據(jù)復(fù)雜的戰(zhàn)場信息完成最優(yōu)決策。而現(xiàn)有的輔助決策技術(shù)效率低,決策質(zhì)量差強人意,智能輔助決策水平亟待提高。為突破基于流程和規(guī)則的分層決策空間和基于決策樹的分支推演技術(shù),深度強化學(xué)習(xí)為現(xiàn)代作戰(zhàn)智能決策技術(shù)的升級換代提供了強有力的理論與技術(shù)支持。

        近年來深度網(wǎng)絡(luò)在各個領(lǐng)域的廣泛應(yīng)用及卓越成效為強化學(xué)習(xí)的發(fā)展提供了又一次機遇,它針對強化學(xué)習(xí)的價值函數(shù)逼近問題提供了有效的解決方案,讓強化學(xué)習(xí)重新煥發(fā)了生命力。深度強化學(xué)習(xí)在很多應(yīng)用方面經(jīng)過一系列發(fā)展已經(jīng)可以交出一份讓人滿意的答卷,比如在Atari環(huán)境、三維虛擬環(huán)境、機器人控制等領(lǐng)域的應(yīng)用取得了相當(dāng)卓越的成果。但這些環(huán)境在復(fù)雜度上相比一些實際問題仍有著云泥之別。比如在海面作戰(zhàn)環(huán)境中,就包括數(shù)十種作戰(zhàn)單位,每種平臺對應(yīng)一種智能體,如何在同一環(huán)境下快速有效地學(xué)習(xí)自主決策是個極大的挑戰(zhàn)。

        現(xiàn)代全域作戰(zhàn)態(tài)勢復(fù)雜度過高,利用深度強化學(xué)習(xí)為指揮員在作戰(zhàn)中提供輔助決策,將指揮員從一部分作戰(zhàn)決策中解放出來,使其聚焦于戰(zhàn)場調(diào)度等更重要的決策,是目前軍事智能化的一大前景。但是,若想將每個作戰(zhàn)平臺同時實現(xiàn)智能化決策,其難度堪比大海撈針;另一方面,若僅在簡單對戰(zhàn)場景中構(gòu)建深度強化學(xué)習(xí)智能體,例如空戰(zhàn)1V1,其態(tài)勢特征太過簡單,對實戰(zhàn)的參考價值十分有限,而且無法體現(xiàn)出深度網(wǎng)絡(luò)提取態(tài)勢特征的優(yōu)勢?;谝陨?個原因,本文將復(fù)雜的戰(zhàn)場態(tài)勢在智能決策方面進行簡化,在其他作戰(zhàn)平臺皆基于規(guī)則進行決策的仿真推演環(huán)境中,為執(zhí)行輔助防空反導(dǎo)任務(wù)的殲擊機構(gòu)建智能體進行強化學(xué)習(xí),探索逐步為現(xiàn)代多域作戰(zhàn)全面實現(xiàn)智能化的道路。

        然而強化學(xué)習(xí)在實際應(yīng)用中,需要很久的訓(xùn)練時間,甚至可能不收斂。另一方面,仿真推演中可以明確地觸發(fā)收益的“狀態(tài)-動作”二元組很少,相互之間相隔時間步很遠,且表示向目標(biāo)靠近的收益更加稀缺,智能體可能會長期沒有目的地漫游,即強化學(xué)習(xí)中所謂“高原問題”。良好的獎勵函數(shù)可以有效縮短智能體學(xué)習(xí)時間,讓算法更快地收斂。

        解決稀疏獎勵問題的典型方法是利用逆向強化學(xué)習(xí),從專家樣本中進行學(xué)習(xí),逆推出獎勵函數(shù),但是這一方法對具有較強隨機性的高維問題卻無能為力。本文采用獎勵重塑的方法,加入好奇心機制,可以在一定程度上解決稀疏獎勵,激勵智能體在環(huán)境中進行有效探索以獲得最大累積獎勵。

        1 實驗環(huán)境及預(yù)處理

        本文實驗環(huán)境為某戰(zhàn)役級仿真平臺,支持聯(lián)合作戰(zhàn)模擬的戰(zhàn)役戰(zhàn)術(shù)一體化仿真推演。對戰(zhàn)雙方控制各自兵力進行對抗,包括進行機動、開關(guān)傳感器、武器發(fā)射等,從而做出探測、跟蹤、打擊等命令,最終決出勝負(fù)。模型庫中包括實際作戰(zhàn)中的多種平臺的仿真模型,比如飛機、水面艦艇、機場等,每個平臺的指令類型可以是任務(wù)驅(qū)動(包括巡邏任務(wù)、打擊任務(wù)、伴機/艦飛行等),也可以由實時指令驅(qū)動(如航線規(guī)劃、目標(biāo)打擊等)。仿真環(huán)境中的單位可以按照已編輯好的想定過程和規(guī)則進行決策動作,并且內(nèi)置裁決系統(tǒng),每一局對戰(zhàn)結(jié)束后,可以統(tǒng)計彈藥消耗與平臺毀傷程度,根據(jù)每個平臺的價值,計算對戰(zhàn)雙方得分,從而判定勝負(fù)。進行多次推演,每局對戰(zhàn)訓(xùn)練流程如圖1所示,對勝負(fù)次數(shù)加以統(tǒng)計,評價智能體自主決策效果。

        圖1 對戰(zhàn)訓(xùn)練流程

        本實驗重點研究海面全域作戰(zhàn)中殲擊機在輔助防空反導(dǎo)任務(wù)中的自主決策水平,目前僅構(gòu)建殲擊機的強化學(xué)習(xí)智能體,在仿真環(huán)境的基礎(chǔ)上對態(tài)勢信息進行提取與封裝,便于算法實現(xiàn)與智能體構(gòu)建。圖2為對戰(zhàn)訓(xùn)練框架。

        圖2 對戰(zhàn)訓(xùn)練框架

        1.1 確定輸出動作空間

        為了便于強化學(xué)習(xí)建模與訓(xùn)練,決策模型采用指令集合,將多維輸出映射到指令集中。對戰(zhàn)訓(xùn)練框架如圖2所示,將殲擊機指令模型化為探測、突擊、攔截等。指令參數(shù)包括以下幾種:(1)是否選擇敵方單位作為打擊目標(biāo),用0~1表示;(2)目標(biāo)選擇,包括敵方預(yù)警機、戰(zhàn)斗機及敵方發(fā)射的反艦、防空導(dǎo)彈等,用敵方單位編號表示;(3)傳感器開關(guān),為發(fā)現(xiàn)、跟蹤敵方單位并防止自己被敵方探測或跟蹤;(4)突擊方向,即相對正北方向角度,順時針最大360°;(5)武器選擇,一方面針對不同運動介質(zhì)中的平臺分配不同類型的武器,包括反艦導(dǎo)彈、空空導(dǎo)彈等,另一方面根據(jù)武器的打擊范圍與毀傷能力進行部署;(6)武器齊射數(shù)量,根據(jù)武器的打擊能力與目標(biāo)平臺的毀傷程度分配適量的武器,盡量避免武器的浪費或打擊不充分;(7)武器發(fā)射距離與最大射程百分比,當(dāng)前武器發(fā)射與目標(biāo)平臺的距離與武器最大打擊距離的比例,比值越小命中率越高。

        1.2 態(tài)勢信息構(gòu)建和預(yù)處理

        智能體依靠態(tài)勢信息進行決策,如何在海量復(fù)雜的態(tài)勢中提取出對決策有用的信息,需要人為對仿真過程中產(chǎn)生的數(shù)據(jù)進行處理。仿真推演過程中可以獲取每個單位的狀態(tài)信息,包括經(jīng)緯度、高度、剩余油量、機動速度、運動航向等,對不同類型的平臺還需要針對性地收集信息,例如飛機、水面艦艇需收集所載傳感器類型和探測距離、搭載武器的種類及數(shù)量、平臺毀傷程度等,對這些態(tài)勢數(shù)據(jù)進行提取和格式化處理作為強化學(xué)習(xí)的狀態(tài)輸入。取

        n

        個時刻的態(tài)勢作為第一維,智能體的數(shù)量作為第二維,每個智能體的態(tài)勢信息作為第三維,組成仿真環(huán)境的狀態(tài)空間,作為智能體的決策依據(jù)。

        2 獎勵函數(shù)設(shè)計

        在復(fù)雜的作戰(zhàn)仿真環(huán)境中,收益稀疏的問題愈發(fā)顯著。及時提供非零收益讓智能體逐步實現(xiàn)目標(biāo),已經(jīng)是一個十分困難的挑戰(zhàn),而讓智能體高效地從各種各樣的初始狀態(tài)下進行學(xué)習(xí)無疑難上加難。本章節(jié)探討完成獎勵計算模塊,根據(jù)態(tài)勢信息計算獎勵,作為決策動作的反饋,嵌入仿真環(huán)境中與智能體進行交互。

        如何設(shè)計并重塑一個適用于一般作戰(zhàn)想定的獎勵函數(shù),獲得較為顯著的訓(xùn)練效果,提高決策質(zhì)量,是本文研究的創(chuàng)新點和重點。作戰(zhàn)過程一般會持續(xù)比較久的時間,期間每次決策獎勵的延遲時間也長短不一,所設(shè)計的獎勵函數(shù)要能夠在一定程度上體現(xiàn)出每次決策的效果。本文主要為執(zhí)行輔助防空反導(dǎo)作戰(zhàn)任務(wù)的殲擊機重塑獎勵函數(shù)。

        2.1 動作獎勵

        單個平臺每做出一次決策,即選擇一個動作,或機動到指定點,或選擇武器進行攻擊,或開關(guān)傳感器等,都會從環(huán)境獲得獎勵。

        2.1.1 機動指令獎勵

        提出一種基于相對方向與相對位置的獎勵函數(shù)設(shè)計方法,以敵方每個平臺對我方智能體的威脅系數(shù)為權(quán)值,對距離進行加權(quán)求和。采取機動指令會根據(jù)該平臺方位的變化所帶來的影響來計算獎勵,獎勵的大小由以下因素決定:

        (1) 與己方單位的平均距離

        D

        。該指標(biāo)在一定程度上可以體現(xiàn)出其安全系數(shù),與己方單位距離較近時,方便互相之間進行協(xié)同,能夠快速形成以多打少的局面,避免出現(xiàn)孤立無援的情況,存活率較高,獎勵值會相對較大。采用加權(quán)距離

        D

        ,計算方式如下:

        D

        =

        w

        1

        d

        1+

        w

        2

        d

        2+…+

        w

        d

        (1)

        式中:

        w

        d

        表示平臺1~

        n

        的重要性系數(shù)及其與智能體的距離。(2) 與敵方單位的平均距離

        D

        。該指標(biāo)可以體現(xiàn)出平臺受威脅系數(shù)。一方面避免孤軍深入;另一方面為防止仿真作戰(zhàn)過程中,智能體一直游離在戰(zhàn)場環(huán)境之外,在廣泛的時空域中反復(fù)進行無效的探索,需要利用獎勵函數(shù)引導(dǎo)作戰(zhàn)單位與敵方拉近距離進行對戰(zhàn)。

        D

        =

        w

        1

        d

        1+

        w

        2

        d

        2+…+

        w

        d

        (2)

        式中:

        w

        d

        分別表示敵方平臺的威脅系數(shù)及其相對我方智能體的距離。

        為防止我方平臺進入敵方單位集火范圍,應(yīng)盡量與敵方某一落單目標(biāo)拉近距離,而與其他平臺保持距離。

        (3) 是否在敵方單位的武器打擊范圍內(nèi)。充分發(fā)揮武器射程優(yōu)勢,盡量保持在敵方攻擊范圍之外,保證己方安全又使敵方單位在我武器打擊范圍之內(nèi),對敵方單位進行“風(fēng)箏”式攻擊。

        對這些因素進行加權(quán)求和,在單位采樣步長的變化值即為機動指令獎勵值

        r

        。

        2.1.2 武器發(fā)射獎勵

        發(fā)射武器首先會反饋比較小的負(fù)獎勵,不同的武器根據(jù)成本和威力大小對應(yīng)不同的獎勵值。武器發(fā)射一方面表示彈藥消耗,會從環(huán)境獲得即時的負(fù)獎勵。另一方面預(yù)示著可能給敵方平臺帶來損傷,即命中獎勵,將此部分歸結(jié)為武器命中事件,屬于事件獎勵,將在后續(xù)進行介紹。

        2.2 狀態(tài)獎勵

        在作戰(zhàn)推演過程中,所有平臺的狀態(tài)處于不斷變化中,包括油量、毀傷程度等。油量的變化主要由機動和加油引起,機動過程引起油量的降低會獲得負(fù)獎勵;在油量越低的情況下進行加油獲取的獎勵越大。毀傷情況分為不同平臺、不同部位的毀傷,根據(jù)命中目標(biāo)的不同,獲取不同的獎勵,從導(dǎo)彈、轟炸機到殲擊機獎勵逐漸增大。對敵方平臺,按照其威脅程度,威脅越大的目標(biāo)受損時獲得的獎勵越大;對我方平臺,按照重要性升序,越重要的平臺受損獲得越大的負(fù)獎勵。

        2.3 事件獎勵

        現(xiàn)代戰(zhàn)場可以說是信息的較量,誰在作戰(zhàn)中掌握了更多信息,誰就掌握了戰(zhàn)場的主動權(quán),對取得作戰(zhàn)勝利起著至關(guān)重要的作用。將信息表征為各種關(guān)鍵事件的發(fā)生,將事件類型分為:(1)探測事件,包括捕獲目標(biāo)、捕獲目標(biāo)消失、目標(biāo)識別、目標(biāo)跟蹤等;(2)武器系統(tǒng)事件,包括發(fā)射失敗、彈藥耗盡、武器命中、超出武器射程、目標(biāo)跟蹤丟失等,其中命中事件的觸發(fā)需要武器發(fā)射后相當(dāng)一段時間才能進行判定,因此該動作獎勵有較大的延遲問題。本文采用長短期記憶網(wǎng)絡(luò)(LSTM)對一段時間內(nèi)的狀態(tài)、動作進行記憶與傳遞,間接反映出決策的優(yōu)劣,進而對后續(xù)動作產(chǎn)生影響;(3)干擾事件,包括遭受干擾、受干擾結(jié)束等;(4)通信事件,包括數(shù)據(jù)鏈建鏈、數(shù)據(jù)鏈結(jié)束、網(wǎng)絡(luò)開通、收發(fā)、網(wǎng)絡(luò)結(jié)束等。多數(shù)時候純以動作的獎勵無法反映出這些事件所帶來的影響,因此需要為這些事件單獨設(shè)計獎勵,從態(tài)勢中獲取事件信息,觸發(fā)獎勵。

        3 實驗仿真

        初步確定超參數(shù),包括仿真回合數(shù)、仿真速度、決策間隔、最大決策步數(shù)、學(xué)習(xí)速率等。引入Pytorch深度學(xué)習(xí)框架實現(xiàn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用Python語言搭建智能體構(gòu)成Agents模塊,實現(xiàn)以下功能:重置智能體、計算動作狀態(tài)價值、計算損失函數(shù)、計算優(yōu)勢函數(shù)、動作選取與價值評論等。

        3.1 智能體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

        深度網(wǎng)絡(luò)對數(shù)據(jù)有更強的信息提取能力,本文采用卷積與循環(huán)神經(jīng)網(wǎng)絡(luò)(CRN)。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相似,它由一系列帶有權(quán)重與偏置的神經(jīng)元組成,每個神經(jīng)元從上一層接受輸入,先進行矩陣運算,再利用激活函數(shù)進行非線性處理。將當(dāng)前連續(xù)時刻的狀態(tài)數(shù)據(jù)進行堆疊作為網(wǎng)絡(luò)的輸入,卷積網(wǎng)絡(luò)(CNN)能夠取代傳統(tǒng)的人工,更高效地對態(tài)勢環(huán)境進行特征提取。但這增加了網(wǎng)絡(luò)的存儲和計算難度,因此插入循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM),對時間軸上的歷史狀態(tài)信息進行提取與記憶,做出優(yōu)化決策。經(jīng)驗表明,在部分可觀測模型中,CRN網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)出比其他網(wǎng)絡(luò)更好的性能,也更適用于作戰(zhàn)仿真中復(fù)雜任務(wù)的訓(xùn)練。各神經(jīng)網(wǎng)絡(luò)模塊功能見表1。

        圖3 網(wǎng)絡(luò)結(jié)構(gòu)

        表1 網(wǎng)絡(luò)模塊說明

        3.2 智能體學(xué)習(xí)訓(xùn)練算法實現(xiàn)

        根據(jù)馬爾可夫決策過程(MDP)進行建模,仿真推演過程中,智能體(Agent)與作戰(zhàn)環(huán)境之間進行數(shù)據(jù)交互,在每個時間步

        t

        ,智能體從環(huán)境中獲取狀態(tài)數(shù)據(jù)

        s

        ,然后根據(jù)策略和約束條件從動作空間中選取可執(zhí)行的動作

        a

        ,再從環(huán)境獲取獎勵

        r

        ,直到環(huán)境的終止?fàn)顟B(tài)。訓(xùn)練目的是獲得一個策略函數(shù)(即從狀態(tài)

        s

        到動作

        a

        的映射),使智能體采取一系列動作之后所獲取的累積獎勵最大。由于仿真環(huán)境中戰(zhàn)爭迷霧的存在,使典型的局部可觀測馬爾可夫決策過程(POMDP)。本文中MDP包括無限的狀態(tài)空間與有限的動作空間,以及獎勵函數(shù)

        r

        :×→,表示智能體在狀態(tài)

        s

        下采取動作

        a

        獲得的期望獎勵,策略

        p

        :→表示從狀態(tài)到動作的映射。智能體在

        t

        時刻獲取到帶有獎勵

        r

        與動作

        a

        的狀態(tài)觀測

        o

        ,態(tài)勢狀態(tài)為

        s

        ,那么

        t

        時刻的獎勵

        R

        :+定義為累積折扣獎勵:

        (3)

        式中:

        γ

        為折扣系數(shù)。

        算法的目標(biāo)就是將累積獎勵最大化。加入并行機制,即在一臺計算機上使用多個線程進行訓(xùn)練,每個線程單獨與環(huán)境進行交互并計算梯度。這種方法可以免去發(fā)送梯度參數(shù)的通信消耗。各線程中使用不同的探索策略,平行地運行多個動作-評論網(wǎng)絡(luò)可以更快速有效地對環(huán)境中的各個部分進行探索。將多個線程結(jié)合在一起,進一步減弱了探索事件的相關(guān)性,利于程序的收斂。

        本文采用強化學(xué)習(xí)的典型算法異步優(yōu)勢行動者-評論者算法。A3C算法是由行動-評論者(Actor-Critic)算法發(fā)展進化而來,智能體包括兩部分:行動者和評論者,通過對環(huán)境的探索與利用來獲得兩者更好的表現(xiàn)。訓(xùn)練流程如圖4所示。行動者用策略函數(shù)

        p

        (

        a

        |

        s

        ;θ)表示,評論者用價值函數(shù)V(

        s

        ,

        θ

        )表示,用深度神經(jīng)網(wǎng)絡(luò)對策略與價值函數(shù)進行近似與逼近。狀態(tài)

        s

        的狀態(tài)價值為:

        圖4 A3C算法流程圖

        V

        (

        s

        )=

        E

        (

        R

        :∞|

        s

        =

        s

        ,

        p

        )=

        E

        ()(

        r

        +

        γV

        (

        s

        ′))

        (4)

        式中:

        E

        表示在狀態(tài)

        s

        下采用策略

        p

        的期望;

        s

        ′為

        s

        的后繼狀態(tài)。

        狀態(tài)-動作價值函數(shù)為:

        Q

        (

        s

        |

        a

        )=

        E

        (

        R

        :∞|

        s

        =

        s

        ,

        a

        =

        a

        ,

        p

        )=

        r

        +

        γV

        (

        s

        ′)

        (5)

        利用時間差分將Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)連接起來,計算時序差分(TD)誤差為:

        δ

        =

        Q

        (

        s

        ,

        a

        )-

        V

        (

        s

        )=

        r

        +

        γV

        (

        s

        ′)-

        V

        (

        s

        )

        (6)

        定義優(yōu)勢函數(shù):

        A

        (

        s

        ,

        a

        )=

        Q

        (

        s

        ,

        a

        )-

        V

        (

        s

        )

        (7)

        在異步算法中,將優(yōu)勢函數(shù)進一步細化為:

        γ

        V

        (

        s

        +,

        θ

        )-

        V

        (

        s

        ;

        θ

        )

        (8)

        式中:

        k

        表示時間步長,最大不超過

        t

        。為了評估策略的優(yōu)劣,定義目標(biāo)函數(shù)

        J

        (

        p

        ),表示從初始狀態(tài)開始得到的所有狀態(tài)價值的平均值:

        J

        (

        p

        )=

        E

        [

        V

        (

        s

        )]

        (9)

        根據(jù)策略梯度定理,得到其梯度:

        J

        (

        p

        )=

        E

        ,~()[

        A

        (

        s

        ,

        a

        )·▽lg

        p

        (

        a

        |

        s

        )]

        (10)

        嘗試最大化目標(biāo)函數(shù)。采用異步并行訓(xùn)練方式,其算法架構(gòu)如圖5所示,策略函數(shù)與價值函數(shù)每經(jīng)過

        t

        時間步或到達終止?fàn)顟B(tài)后進行參數(shù)更新。將每個線程中的運行結(jié)果反饋給主網(wǎng)絡(luò),同時從主網(wǎng)絡(luò)獲取最新的參數(shù)更新,最終達到優(yōu)化網(wǎng)絡(luò)參數(shù)的目的。

        圖5 A3C異步架構(gòu)圖

        3.3 結(jié)果分析

        在基于規(guī)則的仿真環(huán)境中加入紅方殲擊機智能體進行推演與學(xué)習(xí),訓(xùn)練前,智能體決策質(zhì)量差,而且經(jīng)常會游離在主戰(zhàn)場之外,導(dǎo)致紅方勝率很低。但經(jīng)初步仿真訓(xùn)練,在多次推演迭代后,反復(fù)更新智能體策略網(wǎng)絡(luò)參數(shù)。對每百次實驗結(jié)果進行記錄,并統(tǒng)計紅方勝率,可以發(fā)現(xiàn)紅方勝率有明顯提升。雖然現(xiàn)階段智能決策水平相比基于規(guī)則的決策方法尚有差距,但其發(fā)展空間很大,隨著迭代次數(shù)與技術(shù)水平的提高,達到超越人類專家的決策水平的目標(biāo)已不再遙不可及。

        4 結(jié)束語

        現(xiàn)在國際局勢撲朔迷離,瞬息萬變,但有一點毋庸置疑,于我不利。小規(guī)模沖突不斷,雖然發(fā)生大規(guī)模作戰(zhàn)的概率不高,但仍需我軍提高警惕,時刻準(zhǔn)備作戰(zhàn)。實現(xiàn)軍事決策智能化對我軍實現(xiàn)戰(zhàn)術(shù)升級、減小損耗、降低傷亡有著重要意義。本文探索了一條實現(xiàn)現(xiàn)代作戰(zhàn)智能化的道路,對模型相似的作戰(zhàn)單位構(gòu)建智能體進行學(xué)習(xí),未來逐步實現(xiàn)預(yù)警機、護衛(wèi)艦等作戰(zhàn)平臺的智能體,為護國強軍保駕護航。

        猜你喜歡
        動作智能環(huán)境
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動作描寫要具體
        畫動作
        男女男在线精品网站免费观看| 边添小泬边狠狠躁视频| 亚洲愉拍99热成人精品热久久| 国产精品对白交换视频| 久久99久久99精品免视看国产成人| 亚洲一区二区三区在线高清中文 | 亚洲无码中文字幕日韩无码| 国内精品毛片av在线播放| 色偷偷亚洲女人的天堂| av一区二区三区观看| 婷婷色综合视频在线观看| 精品一区二区三区无码免费视频| 国产精品天堂avav在线| 日本超骚少妇熟妇视频| 日韩av无码社区一区二区三区| 香港日本三级亚洲三级| 中字幕久久久人妻熟女| 加勒比精品一区二区三区| 精品国产一区二区三区性色| 免费视频爱爱太爽了| 99热在线精品播放| 男女午夜视频一区二区三区| 亚洲高清国产成人精品久久| 精品无码久久久久久久久水蜜桃| 全部孕妇毛片丰满孕妇孕交| 亚洲不卡电影| 国产自拍一区在线视频| 久久天天躁狠狠躁夜夜不卡| 中文字幕喷水一区二区| 亚洲av第一区综合激情久久久 | 黑人巨茎大战俄罗斯美女| 中文字幕一区二区三区乱码| 欧美中文字幕在线看| 一级做a爱视频在线播放| 中国亚洲一区二区视频| 热久久美女精品天天吊色| 人妻丰满av∨中文久久不卡| 亚洲天堂色婷婷一区二区| 欧美群妇大交群| 国产手机在线αⅴ片无码观看| 999久久66久6只有精品|