亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學(xué)習(xí)的衛(wèi)星動態(tài)功率控制技術(shù)

        2022-04-27 06:09:58徐素潔王麗冰馬仕君王衛(wèi)東
        陸軍工程大學(xué)學(xué)報 2022年2期
        關(guān)鍵詞:波束載波分配

        徐素潔, 胡 欣, 王 銀, 王麗冰, 馬仕君, 王衛(wèi)東

        (北京郵電大學(xué) 電子工程學(xué)院,北京 100876)

        高通量衛(wèi)星作為國家信息網(wǎng)絡(luò)的重大基礎(chǔ)設(shè)施,以其覆蓋范圍廣、通信質(zhì)量好、運行維護費用低等特點,在保障國計民生等領(lǐng)域發(fā)揮著不可替代的作用[1]。隨著用戶數(shù)量和數(shù)據(jù)業(yè)務(wù)的顯著增長,人們對其提供業(yè)務(wù)的多樣性和服務(wù)質(zhì)量等方面提出了更高的要求。面對信息的爆發(fā)式增長,高通量衛(wèi)星不可避免地存在星上資源受限的特征,具體表現(xiàn)在頻譜資源、功率、計算和存儲資源上。智能自主以及靈活高效地對高通量衛(wèi)星通信系統(tǒng)的可用信道和功率進行動態(tài)分配,對提升衛(wèi)星的通信能力和資源利用率具有重要意義。

        在功率分配方面,目前針對高通量多波束衛(wèi)星系統(tǒng)功率分配研究主要包括固定分配和動態(tài)分配兩方面。傳統(tǒng)的衛(wèi)星系統(tǒng)在功率分配方面多采用固定分配方式[2],但是這種方式難以適應(yīng)實際通信場景中通信需求量的動態(tài)性,極易造成資源的浪費。為了克服固定分配的缺點,各種動態(tài)功率分配算法[3-7]應(yīng)運而生。文獻[3]指出,未來移動行業(yè)中用戶需求量晝夜變化大,為滿足動態(tài)的需求變化,許多高通量衛(wèi)星將具備靈活的功率和帶寬分配功能。大量可調(diào)的衛(wèi)星參數(shù)可以保證用最少的資源來滿足需求,特別是涉及高維問題,手動分配資源變得更加不切實際。因此,研究動態(tài)衛(wèi)星功率分配算法顯得尤為重要。文獻[4]提出最大化系統(tǒng)容量算法,即注水算法,該算法實現(xiàn)功率自適應(yīng)分配的同時實現(xiàn)總的數(shù)據(jù)傳輸速率最大化,但并未考慮各波束間功率資源分配的公平性以及業(yè)務(wù)優(yōu)先級。Hong等[5]提出將動態(tài)功率分配問題建模成一個約束條件為非線性函數(shù)的優(yōu)化問題,兼顧公平性和系統(tǒng)總?cè)萘浚⑼ㄟ^拉格朗日乘數(shù)法對該優(yōu)化問題求解。而在多波束衛(wèi)星系統(tǒng)中分配資源以滿足流量需求的問題被證明是NP-hard和NP-hard近似問題, 文獻[6]為啟發(fā)式算法提出了通用的理論框架,在存在系統(tǒng)功率約束的情況下,將問題分解成基于顏色的子問題,降低了相關(guān)復(fù)雜性,使該資源分配方法切實可行。文獻[7]的研究結(jié)果表明,盡管基于元啟發(fā)的方法在解決功率和帶寬分配問題上具有不錯的效果,但這些算法并沒有實時處理能力。

        為了將人工智能賦能于衛(wèi)星通信場景,北京郵電大學(xué)空天地智能感知與通信研究所將深度強化學(xué)習(xí)(Deep reinforcement learning,DRL)框架引入衛(wèi)星通信的無線資源管理領(lǐng)域,為低復(fù)雜度實時動態(tài)地實現(xiàn)無線資源管理提供了全新的解決思路[8]。由于功率的控制維度可以分為連續(xù)量控制和離散量控制,傳統(tǒng)的深度強化學(xué)習(xí)框架可以滿足離散量功率控制的技術(shù)需求,而不能直接應(yīng)用于連續(xù)量功率控制場景。在文獻[8]的基礎(chǔ)上,麻省理工學(xué)院系統(tǒng)架構(gòu)實驗室提出一種基于深度強化學(xué)習(xí)的近端策略優(yōu)化框架,可實現(xiàn)對衛(wèi)星功率的連續(xù)量控制[9]。然而,這種方法沒有考慮衛(wèi)星場景中的同頻干擾問題,在流量需求較低時效果不佳。文獻[10]提出了一種基于深度強化學(xué)習(xí)的抗干擾算法,可以獲得最優(yōu)的抗干擾策略,該方法僅依賴局部觀測信息,應(yīng)用范圍更加廣泛。

        鑒于無線場景的復(fù)雜性,無模型的深度強化學(xué)習(xí)更能滿足多波束衛(wèi)星的技術(shù)需求。因此,本文利用無模型的強化學(xué)習(xí)方法,提出一種基于深度強化學(xué)習(xí)的近端策略優(yōu)化方法,通過使用神經(jīng)網(wǎng)絡(luò)對策略進行建模,實現(xiàn)狀態(tài)與動作之間可行的映射,合理化狀態(tài)、收益的設(shè)計,使智能體完全根據(jù)過去經(jīng)驗不斷改進策略,實現(xiàn)策略優(yōu)化。該方法可較低復(fù)雜度地動態(tài)控制高通量衛(wèi)星各波束的功率分配,滿足衛(wèi)星請求容量和功率有效利用率的多優(yōu)化目標(biāo)需求。

        1 系統(tǒng)模型與問題公式化

        1.1 系統(tǒng)模型

        本文考慮了一種運行在Ka頻段的高吞吐量多波束衛(wèi)星系統(tǒng)。多波束衛(wèi)星系統(tǒng)通過多波束天線,產(chǎn)生多個點波束覆蓋地面區(qū)域。為突出資源分配中功率控制的優(yōu)化問題,假設(shè)饋線鏈路為無噪聲的,并將下行信道建模為加性高斯白噪聲(AWGN)信道。為了在每個波束上實現(xiàn)靈活的功率分配,假設(shè)衛(wèi)星有效載荷配備了必要的模塊,例如多端口放大器(MPAs)、行波管放大器(TWTAs)。多波束衛(wèi)星通信系統(tǒng)可以通過波束間的頻率復(fù)用來提高頻譜效率。假設(shè)信道分配方式為固定頻分復(fù)用,頻率復(fù)用因子為4,圖1描述了多波束衛(wèi)星通信。不過,多波束場景適用于任何形狀、大小的波束以及任何頻率復(fù)用模式。

        圖1 多波束衛(wèi)星通信示意圖

        衛(wèi)星在地面上的多波束表示為B={n|n=1,2,…,N}。功率控制屬于資源分配問題,通常資源分配還包括帶寬分配。通過四色復(fù)用,總可用下行帶寬Btot平均分布在4種顏色中,每一顏色的可用波束帶寬為Btot/4。除了每個波束功率分配外的載波分配,假設(shè)每一波束傳輸?shù)腗個載波,并平均共享每一顏色的可用波束帶寬,其中一個載波表示用于傳輸數(shù)據(jù)流的基本頻譜實體,載波帶寬Bc=Btot/(4M)。以上假設(shè)將系統(tǒng)可用帶寬Btot通過頻率復(fù)用并在波束和載波之間進行了分配,信道資源相互正交,提高了信道利用率。

        下面對系統(tǒng)總可用功率Ptot進行合理分配,使不同波束的比特速率滿足各自的流量需求。定義每個波束的功率分配矢量為Pb

        Pb=[Pb,1,Pb,2,…,Pb,M]

        (1)

        式中:Pb,c為分配給b波束載波c的功率,其中b=1,…,N;c=1,…,M,以波束為基礎(chǔ)的功率分配矩陣P表示為

        (2)

        然而,實際中波束轉(zhuǎn)發(fā)器的所有載波都由同一個放大器放大,因此對給不同載波分配的功率電平的范圍設(shè)置了限制。在假定的情形下,放大的載波輸出功率平均地分給帶寬相等的載波(Bc),因為載波的功率與它的帶寬成比例。因此,采用等功率載流子共享總波束功率。假定波束功率分配不均勻,同時每個波束載波功率分配均勻,載波發(fā)射功率Pb,c=Pb/M。最后用Pb(OBO)表示波束b的發(fā)射功率與所需輸出功率回退(Output back off,OBO)的關(guān)系。

        (3)

        由此可以計算出波束b內(nèi)載波c覆蓋范圍內(nèi)的終端接收的信干噪比(Signal to interference plus noise ratio,SINR),SINR的計算由DVB-S2采用的自適應(yīng)編碼和調(diào)制方案的總頻譜效率決定。由于波束增益和傳播信道條件在覆蓋范圍內(nèi)的變化,每個終端都有不同的SNIR值,如式(4)所示。

        (4)

        式中:N0為噪聲功率譜密度。它依賴于接收機天線和等效噪聲溫度以及覆蓋區(qū)域上的氣候條件,因為噪聲溫度會因降雨衰減而加劇。再根據(jù)香農(nóng)定理得到位于波束b的接收載波c在信道(Bc)上的信道容量,如式(5)所示。

        Cb,c=Bclog2(1+SINRb,c)=

        (5)

        1.2 問題公式化

        首先,針對波束間業(yè)務(wù)量分布不均勻的問題提高多波束衛(wèi)星系統(tǒng)的資源利用率,以滿足流量需求的同時最小化系統(tǒng)功耗為目標(biāo),完成功率資源分配。當(dāng)優(yōu)化變量為載波功率Pb,c時,則要滿足

        (6)

        (7)

        (8)

        (9)

        優(yōu)化目的是確定滿足各自流量需求的波束功率級Pb,同時使直流功耗最小。在有限的功率資源情況下,在較短的時間內(nèi)最佳地分配這些資源,降低總體未滿足系統(tǒng)需求(Unsatisfied system capacity ratio, USCR)和溢出系統(tǒng)需求的和(Overflow system capacity ratio, OSCR)分別為

        (10)

        (11)

        式中:Cb表示波束b提供的信道容量,Db表示波束b的流量需求。

        (12)

        (13)

        (14)

        Pb,t≥0 ?b∈B

        (15)

        式中:B為衛(wèi)星的波束集合。

        式(12)為多波束衛(wèi)星通信系統(tǒng)中動態(tài)功率分配的最優(yōu)化目標(biāo),其中α為加權(quán)常數(shù),用于定義兩個目標(biāo)之間的優(yōu)先級。式(13)表示每個波束分配的功率不應(yīng)超過單波束功率限制。式(14)表示波束總發(fā)射功率不應(yīng)超過衛(wèi)星的機載總功率。每個終端的下行容量,與分配的帶寬、功率、發(fā)射天線增益以及接收天線增益相關(guān)。當(dāng)終端位置確定時,可以通過調(diào)整帶寬、功率分配方式來調(diào)整信道容量。本文通過調(diào)整各波束分配的功率調(diào)整信道容量,在滿足系統(tǒng)需求的同時最小化系統(tǒng)功耗。

        2 深度強化學(xué)習(xí)算法

        作為機器學(xué)習(xí)的一種,強化學(xué)習(xí)在智能體與環(huán)境交互的過程中,通過環(huán)境的反饋提升自身決策能力。強化學(xué)習(xí)算法流程框圖如圖2所示。

        圖2 強化學(xué)習(xí)算法框圖

        基本的強化學(xué)習(xí)架構(gòu)由兩個基本要素組成:智能體和環(huán)境。給定狀態(tài)st表征某個時間步t的環(huán)境狀態(tài),智能體的目標(biāo)是采取將累計收益Gt最大化的動作at,定義為

        (16)

        式中:T為episode的長度,rk為在時間步k獲得的獎勵,γ為折扣因子。

        深度強化學(xué)習(xí)研究目前正處于快速發(fā)展階段,其涉及的算法有基于值函數(shù)的深度Q網(wǎng)絡(luò)及相關(guān)改進算法和深度確定性策略網(wǎng)絡(luò)、基于策略的近端策略優(yōu)化算法以及異步優(yōu)勢動作評判算法,還有同時訓(xùn)練多個任務(wù)的無監(jiān)督輔助強化學(xué)習(xí)。

        2.1 近端策略優(yōu)化(Proximal policy optimization,PPO)算法

        PPO算法是2017年由Open AI提出的一種DRL算法[11]。深度強化學(xué)習(xí)方法選用目前最先進的近端策略優(yōu)化算法,PPO 算法是策略梯度(Policy gradient)方法的一種改進算法。策略梯度算法作為基于策略的優(yōu)化方法,與基于值的優(yōu)化方法相比更適合應(yīng)用在具有連續(xù)的狀態(tài)動作空間的問題中。

        策略梯度方法對于訓(xùn)練步長的選擇十分敏感,過大或過小的步長均會造成非常差的結(jié)果,而PPO 算法的提出解決了訓(xùn)練步長難以確定的問題。在PPO算法中,通過限制每步策略更新的大小消除這種缺陷,使用clip 代理函數(shù)和自適應(yīng)kl懲罰和限制每次迭代時策略的更新大小。PPO 能夠在易于實現(xiàn)、樣本復(fù)雜度和易于調(diào)整之間實現(xiàn)平衡,對于連續(xù)控制問題有很好的性能,穩(wěn)定性和收斂性的優(yōu)勢使得PPO成為Open AI主推的深度強化學(xué)習(xí)方法。

        2.2 DRL架構(gòu)

        圖3顯示了針對多波束衛(wèi)星動態(tài)功率分配的DRL架構(gòu)。本文使用PPO算法的策略梯度方法改進分配策略。PPO算法通過與環(huán)境交互采樣數(shù)據(jù),并使用隨機梯度上升優(yōu)化“替代”目標(biāo)函數(shù)。由于該算法不允許對策略進行較大的連續(xù)更改,因此可以防止在某些情況下策略性能明顯變差的問題,使系統(tǒng)更加穩(wěn)定。

        圖3 DRL架構(gòu)

        本文通過神經(jīng)網(wǎng)絡(luò)給出功率分配策略。神經(jīng)網(wǎng)絡(luò)是一種基于大腦神經(jīng)結(jié)構(gòu)的非線性計算模型,能夠?qū)W習(xí)執(zhí)行分類、預(yù)測、決策和可視化等任務(wù)。由人工神經(jīng)元組成的人工神經(jīng)網(wǎng)絡(luò)組成3個相互連接的層:輸入層、隱藏層和輸出層。在訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)通過反向傳播作為一種有效的學(xué)習(xí)算法來計算損失函數(shù)的梯度,并調(diào)整每個神經(jīng)元的權(quán)值。如圖3所示,神經(jīng)網(wǎng)絡(luò)是對于Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)分別進行訓(xùn)練。狀態(tài)分別輸入到Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),圖中的Policy和Old policy都是Actor網(wǎng)絡(luò)。Old policy由Policy在訓(xùn)練完一個批次后進行更新。

        圖3中的環(huán)境由衛(wèi)星系統(tǒng)以及每個波束的流量需求組成,是與問題相關(guān)且智能體無法直接控制的內(nèi)容。智能體即衛(wèi)星根據(jù)環(huán)境狀態(tài)進行功率分配,即策略分配,根據(jù)環(huán)境狀態(tài)選擇動作,以及策略優(yōu)化算法,該算法根據(jù)過往經(jīng)驗不斷改進分配策略。功率分配中,連續(xù)變量為每束波束的流量需求以及分配給波束的功率值,因此不同的環(huán)境狀態(tài)和執(zhí)行動作的數(shù)量是無限的。在這種情況下,在分配策略中存儲每一個狀態(tài)的最佳動作是不切實際的,因此本文使用神經(jīng)網(wǎng)絡(luò)對策略進行建模,在輸入狀態(tài)和輸出動作之間實現(xiàn)可行的映射。

        2.2.1 狀態(tài)

        在衛(wèi)星總功率有限的情況下,波束通過選擇合適的傳輸功率來克服共信道干擾和降雨衰減的影響,滿足當(dāng)前的流量需求。該決策變量基于當(dāng)前時刻t波束需求Db與上一時刻波束提供容量Ct-1的差值。因此,狀態(tài)只與當(dāng)前時刻的流量需求狀況和上一時刻的動作,即上一時刻的功率分配情況有關(guān),將狀態(tài)表示為

        st=(Dt-Ct-1)

        (17)

        2.2.2 動作

        (18)

        2.2.3 收益

        收益的設(shè)計需要綜合考慮未滿足系統(tǒng)需求的比例USCR和溢出系統(tǒng)需求的比例OSCR, 通過α權(quán)重的設(shè)計,可以保證在滿足波束流量需求的前提下,使提供容量可以略大于流量需求。波束內(nèi)的信道容量越接近于流量需求,rt越接近于1,表征該狀態(tài)較好,反之表征該狀態(tài)較差。

        Reward=1-USCR(Pb,t)-α*OSCR(Pb,t)

        (19)

        式中:Cb,t表示t時刻波束b提供的信道容量,Db,t表示t時刻波束b的流量需求。

        2.2.4 下一時刻狀態(tài)

        下一個狀態(tài)是在時間步t+1觀察到的波束環(huán)境,該環(huán)境由時間步t中所有波束的動作確定。此外,通過對Reward范圍進行判斷,實現(xiàn)流量需求的變化。當(dāng)Reward處于設(shè)定的較好的范圍內(nèi)時,流量需求跳轉(zhuǎn)到下一時刻;當(dāng)Reward不能滿足當(dāng)前規(guī)定范圍時,流量需求不改變,直至Reward達到較好的值,此時狀態(tài)的改變直接由上一時刻的動作決定。

        2.3 算法實現(xiàn)

        算法實現(xiàn)流程主要分為初始化、訓(xùn)練更新和性能評估統(tǒng)計3個階段,其中初始化階段進行衛(wèi)星場景參數(shù)的初始化,以及PPO學(xué)習(xí)率等參數(shù)以及Actor及Critic網(wǎng)絡(luò)的初始化,在功率資源初始化階段,多波束衛(wèi)星星上總功率平均分配給各波束。訓(xùn)練更新階段,根據(jù)衛(wèi)星通信系統(tǒng)中各波束用戶通信業(yè)務(wù)請求情況以及系統(tǒng)中可用功率資源,完成功率動態(tài)分配的馬爾科夫決策過程(Markov decision process, MDP),進行功率分配策略的學(xué)習(xí)更新。最后在指定的訓(xùn)練周期內(nèi),繪制出訓(xùn)練期間內(nèi)性能指標(biāo)變化的曲線圖,以及對最后流量需求和提供的信道容量的柱狀圖進行對比,對智能體學(xué)習(xí)到的動態(tài)功率分配結(jié)果進行性能統(tǒng)計。下面對3個階段具體說明。

        (1)初始化階段

        ① 初始化衛(wèi)星通信場景相關(guān)參數(shù),工作頻段、系統(tǒng)帶寬、功率譜密度等。

        ② 初始化PPO算法的相關(guān)參數(shù),運行周期,每周期訓(xùn)練次數(shù),Actor和Critic網(wǎng)絡(luò)的學(xué)習(xí)率等。

        ③ 統(tǒng)計系統(tǒng)中各波束覆蓋情況以及波束的流量需求。

        (2) 訓(xùn)練與更新階段

        ① 每周期內(nèi)進行重置以及經(jīng)驗Buffer。

        ② PPO內(nèi)Actor網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)st選取動作at。

        ③ 環(huán)境根據(jù)選區(qū)的動作以及當(dāng)前狀態(tài)更新狀態(tài)并返回下一狀態(tài),收益和平均通信滿意度。

        ④ 儲存經(jīng)驗條目st,at,rt到經(jīng)驗池。

        ⑤ 如果訓(xùn)練次數(shù)等于訓(xùn)練批次,則計算優(yōu)勢函數(shù)、經(jīng)驗池內(nèi)數(shù)據(jù)與新網(wǎng)絡(luò)重置經(jīng)驗。

        (3) 性能評估

        根據(jù)每個周期內(nèi)計算的周期平均收益、周期平均通信滿意度繪制曲線圖。

        3 仿真結(jié)果分析

        本文的仿真平臺為Python3.6.0。在多波束衛(wèi)星通信系統(tǒng)中,地球同步軌道(Geosynchronous earth orbit,GEO)衛(wèi)星各波束間業(yè)務(wù)量非均勻分布,終端用戶利用所分配的帶寬、功率等資源與GEO衛(wèi)星進行通信,并根據(jù)各用戶下行容量計算系統(tǒng)容量,將各方案進行對比。

        (1)仿真參數(shù)設(shè)計

        在考慮的GEO多波束衛(wèi)星功率分配仿真場景中,衛(wèi)星處于Ka波段,工作頻段為20 GHz,產(chǎn)生N=37個點波束覆蓋地面區(qū)域,表示為B={n|n=1,2,…,N} ,可用總帶寬為Btot=500 MHz,可用總功率Ptot=2 000 W。表1為多波束衛(wèi)星動態(tài)功率分配系統(tǒng)的仿真參數(shù)。近端策略優(yōu)化(PPO)算法參數(shù)的設(shè)置如表2所示。

        (2)仿真結(jié)果

        本文使用系統(tǒng)一日服務(wù)作為參考,每一小時對系統(tǒng)流量請求進行采樣并對37波束動態(tài)功率分配。隨著時間的變化,實際的業(yè)務(wù)量分布是不均勻的。圖4顯示了一天中流量變化的假定曲線。如圖所示,一天的流量高峰時段是上午7:00~9:00和下午14:00~18:00左右,而清晨和深夜是流量需求相對較低的時間段。

        表1 動態(tài)功率分配場景仿真參數(shù)

        表2 PPO算法參數(shù)設(shè)計

        圖4 24小時流量需求變化圖

        為了更好地理解所提算法的優(yōu)勢,在圖5~8中分別將4個不同時刻包括高峰、非高峰的請求流量與提供容量進行了對比。

        圖5~8中,藍色矩形代表流量需求,綠色矩形代表提供的信道容量??梢钥吹搅髁啃枨筝^低時,各波束均能滿足終端的流量需求;流量需求較高時,分配的功率可以滿足大多數(shù)波束的流量需求。仿真結(jié)果表明,該算法能夠靈活地分配功率資源,功率資源利用率更高。

        圖5 12:00時流量需求與提供容量

        圖6 5:00時流量需求與提供容量

        圖7 9:00時流量需求與提供容量

        圖8 18:00流量需求與提供容量

        收益隨時間變化情況如圖9所示,未滿足系統(tǒng)需求與溢出系統(tǒng)需求的和USCR+OSCR隨時間變化情況如圖10所示。

        圖9 Reward、(USCR+OSCR)收斂圖

        圖10 48小時需求與提供容量對比

        圖10為48小時歸一化后的流量需求與提供容量對比,與文獻[8]相比,提供容量不僅對峰值需求產(chǎn)生響應(yīng),當(dāng)需求量較低時,智能體也能為波束分配合理的功率,減少衛(wèi)星資源的浪費。此外,由于衛(wèi)星通信有較大的時延,訓(xùn)練網(wǎng)絡(luò)放在地面端,并將訓(xùn)練好的輸入和輸出數(shù)據(jù)集在衛(wèi)星端引入深度學(xué)習(xí),生成一個可以直接感知狀態(tài)并輸出功率的深度學(xué)習(xí)網(wǎng)絡(luò)。圖11為Loss曲線收斂圖,輸入一個流量需求,深度學(xué)習(xí)網(wǎng)絡(luò)可以馬上生成對應(yīng)狀態(tài)的功率。

        圖11 Loss曲線收斂圖

        4 結(jié)論

        本文提出并驗證了一種基于策略的近端策略優(yōu)化算法的衛(wèi)星功率動態(tài)控制方法。實驗結(jié)果表明,基于近端策略優(yōu)化算法的衛(wèi)星動態(tài)功率控制方法表現(xiàn)出不錯的性能,能較好地處理實際的流量需求,并給出不同波束的最優(yōu)功率分配值。同時,本文對衛(wèi)星功率分配系統(tǒng)模型做了較全面的分析,為后續(xù)研究更加貼合實際的衛(wèi)星場景打下了基礎(chǔ),但是本文所實現(xiàn)的內(nèi)容還有不足,后續(xù)需要對DRL架構(gòu)進一步完善,并進一步驗證智能體的泛化能力。

        猜你喜歡
        波束載波分配
        應(yīng)答器THR和TFFR分配及SIL等級探討
        遺產(chǎn)的分配
        毫米波大規(guī)模陣列天線波束掃描研究*
        一種分配十分不均的財富
        績效考核分配的實踐與思考
        圓陣多波束測角探究
        電子測試(2018年6期)2018-05-09 07:31:54
        Helix陣匹配場三維波束形成
        應(yīng)急廣播系統(tǒng)中副載波的構(gòu)建與應(yīng)用
        基于非正交變換的局域波束空時自適應(yīng)處理
        低壓載波通訊測試儀的開發(fā)與應(yīng)用
        最新国产精品精品视频| 老妇女性较大毛片| 一卡二卡三卡视频| 色偷偷女人的天堂亚洲网| 国产自拍成人在线免费视频| 成熟了的熟妇毛茸茸| 少妇高潮惨叫正在播放对白| 国产成人精品亚洲午夜| 女同中文字幕在线观看| 亚洲最全av一区二区| 亚洲av永久无码精品| 99热精品国产三级在线观看| 亚洲色图第一页在线观看视频| 后入丝袜美腿在线观看| 免费人成视频xvideos入口| 91精彩视频在线观看| 国产中文字幕亚洲综合| 国产日韩厂亚洲字幕中文| 99国产精品人妻噜啊噜| 国产午夜精品理论片| 国产一区二区一级黄色片| 国产女人精品视频国产灰线| 人人爽人人澡人人人妻| 国产最新AV在线播放不卡| 亚洲伊人伊成久久人综合| 日本三级片在线观看| 无码人妻丰满熟妇区五十路百度| 国产精品高潮av有码久久| 亚洲a级视频在线播放| 亚洲国产欧美在线观看| 欧美日韩亚洲精品瑜伽裤 | 亚洲av中文字字幕乱码| 日本久久伊人特级黄色| 欧美大屁股xxxxhd黑色| 久久亚洲国产欧洲精品一| 国产成人亚洲系列毛片| 亚洲av久久久噜噜噜噜| 久久青草伊人精品| 久草视频在线播放免费| 国产在线无码不卡影视影院| 小12箩利洗澡无码视频网站|