亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        認知車聯(lián)網(wǎng)中基于改進的強化學習的頻譜接入方法

        2023-09-17 05:40:18陳玲玲趙全軍
        電子制作 2023年16期
        關(guān)鍵詞:鏈路頻譜信道

        陳玲玲,趙全軍

        (吉林化工學院 信息與控制工程學院,吉林吉林,132022)

        0 引言

        近些年,伴隨著通信技術(shù)的高速發(fā)展以及物聯(lián)網(wǎng)與智能汽車的普及,交通行業(yè)也逐漸走向了智能化,車聯(lián)網(wǎng)技術(shù)成為物聯(lián)網(wǎng)與智能汽車兩大領(lǐng)域的重要交集[1~3]。因此車聯(lián)網(wǎng)在智能交通系統(tǒng)中扮演著重要角色。隨著通信需求爆發(fā)式增長,充分利用頻譜資源成為車聯(lián)網(wǎng)通信的一項重要挑戰(zhàn)。

        為了提高頻譜利用率[4],認知無線電能夠通過對空閑頻段的智能使用這種方式恰好可以滿足車聯(lián)網(wǎng)通信的需求。于是,認知車聯(lián)網(wǎng)的概念從此被提出[5-6],即能夠支持認知無線電技術(shù)的車聯(lián)網(wǎng)。認知車聯(lián)網(wǎng)是指通過車載傳感器、認知無線電等技術(shù),使車輛之間、車輛與基礎(chǔ)設(shè)施之間建立起智能化交互,實現(xiàn)信息共享和協(xié)同決策,提高交通安全性、舒適性和效率的新型交通系統(tǒng)。認知車聯(lián)網(wǎng)能通過感知、分析和推理來獲取對車輛及其周圍環(huán)境的認知能力,并通過車輛間和車路間通信來實現(xiàn)協(xié)同決策和共同優(yōu)化的車輛互聯(lián)網(wǎng)簡單來說,就是將車輛、道路和智能化設(shè)備進行互聯(lián)互通,形成一個智能化的交通網(wǎng)絡(luò),通過共享和交換數(shù)據(jù),實現(xiàn)車輛和交通基礎(chǔ)設(shè)施之間的智能互動和協(xié)同決策,從而提升整個交通系統(tǒng)的效率、安全性和舒適性。在認知車聯(lián)網(wǎng)中,車輛類型主要分為兩種:授權(quán)車輛與認知車輛[7-8]。授權(quán)車輛優(yōu)先使用授權(quán)頻段進行數(shù)據(jù)傳輸,認知車輛感知信道狀態(tài)嘗試使用未被授權(quán)車輛占有的頻段,于是動態(tài)頻譜接入是認知車聯(lián)網(wǎng)中的重要難題之一。近些年來,強化學習[9~12]逐漸用來解決動態(tài)頻譜接入問題。

        本文提出了基于新型強化學習的認知車聯(lián)網(wǎng)頻譜接入的方法,構(gòu)建了存在多個認知車輛,同時包含V2V 與V2I兩種不同通信鏈路的認知車聯(lián)網(wǎng)環(huán)境。通過對比貪婪算法和傳統(tǒng)的強化學習方法,所提方法能夠有效提高認知車輛接入信道的成功率,本文同時探索了認知車輛數(shù)目所提方法的影響,進一步說明所提方法的穩(wěn)定性。

        1 認知車聯(lián)網(wǎng)通信系統(tǒng)模型

        本文建立一個存在V2V 鏈路與V2I 鏈路的認知車聯(lián)網(wǎng)通信模型,為了保證可靠的通信環(huán)境,假設(shè)每輛車都配備了一個發(fā)射機與一個接收機,并且每一條信道僅被一輛授權(quán)車輛占用。正如圖1 所示,本文考慮的認知車聯(lián)網(wǎng)場景中包含C輛授權(quán)車輛與V輛認知車輛兩種類型。授權(quán)車輛優(yōu)先使用授權(quán)頻段進行數(shù)據(jù)傳輸,例如應(yīng)急救護車與移動演播室車等。為了防止授權(quán)車輛之間產(chǎn)生干擾,每一條信道僅被一輛授權(quán)車輛占用。如果信道被授權(quán)車輛占用,認知車輛應(yīng)該被限制接入信道,如果當授權(quán)車輛沒有占有信道時,認知車輛可以接入信道用于通信。在實際的認知車聯(lián)網(wǎng)中,在認知車輛接入信道之前,認知車輛需要對信道進行感知。

        圖1 認知車聯(lián)網(wǎng)通信模型

        在基站的通信覆蓋范圍內(nèi),所有的車輛以隨機分布的形式存在。因此,本文將所有的車輛映射在一個位于第一象限的二維空間中,其中X軸的范圍為[0,M],Y軸的范圍[0,N]。,(xBS,yBS),分別代表第i對認知車輛的發(fā)射機T的位置,第i對認知車輛的接收機R的位置,第j對授權(quán)車輛的發(fā)射機T的位置和第j對授權(quán)車輛的接收機R的位置以及基站的位置。其中i={1,…,V},j={1,…,C}。

        由于本文所設(shè)計的反饋函數(shù)是與信干噪比(Signal-to-Interference-Plus-Noise Ratio,SINR)有所關(guān)聯(lián),所以我們需要計算V2V 鏈路與V2I 鏈路的SINR。在V2V 鏈路中的信干噪比SINRV2V公式為:

        在V2I 鏈路中的信干噪比SINRV2I公式為:

        2 基于改進強化學習的頻譜接入方法

        在認知車聯(lián)網(wǎng)環(huán)境中,本文采用強化學習方法解決動態(tài)頻譜接入問題。本小節(jié)針對所研究的認知車輛網(wǎng)中頻譜接入的問題設(shè)計合理的狀態(tài)空間,動作空間與反饋函數(shù)。

        ■2.1 狀態(tài)空間的設(shè)計

        由于所提出的認知車聯(lián)網(wǎng)中假設(shè)了一條信道中只被一輛授權(quán)車輛占用,即正交信道集合為{1,2,…,C}。授權(quán)車輛存在兩類活動模式,在任意時刻授權(quán)車輛都處于兩類活動模式中的一類。這兩類活動模式分別為:動態(tài)(Dynamic)與非動態(tài)(Undynamic)。當授權(quán)車輛處于動態(tài)的時候,意味著授權(quán)車輛正在使用信道進行通信,信道處于忙碌狀態(tài),認知車輛則限制接入信道;當授權(quán)車輛處于非動態(tài)的時候,意味著信道處于空閑狀態(tài),認知車輛則允許接入信道完成通信。如圖2 所示,將授權(quán)車輛的活動模式構(gòu)建為二維的離散時間的馬爾科夫鏈,說明每一條信道都是獨立的,互不干擾。一條信道從空閑狀態(tài)轉(zhuǎn)移到忙碌/空閑狀態(tài),或者從忙碌狀態(tài)轉(zhuǎn)移到忙碌/空閑狀態(tài)的轉(zhuǎn)移可能性不依賴于其他任何信道。轉(zhuǎn)移概率矩陣如下:

        在認知車輛在進行頻譜接入之前,每一個認知車輛對每一條信道進行頻譜感知,去感知信道處于空閑狀態(tài)還是忙碌狀態(tài),感知結(jié)果矩陣設(shè)計為狀態(tài)空間。其中,v={1,…,V},c={1,…,C},=0表示t時刻第v個認知車輛感知到第c條信道被占用,=1表示t時刻第v個認知車輛感知到第c條信道未被占用。

        ■2.2 動作空間的設(shè)計

        認知車輛的感知結(jié)果決定認知車輛是否接入信道,構(gòu)成了動作空間:

        其中av(t)=c(c>0),表示第v輛認知車輛選擇接入第c條信道進行數(shù)據(jù)傳輸,av(t)=0表示第v輛認知車輛不接入任何的信道。

        ■2.3 反饋函數(shù)的設(shè)計

        在傳統(tǒng)的基于強化學習的認知車聯(lián)網(wǎng)頻譜接入中,反饋函數(shù)r(t+)1 的設(shè)計如下:

        其中β為一個常數(shù)。

        傳統(tǒng)的反饋函數(shù)設(shè)計過于簡單,并沒有考慮到真實的現(xiàn)實情況的復雜性。在V2V 與V2I 鏈路中,根據(jù)認知車輛不同接入情況下的信干噪比,本文重新設(shè)計反饋函數(shù)rv(t+1),公式如下:

        其中B為信道帶寬,SINR∈{SINRV2I,SINRV2V}。

        本文的目的是利用強化學習方法獲取最大的累積反饋Rv,進而提高接入認知車輛成功率,公式如下:

        其中γ∈[0,1]為折扣因子,T為時間。

        ■2.4 算法流程

        所提算法目的在滿足獲取最大的累積反饋Rv,其表示如下:

        圖3 展示基于強化學習的頻譜接入的學習過程,通過不斷的學習進而學習到一個策略使累積反饋Rv達到最大。

        圖3 強化學習交互環(huán)境

        首先認知車輛在獲得某個信道的感知結(jié)果s時,通過主要網(wǎng)絡(luò)(Primary Q-network)可以得到各個動作的Q值,Q值用來評估認知車輛接入策略的好壞程度。然后認知車輛再利用貪婪策略進行動作選擇,將相應(yīng)的動作a輸入到車聯(lián)網(wǎng)環(huán)境中,最后得到s′和r,這樣就得到一個經(jīng)驗(s,a,r,s′)并將其存儲到經(jīng)驗池當中。訓練時從經(jīng)驗池中取出一定數(shù)量的數(shù)據(jù)進行神經(jīng)網(wǎng)絡(luò)的優(yōu)化。由圖3 可知首先根據(jù)兩個結(jié)構(gòu)相同的主要網(wǎng)絡(luò)和目標網(wǎng)絡(luò)(Target Q-network)進行損失函數(shù)的構(gòu)建,在整個過程中通過實現(xiàn)損失函數(shù)最小化進而尋找到最優(yōu)策略,損失函數(shù)L(θ)如下:

        其中,θ為網(wǎng)絡(luò)參數(shù)。為目標Q網(wǎng)絡(luò),Q(s,a;θ)為當前Q網(wǎng)絡(luò),s′表示下一時刻的認知車輛的頻譜感知結(jié)果,a′表示下一時刻的認知車輛的動作。目標Q網(wǎng)絡(luò)與當前Q網(wǎng)絡(luò)的網(wǎng)絡(luò)完全相同。在訓練過程中,Q值根據(jù)公式(10)不斷更新。在Q值不斷更新的過程中,動作a′根據(jù)公式(11)進行策略π的更新,具體公式如下:

        其中,Q1(·) 表示目標Q網(wǎng)絡(luò)的Q函數(shù),Q2(·)表示當前Q網(wǎng)絡(luò)的Q函數(shù),表示更新后的Q值,表示原始的Q值,智能體會周期性在經(jīng)驗池中隨機地選擇樣本進行訓練。其中ε的范圍為 ε∈[0,1),網(wǎng)絡(luò)參數(shù)不斷迭代更新,最終逐漸收斂到最優(yōu)策略。

        3 實驗與結(jié)果

        本文采用貪婪算法,強化學習算法作為對比算法,通過試驗仿真來驗證所提方法在收斂速度與性能遠遠優(yōu)于其他對比方法。同時實驗還探討了認知車輛數(shù)目對所提方法的影響。

        如圖4 所示,認知車聯(lián)網(wǎng)存在5 個認知車輛,10 條信道。為了公平對比,所提方法與其他對比的方法都設(shè)置了相同的模型參數(shù)。如圖4 中所示,總體而言,所提方法的性能與收斂速度明顯優(yōu)于其他方法。對于貪婪算法而言,其平均信道成功接入率基本不變,這是由于貪婪算法無法利用未來的信息,導致無法得到最優(yōu)的累積獎勵。然而傳統(tǒng)的強化學習算法的反饋函數(shù)設(shè)計得過于簡單,并不能有效地減少各類碰撞。訓練開始,所提方法的信道接入率比其他對比方法都高。總體而言,在認知車輛的接入信道的平均成功接入率,所提出方法的收斂性與性能明顯優(yōu)于對比算法。

        圖4 平均成功接入率

        為了探究所提方法的穩(wěn)定性,如圖5 通過構(gòu)建相同信道數(shù)目,不同認知車輛的數(shù)目的認知車聯(lián)網(wǎng)環(huán)境,用來探究認知車輛數(shù)目對所提方法的影響。伴隨著訓練次數(shù)的不斷增加,三種不同認知車聯(lián)網(wǎng)環(huán)境下的認知車輛的平均信道成功接入率都開始趨向收斂。由于所提方法考慮到了多種反饋以及競爭網(wǎng)絡(luò)能夠處理大尺度的動作集合與狀態(tài)集合,最終,三種不同認知車聯(lián)網(wǎng)環(huán)境下的認知車輛的信道接入率都達到了90%左右。

        圖5 平均成功接入率

        如圖6 所示,在認知車輛的平均累積反饋方面,所提方法的平均反饋值明顯優(yōu)于對比算法,這是由于所提方法考慮到了認知車輛在當下狀態(tài)中每一個動作的重要性。從圖6中可以看出,所提方法的收斂性和性能明顯優(yōu)于傳統(tǒng)的強化學習算法和貪婪算法的收斂性和性能。

        圖6 平均累積反饋

        4 結(jié)語

        在本文中,所提方法考慮了一個包含V2V 與V2I 鏈路認知車聯(lián)網(wǎng)通信環(huán)境,建立以提高認知車輛接入信道成功率的動態(tài)頻譜接入問題的模型。為了提高接入信道成功率,本文將認知車輛的頻譜感知結(jié)果與認知車輛是否接入信道分別作為所提方法中的狀態(tài)空間與動作空間。根據(jù)認知車輛的信干噪比設(shè)計反饋函數(shù),本文提出了改進的強化學習方法用來提高認知車輛的頻譜接入率。通過對比傳統(tǒng)的強化學習算法與貪婪算法,本文所提出的改進的強化學習方法性能優(yōu)于其他對比算法。同時還探討了認知車輛數(shù)目對所提方法的影響,通過仿真實驗證明,所提方法并不受認知車輛數(shù)目的影響,所提的方法具有顯著的穩(wěn)定性與收斂性。

        猜你喜歡
        鏈路頻譜信道
        家紡“全鏈路”升級
        天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應(yīng)調(diào)度技術(shù)
        移動通信(2021年5期)2021-10-25 11:41:48
        一種用于深空探測的Chirp變換頻譜分析儀設(shè)計與實現(xiàn)
        一種基于稀疏度估計的自適應(yīng)壓縮頻譜感知算法
        基于導頻的OFDM信道估計技術(shù)
        認知無線電頻譜感知技術(shù)綜述
        一種改進的基于DFT-MMSE的信道估計方法
        基于MED信道選擇和虛擬嵌入塊的YASS改進算法
        基于3G的VPDN技術(shù)在高速公路備份鏈路中的應(yīng)用
        一種基于GPU的數(shù)字信道化處理方法
        欧美日本国产va高清cabal| 免费国产黄片视频在线观看| 动漫av纯肉无码av在线播放| 蜜臀aⅴ永久无码一区二区| 不卡av一区二区在线| 丰满人妻熟妇乱又仑精品| 午夜成人鲁丝片午夜精品 | 亚洲av日韩av高潮潮喷无码| 中文字幕影片免费在线观看| 人妻少妇精品视中文字幕国语| 亚洲人成精品久久熟女| 亚洲s色大片在线观看| 国产啪亚洲国产精品无码| 丰满多毛少妇做爰视频| 久久久国产精品粉嫩av| 高清少妇一区二区三区| 公厕偷拍一区二区三区四区五区| 伊人久久大香线蕉av波多野结衣| 国产激情精品一区二区三区| 手机看片福利日韩国产| 亚洲一区二区三区在线高清中文 | 一区二区三区四区午夜视频在线| 免费在线视频亚洲色图| 午夜视频在线观看视频在线播放| 无码精品久久久久久人妻中字| 亚洲av无码一区二区乱子伦as| 天天综合久久| AV在线中出| 精品人妻av一区二区三区四区| 亚洲一区二区三区乱码在线中国| 精品国产一区av天美传媒| 日韩中文在线视频| 视频国产一区二区在线| 欧美乱大交xxxxx潮喷| 97久久久久人妻精品专区| 精品人妻中文字幕一区二区三区| 免费在线观看av不卡网站| 美女高潮黄又色高清视频免费| 精品免费看国产一区二区| 国产精品99精品一区二区三区∴| 免费女女同黄毛片av网站|