亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學習的應急通信研究

        2020-12-07 06:46:52朱連偉
        現代計算機 2020年30期
        關鍵詞:動作智能環(huán)境

        朱連偉

        (安徽工業(yè)大學管理科學與工程學院,馬鞍山243032)

        0 引言

        隨著通訊技術的發(fā)展和科技的進步,互聯網已經深入到了人們生活的各個角落,而且隨著擁有高寬帶、低時延、多點連接特點的5G 網絡的出現和應用,人們在現在的生活在越來難以離開通信網絡。所以當遇到自然災害導致通訊設施毀壞時,這對受災區(qū)域人們的生活和營救人員的通訊都會造成很大的影響,雖然現在有通訊衛(wèi)星、通訊車和通訊氣球可以用于災害區(qū)域的緊急聯絡,但是都會有著通訊范圍、傳輸數據量和使用時等問題之中的一個或者多個問題。所以怎么解決災害區(qū)域的通信問題是在移動網絡研究中一個比較重要的問題。

        而在應急通信中,國際上通常使用的手段時使用空中平臺中繼通信,而且空中平臺中繼通信可以很好地解決在地形復雜區(qū)域的信號覆蓋問題[1]。無人機擁有機動性好、生存能力強、部署迅速的特點,將無人機當成空中平臺中繼通信應用在災害區(qū)域用于應急通信和救災指揮具有著重要的實際意義和應用前景[2]。

        強化學習就是學習“做什么才能使得數值化的收益信號最大”,學習者不會被告知應該采取什么動作,而是必須自己通過嘗試去發(fā)現那些動作會產生最豐厚的收益。強化學習最大的特點就是考慮的是長期收益最大化,即目標是最優(yōu)解,所以使用強化學習的理論和模型對以無人機為中繼通信節(jié)點的問題進行建模,從而找到研究問題中的最優(yōu)解。

        1 強化學習

        1.1 強化學習要素

        在強化學習中,除了采取學習行為的智能體和智能體所處的環(huán)境之外,強化學習系統還有以下幾個子要素:策略、回報信號、價值函數以及可選的環(huán)境模型(Model-Free or Model Based)。

        (1)策略(Policy):定義了一個特定時刻智能體的行為方式,一般用π 表示。簡單來說,策略是一個從當前感知到的環(huán)境狀態(tài)到該狀態(tài)下采取的動作的一個映射。它對應于心理學中被稱為“刺激-反應”的規(guī)則或關聯關系。在某些情況下,策略可能是一個簡單的函數或者是一個查找表,然而在其他情況下,也可能涉及大量的計算,例如搜索過程。策略本身是可以決定行為的,因此策略是強化學習智能體的核心。一般來說,策略可能是環(huán)境所在狀態(tài)和智能體所采取的動作的隨機函數。

        (2)回報信號(Reward):定義了強化學習問題中的目標,一般用R 表示。在每一步中,環(huán)境向強化學習智能體發(fā)送一個稱為收益的標量數值。智能體的唯一目標就是最大化長期總收益。因此,收益信號是改變策略的主要基礎,如果策略選擇的某個動作導致了一個低的回報,那么這個策略可能會改變自己以便于在將來相同的情景下獲得更多的回報。

        (3)價值函數(Value Function):表示從長遠的角度看什么是好的,簡單地說,一個狀態(tài)的價值是一個智能體從這個狀態(tài)開始,對將來累積的總收益的期望,一般用vπ(s)表示。盡管收益決定了環(huán)境狀態(tài)直接、即時、內在的吸引力,但是價值表示了接下來所有可能狀態(tài)的長期期望。

        (4)環(huán)境模型:這是一種對環(huán)境的反應模式的模擬,或者更一般的說,它允許對外部環(huán)境的行為進行推斷。例如,給定一個狀態(tài)和動作,模型就可以預測外部環(huán)境的下一個狀態(tài)和下一個收益。環(huán)境模型會被用于做規(guī)劃。使用環(huán)境模型和規(guī)劃來解決強化學習問題的方法被稱為有模型方法。而簡單的無模型方法就是直接的試錯,這與有目標地進行規(guī)劃恰好相反。

        1.2 強化學習的基本學習過程

        圖1 解釋了強化學習的基本過程。進行操作的主體來做決策,即選擇一個合適的動作(Action)At。而系統(環(huán)境)有自己的狀態(tài)模型,我們選擇了動作At后,環(huán)境的狀態(tài)(State)會變,我們會發(fā)現環(huán)境狀態(tài)已經變?yōu)镾t+1,同時我們得到了我們采取動作At的延時獎勵(Re?ward)Rt+1。

        圖1 強化學習過程

        在上面介紹強化學習的基本原理中涉及以下到幾個強化學習的要素。

        首先是比較簡單地三個:環(huán)境狀態(tài)S,t 時刻環(huán)境的狀態(tài)St是它的環(huán)境狀態(tài)集中某一個狀態(tài);個體的動作A,t 時刻個體采取的動作At是它的動作集中某一個動作;環(huán)境的獎勵R,t 時刻個體在狀態(tài)St采取的動作At對應的獎勵Rt+1會在t+1 時刻得到。當有給定策略的時候,一般會計算累積回報,計算公式如下:

        其中γ是獎勵衰減因子,在[0,1]之間。如果為0,則是貪婪法,即價值只由當前延時獎勵決定,如果是1,則所有的后續(xù)狀態(tài)獎勵和當前獎勵重要性一樣。大多數時候,我們會取一個0 到1 之間的數字,即當前延時獎勵的權重比后續(xù)獎勵的權重大。

        其次是個體的策略π,最常見的策略表達方式是一個條件概率分布π(a|s),即在狀態(tài)s 時采取動作a 的概率。即π(a|s)=P(At=a|St=s)此時概率大的動作被個體選擇的概率較高。

        最后是個體在策略π和狀態(tài)s 時,采取行動后得到的價值(value),一般用vπ(s)表示。這個價值一般是一個期望函數。雖然當前動作會給一個延時獎勵Rt+1,但是光看這個延時獎勵是不行的,因為當前的延時獎勵高,不代表到了t+1,t+2,...時刻的后續(xù)獎勵也高。因此我們的價值要綜合考慮當前的延時獎勵和后續(xù)的延時獎勵。價值函數vπ(s)一般可以表示為下式:

        強化學習的基本方法就是通過智能體與環(huán)境的多次交互進行多次學習,然后根據學習到的收益來更新相關的價值函數,理想情況是通過多次學習來獲取一個真實的價值函數,也就是最終獲得最優(yōu)的結果。

        2 強化學習在無人機應急通信中的應用

        2.1 應急通信的發(fā)展狀況

        目前世界上的應急通信方式基本有三種,分別是應急通信車、通信衛(wèi)星和通信氣球,而應急通信車可以將突發(fā)事件產生地點的聲音圖像傳給指揮中心,同時還可以通過應急通信保障指揮系統保障通信[3]。通信衛(wèi)星可以在災害發(fā)生第一時間獲取災區(qū)信息,同時也可以將信息送至相關部門,同時還可以對災區(qū)的即時情況進行跟蹤,保障災區(qū)和外界之間的通訊和聯絡[4]。衛(wèi)星通信雖然在應急通信中有很大的優(yōu)勢,但是衛(wèi)星通信往往需要專用的通信設備(例如衛(wèi)星電話),所以很難大規(guī)模應用[5]。所以,許多國家也十分重視應急信息無線電發(fā)布系統的研發(fā)工作[6],國際上許多標準化組織也在從事相關標準的研究。而且無線電發(fā)布系統需要一定的通信設施。這也就導致在通訊設施損壞的災區(qū)很難使用。

        雖然國內外對與應急通信都有很多研究,但是這些研究在無基礎通信設施的情況下效果并沒有達到十分好的結果,所以很多研究人員提出了基于無人機的應急通信網絡研究[7]。其中有結合智能手機的藍牙功能和Wi-Fi 功能來構建臨時的mesh 網絡,并通過mesh 網絡來將災區(qū)的受災信息已分布式的方法儲存在網絡節(jié)點,最后通過無人機將這些存儲的信息傳送給相關的部門以支援災區(qū)救援[8]。

        由于無線自組網應用在應急通信的時候可以為救災工作提供方便、穩(wěn)定和靈活的通信服務[9],所以將無人機應用于應急網絡的同時使用自組網來代替毀壞的通信設施,這兩者結合應該會有較好的結果。因此可以使用無線自組網來代替損壞的通訊設施來接收災區(qū)的數據,然后通過無人機來將自組網絡中的數據轉發(fā)給附近的基站從而實現與外界網絡的聯系。

        2.2 強化學習在無線通信的應用

        強化學習是機器學習的一種,也是通過反復訓練來得到一個好的結果,強化學習的特點就是在智能體與環(huán)境交互后獲得的收益來更新策略,目標是最大化最終收益,所以對于無線通信網絡,強化學習可以應用到路由協議上面,例如通強化學習方法來學習得到當前網絡狀況下最好的數據傳輸路徑[10],這里作者將無線傳感器網絡當做環(huán)境,然后將節(jié)點當成智能體,節(jié)點根據數據的優(yōu)先級、與鄰居節(jié)點之間的鏈路質量等信息選擇路由,然后或得一個收益,最后通過強化學習得到一個較優(yōu)的路由路徑。也有不少研究者將強化學習用于無線電動態(tài)頻譜分配,例如將強化學習用于學習引擎,通過采取動作獲取的收益值來認識動作策略對于環(huán)境的影響,其中有用來學習信道狀況,收益是吞吐量和分組成功傳輸功率,所以最大化收益能夠增強網絡的性能。同時文獻中提到了強化學習在動態(tài)信道的選擇上有以下優(yōu)勢:強化學習幫助用戶適應于不確定的動態(tài)的環(huán)境,還有就是可以讓操作環(huán)境和信道的異構性的復雜度可以最小化[11]。本文關注的是使用路由器搭建自組網絡,然后將無人機當成移動基站來收集和轉發(fā)來自網絡中的數據達到和外界聯通的效果。這種模式擁有布置速度快和靈活性高的優(yōu)點,而引入強化學習后,可以通過強化學習去尋找使得當前條件下效果最好的一條無人機的移動路徑。

        2.3 無線網絡生存時間最大化

        如圖2 所示的網絡模型,其中地面部分是由N 個路由器組成的無線自組網絡,主要功能是為用戶提供數據傳輸服務。而天空中的無人機則是充當一個移動基站,負責將無線自組網中的數據傳輸給遠程的基站,從而實現用戶和外界的通信。這種網絡模型的特點是無線自組網布置便捷快速,在受災區(qū)域能夠快速搭建起臨時網絡,而且無人機是一個空中的移動基站,受地面環(huán)境影響較小。同時由于路由器在災區(qū)布置時會存在能量的限制,所以研究的方向是利用無人機的移動性來延長路由器網絡的生存時間。在強化學習中,無人機就是強化學習中的智能體,而無線自組網絡就是強化學習中的環(huán)境,而智能體在每一步中選擇動作也就是無人機決定下一步飛的方向,這個方向可以是連續(xù)的,也就是在無人機所處的平面隨意選擇方向移動,這是一個連續(xù)的動作空間,但是也可以將空間簡單地離散化,例如只有四個方向東、南、西、北,或者更加的細化,無人機選擇移動方向和環(huán)境交互產生的收益就是網絡的生存時間,無人機移動的最終目標就是使得無線自組網絡的生存時間最大化,即通過強化學習的方法來學習得到一條無人機的移動路徑,使得地面的無線自組網絡生存時間最大。

        圖2 網絡模型

        3 結語

        本文介紹路由器組成的無線自組網在應急通訊中的優(yōu)勢,并且可以用無人機作為移動基站來優(yōu)化無線自組網的生存時間。對如何選擇無人機的路徑方面提出了使用強化學習方法,無人機也就是強化學習中的智能體通過學習得到一條移動路徑從而使得網絡的生存時間最大。

        猜你喜歡
        動作智能環(huán)境
        長期鍛煉創(chuàng)造體內抑癌環(huán)境
        一種用于自主學習的虛擬仿真環(huán)境
        孕期遠離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動作描寫要具體
        畫動作
        亚洲Av无码专区尤物| 午夜视频在线在免费| 亚洲精品成人网站在线观看| 日韩一二三四精品免费| 中文字幕亚洲精品综合| 精品亚洲一区二区三区四 | 黄片亚洲精品在线观看| 久久天堂精品一区二区三区四区| 中文在线8资源库| 思思99热精品免费观看| 偷拍女厕尿尿在线免费看| 神马不卡影院在线播放| 天天做天天爱夜夜夜爽毛片| 国产综合无码一区二区色蜜蜜| 亚洲中文字幕无码卡通动漫野外| 人妻中出中文字幕在线| 少妇性俱乐部纵欲狂欢少妇| 国产黄在线观看免费观看不卡| 2021精品国产综合久久| 久久亚洲宅男天堂网址| 欧美牲交a欧美牲交aⅴ免费下载| 大香伊蕉国产av| 久久久久国产精品片区无码| 中文字幕人妻精品一区| 久久久久成人精品无码中文字幕| 中文字幕无码精品亚洲资源网久久| 国产在线观看精品一区二区三区| 亚洲一区二区三区高清在线观看| 亚洲国产精华液网站w| 久久无码精品精品古装毛片| 国产精品黑丝美女av| av区无码字幕中文色| 毛片在线播放a| 40分钟永久免费又黄又粗| 国语对白在线观看免费| 午夜福利理论片高清在线观看| 国产成人国产在线观看| 免费视频一区二区三区美女| 国产后入清纯学生妹| 猫咪www免费人成网最新网站| 加勒比一本大道大香蕉|