亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學習提升雙GNSS測向精度方法研究?

        2022-02-18 09:03:02劉佳銘段靜玄張學良
        艦船電子工程 2022年11期
        關鍵詞:定位精度軌跡向量

        劉佳銘 段靜玄 張學良 林 靜

        (1.海裝上海局駐上海地區(qū)第五代表室 上海 200135)(2.中國艦船研究設計中心 武漢 430064)

        1 引言

        近年來,利用全球衛(wèi)星導航系統(tǒng)(Global Navi?gation Satellite System,GNSS)的雷達標校技術逐漸成為主要方式,通過在遠距離釋放攜帶GNSS接收機的無人機,以及艦上安裝的GNSS接收機,將兩個接收機的經(jīng)緯度、海拔數(shù)據(jù)轉化為方位距離仰角,再經(jīng)過位置間隔修正到雷達所在位置,比較雷達讀數(shù)和修正后的方位距離仰角,分析其誤差。由于GNSS的定位精度可以達到厘米級,因此標校精度可以達到0.01°,成為了現(xiàn)在標校的主要技術。

        然而在動態(tài)測量中我們發(fā)現(xiàn),由于船舶的搖擺及無人機的位置變化,以及GNSS信號的波動,在測量過程中可能會出現(xiàn)部分數(shù)據(jù)精度不足的問題,嚴重影響了標校結果。因此,本文提出一種基于GNSS數(shù)據(jù)優(yōu)化改進方位距離仰角測向定位的方法,具體來說,我們開發(fā)了一個強化學習模型來實現(xiàn)修正雙GNSS相對位置計算的最優(yōu)策略。為了加速訓練過程并獲得更好的性能,實現(xiàn)了一種最先進的并行訓練架構,即異步優(yōu)勢參與者-批評(A3C)協(xié)議,用于學習最優(yōu)校正策略。由于缺乏對模型參數(shù)的嚴格假設,所提出的框架具有通用性,適用于非靜止環(huán)境下的不同GNSS設備和位置。

        在提出的強化學習模型中,我們提出了一種獨特的獎勵機制,不同于其他深度學習或強化學習[1]框架中通常使用的獎勵結構。我們沒有使用直接分數(shù),就像在為玩游戲而開發(fā)的模型中所做的那樣,我們使用一種抽象方法來提供低方差獎勵值,并通過在獎勵函數(shù)中加入預測置信度來提供額外的好處。所提出的方法通過使獎勵獨立于地理位置來建立一個通用框架。模型性能通過合成數(shù)據(jù)以及真實世界的實驗進行評估,并與擴展卡爾曼濾波器算法進行了比較,該算法是定位問題中常用的基準算法。

        2 國內(nèi)外研究現(xiàn)狀

        提升雙GNSS測向精度的主要方法之一是提升單點定位精度的精度,目前主要的研究可以分為基于硬件的和基于軟件的兩類。

        基于硬件的方法嘗試使用額外的硬件設備來提高GNSS精度。在整個網(wǎng)絡中部署參考站是提高GNSS精度性能的一種方法[2]。然而,建造參考站可能既昂貴又耗時。也有大量研究使用輔助硬件來增強傳統(tǒng)GNSS設備,例如慣性測量單元(IMU),是提高 GNSS定位性能的另一種方法[3]?;谳o助設備和增強的基礎設施,設計了具有不同定位精度的不同類型GNSSGPS。慣性導航系統(tǒng)已廣泛用于航位推算系統(tǒng)。差分GPS(D-GPS)使用高質量GPS接收器和高質量參考位置來構建可以提高定位精度的系統(tǒng)[4],而實時動態(tài)(RTK)GPS使用RTK網(wǎng)絡來提高GPS性能[5]。缺點很明顯:輔助硬件的故障會降低GNSS系統(tǒng)的性能。大規(guī)模部署基于硬件的設備也很昂貴。

        另一方面,基于軟件的算法已顯示出提高GNSS精度的潛力。基于卡爾曼濾波器的算法是提高GPS定位精度的最廣泛使用的算法之一[6~7]。然而,這些方法通常被開發(fā)用于線性運動和傳感器模型,使其不直接適用于非線性的運動模型。雖然卡爾曼濾波器可以升級為無跡卡爾曼濾波器(UKF)或擴展卡爾曼濾波器(EKF)來解決非線性轉換,但很難為此類模型找到合適的高斯噪聲參數(shù)[8]。當狀態(tài)空間變大時,識別正確的運動模型和計算雅可比矩陣在計算上也可能很昂貴[9]。此外,運動模型可能因測量環(huán)境和目標移動而異,因此很難開發(fā)出能夠在一組適用于無人機標校的卡爾曼濾波器。

        強化學習(Reinforcement Learning,RL)的目的是生成將系統(tǒng)狀態(tài)映射到動作集的策略分布,從而最大化獎勵回報[10]。基于強化學習的方法在眾多應用領域取得了令人矚目的進展,由于它們在不同領域的廣泛使用和高性能,近年來大量研究致力于改進 RL 算法[11]。

        與文獻中發(fā)現(xiàn)的物理系統(tǒng)中典型的強化學習實現(xiàn)不同,所提出的模型不需要物理代理來控制GNSS設備。相反,它通過“校正”動作提高了廉價GNSS單元收集的GNSS經(jīng)度和緯度數(shù)據(jù)的準確性。與基于硬件或軟件的方法不同,所提出的模型不需要任何輔助設備,也沒有對GNSS單元的噪聲參數(shù)或其運動模型做出嚴格的假設。所提出的模型利用GNSS讀數(shù)的歷史,在以前未見過的環(huán)境中訓練自己。與引用研究使用的方法相比,所提出的模型不使用與地理位置直接相關或受環(huán)境影響的獎勵函數(shù)。相反,它引入了動作置信度以形成抽象的獎勵機制,因為獎勵的計算與地理位置無關,這使得模型具有泛化性。

        3 基于強化學習的模型

        3.1 問題描述

        本文的主要目的是提高GNSS設備的定位精度,以及雙GNSS進行測向計算時得到的方位、距離、仰角數(shù)據(jù)更加準確,以達到標校的標準。目標是在觀測到的GNSS經(jīng)緯度坐標上找到最佳校正策略,以產(chǎn)生更準確的位置。一般過程類似于過濾——強化學習模型將GNSS設備收集的實時經(jīng)緯度坐標作為輸入,并利用該模型來改進定位。模型的輸出是關于如何糾正觀察結果以產(chǎn)生更準確定位的行動策略。

        所提出的框架的行為類似于過濾器——它將GNSS設備的典型經(jīng)緯度輸出作為輸入,并對估計的經(jīng)緯度執(zhí)行“校正操作”以提供更準確的輸出。當接收到新的數(shù)據(jù)點時,強化學習模型會訓練代理來確定需要調整觀察到的經(jīng)度和緯度以返回更準確定位的“單位”數(shù)量。Kollar[12]指出,從決策理論的角度來看,這種順序決策問題可以建模為部分可觀察的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)。該模型的目標是學習一個策略π(a|z,θ),其中a表示動作向量,z是觀察向量,而θ是模型參數(shù)的向量。該策略的目標是參數(shù)化在給定特定觀察z時執(zhí)行動作的條件概率,以最大化一個人的獎勵。

        3.2 模型設置

        在本節(jié)中,我們將介紹所提出的強化學習模型的細節(jié),包括動作空間、隱藏狀態(tài)、觀察、信念狀態(tài)、獎勵機制、模型結構和訓練協(xié)議。

        1)動作空間

        我們將動作定義為經(jīng)緯度更新操作。為了降低所提出算法的計算復雜度,我們將連續(xù)的經(jīng)度和緯度值離散為小步。通常不建議對動作空間的每個單獨維度進行離散化,因為它可以成倍地增加策略表的大小。然而,離散化動作空間對于降低算法在低維動作空間中的計算復雜度可能很有用,就像這個問題中的情況一樣。因此,建議的工作根據(jù)以下過程離散化動作空間:

        (1)定義緯度和經(jīng)度的單位運算,分別用ux和uy表示,以及一個縮放矩陣S。不失一般性,我們?yōu)?S 定義以下范圍:S=[-10,-9,-8,…,0,1,2,…,10]。

        (2)緯度和經(jīng)度上的操作域,分別用Lx和Ly表示,是 Lx=Sux和 Ly=Suy。

        (3)通過結合經(jīng)緯度操作將動作離散化為動作集A。離散動作 a∈ A可以定義為 a=(x,y)∈ Lx×Ly

        (4)對經(jīng)緯度的連續(xù)運算由動作集A表示,其中A包含所有可能的動作。基于上述對應的縮放矩陣S,有限動作集A的長度為212=441。

        在觀察到的GNSS數(shù)據(jù)點上在動作空間A中執(zhí)行動作可以產(chǎn)生441個可能的輸出。例如,如果觀察到的GNSS數(shù)據(jù)點是(x,y),則可能的輸出是(x±m(xù)ux,y±nuy),m,n∈ S 。當前的 GNSS設備很少報告與地面事實有太大偏差的點。因此,我們假設通過選擇合理的ux和uy,GNSS設備的準確位置包含在所有可能的輸出中。ux和uy的合理值受相應GNSS設備精度的影響。因此,可以通過為ux和uy選擇不同的值來修改操作范圍。

        2)測量和模型輸入

        GNSS設備以特定頻率報告其位置。在所提出的模型中,觀察不限于最后報告的GNSS位置,而是包含最后報告的位置以及最近的點預測歷史的堆疊向量。也就是說,我們不使用報告的GNSS軌跡,而是使用模型預測來形成觀察歷史向量。需要注意的是,預測頻率可以設置為高于GNSS數(shù)據(jù)收集頻率的值。這種形成觀察向量的方法允許模型利用GNSS設備的歷史軌跡信息以及模型性能,使模型能夠學習高質量的策略來校正報告的GNSS點。

        用qt表示GNSS報告的時間戳t點,用gt表示它的真實位置數(shù)據(jù)。由于真實位置未知,因此可以將問題表述為POMDP。在這個POMDP中,我們使用pt來表示GPS報告點qt的置信狀態(tài),在強化學習模型中為pt。本文通過完全可觀察的信念狀態(tài)馬爾可夫決策過程(Markov Decision Process,MDP)來確定最優(yōu)的行動方案,其中信念形成狀態(tài),策略π將行動映射到信念狀態(tài);也就是說,部分觀察到的狀態(tài)被它們的估計、信念狀態(tài)所取代,從而形成一個MDP。我們使用具有恒定大小N的觀察緩沖區(qū)Zt來存儲最近N-1個GNSS報告點的歷史模型估計值和當前 qt;即 Zt={pt-N-1,…,pt-1,qt}。讓我們分別用St和bt來表示Zt的隱藏狀態(tài)和置信狀態(tài)。給定一個大小為N的觀察緩沖區(qū),在時間t,向量St包含這些點的相應地面實況緩沖區(qū);即St={gt-N,…,gt}。向量bt包含最近N個點的估計;即bt={pt-N,…,pt}。需要注意的是,Zt和bt僅在最后一個元素上有所不同,即Zt的最后一個元素是qt,而向量bt的最后一個元素是pt。該模型基于Zt估計bt。用R表示獎勵,POMDP圖如圖1所示。

        圖1 部分可觀察的馬爾可夫決策過程模型示意圖

        相應的信度狀態(tài)控制器如圖2所示。狀態(tài)估計器將觀察、動作和信度狀態(tài)作為輸入,并提供信度狀態(tài)作為輸出。學習到的策略將信度狀態(tài)映射到動作,輸出動作會影響下一個時間戳中的觀察和信度狀態(tài)。

        圖2 部分可觀察的馬爾可夫決策過程代理模型

        基于上面的POMDP設置,強化學習代理在每個時間戳t的目標是找到糾正qt的最佳糾正動作。該過程基于滑動窗口進行。一旦接收到新的qt,滑動窗口向前移動一步以形成一個具有恒定大小N的新觀察向量,其中qt構成最后一個元素,最后N-1個信度構成觀察向量Zt的其余部分。模型輸入(觀察Zt)更新過程(即訓練流程)如圖3所示。

        圖3 模型輸入數(shù)據(jù)更新過程

        每次GNSS設備報告一個新的位置點qt時,模型都會被訓練并移動到下一個觀察緩沖區(qū)。當GNSS設備獲得pt時,將其推送到觀察緩沖區(qū)以替換qt,同時觀察移動到時間t+1。也就是說,在每個訓練步驟中,強化學習模型的觀察都包含觀察到的GNSS點和一系列歷史估計。

        GNSS報告點q、模型預測點p與相關模型架構之間的關系如圖4所示。

        圖4 模型結構

        4 實驗

        在本節(jié)中,通過將其與基準模型(即EKF模型)的性能進行比較來評估所提出的強化學習模型的性能。

        1)實驗設置

        由于GNSS的真實值難以度量,因此我們構建仿真數(shù)據(jù)進行實驗。具體地說,我們使用在現(xiàn)實世界條件下使用GNSS設備收集的軌跡,作為未知的真實值。接下來,我們使用高斯噪聲模型生成噪聲并將其添加到基本軌跡,模擬GPS傳感器觀察。這個嘈雜的軌跡如圖5所示。在這個軌跡中,每個時間步都包含一個GPS數(shù)據(jù)點,即一個經(jīng)度和緯度對??紤]1Hz的GPS頻率。

        圖5 增加噪聲后的軌跡

        在將強化學習和EKF方法應用于軌跡數(shù)據(jù)之前,我們將long/lat坐標轉換為UTM(即笛卡爾)坐標。為了評估RL和EKF的性能,考慮了每個GPS點的預測誤差以及整個軌跡的累積誤差。假設每個點 i(GPS設備/車輛未知)的地面實況為(gxi,gyi),其預測結果為(lxi,lyi)。每個預測的誤差可以計算為

        累積誤差可以計算為

        其中C是軌跡上的數(shù)字操作點,N是觀察緩沖區(qū)。在這里不需要考慮前N個點,因為至少需要N個點來進行訓練。通過比較RL和EKF方法的Ei和Eall值,可以評估所提出的RL模型的性能。

        2)結果

        我們將強化學習和EKF方法應用于模擬軌跡,并根據(jù)方程測量每個預測點的誤差。結果如圖6所示。對于EKF方法,大約200步后達到收斂。對于RL方法,大約150步后達到收斂。

        圖6 每個GNSS觀測的EKF和RL誤差

        兩種方法在軌跡過程中都有減少的誤差趨勢。這表明兩種方法都能夠提高GPS定位精度。此外,與EKF相比,RL方法的誤差值更小。在收斂部分,與EKF方法相比,RL方法提供的方差更小。

        EKF的較差性能可歸因于對噪聲參數(shù)和模型的嚴格假設。在使用EKF提高GPS精度時,觀測的確切噪聲參數(shù)和運動模型是未知的,限制了EKF的性能。EKF性能較差的另一個原因是無噪聲觀測的不可用(即,沒有地標或參考站可以為EKF算法提供無噪聲觀測),提出的RL不是對噪聲參數(shù)進行嚴格的假設,而是方法學習一個最佳策略來糾正當前GPS報告的點,并使用模型獎勵來衡量其預測的質量。這消除了對噪聲分布和參數(shù)的嚴格假設的需要。

        5 結語

        在本文中,我們提出了一種強化學習模型來提高GNSS測向定位精度。強化學習方法在應用于計算機視覺和機器人技術中的問題時表現(xiàn)非常出色,例如玩ATARI游戲和控制機器人。本文使用強化學習來構建一種類似過濾器的算法,以提高GNSS計算精度。該模型使用歷史軌跡的GNSS位置數(shù)據(jù)作為輸入,使其能夠根據(jù)最近的過去學習軌跡模式,并生成修正后的GNSS位置。我們使用基于置信度度量的獎勵機制來評估異步模型的預測性能。

        這項工作將提出的強化學習模型與經(jīng)典的定位方法進行比較,即擴展卡爾曼濾波器(Extended Kalman Filter,EKF)。使用模擬數(shù)據(jù)的結果表明,EKF和RL都可以提高GNSS定位精度;然而,所提出的RL方法可以提供更高質量的預測,其定位誤差是EKF的一半,并且方差更小。

        這項工作是基于GNSS讀數(shù)始終可用的假設,這可能會限制其在實踐中的適用性。由于假定GNSS設備的頻率是穩(wěn)定的,因此不考慮包括GNSS信號丟失(例如,由于高樓的阻礙)的情況。放寬這個假設是我們未來研究的方向之一。

        猜你喜歡
        定位精度軌跡向量
        北斗定位精度可達兩三米
        軍事文摘(2023年4期)2023-04-05 13:57:35
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        軌跡
        軌跡
        GPS定位精度研究
        智富時代(2019年4期)2019-06-01 07:35:00
        組合導航的AGV定位精度的改善
        測控技術(2018年4期)2018-11-25 09:47:22
        軌跡
        進化的軌跡(一)——進化,無盡的適應
        中國三峽(2017年2期)2017-06-09 08:15:29
        向量垂直在解析幾何中的應用
        欧美成年黄网站色视频| 精品在线视频在线视频在线视频| 少妇久久久久久被弄高潮| 桃花色综合影院| 亚洲第一无码精品久久| 日本女优中文字幕有码| 大奶白浆视频在线观看| 国产精品无码av天天爽| 亚洲AV无码秘 蜜桃1区| 亚洲综合在线一区二区三区| 久久成人国产精品一区二区| 亚洲男人第一无码av网站| 午夜国产一区二区三区精品不卡| 国产av精品一区二区三区不卡| 亚洲av中文无码乱人伦在线观看| 毛片大全真人在线| 亚洲欧洲久久久精品| 久久精品女人天堂av麻| 日韩在线永久免费播放| 黑人玩弄人妻中文在线| 制服无码在线第一页| 国产精品一区二区韩国av| 尤物在线精品视频| 国产精品国产三级农村妇女| 亚洲在线视频一区二区| 中文字日产幕码三区的做法大全| 人妻精品动漫h无码网站| 欧美精品一区二区精品久久| av资源在线免费观看| 中文字幕色av一区二区三区| 99精品电影一区二区免费看| 久久伊人精品只有这里有| 日韩av一区二区网址| 少妇无码一区二区三区免费| 国产精品美女黄色av| 免费人妖一区二区三区| 未满十八勿入av网免费| 亚洲国产一区二区三区网| 亚洲人妻av综合久久| 欧美牲交a欧美牲交aⅴ| 久久精品无码鲁网中文电影 |