亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向傳感器網絡的無線節(jié)點智能定位優(yōu)化算法

2022-08-18 08:08:06呂立新

西安文理學院學報(自然科學版) 2022年3期

呂立新

(安徽商貿職業(yè)技術學院信息與人工智能學院,安徽蕪湖 241000)

為了空間化物聯(lián)網數(shù)據(jù)，物聯(lián)網(IoT)設備的時間和位置信息是必不可少的.因此，物聯(lián)網節(jié)點的定位是物聯(lián)網的關鍵技術之一，也是重要的研究方向.近十年來，物聯(lián)網技術的發(fā)展和地理空間大數(shù)據(jù)的出現(xiàn)，使得利用眾包數(shù)據(jù)實現(xiàn)定位成為可能.然而，這種定位技術的性能可能會受到各種因素的影響，例如定位環(huán)境的復雜性、設備多樣性的存在以及大數(shù)據(jù)的不確定性[1-3].因此，使用低成本的物聯(lián)網設備進行定位是一個極具挑戰(zhàn)的課題.深度學習(DL)算法在定位方面顯示出巨大的潛力，尤其是在難以建模、參數(shù)難以設置以及具有非線性和相關測量的復雜場景中.然而，大多數(shù)現(xiàn)有的基于 DL 的定位方法都是有監(jiān)督的方法.也就是說，這些方法需要具有已知位置標簽的訓練數(shù)據(jù).位置標簽的獲取通常既費時又費錢[4].同時，位置標簽的準確性會因設備多樣性、設備運動和方向以及數(shù)據(jù)庫中斷等因素而降低.[2,5-6]因此，需要無監(jiān)督的定位方法來減少對位置標簽的依賴.本研究應用了深度強化學習(DRL)技術，設計了一種無線節(jié)點智能定位優(yōu)化(DQNOptiLoc)算法.

1 無線節(jié)點智能定位優(yōu)化

定位的目的是確定代理在空間坐標系中的位置，代理位置也可以通過對空間進行網格化并使用代理所在網格的標識(ID)來表示.通過測量代理周圍的定位信號(LF)，可以確定代理的位置.指紋法包含兩個步驟，即訓練和預測.訓練步驟使用多個參考點(RP)的指紋[location,LF]生成數(shù)據(jù)庫.預測步驟計算實時測量的LF矢量與數(shù)據(jù)庫中每個RP處的LF矢量之間的似然值，并選擇具有最接近測量值的LF對應的RP來計算代理位置.

基于指紋的方法的優(yōu)點是主要輸入實時的LF測量值，就可以輸出相應的位置.對于動態(tài)定位應用，常用的方法是將定位的結果輸出進一步輸入到定位過濾器中，以通過融合先前的定位結果來生成更穩(wěn)定的最終結果.在過濾器中，定位的結果是位置的更新，而基于傳感器的DR數(shù)據(jù)用于構建系統(tǒng)運動模型.

無線定位問題是一個連續(xù)定位問題.在t時刻，代理的位置是其在t-1時刻的位置加上t時刻LF的測量值.在計算了代理在時刻t的定位之后，代理可以選擇保持靜止，或向上、下、左、右、左上、右上、左下和右下其中一個方向移動，然后開始計算時刻t+1的定位.在這種情況下，每個時間步的定位計算僅依賴于前一時間步的位置和本時間步的LF測量值.可以使用MDP來對該過程進行建模.

圖1 無線節(jié)點定位架構

狀態(tài)：狀態(tài)st表示代理在時刻t做出動作決策的環(huán)境，狀態(tài)由代理的位置和RSS測量值組成.

動作：代理根據(jù)狀態(tài)st采取相應的動作，動作空間由以下的動作組成：保持在同一個網格、向北、南、西、東、西北、東北、西南、東南方向移動一個網格.

獎勵函數(shù)：當代理做出正確的動作時，將給予積極的獎勵.理論上，在使用監(jiān)督或半監(jiān)督數(shù)據(jù)時，可以將代理和目標點之間的地理距離設置為獎勵.但是，這種方法不能用于處理無監(jiān)督數(shù)據(jù).為了解決這個問題，提出了一種獎勵設置機制.該機制的原理是提取具有魯棒位置標簽和RSS特征的地標點.當代理移動到一個地標點并且在此處的測量RSS與已知的RSS特征相似時，就會設置正獎勵.

為了提前得到地標點的位置和RSS的特征，引入了無線網關(GW)的位置和近場條件.具體而言，當檢測到代理已移動到足夠靠近GW的位置時，會激活近場條件.然后，使用預測代理位置與該GW位置之間的距離來設置獎勵.用于檢測近場條件的方法是RSS測距.無線信號路徑損耗模型能將RSS轉換為代理和GW之間的距離d，即

(1)

其中n和b是路徑損耗模型參數(shù).設備多樣性和方向多樣性等因素可能會導致這些參數(shù)發(fā)生變化，從而導致基于RSS的測距和定位的精度下降.

節(jié)點所處的環(huán)境和節(jié)點的移動通常會影響RSS的測量.較弱的RSS并不能說明距離較遠，但是強的RSS則說明了距離較短.因此，將近場條件定義為：當來自GW的測量RSS大于閾值βR時，代理應該位于該GW附近.此時，獎勵rt具有以下的形式：

(2)

其中dt,i是代理在時刻t的位置與第i個 GW 的位置之間的距離；βd是預測代理位置與所選 GW 位置之間距離的閾值.dt,i>βd表示代理錯誤地定位到遠離地標點的點.因此，設置了負獎勵.

DQN 的一個核心是Q學習，Q學習的原理是確定Q函數(shù)，即

Q:φ(st)→Q(φ(st),at;θ)

(3)

在本文的DQN架構中，使用DNN來計算Q函數(shù)的值.該算法如算法1所示.

算法1 基于DRL的節(jié)點定位算法1: 初始化:重放存儲器D, Q網絡, 目標Q^網絡2: Fort = 1 to T do3: 觀察狀態(tài)st, 獎勵rt4: 生成φ(st)5: 將元組(φ(st-1),at-1,rt,φ(st))加入D6: 計算動作集合A(st)7: If random_p > ε do8: 隨機從集合選擇動作9: Else10: 選擇使Q值最大的動作11: 從D進行采樣12: 計算目標值13: 計算損失值14: 訓練Q網絡15: 減少探索ε16: If t % G ==017: 更新Q^網絡

L(θ)=E[(yj-Q(φ(s),a;θj))2]

(4)

其中，符號E[·]表示期望值.yj是目標值，其計算方式為：

(5)

計算出損失值后，就應用隨機梯度下降(SGD)方法來訓練Q網絡.在訓練過程中，采用批量歸一化方法來加速訓練過程.

2 實驗評估

實驗評估在一個大小為 120 m×70 m的測試區(qū)域進行.實驗使用了48個基于藍牙的智能設備用作發(fā)射器，使用了20個網關作為接收器.發(fā)射器和接收器都配備了CC2640R2L無線微控制器芯片.每個發(fā)射器配備一個增益為0 dBi的微帶貼片天線，而每個接收器配備一個增益為5 dBi的垂直極化全向天線.

將發(fā)射器放置在地面上的950個靜態(tài)位置上，每個點的放置時間為5 min.RSS測量的數(shù)據(jù)速率為0.17 Hz.數(shù)據(jù)收集過程是通過監(jiān)督程序進行的，每個數(shù)據(jù)樣本都有一個參考位置標簽，該位置標簽僅用于定位性能的評估.本研究將采集到的數(shù)據(jù)中的位置信息均勻地劃分為448個網格，每個網格的大小為5 m×5 m.所有接收器的信號覆蓋范圍達到50 m以上.因此，所有網格點的RSS測量數(shù)據(jù)都具有來自超過四個接收器的數(shù)據(jù).同時，所有接收器的RSS測量隨空間變化.

在測試中，在每個網格點收集了來自每個接收器大約2 000個RSS 樣本.利用這種數(shù)據(jù)隨機采樣生成動態(tài)定位數(shù)據(jù)，生成了10 000 條動態(tài)軌跡.生成的訓練數(shù)據(jù)中有3百萬個動作.然后，代理通過隨機選擇9個動作之一開始移動一個網格.當代理到達網格時，從每個接收器的2 000個RSS樣本中隨機選擇一組RSS，并將其用作這一步的RSS測量.

生成的定位數(shù)據(jù)用于訓練DQN.使用Python 3.6的TensorFlow庫來實現(xiàn)DQN.在DQN中使用了具有兩個隱藏層的DNN，每個隱藏層有 200個神經元.實驗所使用的環(huán)境配置有3.3 GHz英特爾酷睿i7處理器和32 GB內存.圖2展示了訓練過程中的歸一化損失值，圖2表明算法收斂需要大約10 000個訓練步數(shù).

圖2 歸一化損失值

接下來，將訓練好的模型用于無線節(jié)點定位.生成100條軌跡用于測試.圖3展示了其中一個軌跡的定位結果.由圖3可知，定位結果與參考軌跡具有相似的趨勢，這表明本算法具有較好的無線定位性能.

圖3 測試軌跡和參考軌跡的對比

為了進行比較，將本算法與DNN-Loc、LowE-Loc兩種方法進行比較.DNN-Loc是基于DNN的有監(jiān)督算法；LowE-Loc是一種使用無監(jiān)督數(shù)據(jù)的多點測量.兩種比較方法都使用與本算法相同的訓練和測試數(shù)據(jù).有監(jiān)督的DNN-Loc算法在訓練過程中需要使用已知位置的標簽.該算法同樣使用具有兩個隱藏層的DNN實現(xiàn)的，每個隱藏層有200 個神經元.所有接收器的路徑損耗模型參數(shù)n和b的取值分別為2和-50.圖4展示了來自 100 個測試軌跡的定位誤差累積分布函數(shù)曲線.

圖4 定位誤差累積分布概率

由圖4的結果可知，DQNOptiLoc基于的方法的定位誤差比無監(jiān)督的LowE-Loc算法小.該結果表明，在未標記數(shù)據(jù)的基礎上使用基于DRL的方法進行無線節(jié)點定位，會產生積極的效果.DQNOptiLoc定位誤差都比有監(jiān)督的DNN-Loc算法高.這樣的結果表明，無監(jiān)督算法的定位性能仍然明顯低于有監(jiān)督的算法.DQNOptiLoc算法是數(shù)據(jù)驅動的，無需先驗模型.這種自監(jiān)督的方法適用于難以建模和設置參數(shù)的復雜環(huán)境.

3 結論

本研究提出了一種使用DRL框架的智能無監(jiān)督無線定位優(yōu)化算法.與現(xiàn)有的無監(jiān)督算法相比，本算法實現(xiàn)了更低的定位誤差均方根.雖然本算法的誤差略高于有監(jiān)督的算法，但是本算法不需要模型的先驗知識，也不需要有標簽的訓練數(shù)據(jù)，能實現(xiàn)自監(jiān)督的學習.基于DRL的定位算法無需幾何建模和環(huán)境參數(shù)化即可實現(xiàn)定位的可能性，但是該算法嚴重依賴于大量數(shù)據(jù)，具有繁重的計算負載.因此，未來的工作將使用改進后的MDP模型來改進DRL框架.