董春利,王 莉
(南京交通職業(yè)技術(shù)學(xué)院 電子信息工程學(xué)院,江蘇 南京 211188)
基于粒子濾波的強(qiáng)化學(xué)習(xí)算法研究
董春利,王莉
(南京交通職業(yè)技術(shù)學(xué)院 電子信息工程學(xué)院,江蘇南京211188)
文章分析了一種基于粒子濾波和強(qiáng)化學(xué)習(xí)的算法。該算法通過結(jié)合粒子濾波和Q-學(xué)習(xí)算法,得到一種基于粒子濾波和強(qiáng)化學(xué)習(xí)的機(jī)會頻譜接入算法(RLPF)。實(shí)驗(yàn)結(jié)果表明,RLPF算法能夠在策略空間直接進(jìn)行全局搜索,這是對傳統(tǒng)的基于局部搜索策略的強(qiáng)化學(xué)習(xí)算法的明顯改善。
強(qiáng)化學(xué)習(xí);粒子濾波;策略空間;全局搜索
由于頻譜資源緊張并不是頻譜真正“物理上的稀缺”,而是傳統(tǒng)的靜態(tài)頻譜管理方式導(dǎo)致的結(jié)構(gòu)性矛盾。動態(tài)頻譜接入(Dynamic Spectrum Access,DSA)被認(rèn)為是一種與傳統(tǒng)靜態(tài)頻譜管理相反的頻譜利用方式,這使得DSA有了更廣泛的內(nèi)涵,為提高頻譜資源的利用效率提供了全新的方向。認(rèn)知無線電是實(shí)現(xiàn)DSA的關(guān)鍵技術(shù),提供了與授權(quán)用戶(Provided User,PU)機(jī)會共享無線信道的能力[1]。
認(rèn)知無線電的OSA具有認(rèn)知能力,能感知當(dāng)前網(wǎng)絡(luò)條件并且作出規(guī)劃和決策,具有對以前決策的評判和未來決策判定的學(xué)習(xí)能力。因?yàn)镺SA系統(tǒng)中的頻譜環(huán)境總是隨時(shí)間而變化,因此在不需要信道環(huán)境的先驗(yàn)知識和動態(tài)模型的前提下,亟待通過不斷與環(huán)境進(jìn)行交互學(xué)習(xí),實(shí)現(xiàn)優(yōu)越性能的革新技術(shù)出現(xiàn)[2]。強(qiáng)化學(xué)習(xí)作為一種無模型、無監(jiān)督的在線學(xué)習(xí)算法,是解決上述問題的有效途徑,近年來已經(jīng)成為解決OSA問題的主流方法,得到了廣泛應(yīng)用。
為了提高全局搜索能力,從而找到全局最優(yōu)策略,將粒子濾波引入到機(jī)會頻譜接入,這是對傳統(tǒng)的基于局部搜索策略的強(qiáng)化學(xué)習(xí)算法的明顯改善。把強(qiáng)化學(xué)習(xí)的獎勵函數(shù)看作是粒子濾波的一個(gè)不恰當(dāng)?shù)母怕拭芏群瘮?shù)(IPDF),是基于有限數(shù)量采樣的未知概率密度函數(shù)(PDF)的一種近似估計(jì)算法。文獻(xiàn)[3—4]提出了基于粒子濾波的直接策略搜索強(qiáng)化學(xué)習(xí)算法,在策略空間中具有進(jìn)行全局搜索的能力,從而找到全局最優(yōu)策略。與卡爾曼濾波相比,粒子濾波適應(yīng)于認(rèn)知無線電OSA的非線性環(huán)境。
(2)計(jì)算重要性權(quán)值
文獻(xiàn)[5]利用粒子濾波為一個(gè)大規(guī)模動態(tài)頻譜接入系統(tǒng)進(jìn)行資源分配。按照每個(gè)用戶實(shí)現(xiàn)的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學(xué)習(xí)算法進(jìn)行了性能比較,驗(yàn)證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應(yīng)于一般情況(非線性模型,非高斯噪聲,多模態(tài)分布)。
文獻(xiàn)[3—4]提出了基于粒子濾波的直接策略搜索強(qiáng)化學(xué)習(xí)算法,主要借鑒粒子濾波的思想,揭示粒子濾波算法和強(qiáng)化學(xué)習(xí)之間的聯(lián)系,提出了一種新的強(qiáng)化學(xué)習(xí)算法。該算法的主要優(yōu)點(diǎn)是在策略空間中具有進(jìn)行全局搜索的能力,從而找到全局最優(yōu)策略。
定義一個(gè)策略粒子pi,數(shù)組pi=〈qi,ti,Ri,wi〉,通過運(yùn)行強(qiáng)化學(xué)習(xí)策略π(θi)所執(zhí)行的試驗(yàn)τi得到粒子pi,θi是策略參數(shù)值的一個(gè)矢量,調(diào)節(jié)強(qiáng)化學(xué)習(xí)策略π的行為。策略粒子還存儲著評價(jià)這次試驗(yàn)的獎勵函數(shù)值Ri=R(ti(p(qi)))。變量τi包含試驗(yàn)期間記錄的特殊任務(wù)信息,這個(gè)信息被獎勵函數(shù)執(zhí)行它的評價(jià)使用,變量ωi是該策略粒子的重要性權(quán)值,它的計(jì)算方法如下。
RLPF繼承了粒子濾波的很多優(yōu)點(diǎn),實(shí)現(xiàn)簡單,計(jì)算量小,占用內(nèi)存非常低。利用函數(shù)g(R),增加每個(gè)獎勵間的相對差異,例如,函數(shù)g(R)=(1+R)2,RLPF可把執(zhí)行全局隨機(jī)采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據(jù)精度和時(shí)間的要求,RLPF可顯示自適應(yīng)算法的收斂速度。
RLPF作為一個(gè)全局搜索算法,因?yàn)樗阉鞯姆秶潜M可能最大的全部策略空間,一般需要多次試驗(yàn)來收斂。另外,即便粒子濾波沒有收斂性的嚴(yán)格證明,在實(shí)踐中,粒子濾波的經(jīng)驗(yàn)已經(jīng)證明,在實(shí)際應(yīng)用中能獲得優(yōu)異的結(jié)果。
首先在一維問題中單獨(dú)評估RLPF,它在可視化和分析中是最簡單的。圖1顯示了一個(gè)RLPF運(yùn)行的例子,有多個(gè)局部最優(yōu)解的一組合成的一維獎勵函數(shù)。通過RLPF生成的策略粒子由垂直灰色條紋顯示,在綠色的獎勵函數(shù)線上,相應(yīng)的獎勵值由黑色圓圈顯示。使用以下的合成獎勵函數(shù),因?yàn)樗性S多局部最優(yōu):R(θ) = 1.55 + 0.3 sin(2.7θ) + 0.4 sin(4.5θ) + 0.2 sin(8.7θ) + 0.14 sin(20θ) + 0.08 sin(30θ) + 0.08 sin(50θ)。顯然可見,通過RLPF所產(chǎn)生的策略粒子往往集中在獎勵函數(shù)的最高峰。
圖1 一維問題中的RLPF的一個(gè)典型運(yùn)行
圖2 全局策略搜索RL算法的收斂性比較
其次,比較RLPF與其他全局策略搜索RL算法的性能。很難選擇比較RLPF的基準(zhǔn),因?yàn)闆]有任何真正意義上的基于RL算法的全局搜索策略。比較一個(gè)本地搜索RL,如策略梯度RL和RLPF是不公平的,因?yàn)榫植克阉鞣椒〞菀紫萑刖植孔顑?yōu)。因此作為一個(gè)基準(zhǔn),使用一個(gè)隨機(jī)的全局策略搜索RL算法,在策略空間上,它是基于全局隨機(jī)抽樣(Global Random Sampling, GRS)。其與RLPF的比較如圖2所示,平均超過許多運(yùn)行次數(shù),和圖1同樣的問題。平均每個(gè)算法50以上運(yùn)行的結(jié)果。每輪有100個(gè)試驗(yàn)。在實(shí)現(xiàn)的獎勵值大和獎勵值較小的變化兩個(gè)方面,RLPF輕易超過GRS。
由于粒子濾波有進(jìn)行全局搜索的能力,將粒子濾波和強(qiáng)化學(xué)習(xí)相結(jié)合,由此產(chǎn)生的RLPF算法也能夠在策略空間直接進(jìn)行全局搜索,這是對傳統(tǒng)的基于局部搜索策略的強(qiáng)化學(xué)習(xí)算法的明顯改善。這項(xiàng)研究為OSA開辟了一個(gè)新的研究方向,未來它將會應(yīng)用到更多的領(lǐng)域。
[1]WU J, YANG L, LIU X. Subcarrier and power allocation in OFDM based cognitive radio systems[J].4th International Conference on Intelligent Computation Technology and Automation, 2011(13):728-731.
[2]XU Y H, WANG J L, WU Q H, ET AL. Opportunistic spectrum access in unknown dynamic environment a game-theoretic stochastic learning solution[J]. IEEE Transactions on Wireless Communication, 2012(4):1380-1391.
[3]PETAR KORMUSHEV, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle filtering[J]. European Workshop on Reinforcement Learning, 2012(10):1-13.
[4]BORKAR V S, JAIN A. Reinforcement learning, particle flters and the EM algorithm[J].Information Theory and Applications Workshop, 2014(12):1-5.
[5]BEN GHORBEL M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[J].Globecom Workshops, 2014(23):219-224.
Research on reinforcement learning algorithm based on particle flter
Dong Chunli, Wang Li
(School of Electronic and Information Engineering, Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)
This paper analyzes a particle flter based on reinforcement learning algorithm. The new algorithm processed the opportunistic spectrum access algorithm based on particle flter and Q-learning algorithm by combining particle flter and Q-learning algorithm. The experimental results show that the RLPF algorithm can be directly used for global search in the strategy space, which is a signifcant improvement of traditional reinforcement learning algorithm based on the local search strategy.
reinforcement learning; particle flter; strategy space; global search
南京交通職業(yè)技術(shù)學(xué)院高層次人才科研基金項(xiàng)目;項(xiàng)目編號:No. 2013。
董春利(1964— ),男,山東青島,博士,教授;研究方向:認(rèn)知無線電網(wǎng)絡(luò)與下一代無線泛在網(wǎng)絡(luò)。