亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于粒子濾波的強(qiáng)化學(xué)習(xí)算法研究

        2016-09-25 05:37:50董春利
        無線互聯(lián)科技 2016年15期
        關(guān)鍵詞:全局頻譜濾波

        董春利,王 莉

        (南京交通職業(yè)技術(shù)學(xué)院 電子信息工程學(xué)院,江蘇 南京 211188)

        基于粒子濾波的強(qiáng)化學(xué)習(xí)算法研究

        董春利,王莉

        (南京交通職業(yè)技術(shù)學(xué)院 電子信息工程學(xué)院,江蘇南京211188)

        文章分析了一種基于粒子濾波和強(qiáng)化學(xué)習(xí)的算法。該算法通過結(jié)合粒子濾波和Q-學(xué)習(xí)算法,得到一種基于粒子濾波和強(qiáng)化學(xué)習(xí)的機(jī)會頻譜接入算法(RLPF)。實(shí)驗(yàn)結(jié)果表明,RLPF算法能夠在策略空間直接進(jìn)行全局搜索,這是對傳統(tǒng)的基于局部搜索策略的強(qiáng)化學(xué)習(xí)算法的明顯改善。

        強(qiáng)化學(xué)習(xí);粒子濾波;策略空間;全局搜索

        由于頻譜資源緊張并不是頻譜真正“物理上的稀缺”,而是傳統(tǒng)的靜態(tài)頻譜管理方式導(dǎo)致的結(jié)構(gòu)性矛盾。動態(tài)頻譜接入(Dynamic Spectrum Access,DSA)被認(rèn)為是一種與傳統(tǒng)靜態(tài)頻譜管理相反的頻譜利用方式,這使得DSA有了更廣泛的內(nèi)涵,為提高頻譜資源的利用效率提供了全新的方向。認(rèn)知無線電是實(shí)現(xiàn)DSA的關(guān)鍵技術(shù),提供了與授權(quán)用戶(Provided User,PU)機(jī)會共享無線信道的能力[1]。

        認(rèn)知無線電的OSA具有認(rèn)知能力,能感知當(dāng)前網(wǎng)絡(luò)條件并且作出規(guī)劃和決策,具有對以前決策的評判和未來決策判定的學(xué)習(xí)能力。因?yàn)镺SA系統(tǒng)中的頻譜環(huán)境總是隨時(shí)間而變化,因此在不需要信道環(huán)境的先驗(yàn)知識和動態(tài)模型的前提下,亟待通過不斷與環(huán)境進(jìn)行交互學(xué)習(xí),實(shí)現(xiàn)優(yōu)越性能的革新技術(shù)出現(xiàn)[2]。強(qiáng)化學(xué)習(xí)作為一種無模型、無監(jiān)督的在線學(xué)習(xí)算法,是解決上述問題的有效途徑,近年來已經(jīng)成為解決OSA問題的主流方法,得到了廣泛應(yīng)用。

        為了提高全局搜索能力,從而找到全局最優(yōu)策略,將粒子濾波引入到機(jī)會頻譜接入,這是對傳統(tǒng)的基于局部搜索策略的強(qiáng)化學(xué)習(xí)算法的明顯改善。把強(qiáng)化學(xué)習(xí)的獎勵函數(shù)看作是粒子濾波的一個(gè)不恰當(dāng)?shù)母怕拭芏群瘮?shù)(IPDF),是基于有限數(shù)量采樣的未知概率密度函數(shù)(PDF)的一種近似估計(jì)算法。文獻(xiàn)[3—4]提出了基于粒子濾波的直接策略搜索強(qiáng)化學(xué)習(xí)算法,在策略空間中具有進(jìn)行全局搜索的能力,從而找到全局最優(yōu)策略。與卡爾曼濾波相比,粒子濾波適應(yīng)于認(rèn)知無線電OSA的非線性環(huán)境。

        1 粒子濾波

        (2)計(jì)算重要性權(quán)值

        2 基于粒子濾波和Q-學(xué)習(xí)的機(jī)會頻譜接入算法(RLPF)

        文獻(xiàn)[5]利用粒子濾波為一個(gè)大規(guī)模動態(tài)頻譜接入系統(tǒng)進(jìn)行資源分配。按照每個(gè)用戶實(shí)現(xiàn)的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學(xué)習(xí)算法進(jìn)行了性能比較,驗(yàn)證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應(yīng)于一般情況(非線性模型,非高斯噪聲,多模態(tài)分布)。

        文獻(xiàn)[3—4]提出了基于粒子濾波的直接策略搜索強(qiáng)化學(xué)習(xí)算法,主要借鑒粒子濾波的思想,揭示粒子濾波算法和強(qiáng)化學(xué)習(xí)之間的聯(lián)系,提出了一種新的強(qiáng)化學(xué)習(xí)算法。該算法的主要優(yōu)點(diǎn)是在策略空間中具有進(jìn)行全局搜索的能力,從而找到全局最優(yōu)策略。

        定義一個(gè)策略粒子pi,數(shù)組pi=〈qi,ti,Ri,wi〉,通過運(yùn)行強(qiáng)化學(xué)習(xí)策略π(θi)所執(zhí)行的試驗(yàn)τi得到粒子pi,θi是策略參數(shù)值的一個(gè)矢量,調(diào)節(jié)強(qiáng)化學(xué)習(xí)策略π的行為。策略粒子還存儲著評價(jià)這次試驗(yàn)的獎勵函數(shù)值Ri=R(ti(p(qi)))。變量τi包含試驗(yàn)期間記錄的特殊任務(wù)信息,這個(gè)信息被獎勵函數(shù)執(zhí)行它的評價(jià)使用,變量ωi是該策略粒子的重要性權(quán)值,它的計(jì)算方法如下。

        RLPF繼承了粒子濾波的很多優(yōu)點(diǎn),實(shí)現(xiàn)簡單,計(jì)算量小,占用內(nèi)存非常低。利用函數(shù)g(R),增加每個(gè)獎勵間的相對差異,例如,函數(shù)g(R)=(1+R)2,RLPF可把執(zhí)行全局隨機(jī)采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據(jù)精度和時(shí)間的要求,RLPF可顯示自適應(yīng)算法的收斂速度。

        RLPF作為一個(gè)全局搜索算法,因?yàn)樗阉鞯姆秶潜M可能最大的全部策略空間,一般需要多次試驗(yàn)來收斂。另外,即便粒子濾波沒有收斂性的嚴(yán)格證明,在實(shí)踐中,粒子濾波的經(jīng)驗(yàn)已經(jīng)證明,在實(shí)際應(yīng)用中能獲得優(yōu)異的結(jié)果。

        3 實(shí)驗(yàn)結(jié)果

        首先在一維問題中單獨(dú)評估RLPF,它在可視化和分析中是最簡單的。圖1顯示了一個(gè)RLPF運(yùn)行的例子,有多個(gè)局部最優(yōu)解的一組合成的一維獎勵函數(shù)。通過RLPF生成的策略粒子由垂直灰色條紋顯示,在綠色的獎勵函數(shù)線上,相應(yīng)的獎勵值由黑色圓圈顯示。使用以下的合成獎勵函數(shù),因?yàn)樗性S多局部最優(yōu):R(θ) = 1.55 + 0.3 sin(2.7θ) + 0.4 sin(4.5θ) + 0.2 sin(8.7θ) + 0.14 sin(20θ) + 0.08 sin(30θ) + 0.08 sin(50θ)。顯然可見,通過RLPF所產(chǎn)生的策略粒子往往集中在獎勵函數(shù)的最高峰。

        圖1 一維問題中的RLPF的一個(gè)典型運(yùn)行

        圖2 全局策略搜索RL算法的收斂性比較

        其次,比較RLPF與其他全局策略搜索RL算法的性能。很難選擇比較RLPF的基準(zhǔn),因?yàn)闆]有任何真正意義上的基于RL算法的全局搜索策略。比較一個(gè)本地搜索RL,如策略梯度RL和RLPF是不公平的,因?yàn)榫植克阉鞣椒〞菀紫萑刖植孔顑?yōu)。因此作為一個(gè)基準(zhǔn),使用一個(gè)隨機(jī)的全局策略搜索RL算法,在策略空間上,它是基于全局隨機(jī)抽樣(Global Random Sampling, GRS)。其與RLPF的比較如圖2所示,平均超過許多運(yùn)行次數(shù),和圖1同樣的問題。平均每個(gè)算法50以上運(yùn)行的結(jié)果。每輪有100個(gè)試驗(yàn)。在實(shí)現(xiàn)的獎勵值大和獎勵值較小的變化兩個(gè)方面,RLPF輕易超過GRS。

        4 結(jié)語

        由于粒子濾波有進(jìn)行全局搜索的能力,將粒子濾波和強(qiáng)化學(xué)習(xí)相結(jié)合,由此產(chǎn)生的RLPF算法也能夠在策略空間直接進(jìn)行全局搜索,這是對傳統(tǒng)的基于局部搜索策略的強(qiáng)化學(xué)習(xí)算法的明顯改善。這項(xiàng)研究為OSA開辟了一個(gè)新的研究方向,未來它將會應(yīng)用到更多的領(lǐng)域。

        [1]WU J, YANG L, LIU X. Subcarrier and power allocation in OFDM based cognitive radio systems[J].4th International Conference on Intelligent Computation Technology and Automation, 2011(13):728-731.

        [2]XU Y H, WANG J L, WU Q H, ET AL. Opportunistic spectrum access in unknown dynamic environment a game-theoretic stochastic learning solution[J]. IEEE Transactions on Wireless Communication, 2012(4):1380-1391.

        [3]PETAR KORMUSHEV, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle filtering[J]. European Workshop on Reinforcement Learning, 2012(10):1-13.

        [4]BORKAR V S, JAIN A. Reinforcement learning, particle flters and the EM algorithm[J].Information Theory and Applications Workshop, 2014(12):1-5.

        [5]BEN GHORBEL M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[J].Globecom Workshops, 2014(23):219-224.

        Research on reinforcement learning algorithm based on particle flter

        Dong Chunli, Wang Li
        (School of Electronic and Information Engineering, Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)

        This paper analyzes a particle flter based on reinforcement learning algorithm. The new algorithm processed the opportunistic spectrum access algorithm based on particle flter and Q-learning algorithm by combining particle flter and Q-learning algorithm. The experimental results show that the RLPF algorithm can be directly used for global search in the strategy space, which is a signifcant improvement of traditional reinforcement learning algorithm based on the local search strategy.

        reinforcement learning; particle flter; strategy space; global search

        南京交通職業(yè)技術(shù)學(xué)院高層次人才科研基金項(xiàng)目;項(xiàng)目編號:No. 2013。

        董春利(1964— ),男,山東青島,博士,教授;研究方向:認(rèn)知無線電網(wǎng)絡(luò)與下一代無線泛在網(wǎng)絡(luò)。

        猜你喜歡
        全局頻譜濾波
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        一種用于深空探測的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
        一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        認(rèn)知無線電頻譜感知技術(shù)綜述
        RTS平滑濾波在事后姿態(tài)確定中的應(yīng)用
        基于線性正則變換的 LMS 自適應(yīng)濾波
        遙測遙控(2015年2期)2015-04-23 08:15:18
        新思路:牽一發(fā)動全局
        基于隨機(jī)加權(quán)估計(jì)的Sage自適應(yīng)濾波及其在導(dǎo)航中的應(yīng)用
        国产精品国产自产自拍高清av| 亚洲av成人片色在线观看高潮 | 熟妇人妻av中文字幕老熟妇| 国产丝袜在线精品丝袜不卡| 女同av免费在线播放| 亚洲av区,一区二区三区色婷婷| 精品999日本久久久影院| 亚洲综合一区二区三区四区五区 | 久久精品国产字幕高潮| 青青草国产精品一区二区| 色悠久久久久综合欧美99| 自慰高潮网站在线观看| 精品人妻av一区二区三区四区 | 人妻无码在线免费| 按摩偷拍一区二区三区| 婷婷色综合视频在线观看| 精品国内自产拍在线观看| 国产成人无精品久久久| 国产一区二区三区免费视| 欧美人妻aⅴ中文字幕| 亚洲男同志gay 片可播放| 国产麻豆剧传媒精品国产av蜜桃| 日本高清一道本一区二区| 久久人人爽人人爽人人片av东京热 | 蜜桃视频一区二区三区| 琪琪色原网站在线观看| 成熟人妻av无码专区| 波多吉野一区二区三区av| 国产精品亚洲精品国产| 午夜福利理论片高清在线观看| 久久国产亚洲精品超碰热| 亚洲av免费看一区二区三区| 内射干少妇亚洲69xxx| 少妇高潮惨叫喷水在线观看| 久久视频在线视频精品| 在线观看亚洲第一黄片| av潮喷大喷水系列无码| 国产高清一级毛片在线看| 国内嫩模自拍偷拍视频| 人人妻人人爽人人澡人人| 久久国产成人免费网站|