亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)智能接入控制技術(shù)

        2018-09-21 11:11:14嚴(yán)牧孫耀馮鋼
        中興通訊技術(shù) 2018年2期
        關(guān)鍵詞:強(qiáng)化學(xué)習(xí)

        嚴(yán)牧 孫耀 馮鋼

        摘要:介紹了無(wú)線網(wǎng)絡(luò)中的強(qiáng)化學(xué)習(xí)算法,認(rèn)為由于強(qiáng)化學(xué)習(xí)算法與環(huán)境交互并動(dòng)態(tài)決策的特點(diǎn),其對(duì)復(fù)雜網(wǎng)絡(luò)環(huán)境有著較強(qiáng)的適應(yīng)能力;然后針對(duì)無(wú)線網(wǎng)絡(luò)中的強(qiáng)化學(xué)習(xí)方法的應(yīng)用場(chǎng)景做了概述,并給出了兩個(gè)基于強(qiáng)化學(xué)習(xí)的無(wú)線接入技術(shù)案例:毫米波技術(shù)的切換技術(shù)和Multi-RAT接入技術(shù)??梢钥吹剑褐悄艿臒o(wú)線接入技術(shù)由于具備充分挖掘和擴(kuò)展無(wú)線網(wǎng)絡(luò)資源的潛力,能夠顯著提高無(wú)線網(wǎng)絡(luò)用戶的體驗(yàn)。

        關(guān)鍵詞: 未來(lái)無(wú)線網(wǎng)絡(luò);切換;接入控制;強(qiáng)化學(xué)習(xí)

        Abstract: In this paper, the application of reinforcement learning in wireless network is briefly introduced. Due to the characteristics of interacting with environment and dynamic decision making, reinforcement leaning algorithm has strong adaptability to complex network environment. Then the application scenarios of reinforcement learning method in wireless network are summarized, and two cases of wireless access technology based on reinforcement learning are given: handoff policy of mmWave HetNets and multi-rat access control. Intelligent access control of wireless network is powerful in exploiting wireless network resources, which can improve the quality of experiences of mobile users.

        Key words: future wireless network; handoff; access control; reinforcement learning

        當(dāng)今社會(huì)已經(jīng)邁入信息經(jīng)濟(jì)時(shí)代,信息技術(shù)已成為推動(dòng)經(jīng)濟(jì)結(jié)構(gòu)向多樣化消費(fèi)和低能耗高效發(fā)展的重要驅(qū)動(dòng)力。據(jù)思科公司預(yù)測(cè),到2019年全球移動(dòng)數(shù)據(jù)總流量將增長(zhǎng)至每月24.3 EB,接近2000年全球互聯(lián)網(wǎng)總流量的200倍[1]。另?yè)?jù)全球移動(dòng)通信系統(tǒng)(GSM)協(xié)會(huì)分析[2],到2020年全球支撐物聯(lián)網(wǎng)的機(jī)器對(duì)機(jī)器通信(M2M)連接數(shù)將達(dá)到9.8億,接近2000 年全球M2M 連接數(shù)的14倍。無(wú)線通信網(wǎng)絡(luò)在面臨無(wú)線資源趨于枯竭的同時(shí),正在經(jīng)歷著前所未有的高增速無(wú)線服務(wù)需求與低效率無(wú)線服務(wù)供給之間的矛盾。

        未來(lái)無(wú)線通信將利用復(fù)雜異構(gòu)網(wǎng)絡(luò)來(lái)支持多樣化應(yīng)用場(chǎng)景,包括連續(xù)廣域覆蓋、熱點(diǎn)高容量、高可靠低時(shí)延以及低功耗巨連接等。由于用戶終端性能和業(yè)務(wù)需求的不同,用戶體驗(yàn)質(zhì)量(QoE)在不同通信場(chǎng)景也存在極大的差異性。出于成本和兼容性的考慮,未來(lái)無(wú)線網(wǎng)絡(luò)將長(zhǎng)期處于多網(wǎng)共存的狀況,包括2G、3G、4G、5G、Wi-Fi 等,由于不同網(wǎng)絡(luò)利用不同的無(wú)線接入技術(shù),因而形成了接入技術(shù)的差異性。同時(shí),為了進(jìn)一步提升網(wǎng)絡(luò)的容量,需要在傳統(tǒng)接入站點(diǎn)的基礎(chǔ)上引入Micro、Pico、終端直通(D2D)、移動(dòng)自組織(Adhoc)及小蜂窩等接入站點(diǎn),因而形成了對(duì)網(wǎng)絡(luò)的重疊異構(gòu)覆蓋。網(wǎng)絡(luò)的高密度部署和多網(wǎng)絡(luò)共存使得復(fù)雜異構(gòu)網(wǎng)絡(luò)下的無(wú)線干擾環(huán)境變得更加復(fù)雜,并對(duì)無(wú)線接入網(wǎng)的資源調(diào)度和控制管理提出了更高的要求。

        傳統(tǒng)的無(wú)線接入技術(shù)在“網(wǎng)絡(luò)-頻譜”的靜態(tài)匹配關(guān)系下對(duì)網(wǎng)絡(luò)進(jìn)行規(guī)劃設(shè)計(jì)和資源配置。設(shè)備的接入往往基于某一參數(shù)(如信號(hào)強(qiáng)弱、區(qū)域位置)選擇單一接入網(wǎng)絡(luò)和固定接入站點(diǎn)。由于復(fù)雜異構(gòu)網(wǎng)絡(luò)中海量用戶行為的隨機(jī)性,不同網(wǎng)絡(luò)的業(yè)務(wù)需求呈現(xiàn)出極大的時(shí)空動(dòng)態(tài)變化特性。靜態(tài)的“網(wǎng)絡(luò)-頻譜”匹配使得網(wǎng)絡(luò)容量無(wú)法滿足變化的網(wǎng)絡(luò)業(yè)務(wù)需求,大大地限制了無(wú)線網(wǎng)絡(luò)的接入能力,并導(dǎo)致用戶接入體驗(yàn)差等問(wèn)題。

        為根本性地提高無(wú)線網(wǎng)絡(luò)接入能力,必須打破傳統(tǒng)的無(wú)線資源管理和服務(wù)接入控制的僵化機(jī)制,研究智能的無(wú)線接入理論與技術(shù),充分挖掘和擴(kuò)展無(wú)線網(wǎng)絡(luò)資源的利用潛力,顯著提高無(wú)線網(wǎng)絡(luò)用戶的體驗(yàn)。在無(wú)線網(wǎng)絡(luò)中,由于用戶行為以及網(wǎng)絡(luò)的動(dòng)態(tài)性和復(fù)雜性,使得接入控制和資源分配是非常具備挑戰(zhàn)性的[3]。人工智能(AI)技術(shù),比如機(jī)器學(xué)習(xí),賦予計(jì)算機(jī)分析環(huán)境并解決問(wèn)題的能力,并提供了一種有效的方法來(lái)處理動(dòng)態(tài)性高、復(fù)雜度明顯的問(wèn)題[4]。

        1 強(qiáng)化學(xué)習(xí)在無(wú)線網(wǎng)絡(luò)中 的應(yīng)用

        強(qiáng)化學(xué)習(xí)是一種在非確定環(huán)境下做決策的強(qiáng)勁的工具[5]。Google Deepmind最近所研發(fā)的AlphaGo以及AlphaGo Zero所使用的強(qiáng)化學(xué)習(xí)在圍棋這類動(dòng)態(tài)性明顯、環(huán)境信息復(fù)雜的博弈游戲中表現(xiàn)良好[6],并且取得較好的成績(jī)。在異構(gòu)網(wǎng)絡(luò)接入控制的過(guò)程當(dāng)中,由于網(wǎng)絡(luò)的動(dòng)態(tài)性導(dǎo)致了決策過(guò)程也必然是動(dòng)態(tài)性的,我們需要主體和環(huán)境進(jìn)行頻繁交互、感知,從而智能化地協(xié)調(diào)用戶和基站的決策行為。因此,強(qiáng)化學(xué)習(xí)由于其所具備的特點(diǎn)被我們利用到異構(gòu)網(wǎng)絡(luò)的決策過(guò)程中也是順其自然的。

        1.1 強(qiáng)化學(xué)習(xí)的分類

        (1)根據(jù)強(qiáng)化算法是否依賴模型可以分為基于模型的強(qiáng)化學(xué)習(xí)算法和無(wú)模型的強(qiáng)化學(xué)習(xí)算法。這兩類算法的共同點(diǎn)是通過(guò)與環(huán)境交互獲得數(shù)據(jù),不同點(diǎn)是利用數(shù)據(jù)的方式不同。基于模型的強(qiáng)化學(xué)習(xí)算法利用與環(huán)境交互得到的數(shù)據(jù)學(xué)習(xí)系統(tǒng)或者環(huán)境模型,再基于模型進(jìn)行決策。無(wú)模型的強(qiáng)化學(xué)習(xí)算法則是直接利用與環(huán)境交互獲得的數(shù)據(jù)改善自身的行為。兩類方法各有優(yōu)缺點(diǎn):一般來(lái)講基于模型的效率比無(wú)模型要高,因?yàn)橹悄荏w可以利用環(huán)境信息;但是有些無(wú)法建立模型的任務(wù)只能利用無(wú)模型強(qiáng)化學(xué)習(xí)算法,因此無(wú)模型強(qiáng)化學(xué)習(xí)算法更具備通用性。

        (2)根據(jù)策略的更新和學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)算法可分為基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法、基于直接策略搜索的強(qiáng)化學(xué)習(xí)算法以及Actor-Critic(AC)的方法。所謂基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法是指學(xué)習(xí)值函數(shù),最終的策略根據(jù)值函數(shù)貪婪得到。也就是說(shuō),任意狀態(tài)下,值函數(shù)最大的動(dòng)作為當(dāng)前最優(yōu)策略?;谥苯硬呗运阉鞯膹?qiáng)化學(xué)習(xí)算法,一般是將策略參數(shù)化,學(xué)習(xí)實(shí)現(xiàn)目標(biāo)的最優(yōu)參數(shù)?;贏C的方法則是聯(lián)合使用值函數(shù)和直接策略搜索。

        (3)根據(jù)環(huán)境返回的回報(bào)函數(shù)是否已知,強(qiáng)化學(xué)習(xí)算法可以分為正向強(qiáng)化學(xué)習(xí)和逆向強(qiáng)化學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)中,回報(bào)函數(shù)是人為指定的,回報(bào)函數(shù)指定的強(qiáng)化學(xué)習(xí)算法稱為正向強(qiáng)化學(xué)習(xí)。很多時(shí)候,回報(bào)無(wú)法人為指定,如無(wú)人機(jī)的特效表演,這時(shí)可以通過(guò)機(jī)器學(xué)習(xí)的方法由函數(shù)自己學(xué)出來(lái)回報(bào)。

        1.2 強(qiáng)化學(xué)習(xí)在無(wú)線網(wǎng)絡(luò)中的應(yīng)用

        考慮到無(wú)線網(wǎng)絡(luò)的特殊應(yīng)用場(chǎng)景,在基于圖1的分類下,我們進(jìn)一步按照無(wú)線網(wǎng)絡(luò)的特點(diǎn)對(duì)強(qiáng)化學(xué)習(xí)進(jìn)行分類,如圖2所示。首先由于受限于網(wǎng)絡(luò)中有限的頻譜資源,用戶總是以競(jìng)爭(zhēng)的關(guān)系接入到網(wǎng)絡(luò)中,那么資源調(diào)度、小區(qū)切換等考慮用戶QoE的問(wèn)題往往可以建模成一個(gè)多主體馬爾科夫決策過(guò)程(MDP);然后考慮到網(wǎng)絡(luò)狀態(tài)空間變化基于時(shí)間的連續(xù)性或離散性,可將網(wǎng)絡(luò)決策過(guò)程建模為連續(xù)時(shí)間或者離散時(shí)間MDP,連續(xù)時(shí)間MDP需要決策做到快速反應(yīng),盡量做到在線學(xué)習(xí);再者,基于網(wǎng)絡(luò)動(dòng)作空間的連續(xù)性或離散性,有分別基于策略迭代和值迭代的強(qiáng)化學(xué)習(xí)方法;最后考慮到傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法利用到網(wǎng)絡(luò)環(huán)境中的一些不足,我們可以和深度學(xué)習(xí)結(jié)合起來(lái)做一個(gè)改進(jìn)。

        根據(jù)做決策的時(shí)序先后,我們可以把網(wǎng)絡(luò)中接入用戶的決策分為基于多主體的序貫博弈過(guò)程或同時(shí)博弈過(guò)程,如圖3所示。具體來(lái)說(shuō),由于普通的強(qiáng)化學(xué)習(xí)本身就是基于MDP建模,并且解決的是序貫博弈的問(wèn)題。為了解決同時(shí)博弈的問(wèn)題,我們可以采用Nash Q-learning算法[7]。在Nash Q-learning的算法中,所有的決策主體在同一個(gè)決策時(shí)間從一個(gè)隨機(jī)的決策開(kāi)始去嘗試學(xué)習(xí)它們的最優(yōu)Q-value。為了達(dá)到這樣的目的,每一個(gè)主體都通過(guò)其他主體的Q-value來(lái)更新自己的決策,直到達(dá)到納什均衡點(diǎn)。例如:在文獻(xiàn)[8]中,作者在認(rèn)知無(wú)線mesh網(wǎng)絡(luò)中考慮在盡可能保證主用戶的服務(wù)質(zhì)量(QoS)條件下,為同時(shí)接入的次級(jí)用戶分配功率資源和頻譜資源??紤]到次級(jí)用戶之間的競(jìng)爭(zhēng)關(guān)系(博弈關(guān)系),采用了基于多主體的Nash Q-learning算法,并得到較好的結(jié)果。在決策空間集較小,并且主體數(shù)量較少的情況下,Nash Q-learning是一種很好的用于解決多主體同時(shí)博弈的算法。

        在無(wú)線網(wǎng)絡(luò)中,經(jīng)常存在動(dòng)作(決策)空間過(guò)大的現(xiàn)象,例如:在時(shí)頻資源塊分配問(wèn)題中或者在長(zhǎng)期演進(jìn)(LTE)中非連續(xù)接收(DRX)cycle長(zhǎng)度的設(shè)置問(wèn)題中。如果我們把頻譜資源或者cycle的長(zhǎng)度范圍劃分為較小的決策單元,那么就會(huì)使得策略空間異常大,會(huì)消耗大量的計(jì)算資源。如果我們能通過(guò)策略迭代用更平滑的手段去搜索最優(yōu)策略,會(huì)顯著增加學(xué)習(xí)效率,更加貼合無(wú)線網(wǎng)絡(luò)中需求快速?zèng)Q策的特點(diǎn)。

        基于狀態(tài)空間在時(shí)間上的連續(xù)性或離散性,我們可以把MDP建模成連續(xù)時(shí)間上的MDP或離散時(shí)間上的MDP。連續(xù)時(shí)間MDP是基于時(shí)間序列連續(xù)的馬爾科夫過(guò)程,其依然具備馬爾科夫性。連續(xù)時(shí)間MDP和離散時(shí)間MDP區(qū)別在于時(shí)間指標(biāo)參數(shù)從離散的[T={0,1,2...}]改為連續(xù)的實(shí)數(shù)[T={t|t>=0}]。當(dāng)我們考慮小時(shí)間尺度上的網(wǎng)絡(luò)問(wèn)題,由于用戶流的不間斷涌入,信道質(zhì)量的無(wú)規(guī)律變化等都會(huì)造成網(wǎng)絡(luò)狀態(tài)的頻繁波動(dòng)。因此快速?zèng)Q策就變得尤為重要。這里基于連續(xù)空間較好的算法是AC算法。AC較好地平衡了值迭代和策略迭代這兩種方法。例如:文獻(xiàn)[9]中,作者考慮把基于流量變化下的基站開(kāi)關(guān)操作建模為一個(gè)連續(xù)狀態(tài)的MDP??紤]到用戶的接入流量是一個(gè)連續(xù)變化的過(guò)程,那么整個(gè)網(wǎng)絡(luò)的狀態(tài)也相應(yīng)具有很強(qiáng)的動(dòng)態(tài)性和連續(xù)性。所使用的AC算法在該工作中不僅加快了學(xué)習(xí)速率,TD-error還具備預(yù)測(cè)的功能性。

        無(wú)線網(wǎng)絡(luò)中,強(qiáng)化學(xué)習(xí)還可以和深度學(xué)習(xí)結(jié)合起來(lái)使用,兩者各有優(yōu)缺點(diǎn)。強(qiáng)化學(xué)習(xí)本身由于狀態(tài)空間過(guò)大會(huì)導(dǎo)致學(xué)習(xí)時(shí)間較長(zhǎng)(維度詛咒),在復(fù)雜的無(wú)線網(wǎng)絡(luò)環(huán)境中,由于網(wǎng)絡(luò)狀態(tài)復(fù)雜,單純的強(qiáng)化學(xué)習(xí)由于算法收斂過(guò)慢并不是十分貼合?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,可以利用歷史數(shù)據(jù)對(duì)下一時(shí)刻的用戶行為或者網(wǎng)絡(luò)狀態(tài)進(jìn)行預(yù)測(cè)。但是,盡管深度學(xué)習(xí)能夠提供較為精準(zhǔn)的趨勢(shì)分析和模式識(shí)別,也很難推導(dǎo)出與數(shù)據(jù)完全匹配的分布函數(shù),在無(wú)線網(wǎng)絡(luò)中帶來(lái)決策上的明顯失誤,使得數(shù)據(jù)失去其應(yīng)用價(jià)值。此外,為了及時(shí)保存和處理蜂窩網(wǎng)絡(luò)數(shù)據(jù),基站作為中心控制器需要存儲(chǔ)大量的蜂窩網(wǎng)絡(luò)數(shù)據(jù),需要消耗大量的存儲(chǔ)和計(jì)算資源。因此,我們可以將深度學(xué)習(xí)利用起來(lái)為小時(shí)間尺度上的網(wǎng)絡(luò)決策提供先驗(yàn)信息,從而加速?gòu)?qiáng)化學(xué)習(xí)算法的收斂速度。

        2 智能化接入控制案例分析

        我們考慮兩種智能化的接入控制技術(shù)作為案例研究:(1)針對(duì)毫米波異構(gòu)蜂窩網(wǎng)我們提出了一種基于機(jī)器學(xué)習(xí)的智能切換策略,在保證用戶服務(wù)質(zhì)量的前提下,減少不必要的切換次數(shù)。針對(duì)單個(gè)用戶,在強(qiáng)化學(xué)習(xí)方法中采用基于置信區(qū)間上界(UCB)算法的基站選擇策略,可以降低某個(gè)用戶的切換次數(shù)。(2)我們考慮將不同的QoS需求的用戶接入到蜂窩網(wǎng)和Wi-Fi共存的異構(gòu)網(wǎng)絡(luò)中。為了在復(fù)雜和動(dòng)態(tài)環(huán)境中最大化系統(tǒng)吞吐量并且同時(shí)滿足用戶QoS需求,我們利用基于多主體強(qiáng)化學(xué)習(xí)的智能多無(wú)線電接入技術(shù),通過(guò)動(dòng)態(tài)感知網(wǎng)絡(luò)環(huán)境,來(lái)為每個(gè)用戶分配相應(yīng)的信道資源。

        2.1 基于毫米波技術(shù)的智能切換技術(shù)

        (1)強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        由于處在同一服務(wù)類型的用戶切換準(zhǔn)則相近,在經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)之后,回報(bào)函數(shù)期望的估計(jì)值具有較高的準(zhǔn)確性。

        (3)基站選擇策略

        由于強(qiáng)化學(xué)習(xí)中的定理——探索和利用,我們不能夠總是選擇當(dāng)前回報(bào)函數(shù)期望值最大的基站進(jìn)行切換。通常,我們用Regret來(lái)衡量強(qiáng)化學(xué)習(xí)中的一個(gè)策略的優(yōu)劣程度。Regret是指所采取的策略與最優(yōu)策略之間的差距。在我們的這個(gè)問(wèn)題中,UE n在策略π下在執(zhí)行了W次切換后的Regret可以表示為:

        我們考察了毫米波異構(gòu)網(wǎng)中智能(SMART)切換策略下的性能,并與下面兩種傳統(tǒng)策略進(jìn)行了對(duì)比:基于速率的切換策略(RBH)是每次用戶發(fā)生切換時(shí)總是選擇當(dāng)前可以提供最大傳輸速率的基站進(jìn)行切換;基于干擾加噪聲比(SINR)的切換策略(SBH)是用戶總是選擇可以提供最大信號(hào)SINR的基站進(jìn)行切換。圖4代表了這3種切換策略下的系統(tǒng)總的切換次數(shù)/系統(tǒng)吞吐量與毫米波小基站(mm-FBS)所占比例λ之間的關(guān)系。通過(guò)圖4可以看出:我們可以通過(guò)較小的系統(tǒng)吞吐量的損失而帶來(lái)較明顯的切換次數(shù)的降低。

        2.2 Multi-RAT智能接入技術(shù)

        為了在復(fù)雜和動(dòng)態(tài)環(huán)境中最大化系統(tǒng)吞吐量并且同時(shí)滿足用戶QoS需求,我們利用基于多主體強(qiáng)化學(xué)習(xí)方法的智能多無(wú)線電接入(SARA)技術(shù),通過(guò)動(dòng)態(tài)感知網(wǎng)絡(luò)環(huán)境,來(lái)為每個(gè)用戶分配相應(yīng)的信道資源。

        (1)場(chǎng)景描述

        我們研究的場(chǎng)景是蜂窩網(wǎng)小基站(SBS)和Wi-Fi熱點(diǎn)共存的場(chǎng)景。LTE下行執(zhí)行正交頻分多址的傳輸方式(OFDMA),其頻譜資源包含很多的時(shí)頻資源塊(RB),又叫做子信道。在傳輸?shù)倪^(guò)程中,非連續(xù)波段的頻譜可以利用傳輸數(shù)據(jù)流。為了保護(hù)正在進(jìn)行的會(huì)話流,我們假設(shè)新到的業(yè)務(wù)流必須在沒(méi)有多余頻譜資源的情況下進(jìn)行等待。基站作為中心控制器是能夠獲取全局的網(wǎng)絡(luò)信息,包括用戶的QoS需求和網(wǎng)絡(luò)環(huán)境信息。由于網(wǎng)絡(luò)的動(dòng)態(tài)性和跨無(wú)線電技術(shù)(RAT)的資源調(diào)度復(fù)雜特性,多無(wú)線電技術(shù)的聚合需要更加智能化的技術(shù)支撐。

        (2)基于多主體強(qiáng)化學(xué)習(xí)的Multi-RAT接入機(jī)制

        多無(wú)線電接入過(guò)程是一個(gè)多主體的隨機(jī)過(guò)程[9]。在多主體的環(huán)境中,我們可以觀測(cè)到其他所有主體所做的決策已經(jīng)反饋的回報(bào)值?;谠摱嘀黧w的隨機(jī)過(guò)程,和圖5提出的兩層決策框架,無(wú)線電/信道選擇過(guò)程(RSP)和資源分配過(guò)程(RAP)中分別存在著同時(shí)博弈和序貫博弈的過(guò)程。我們采取Nash Q-learning算法[9]以及蒙特卡洛樹搜索(MCTS)方法[10]來(lái)解決這兩個(gè)博弈的相關(guān)問(wèn)題。

        我們把接入過(guò)程建模成一個(gè)基于半馬爾科夫(SMDP)的強(qiáng)化學(xué)習(xí)模型。具體來(lái)說(shuō),在我們的工作中有兩個(gè)決策階段,如圖5所示:第1階段為RSP,該階段的目的在于盡可能地去避免碰撞和亂序情況的發(fā)生,從而壓縮決策空間。當(dāng)我們的算法收斂后,我們就開(kāi)始第2階段——RAP,在該階段中,基于有限的網(wǎng)絡(luò)資源和多樣的用戶喜好,我們考慮去使用有限的信道資源為用戶提供合適的服務(wù),并且使得系統(tǒng)平均吞吐量最大化。在這一階段中,我們假設(shè)在蒙特卡洛樹搜索中,每一個(gè)節(jié)點(diǎn)s包含了[{r(s,a),N(s,a),Q(s,a)}]的信息,其中[r(s,a)]是即時(shí)的獎(jiǎng)賞值用來(lái)衡量該資源分配決策的好壞,[N(s,a)]是節(jié)點(diǎn)的被訪問(wèn)次數(shù),[Q(s,a)]是該節(jié)點(diǎn)的Q-value。在決策的搜索過(guò)程中,用到了上界信心樹搜索(UCT)[11]方法。每個(gè)節(jié)點(diǎn)所需要滿足的是單個(gè)用戶流的QoS需求,根節(jié)點(diǎn)所需要滿足的是整個(gè)系統(tǒng)的吞吐量的最大化。

        我們使用了下面的一些調(diào)度技術(shù)作為比較:多載體的比例公平調(diào)度算法(PFSMTS)[12];LTE作為輔助傳輸?shù)乃惴ǎ↙AA):在該算法中,Wi-Fi作為流量?jī)?yōu)先卸載的頻段,LTE作為輔助頻段;在線學(xué)習(xí)(OLA):對(duì)SARA中的用戶進(jìn)行流式處理。

        從仿真圖我們得到的結(jié)論分別是:如圖6a)所示,SARA所需的收斂學(xué)習(xí)次數(shù)隨著用戶數(shù)量的增加而增加,復(fù)雜度也隨之上升。考慮到小時(shí)間尺度調(diào)度特性,我們可以設(shè)置在短時(shí)間內(nèi)進(jìn)行資源調(diào)度,這樣相應(yīng)進(jìn)入用戶數(shù)量也較少,算法收斂較快,網(wǎng)絡(luò)性能容易被滿足。如圖6b)所示,SARA的系統(tǒng)吞吐量性能明顯要高于其他的調(diào)度算法(當(dāng)用戶數(shù)量大于3的時(shí)候),這意味著SARA這樣的智能化的LTE-WiFi聚合方式可以在動(dòng)態(tài)的環(huán)境中明顯地提高系統(tǒng)資源的利用率。

        3結(jié)束語(yǔ)

        本文中,我們簡(jiǎn)要介紹了強(qiáng)化學(xué)習(xí),并研究了強(qiáng)化學(xué)習(xí)在無(wú)線網(wǎng)絡(luò)中的一些應(yīng)用。我們給出了兩個(gè)針對(duì)復(fù)雜異構(gòu)無(wú)線網(wǎng)絡(luò)、動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下的智能接入技術(shù)。從仿真結(jié)果來(lái)看:和傳統(tǒng)的接入控制算法相比,我們提出的智能化接入技術(shù)可在增加很小代價(jià)的情況下提升較大的網(wǎng)絡(luò)性能。

        參考文獻(xiàn)

        [1] Cisco. Visual Networking Index: Global Mobile Data Traffic Forecast Update 2014-2019[R], 2015

        [2] GSM Association. The Mobile Economy Report[R],2015

        [3] CAO B, HE F, LI Y, et al. Software Defined Virtual Wireless Network: Framework and Challenges[J]. IEEE Network, 2015:29(4): 6-12, 2015.DOI: 10.1109/MNET.2015.7166185

        [4] SIMON P.Too Big to Ignore: The Business Case for Big Data[M].British: John Wiley & Sons, 2013

        [5] LITTMAN M L. Reinforcement Learning Improves Behavior from Evaluative Feedback[J] Nature, 2015,521(7553):445-451

        [6] SILVER D, HUANG A, MADDISON C J, et al. Mastering the Game of Go with Deep Neural Networks and Tree Search[J].Nature, 2016, 529(1):484-489

        [7] HU J, WELLMAN M P. Nash Q-Learning for General-Sum Stochastic Games [J]. Journal of Machine Learning Research, 2003, 4(6):1039-1069

        [8] CHEN X F, ZHAO Z F, ZHANG H G. Stochastic Power Adaptation with Multi-agent Reinforcement Learning for Cognitive Wireless Mesh Networks[J]. IEEE Transactions on Mobile Computing, 2013, 12(11):2155-2166.DOI: 10.1109/TMC.2012.178

        [9] LI R, ZHAO Z, CHEN X, PALICOT J, et al. TACT: A Transfer Actor-Critic Learning Framework for Energy Saving in Cellular Radio Access Networks [J]. IEEE Transactions on Wireless Communications,2014,13(4):2000-2011.DOI: 10.1109/TWC.2014.022014.130840

        [10] SILVER D, HUANG A, MADDISON C J A, et al. Masteringthe Game of Go with Deep Neural Networks and Tree Search[J]. Nature, 2016, 529(1):484-489

        [11] ROSIN C D. Multi-Armed Bandits with Episode Context[J]. Annals of Mathematics and Artificial Intelligence, 2011, 61(3):203-230

        [12] KIM H, KIM K, HAN Y, et al. A Proportional Fair Scheduling For multi-carrier Transmission Systems[C]//Vehicular Technology Conference. USA,2004,(1):409-413

        猜你喜歡
        強(qiáng)化學(xué)習(xí)
        基于深度學(xué)習(xí)的生成式聊天機(jī)器人算法綜述
        機(jī)器學(xué)習(xí)發(fā)展現(xiàn)狀及應(yīng)用的研究
        未來(lái)人工智能自主學(xué)習(xí)網(wǎng)絡(luò)的構(gòu)建
        轉(zhuǎn)觀念 強(qiáng)服務(wù) 樹立用電檢查新價(jià)值
        智能車自主避障路徑規(guī)劃研究綜述
        一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
        基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
        論“以讀促寫”在初中英語(yǔ)寫作教學(xué)中的應(yīng)用
        智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
        分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
        亚洲不卡中文字幕无码| 亚洲天堂av一区二区| 日产精品高潮一区二区三区5月| 在线看片免费人成视久网不卡| 亚洲精品中文字幕不卡| 91精品国产综合久久精品密臀| 国产女人av一级一区二区三区 | 91精品全国免费观看青青| 美腿丝袜av在线播放| 国产精品麻豆成人av| 中文在线最新版天堂av| 桃色一区一区三区蜜桃视频| 亚洲人成人无码www| 国产极品女主播国产区| 国产 字幕 制服 中文 在线| 99国产超薄丝袜足j在线播放| 国产一区二区三区杨幂| 久久精品国产亚洲av日韩一| 91麻豆精品国产91久久麻豆| 亚洲精品国产成人片| 99久久国产福利自产拍 | 无码精品一区二区三区免费16| 国产日产高清一区二区三区| 女优av一区二区三区| 亚洲精品乱码久久久久久金桔影视| 亚洲人成网站免费播放| 青青草免费高清视频在线观看| 白白色发布在线观看视频| 欧美日韩精品乱国产| 色狠狠av老熟女| 欧美亚洲h在线一区二区| 亚洲av无吗国产精品| 夜夜高潮夜夜爽夜夜爱爱一区 | 日本丰满老妇bbw| 俄罗斯老熟妇色xxxx| 伊人婷婷色香五月综合缴激情| 视频在线播放观看免费| 蜜桃视频免费进入观看 | 亚洲国产无线乱码在线观看| 日韩精品极品免费观看| 日本二区在线视频观看|