王月平,徐 濤
(1.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京211106; 2.中國民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300)(?通信作者電子郵箱84545773@qq.com)
隨著網(wǎng)絡(luò)結(jié)構(gòu)的密集化、異構(gòu)化,以及全雙工等新技術(shù)的引入,許多無線通信網(wǎng)絡(luò)中的基礎(chǔ)問題需要進(jìn)行重新研究,用戶接入(user association 或cell association)便是其中之一[1-2]。在無線通信網(wǎng)絡(luò)特別是超密集異構(gòu)網(wǎng)絡(luò)中,一個(gè)無線終端通常處于多個(gè)基站的服務(wù)范圍內(nèi)。用戶接入問題就是為無線終端選擇接入某個(gè)基站進(jìn)行服務(wù)和數(shù)據(jù)傳輸?shù)膯栴},無論采用何種無線技術(shù)以及網(wǎng)絡(luò)部署方式,用戶接入機(jī)制都是不可或缺的。同時(shí)用戶接入機(jī)制作為無線資源管理的第一步,對(duì)于網(wǎng)絡(luò)性能有著重要的影響,在實(shí)現(xiàn)負(fù)載均衡、干擾控制、提高頻譜和能量效率等方面起著非常重要的作用[3]。
異構(gòu)網(wǎng)絡(luò)中的用戶接入機(jī)制可以分為網(wǎng)絡(luò)端驅(qū)動(dòng)的集中式設(shè)計(jì)Network-driven,即由網(wǎng)絡(luò)中心節(jié)點(diǎn)作出接入決策;以及用戶端驅(qū)動(dòng)的分布式設(shè)計(jì)User-driven,即由用戶終端作出接入決策。網(wǎng)絡(luò)端驅(qū)動(dòng)的集中式設(shè)計(jì)的優(yōu)點(diǎn)就是中心節(jié)點(diǎn)能夠收集網(wǎng)絡(luò)的整體信息,因此可以作出針對(duì)系統(tǒng)整體的最優(yōu)接入決策,代價(jià)就是具有較高的復(fù)雜度。相比而言,用戶端驅(qū)動(dòng)的用戶接入機(jī)制的優(yōu)勢(shì)則具有較低的復(fù)雜度。兩種方案各有其優(yōu)缺點(diǎn),適用于不同的網(wǎng)絡(luò)結(jié)構(gòu)及節(jié)點(diǎn)類型。在超密集異構(gòu)網(wǎng)絡(luò)中,大部分的小基站由不同的組織、機(jī)構(gòu)、甚至個(gè)人(如家庭基站)進(jìn)行部署。針對(duì)這種情況,將面向包含宏基站和全雙工小基站的多層異構(gòu)自組織網(wǎng)絡(luò)研究用戶端驅(qū)動(dòng)的低復(fù)雜度用戶接入機(jī)制。
現(xiàn)有的用戶接入機(jī)制的研究[3-8]與設(shè)計(jì)幾乎都是基于上行下行關(guān)聯(lián)的,即用戶終端在上行和下行必須接入到同一個(gè)基站[9]。對(duì)于單層同構(gòu)網(wǎng)絡(luò)來說,這種接入機(jī)制簡單而有效。首先,采用上下行關(guān)聯(lián)的接入機(jī)制便于網(wǎng)絡(luò)的設(shè)計(jì)與運(yùn)行,特別是便于信令同步、資源管理等;其次,在單層同構(gòu)網(wǎng)絡(luò)中,能提供最好下行連接的基站通常也能提供最好的上行連接。而在多層異構(gòu)網(wǎng)絡(luò)中,存在著不同層次基站之間以及上行下行之間的不對(duì)稱問題,即不同層次的基站之間以及上行下行之間通常在發(fā)射功率、覆蓋范圍、信道質(zhì)量、數(shù)據(jù)流量、回程容量以及硬件等方面有較大差別,并且這種不對(duì)稱會(huì)隨著各層基站密度的增加而更加突出。這時(shí)基于上行下行關(guān)聯(lián)的用戶接入將會(huì)嚴(yán)重制約系統(tǒng)的性能,如負(fù)載均衡、干擾、頻譜和能量效率等。例如,當(dāng)采用基于最強(qiáng)下行信號(hào)且上下行關(guān)聯(lián)的用戶接入機(jī)制時(shí),因?yàn)楹昊九c小基站發(fā)射功率存在較大差異,該機(jī)制將會(huì)使大部分用戶都連接到宏基站,從而造成嚴(yán)重的負(fù)載不均衡,并降低了小基站部署的意義。此外基于頻譜效率的考慮,宏基站與小基站通常復(fù)用同一頻譜資源,這時(shí)會(huì)存在以下情況:基于最強(qiáng)下行信號(hào)用戶連接到較遠(yuǎn)的宏基站;然而在進(jìn)行上行數(shù)據(jù)傳輸時(shí),該用戶需要使用較大的傳輸功率來達(dá)到其上行性能要求,但這樣會(huì)對(duì)附近的小基站造成嚴(yán)重的上行干擾,從而影響網(wǎng)絡(luò)的整體性能并增加自身的能量消耗。為此,上行下行分離的概念被提出[10],即上行傳輸和下行傳輸可以選擇接入不同的基站。上行下行關(guān)聯(lián)的用戶接入可以看作是上下行分離用戶接入的一種特例,因此,從理論上說上下行分離可以帶來更好的性能。初步的仿真研究[11-13]已經(jīng)證明在兩層異構(gòu)網(wǎng)絡(luò)中,簡單的上行下行分離機(jī)制可以帶來較大的性能提升,例如,可以提高上行傳輸速率、降低發(fā)射功率和上行干擾,以及實(shí)現(xiàn)更好的負(fù)載均衡等。目前只有少量研究面向超密集異構(gòu)網(wǎng)絡(luò)。考慮到超密集網(wǎng)絡(luò)中基站密度大、用戶接入選擇多的特點(diǎn),一些學(xué)者提出了采用雙連接[14]或者多連接[15]的用戶接入機(jī)制,即用戶可以同時(shí)連接到兩個(gè)或者多個(gè)基站。上述工作目前只研究了最簡單的多接入機(jī)制,即選擇接入最近的k個(gè)基站,但是沒有作進(jìn)一步的優(yōu)化設(shè)計(jì)。
本文考慮允許一個(gè)用戶在上行和下行接入多個(gè)不同的基站,將自組織分離多接入問題建模成演化博弈問題,并用一組微分方程(即復(fù)制者動(dòng)態(tài))來描述用戶接入策略的選擇調(diào)整過程;提出了演化均衡作為博弈的均衡解,并分析了其穩(wěn)定性;此外,基于強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了自組織用戶接入算法,用戶可以根據(jù)當(dāng)前的策略選擇收益來進(jìn)行策略調(diào)整,并最終達(dá)到均衡狀態(tài),實(shí)現(xiàn)了用戶之間的公平性。
考慮由1個(gè)宏基站、K個(gè)小基站和N個(gè)用戶組成的雙層異構(gòu)網(wǎng)絡(luò),其中小基站可以進(jìn)行全雙工傳輸。假設(shè)網(wǎng)絡(luò)中的小基站和用戶在空間上都是隨機(jī)分布,在所考慮的網(wǎng)絡(luò)中,將使用提出的分離多接入機(jī)制,其中用戶只在下行時(shí)可以選擇接到宏基站。此外,假設(shè)用戶在上行時(shí)只能選擇接入1個(gè)小基站,而下行時(shí)可以選擇多個(gè)小基站。兩個(gè)節(jié)點(diǎn)i和j之間的信道增益Gi,j可以定義為:
式(3)表示只有接入概率大于0,用戶才能成功訪問該信道進(jìn)行數(shù)據(jù)傳輸。
下面分析一下系統(tǒng)中的干擾情況。與傳統(tǒng)的上行下行耦合的用戶接入方法相比,分離多接入不可避免會(huì)導(dǎo)致節(jié)點(diǎn)之間產(chǎn)生額外的干擾,這又會(huì)影響節(jié)點(diǎn)最后的性能。本節(jié)分別分析上行和下行傳輸中的干擾,具體如下:
上行鏈路傳輸中的干擾 上行鏈路傳輸中,用戶作為發(fā)送端,小基站作為接收端,必須分析小基站收到的干擾情況。每一個(gè)小基站在上行和下行允許多用戶同時(shí)接入,同時(shí),對(duì)于某個(gè)用戶來說,能在上行和下行連接到多個(gè)不同的小基站。在這樣的系統(tǒng)中,在小基站接收到的與上行干擾包括3個(gè)部分:來自其他進(jìn)行下行傳輸全雙工小基站的干擾、來自其他進(jìn)行上行傳輸?shù)挠脩舻母蓴_,以及自干擾,具體表示為:
下行鏈路傳輸中的干擾 用戶作為下行鏈路傳輸?shù)慕邮照邥?huì)受到其他節(jié)點(diǎn)傳輸?shù)母蓴_。類似的,對(duì)連接到小基站k的UE(User Equipment)的干擾進(jìn)行分析,干擾也包含3個(gè)部分,具體表示如下:
在所考慮的網(wǎng)絡(luò)中,將用戶和小基站之間數(shù)據(jù)傳輸速率作為用戶接入的性能衡量指標(biāo)。顯然,一個(gè)用戶更希望接入到能夠提供更高傳輸速率的小基站。影響傳輸速率的關(guān)鍵因素是小基站能提供的帶寬、發(fā)送功率,以及節(jié)點(diǎn)之間的干擾。對(duì)于給定的小基站k,用戶n連接到k的上行和下行傳輸速率可以用Shannon-Hartley定理計(jì)算:
其中SINRnk是信號(hào)干擾噪聲比。對(duì)于分離多接入,有:
其中σ2是加性高斯白噪聲(Additive White Gaussian Noise,AWGN),假設(shè)對(duì)所有用戶都是一樣的。這樣,用戶n在上行和下行連接到小基站k的上行和下行速率可以相應(yīng)表達(dá)為:
本文將基于演化博弈來設(shè)計(jì)用戶端驅(qū)動(dòng)的多接入機(jī)制,演化博弈論是研究有限理性博弈方之間相互作用的數(shù)學(xué)工具。在演化博弈論中,博弈方根據(jù)自己的適應(yīng)度(即收益)選擇策略。在無線網(wǎng)絡(luò)中,博弈方可以是一定區(qū)域內(nèi)爭奪無線資源的N個(gè)用戶,這也構(gòu)成了群體。用nl(t)表示t時(shí)刻選擇純策略l∈L的代理人數(shù)量,其中L為純策略集合。標(biāo)準(zhǔn)化變量xl(t)=nl()
t N表示策略l的群體份額,此處所有純策略|L|的群體份額構(gòu)成種群狀態(tài),可以用向量示,其中X是狀態(tài)空間。π(l,x)表示使用純策略l的玩家的期望收益,也表示適應(yīng)度。因此群體的平均收益可以推導(dǎo)為,動(dòng)態(tài)策略適應(yīng)過程(即演化博弈中的選擇機(jī)制)可用以下微分方程描述的復(fù)制者動(dòng)態(tài)方程來建模:
其中δ是群體的學(xué)習(xí)速率,控制著選擇變化的速度。根據(jù)復(fù)制者動(dòng)態(tài),預(yù)期收益高于平均收益的策略的總體份額將增加,而預(yù)期收益低于平均收益的策略的總體份額將減少。當(dāng)所有的群體份額不變時(shí),演化均衡就會(huì)達(dá)到(i.e.,x?l=0對(duì)于所有的l∈L)。演化均衡是沿著動(dòng)態(tài)軌跡的不動(dòng)點(diǎn),也就是說,當(dāng)群體狀態(tài)演化為這樣的固定點(diǎn)時(shí),群體狀態(tài)將保持不變。演化均衡的物理意義是,在這個(gè)均衡中,沒有一個(gè)個(gè)體想要改變策略因?yàn)樗氖找娴扔诳傮w的平均收益。雖然可能存在多種演化均衡,但并不是所有的均衡都是穩(wěn)定的。
本文采用演化博弈的動(dòng)機(jī)如下:
有限理性假設(shè) 在傳統(tǒng)非合作博弈論中通常假設(shè)博弈方都是完全理性的,即博弈方完全清楚在某個(gè)策略組合下自己的收益和別人的收益,并選擇策略追求自身收益的最大化。這是一個(gè)非常強(qiáng)的假設(shè),在很多實(shí)際情況下無法滿足該假設(shè),而演化博弈只要求博弈方具有有限理性,即在了解部分收益的情況下,通過不斷學(xué)習(xí)調(diào)整策略,逐漸提高自己的收益。
博弈動(dòng)態(tài)描述 演化博弈可以對(duì)群體之間各博弈方之間的動(dòng)態(tài)交互進(jìn)行描述建模。一個(gè)博弈方可以觀察到其他博弈方的行為,并從觀察中學(xué)習(xí),然后再作出策略調(diào)整。此外,通過復(fù)制者動(dòng)態(tài),任意時(shí)間t的博弈狀態(tài)可以被確定,這樣可以用來研究博弈方策略調(diào)整的一個(gè)軌跡或者趨勢(shì)。
篩選博弈均衡解 在傳統(tǒng)博弈論中,納什均衡是最常用的解的形式。納什均衡能保證在其他博弈方法不偏離均衡策略時(shí),一個(gè)博弈方不能單獨(dú)通過調(diào)整自己的策略來獲得更高的收益。然而,在許多情況下,一個(gè)博弈可能有多個(gè)納什均衡解,因此,就需要進(jìn)行均衡解的篩選。在演化博弈中,演化均衡提供了一種篩選方法,并且能保證篩選過后的解的穩(wěn)定性。
低復(fù)雜度學(xué)習(xí)機(jī)制 在演化博弈中,各博弈可以通過一些低復(fù)雜度的學(xué)習(xí)機(jī)制來達(dá)到演化均衡,這在許多對(duì)算法復(fù)雜度要求較高的實(shí)際問題中很有用處。
公平性 在演化博弈中,在通過不斷動(dòng)態(tài)調(diào)整達(dá)到演化均衡狀態(tài)時(shí),選擇不同策略會(huì)得到同樣收益,實(shí)現(xiàn)了公平性。
考慮用戶接入的策略動(dòng)態(tài)調(diào)整過程,建模演化博弈問題G=(N,S,π),具體介紹如下:
博弈方 在本文的系統(tǒng)模型中,每個(gè)能接入到小基站的活躍用戶都是一個(gè)博弈方。用N={1,2,…,N}來表示本博弈中的博弈方的集合。
群體 在演化博弈中,博弈方的集合構(gòu)成了一個(gè)群體。
策略集合 每個(gè)博弈方的策略就是選擇要接入的小基站。需要注意的是,同一群體中的博弈方擁有相同的策略集。
群體比例 指在一個(gè)群體中,選擇某個(gè)策略的博弈方數(shù)量占整個(gè)群體數(shù)量的比例,即xi=ni N,其中i∈S,ni是選擇策略i的博弈方數(shù)量。顯然
群體狀態(tài) 一個(gè)群體中的所有策略的群體比例構(gòu)成了群體狀態(tài),可以通過[x1,x2,…,xi,…,xs] ∈X來表示,其中X表示在給定網(wǎng)絡(luò)模型下包含了所有可能群體狀態(tài)的狀態(tài)空間。
收益函數(shù) 每個(gè)用戶作為博弈方需要根據(jù)收益來調(diào)整其接入策略。在本博弈中,定義一個(gè)博弈方的收益函數(shù)為接入速率和接入費(fèi)用之間的加權(quán)差。其中在不同策略下的用戶速率可以表示為r=[r1,r2,…,ri,…,rs]。根據(jù)系統(tǒng)模型部分的數(shù)據(jù)傳輸速率公式,可以得到:
其中:ku、kd表示用戶n在上行和下行連接到的基站集合,相應(yīng)的速率是連接到每個(gè)小基站的速率之和?;诖耍粋€(gè)博弈方選擇某個(gè)策略的收益函數(shù)可以定義如下:
其中:λ代表收益權(quán)重,c(bi,pi)是用戶接入小基站的費(fèi)用函數(shù),與分配的帶寬b和發(fā)射功率p相關(guān),具體定義如下:
其中μ和ν分別是單位帶寬和功率的費(fèi)用。
正如博弈建模階段所述,用戶接入是一個(gè)動(dòng)態(tài)選擇過程,每個(gè)博弈方在時(shí)間t會(huì)根據(jù)其收到的效益πi(t)以及當(dāng)前整個(gè)群體的平均收益來動(dòng)態(tài)調(diào)整其策略,這一過程不斷重復(fù),從而不斷地提升自己的收益,直到達(dá)到均衡狀態(tài)??梢杂脧?fù)制者動(dòng)態(tài)來對(duì)這個(gè)策略動(dòng)態(tài)調(diào)整的過程建立數(shù)學(xué)模型。復(fù)制者動(dòng)態(tài)是一個(gè)常微分方程表達(dá)如下:
其中:x?i(t)是xi(t)關(guān)于t的微分,代表選擇策略i的群體比例xi的變化率,x?i(t)>0時(shí)表示選擇該策略的博弈方將增加;γ是設(shè)定的學(xué)習(xí)率,用來控制用戶接入策略調(diào)整的頻率;πˉ(t)是同一群體中所有博弈方的平均收益,可以根據(jù)式(22)計(jì)算得出:
從式(22)可以看出,一個(gè)策略的群體比例變化率與選擇該策略得到的收益與整個(gè)群體平均收益成正比。
即使用復(fù)制者動(dòng)態(tài)來描述群體比例的動(dòng)態(tài)調(diào)整的過程中,所有策略的群體比例之和始終為1。為了驗(yàn)證這一點(diǎn),令fi(x)=γxi(t)[πi(t)-πˉ(t)]。首先可以得到,即所有群體比例之和不會(huì)隨時(shí)間變化。此外,還可以得到當(dāng)xi(t)=0時(shí)fi(x)≥0,當(dāng)xi(t)=1時(shí)fi(x)≤0,所以可以保證xi(t)∈ [0,1]。
復(fù)制者動(dòng)態(tài)描述了所有的群體比例變化率。從用戶接入的復(fù)制者動(dòng)態(tài)方程可以看出,當(dāng)采用某個(gè)策略的收益比群體平均收益要高時(shí)(即πi(t)>πˉ(t),πi(t)-πˉ(t)> 0),相應(yīng)的x?i(t)>0,這表示采用策略i的用戶數(shù)量會(huì)相應(yīng)增加??紤]演化均衡作為該演化博弈的均衡解。演化博弈可以定義為上述復(fù)制者動(dòng)態(tài)中的不動(dòng)點(diǎn),即x?i(t) > 0,?i。根據(jù)定義,演化均衡可以通過求解一組代數(shù)方程x?i=0,?i得到。
當(dāng)達(dá)到演化均衡時(shí),群體中選擇不同策略能得到相等的收益(即πi(t)=πˉ(t)),因此一方面保證了公平性,另一方面,在達(dá)到均衡時(shí),沒有博弈方有動(dòng)機(jī)來改變選擇的策略。需要注意的是,根據(jù)上面方法求解代數(shù)方程可能得到多組演化均衡,其中包括邊界均衡點(diǎn)(即?i,xi=1)以及內(nèi)點(diǎn)均衡點(diǎn)(即x i∈ [0,1],?i)。對(duì)于本文定義的用戶接入演化博弈來說,邊界均衡解不是一個(gè)穩(wěn)定的解,任何小的擾動(dòng)都會(huì)讓系統(tǒng)偏離這個(gè)均衡解。相比而言,可以證明所求的內(nèi)點(diǎn)均衡是漸近穩(wěn)定并且是一個(gè)演化穩(wěn)定策略(Evolutionary Stable Strategy,ESS)[8]解。下面首先介紹一下演化穩(wěn)定策略解。
如果對(duì)于任一群體狀態(tài)∈X且y≠x,存在εy∈(0,1)使得ε∈ (0,εy)不等式π(x,εy+(1-ε)x)>π(y,εy+( )1-εx)成立,則均衡群體狀態(tài)x*∈X是演化穩(wěn)定的。演化穩(wěn)定策略(ESS)對(duì)入侵者具有很強(qiáng)的抵抗能力,即群體中所有的突變體最終都會(huì)消失。對(duì)于ESS群體分布,狀態(tài)的微小擾動(dòng)并不影響收斂到均衡態(tài)。物理意義是,擾動(dòng)態(tài)的平均效益小于均衡態(tài)的平均效益。這樣,ESS對(duì)入侵者(即擾動(dòng))具有很強(qiáng)的抵抗力。實(shí)際上,在某些情況下,復(fù)制動(dòng)態(tài)是全局漸近穩(wěn)定的。在這種情況下,任何偏離均衡的地方都會(huì)收斂回均衡。
首先來證明建立的用戶接入演化博弈是一個(gè)穩(wěn)定群體博弈,因?yàn)橄旅鏃l件對(duì)所有群體狀態(tài)x≠y都滿足:
因此,所建模的演化博弈具有如下均衡是中性穩(wěn)定(neutrally stable)的屬性。此外,根據(jù)復(fù)制者動(dòng)態(tài)的特征方程,其系數(shù)矩陣總是有2M個(gè)負(fù)特征值,這樣表明所建立的復(fù)制者動(dòng)態(tài)具有漸近穩(wěn)定屬性(asymptotically stable property)。因此,用戶接入動(dòng)態(tài)系統(tǒng)能夠從任何非邊界初始群體狀態(tài)漸進(jìn)演化到一個(gè)內(nèi)點(diǎn)演化均衡點(diǎn),因此可以知道所得到的內(nèi)點(diǎn)演化均衡點(diǎn)是一個(gè)演化穩(wěn)定策略解(ESS)。
針對(duì)基于演化博弈的異構(gòu)網(wǎng)絡(luò)中分離多接入,本文設(shè)計(jì)了兩種具體的實(shí)現(xiàn)算法:第一種方法是基于強(qiáng)化學(xué)習(xí),其中每個(gè)用戶嘗試不同的接入策略,觀察其得到收益,并在必要的條件下嘗試策略調(diào)整;第二種是在強(qiáng)化學(xué)習(xí)的機(jī)基礎(chǔ)上引入了深度學(xué)習(xí),基于深度強(qiáng)化學(xué)習(xí)改進(jìn)了第二種算法。下面具體介紹這兩種算法。
在無中心節(jié)點(diǎn)條件下,每個(gè)用戶需要獨(dú)立地通過嘗試、觀察和學(xué)習(xí)來調(diào)整策略,并最終達(dá)到均衡狀態(tài)。針對(duì)這一情況,基于Q學(xué)習(xí)(強(qiáng)化學(xué)習(xí)的一種,如圖1所示)設(shè)計(jì)了一個(gè)無需其他用戶信息的分布式算法(見算法1)。在算法中,使用一個(gè)Q值來維護(hù)每個(gè)策略的相關(guān)信息。
圖1 強(qiáng)化學(xué)習(xí)架構(gòu)Fig.1 Framework of reinforcement learning
在基于強(qiáng)化學(xué)習(xí)的用戶接入算法中,一個(gè)用戶以概率γ執(zhí)行探索階段,相應(yīng)的以概率1-γ執(zhí)行利用階段。λ是學(xué)習(xí)速率,用來控制Q值的調(diào)整速率。Q值代表用戶對(duì)未來迭代過程中的預(yù)期收益,Q值的更新依賴于之前的Q值與新觀察到的收益值。在這一更新迭代過程中,用戶通過與環(huán)境交互學(xué)習(xí)逐漸提高其收益。
傳統(tǒng)的強(qiáng)化學(xué)習(xí)局限于動(dòng)作空間和樣本空間都很小。當(dāng)網(wǎng)絡(luò)規(guī)模增加,可選基站數(shù)量也將會(huì)大幅度增加,從而一個(gè)用戶的可選策略將會(huì)極大增加。上述強(qiáng)化學(xué)習(xí)方法難以有效解決。因此,針對(duì)大狀態(tài)空間和策略空間的情況,進(jìn)一步考慮了基于深度強(qiáng)化學(xué)習(xí)的方法。深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,深度強(qiáng)化學(xué)習(xí)原理框架如圖2所示。
圖2 深度強(qiáng)化學(xué)習(xí)架構(gòu)Fig.2 Architectureof deep reinforcement learning
其學(xué)習(xí)過程可以描述為:
1)在每個(gè)時(shí)刻Agent與環(huán)境交互得到一個(gè)高維度的觀察,并利用深度學(xué)習(xí)方法來感知觀察,以得到具體的狀態(tài)特征表示;
2)基于預(yù)期回報(bào)來評(píng)價(jià)各動(dòng)作的價(jià)值函數(shù),并通過某種策略將當(dāng)前狀態(tài)映射為相應(yīng)的動(dòng)作;
3)環(huán)境對(duì)此動(dòng)作做出反應(yīng),并得到下一個(gè)觀察,通過不斷循環(huán)以上過程,最終可以得到實(shí)現(xiàn)目標(biāo)的最優(yōu)策略。
基于深度強(qiáng)化學(xué)習(xí)的算法和上述強(qiáng)化學(xué)習(xí)的一大區(qū)別就是采用一個(gè)深度網(wǎng)絡(luò)代表價(jià)值函數(shù),代替了強(qiáng)化學(xué)習(xí)中的Q表。然后依據(jù)強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)值,為深度網(wǎng)絡(luò)提供目標(biāo)值,對(duì)網(wǎng)絡(luò)不斷更新直至收斂。本文使用的人工神經(jīng)網(wǎng)絡(luò)(Aritifical Neural Network,ANN)架構(gòu)如圖3所示。具體算法過程與基于強(qiáng)化學(xué)習(xí)算法類似,因此不再贅述。
圖3 ANN架構(gòu)Fig.3 Framework of ANN
為了驗(yàn)證所提方法,本文在Matlab中進(jìn)行仿真。具體考慮一個(gè)包含1個(gè)宏基站、2個(gè)小基站與10個(gè)用戶的異構(gòu)網(wǎng)絡(luò),基站與用戶都隨機(jī)分布在一個(gè)半徑100 m的區(qū)域內(nèi),同時(shí),考慮每個(gè)基站有不同的信道資源。
圖4展示了復(fù)制者動(dòng)態(tài)的收斂性,可以觀察到,經(jīng)過迭代后,不同策略群體比例最終也從初始狀態(tài)達(dá)到了一個(gè)穩(wěn)定的均衡狀態(tài)。在達(dá)到均衡點(diǎn)后,策略選擇的變化率為0,也就是說選擇其他策略對(duì)于該用戶并不能提高收益,因此沒有偏離均衡策略的動(dòng)機(jī)。這個(gè)均衡點(diǎn)也是復(fù)制者動(dòng)態(tài)的不動(dòng)點(diǎn)。此外,能夠觀察到初始占比較高的策略,在達(dá)到均衡時(shí)占比不一定很高,它反映出了提出的動(dòng)態(tài)接入算法的公平性。
圖4 群體比例演進(jìn)Fig.4 Population proportion evolution
在圖5中,以用戶選擇策略l的收益為例,驗(yàn)證了所提出的兩種算法(基于強(qiáng)化學(xué)習(xí)的算法以及基于深度強(qiáng)化學(xué)習(xí)的算法)的收斂性,并與傳統(tǒng)基于群體狀態(tài)演進(jìn)算法進(jìn)行了比較。可以看到:經(jīng)過迭代三種算法都收斂到了一個(gè)均衡狀態(tài),并獲得了相應(yīng)的收益;基于深度強(qiáng)化學(xué)習(xí)的方法能較快地收斂,并且能夠獲得較高的收益,而基于群體狀態(tài)演進(jìn)和基于強(qiáng)化學(xué)習(xí)的算法最終能獲得相同的收益。
圖5 不同算法比較(策略i=1)Fig.5 Comparison of different algorithms(i=1)
在本文中,研究了自組織網(wǎng)絡(luò)的用戶接入優(yōu)化問題。針對(duì)多層異構(gòu)網(wǎng)絡(luò)特點(diǎn),提出了分離多接入機(jī)制。本文將自組織分離多接入問題建模成演化博弈問題,其中用戶可以根據(jù)當(dāng)前的策略選擇收益來進(jìn)行策略調(diào)整,并最終達(dá)到均衡狀態(tài)。使用復(fù)制者動(dòng)態(tài)對(duì)這一策略動(dòng)態(tài)調(diào)整進(jìn)行了數(shù)學(xué)建模?;谌后w狀態(tài)演進(jìn)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了自組織用戶接入算法。通過仿真驗(yàn)證了復(fù)制者動(dòng)態(tài)以及所提出算法的收斂性并比較了三種算法的性能。