肖 錚
(四川工商職業(yè)技術(shù)學(xué)院信息工程系,四川 成都,611830)
5G網(wǎng)絡(luò)系統(tǒng)中,系統(tǒng)采用了終端直通(Device-to-Device,D2D)技術(shù)直接通信,并將之視為最具有前景的5G技術(shù)。在由D2D用戶組成的網(wǎng)絡(luò)中,每一個(gè)用戶都能發(fā)送并且接受通信信號(hào),同時(shí)還具有路由功能。從定義上來(lái)說(shuō),D2D通信技術(shù)就是指兩個(gè)對(duì)等用戶進(jìn)行直接通信,而不需要利用基站轉(zhuǎn)發(fā)的一種新型通信方式[1]。如果D2D用戶對(duì)之間的距離很近,而兩者距離基站很遠(yuǎn),那么也顯然,此時(shí)選用直接通信的方式更好。但是,上述舉例的情況只是一種簡(jiǎn)單的特例,有時(shí)因?yàn)榫W(wǎng)絡(luò)狀態(tài)等因素,反而選擇理論上不可取的方式對(duì)實(shí)際問(wèn)題更加有利。所以需要尋求的是一種通用的,能適應(yīng)大部分情況的方法。根據(jù)需要對(duì)實(shí)際問(wèn)題進(jìn)行建模,確定一種通用的模式選擇規(guī)則,在本研究中,就將D2D模式選擇問(wèn)題與馬爾可夫決策過(guò)程(Markov decision process,MDP)[2]問(wèn)題聯(lián)系在一起。所以,提出了一個(gè)解決模式選擇問(wèn)題的新思路:基于馬爾可夫決策過(guò)程的算法研究。
如果D2D用戶采用的是復(fù)用蜂窩資源的通信方式,那么網(wǎng)絡(luò)內(nèi)部就會(huì)產(chǎn)生新的干擾,每一個(gè)接收用戶都會(huì)收到來(lái)自復(fù)用同一頻帶資源的其它用戶的干擾信號(hào),基站也會(huì)受到影響。采用平坦瑞利衰落信道模型,接收端信號(hào)幅度滿足瑞利分布。瑞利分布是一個(gè)平穩(wěn)的窄帶高斯過(guò)程,它的均值是0,方差是σ2[3]。在該信道模型中,假設(shè)接收機(jī)會(huì)受到一個(gè)加性高斯白噪聲(AWGN)的影響。該噪聲是無(wú)線信道中最基本的噪聲干擾模式,其幅度服從高斯分布(零均值,方差為N0)。在該模型下,可以得到信噪比SINR[4]。
(1)
SINR為設(shè)備信號(hào)和噪聲的比值,SINR越大,代表信號(hào)的質(zhì)量越好。上述公式(1)中:Preceiver為接收設(shè)備處接收到的功率;I為接收設(shè)備受到的干擾;N0為接收設(shè)備受到的噪聲。其中,Pt為設(shè)備發(fā)送功率。并且一般情況下,蜂窩用戶和D2D用戶的發(fā)送功率并不一致,前者的發(fā)送功率相對(duì)更高一些。實(shí)際情況下,為了最大化網(wǎng)絡(luò)吞吐量,還需要進(jìn)行功率分配的工作,使發(fā)送功率按一定的規(guī)則進(jìn)行設(shè)置,由于這部分內(nèi)容不屬于本次研究的內(nèi)容范疇,所以不多敘述。在這里,為了使計(jì)算更加方便,采用默認(rèn)值在任何情況下,用戶的發(fā)送功率都一致,為PDUE,不做發(fā)送功率大小的區(qū)分。dij代表著信號(hào)發(fā)送設(shè)備i到信號(hào)接收設(shè)備j的距離。α為路徑損耗系數(shù),代表信號(hào)在空間里傳播時(shí),將會(huì)產(chǎn)生的損耗。它由兩方面的因素決定:一是信道本身的傳播性質(zhì);二是發(fā)送功率的輻射效應(yīng)。根據(jù)標(biāo)準(zhǔn)路徑損耗傳播模型,一般情況下,α>2。Hij為信道系數(shù)。
如果期望最終能獲得最大化的網(wǎng)絡(luò)總體信道容量。需要進(jìn)一步計(jì)算整個(gè)系統(tǒng)的總體信道容量Csystem。當(dāng)討論的模型下,網(wǎng)絡(luò)結(jié)構(gòu)中包含了1個(gè)蜂窩用戶和兩對(duì)D2D用戶,所以Csystem是3個(gè)用戶信道容量相加后的結(jié)果,如公式(2)所示。
Csystem=CCUE+CDUE1+CDUE2
(2)
C=BW*log2(1+SINR)
(3)
其中,公式(3)是信道容量C的通用計(jì)算公式,BW為系統(tǒng)資源帶寬,SINR為公式(1)中計(jì)算出來(lái)的相應(yīng)信噪比。
MDP可以從5個(gè)要素進(jìn)行分析:決策時(shí)刻和周期、狀態(tài)和行動(dòng)集合、轉(zhuǎn)移概率和報(bào)酬。每一次做決策的時(shí)間點(diǎn)集合用T來(lái)表示,而對(duì)應(yīng)的系統(tǒng)狀態(tài)集合S用來(lái)表示,至于行動(dòng)的集合,用字符A來(lái)表示。在某一個(gè)時(shí)間點(diǎn),假設(shè)存在一個(gè)狀態(tài)i∈S,那么在這個(gè)狀態(tài)的可用行動(dòng)集A(i)中挑選出一個(gè)行動(dòng)a并執(zhí)行之后,可以立即得到一個(gè)報(bào)酬r(i,a),同時(shí)下一個(gè)時(shí)刻的系統(tǒng)狀態(tài)將根據(jù)轉(zhuǎn)移概率分布函數(shù)p(*|i,a)決定。然后在下一時(shí)刻,又需要進(jìn)行另一次行動(dòng)的選擇。最后,將所有時(shí)間點(diǎn)的行動(dòng)組合起來(lái),就可以獲得一個(gè)決策序列,即所做選擇的集合。同時(shí),每一次行動(dòng)選擇可以帶來(lái)一份及時(shí)報(bào)酬之外,還會(huì)對(duì)將來(lái)產(chǎn)生影響,產(chǎn)生額外的報(bào)酬(圖1)。
圖1 馬爾可夫決策過(guò)程
步驟1 令t=N且對(duì)一切it∈S,
(4)
步驟3 對(duì)一切it∈S,計(jì)算
(5)
并且記集合
(6)
步驟4 返回到步驟2。
由于行動(dòng)集合A是有限集合,該馬氏策略的最優(yōu)解一定存在,并且可以由上述算法得到最終的每一個(gè)決策時(shí)刻下的行動(dòng)選擇,將之組合起來(lái)就是研究要求的模式選擇的策略序列,即策略Policy。通過(guò)查找Policy矩陣,可以準(zhǔn)確地知道,某一決策時(shí)刻(時(shí)隙),在系統(tǒng)處于某種狀態(tài)時(shí)[7],兩個(gè)D2D對(duì)應(yīng)該做出的模式選擇各是什么。同時(shí),也可以得到一個(gè)期望報(bào)酬最優(yōu)值。算法的流程見(jiàn)圖2。
結(jié)合本研究的網(wǎng)絡(luò)結(jié)構(gòu)模型,經(jīng)設(shè)置的參數(shù)見(jiàn)表1。表1中的距離參數(shù)是初始情況下的取值,具體情況可能會(huì)發(fā)生一定的改變。為了簡(jiǎn)化模型,方便討論,將信道系數(shù)Hij取值為1。同時(shí)需要注意的是功率以及噪聲的單位并不統(tǒng)一,在實(shí)際計(jì)算過(guò)程中應(yīng)當(dāng)注意單位的轉(zhuǎn)化。
表1 D2D網(wǎng)絡(luò)結(jié)構(gòu)模型仿真參數(shù)
圖2 基于動(dòng)態(tài)規(guī)劃的期望報(bào)酬值向后遞歸算法流程
利用有限階段向后遞歸迭代算法將之聯(lián)系起來(lái),組合成一個(gè)完整的MDP問(wèn)題,在Matlab平臺(tái)上進(jìn)行建模仿真[8],并適當(dāng)?shù)馗淖円恍﹨?shù),觀察網(wǎng)絡(luò)吞吐量的變化情況。具體試驗(yàn)結(jié)果見(jiàn)圖3~圖5。
在圖3中,R1=300 m,r1=10 m,r2=10 m。由于對(duì)任一個(gè)狀態(tài),它的最優(yōu)值變化趨勢(shì)是保持一致的,而一般情況下,信道狀態(tài)良好的可能性會(huì)更高一點(diǎn),同時(shí)也更希望了解信道狀態(tài)良好時(shí)的情況。所以為了簡(jiǎn)化圖像,選取其中的兩個(gè)狀態(tài)(1111和1110)作為代表。
圖4中,R1=300 m,同步改變兩對(duì)D2D對(duì)之間的距離r1和r2(運(yùn)動(dòng)方向均與x軸的夾角為0度,且運(yùn)動(dòng)方向保持不變)。通過(guò)觀察可以發(fā)現(xiàn),在變化趨勢(shì)上,隨著D2D對(duì)距離的增大,在期望報(bào)酬的具體數(shù)值上,很明顯,當(dāng)兩個(gè)D2D對(duì)之間的距離同步變化時(shí),最終的期望報(bào)酬值會(huì)變化得更劇烈,變化范圍也更廣。由此可以類推,當(dāng)系統(tǒng)中出現(xiàn)多個(gè)D2D對(duì),并且同時(shí)處于運(yùn)動(dòng)狀態(tài)時(shí),系統(tǒng)的信道容量有可能出現(xiàn)極端情況,這也是在將來(lái)的研究中需要加以考慮的地方。
在圖5中,同樣的,R1=300 m,r2=10 m,改變第一對(duì)D2D對(duì)之間的距離r1,同時(shí)取階數(shù)N=100,時(shí)隙數(shù)為500。通過(guò)仿真可以看到距離的增大必定會(huì)導(dǎo)致信道容量的減小,這是因?yàn)榻邮盏降男盘?hào)變?nèi)鯇?dǎo)致的。同時(shí),可以清晰地看到基于MDP和基于信道容量這兩種方法做出的結(jié)果,在最大化網(wǎng)絡(luò)吞吐量這一性能上存在一定的優(yōu)劣,基于MDP的模式選擇顯然能獲得更大的系統(tǒng)信道容量。經(jīng)過(guò)計(jì)算,得知基于MDP的方法平均要比基于信道容量的方法高出大約6 Mbit/s信道容量,而差距最大的地方(大約在距離為51 m處),基于MDP的方法幾乎高出了7.1 Mbit/s的信道容量,這數(shù)值非常的可觀。
圖3 D2D階數(shù)N對(duì)函數(shù)V的影響變化趨勢(shì) 圖4 D2D對(duì)之間距離對(duì)V的影響變化趨勢(shì)
圖5 基于不同模式選擇方法的系統(tǒng)總吞吐量比較
在基于信道容量等方法的基礎(chǔ)上,將網(wǎng)絡(luò)的信道狀態(tài)納入了考慮范圍,通過(guò)利用MDP來(lái)分析模式選擇問(wèn)題,并觀察了距離等因素對(duì)吞吐量的影響,目的是尋求到能獲取到最大信道容量的一種模式選擇方法。實(shí)驗(yàn)結(jié)果表明,提出的馬爾可夫決策過(guò)程算法在在最大化網(wǎng)絡(luò)總吞吐量這一目標(biāo)上,采用本次研究的這種方法更好的效果。
利用動(dòng)態(tài)規(guī)劃思想中的迭代算法來(lái)解決這一問(wèn)題,在較低計(jì)算復(fù)雜度下,得出一個(gè)與時(shí)間有關(guān)的決策序列。經(jīng)過(guò)最后的多個(gè)時(shí)隙下的仿真比較,證實(shí),在最優(yōu)化網(wǎng)絡(luò)吞吐量這一方面,本研究的基于MDP的模式選擇方法確實(shí)更具有一定的優(yōu)勢(shì)。在接下來(lái)的工作中,希望能夠找到更為合理的選擇方法,以進(jìn)一步提高算法的決策效果。