李勉,李洋,張縱輝,史清江
(1.香港中文大學(xué)(深圳)理工學(xué)院,廣東 深圳 518172;2.深圳市大數(shù)據(jù)研究院,廣東 深圳 518172;3.鵬城國(guó)家實(shí)驗(yàn)室,廣東 深圳 518055;4.琶洲實(shí)驗(yàn)室(黃埔),廣東 廣州 510555;5.同濟(jì)大學(xué)軟件學(xué)院,上海 200092)
大規(guī)模多輸入多輸出(Massive MIMO)是5G及未來(lái)無(wú)線通信系統(tǒng)中的核心技術(shù)[1-2],其核心思想是給基站配置幾十乃至數(shù)百根天線,同時(shí)為幾十個(gè)用戶提供高質(zhì)量的通信服務(wù)。大量天線的加持極大地提高了基帶處理的空間分辨率,從而有效提升了通信系統(tǒng)的頻譜效率[3]。此外,Massive MIMO 可以利用終端移動(dòng)的隨機(jī)性、信道衰落的不相關(guān)性、不同用戶間信道的近似正交性降低用戶間干擾和誤碼率,實(shí)現(xiàn)多用戶空分復(fù)用。基于以上特點(diǎn),近年來(lái),Massive MIMO 在LTE 演進(jìn)、5G 和6G 領(lǐng)域被廣泛討論[4]。
Massive MIMO 也給無(wú)線系統(tǒng)的實(shí)現(xiàn)帶來(lái)了巨大的挑戰(zhàn)。一方面,天線數(shù)量的增加大幅提高了基帶處理任務(wù)的復(fù)雜度,這對(duì)芯片的處理性能提出了極高的要求;另一方面,Massive MIMO 系統(tǒng)需要支持大量天線,因此需要在芯片設(shè)計(jì)中綜合考慮天線數(shù)量、布局、尺寸等復(fù)雜因素。這兩方面因素導(dǎo)致單基帶處理單元(BBU)芯片系統(tǒng)在成本和技術(shù)難度上缺乏優(yōu)勢(shì),因此無(wú)線設(shè)施供應(yīng)商都轉(zhuǎn)向了多BBU 芯片基站系統(tǒng)的方案。
多BBU 系統(tǒng)支持靈活可擴(kuò)展的部署,根據(jù)基站天線數(shù)量要求調(diào)整芯片數(shù)量。將基帶處理任務(wù)分配到多塊芯片上進(jìn)行,降低了對(duì)芯片處理性能的要求,是一種可行且經(jīng)濟(jì)的設(shè)計(jì)。主流的基于多BBU系統(tǒng)的天線陣列可以把天線數(shù)量做到192 甚至更多,但是在進(jìn)一步增加天線數(shù)量時(shí)會(huì)遇到數(shù)據(jù)交互,也就是前傳流量帶寬的瓶頸。具體而言,當(dāng)多個(gè)BBU 芯片聯(lián)合進(jìn)行基帶處理時(shí),芯片間的數(shù)據(jù)交互量隨著天線數(shù)量的增加而增長(zhǎng),最終變得難以承載。例如,考慮一個(gè)配備256 根天線、12 bit 模數(shù)轉(zhuǎn)換器(ADC,analog to digital converter)的基站,當(dāng)帶寬為80 MHz 時(shí),基站BBU 的前傳速率需求將達(dá)到1 Tbit/s,而這樣的高數(shù)據(jù)速率已經(jīng)超出了現(xiàn)有數(shù)據(jù)互聯(lián)標(biāo)準(zhǔn)的承受能力[5-7]。
分布式基帶處理系統(tǒng)的BBU 間過高的前傳流量是阻礙更大規(guī)模天線陣列發(fā)展的重要因素,是工業(yè)界在攻克512 天線乃至1 024 天線Massive MIMO系統(tǒng)的過程中必須解決的問題。除了研究更高數(shù)據(jù)交換速度的總線互聯(lián)接口,另一個(gè)值得重點(diǎn)研究的問題是如何從算法層面降低多BBU 系統(tǒng)的前傳流量。工業(yè)界的多BBU 系統(tǒng)通?;凇爸行墓?jié)點(diǎn)-分布式節(jié)點(diǎn)”的系統(tǒng)架構(gòu),其特點(diǎn)是分布式節(jié)點(diǎn)處理局部天線數(shù)據(jù),中心節(jié)點(diǎn)融合處理全局天線數(shù)據(jù),達(dá)到和集中式算法等效的結(jié)果,通用的優(yōu)化前傳流量的手段主要還是直接的數(shù)據(jù)壓縮,如離散傅里葉變換(DFT)去噪、量化壓縮[8]等。
如何在保證性能的前提下優(yōu)化分布式預(yù)編碼算法的性能是本文考慮的核心問題。學(xué)術(shù)界關(guān)于分布式預(yù)編碼算法已經(jīng)有一部分工作。最早的相關(guān)工作來(lái)自文獻(xiàn)[9-10]。文獻(xiàn)[9-10]首次提出了下行的分布式基帶處理架構(gòu),并在該架構(gòu)上設(shè)計(jì)了基于交替方向乘子法(ADMM,alternating direction method of multiplier)的迫零(ZF,zero forcing)[11]預(yù)編碼算法。后來(lái)學(xué)術(shù)界又提出了基于坐標(biāo)下降(CD,coordinate descent)[5]、維納濾波(WF,Wiener filter)[12]、消息傳遞(MP,message passing)的近似ZF 和最大比傳輸(MRT,maximal ratio transmission)的方法[13]。以上工作假定節(jié)點(diǎn)之間的連接速率十分受限,因此和工業(yè)界的應(yīng)用仍存在一定割裂的現(xiàn)象,并且由于MRC 和ZF 預(yù)編碼的性能不佳,應(yīng)用潛力不大。在線性預(yù)編碼算法領(lǐng)域,WMMSE(weighted minimum mean squared error)[14]在至今十多年來(lái)一直被視為性能上界的標(biāo)準(zhǔn)。盡管其計(jì)算復(fù)雜度很高,但是隨著移動(dòng)互聯(lián)網(wǎng)對(duì)預(yù)編碼算法性能要求的不斷提升,WMMSE 也逐漸被部署到現(xiàn)網(wǎng)中。目前,學(xué)術(shù)界還沒有關(guān)于WMMSE 的分布式預(yù)編碼算法的工作,而前述分布式預(yù)編碼工作以ZF 預(yù)編碼作為近似性能的上界,同場(chǎng)景下參考價(jià)值較低。因此在評(píng)估本文算法的性能時(shí),將以集中式ZF、集中式WMMSE 算法作為對(duì)比算法。
本文提出了一種通信高效的分布式預(yù)編碼方案,其核心思想為分布式算法框架與可學(xué)習(xí)數(shù)據(jù)壓縮模塊的有機(jī)結(jié)合。該方案的基礎(chǔ)是一種基于WMMSE 預(yù)編碼的分布式變體,被稱為分布式R-WMMSE[15]算法。通過向該算法框架中引入可學(xué)習(xí)模塊并進(jìn)行聯(lián)合優(yōu)化,保證了預(yù)編碼的性能并實(shí)現(xiàn)了前傳交互的優(yōu)化。所提方案對(duì)可學(xué)習(xí)壓縮模塊采用極簡(jiǎn)的設(shè)計(jì),實(shí)現(xiàn)了預(yù)編碼性能和前傳交互之間的良好折中。仿真表明,相對(duì)于經(jīng)典的WMMSE算法,本文所提算法在保證預(yù)編碼性能的前提下,大大降低了前傳流量帶寬。
基站端根據(jù)下行信道信息求解不同用戶的預(yù)編碼矩陣。數(shù)學(xué)上,以最大化加權(quán)和速率(WSRM,weighted sum rate maximization)為目標(biāo),該問題可以表示為
其中,αk≥ 0表示用戶k的權(quán)重,Pmax表示基站的最大發(fā)射總功率。事實(shí)上,式(2)中目標(biāo)函數(shù)是頻譜效率的加權(quán)之和,其與帶寬的積才是加權(quán)和速率。帶寬在該優(yōu)化問題中是常量,因此將頻譜效率和可達(dá)速率作為目標(biāo)函數(shù)是等效的,故本文也沿用相關(guān)工作[14,16]對(duì)該問題的稱呼。
用戶k的信干噪比(SINR,signal-to-interferenceand-noise ratio)為
Massive MIMO 的一個(gè)重要優(yōu)勢(shì)是當(dāng)基站天線數(shù)M大于用戶天線數(shù)N時(shí),隨著M的增加,線性預(yù)編碼的頻譜效率可以逐漸接近理想的頻譜效率[17]。反之,當(dāng)M≈N時(shí),信道線性自相關(guān)程度會(huì)增加,導(dǎo)致頻譜效率降低。
在實(shí)際應(yīng)用中,正常情況下基站工作于M>N的狀態(tài)。為了實(shí)現(xiàn)單用戶頻譜效率和能耗之間的良好折中,通常采用用戶調(diào)度和天線關(guān)斷等手段,以維持比值在一個(gè)適當(dāng)?shù)姆秶鷥?nèi)。本文的討論也僅考慮M>N的情形。
多BBU 系統(tǒng)采用星形拓?fù)浼軜?gòu)執(zhí)行分布式預(yù)編碼。具體而言,系統(tǒng)將基站天線分成不同的簇,每簇天線對(duì)應(yīng)一個(gè)局部的BBU,使每個(gè)BBU只負(fù)責(zé)局部信號(hào)的處理。同時(shí),一個(gè)中央BBU節(jié)點(diǎn)處理對(duì)應(yīng)的全局?jǐn)?shù)據(jù)。這種多BBU 系統(tǒng)能夠適應(yīng)更加靈活的天線數(shù)量和分布式的部署,相對(duì)于單BBU 系統(tǒng),它能夠降低對(duì)處理芯片性能的要求。
本文考慮如圖1 所示的分布式基帶處理星形架構(gòu),其由一個(gè)中心節(jié)點(diǎn)和C個(gè)局部節(jié)點(diǎn)(對(duì)應(yīng)C簇天線的BBU)組成。這種架構(gòu)廣為采用,其原因是它能夠很好地適應(yīng)天線分簇所產(chǎn)生的處理流程。天線分簇自然會(huì)產(chǎn)生“局部數(shù)據(jù)”和對(duì)應(yīng)的局部節(jié)點(diǎn);高性能算法需要綜合全局?jǐn)?shù)據(jù)進(jìn)行運(yùn)算,這對(duì)應(yīng)于中心節(jié)點(diǎn)的數(shù)據(jù)處理;而數(shù)據(jù)匯總和分發(fā)的過程則需要中心節(jié)點(diǎn)和局部節(jié)點(diǎn)之間的數(shù)據(jù)通路。
圖1 分布式基帶處理星形架構(gòu)
分布式預(yù)編碼的前傳數(shù)據(jù)交互是一個(gè)往返的過程。局部節(jié)點(diǎn)首先對(duì)局部信道矩陣Hc進(jìn)行預(yù)處理和壓縮,然后將壓縮結(jié)果匯總到中心節(jié)點(diǎn)進(jìn)行進(jìn)一步運(yùn)算;中心節(jié)點(diǎn)在運(yùn)算完畢后,將運(yùn)算結(jié)果壓縮并傳回各個(gè)局部節(jié)點(diǎn),然后由各個(gè)局部節(jié)點(diǎn)計(jì)算得到其各自的預(yù)編碼矩陣。
本節(jié)主要介紹所提方案的技術(shù)細(xì)節(jié)。首先簡(jiǎn)要介紹了WMMSE 預(yù)編碼算法,接著介紹了該算法的一種變體,即R-WMMSE 分布式預(yù)編碼,并將其作為本文方案所使用的優(yōu)化算法框架。在學(xué)習(xí)方法部分,分別詳述了可學(xué)習(xí)數(shù)據(jù)壓縮模塊的設(shè)計(jì)思路與分析,以及模塊與算法框架的整合和聯(lián)合優(yōu)化的細(xì)節(jié)。分布式預(yù)編碼算法框架與可學(xué)習(xí)的數(shù)據(jù)壓縮模塊共同構(gòu)成了一個(gè)完整的分布式預(yù)編碼方案。
WMMSE[14]是一種高性能MIMO 線性預(yù)編碼算法。其核心在于將原始的最大化加權(quán)和速率問題式(2)等價(jià)轉(zhuǎn)化為
其中,Wk為新引入的輔助變量,Ek為用戶端均方誤差矩陣,定義為
其中,Uk為用戶端接收合并矩陣。
通過對(duì)問題式(5)采用塊坐標(biāo)下降(BCD,block coordinate descent)法,可以得到經(jīng)典的WMMSE算法。每次迭代依次更新Uk、Wk、Pk
對(duì)Pk的子問題求解涉及能量約束,因此需要優(yōu)化對(duì)偶變量μk。預(yù)編碼矩陣的能量是關(guān)于μk的單調(diào)函數(shù),所以在優(yōu)化μk時(shí)需要使用二分法[14]。WMMSE 預(yù)編碼算法如算法1 所示。
算法1WMMSE 預(yù)編碼算法
本文的分布式預(yù)編碼方案使用一種WMMSE算法的分布式變體(稱為R-WMMSE)作為算法框架,可提供較好的可解釋性。利用優(yōu)化問題中最優(yōu)解的子空間特性,R-WMMSE 分布式預(yù)編碼將BBU間的交互數(shù)據(jù)壓縮到相應(yīng)的低維子空間,從而有效地降低了數(shù)據(jù)交互量。需要強(qiáng)調(diào)的是,在預(yù)編碼性能上,R-WMMSE 預(yù)編碼和WMMSE 預(yù)編碼具備相同的性能。
在對(duì)R-WMMSE 分布式預(yù)編碼算法進(jìn)行推導(dǎo)前,先介紹引理1。
下面證明新構(gòu)造的可行解具有更優(yōu)的性能(目標(biāo)函數(shù)值)。這樣的結(jié)論基于式(12)的正定性
基于引理1,可以證明定理1[15]。
R-WMMSE 分布式預(yù)編碼算法執(zhí)行流程如算法2 所示。
算法2R-WMMSE 分布式預(yù)編碼算法
評(píng)估算法在實(shí)際系統(tǒng)中的性能表現(xiàn)時(shí),需要綜合考慮全頻帶、用戶調(diào)度、算法時(shí)間分配等因素,因此本文只能給出簡(jiǎn)易的估算。下面給出一個(gè)示例,當(dāng)考慮M=128、N=D=16、C=4 時(shí),WMMSE預(yù)編碼的數(shù)據(jù)交互量為 4 096 個(gè)復(fù)數(shù),而R-WMMSE 的數(shù)據(jù)交互量?jī)H為1 536 個(gè)復(fù)數(shù)。當(dāng)全頻帶為80 MHz 時(shí),按照30 kHz 一個(gè)子載波進(jìn)行切分,復(fù)數(shù)量化位數(shù)為12 bi(t6 bit 實(shí)部和6 bit 虛部),算法執(zhí)行時(shí)限定時(shí)間分配為0.3 ms,那么WMMSE預(yù)編碼執(zhí)行過程的數(shù)據(jù)交互為 488.28 Gbit/s,R-WMMSE 預(yù)編碼則為183.11 Gbit/s。如果該基站系統(tǒng)最高支持 500 Gbit/s 前傳帶寬,那么使用WMMSE 預(yù)編碼時(shí),系統(tǒng)只能驅(qū)動(dòng)上面介紹的128天線,而使用R-WMMSE 預(yù)編碼時(shí)則能夠驅(qū)動(dòng)256天線(M=256,C=8)。
以上分析表明,在常規(guī)的基站規(guī)模配置下,相較于WMMSE 算法,R-WMMSE 分布式預(yù)編碼大幅優(yōu)化了前傳交互量。同時(shí),示例直觀展示了優(yōu)化數(shù)據(jù)交互量如何幫助系統(tǒng)支持更大規(guī)模的天線陣列。
為了進(jìn)一步降低算法2 中(第1 行和第8 行)的數(shù)據(jù)交互量,本節(jié)給出可學(xué)習(xí)的數(shù)據(jù)壓縮模塊設(shè)計(jì)。所介紹的模塊設(shè)計(jì)不依賴于特定預(yù)編碼算法,而是能與本文提到的各種方法(如ZF 預(yù)編碼、WMMSE 預(yù)編碼、R-WMMSE 預(yù)編碼等)結(jié)合。本文以R-WMMSE 分布式預(yù)編碼為例展示方案的可行性。
下面分別介紹3種不同的可學(xué)習(xí)的數(shù)據(jù)壓縮模塊。
1) 單邊壓縮(SSC,single sided compression)模塊
考慮一種簡(jiǎn)單的矩陣單邊壓縮,即
其中,θ1即P1,θ2包含P2和S兩部分,總參數(shù)量為mn+2mp。由的表達(dá)式可以看到,SSC 壓縮方式要求q=n,p<m。
2) 雙邊壓縮(DSC,double sided compression)模塊
另一種壓縮模塊執(zhí)行對(duì)矩陣的雙邊壓縮,即
3) 全連接(FC,fully connected)模塊
參考神經(jīng)網(wǎng)絡(luò)的全連接設(shè)計(jì),可以直接得到如下的全連接數(shù)據(jù)壓縮模塊設(shè)計(jì)
其中,reshape 函數(shù)和vec 函數(shù)正好是一對(duì)互逆的映射,reshape 的第二個(gè)參數(shù)表示輸出矩陣的維度,θ1即P3,θ2包含P4和S兩部分,總參數(shù)量為mn+2mnpq。
下面分析以上3 種模塊的輸出元素關(guān)于輸入元素的依賴關(guān)系。所提出的2 種模塊中SSC 的輸入輸出關(guān)系根據(jù)式(20)可以表示為FSSC(A)=P2P1A+S。記=P2P1,可以得到如下的逐元素輸入輸出關(guān)系
對(duì)比式(23)~式(25),有以下發(fā)現(xiàn)。
①SSC 模塊的第k行第l列輸出元素為A中第l列元素的線性組合再加上一個(gè)常數(shù)。
②DSC 模塊的第k行第j列輸出元素為A中所有元素的線性組合再加上一個(gè)常數(shù),因此具備比SSC 更強(qiáng)的輸入輸出關(guān)系表達(dá)能力。
③FC 模塊的第k行第j列輸出元素為A中所有元素的線性組合再加上一個(gè)常數(shù),且線性組合權(quán)重不共享,和DSC 具有同水平的輸入輸出關(guān)系表達(dá)能力。
值得注意的是,壓縮解壓層次更多的單邊矩陣壓縮、雙邊矩陣壓縮模塊可以化簡(jiǎn)為SSC 和DSC 模塊。例如,包含多個(gè)壓縮解壓矩陣的雙邊壓縮模塊
綜合比較上述3 種可學(xué)習(xí)壓縮模塊的參數(shù)量和表達(dá)能力,當(dāng)m,n,p,q的數(shù)量級(jí)相同時(shí),有以下結(jié)論成立。
①?gòu)?fù)雜度方面:FC 相比SSC 或DSC 模塊的參數(shù)量高2 階,對(duì)應(yīng)地引入了高2 階的計(jì)算復(fù)雜度。
②表達(dá)能力方面:FC 和DSC 模塊的表達(dá)能力水平相同,且都高于SSC 模塊。
本文認(rèn)為,所提出的SSC 和DSC 模塊相比FC模塊在復(fù)雜度和性能方面都分別實(shí)現(xiàn)了更好的均衡,后文將用實(shí)驗(yàn)佐證該觀點(diǎn)。此外,值得注意的是,以上模塊設(shè)計(jì)所引入的計(jì)算復(fù)雜度和參數(shù)存儲(chǔ)開銷的量級(jí)都不大。其中,計(jì)算復(fù)雜度和原矩陣所做的矩陣乘法相當(dāng),而參數(shù)存儲(chǔ)開銷同樣和原矩陣的維度相當(dāng)。
本節(jié)介紹可學(xué)習(xí)數(shù)據(jù)壓縮模塊和分布式算法框架進(jìn)行聯(lián)合優(yōu)化的模型訓(xùn)練方法,并闡述可學(xué)習(xí)模塊提升模型性能的機(jī)理。
最直接的模型優(yōu)化方式是有監(jiān)督學(xué)習(xí),其直接優(yōu)化SSC、DSC 的輸入輸出間的差距,如優(yōu)化輸入輸出的均方誤差(MSE,mean square error)
其中,期望E 是通過對(duì)大量隨機(jī)生成的樣本A取平均近似得到的。采用梯度下降(GD,gradient descent)法優(yōu)化式(27)得到可學(xué)習(xí)壓縮模塊的參數(shù)后,即可將其植入R-WMMSE 分布式算法中。盡管基于式(27)的獨(dú)立優(yōu)化簡(jiǎn)單且直接,但是其最終得到的模型預(yù)編碼性能會(huì)有較大的損失。其根本原因在于,訓(xùn)練后的帶壓縮預(yù)編碼僅逼近未壓縮預(yù)編碼,并沒有考慮到對(duì)和速率的優(yōu)化。例如,本文基于2 輪迭代的R-WMMSE 的帶壓縮預(yù)編碼,其性能上限是2 輪迭代的R-WMMSE 預(yù)編碼,此時(shí)其性能與R-WMMSE 預(yù)編碼的收斂性能還有較大差距。
為了避免上述的性能損失,本文提出使用無(wú)監(jiān)督學(xué)習(xí)的方案。直接以下行加權(quán)和速率為目標(biāo)函數(shù)(見原問題式(2)),對(duì)可學(xué)習(xí)壓縮模塊和分布式預(yù)編碼采用端到端的聯(lián)合優(yōu)化。如算法3 所示,算法執(zhí)行主要分為3 個(gè)階段。第一階段為信道數(shù)據(jù)的預(yù)處理及匯總(第1~2 行);第二階段為預(yù)編碼的中心迭代計(jì)算(第3~7 行);第三階段為預(yù)編碼矩陣的分發(fā)和局部計(jì)算(第8~9 行)。為了優(yōu)化可學(xué)習(xí)壓縮模塊中的參數(shù)值,本文對(duì)算法3 采用基于反向傳播的梯度下降法。具體而言,首先產(chǎn)生一個(gè)訓(xùn)練集Ω={H(1),H(2),…,H(S)},其中,S表示訓(xùn)練集的樣本數(shù)。對(duì)于每個(gè)樣本,執(zhí)行算法3 輸出P(H(i)),其中,i表示第i個(gè)樣本,然后以和速率為目標(biāo)函數(shù)通過反向傳播計(jì)算其關(guān)于壓縮模塊參數(shù)的梯度,從而采用GD 法更新參數(shù)值。
算法3通信高效的分布式預(yù)編碼算法
值得注意的是,當(dāng)固定迭代次數(shù)時(shí),在特定壓縮維度下,本文提出的基于無(wú)監(jiān)督聯(lián)合優(yōu)化的算法3 的性能可以超越同迭代次數(shù)(如2 輪,此時(shí)優(yōu)化迭代算法未收斂)的無(wú)壓縮損失的R-WMMSE 算法2。這是因?yàn)闊o(wú)監(jiān)督優(yōu)化的算法3的訓(xùn)練目標(biāo)為達(dá)到最優(yōu)解,而固定迭代次數(shù)的算法2 在相應(yīng)迭代次數(shù)下尚未收斂,性能比全局最優(yōu)解更差。因此算法3 通過訓(xùn)練有機(jī)會(huì)得到比算法2 性能更好的解。
為了直觀理解,可以考慮一種特殊情況,即壓縮模塊不執(zhí)行維度壓縮(輸入、輸出和壓縮維度都相等)。通過恰當(dāng)?shù)某跏蓟?,可將學(xué)習(xí)模塊變成一個(gè)恒等映射,從而在相同迭代次數(shù)下,算法3 模型的初始性能和算法2 相等。訓(xùn)練開始時(shí),算法3 模型性能并非最優(yōu),可學(xué)習(xí)壓縮模塊的參數(shù)梯度不為0。因此,通過GD 法更新參數(shù),可學(xué)習(xí)模塊的映射輸出逐漸改變,從而在恒等映射的基礎(chǔ)上產(chǎn)生一個(gè)有助于提升目標(biāo)函數(shù)值的偏置(例如,使解更接近最優(yōu)解)。利用多個(gè)迭代中的可學(xué)習(xí)壓縮模塊,算法3 模型可以累積多次性能提升,比同迭代次數(shù)的算法2 性能更佳。
本節(jié)通過仿真實(shí)驗(yàn),展示所提出的通信高效的分布式預(yù)編碼算法3 相比于傳統(tǒng)算法在預(yù)編碼性能和前傳通信效率方面的優(yōu)勢(shì),證明本文方案對(duì)于降低前傳流量、支持更大天線陣列的意義。
仿真設(shè)置如下,基站天線數(shù)M=64,分為C=8簇,用戶數(shù)K=8,每個(gè)用戶的天線數(shù)Nk=4,數(shù)據(jù)流數(shù)Dk=2,則總天線數(shù)N=32,總流數(shù)D=16。采用 QuaDRiGa(quasi deterministic radio channel generator)信道生成套件(版本v2.2.0)[18]按照3GPP-mmw 標(biāo)準(zhǔn)建模[19]生成信道數(shù)據(jù)。訓(xùn)練集包含12 000 個(gè)信道矩陣,測(cè)試集包含1 200 個(gè)信道矩陣。仿真信道參數(shù)設(shè)定如表1 所示。
表1 仿真信道參數(shù)設(shè)定
在算法3 的訓(xùn)練中,樣本的SNR 在-10~25 dB均勻隨機(jī)產(chǎn)生。訓(xùn)練和預(yù)測(cè)中,算法3 的迭代次數(shù)固定為T=2。將算法3 與現(xiàn)有方法WMMSE 預(yù)編碼進(jìn)行對(duì)比,其中,WMMSE 和R-WMMSE 的迭代次數(shù)都為6 次,與完全收斂的性能之間還存在一定差距,這部分性能區(qū)間用于展示算法3 對(duì)性能的優(yōu)化。
圖2(a)和圖2(b)分別展示了將X∈C32×16的維度壓縮為16×16 和12×16 時(shí)在DSC、SSC、FC 這3 種數(shù)據(jù)壓縮模塊下算法3 的性能。圖2(a)將X壓縮到了其秩的維度,而圖2(b)則將X壓縮到了比其秩更小的維度。實(shí)驗(yàn)中WMMSE 與R-WMMSE 的性能幾乎一致,代表了使用“無(wú)損壓縮”的現(xiàn)有方法的性能。
圖2 壓縮維度為16×16 和12×16 時(shí)在3 種數(shù)據(jù)壓縮模塊下算法3 的性能
從圖2(a)可以看到,當(dāng)X被壓縮到其秩的維度時(shí),本文提出的算法3 在DSC、SSC 壓縮模塊下的性能都優(yōu)于R-WMMSE 算法。3 種模塊的模型訓(xùn)練目標(biāo)都是利用自身特定的映射結(jié)構(gòu),嘗試將輸入矩陣映射為一個(gè)性能更強(qiáng)的解。其性能提升機(jī)制和2.4 節(jié)末尾所考慮的特殊情況類似,但并不完全相同。在這種實(shí)驗(yàn)條件下,可學(xué)習(xí)模塊的輸出在提升目標(biāo)函數(shù)值時(shí),還需要對(duì)抗維度壓縮的損失。不同的模塊表達(dá)能力導(dǎo)致了不同的性能。
①FC 的參數(shù)量和復(fù)雜度都較高,性能方面反而表現(xiàn)較差。原因在于其參數(shù)量過多,結(jié)構(gòu)過于復(fù)雜,導(dǎo)致泛化性較差。典型表現(xiàn)如圖2 所示,當(dāng)測(cè)試信噪比接近25 dB 邊界時(shí),使用信噪比-10~25 dB 數(shù)據(jù)訓(xùn)練出來(lái)的FC 模塊性能顯著下降。
②DSC 因其較強(qiáng)的輸入輸出關(guān)系表達(dá)能力和適中的參數(shù)量,具備最佳的性能。與FC 模塊相比,DSC模塊充分利用了輸入矩陣的行列信息,左乘提取輸入的行間特征(左乘矩陣的每一行可以視作一個(gè)特征提取向量),改變矩陣列空間,右乘則正好相反。
③SSC 相比DSC 具有更簡(jiǎn)單的結(jié)構(gòu),只能提取行間或列間關(guān)系,變換單邊子空間,但是由于結(jié)構(gòu)更簡(jiǎn)單,因此更不容易產(chǎn)生過擬合。在較低的復(fù)雜度下,仍然可實(shí)現(xiàn)良好的泛化性能。
從圖2(b)可以看出,當(dāng)壓縮后的維度低于其秩時(shí),3 種模塊的性能相比圖2(a)都有所下降,且全部比R-WMMSE 預(yù)編碼更低。各模塊的性能下降幅度不同,由于DSC 和SSC 的運(yùn)算過程始終保持矩陣結(jié)構(gòu),過小的壓縮維度將導(dǎo)致運(yùn)算過程降低矩陣的秩,產(chǎn)生信息丟失,削弱這2 種矩陣模塊的表達(dá)能力。相比之下,F(xiàn)C 模塊則不受矩陣秩的影響。因此,和圖2(a)相比,DSC 和SSC 的性能損失較大,而FC 的損失較小。然而,需要強(qiáng)調(diào)的一點(diǎn)是,預(yù)編碼算法應(yīng)用的核心指標(biāo)是可達(dá)速率,如果可達(dá)速率不達(dá)標(biāo),那么繼續(xù)降低交互量便沒有意義。圖2(b)中的結(jié)果表明維度壓縮的損失較大,無(wú)法通過可學(xué)習(xí)模塊完全補(bǔ)償,因此需要采用更大的壓縮維度。
圖2 的結(jié)果表明壓縮維度(前傳交互流量)和性能之間存在折中。在保證性能的前提下,DSC 和SSC可以實(shí)現(xiàn)更好的預(yù)編碼性能和壓縮維度的折中。此外,在適當(dāng)?shù)膲嚎s維度下,DSC、SSC 相比FC 展現(xiàn)出來(lái)的性能優(yōu)勢(shì)體現(xiàn)了2 種矩陣結(jié)構(gòu)的模塊設(shè)計(jì)的優(yōu)勢(shì)。
將X的維度壓縮至16×16,并固定訓(xùn)練和測(cè)試的SNR 為20 dB,各算法的性能對(duì)比如圖3 所示。對(duì)比各算法關(guān)于不同輸入樣本的性能范圍,發(fā)現(xiàn)DSC 和SSC 的頻譜速率在不同樣本上的差異都在10 bit/(s·Hz)左右,而 FC 和 R-WMMSE 的差異都達(dá)到了15 bit/(s·Hz)。圖2 和圖3 的實(shí)驗(yàn)結(jié)果都表明,分布式算法框架和可學(xué)習(xí)壓縮模塊聯(lián)合優(yōu)化的模型,既從經(jīng)典算法的計(jì)算結(jié)構(gòu)中獲得了“魯棒的性能保證”,又依靠可學(xué)習(xí)壓縮模塊獲得了“降交互和提性能”的潛力。
圖3 固定SNR=20 dB 時(shí)各算法的性能對(duì)比
接下來(lái),對(duì)比各算法的數(shù)據(jù)交互量和計(jì)算復(fù)雜度。表2 展示了各算法的前傳流量大小。從表2 可以看到,本文提出的算法3 在不同的壓縮模塊下,數(shù)據(jù)交互量都比R-WMMSE 小。例如,當(dāng)壓縮維度為16×16 時(shí),本文提出的算法3 的數(shù)據(jù)交互量比R-WMMSE 降低了多達(dá)25.0%。
表2 各算法的前傳流量大小
表3 統(tǒng)計(jì)了各算法的復(fù)數(shù)乘法次數(shù)。從表3 可以看到,本文提出的采用DSC 和SSC 的分布式預(yù)編碼算法在計(jì)算復(fù)雜度方面相比R-WMMSE 有相當(dāng)大的優(yōu)勢(shì),可以極大地降低基帶處理的時(shí)延。例如,當(dāng)壓縮維度為16×16 時(shí),采用DSC 的分布式預(yù)編碼算法比R-WMMSE 的計(jì)算復(fù)雜度降低了52.9%。
表3 各算法的復(fù)數(shù)乘法次數(shù)
最后,本文提供了一個(gè)參考策略,指導(dǎo)如何在應(yīng)用中選擇合適的模塊。這包括選擇合適的壓縮維度和從SSC、DSC 中選出一種模塊。模塊的選擇要滿足系統(tǒng)的核心需求,例如,在本文所考慮的應(yīng)用中,核心需求是性能和數(shù)據(jù)交互,前者保證系統(tǒng)的實(shí)用性,后者對(duì)應(yīng)于模塊的基本功能。壓縮維度是影響這2 個(gè)指標(biāo)的首要條件。如果系統(tǒng)對(duì)性能有嚴(yán)格要求,設(shè)計(jì)者可以測(cè)試SSC 和DSC 在不同壓縮維度下的性能,找到符合性能需求的壓縮維度。然后選擇模塊。如果在計(jì)算復(fù)雜度和模型存儲(chǔ)(模型參數(shù)量)方面沒有特別要求,選擇DSC 即可;否則,可以根據(jù)計(jì)算復(fù)雜度和模型存儲(chǔ)的具體表現(xiàn)進(jìn)一步選擇??傊?,模塊選擇是一個(gè)帕累托最優(yōu)點(diǎn)的選擇問題,需要通過實(shí)驗(yàn),根據(jù)系統(tǒng)對(duì)不同指標(biāo)的要求程度做出權(quán)衡。
此外,一種經(jīng)驗(yàn)性的選用策略是,在壓縮維度方面盡量保證壓縮后矩陣的秩不比原矩陣秩更低,模塊選擇方面在對(duì)計(jì)算復(fù)雜度和存儲(chǔ)沒有嚴(yán)苛要求的情況下選用DSC 模塊即可,否則需要基于不同帕累托最優(yōu)點(diǎn)的實(shí)驗(yàn)結(jié)果,根據(jù)性能指標(biāo)的重要性進(jìn)行權(quán)衡。
隨著未來(lái)通信系統(tǒng)中基站天線數(shù)的持續(xù)增長(zhǎng),BBU 間進(jìn)行信號(hào)處理的前傳流量也將極大增加。為了降低前傳數(shù)據(jù)交互,支持更大的天線陣列,本文提出了一種針對(duì)Massive MIMO 系統(tǒng)的通信高效的分布式預(yù)編碼方案。該方案以R-WMMSE 分布式預(yù)編碼作為算法框架,結(jié)合高效極簡(jiǎn)的可學(xué)習(xí)數(shù)據(jù)壓縮模塊設(shè)計(jì),通過對(duì)兩者進(jìn)行聯(lián)合優(yōu)化,可以實(shí)現(xiàn)預(yù)編碼性能和前傳通信效率兩方面的提升。仿真結(jié)果表明,相比于經(jīng)典的WMMSE 預(yù)編碼算法,本文的分布式預(yù)編碼方案具有更好的性能和更低的數(shù)據(jù)交互要求。