亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于陣列處理器的最小均方誤差檢測算法并行設(shè)計與實現(xiàn)

2022-06-21 06:59:42劉帥蔣林李遠(yuǎn)成山蕊朱育琳王欣

計算機應(yīng)用 2022年5期

關(guān)鍵詞：檢測方法

劉帥，蔣林，李遠(yuǎn)成，山蕊，朱育琳，王欣

（1.西安科技大學(xué) 通信與信息工程學(xué)院，西安 710054； 2.西安科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，西安 710054；3.西安郵電大學(xué) 電子工程學(xué)院，西安 710121； 4.西安科技大學(xué)電氣與控制工程學(xué)院，西安 710054）（?通信作者電子郵箱jianglin@xust.edu.cn）

基于陣列處理器的最小均方誤差檢測算法并行設(shè)計與實現(xiàn)

劉帥1，蔣林2*，李遠(yuǎn)成2，山蕊3，朱育琳4，王欣4

針對大規(guī)模多輸入多輸出（MIMO）系統(tǒng)中，最小均方誤差（MMSE）檢測算法在可重構(gòu)陣列結(jié)構(gòu)上適應(yīng)性差、計算復(fù)雜度高和運算效率低的問題，基于項目組開發(fā)的可重構(gòu)陣列處理器，提出了一種基于MMSE算法的并行映射方法。首先，利用Gram矩陣計算時較為簡單的數(shù)據(jù)依賴關(guān)系，設(shè)計時間上和空間上可以高度并行的流水線加速方案；其次，根據(jù)MMSE算法中Gram矩陣計算和匹配濾波計算模塊相對獨立的特點，設(shè)計模塊化并行映射方案；最后，基于Xilinx Virtex-6開發(fā)板對映射方案進(jìn)行實現(xiàn)并統(tǒng)計其性能。實驗結(jié)果表明，該方法在MIMO規(guī)模為、和的正交相移鍵控（QPSK）上行鏈路中，加速比分別2.80、4.04和5.57；在的大規(guī)模MIMO系統(tǒng)中，可重構(gòu)陣列處理器比專用硬件減少了42.6%的資源消耗。

大規(guī)模多輸入多輸出；最小均方誤差算法；并行映射；陣列處理器；可重構(gòu)

0 引言

大規(guī)模多輸入多輸出（Multiple-Input Multiple-Output， MIMO）技術(shù)是未來移動通信的關(guān)鍵技術(shù)之一［1］。隨著基站端天線數(shù)持續(xù)上漲，上行鏈路信號檢測面臨巨大挑戰(zhàn)，信號檢測器對計算精度、硬件復(fù)雜度和算法并行性提出了更高要求。因為信道矩陣向量在多用戶理想傳播條件下會表現(xiàn)出漸進(jìn)正交性，所以最小均方誤差（Minimum Mean Square Error， MMSE）算法就可以達(dá)到較為理想的信號檢測精度，它在實際大規(guī)模MIMO系統(tǒng)中具有很大的應(yīng)用潛力［2］?？芍貥?gòu)是一種使用軟件編程去改變重構(gòu)信息，最終使硬件功能得到改變的技術(shù)［3］，其兼具通用處理器的靈活性和專用集成電路（Application Specific Integrated Circuit， ASIC）的高性能?？芍貥?gòu)陣列結(jié)構(gòu)能較好地平衡資源消耗與計算效率的關(guān)系，因此基于該結(jié)構(gòu)的信號檢測器具有光明的發(fā)展前景。

然而，基于可重構(gòu)結(jié)構(gòu)的大規(guī)模MIMO信號檢測算法的實現(xiàn)還存在一些問題。

一方面，目前基于可重構(gòu)結(jié)構(gòu)的信號檢測器大部分面向傳統(tǒng)規(guī)模的MIMO系統(tǒng)，架構(gòu)擴展性不足。文獻(xiàn)［4］中提出了一種由20個運算單元（Process Element， PE）和1個Center Alpha單元構(gòu)建的粗粒度可重構(gòu)架構(gòu)（Coarse Grained Reconfigurable Architecture，CGRA），雖然該結(jié)構(gòu)可以通過處理器集成的指令靈活地實現(xiàn)多種算法，但是固定的PE陣列限制了MIMO規(guī)模擴展；文獻(xiàn)［5］中基于動態(tài)可重構(gòu)處理器架構(gòu)，實現(xiàn)了線性最小均方誤差（Linear Minimum Mean Square Error， LMMSE）信道估計算法，其處理速度達(dá)到了通用微處理器的8.8～14.6倍，但僅支持的矩陣規(guī)模；文獻(xiàn)［6］中采用一種異構(gòu)可重構(gòu)陣列處理器實現(xiàn)了高效率和低能耗的信號檢測，但是該陣列結(jié)構(gòu)只支持的MIMO規(guī)模，無法滿足當(dāng)前大規(guī)模MIMO的檢測需求。

另一方面，基于現(xiàn)場可編程門陣列（Field Programmable Gate Array， FPGA）的大規(guī)模MIMO檢測架構(gòu)會造成較高的硬件開銷。文獻(xiàn)［7］中使用并行切比雪夫算法實現(xiàn)了的大規(guī)模MIMO信號檢測，雖然該算法通過迭代將矩陣乘法轉(zhuǎn)化為矩陣和向量相乘，降低了計算復(fù)雜度，但是復(fù)雜的迭代控制增加了FPGA實現(xiàn)難度，并消耗了過多資源；文獻(xiàn)［8］中提出了一種遞推共軛梯度迭代方法進(jìn)行信號檢測，并設(shè)計了基于該方法的、64正交幅度調(diào)制（Quadrature Amplitude Modulation， QAM）大規(guī)模MIMO系統(tǒng)硬件架構(gòu)，但是該架構(gòu)中包含了6種不同結(jié)構(gòu)的PE，對硬件資源消耗和設(shè)計復(fù)雜度有較大挑戰(zhàn)。

為了使大規(guī)模MIMO系統(tǒng)中MMSE檢測算法適應(yīng)可重構(gòu)結(jié)構(gòu)，解決MMSE算法中矩陣計算復(fù)雜度高、運算效率低的問題，本文基于項目組開發(fā)的同構(gòu)輕核可重構(gòu)陣列處理器平臺［9］，設(shè)計了MMSE算法在可重構(gòu)陣列處理器上并行映射的方案，最終以較高的計算效率和較低資源消耗實現(xiàn)了大規(guī)模MIMO信號檢測。

1 大規(guī)模MIMO檢測算法分析

對于復(fù)雜大規(guī)模MIMO信道條件，MMSE算法考慮到了噪聲影響，于是估計的發(fā)送信號計算式如式（2）所示：

圖1 MMSE檢測算法運算流程Fig. 1 Calculation flow of MMSE detection algorithm

表1 不同下的特征Tab. 1 Characteristics of at different

的計算結(jié)果運算復(fù)雜度123

2 MMSE算法并行映射方案設(shè)計

2.1 陣列處理器的硬件結(jié)構(gòu)

本文方案采用項目組提出的基于H型傳輸網(wǎng)絡(luò)的可重構(gòu)陣列處理器實現(xiàn)。該處理器使用FPGA架構(gòu)設(shè)計，由主機接口、全局控制器、可重構(gòu)處理單元、輸入存儲器和輸出存儲器五部分構(gòu)成，其結(jié)構(gòu)如圖2所示。

圖2 陣列處理器結(jié)構(gòu)Fig. 2 Structure of array processor

可重構(gòu)處理單元是陣列處理器的核心，由1 024個PE構(gòu)成，每一組的PE陣列構(gòu)成一個處理單元簇（Process Element Group， PEG），簡稱為簇。圖2中只展示出了4個簇，其余簇可以在該架構(gòu)上進(jìn)行擴展。每個PE包含了1個數(shù)據(jù)和1個指令存儲單元。數(shù)據(jù)存儲單元有512行，每行位寬為16 b；指令存儲單元也有512行，但指令位寬為32 b。相鄰PE之間可采用鄰接互連方式傳遞數(shù)據(jù)，相鄰簇間可通過路由方式傳遞數(shù)據(jù)。主機接口負(fù)責(zé)將上位機下發(fā)的命令傳輸?shù)饺挚刂破鳎蝗挚刂破鲗⒅鳈C接口接收的信息分為數(shù)據(jù)流和指令流，通過H樹網(wǎng)絡(luò)進(jìn)行調(diào)度，并合理分配到每個PE中；輸入存儲器用于存儲計算時的輸入數(shù)據(jù)；輸出存儲器用來把計算結(jié)果進(jìn)行輸出。因為PE功能會根據(jù)配置信息的不同而發(fā)生改變，所以可重構(gòu)陣列處理器具有高靈活性［15］。

2.2 并行映射方案設(shè)計

2.2.1 Gram矩陣并行計算方案設(shè)計

則有式（4）成立：

在式（4）中，只需計算上三角元素和對角元素，便可得到全部矩陣元素。觀察矩陣中每一個元素，發(fā)現(xiàn)每行均有相同行向量，每列均有相同列向量，此數(shù)據(jù)特征非常適合采用流水線結(jié)構(gòu)設(shè)計復(fù)數(shù)矩陣乘法。

陣列處理器中一個簇有16個PE，考慮到MIMO規(guī)模的擴展性，首先在的MIMO規(guī)模下使用4個PE完成Gram矩陣并行計算。具體映射方案如下：

2）數(shù)據(jù)傳輸。PE00為最先開始數(shù)據(jù)傳輸?shù)腜E，當(dāng)指令讀取到的第1個元素后，將共軛變化為的第1個元素，并把依次傳輸?shù)絇E10、PE20和PE30中。

圖3中，每一列為Gram矩陣一個元素的計算周期，每一行為每個PE需要執(zhí)行的操作，每一個方格代表了不同計算周期內(nèi)PE中的一個操作。由圖3可以看出，在不考慮數(shù)據(jù)流動延遲的情況下，采用流水線模式計算Gram矩陣，僅僅需要4個計算周期就可以完成全部計算。然而采用串行方式逐個計算Gram矩陣元素時，即使考慮到埃爾米特矩陣共軛轉(zhuǎn)置特性，也需要依次計算4個對角元素和6個非對角元素，這會消耗10個計算周期。所以從理論上來講，在的MIMO規(guī)模下，并行Gram矩陣計算相較于串行計算能夠取得加速比為2.5。在一個簇中，、和的Gram矩陣并行計算映射分別如圖4所示。

圖3 流水線結(jié)構(gòu)映射Fig. 3 Pipeline structure mapping

圖4 Gram矩陣并行計算映射Fig. 4 Mapping of Gram matrix parallel computing

在圖4中，為了降低數(shù)據(jù)傳輸延遲、減少計算時數(shù)據(jù)等待時間，于是在相鄰PE之間采用了鄰接互連的蛇形數(shù)據(jù)傳輸方式。各個PE的計算模式相同，唯一不同的是計算量，從箭頭指向的第一個PE到最后一個PE，計算量依次遞增。每個PE按箭頭指向順序依次存儲矩陣的列向量。如在128×4的MIMO規(guī)模下，PE00、PE10、PE20和PE30中分別存儲、、和的數(shù)據(jù)，并在這4個PE中完成矩陣計算。

為了統(tǒng)計矩陣計算時間，規(guī)定一個計算周期即為完成Gram矩陣中一個元素計算所需時間，該時間由兩組擁有128個復(fù)數(shù)的數(shù)組對應(yīng)完成乘累加組成。采用流水線結(jié)構(gòu)加速計算時，并行計算周期數(shù)取決于Gram矩陣對角線元素個數(shù)。串行計算周期數(shù)由對角線元素個數(shù)和上三角元素個數(shù)相加組成。在的MIMO規(guī)模下，Gram矩陣有8個對角線元素和28個上三角元素，所以并行計算周期是8，串行計算周期是36。圖4（c）中，在的MIMO規(guī)模下使用了16個PE完成了Gram矩陣計算，因為Gram矩陣有16個對角線元素和120個上三角元素，所以并行計算周期是16，串行計算周期是136。在不同MIMO規(guī)模下，Gram矩陣對應(yīng)的計算周期和理論加速比如表2所示。

從表2可以看出，隨著MIMO規(guī)模增加，無論是串行還是并行方案，Gram矩陣的計算周期都會增長。串行方案全部使用1個PE完成計算，并行方案下使用的PE數(shù)量與Gram矩陣中對角線元素數(shù)量保持一致，且與MIMO規(guī)模中用戶端天線數(shù)相同。矩陣計算的理論加速比會隨著MIMO規(guī)模增大而提高，此特點有利于更大規(guī)模的MIMO系統(tǒng)中信號檢測算法高效執(zhí)行。

表2 Gram矩陣計算的理論值Tab. 2 Theoretical value of Gram matrix calculation

2.2.2 模塊化并行方案設(shè)計

根據(jù)圖1運算流程，如果把Gram矩陣計算替換為并行計算，可得并行映射方案①。由于Gram矩陣計算和匹配濾波計算不具備數(shù)據(jù)依賴關(guān)系，所以在執(zhí)行Gram矩陣并行計算時，讓匹配濾波計算同時開始執(zhí)行，完成模塊化并行，則可得并行映射方案②。

表3 Gram矩陣和匹配濾波計算的理論值Tab. 3 Theoretical values of Gram matrix and matched filter calculation

與表2相比，表3中方案①的計算周期只是在表2中并行計算周期的基礎(chǔ)上加上了的計算周期。方案②中模塊化并行會使加速比提高至方案①的2倍。因為在理想狀況下，與的計算周期相同，并行計算時這兩個矩陣計算同時開始、同時結(jié)束，只占用了個計算周期；所以模塊化并行會進(jìn)一步降低計算耗時，提高計算效率。

2.2.3 PE功能設(shè)計

雖然矩陣求逆時使用紐曼級數(shù)近似算法能夠降低求逆復(fù)雜度，但是紐曼級數(shù)法各個計算步驟之間有很強的數(shù)據(jù)相關(guān)性，故只能逐步順序執(zhí)行。通過表1可知，當(dāng)時，紐曼級數(shù)法兼顧了計算復(fù)雜度與準(zhǔn)確性的要求，于是有式（5）：

把式（5）中各個計算單元重新命名，可得式（6）、式（7）和式（8）分別如下：

對算法進(jìn)行實現(xiàn)時，方案中用戶端天線數(shù)分別設(shè)計為4、8和16。當(dāng)?shù)扔?6時，由于矩陣每個元素的實部和虛部各占用一行存儲單元，故存儲一個矩陣需要512行存儲單元，即一個PE。雖然PE中可以同時存儲指令與數(shù)據(jù)，但是為了在計算時避免地址沖突，與矩陣大小相同的矩陣、、的數(shù)據(jù)必須單獨存儲在一個PE中。于是，Gram矩陣串行計算、匹配濾波計算、矩陣求逆和信道均衡的任務(wù)只能把指令和數(shù)據(jù)劃分給不同PE進(jìn)行存儲。因為在的MIMO規(guī)模下，Gram矩陣并行計算在一個簇中PE的使用率為100%，故選取其展現(xiàn)完整的MMSE檢測算法并行映射方案如圖5所示。

圖5中，PEG00完成Gram矩陣計算的任務(wù)，PEG01完成匹配濾波、矩陣求逆和信道均衡的任務(wù)，陰影部分為存儲數(shù)據(jù)的PE，非陰影部分為執(zhí)行計算功能的PE。在PEG00中，與圖4（c）相比，PE03增加了把計算完成的Gram矩陣元素傳輸給PEG01的任務(wù)。

圖5 MMSE算法并行映射Fig. 5 Parallel mapping of MMSE algorithm

3 實驗與結(jié)果分析

3.1 實驗環(huán)境和步驟

本文先使用Matlab建模生成實驗數(shù)據(jù)：首先，產(chǎn)生一組隨機的二進(jìn)制比特流，經(jīng)過QPSK調(diào)制后得到發(fā)送信號；其次，隨機生成一組矩陣元素獨立同分布，且實部與虛部都服從零均值和單位方差高斯分布的信道矩陣；然后，生成加性高斯白噪聲向量，由控制生成噪聲功率譜密度；最后，根據(jù)式（1）計算接收信號。

實驗數(shù)據(jù)生成以后，使用BEEcube公司BEE4開發(fā)平臺上的Xilinx Virtex-6 XC6VLX550T FPGA搭建的陣列處理器原型系統(tǒng)進(jìn)行FPGA驗證和測試。具體實現(xiàn)步驟如下：

2）使用專用指令集完成算法的代碼級描述，并通過翻譯器將指令翻譯為二進(jìn)制，輸入到指令存儲單元。

3）利用QuestaSim 10.1d仿真軟件在陣列處理器上對串并行映射方案進(jìn)行仿真，驗證算法映射的正確性。

4）采用ISE 14.7開發(fā)環(huán)境對設(shè)計進(jìn)行邏輯綜合，根據(jù)綜合實現(xiàn)結(jié)果分析性能。

5）在BEE4平臺上進(jìn)行FPGA硬件實現(xiàn)，驗證實驗結(jié)果的合理性。

3.2 結(jié)果分析

首先，對Gram矩陣計算的串行和并行方案進(jìn)行仿真，計算實際加速比。MIMO規(guī)模分別為、和，結(jié)果如表4所示。

從表4可以看出，Gram矩陣計算的實際加速比與理論加速比大致相當(dāng)，表明Gram矩陣計算的映射方案可行。然而，隨著MIMO規(guī)模中用戶端天線數(shù)增加，理論加速比與實際加速比的差值會越來越大。出現(xiàn)此現(xiàn)象的主要原因是，使用流水線方式加速計算時，用戶端天線數(shù)的增加導(dǎo)致并行計算使用的PE數(shù)量增加，首個PE下發(fā)的數(shù)據(jù)會經(jīng)過更長時間才能傳輸?shù)阶詈笠粋€PE中，所以更多的數(shù)據(jù)傳輸時延將會導(dǎo)致并行計算時間增加，進(jìn)而降低實際加速比。

表4 Gram矩陣計算仿真結(jié)果Tab. 4 Simulation results of Gram matrix calculation

其次，統(tǒng)計分別在方案①和方案②下完成Gram矩陣計算和匹配濾波計算后的實際加速比，實驗結(jié)果如表5所示。通過表5可以發(fā)現(xiàn)，方案①中完成前兩個模塊計算的實際加速比很接近理論值，理論與實際的誤差僅在0.2以內(nèi)。方案②中由于數(shù)據(jù)傳輸延遲，導(dǎo)致Gram矩陣計算時間多于匹配濾波計算時間，進(jìn)而延長了模塊化并行時間，于是實際加速比下降過大。但是從整體上來說，方案②的加速性能優(yōu)于方案①。上述結(jié)果表明，在模塊化并行映射方案下，MMSE算法能夠獲得更高的運行效率。

表5 Gram矩陣和匹配濾波計算仿真結(jié)果Tab. 5 Simulation results of Gram matrix and matched filter calculation

最后，對整個MMSE算法進(jìn)行仿真。統(tǒng)計方案①和方案②的加速比，結(jié)果如圖6所示。從圖6可以看出，方案②的加速比在、和的MIMO規(guī)模下分別為2.80、4.04和5.57，平均提升至方案①的1.64倍。該性能提升對低時延要求的大規(guī)模MIMO系統(tǒng)具有重大意義。

圖6 并行映射加速比Fig. 6 Acceleration ratio of parallel mapping

圖7 不同MIMO規(guī)模下的相對誤差Fig. 7 Relative errors under different MIMO scales

表6 不同方法FPGA實現(xiàn)結(jié)果比較Tab. 6 Comparison of FPGA implementation results by different methods

文獻(xiàn)［7］方法在MIMO規(guī)模與本文實驗相同的條件下，雖然工作頻率獲得了提升，但是本文方法的硬件資源消耗，即查找表（Look-Up Table， LUT）和觸發(fā)器（Flip-Flop， FF）資源之和卻比文獻(xiàn)［7］方法降低了42.6%。在文獻(xiàn)［11］方法和文獻(xiàn)［16］方法中，MIMO規(guī)模為，遠(yuǎn)小于本文方法的MIMO規(guī)模，但是本文方法相較文獻(xiàn)［11］方法和文獻(xiàn)［16］方法方法分別節(jié)約了77.7%和63.9%的硬件資源。因為MIMO規(guī)模越大，需要執(zhí)行的計算越復(fù)雜，消耗的資源越多，所以如果將文獻(xiàn)［11］方法和文獻(xiàn)［16］方法中MIMO規(guī)模擴大為，資源消耗量還會提高。根據(jù)本文中可重構(gòu)陣列處理器指令集的特點，乘法運算會分解為基本的加法和移位操作進(jìn)行處理，這會極大降低硬件資源消耗，所以本文方法在資源消耗量方面具有優(yōu)勢。

綜合上述實驗結(jié)果可以看出，本文提出的基于可重構(gòu)陣列處理器的并行映射方法能夠有效減少MMSE算法的執(zhí)行時間，雖然輸出結(jié)果會有部分精度損失，但是該方法具有靈活的映射結(jié)構(gòu)和較小的資源消耗。

4 結(jié)語

本文提出了一種基于陣列處理器的MMSE算法并行映射方法，在QPSK調(diào)制方式的上行鏈路中，實現(xiàn)了大規(guī)模MIMO信號檢測。該并行映射方法將MMSE算法執(zhí)行分為計算并行和模塊化并行，在計算并行中設(shè)計了流水線結(jié)構(gòu)的Gram矩陣計算方式，在模塊化并行中設(shè)計了匹配濾波計算和Gram矩陣計算同步執(zhí)行的方案。實驗結(jié)果表明，在、和的MIMO規(guī)模下，MMSE算法的加速比分別達(dá)到了2.80、4.04和5.57；與文獻(xiàn)［7］方法相比，本文方法資源消耗降低了42.6%。本文方法不僅體現(xiàn)了陣列結(jié)構(gòu)的靈活性，而且還驗證了該結(jié)構(gòu)在硬件資源消耗量方面占有優(yōu)勢。后續(xù)研究將對硬件結(jié)構(gòu)進(jìn)行優(yōu)化，以進(jìn)一步提高信號檢測算法的計算精度和執(zhí)行效率。

[1] HARRIS P， MALKOWSKY S， VIEIRA J， et al. Performance characterization of a real-time massive MIMO system with LOS mobile channels ［J］. IEEE Journal on Selected Areas in Communications， 2017， 35（6）： 1244-1253.

[2] PENG G Q， LIU L B， ZHOU S， et al. A 1.58 Gb/s/W 0.40 Gb/s/mm2ASIC implementation of MMSE detection for64-QAM massive MIMO in 64 nm CMOS ［J］. IEEE Transactions on Circuits amp; Systems I： Regular Papers， 2018， 65（5）： 1717-1730.

[3] 魏少軍，李兆石，朱建峰，等.可重構(gòu)計算：軟件可定義的計算引擎［J］.中國科學(xué)：信息科學(xué)，2020，50（9）：1407-1426.（WEI S J， LI Z S， ZHU J F， et al. Reconfifigurable computing： toward software defifined chips ［J］. SCIENTIA SINICA Informationis， 2020， 50（9）： 1407-1426.）

[4] CHEN X L， MINWEGEN A， HUSSAIN S B， et al. Flexible， efficient multimode MIMO detection by using reconfigurable ASIP［J］. IEEE Transactions on Very Large Scale Integration Systems， 2015，23（10）： 2173-2186.

[5] 趙燦坤，王自強.基于動態(tài)可重構(gòu)處理器的信道估計算法實現(xiàn)［J］.微電子學(xué)與計算機，2020，37（7）：1-5，11.（ZHAO C K， WANG Z Q. Implementation of channel estimation algorithms based on dynamic reconfigurable processor ［J］. Microelectronics and Computer， 2020， 37（7）： 1-5， 11.）

[6] ZHANG C X， LIU L， MARKOVIC D， et al. A heterogeneous reconfigurable cell array for MIMO signal processing ［J］. IEEE Transactions on Circuits amp; Systems I： Regular Papers， 2015， 62（3）： 733-742.

[7] PENG G Q， LIU B L， ZHANG P， et al. Low-computing-load， high-parallelism detection method based on Chebyshev iteration for massive MIMO systems with VLSI architecture ［J］. IEEE Transactions on Signal Processing，2017， 65（14）： 3775-3788.

[8] LIU L B， PENG G Q， WANG P， et al. Energy- and area-efficient recursive-conjugate-gradient-based MMSE detector for massive MIMO systems ［J］. IEEE Transactions on Signal Processing， 2020， 68： 573-588.

[9] 蔣林，賀飛龍，山蕊，等.可重構(gòu)視頻陣列處理器測試平臺設(shè)計與實現(xiàn)［J］.系統(tǒng)仿真學(xué)報，2020，32（5）：792-800.（JIANG L， HE F L，SHAN R， et al. Design and implementation of reconfigurable video array processor test platform ［J］. Journal of System Simulation， 2020， 32（5）： 792-800.）

[10] GAO X， DAI L， MA Y， et al. Low-complexity near-optimal signal detection for uplink large-scale MIMO systems ［J］. Electronics Letters， 2014， 50（18）： 1326-1328.

[11] WU M， YIN B， WANG G H， et al. Large-scale MIMO detection for 3GPP LTE： algorithms and FPGA implementations ［J］. IEEE Journal of Selected Topics in Signal Processing， 2014， 8（5）： 916-929.

[12] 金鳳，唐宏，張進(jìn)彥，等.基于壓縮感知的大規(guī)模MIMO系統(tǒng)導(dǎo)頻優(yōu)化及信道估計算法［J］.計算機應(yīng)用，2018，38（5）：1447-1452.（JIN F，TANG H， ZHANG J Y， et al. Pilot optimization and channel estimation in massive multiple-input multiple-output systems based on compressive sensing ［J］. Journal of Computer Applications， 2018， 38（5）： 1447-1452.）

[13] YIN B， WU M， WANG G H， et al. A 3.8Gb/s large-scale MIMO detector for 3GPP LTE-Advanced ［C］// Proceedings of the 2014 IEEE International Conference on Acoustics， Speech and Signal Processing. Piscataway： IEEE， 2014：3879-3883.

[14] 馮雙雙.基于Massive MIMO的矩陣求逆算法研究［D］.成都：電子科技大學(xué)，2016：33-51.（FENG S S. Research on matrix inversion in massive MIMO systems ［D］. Chengdu：University of Electronic Science and Technology of China， 2016： 33-51.）

[15] 楊坤，蔣林，謝曉燕，等.HEVC中率失真優(yōu)化算法的動態(tài)可重構(gòu)實現(xiàn)［J］.計算機工程與科學(xué)，2021，43（2）：354-361.（YANG K， JIANG L， XIE X Y， et al. Dynamic reconfigurable implementation of rate distortion optimization algorithm in HEVC ［J］. Computer Engineering and Science， 2021， 43（2）： 354-361.）

[16] CHEN J N， ZHANG Z B， LU H， et al. An intra-iterative interference cancellation detector for large-scale MIMO communications based on convex optimization ［J］. IEEE Transactions on Circuits amp; Systems I： Regular Papers， 2016， 63（11）： 2062-2072.

Parallel design and implementation of minimum mean square error detection algorithm based on array processor

LIU Shuai1， JIANG Lin2*， LI Yuancheng2， SHAN Rui3， ZHU Yulin4， WANG Xin4

（1.College of Communication and Information Engineering，Xi’an University of Science and Technology，Xi’an Shaanxi710054China；2.College of Computer Science and Technology，Xi’an University of Science and Technology，Xi’an Shaanxi710054，China；3.School of Electronic Engineering，Xi’an University of Posts and Telecommunications，Xi’an Shaanxi710121，China；4.College of Electrical and Control Engineering，Xi’an University of Science and Technology，Xi’an Shaanxi710054，China）

In massive Multiple-Input Multiple-Output （MIMO） systems， Minimum Mean Square Error （MMSE） detection algorithm has the problems of poor adaptability， high computational complexity and low efficiency on the reconfigurable array structure. Based on the reconfigurable array processor developed by the project team， a parallel mapping method based on MMSE algorithm was proposed. Firstly， a pipeline acceleration scheme which could be highly parallel in time and space was designed based on the relatively simple data dependency of Gram matrix calculation. Secondly， according to the relatively independent characteristic of Gram matrix calculation and matched filter calculation module in MMSE algorithm， a modular parallel mapping scheme was designed. Finally， the mapping scheme was implemented based on Xilinx Virtex-6 development board， and the statistics of its performance were performed. Experimental results show that， the proposed method achieves the acceleration ratio of 2.80， 4.04 and 5.57 in Quadrature Phase Shift Keying （QPSK）uplink with the MIMO scale of，and， respectively， and the reconfigurable array processor reduces the resource consumption by 42.6% compared with the dedicated hardware in themassive MIMO system.

massive Multiple-Input Multiple-Output (MIMO); Minimum Mean Square Error (MMSE) algorithm; parallel mapping; array processor; reconfigurable

TP302

1001-9081（2022）05-1524-07

10.11772/j.issn.1001-9081.2021030460

2021?03?26；

2021?06?25；

2021?06?28。

國家自然科學(xué)基金資助項目（61834005，61772417）；陜西省自然科學(xué)基金資助項目（2020JM?525）。

劉帥（1998—），男，陜西延安人，碩士研究生，主要研究方向：計算機體系結(jié)構(gòu)；蔣林（1970—），男，陜西楊凌人，教授，博士，主要研究方向：專用集成電路設(shè)計、計算機體系結(jié)構(gòu)、計算機圖形圖像處理；李遠(yuǎn)成（1981—），男，河南開封人，講師，博士，CCF會員，主要研究方向：計算機體系結(jié)構(gòu)、并行計算、機器學(xué)習(xí)；山蕊（1986—），女，陜西咸陽人，副教授，博士，主要研究方向：集成電路設(shè)計；朱育琳（1996—），女，陜西西安人，碩士研究生，主要研究方向：計算機體系結(jié)構(gòu)；王欣（1995—），女，陜西咸陽人，碩士研究生，主要研究方向：可重構(gòu)存儲結(jié)構(gòu)。

This work is partially supported by National Natural Science Foundation of China （61834005， 61772417），Natural Science Foundation of Shaanxi Province （2020JM-525）.

LIU Shuai， born in 1998， M. S. candidate. His research interests include computer architecture.

JIANG Lin， born in 1970， Ph. D.， professor. His research interests include application specific integrated circuit design， computer architecture， computer graphics and image processing.

LI Yuancheng， born in 1981， Ph. D.， lecturer. His research interests include computer architecture，parallel computing， machine learning.

SHAN Rui， born in 1986， Ph. D.， associate professor. Her research interests include integrated circuit design.

ZHU Yulin， born in 1996， M. S. candidate. Her research interests include computer architecture.

WANG Xin， born in 1995， M. S. candidate. Her research interests include reconfigurable storage structure.