亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

用于MIMO檢測的基于NoC的多核動態(tài)可重構(gòu)架構(gòu)

2024-11-02 00:00:00范文杰周牧也朱凌曉李世平陳鎧鄧松峰何國強(qiáng)馮書誼宋文清李麗傅玉祥

現(xiàn)代電子技術(shù) 2024年21期

摘 "要：隨著無線通信技術(shù)的發(fā)展，實現(xiàn)多輸入多輸出（MIMO）系統(tǒng)檢測性能與復(fù)雜度之間的最優(yōu)權(quán)衡日益困難，深度學(xué)習(xí)DL為此提供了新方向。文中提出基于片上網(wǎng)絡(luò)（NoC）的多核動態(tài)可重構(gòu)架構(gòu)MCDBP，以提高基于DL的MIMO檢測算法的性能，并增強(qiáng)架構(gòu)的可編程性和擴(kuò)展性。MCDBP通過集成輕量級計算內(nèi)核及片上網(wǎng)絡(luò)互連，并行處理矢量?矩陣乘法、常數(shù)?矢量乘法、矢量點(diǎn)積、矢量加法等大多數(shù)深度展開網(wǎng)絡(luò)的基本運(yùn)算，有效提高復(fù)雜MIMO檢測性能。架構(gòu)的創(chuàng)新在于可重構(gòu)的處理元件PE設(shè)計，可以依據(jù)DL驅(qū)動的MIMO檢測需求動態(tài)調(diào)整。該設(shè)計對基于DL的MIMO檢測算法共性進(jìn)行深入分析，支持多種基本運(yùn)算模式，展現(xiàn)極高靈活性。實驗結(jié)果顯示，MCDBP在執(zhí)行基于DL的MIMO檢測算法時，與通用CPU相比，可以實現(xiàn)12.66～22.98的加速比，算法性能有所提高，可以適應(yīng)不同應(yīng)用場景。

關(guān)鍵詞：無線通信； MIMO檢測；深度學(xué)習(xí)；數(shù)據(jù)驅(qū)動網(wǎng)絡(luò)；模型驅(qū)動網(wǎng)絡(luò)； NoC；可重構(gòu)；多核架構(gòu)

中圖分類號： TN47?34 " " " " " " " " " " " " " " 文獻(xiàn)標(biāo)識碼： A " " " " " " " " " " " "文章編號： 1004?373X（2024）21?0001?06

Dynamically reconfigurable NoC?based multi?core architecture for MIMO detection

FAN Wenjie1， 2， ZHOU Muye1， 2， ZHU Lingxiao1， 2， LI Shiping3， CHEN Kai1， 3， DENG Songfeng4，

HE Guoqiang1， 3， FENG Shuyi4， SONG Wenqing1， 2， LI Li1， FU Yuxiang2

（1. School of Electronic Science and Engineering， Nanjing University， Nanjing 210023， China;

2. School of Integrated Circuits， Nanjing University， Suzhou 215163， China; 3. Jiangsu Huachuang Microsystems Co.， Ltd.， Nanjing 211899， China;

4. Shanghai Aerospace Electronic Technology Research Institute， Shanghai 201100， China）

Abstract： With the advancement of wireless communication technologies， achieving the optimal balance between the detection performance and complexity of multiple?input multiple?output （MIMO） systems is increasingly challenging. Deep learning （DL） offers a new direction for this. This paper presents a multi?core dynamic reconfigurable architecture based on network on chip （NoC）. This architecture， termed MCDBP （multi?core architecture for dynamic baseband processing）， strives to enhance the performance for DL?based MIMO detection algorithms and the architecture′s programmability and scalability. The MCDBP leverages integrated lightweight computing cores and NoC interconnects to process the fundamental operations of deep unfolded networks in parallel， such as vector?matrix multiplication （VMM）， constant?vector multiplication （CVM）， vector dot product （VDP）， and vector addition （VA）， so as to improve the performance of complex MIMO detection significantly. The innovation of the architecture lies in the reconfigurable design of the processing elements （PEs）， and the architecture can be adjusted according to different DL?based MIMO detection algorithms dynamically. This design is grounded in a thorough analysis of the commonalities of DL?based MIMO detection algorithms， showcasing extreme flexibility in supporting multiple fundamental operational modes. Experimental results indicate that， in comparison with the general?purpose CPU， MCDBP can achieve an acceleration ratio of 12.66～22.98 when implementing DL?based MIMO detection algorithms. It can be seen that the performance of the algorithm is improved， so the algorithm can adapt to different application scenarios.

Keywords： wireless communication; MIMO detection; deep learning; data?driven network; model?driven network; NoC; reconfigurable; multi?core architecture

0 "引 "言

多輸入多輸出（Multiple?Input Multiple?Output， MIMO）系統(tǒng)通過利用時間、頻率資源、多用戶和多天線等多個維度，在當(dāng)前的無線通信系統(tǒng)中實現(xiàn)了更高的性能和能效[1]。由于采用了多輸入多輸出處理技術(shù)，基站可以在蜂窩系統(tǒng)中同時發(fā)送或接收來自多個用戶的數(shù)據(jù)。發(fā)射機(jī)和接收機(jī)配備了數(shù)十或數(shù)百根天線，這也使得MIMO系統(tǒng)的信號處理成為一項復(fù)雜的任務(wù)。

最佳聯(lián)合MIMO檢測問題是一個非確定性多項式時間難問題（NP?hard）[2]和非凸問題。文獻(xiàn)[3]介紹了幾種流行的多輸入多輸出檢測算法。其中，最大似然（ML）檢測器是最優(yōu)檢測器，但需要進(jìn)行窮舉搜索，計算時間隨天線數(shù)量呈指數(shù)增長，因此在大型多輸入多輸出系統(tǒng)中部署不切實際。因此，人們更加關(guān)注性能可接受、復(fù)雜度低的近優(yōu)檢測器[3?7]。線性多輸入多輸出檢測算法，如迫零（ZF）[3]、最小均方誤差（MMSE）[3]等，復(fù)雜度較低，但通常需要復(fù)雜的矩陣求逆來確定檢測器的系數(shù)，其性能受到限制。其他近優(yōu)檢測算法也存在問題，如當(dāng)用戶數(shù)量和調(diào)制階數(shù)增加時，近似信息傳遞（AMP）的復(fù)雜性也會增加[4]。半正定松弛（SDR）算法[5]處理的符號映射有限，并且在實際應(yīng)用中速度更慢。

近年來，深度學(xué)習(xí)（Deep Learning， DL）被應(yīng)用于許多領(lǐng)域，并為多輸入多輸出檢測帶來了新方法。深度學(xué)習(xí)在多輸入多輸出檢測中的應(yīng)用可分為兩類：數(shù)據(jù)驅(qū)動法和模型驅(qū)動法[8]。數(shù)據(jù)驅(qū)動法直接從大量數(shù)據(jù)中學(xué)習(xí)特征并訓(xùn)練網(wǎng)絡(luò)[9?11]，然而，這種方法面臨著需要收集大量數(shù)據(jù)和訓(xùn)練時間密集等挑戰(zhàn)；模型驅(qū)動法利用深度學(xué)習(xí)優(yōu)化現(xiàn)有的未確定參數(shù)，或在現(xiàn)有模型中引入補(bǔ)充參數(shù)[12?15]，在模型驅(qū)動法中需要深度學(xué)習(xí)的參數(shù)比數(shù)據(jù)驅(qū)動法少得多，從而減少了訓(xùn)練時間。

如今，為了適應(yīng)無線通信技術(shù)的快速發(fā)展，不少針對特定MIMO檢測算法設(shè)計的ASIC芯片被提了出來[16?19]，以滿足更短的執(zhí)行時間、更低的延遲、更高的帶寬和更低的能耗等需求。對于本文面向的基于DL的MIMO檢測算法，由于采用深度學(xué)習(xí)方法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)包含多個計算并行度，這使得多核片上互聯(lián)網(wǎng)絡(luò)（Network on Chip， NoC）成為一種合適的架構(gòu)。NoC提供了充足的帶寬，多核架構(gòu)帶來了遠(yuǎn)高于傳統(tǒng)單核架構(gòu)的計算能力，可以實現(xiàn)更低的MIMO檢測延遲。另外，不同的MIMO檢測方法有不同的優(yōu)勢、劣勢，適合于不同的應(yīng)用場景。為了使提出的架構(gòu)更加靈活，適應(yīng)不同的應(yīng)用場景，本文采用可重構(gòu)的處理單元（Processing Element， PE）設(shè)計。

本文提出的用于MIMO檢測的基于NoC的多核動態(tài)可重構(gòu)架構(gòu)（Multi?core Architecture for Dynamic Baseband Processing， MCDBP）的主要貢獻(xiàn)如下：

1）采用多核NoC架構(gòu)加速基于深度學(xué)習(xí)的MIMO檢測網(wǎng)絡(luò)的執(zhí)行，通過利用這些網(wǎng)絡(luò)中存在的并行度，與通用CPU相比，可以實現(xiàn)12.66～22.98的加速比。

2）分析了不同模型驅(qū)動網(wǎng)絡(luò)的共性，基于這些共性，提出一種可重構(gòu)的處理單元設(shè)計，處理單元可以配置成不同的模式，以適應(yīng)不同的應(yīng)用場景。

1 "多輸入多輸出檢測

1.1 "問題描述

考慮到一個有[N]個發(fā)射天線和[M]個接收天線的多輸入多輸出系統(tǒng)，發(fā)送符號向量寫為[x∈CN×1]?？梢缘玫浇邮招盘朳y]如下：

[y=Hx+n] （1）

式中：[H∈CM×N]是信道矩陣；[n∈CM×1]是加性高斯白噪聲（Additive White Gaussian Noise， AWGN）。

在深度學(xué)習(xí)中，運(yùn)算總是在實值域中進(jìn)行的，因此考慮等效的實值表示如下：

[y=Hx+n] （2）

在式（2）中，實部和虛部被分開考慮，有[x=]

[RT（x），IT（x）T]，[y=RT（y），IT（y）T]，[n=RT（n），IT（n）T]，

以及[H=R（H）-I（H）I（H）R（H）]。

為了從接收信號[y]中恢復(fù)信號[x]，學(xué)者們提出了許多多輸入多輸出檢測方法。線性多輸入多輸出檢測算法，如迫零（ZF）[3]、最小均方誤差（MMSE）[3]，復(fù)雜度較低，但通常需要復(fù)雜的矩陣求逆來確定檢測器的系數(shù)。當(dāng)用戶數(shù)量和調(diào)制階數(shù)增加時，近似信息傳遞（AMP）等近似最優(yōu)檢測器的復(fù)雜度也會增加[4]，半正定松弛（SDR）[5]處理的符號映射有限，而且在實際應(yīng)用中速度更慢。

1.2 "基于深度學(xué)習(xí)方法

如今，隨著越來越多的研究關(guān)注深度學(xué)習(xí)在多輸入多輸出檢測中的應(yīng)用，提出了許多基于深度學(xué)習(xí)的多輸入多輸出檢測技術(shù)，這些技術(shù)可分為數(shù)據(jù)驅(qū)動法和模型驅(qū)動法兩類。數(shù)據(jù)驅(qū)動法[9?11]直接從大量數(shù)據(jù)中學(xué)習(xí)特征并訓(xùn)練網(wǎng)絡(luò)。根據(jù)通用近似定理，經(jīng)過充分的數(shù)據(jù)訓(xùn)練后，神經(jīng)網(wǎng)絡(luò)有能力近似任何連續(xù)函數(shù)[20]。文獻(xiàn)[9]構(gòu)建了一個用于多輸入多輸出檢測的全連接多層網(wǎng)絡(luò)。文獻(xiàn)[10]提出了三種用于多輸入多輸出檢測的網(wǎng)絡(luò)，分別是基于深度神經(jīng)網(wǎng)絡(luò)（DNN）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）。文獻(xiàn)[11]利用帶有監(jiān)督訓(xùn)練的DNN解決了聯(lián)合多輸入多輸出檢測和信道解碼問題。

模型驅(qū)動方法[9，12?15，21]使用深度學(xué)習(xí)來優(yōu)化參數(shù)或在現(xiàn)有模型中添加一些參數(shù)，這些方法利用現(xiàn)有的數(shù)學(xué)模型對訓(xùn)練時間和數(shù)據(jù)集提出了更低的要求。通過巧妙地展開現(xiàn)有的迭代算法，模型驅(qū)動網(wǎng)絡(luò)由許多相同的層組成，算法的迭代次數(shù)決定了網(wǎng)絡(luò)的層數(shù)。例如，DetNet的結(jié)構(gòu)就是通過將投影梯度下降算法的迭代展開成網(wǎng)絡(luò)而獲得的[9]。文獻(xiàn)[21]將DetNet簡化為稀疏連接神經(jīng)網(wǎng)絡(luò)，即ScNet。文獻(xiàn)[12]基于文獻(xiàn)[6]中提出的迭代算法構(gòu)建了一個模型驅(qū)動網(wǎng)絡(luò)。文獻(xiàn)[13]基于非精確交替乘法（ADMM）算法[7]，提出了非精確ADMM網(wǎng)絡(luò)。JC?Net結(jié)構(gòu)是通過展開阻尼雅可比檢測器并為每層添加三個可訓(xùn)練參數(shù)而設(shè)計的[14]。GS?Net在現(xiàn)有高斯?賽德爾檢測模型的基礎(chǔ)上增加了一些可學(xué)習(xí)的參數(shù)，并展開了高斯?賽德爾檢測方法的迭代過程[15]。

考慮到模型驅(qū)動方法結(jié)合了深度學(xué)習(xí)和傳統(tǒng)數(shù)學(xué)模型的優(yōu)點(diǎn)，對訓(xùn)練時間和數(shù)據(jù)集的要求較低，本文的工作主要集中在模型驅(qū)動方法的實現(xiàn)上。

2 "用于MIMO檢測的可重構(gòu)NoC設(shè)計

本節(jié)將介紹用于多輸入多輸出檢測的可重構(gòu)NoC架構(gòu)MCDBP。該多核架構(gòu)充分利用了基于深度學(xué)習(xí)的網(wǎng)絡(luò)中的并行性維度，采用可重構(gòu)處理單元設(shè)計，使所提出的架構(gòu)更加靈活，能夠適應(yīng)不同的應(yīng)用場景。不同的多輸入多輸出檢測方法有不同的優(yōu)點(diǎn)、缺點(diǎn)和應(yīng)用場景，例如文獻(xiàn)[12]中的網(wǎng)絡(luò)針對多用戶干擾消除進(jìn)行了優(yōu)化，而文獻(xiàn)[13]中的網(wǎng)絡(luò)可以解調(diào)高階調(diào)制符號。本文總結(jié)了不同深度展開網(wǎng)絡(luò)所涉及的操作，結(jié)果如表1所示。

從表1可以得出：矢量?矩陣乘法（Vector?Matrix Multiplication， VMM）、常數(shù)?矢量乘法（Constant?Vector Multiplication， CVM）、矢量點(diǎn)積（Vector Dot Product， VDP）、矢量加法（Vector Addition， VA）是大多數(shù)深度展開網(wǎng)絡(luò)的基本運(yùn)算，也就是說，這些網(wǎng)絡(luò)可以分解為這四種基本運(yùn)算。所有這些操作都涉及多個維度，因此可以并行化，并行化策略將在第2.2節(jié)中介紹。進(jìn)一步細(xì)分，所有這些操作都由乘法和加法組成，這意味著它們都可以由乘累加單元（Multiplier and Accumulation， MAC）完成?；谶@一觀點(diǎn)，設(shè)計了下文所述的可重構(gòu)處理單元，它可以配置為上述四種基本模式。

2.1 "可重構(gòu)處理單元設(shè)計

可重構(gòu)處理單元的可重構(gòu)性體現(xiàn)在其內(nèi)部結(jié)構(gòu)和功能的動態(tài)可配置性。

1）計算陣列的多模式配置：計算陣列由多個乘累加單元（MAC）構(gòu)成，可根據(jù)需要進(jìn)行控制，完成不同的計算任務(wù)。

2）配置寄存器：通過配置寄存器，可在運(yùn)行時調(diào)整處理單元的功能，以匹配特定的處理需求。

3）后處理單元：處理單元完成計算后，后處理單元可以進(jìn)行激活函數(shù)、量化處理等，其行為也可以根據(jù)需要進(jìn)行配置，以支持不同的網(wǎng)絡(luò)層需求。

4）迭代計數(shù)器：通過設(shè)置迭代計數(shù)器的迭代次數(shù)，以適應(yīng)不同深度展開網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)需求。

可重構(gòu)處理單元的基本結(jié)構(gòu)如圖1所示。

可重構(gòu)處理單元的主要組件包括：

1）輸入緩沖區(qū)：用于存儲輸入激活。

2）計算陣列：完成乘積計算，并可配置為不同模式，計算陣列的基本單元是一組MAC。

3）配置寄存器：存儲配置參數(shù)，控制計算陣列的模式，并完成整體時序控制。

4）迭代計數(shù)器：記錄迭代次數(shù)，當(dāng)?shù)嫈?shù)器達(dá)到設(shè)定的層數(shù)時，計算終止。

5）權(quán)重緩沖區(qū)：用于存儲權(quán)重。

6）后處理單元：負(fù)責(zé)完成每輪計算的后處理操作，如截斷和激活函數(shù)。

7）網(wǎng)絡(luò)接口：完成路由包的打包和解包。

對于深度展開網(wǎng)絡(luò)，將其分解為基本操作，每個操作將映射到一組處理單元上。這些處理單元將根據(jù)配置寄存器的設(shè)置配置計算陣列的模式。映射過程將在第2.2節(jié)中討論。

2.2 "模型驅(qū)動網(wǎng)絡(luò)的映射算法

本節(jié)介紹將模型驅(qū)動的多輸入多輸出檢測網(wǎng)絡(luò)映射到NoC平臺的過程，并介紹本文使用的映射算法。

從第1.2節(jié)的介紹中可以了解到，模型驅(qū)動網(wǎng)絡(luò)通?；诂F(xiàn)有的迭代算法，這意味著模型驅(qū)動網(wǎng)絡(luò)中的不同層具有相同的架構(gòu)?？梢詫⒕W(wǎng)絡(luò)的不同層映射到相同的處理單元上，以時分復(fù)用的方式完成整個網(wǎng)絡(luò)的計算，即只需將一層映射到NoC平臺的處理單元上，然后迭代利用這些處理單元完成其他各層的計算。每個處理單元將負(fù)責(zé)該層的一個基本操作。要開始下一層的計算，產(chǎn)生輸出的處理單元需要將輸出傳送給接收輸入的處理單元，不同操作之間的依賴關(guān)系構(gòu)成了不同處理單元之間的數(shù)據(jù)流。

圖2展示了將文獻(xiàn)[12]中提出的網(wǎng)絡(luò)映射到NoC平臺的示例，圖2a）展示了文獻(xiàn)[12]中提出的網(wǎng)絡(luò)一層的流程圖。圖2b）將原始模型轉(zhuǎn)換為基本操作，原始模型可細(xì)分為9個基本操作。在圖2c）中，圖2b）中的基本操作被映射到處理單元上，每個處理單元下的數(shù)字與圖2b）中的操作相對應(yīng)。

在并行化策略方面，采用輸出并行策略。不同配置模式下的并行維度如下：

//矢量?矩陣乘法PE級

parallel_for p1=[0：P1）：

//矢量?矩陣乘法MAC級

for p2=[0：P2）：

parallel_for p3=[0：P3）：

for k=[0：K）：

p=（p1*P2+p2）*P3+p3;

O[p]+=I[k]*W[k，p];

//矢量點(diǎn)積PE級

parallel_for p1=[0：P1）：

//矢量點(diǎn)積MAC級

for p2=[0：P2）：

parallel_for p3=[0：P3）：

p=（p1*P2+p2）*P3+p3;

O[p]=I1[p]*I2[p];

//矢量加法PE級

parallel_for p1=[0：P1）：

//矢量加法MAC級

for p2=[0：P2）：

parallel_for p3=[0：P3）：

for k=[0：K）：

p=（p1*P2+p2）*P3+p3;

O[p]+=Ik[p];

//常數(shù)?矢量乘法PE級

parallel_for p1=[0：P1）：

//常數(shù)?矢量乘法MAC級

for p2=[0：P2）：

parallel_for p3=[0：P3）：

p=（p1*P2+p2）*P3+p3;

O[p]=C*I[p];

對于PE級，不同的輸出將在不同的PE中同時計算。對于MAC級，在每個PE中，MAC陣列將以組內(nèi)串行、組間并行的方式計算輸出。

與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)映射問題相比，模型驅(qū)動網(wǎng)絡(luò)映射問題更為復(fù)雜，其產(chǎn)生輸出的處理單元仍需將輸出傳送給接收輸入的處理單元，不同操作之間的依賴關(guān)系會產(chǎn)生類似ResNet的殘差連接。如何找到一個能帶來低通信延遲的良好映射是一個更大的挑戰(zhàn)。在這項工作中，本文基于文獻(xiàn)[22]中提出的GAMMA算法進(jìn)行映射，這是一種基于遺傳算法（GA）的方法，專門針對硬件映射問題而設(shè)計。

3 "實驗結(jié)果

3.1 "實現(xiàn)細(xì)節(jié)

本節(jié)將提供所提出的可重構(gòu)NoC平臺在不同模型下的實驗結(jié)果。本文的仿真是基于CNN?Noxim[23]進(jìn)行的，這是一種基于NoC的周期精確卷積神經(jīng)網(wǎng)絡(luò)仿真器。本文修改了CNN?Noxim中的處理單元模塊，以支持模型驅(qū)動網(wǎng)絡(luò)中的上述四種基本操作。同時，采用了2.2節(jié)中介紹的映射策略，以減少NoC中的通信延遲。

不同操作類型的處理單元有不同的計算時間。VMM的計算時間見式（3）。CVM、VDP和VA的計算時間見式（4）。

[TVMM=Nin×Nout+NMAC-1NMAC+Nout+NMAC-1modNMAC+1] （3）

[Tother=Nout+NMAC-1NMAC+Nout+NMAC-1modNMAC+1] （4）

式中：[Nin]代表輸入維度的長度；[Nout]代表輸出維度的長度；[NMAC]代表計算陣列中的MAC數(shù)量。

表2列出了配置參數(shù)。其中，分組規(guī)模決定了[Nout]的最大值。

3.2 "性 "能

將文獻(xiàn)[12]中的網(wǎng)絡(luò)、ADMMNet[13]和DetNet[9]三種模型驅(qū)動網(wǎng)絡(luò)映射到NoC平臺，使用的MIMO規(guī)模為32×32，比較這些網(wǎng)絡(luò)的總執(zhí)行時間。

將MCDBP與CPU的性能進(jìn)行對比。CPU的算力為486.4 GFLOPs，多核架構(gòu)MCDBP對應(yīng)的算力為1 TOPs，表3顯示了三個神經(jīng)網(wǎng)絡(luò)的實驗結(jié)果。與CPU相比，多核架構(gòu)MCDBP在文獻(xiàn)[12]提出的網(wǎng)絡(luò)中可以實現(xiàn)12.66的加速比，在ADMM網(wǎng)絡(luò)中可以實現(xiàn)14.65的加速比，在DetNet中為22.98。從圖中可以得出另一個結(jié)論，DetNet比其他模型驅(qū)動網(wǎng)絡(luò)更耗時，這是由于DetNet的架構(gòu)更為復(fù)雜。

3.3 "資源開銷

對可重構(gòu)處理單元進(jìn)行了硬件實現(xiàn)，使用Synopsys Design Compiler在28 nm工藝下進(jìn)行了綜合，最終得到在1 GHz的頻率下面積為0.047 mm2、功耗為9.95 mW，8×8的MCDBP多核架構(gòu)的面積為3.563 mm2，功耗為0.724 W。

4 "結(jié) "語

本文重點(diǎn)討論了模型驅(qū)動多輸入多輸出檢測網(wǎng)絡(luò)的硬件加速問題，利用這些網(wǎng)絡(luò)中的并行維度將它們配置到多核NoC架構(gòu)MCDBP中。分析了不同模型驅(qū)動網(wǎng)絡(luò)的共性，基于這些共性，提出了一種可重新配置的處理單元設(shè)計，以適應(yīng)不同的應(yīng)用場景。與通用CPU相比，本文提出的架構(gòu)可以實現(xiàn)12.66～22.98的加速比。

注：本文通訊作者為傅玉祥、李麗、宋文清。

參考文獻(xiàn)

[1] GOLDSMITH A， JAFAR S A， JINDAL N， et al. Capacity limits of MIMO channels [J]. IEEE journal on selected areas in communications， 2003， 21（5）： 684?702.

[2] VERDú S. Computational complexity of optimum multiuser detection [J]. Algorithmica， 1989， 4（3）： 303?312.

[3] ALBREEM M A M， JUNTTI M J， SHAHABUDDIN S. Massive MIMO detection techniques： A survey [J]. IEEE communications surveys amp; tutorials， 2019， 21（4）： 3109?3132.

[4] ZENG J， LIN J， WANG Z F. Low complexity message passing detection algorithm for large?scale MIMO systems [J]. IEEE wireless communications letters， 2018， 7（5）： 708?711.

[5] LUO Z Q， MA W K， SO A M C， et al. Semidefinite relaxation of quadratic optimization problems [J]. IEEE signal processing magazine， 2010， 27（3）： 20?34.

[6] MANDLOI M， BHATIA V. Low?complexity near?optimal iterative sequential detection for uplink massive MIMO systems [J]. IEEE communications letters， 2017， 21（3）： 568?571.

[7] BOYD S P， PARIKH N， CHU E， et al. Distributed optimization and statistical learning via the alternating direction method of multipliers [J]. Foundations and trends in machine learning， 2011， 3（1）： 1?122.

[8] YANG S S， HANZO L. Fifty years of MIMO detection： The road to large?scale MIMOs [J]. IEEE communications surveys amp; tutorials， 2015， 17（4）： 1941?1988.

[9] SAMUEL N， DISKIN T， WIESEL A. Learning to detect [J]. IEEE transactions on signal processing， 2019， 67（10）： 2554?2564.

[10] BAEK M S， KWAK S， JUNG J Y， et al. Implementation metho?dologies of deep learning?based signal detection for conventional MIMO transmitters [J]. IEEE transactions on broadcas?ting， 2019， 65（3）： 636?642.

[11] WANG T T， ZHANG L H， LIEW S C. Deep learning for joint MIMO detection and channel decoding [C]// 30th IEEE Annual International Symposium on Personal， Indoor and Mobile Radio Communications. New York： IEEE， 2019： 1?7.

[12] LIAO J Y， ZHAO J H， GAO F F， et al. A model?driven deep learning method for massive MIMO detection [J]. IEEE communications letters， 2020， 24（8）： 1724?1728.

[13] KIM M， PARK D. Learnable MIMO detection networks based on inexact ADMM [J]. IEEE transactions on wireless communications， 2021， 20（1）： 565?576.

[14] CAO Q， LI F， LI T， et al. Adaptive signal detection method based on model?driven for massive MIMO systems [C]// 2021 13th International Conference on Wireless Communications and Signal Processing （WCSP）. New York： IEEE， 2021： 1?5.

[15] WANG Q， HAI H， PENG K Z， et al. A learnable Gauss?Seidel detector for MIMO detection [C]// 2020 IEEE/CIC International Conference on Communications in China （ICCC）. New York： IEEE， 2020： 107?111.

[16] HAN K N， HU J H， CHEN J N， et al. A high performance massive MIMO detector based on log?domain belief?propagation [C]// 2015 IEEE 11th International Conference on ASIC （ASICON）. New York： IEEE， 2015： 1?4.

[17] LI Z Q， LIN L Y， CHEN Y， et al. Implementation of a pipeline division?free MMSE MIMO detector that support soft?input and soft?output [C]// 2017 23rd Asia?Pacific Conference on Communications （APCC）. New York： IEEE， 2017： 1?5.

[18] SUIKKANEN E， JUNTTI M J. ASIC implementation and performance comparison of adaptive detection for MIMO?OFDM system [C]// 49th Asilomar Conference on Signals， System and Computers. New York： IEEE， 2015： 1632?1636.

[19] ATTARI M， SáNCHEZ J R， LIU L. A floating?point 16 × 16 SVD accelerator for beyond?5G large intelligent surfaces [C]// IEEE 66th International Midwest Symposium on Circuits and Systems （MWSCAS）. New York： IEEE， 2023： 967?971.

[20] CYBENKO G. Approximation by superpositions of a sigmoidal function [J]. Mathematics of Control， Signals， and Systems， 1989， 22（2）： 303?314.

[21] GAO G L， DONG C， NIU K. Sparsely connected neural network for massive MIMO detection [C]// 2018 International Conference on Innovative Computing and Cloud Computing. [S.l.： s.n.]， 2018： 397?402.

[22] KAO S C， KRISHNA T. GAMMA： Automating the HW mapping of DNN models on accelerators via genetic algorithm [C]// Proceedings of the 39th IEEE/ACM International Conference on Computer?aided Design. New York： IEEE， 2020： 1?9.

[23] CHEN K C J， WANG T Y. NN?Noxim： High?level cycle?accurate NoC?based neural networks simulator [C]// 2018 11th International Workshop on Network on Chip Architectures （NoCArc）. New York： IEEE， 2018： 1?5.

作者簡介：范文杰（2000—），男，江蘇南京人，碩士研究生，研究方向為集成電路設(shè)計。

周牧也（1998—），男，江蘇連云港人，碩士研究生，研究方向為集成電路設(shè)計。

朱凌曉（2000—），男，江蘇南通人，碩士研究生，研究方向為集成電路設(shè)計。

李世平（1987—），男，安徽安慶人，研究員級高級工程師，研究方向為集成電路設(shè)計。

陳 "鎧（1979—），男，江蘇南京人，高級工程師，研究方向為集成電路設(shè)計。

鄧松峰（1979—），男，山東青島人，研究員，研究方向為星上數(shù)據(jù)處理。

何國強(qiáng)（1977—），男，江蘇常州人，研究員級高級工程師，研究方向為集成電路設(shè)計。

馮書誼（1984—），男，湖南岳陽人，研究員，研究方向為遙感圖像處理。

宋文清（2000—），女，山東泰安人，博士研究生，研究方向為集成電路設(shè)計。

李 "麗（1975—），女，黑龍江雙鴨山人，教授，研究方向為集成電路設(shè)計。

傅玉祥（1990—），男，江蘇南京人，博士研究生，副教授，研究方向為集成電路設(shè)計。