亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一體化信號(hào)處理與先進(jìn)處理架構(gòu)展望

        2022-12-26 13:21:30梁興東李焱磊劉云龍郭宇豪解玉鳳徐興元劉文成
        信號(hào)處理 2022年11期
        關(guān)鍵詞:算力信號(hào)處理功耗

        梁興東 李焱磊 劉云龍 郭宇豪 解玉鳳 徐興元 劉 柳 劉文成

        (1.中國(guó)科學(xué)院空天信息創(chuàng)新研究院,微波成像技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2.中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049;3.復(fù)旦大學(xué)微電子學(xué)院,上海 200433;4.北京郵電大學(xué)電子工程學(xué)院,北京 100876)

        1 引言

        隨著電子信息技術(shù)的飛速發(fā)展,為了滿足不斷涌現(xiàn)的各種應(yīng)用需求,多功能一體化電子信息系統(tǒng)成為大勢(shì)所趨[1-8]。為了提升系統(tǒng)的感知能力和反應(yīng)速度,需要在同一平臺(tái)上搭載雷達(dá)、通信終端等多種電子信息系統(tǒng)。這些系統(tǒng)在提高系統(tǒng)綜合性能的同時(shí),也會(huì)導(dǎo)致體積、重量和功耗大為增加;并且由于各系統(tǒng)間缺乏統(tǒng)一的規(guī)劃設(shè)計(jì),系統(tǒng)冗余和頻譜沖突等問題非常突出,因此,多功能一體化系統(tǒng)成為解決上述難題的不二選擇[3-4]。此外,在5G/6G 移動(dòng)通信[5-8]中,多功能一體化系統(tǒng)同樣具有廣闊的應(yīng)用前景,智慧家居[7]、自動(dòng)駕駛[8]等應(yīng)用要實(shí)現(xiàn)傳感器之間高速率通信,同時(shí)要具備環(huán)境感知能力。為了解決各種功能之間由于頻譜沖突造成的電磁空間資源緊張問題,必須有效解決多功能一體化信號(hào)處理問題[9-11]。

        一體化信號(hào)處理主要包括發(fā)射端的一體化信號(hào)設(shè)計(jì)與實(shí)時(shí)生成[12-18]和接收端的信號(hào)分離與協(xié)同處理[19-21]。發(fā)射端一體化信號(hào)設(shè)計(jì)與生成具體是指:通過對(duì)信號(hào)幅度、頻率和相位等參數(shù)的配置,形成同時(shí)承載雷達(dá)探測(cè)和無線通信等功能的一體化信號(hào),并在實(shí)際應(yīng)用中利用高性能計(jì)算實(shí)時(shí)生成一體化信號(hào)波形。為了同時(shí)滿足多種功能的需求,需要聯(lián)合時(shí)間、頻率、空間等維度資源以提供更多的自由度。接收端的信號(hào)分離與處理具體是指:根據(jù)一體化信號(hào)中各功能的承載方式,在接收端完成不同功能信號(hào)的分離,利用雷達(dá)探測(cè)、通信解調(diào)等相關(guān)處理方法實(shí)現(xiàn)相應(yīng)的功能。隨著一體化信號(hào)維度數(shù)量的增加,一體化信號(hào)處理對(duì)系統(tǒng)的算力需求呈幾何級(jí)數(shù)增長(zhǎng)。同時(shí),搭載于輕小型平臺(tái)的一體化信號(hào)處理系統(tǒng)具有廣闊的應(yīng)用前景[22],在此類應(yīng)用中系統(tǒng)的尺寸、重量和功耗(size,weight and power,SWaP)嚴(yán)格受限。因此,一體化信號(hào)處理要求系統(tǒng)架構(gòu)具有高算力、低功耗(即高能效)的特征。

        在采用馮·諾依曼架構(gòu)的系統(tǒng)中,由于總線的傳輸帶寬受限,因此系統(tǒng)難以滿足一體化信號(hào)處理的算力需求。此外,系統(tǒng)中一次單精度的基本運(yùn)算只需要幾皮焦耳的能量,而從存儲(chǔ)器中進(jìn)行數(shù)據(jù)檢索和搬移則需要消耗上千皮焦耳的能量,遠(yuǎn)超于計(jì)算所需的能量。因此,馮·諾依曼架構(gòu)的系統(tǒng)能效極低,無法滿足一體化系統(tǒng)高能效的需求。針對(duì)上述需求目前可供選擇的方案包括:增加處理單元(GPU)[23]、對(duì)指令進(jìn)行流水化設(shè)計(jì)(DSP)[24]、采用數(shù)據(jù)流驅(qū)動(dòng)(FPGA)[25]和采用面向特定領(lǐng)域的處理架構(gòu)(DSA)[26]等。GPU 增加處理單元提高了并行處理的規(guī)模,雖然能夠大幅增加算力,但是其每個(gè)處理單元仍采用串行處理方式,導(dǎo)致系統(tǒng)功耗過大。DSP 采用哈佛架構(gòu),在馮·諾依曼架構(gòu)的基礎(chǔ)上,通過增加總線數(shù)量的方式提高了系統(tǒng)傳輸帶寬,故而更適合計(jì)算密集型的應(yīng)用場(chǎng)合,但其串行處理的特點(diǎn)導(dǎo)致提升算力只能依靠主頻的提高和核心數(shù)量的增加,從而限制了算力和能效的進(jìn)一步提高。FPGA 采用島式架構(gòu),具備硬件可編程的能力,但這種架構(gòu)限制了其工作頻率的提升,同時(shí)冗余的布線資源造成了額外的功耗,導(dǎo)致無法大幅提升處理能效。近年來DSA 技術(shù)發(fā)展迅速,面向卷積神經(jīng)網(wǎng)絡(luò)這一特定域的處理需求,谷歌研發(fā)出張量處理器(TPU);類似地,針對(duì)一體化信號(hào)處理的高算力、高能效處理需求,應(yīng)研發(fā)相應(yīng)的特定域處理架構(gòu)。

        2 一體化信號(hào)處理及其算力需求分析

        如前所述,一體化系統(tǒng)信號(hào)處理主要包括發(fā)射端的一體化信號(hào)設(shè)計(jì)與實(shí)時(shí)生成和接收端的一體化信號(hào)分離與協(xié)同處理(如圖1所示)?;陔姶挪ǔ休d物理信息的本質(zhì),雷達(dá)探測(cè)、無線通信等多功能的同時(shí)實(shí)現(xiàn)離不開發(fā)射端的一體化信號(hào)設(shè)計(jì)與生成,通過對(duì)信號(hào)的幅度、頻率、相位、空間導(dǎo)向矢量等可調(diào)參數(shù)進(jìn)行編碼設(shè)計(jì),使得一體化信號(hào)具備高效的頻譜資源利用率和更加靈活的功能配置能力。根據(jù)信號(hào)資源的利用方式,一體化波形包括共用波形和復(fù)用波形兩類,其中共用波形分為基于雷達(dá)波形的共用波形[18,27]和基于通信波形的共用波形[17,28-30],復(fù)用波形分為時(shí)頻復(fù)用波形[12-14,31-32]和時(shí)空頻多維聯(lián)合波形[15-16,33-34]等。

        圖1 基于一體化信號(hào)的多功能系統(tǒng)模型Fig.1 Multifunctional system model based on integrated signal

        基于雷達(dá)波形的共用波形[18,27]通過對(duì)常用雷達(dá)波形(如線性調(diào)頻信號(hào))的相位、幅度或脈沖重復(fù)間隔進(jìn)行編碼以攜帶通信信息,在接收端通過脈沖壓縮等雷達(dá)信號(hào)處理方法實(shí)現(xiàn)雷達(dá)探測(cè)等功能,并根據(jù)編碼方式對(duì)接收信號(hào)進(jìn)行解碼獲取通信信息,算力需求與單功能處理方法相當(dāng)?;谕ㄐ挪ㄐ蔚墓灿貌ㄐ危?7,28-30]可直接利用通信波形(如正交頻分復(fù)用(Orthogonal Frequency Division Multiplexing,OFDM)信號(hào))來完成通信和探測(cè)功能,其中探測(cè)功能主要通過基于匹配濾波或失配濾波[30]的脈沖壓縮來實(shí)現(xiàn),整個(gè)過程主要涉及線性卷積(向量乘法)、向量加法和傅里葉變換等運(yùn)算,算力需求與單功能處理方法相當(dāng)。

        時(shí)頻復(fù)用波形[12-14,31-32]將時(shí)間、頻率等維度資源分割成相互正交的子集,分別加載傳統(tǒng)雷達(dá)波形和通信波形。以O(shè)FDM 梳狀譜一體化波形實(shí)現(xiàn)探測(cè)、通信功能[32]為例,在發(fā)射信號(hào)生成時(shí),可直接利用逆傅里葉變換完成一體化信號(hào)快速生成,在接收端進(jìn)行接收信號(hào)處理時(shí),可直接利用傅里葉變換提取所有子載波的信息,子載波分離難度低,算力需求與單功能處理方法相當(dāng)。時(shí)空頻多維聯(lián)合波形[15-16,33-34]是聯(lián)合時(shí)間、頻率、空間等維度資源的一體化信號(hào)設(shè)計(jì)方法,具有在任意空間、任意時(shí)間、任意頻段生成任意信號(hào)的潛力。該方案不再限制一體化波形所屬類別,充分開發(fā)波形設(shè)計(jì)可利用的自由度,在空間相參合成各功能的指定波形;接收端聯(lián)合多個(gè)節(jié)點(diǎn)進(jìn)行協(xié)同處理,保留數(shù)據(jù)空間結(jié)構(gòu)特性,獲得相參處理增益,整個(gè)過程中涉及大量矩陣乘法、矩陣分解、矩陣求逆(求偽逆)等算子,算力需求高達(dá)TFLOPS甚至PFLOPS量級(jí)。

        基于雷達(dá)波形的共用波形、基于通信波形的共用波形和時(shí)頻復(fù)用波形在信號(hào)生成與處理中,面臨的計(jì)算壓力與單功能處理壓力相當(dāng),以對(duì)長(zhǎng)度為N的通信共用波形進(jìn)行傅里葉變換運(yùn)算為例,其計(jì)算復(fù)雜度為O(N?log2N),利用現(xiàn)有處理架構(gòu)即可快速完成計(jì)算;而發(fā)射端的時(shí)空頻多維聯(lián)合波形設(shè)計(jì)和接收端的多維信號(hào)處理因信號(hào)維度的增加,給一體化系統(tǒng)帶來了巨大的計(jì)算壓力。因此,本文將對(duì)時(shí)空頻多維聯(lián)合波形的信號(hào)處理方法、算力需求進(jìn)行深入分析,在此基礎(chǔ)上提出先進(jìn)架構(gòu)實(shí)現(xiàn)方案。

        2.1 發(fā)射波形設(shè)計(jì)及其算力需求分析

        在時(shí)頻復(fù)用的基礎(chǔ)上,為了充分挖掘空域資源,P.M.McCormick 等人提出了一種基于數(shù)字陣列天線的遠(yuǎn)場(chǎng)輻射發(fā)射設(shè)計(jì)(Far-Field Radiated Emis?sion Design,F(xiàn)FRED)信號(hào)模型[33],通過多通道聯(lián)合波形設(shè)計(jì),將雷達(dá)信號(hào)與通信信號(hào)同時(shí)輻射至指定方向,其實(shí)現(xiàn)方式如圖2所示。

        圖2 FFRED模型場(chǎng)景示意圖[33]Fig.2 Schematic diagram of FFRED model scenario[33]

        它以相參合成雷達(dá)波形和通信波形為目標(biāo)對(duì)一體化波形進(jìn)行約束,綜合考慮功率放大器的工作效率,建立一體化信號(hào)優(yōu)化模型,

        其中,X∈CM×N為一體化信號(hào)矩陣,C∈CM×K為陣列流行矩陣,G∈CK×N為期望功能波形矩陣,M、N、K分別為陣元個(gè)數(shù)、采樣點(diǎn)數(shù)與多功能目標(biāo)個(gè)數(shù)。

        在對(duì)一體化信號(hào)優(yōu)化模型求解時(shí),優(yōu)化模型為非凸模型,故將其拆分為兩個(gè)可計(jì)算解析解的子凸優(yōu)化模型迭代優(yōu)化,直至滿足收斂條件。FFRED 模型處理流程如表1所示。

        表1 FFRED模型處理流程Tab.1 The processing chart of FFRED model

        在步驟2 中,主要涉及浮點(diǎn)級(jí)精度復(fù)數(shù)的矩陣乘法和矩陣求逆兩種運(yùn)算,矩陣乘法的操作數(shù)為16MK2+8MNK,矩陣求逆的操作數(shù)為16K3;在步驟5中,主要涉及矩陣乘法、矩陣求逆和矩陣加法三種運(yùn)算,其中矩陣乘法的操作數(shù)為8M2N+8M2K+16MK2,矩陣求逆的操作數(shù)為16K3,矩陣加法的操作數(shù)為2M2+2MN;在步驟6 中,主要涉及恒模運(yùn)算和標(biāo)量乘法兩種,它們的操作數(shù)為16MN;同時(shí),步驟4至步驟7 共需要迭代執(zhí)行ζ次,對(duì)應(yīng)的計(jì)算復(fù)雜度也將增大ζ倍。根據(jù)實(shí)際應(yīng)用需求,取各參數(shù)的典型值如下:M=256、N=1 × 106、K=2、ζ=20,在2 秒的相干處理時(shí)間內(nèi),整個(gè)優(yōu)化過程的算力需求約為5.33 TFLOPS,其中矩陣加法和矩陣求逆等運(yùn)算的計(jì)算壓力較低,利用現(xiàn)有架構(gòu)即可滿足在線實(shí)時(shí)生成約束,而矩陣乘法的算力需求巨大,高達(dá)5.28 TFLOPS,約占據(jù)整個(gè)算力需求的99%。

        2.2 接收信號(hào)處理及其算力需求分析

        在接收端通過對(duì)分布式多節(jié)點(diǎn)接收信號(hào)或多通道接收信號(hào)進(jìn)行相參處理,充分挖掘空域維度資源,實(shí)現(xiàn)雷達(dá)探測(cè)和無線通信等能力的提升。以多通道雷達(dá)三維成像為例,其主要任務(wù)為對(duì)距離-方位-俯仰三維信號(hào)進(jìn)行反問題求解處理。面對(duì)三維觀測(cè)數(shù)據(jù),若采用傳統(tǒng)方法,需將三維數(shù)據(jù)向量化處理,即使利用壓縮感知算法降低采樣率,計(jì)算過程中矩陣運(yùn)算和向量運(yùn)算仍需要耗費(fèi)大量的計(jì)算和存儲(chǔ)資源。根據(jù)回波數(shù)據(jù)的高維結(jié)構(gòu)特性,邱偉將其定義為三階張量,直接將壓縮感知理論應(yīng)用于張量數(shù)據(jù),充分利用其內(nèi)在的結(jié)構(gòu)特征進(jìn)行處理,有利于降低字典矩陣的內(nèi)存消耗,進(jìn)一步提高高維數(shù)據(jù)處理效率[35-36]。下面將對(duì)該算法的流程進(jìn)行簡(jiǎn)要介紹。

        在壓縮感知框架下,接收數(shù)據(jù)與目標(biāo)三維圖像可以表示為

        根據(jù)壓縮感知理論,X的重構(gòu)模型為

        利用SL0 算法對(duì)該模型進(jìn)行重構(gòu),算法流程如表2所示。

        表2 張量-SL0法處理流程Tab.2 The processing chart of tensor-SL0 method

        在步驟1中,主要涉及張量模式積、矩陣乘法和矩陣求逆三種運(yùn)算,其中張量模式積的操作數(shù)為8 ×(NrMcMvMr+NrNcMvMc+NrNcNvMv),矩陣乘法的操作數(shù)為,矩陣求逆的操作數(shù)為;在步驟2~步驟4 中,主要涉及標(biāo)量乘法、張量加法運(yùn)算,操作數(shù)為2NrNcNv;在步驟5 中,主要涉及張量模式積和張量加法兩種運(yùn)算,其中張量模式積的操作數(shù)為8 ×(NrMrMcMv+NrNcMcMv+NrNvNvMv+MrNrNcNv+MrMcNcNv+MrMcMvNv),張量加法的操作數(shù)為2 ×(MrMcMv+NrNcNv)。假設(shè)Nr=Nc=Nv=800,Mr=Mc=Mv=500,在整個(gè)運(yùn)算中,張量模式積運(yùn)算幾乎占據(jù)了全部的算力開銷,在2 秒的相干處理時(shí)間內(nèi)算力需求為6.2 TFLOPS,而張量模式積的本質(zhì)仍為矩陣乘法。因此,多維一體化信號(hào)處理導(dǎo)致一體化系統(tǒng)面臨較大的計(jì)算負(fù)擔(dān),需要設(shè)計(jì)適用于矩陣乘法的處理架構(gòu)。

        3 面向一體化信號(hào)處理的架構(gòu)分析

        一體化信號(hào)處理中多維信號(hào)涉及大量的矩陣乘法運(yùn)算,對(duì)處理架構(gòu)提出高算力需求,同時(shí)端平臺(tái)自身存在SWaP約束,因此一體化信號(hào)處理系統(tǒng)的架構(gòu)需要具備高算力、高能效的能力?,F(xiàn)有主流處理器主要包括以下三個(gè)方面:1)通用處理器,如采用馮·諾依曼架構(gòu)的CPU和GPU、采用哈佛架構(gòu)的DSP等;2)采用數(shù)據(jù)流驅(qū)動(dòng)的硬件可編程處理器,如FPGA;3)面向特定領(lǐng)域的專用加速器,如采用脈動(dòng)陣列架構(gòu)的TPU。上述三類主流處理器雖然能夠滿足一體化信號(hào)處理提出的TFLOPS量級(jí)高算力需求,但隨之造成功耗急劇增加,無法滿足端平臺(tái)的SWaP 約束,使得基于這幾類處理器的一體化信號(hào)系統(tǒng)面臨能效低的問題。而面向未來的先進(jìn)處理架構(gòu),如以模擬信號(hào)為信息載體進(jìn)行計(jì)算的存內(nèi)計(jì)算、光子計(jì)算,具備兼顧高算力和高能效的潛力。因此,我們分別設(shè)計(jì)了適用于一體化信號(hào)處理的存內(nèi)計(jì)算和光子計(jì)算先進(jìn)架構(gòu),并與現(xiàn)有架構(gòu)實(shí)現(xiàn)矩陣乘法運(yùn)算的能效進(jìn)行了對(duì)比,展示了其在一體化信號(hào)處理中的價(jià)值。

        3.1 通用處理器

        3.1.1 CPU

        CPU 采用的是馮·諾依曼架構(gòu),如圖3 所示,馮·諾依曼架構(gòu)由運(yùn)算器、控制器、存儲(chǔ)器、輸入設(shè)備以及輸出設(shè)備組成。在程序的執(zhí)行過程中,計(jì)算機(jī)先從內(nèi)存中取出第1 條指令,通過控制器的譯碼器接收指令的要求,再?gòu)拇鎯?chǔ)器中取出數(shù)據(jù),將數(shù)據(jù)給到運(yùn)算器中,然后進(jìn)行指定的運(yùn)算和邏輯操作等,隨后按照指令中的地址把結(jié)果送到內(nèi)存中,接下來取出第2 條指令執(zhí)行,直到遇到停止指令。因此,在馮·諾依曼架構(gòu)中程序被編碼為數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器中,需要運(yùn)行時(shí)只需從存儲(chǔ)器中依次取出、執(zhí)行即可,這極大地降低了編程的難度,使得馮·諾依曼架構(gòu)具有較高地靈活性。然而這種從存儲(chǔ)器中讀取指令和數(shù)據(jù)執(zhí)行的設(shè)計(jì)也使得馮·諾依曼架構(gòu)天然地受到信息傳輸帶寬的影響。以IBM公司的Power9為例,當(dāng)其進(jìn)行各種DeepSpeech基準(zhǔn)測(cè)試的通用矩陣運(yùn)算時(shí),可以在130 W 功耗下實(shí)現(xiàn)486 GFLOPS 的最高算力,對(duì)應(yīng)的性能功耗比為1.62 GFLOPS/W[37]。當(dāng)利用CPU 進(jìn)行多維信號(hào)處理時(shí),大量的數(shù)據(jù)搬移將極大地增加馮·諾依曼架構(gòu)系統(tǒng)的延遲和能量消耗,限制系統(tǒng)的算力和能效。

        圖3 馮?諾依曼計(jì)算架構(gòu)[38]Fig.3 Von Neumann computing architecture[38]

        3.1.2 GPU

        GPU 是當(dāng)前主流加速器之一,從最初用作圖形處理器到后來用于通用計(jì)算加速,在數(shù)據(jù)中心加速等應(yīng)用的推動(dòng)下,GPU的性能有了顯著的提高[23],架構(gòu)如圖4 所示。與CPU 相比,GPU 去掉了復(fù)雜的控制電路和大量的片上高速緩存,能夠集成大量的計(jì)算核心,這種通過眾核方式增加并行度的計(jì)算架構(gòu),使得GPU 更適合大規(guī)模同質(zhì)化數(shù)據(jù)的并行處理。以Nvidia公司的V100為例,在進(jìn)行各種DeepSpeech基準(zhǔn)測(cè)試的通用矩陣運(yùn)算時(shí),可以在300 W 功耗下實(shí)現(xiàn)7.8 TFLOPS的最高算力,對(duì)應(yīng)的性能功耗比為26 GFLOPS/W。雖然GPU 可以通過集成更多的核心和更大的內(nèi)存帶寬提高了算力,但由于每個(gè)計(jì)算核心仍采用串行處理方式,計(jì)算核心數(shù)量的增加會(huì)導(dǎo)致功耗增大,其能效優(yōu)勢(shì)并不明顯,不適合一體化信號(hào)處理這種需要高能效的應(yīng)用場(chǎng)景。

        圖4 GPU架構(gòu)示意圖[23]Fig.4 GPU architecture diagram[23]

        3.1.3 DSP

        DSP 是數(shù)字信號(hào)處理常用的處理器之一[24],采用如圖5所示的哈佛架構(gòu)。與CPU指令和數(shù)據(jù)共用同一存儲(chǔ)器不同,該架構(gòu)將指令和數(shù)據(jù)分開存儲(chǔ),并對(duì)指令進(jìn)行了流水線優(yōu)化設(shè)計(jì),同時(shí)集成了數(shù)字信號(hào)處理常用的乘法器硬件電路,使得DSP 完成計(jì)算的指令周期大大縮短,提高了對(duì)數(shù)字信號(hào)處理的算力,適用于計(jì)算密集型的應(yīng)用場(chǎng)景。以TI公司的C66XX 系列DSP 組成板卡為例,由6 片DSP 組成的模塊進(jìn)行矩陣運(yùn)算時(shí),能夠在267.1 W 功耗下實(shí)現(xiàn)938.21 GFLOPS 的算力,對(duì)應(yīng)的性能功耗比為3.51 GFLOPS/W[39]。雖然DSP 能夠?yàn)閿?shù)字信號(hào)處理提供高計(jì)算精度,但是其串行處理的特點(diǎn)導(dǎo)致算力的提升只能依靠主頻的提高和核心數(shù)量的增加,限制了DSP 算力和能效的進(jìn)一步提高,不能滿足一體化信號(hào)處理需求。

        圖5 哈佛架構(gòu)示意圖[40]Fig.5 Harvard architecture diagram[40]

        3.2 FPGA

        與馮·諾依曼架構(gòu)的控制流驅(qū)動(dòng)不同,目前主流的FPGA 芯片大多采用島式架構(gòu)來實(shí)現(xiàn)數(shù)據(jù)流驅(qū)動(dòng)的方式,如圖6所示[25]。邏輯塊(Logic Block,LB)中成孤島式分布,各個(gè)LB 之間通過可編程布線資源連接,芯片與外界通過輸入/輸出塊(Input/Output Block,I/O Block)進(jìn)行數(shù)據(jù)的傳輸。在FPGA 中,待處理的數(shù)據(jù)在時(shí)鐘信號(hào)的驅(qū)動(dòng)下可以直接流入LB中的運(yùn)算單元進(jìn)行計(jì)算,不再需要通過控制器的指令去進(jìn)行數(shù)據(jù)的讀寫,運(yùn)算單元的利用率相較于傳統(tǒng)的馮·諾依曼得到了提高,而且眾多的LB 可以通過編程實(shí)現(xiàn)不同的運(yùn)算功能也使得FPGA 可以同時(shí)進(jìn)行不同的運(yùn)算,具有較高的并行度。以Xilinx 公司的Ultrascale+系列的VU3P 為例,在進(jìn)行各種DeepSpeech 基準(zhǔn)測(cè)試的通用矩陣運(yùn)算時(shí),可以在23 W 功耗下實(shí)現(xiàn)194 GFLOPS 的最高算力,對(duì)應(yīng)的性能功耗比為8.43 GFLOPS/W。然而FPGA 的島式結(jié)構(gòu)讓其具備硬件編程能力同時(shí),這種靈活編程的能力使得FPGA 的布線資源存在復(fù)雜、冗余等問題,增加了額外的功耗與延遲,從而限制了FPGA 的工作頻率與能效的提升。受限于此,F(xiàn)PGA 并不能滿足一體化信號(hào)處理的需求。

        圖6 通用FPGA架構(gòu)示意圖[25]Fig.6 A generic architecture of FPGA[25]

        3.3 DSA

        DSA 是面向不同特定域需求研發(fā)的專用處理架構(gòu),例如TPU 是谷歌研發(fā)的一款面向數(shù)據(jù)中心卷積神經(jīng)網(wǎng)絡(luò)(CNN)計(jì)算特定域的專用加速器[26],其架構(gòu)框圖如圖7所示。TPU 架構(gòu)的核心是采用脈動(dòng)架構(gòu)實(shí)現(xiàn)的矩陣乘法單元,高速緩存為矩陣乘法單元提供高帶寬的數(shù)據(jù)流,使得TPU 可以持續(xù)不斷地進(jìn)行矩陣乘法運(yùn)算,脈動(dòng)架構(gòu)提高了矩陣乘法運(yùn)算的訪存效率,數(shù)據(jù)復(fù)用降低了功耗,使得TPU 具備高算力和低功耗的能力。以TPU-V2 為例,可以在280 W 的功耗下實(shí)現(xiàn)將近20 TFLOPS 的算力,性能功耗比可以達(dá)到71.43 GFLOPS/W[41]。TPU 滿足了CNN計(jì)算中較低精度(通常是Int8)下大量矩陣乘法等矩陣運(yùn)算的加速需求,算力和能效相比GPU 大幅提升,但由于TPU 是面向CNN 加速應(yīng)用場(chǎng)景的,其計(jì)算精度無法滿足一體化信號(hào)處理需求。

        圖7 TPU架構(gòu)示意圖[26]Fig.7 TPU architecture diagram[26]

        3.4 新型先進(jìn)處理架構(gòu)

        存內(nèi)計(jì)算、光子計(jì)算等以模擬信號(hào)作為信息載體進(jìn)行計(jì)算的架構(gòu)有計(jì)算速度快、能耗低等優(yōu)勢(shì),具有很高的應(yīng)用潛力。然而以模擬信號(hào)進(jìn)行計(jì)算的架構(gòu)受限與硬件技術(shù),存在計(jì)算精度低(目前的精度大多是8比特整型)的問題,還無法滿足一體化信號(hào)處理32位浮點(diǎn)的需求。但是相信,未來隨著硬件技術(shù)的提升,模擬計(jì)算的精度會(huì)逐漸提升,從而滿足一體化信號(hào)處理的需求。

        3.4.1 存內(nèi)計(jì)算架構(gòu)

        早在20 世紀(jì)90 年代,就已經(jīng)有了存內(nèi)計(jì)算(Compute in Memory,CIM)的架構(gòu)概念,受到技術(shù)等因素的限制,當(dāng)時(shí)存內(nèi)計(jì)算架構(gòu)并沒有得到廣泛的應(yīng)用。后來,隨著CMOS和存儲(chǔ)技術(shù)的發(fā)展,以及人工智能的興起,存內(nèi)計(jì)算架構(gòu)再次受到了人們的關(guān)注,其中比較知名的存內(nèi)計(jì)算架構(gòu)有FlexRAM[42]、

        DIVA[43]、Sandwich-RAM[44]、memristor-based CNN[45]等。存內(nèi)計(jì)算架構(gòu)的原理如圖8 所示,它將計(jì)算單元放入存儲(chǔ)單元中,直接使用內(nèi)存單元(如SRAM、憶阻器等)的電阻、電流與電壓關(guān)系進(jìn)行計(jì)算。相較于傳統(tǒng)的馮·諾依曼架構(gòu),由于存內(nèi)計(jì)算架構(gòu)中的計(jì)算單元與存儲(chǔ)單元的結(jié)合更為密切,因此存內(nèi)計(jì)算架構(gòu)可以很好地減少數(shù)據(jù)搬移,從而降低能耗,提升系統(tǒng)性能。

        圖8 存內(nèi)計(jì)算架構(gòu)[46]Fig.8 In-Memory computing architecture[46]

        目前,存內(nèi)計(jì)算架構(gòu)主要還是針對(duì)人工智能領(lǐng)域中的算法加速提出的,它們的精度大多是INT8 等[45,47-49],如普林斯頓大學(xué)研究團(tuán)隊(duì)[47]提出了基于存內(nèi)計(jì)算架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)加速器,解決了深度神經(jīng)網(wǎng)絡(luò)中大規(guī)模矩陣向量乘法的數(shù)據(jù)搬移問題,該架構(gòu)在1 bit 精度下的能效達(dá)到了866 TOPS/W;清華大學(xué)研究團(tuán)隊(duì)[45]基于憶阻器實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)并用來進(jìn)行圖像識(shí)別,計(jì)算能效達(dá)到了11.014 TOPS/W;德克薩斯大學(xué)研究團(tuán)隊(duì)[48]提出的8 bit 卷積存內(nèi)計(jì)算架構(gòu),每個(gè)時(shí)鐘周期最多可以實(shí)現(xiàn)175 次乘累加運(yùn)算,能效達(dá)到14.4 TOPS/W。雖然現(xiàn)有的存內(nèi)計(jì)算架構(gòu)還無法滿足一體化信號(hào)處理的需求,但其表現(xiàn)出的高能效特點(diǎn)使其在一體化信號(hào)處理研究中具有巨大的潛力。

        3.4.2 光子計(jì)算架構(gòu)

        光子計(jì)算架構(gòu)與存內(nèi)計(jì)算架構(gòu)類似,即數(shù)據(jù)在硬件系統(tǒng)中的實(shí)時(shí)位置與進(jìn)行運(yùn)算的位置相同,因而規(guī)避了馮·諾依曼瓶頸。此外,寬達(dá)數(shù)十太赫茲的光譜也為高速運(yùn)算提供了充足的帶寬,通過密集波分復(fù)用、空分復(fù)用、時(shí)分復(fù)用等光電信息技術(shù)手段,光子計(jì)算架構(gòu)的并行度也可大幅提升,進(jìn)而可實(shí)現(xiàn)萬億次運(yùn)算每秒(TOPS)量級(jí)的超高單核運(yùn)算速度。此外,模擬無源的光子架構(gòu)也具有實(shí)現(xiàn)更高能效比的潛力,能量效率可達(dá)到1 pJ/運(yùn)算。因而,光子計(jì)算架構(gòu)在模擬信號(hào)智能處理方面有廣闊的應(yīng)用空間。

        目前國(guó)內(nèi)外研究機(jī)構(gòu)已對(duì)光子計(jì)算架構(gòu)展開了深入研究,加州大學(xué)研究團(tuán)隊(duì)基于空間透鏡光學(xué)實(shí)現(xiàn)了深度衍射神經(jīng)網(wǎng)絡(luò)[50],牛津大學(xué)研究團(tuán)隊(duì)基于相變材料實(shí)現(xiàn)了并行矩陣運(yùn)算[51],麻省理工學(xué)院研究團(tuán)隊(duì)基于集成無源光學(xué)干涉器陣列實(shí)現(xiàn)了矩陣運(yùn)算[52],法國(guó)FEMTO-ST 研究團(tuán)隊(duì)利用時(shí)分復(fù)用構(gòu)建了光子水庫(kù)運(yùn)算結(jié)構(gòu)[53],澳大利亞斯威本科技大學(xué)團(tuán)隊(duì)提出并實(shí)現(xiàn)了基于時(shí)間、波長(zhǎng)交織的光子卷積加速器[54]。其中澳大利亞斯威本科技大學(xué)團(tuán)隊(duì)提出的光子卷積加速器算力可以達(dá)到11.3 TOPS,相較于高速的光學(xué)神經(jīng)網(wǎng)絡(luò)(Optical Neural Network,ONN),算力提升了500 倍,原理如圖9 所示。輸入向量X被編碼在電信號(hào)的強(qiáng)度上,卷積核由一個(gè)長(zhǎng)度為R的權(quán)向量W表示,該向量被編碼在光梳的功率上。將帶有向量X的電信號(hào)通過電光調(diào)制器(EOM)調(diào)制到光頻梳上,然后通過色散延遲傳播,相鄰波長(zhǎng)間延遲一個(gè)元素的持續(xù)時(shí)間,最后通過光電二極管對(duì)信號(hào)進(jìn)行求和,即可得到X和W之間卷積的結(jié)果Y。

        圖9 卷積的工作原理[54]Fig.9 The working principle of convolution[54]

        3.5 面向一體化信號(hào)處理架構(gòu)的算力和能效比較

        在一體化信號(hào)處理中經(jīng)常需要單精度浮點(diǎn)級(jí)的運(yùn)算,且常常涉及到復(fù)數(shù)運(yùn)算,而現(xiàn)有的先進(jìn)架構(gòu)無法滿足一體化信號(hào)處理技術(shù)的需求,因此我們?cè)O(shè)計(jì)了支持浮點(diǎn)級(jí)復(fù)數(shù)矩陣乘法運(yùn)算的存內(nèi)計(jì)算架構(gòu)和支持矩陣乘法運(yùn)算的光子計(jì)算架構(gòu),并與表3 所示的現(xiàn)有主流處理器的典型器件進(jìn)行能效對(duì)比。

        表3 主流處理器的典型器件Tab.3 Typical components of mainstream processors

        基于存內(nèi)計(jì)算實(shí)現(xiàn)復(fù)數(shù)矩陣乘法R=X×Y的架構(gòu)如圖10所示,使用一個(gè)脈動(dòng)陣列來完成復(fù)數(shù)矩陣的乘法運(yùn)算時(shí),脈動(dòng)陣列的每一計(jì)算單元需要完成復(fù)數(shù)的乘加操作,因此可以將復(fù)數(shù)的乘加操作分解為2個(gè)實(shí)數(shù)的乘加操作,分兩個(gè)周期完成,其中實(shí)數(shù)的乘加主要為浮點(diǎn)數(shù)的乘加。浮點(diǎn)數(shù)的乘加可分解為指數(shù)部分和尾數(shù)部分,尾數(shù)部分是乘法計(jì)算,由存內(nèi)計(jì)算乘加單元完成,指數(shù)部分由CMOS電路完成,最后兩部分運(yùn)算數(shù)據(jù)經(jīng)過整合后為浮點(diǎn)乘加運(yùn)算結(jié)果。

        圖10 基于存內(nèi)計(jì)算架構(gòu)的矩陣乘法Fig.10 Matrix multiplication based on In-Memory computing architecture

        基于上述架構(gòu),我們初步設(shè)計(jì)了8×8復(fù)矩陣乘法運(yùn)算,并分析BFP16精度和FP32精度下的存內(nèi)計(jì)算性能,其結(jié)果如表4 所示,相較于TPU 和FPGA 分別BFP16 精度下提升了6.85 與7.59 倍。存內(nèi)計(jì)算架構(gòu)的算力可隨著矩陣乘法規(guī)模的擴(kuò)大進(jìn)一步增加,例如對(duì)于64×64復(fù)矩陣乘法運(yùn)算的存內(nèi)計(jì)算加速器,其算力相較于8×8 的存內(nèi)計(jì)算加速器在算力上提升了64 倍,可以在BFP16 精度下達(dá)到745 GFLOPS,通過9片加速器并行處理即可滿足一體化信號(hào)處理中TFOPLS 量級(jí)的高算力需求,同時(shí)芯片規(guī)模的增加對(duì)存內(nèi)計(jì)算能效的影響很小,所以存內(nèi)計(jì)算在高算力的同時(shí)兼顧了高能效的需求。因此我們認(rèn)為存內(nèi)計(jì)算架構(gòu)在一體化信號(hào)處理中具有巨大的應(yīng)用潛力,未來隨著計(jì)算精度的進(jìn)一步提升,存內(nèi)計(jì)算架構(gòu)會(huì)得到廣泛地應(yīng)用。

        表4 存內(nèi)計(jì)算性能分析Tab.4 In-Memory computing performance analysis

        光子計(jì)算架構(gòu)實(shí)現(xiàn)矩陣乘法的工作原理如圖11 所示,其中列向量A被編碼在光梳的功率上,將矩陣B中的元素進(jìn)行排列加載至電信號(hào)上。將該電信號(hào)通過EOM調(diào)制到光頻梳上,然后通過色散延遲傳播,相鄰波長(zhǎng)間延遲一個(gè)元素的持續(xù)時(shí)間,最后通過光電二極管進(jìn)行求和。對(duì)光電二極管求和的結(jié)果按照相應(yīng)的間隔進(jìn)行提取,再進(jìn)行排列,就可以得到矩陣B與列向量A的計(jì)算結(jié)果列向量C。因此,通過重復(fù)將不同的向量編碼至光梳的功率上,然后重復(fù)上述操作,就可以得到兩個(gè)矩陣相乘的結(jié)果,從而實(shí)現(xiàn)矩陣乘法的功能。

        圖11 基于光子計(jì)算架構(gòu)的矩陣乘法Fig.11 Matrix multiplication based on photonic computing architecture

        我們采用吞吐量對(duì)光子計(jì)算架構(gòu)的算力進(jìn)行評(píng)估,即計(jì)算輸出數(shù)據(jù)速率與每個(gè)輸出碼元所需運(yùn)算次數(shù)的乘積。光子卷積加速器的輸出數(shù)據(jù)速率為62.9 GBaud/s,每個(gè)卷積核可同時(shí)支持9根光梳進(jìn)行運(yùn)算,所以每個(gè)輸出碼元由9次加法與9次乘法運(yùn)算得到,該加速器共有十個(gè)并行卷積核,因此最終算力為62.9G ×(9+9) × 10=11.322 TOPS。如果用該加速器進(jìn)行矩陣乘法操作,則有效的輸出碼元為原來的1/9,最終算力仍有1.258 TOPS。未來通過進(jìn)一步擴(kuò)展頻域、空間等維度的并行度,可以大幅度提升光子加速器的算力。例如,通過使用S、L、C 三個(gè)光通信波段,可利用的頻譜寬度可以達(dá)到20 THz,從而支持405個(gè)50 GHz間隔的并行波長(zhǎng)通道。結(jié)合偏振復(fù)用與10 路空分復(fù)用,整體算力可達(dá)62.9G ×405 × 2 × 2 × 10=1.019 POPS。由于光計(jì)算架構(gòu)為存算一體的模擬架構(gòu),無需數(shù)據(jù)往復(fù)讀取,因而其功耗主要來源于光源。采用自泵浦克爾光頻梳產(chǎn)生技術(shù),光頻梳所需能耗低至100 mW,總能耗預(yù)計(jì)小于1 W,因而未來總體能效預(yù)計(jì)可達(dá)1 W/1POPS=1 fJ/OPS。由表5 可知。光子計(jì)算架構(gòu)在算力和能效上均遠(yuǎn)高于其他架構(gòu),因此在高算力一體化信號(hào)處理的應(yīng)用中具有很高的應(yīng)用潛力。然而受限于硬件技術(shù),目前光子計(jì)算架構(gòu)的精度只有INT8,還無法滿足一體化信號(hào)處理單精度浮點(diǎn)的需求。但是我們相信,未來隨著硬件技術(shù)以及算法的改進(jìn),光子計(jì)算架構(gòu)終會(huì)廣泛地應(yīng)用于一體化信號(hào)處理中。

        表5 架構(gòu)性能功耗比分析Tab.5 Analysis of architecture performance power consumption ratio

        4 結(jié)論

        多功能一體化系統(tǒng)利用一體化信號(hào),在同一框架下通過硬件復(fù)用和波形共享的方式,同時(shí)滿足雷達(dá)探測(cè)和通信信息傳輸?shù)裙δ苄枨?,可有效緩解頻譜沖突,提高系統(tǒng)的集約性。本文通過分析一體化信號(hào)處理的研究現(xiàn)狀和發(fā)展規(guī)律,指出時(shí)空頻聯(lián)合多維波形設(shè)計(jì)是一體化信號(hào)研究的發(fā)展方向之一。從發(fā)射端的一體化信號(hào)設(shè)計(jì)與生成、接收端的信號(hào)分離與處理兩個(gè)方面,對(duì)時(shí)空頻聯(lián)合多維波形一體化信號(hào)處理的計(jì)算法復(fù)雜度進(jìn)行了分析,指出其具有高維、高計(jì)算復(fù)雜度的特征,現(xiàn)有處理架構(gòu)無法滿足一體化信號(hào)處理需求?;诖鎯?nèi)計(jì)算和光子計(jì)算等技術(shù)設(shè)計(jì)的新型先進(jìn)專用處理架構(gòu),具備高算力、高能效的特征,為未來一體化信號(hào)處理及其先進(jìn)處理架構(gòu)研究提供了技術(shù)途徑。

        猜你喜歡
        算力信號(hào)處理功耗
        多方求解智能時(shí)代算力挑戰(zhàn)
        這個(gè)第二不一般
        都市人(2023年11期)2024-01-12 05:55:06
        衛(wèi)星通信在算力網(wǎng)絡(luò)中的應(yīng)用研究
        中國(guó)電信董事長(zhǎng)柯瑞文:算力成為數(shù)字經(jīng)濟(jì)的主要生產(chǎn)力
        《信號(hào)處理》征稿簡(jiǎn)則
        《信號(hào)處理》第九屆編委會(huì)
        《信號(hào)處理》征稿簡(jiǎn)則
        《信號(hào)處理》第九屆編委會(huì)
        揭開GPU功耗的面紗
        數(shù)字電路功耗的分析及優(yōu)化
        電子制作(2016年19期)2016-08-24 07:49:54
        日韩在线视频不卡一区二区三区| 999国产精品999久久久久久| 婷婷久久香蕉五月综合加勒比| 人妻影音先锋啪啪av资源| 国产国拍亚洲精品午夜不卡17| 性一交一乱一乱一视频亚洲熟妇 | 日本超级老熟女影音播放| 日韩av激情在线观看| ā片在线观看| 国产精彩刺激对白视频| 中文字幕在线亚洲精品一区| 久久精品人人做人人爱爱| 国产亚洲av无码专区a∨麻豆| 99国产精品久久久蜜芽| 免费在线av一区二区| 国产一区二区三区内射| 日韩欧美人妻一区二区三区| 无遮挡网站| 台湾自拍偷区亚洲综合| 日本高清一级二级三级| 精精国产xxxx视频在线播放| 欧美国产日本精品一区二区三区| 丝袜美腿av免费在线观看| 国产精品一区二区日本| 九九精品国产亚洲av日韩| 中文字幕精品久久天堂一区| 蜜桃av在线播放视频| 丰满大爆乳波霸奶| 国产一区二区三区av在线无码观看| 粉嫩小泬无遮挡久久久久久| 成人av综合资源在线| 国产精品网站在线观看免费传媒 | 久久精品国产精品国产精品污| 女性自慰网站免费看ww| 在线视频免费自拍亚洲| 美女张开腿黄网站免费| 欲妇荡岳丰满少妇岳 | 在线播放人成午夜免费视频| 国产三级视频一区二区| 美女露出自己的性感大胸一尤内衣| 国产真实夫妇交换视频|