亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種采用改良基-26算法的低復(fù)雜度高吞吐量FFT處理器設(shè)計(jì)*

        2022-05-26 08:18:46
        電訊技術(shù) 2022年5期
        關(guān)鍵詞:乘法器存儲(chǔ)空間復(fù)數(shù)

        于 建

        (河北民族師范學(xué)院 物理與電子工程學(xué)院,河北 承德 067000)

        0 引 言

        隨著多媒體應(yīng)用在短距離無(wú)線傳輸方面日益增長(zhǎng)的需求,多年來(lái)針對(duì)60 GHz毫米波無(wú)線個(gè)人局域網(wǎng)(Wireless Personal Area Network,WPAN)通信技術(shù)的研究受到了廣泛的關(guān)注。IEEE802.15.3c任務(wù)組為60 GHz千兆比特WPAN系統(tǒng)制定了相應(yīng)標(biāo)準(zhǔn),要求其提供超過(guò)2 Gb/s數(shù)據(jù)傳輸速率[1]。

        在高速率WPAN系統(tǒng)的物理層設(shè)計(jì)中采用了正交頻分復(fù)用(Orthogonal Frequency Division Multiplexing,OFDM)調(diào)制技術(shù),快速傅里葉變換(Fast Fourier Transform,FFT)處理器是OFDM系統(tǒng)中硬件復(fù)雜度最高的模塊。在基于OFDM調(diào)制技術(shù)的高速率WPAN系統(tǒng)中,一個(gè)OFDM符號(hào)一般由512個(gè)子載波組成,OFDM符號(hào)持續(xù)時(shí)間為222.22 ns。這就意味著要求所設(shè)計(jì)的FFT處理器至少提供2.304 Gsample/s的高數(shù)據(jù)吞吐量[2]。實(shí)際上為了獲得更好的帶寬效率,設(shè)計(jì)上FFT的點(diǎn)數(shù)一般都會(huì)超過(guò)512,這樣勢(shì)必導(dǎo)致需要更長(zhǎng)的字長(zhǎng)來(lái)維持一定的信號(hào)量化噪聲比(Signal to Quantization Noise Ratio,SQNR),大幅增加了所需的硬件成本[3]。在實(shí)現(xiàn)高吞吐量的FFT處理器設(shè)計(jì)方面,許多研究都采用了多路徑負(fù)反饋流水線架構(gòu)(Multi-path Delay Feedback,MDF)[1-5],其原理就是根據(jù)路徑數(shù)復(fù)制單路徑上的FFT處理器運(yùn)算模塊,但硬件成本會(huì)隨著路徑數(shù)的增加而成倍的增長(zhǎng)。因此,許多學(xué)者提出了不同的FFT算法用于降低單路徑上FFT運(yùn)算模塊的硬件復(fù)雜度,其中基-2k算法最為著名[6]?;?2k算法不論k值的大小,都擁有與基-2算法一樣簡(jiǎn)單的蝶形架構(gòu),但不同的k值會(huì)導(dǎo)致其具有不同的旋轉(zhuǎn)因子復(fù)數(shù)乘法結(jié)構(gòu)[7],因此需要根據(jù)旋轉(zhuǎn)因子復(fù)數(shù)乘法的復(fù)雜度選擇最優(yōu)k值的基-2k算法用于優(yōu)化FFT處理器的設(shè)計(jì)。

        為了有效降低硬件實(shí)現(xiàn)復(fù)雜度并保證高速率、高精度的數(shù)據(jù)傳輸,本文提出了一種基于改良基-26算法2 048點(diǎn)8路MDF FFT處理器設(shè)計(jì)方案,能夠提供2.6 Gsample/s高數(shù)據(jù)吞吐量并有效控制硬件成本,同時(shí)SQNR達(dá)到了36 dB。

        1 算法選擇

        N點(diǎn)離散傅里葉變換(Discrete Fourier Transform,DFT)定義如式(1)所示:

        (1)

        式中:WN為旋轉(zhuǎn)因子,其指數(shù)k和n分別代表頻域索引與時(shí)域索引。直接實(shí)現(xiàn)式(1)中的DFT會(huì)消耗大量的硬件成本和計(jì)算時(shí)間,因此眾多FFT算法被提出用于減少DFT的計(jì)算時(shí)間與硬件資源消耗。由于基-2k算法不但擁有與基-2算法一樣簡(jiǎn)單的蝶形單元架構(gòu),同時(shí)還能減少旋轉(zhuǎn)因子復(fù)數(shù)乘法的運(yùn)算復(fù)雜度,因此常被用于FFT處理器的硬件實(shí)現(xiàn)上。本文提出了一種新型改良基-26算法用于2 048點(diǎn)FFT處理器的設(shè)計(jì)。

        1.1 改良基-26 FFT算法

        所提出的改良基-26算法采用7維度線性索引圖進(jìn)行表述,如式(2)和式(3)所示:

        (2)

        k=k1+2k2+4k3+8k4+16k5+32k6+64k7。

        (3)

        改良基-26算法可分為兩種方式進(jìn)行表達(dá),方式1的因子計(jì)算公式如式(4)所示:

        X(k1+2k2+4k3+8k4+16k5+32k6+64k7)=

        (4)

        (5)

        X(k1+2k2+4k3+8k4+16k5+32k6+64k7)=

        (6)

        (7)

        1.2 算法評(píng)估

        由于負(fù)責(zé)旋轉(zhuǎn)因子復(fù)數(shù)乘法運(yùn)算的乘法器在FFT處理器中占用主要的硬件資源,因此選擇旋轉(zhuǎn)因子復(fù)雜度低的基-2k算法是十分必要的。表1所示為不同k值2 048點(diǎn)基-2kFFT算法旋轉(zhuǎn)因子復(fù)數(shù)乘法運(yùn)算分布。由表1可知,2 048點(diǎn)基-2kFFT算法一共包含了10個(gè)旋轉(zhuǎn)因子復(fù)數(shù)乘法運(yùn)算,其中‘-j’運(yùn)算為簡(jiǎn)單運(yùn)算,只需將復(fù)數(shù)序列的實(shí)部與虛部的位置進(jìn)行交換,再對(duì)虛部求反即可。由于旋轉(zhuǎn)因子W8、W16、W32和W64進(jìn)行復(fù)數(shù)乘法運(yùn)算所需的常數(shù)值個(gè)數(shù)少,因此為了節(jié)約硬件成本,在實(shí)現(xiàn)它們的復(fù)數(shù)乘法運(yùn)算采用了正則有符號(hào)數(shù)(Canonical Signed Digit,CSD)常數(shù)乘法器[8],而對(duì)于旋轉(zhuǎn)因子W128、W256和W2048來(lái)說(shuō),其所需常數(shù)值過(guò)多,已不適合利用CSD常數(shù)乘法器,因此采用常用的布斯乘法器進(jìn)行復(fù)數(shù)乘法運(yùn)算。仔細(xì)觀察表1,本文提出的改良基-26算法不論是方式1還是方式2與其他算法相比,在減少旋轉(zhuǎn)因子計(jì)算復(fù)雜度方面并無(wú)明顯優(yōu)勢(shì)??紤]到改良基-26算法每6個(gè)階段為一個(gè)旋轉(zhuǎn)因子復(fù)數(shù)乘法循環(huán)周期,比較方式1和方式2的第一個(gè)循環(huán)周期的旋轉(zhuǎn)因子(前6個(gè)階段),除了同樣的旋轉(zhuǎn)因子W2048和W64,方式1中剩下W16,方式2中剩下W8和W32,明顯方式1較方式2具有更簡(jiǎn)單的旋轉(zhuǎn)因子;同樣,在后續(xù)的4個(gè)階段中,方式2的旋轉(zhuǎn)因子W8和W32對(duì)比方式1的旋轉(zhuǎn)因子W16和W64更加簡(jiǎn)單。因此將方式1的前6個(gè)階段(表1中紅色矩形圈住的部分)與方式2的后4個(gè)階段(表1中藍(lán)色矩形圈住的部分)相結(jié)合,形成混合改良基-26算法,對(duì)比其他k值的基-2k算法擁有更簡(jiǎn)單的旋轉(zhuǎn)因子。

        表1 2 048點(diǎn)基-2k算法旋轉(zhuǎn)因子運(yùn)算分布

        表2所示為8路徑2 048點(diǎn)不同k值的基-2kMDF FFT架構(gòu)硬件復(fù)雜度比較,為了更直觀地評(píng)估,對(duì)于復(fù)數(shù)乘法器的邏輯單元(Logic Element,LE)使用量進(jìn)行了歸一化處理,用NLE表示,布斯乘法器所消耗的LE設(shè)定為1,那么完成旋轉(zhuǎn)因子W8、W16、W32和W64的CSD常數(shù)乘法器所消耗的LE分別為0.09、0.18、0.33和0.59。由表2可知,相較于其他k值的基-2k算法,新型改良混合基-26算法擁有最低的邏輯單元消耗量和最小的ROM存儲(chǔ)空間(本文第2節(jié)將給出詳細(xì)的ROM空間減少方案),因此新型混合改良基-26算法在2 048點(diǎn)FFT處理器設(shè)計(jì)上更具優(yōu)勢(shì)。

        表2 8路徑2 048點(diǎn)不同k值基-2k MDF FFT架構(gòu)設(shè)計(jì)硬件復(fù)雜度比較

        2 設(shè)計(jì)方案

        圖1所示為混合改良基-26算法8路徑2 048點(diǎn)FFT處理器整體結(jié)構(gòu)圖。由圖1可知,本文所設(shè)計(jì)的FFT處理器由基本的蝶形單元、布斯乘法器、ROM、CSD常數(shù)乘法器以及控制邏輯所組成,其中左邊的模塊1用于完成混合改良基-26算法方式1前6個(gè)階段的運(yùn)算,右邊的模塊2用于完成混合改良基-26算法方式2后4個(gè)階段的運(yùn)算。

        圖1 基于混合改良基-26算法的8路徑2 048點(diǎn)FFT處理器結(jié)構(gòu)圖

        2.1 蝶形單元

        蝶形單元是FFT處理器中最基本的運(yùn)算單元,主要用于復(fù)數(shù)序列的加法與減法。蝶形單元分為BFI型與BFII型,與前者不同的是后者需要進(jìn)行額外的‘-j’運(yùn)算[9]。蝶形單元的具體運(yùn)算過(guò)程如下:

        輸入數(shù)據(jù)序列按照順序儲(chǔ)存到先進(jìn)先出寄存器中,直到第N/2個(gè)數(shù)據(jù)(N為FFT點(diǎn)數(shù)),接下來(lái)的輸入數(shù)據(jù)與先前存放在寄存器中的數(shù)據(jù)依次進(jìn)行復(fù)數(shù)加減法運(yùn)算。蝶形單元所進(jìn)行的復(fù)數(shù)加法運(yùn)算直接作為下一個(gè)階段的輸入數(shù)據(jù),而減法運(yùn)算結(jié)果存入下一階段的先進(jìn)先出寄存器中。

        2.2 布斯乘法器與ROM

        由于布斯乘法器能將乘法的部分積減少一半,非常適合高速FFT處理器的復(fù)數(shù)乘法運(yùn)算。同時(shí),考慮到量化誤差對(duì)整個(gè)FFT處理器SQNR的影響,本文的設(shè)計(jì)方案采用了文獻(xiàn)[10]的布斯乘法器誤差補(bǔ)償方案用于減少量化誤差。布斯乘法器在針對(duì)旋轉(zhuǎn)因子進(jìn)行復(fù)數(shù)乘法運(yùn)算時(shí),需要ROM對(duì)旋轉(zhuǎn)因子的系數(shù)進(jìn)行存儲(chǔ)。本文采用了一種減少ROM存儲(chǔ)空間的方法[11],能夠?qū)⒋鎯?chǔ)旋轉(zhuǎn)因子W2048系數(shù)的空間減少為原來(lái)的一半。具體方法如下:

        ROM存儲(chǔ)空間的大小依賴于旋轉(zhuǎn)因子指數(shù)的最大值、最小值以及指數(shù)最小間隔步長(zhǎng),而且ROM存儲(chǔ)空間大小為2的整次冪。例如,如果旋轉(zhuǎn)因子WN的指數(shù)i(i=nk)最小值為0,最大值為12,而指數(shù)之間的間隔為1,那么至少需要16 b的存儲(chǔ)空間(為了方便計(jì)算,這里不考慮旋轉(zhuǎn)因子序列的字長(zhǎng)),但如果指數(shù)最大值與最小值不變,最小間隔步長(zhǎng)變?yōu)?,那么根據(jù)旋轉(zhuǎn)因子的可約性,指數(shù)i的取值范圍縮小為原來(lái)的一半,此時(shí)只需8 b的存儲(chǔ)空間。由于本文的設(shè)計(jì)需要利用布斯乘法器來(lái)處理旋轉(zhuǎn)因子W2048的復(fù)數(shù)乘法運(yùn)算,因此為了確定所需ROM存儲(chǔ)空間大小,基于Matlab對(duì)2 048點(diǎn)不同k值的基-2k算法進(jìn)行了建模。

        通過(guò)下面的代碼可獲得旋轉(zhuǎn)因子W2048所需的相應(yīng)指數(shù):

        exp=[0:N/2k];B=de2bi([0:2k],'left-msb');

        C=fliplr(B);D=bi2de(C,'left-msb');

        tw_r2k=exp.*D;

        %其中N為FFT點(diǎn)數(shù);k為基-2k算法的指數(shù);%

        表3所示為不同k值的基-2k算法針對(duì)旋轉(zhuǎn)因子W2048所需ROM存儲(chǔ)空間的比較。

        表3 不同基-2k算法所需ROM存儲(chǔ)空間比較

        圖模塊結(jié)構(gòu)圖

        2.3 CSD常數(shù)乘法器

        本文提出的設(shè)計(jì)方案需要4種不同的CSD常數(shù)乘法器來(lái)分別完成旋轉(zhuǎn)因子W8、W16、W32和W64的復(fù)數(shù)乘法運(yùn)算,表4給出了上述CSD常數(shù)乘法器所需的15個(gè)常數(shù)值以及其CSD表示。

        表4 15組常數(shù)值CSD表示

        圖3 CSD常數(shù)乘法器結(jié)構(gòu)圖(W8、W16、W32和W64)

        3 不同方案FFT處理器性能比較

        在FFT處理器的硬件實(shí)現(xiàn)之前,基于Matlab對(duì)序列字長(zhǎng)選擇以及量化誤差進(jìn)行了相關(guān)的評(píng)估。本文的設(shè)計(jì)采用定點(diǎn)字長(zhǎng)方案[12],圖4所示為基-2k算法在不同字長(zhǎng)時(shí)計(jì)算2 048點(diǎn)FFT的SQNR表現(xiàn)。由圖4可知,不論基-2k算法的k值如何,當(dāng)序列內(nèi)部字長(zhǎng)增加到16 b時(shí),SQNR達(dá)到了36 dB,繼續(xù)增加字長(zhǎng),SQNR并無(wú)顯著提升,因此本文設(shè)計(jì)選擇16位內(nèi)部字長(zhǎng)。

        圖4 基-2k算法SQNR比較

        基于QUARTUS PRIME平臺(tái)對(duì)所提出的2 048點(diǎn)FFT處理器進(jìn)行了實(shí)現(xiàn)與仿真,使用Verilog HDL語(yǔ)言對(duì)設(shè)計(jì)進(jìn)行建模,器件選擇CYCLONE 10LP家族的10CL120ZF780I8G。表5所示為本文的方案對(duì)比其他已存在方案在面向WPAN應(yīng)用所設(shè)計(jì)的FFT處理器性能仿真結(jié)果比較。為了更加直觀地評(píng)估硬件成本的消耗,將邏輯單元使用量以及記憶體單元使用量(Memory Bit,MB)進(jìn)行了標(biāo)準(zhǔn)化處理,本文方案所消耗的LE與MB均設(shè)定為1。由表5可知,對(duì)比已有的設(shè)計(jì)方案,本文方案至少能夠節(jié)約23%LE以及12%MB,同時(shí)本文所設(shè)計(jì)的FFT處理器有著更好的SQNR表現(xiàn),最高工作頻率達(dá)到了320 MHz,此時(shí)數(shù)據(jù)吞吐量為2.6 Gsample/s。利用QUARTUS PRIME平臺(tái)的Power Analyzer進(jìn)行功耗分析,本文所設(shè)計(jì)的FFT處理器動(dòng)態(tài)功耗最低,僅為33.8 mW。

        表5 不同方案FFT處理器性能比較

        圖5所示為MODELSIM得到的RTL級(jí)仿真結(jié)果幅度值與Matlab計(jì)算結(jié)果幅度值的比較(輸入序列的實(shí)部和虛部都設(shè)定為1~2 048)。圖5中的縮略圖截取了不同F(xiàn)FT點(diǎn)數(shù)位置上的計(jì)算結(jié)果,由四個(gè)縮略圖可知,RTL級(jí)仿真結(jié)果與Matlab計(jì)算結(jié)果全部吻合,驗(yàn)證了設(shè)計(jì)的有效性。

        圖5 RTL級(jí)仿真結(jié)果與Matlab計(jì)算結(jié)果比較

        4 結(jié) 論

        本文設(shè)計(jì)了一種基于新型改良基-26算法的8路徑MDF架構(gòu)2 048點(diǎn)FFT處理器,能夠?yàn)閃PAN應(yīng)用提供高達(dá)2.6 Gsample/s的數(shù)據(jù)吞吐量。提出的改良基-26算法降低了旋轉(zhuǎn)因子復(fù)數(shù)乘法運(yùn)算的復(fù)雜度,為了降低硬件資源消耗,采用CSD常數(shù)乘法器替代傳統(tǒng)布斯乘法器完成了除旋轉(zhuǎn)因子W2048的所有復(fù)數(shù)乘法運(yùn)算,對(duì)比已有的方案,至少能夠節(jié)約23%LE與12%MB。同時(shí),在16位內(nèi)部定點(diǎn)字長(zhǎng)的條件下SQNR達(dá)到了36 dB,動(dòng)態(tài)功耗僅為33.8 mW。另外,采用了一種減少存儲(chǔ)旋轉(zhuǎn)因子W2048系數(shù)ROM空間的方法,使得為布斯乘法器提供旋轉(zhuǎn)因子系數(shù)的ROM存儲(chǔ)空間減少為原來(lái)的一半。因此,本文所提出的方案在面向WPAN應(yīng)用的高吞吐量、低復(fù)雜FFT處理器設(shè)計(jì)上具有較大的優(yōu)勢(shì)。

        猜你喜歡
        乘法器存儲(chǔ)空間復(fù)數(shù)
        評(píng)析復(fù)數(shù)創(chuàng)新題
        基于多種群協(xié)同進(jìn)化算法的數(shù)據(jù)并行聚類算法
        求解復(fù)數(shù)模及最值的多種方法
        數(shù)系的擴(kuò)充和復(fù)數(shù)的引入
        蘋果訂閱捆綁服務(wù)Apple One正式上線
        復(fù)數(shù)
        用好Windows 10保留的存儲(chǔ)空間
        基于FPGA的流水線單精度浮點(diǎn)數(shù)乘法器設(shè)計(jì)*
        乘法器模塊在FPGA中的實(shí)現(xiàn)
        基于FPGA 的數(shù)字乘法器性能比較*
        電子器件(2011年6期)2011-08-09 08:07:22
        米奇777四色精品人人爽| 日本一区二区高清视频在线| 粉嫩极品国产在线观看| 国产一区二区三区视频大全| 视频精品亚洲一区二区| 午夜国产在线精彩自拍视频| 成人影院视频在线免费观看 | 真实人与人性恔配视频| 国产熟女高潮视频| 999久久久精品国产消防器材| 国产精品国产三级国产AvkTV| 99久久免费精品色老| 亚洲天堂av路线一免费观看| 少妇人妻精品久久888| 亚洲久悠悠色悠在线播放| 成人精品视频一区二区三区尤物| 亚洲国产韩国欧美在线| 中文字幕喷水一区二区| 四虎成人精品国产永久免费| 亚洲黑寡妇黄色一级片| 45岁妇女草逼视频播放| 国产午夜福利100集发布| 国产精品高潮无码毛片| 久久国产女同一区二区| 在线天堂av一区二区| 亚洲日韩av无码一区二区三区人 | 精品国产福利久久久| 97无码人妻一区二区三区蜜臀| 亚洲成av人片极品少妇| 国产av无码专区亚洲avjulia| 中文字幕av无码一区二区三区| 九九精品视频在线观看| 秋霞国产av一区二区三区| 91久久国产香蕉视频| 少妇性俱乐部纵欲狂欢电影| 亚洲av无码一区二区三区在线| 日韩人妻无码精品系列专区无遮| 放荡成熟人妻中文字幕| 欧美人伦禁忌dvd放荡欲情| 亚洲熟妇丰满大屁股熟妇| 国产激情久久久久久熟女老人|