亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種改進DA算法的成型濾波器設(shè)計

2016-05-17 07:23:17吳鳳輝遲永鋼鄭宇希

哈爾濱工業(yè)大學(xué)學(xué)報 2016年5期

吳鳳輝，遲永鋼，鄭宇希，楊　木

(哈爾濱工業(yè)大學(xué) 通信技術(shù)研究所， 150001 哈爾濱)

吳鳳輝，遲永鋼，鄭宇希，楊木

(哈爾濱工業(yè)大學(xué) 通信技術(shù)研究所， 150001 哈爾濱)

摘要:針對高速、高階成型濾波器的實現(xiàn)問題，在傳統(tǒng)分布式DA算法的基礎(chǔ)上，提出一種改進算法. 利用升采樣過程中內(nèi)插零的結(jié)構(gòu)特點，使用邏輯單元LUT代替存儲ROM，減少了有效地址位數(shù)，提高了尋址速度；利用表分割算法和濾波器系數(shù)的對稱性，并通過增加流水線結(jié)構(gòu)，進一步節(jié)約了存儲資源的消耗，提升了運算速度. 通過與商用FIR IP核(DA算法)的實測對比，所提算法最大實現(xiàn)速率有所提高，且在高階濾波器設(shè)計時不受硬件ROM大小和數(shù)量的限制，有效改善了邏輯資源的使用情況. 關(guān)鍵詞: 成型濾波器；分布式結(jié)構(gòu)； FPGA；查找表； FIR

通信系統(tǒng)中的成型濾波器常用來濾除基帶信號頻譜中的高頻分量，消除碼間干擾[1-2]. 由于FIR濾波器可以實現(xiàn)嚴格的線性相位，減少失真，因此在實現(xiàn)方式上，成型濾波器設(shè)計主要采用FIR濾波器實現(xiàn). 在時域上，濾波器的實現(xiàn)是將輸入信號和濾波器的抽頭系數(shù)進行卷積運算，實現(xiàn)結(jié)構(gòu)包括3個基本單元：抽頭延遲線、乘法器和加法器. 由于加法運算相對較快，乘法運算的速度往往影響或決定了整個系統(tǒng)的速度. 所以如果可以實現(xiàn)快速乘法，則整個系統(tǒng)的處理速度可以大大提高[3].

分布式結(jié)構(gòu)DA(distributed architecture)是一種重要的硬件實現(xiàn)技術(shù)，它巧妙地利用ROM查找表，將固定系數(shù)的乘累加運算轉(zhuǎn)換成查找表操作，從而避免了乘法運算. 同時，查找表后的數(shù)據(jù)執(zhí)行的都是簡單的加法運算，因此可以很大程度地提高運算速度[4]. 在傳統(tǒng)DA算法中，當階數(shù)增大時，查找表的規(guī)模將呈指數(shù)倍增加，需要使用多個查找表，受限制較大，并且當輸入數(shù)據(jù)的位寬B增大時，累加運算也將增加，導(dǎo)致工作速度降低，難以滿足高階濾波及高速系統(tǒng)的要求.

不少學(xué)者對傳統(tǒng)DA算法改進實現(xiàn)進行了研究，旨在設(shè)計更高速率的濾波器. 文獻[5] 采用了OBC編碼(即偏移二進制編碼)，其基本原理是在分布式算法中，將輸入數(shù)據(jù)通過OBC編碼由{0，1}映射到{1，-1}，使得ROM表的上下兩部分具有鏡像對稱性關(guān)系，利用這種對稱性可以將ROM壓縮一半. 文獻[6] 采用多路選擇分解思想，使用多個雙向選擇器，把寄存器輸出的最高位不斷反復(fù)地從LUT分離出來，由一個雙向選擇器和一個全加器來代替這部分LUT，從而進一步減小了查找表消耗，但是卻增加了寄存器的使用，處理速度無法得到改善. 文獻[7]利用濾波器系數(shù)的對稱性，能夠降低接近一半資源的使用. 上述算法查找表結(jié)構(gòu)均是基于ROM實現(xiàn)，當階數(shù)較高時，耗費ROM的數(shù)量十分可觀，且由于采用連續(xù)尋址方式，ROM表中占用了許多不必要的存儲單元，從而造成了較大的資源浪費和實現(xiàn)復(fù)雜性.

本文對分布式算法進行改進:考慮到內(nèi)插倍數(shù)是通過/內(nèi)插“0”實現(xiàn)，當濾波器階數(shù)為N階，內(nèi)插倍數(shù)為P時，輸入序列和濾波器系數(shù)乘積的所有可能取值數(shù)目最大為2ceil(N/P)；當利用ROM表實現(xiàn)時，其地址由輸入序列的階數(shù)決定，其規(guī)模為2N，包含2N-2ceil(N/P)個無效地址；若使用邏輯單元LUT代替存儲ROM，并通過合理的表分割設(shè)計查找表可以大大減少地址位數(shù)，減少計算的復(fù)雜性，使高階濾波器設(shè)計時不受硬件ROM大小和數(shù)量的限制，從而節(jié)約了存儲資源的消耗，提高了尋址速度. 在此基礎(chǔ)上，利用FIR濾波器的對稱性，通過增加流水線處理，進一步提升了算法性能，使得改進DA算法能滿足高階濾波及高速系統(tǒng)的需求.

1分布式算法

1.1分布式算法原理

分布式算法是通過將采樣信號序列和濾波器系數(shù)所有的可能乘積，映射到一數(shù)據(jù)表，充分利用ROM資源，通過讀取數(shù)據(jù)表的方式來實現(xiàn)乘法運算，可以極大提高運算速度[8].

一個N階線性FIR濾波器的差分表達式如下：

(1)

其中，h(m)為濾波器系數(shù)，當濾波器性能確定時，h(m)是一組已知的常系數(shù).

(2)

其中，xb(n)表示x(n)第b位，大小為0或1，B表示輸入數(shù)據(jù)的位寬.

表1　查找表內(nèi)容

分布式算法的核心思想可概括為將輸入數(shù)據(jù)進行二進制位分解，并進行位重組，將不同時刻的數(shù)據(jù)位取出構(gòu)成新數(shù)據(jù)作為查找表的地址，而查找表中按地址索引存儲著相應(yīng)的乘積結(jié)果，以此方式完成乘法運算，后續(xù)通過移位累加等操作得到最終結(jié)果.

1.2分布式算法實現(xiàn)結(jié)構(gòu)

分布式算法的實現(xiàn)結(jié)構(gòu)包括三種：并行結(jié)構(gòu)、串行結(jié)構(gòu)和串并行結(jié)構(gòu)相結(jié)合. 不同實現(xiàn)結(jié)構(gòu)占用的資源和運算速度不同. 實際應(yīng)用時，需要根據(jù)不同的設(shè)計指標，合理選擇結(jié)構(gòu).

串行結(jié)構(gòu)[9]在實現(xiàn)時，首先由移位寄存器將N個x(n)的每一位從低到高串行輸入到查找表中，采用B個時鐘周期串行求得B個f[c(n),xb(n)]，每個f[c(n),xb(n)]由相應(yīng)的二次冪加權(quán)后累加求和. 串行工作方式運算速度較慢，每B個時鐘周期只能得到一個輸出，是一種使用資源換取效率的方法.

全并行分布式算法[10]實現(xiàn)時，將N個x(n)的各位并行輸入，在一個時鐘周期內(nèi)同時求得B個映射f[c(n),xb(n)]，各個映射根據(jù)所在的位數(shù)進行相應(yīng)的二次冪加權(quán)，并將加權(quán)結(jié)果累加，在N次查詢循環(huán)后就完成內(nèi)積計算.

如果對運算速度要求適中，則可以設(shè)計成串并行結(jié)合的工作方式. 可以將B位的采樣數(shù)據(jù)按照一定的方式分割成L段，每一段使用一個ROM表，共使用L個ROM表，此時系統(tǒng)的時鐘頻率是采樣頻率的L/B倍. 當B=L時，即為全并行結(jié)構(gòu)，B=1時，即對應(yīng)串行結(jié)構(gòu).

當濾波器階數(shù)為N，位數(shù)為B時，分成L段，采樣頻率大小為f，則串行、并行、并串行結(jié)合的查找表結(jié)構(gòu)的速度和資源對比情況如表2所示. 可以看出，這三種結(jié)構(gòu)對ROM位寬的要求相同，但是串行分布式結(jié)構(gòu)的速度最慢，消耗ROM的個數(shù)最少；并行結(jié)構(gòu)則剛好相反；串并行結(jié)構(gòu)達到了速度和資源的折中.

表2　不同查找表結(jié)構(gòu)的速度和資源對比

2改進的分布式算法

不管是串行、并行還是并串行結(jié)合的查找表結(jié)構(gòu)，查找表的規(guī)模都會隨著階數(shù)N的增大而呈現(xiàn)指數(shù)增長. 如果要設(shè)計N階濾波器，查找表LUT規(guī)模為2N個字，這是很不經(jīng)濟的，必須減少所需查找表的規(guī)模. 為了進一步縮小LUT規(guī)模[11]，本文在分布式算法的基礎(chǔ)上，通過采用FIR濾波器的對稱性和表分割技術(shù)，降低了資源的使用率；通過使用并行分布式算法，提高了運算速度；結(jié)合改變查找表實現(xiàn)方式和增加流水線結(jié)構(gòu)，使系統(tǒng)性能得到了進一步的優(yōu)化.

假定一個NL階濾波器，可以將NL個系數(shù)分成L組，每組對應(yīng)一個查找表，即用L個獨立的N階串行DA的LUT輸出之和替代一個NL階的LUT輸出，即

算法思想如圖1所示.

圖1　改進DA算法思想

為了能夠提高系統(tǒng)的最大速度，將輸入的基帶信號分成高位和低位，并行進行處理. 當階數(shù)較大時，可以通過分割表降低表的規(guī)模. 以升采樣倍數(shù)16，階數(shù)為97階的升余弦濾波器為例，考慮到表的位數(shù)及計算方便性，總體可以分成3個表進行計算(97=2*16*3+1). 此時每個表只需要存儲16位的波形數(shù)據(jù).

由于內(nèi)插處理方法是在兩個信號采樣點間插入0，此時97個輸入數(shù)據(jù)中實際上只有3個數(shù)據(jù)不為0，其他的點都是0. 這些點對輸出結(jié)果沒有影響，此時將輸入數(shù)據(jù)和系數(shù)進行相乘，每個查找表值只需要計算少數(shù)幾個地址的取值. 以查找表1為例，有效地址如圖2所示.

圖2　查找的有效地址

此時可以進一步減少計算量. 由于查找表的容量已經(jīng)大大降低，如果選用ROM作為存儲器，地址位數(shù)仍然較大，存儲深度為216，實際上有效地址僅為13位，這是一種極大的浪費. 因此，本設(shè)計主要使用CASE聲明來定義分布式算法表，合成器可以使用邏輯單元來實現(xiàn)LUT，大大降低了硬件的消耗. 同時，使用流水線實現(xiàn)加法功能，雖然增加了資源的利用率，但系統(tǒng)的整體速度卻獲得明顯提升.

3改進算法的硬件仿真及驗證

3.1參數(shù)設(shè)置

1)選用Altera公司的EP4SGX70HF35I3 FPGA芯片構(gòu)建的硬件平臺進行測試.

2)FIR脈沖成形濾波器參數(shù)：內(nèi)插倍數(shù)為16，階數(shù)為97，滾降系數(shù)設(shè)為0.4，截止頻率設(shè)置為碼元速率的一半. 采用改進的全并行分布式DA算法，并加上流水線寄存器來實現(xiàn).

3)輸入序列為經(jīng)過16倍內(nèi)插之后的雙極性不歸零碼.

在上述條件下，編寫Verilog代碼. 其中，F(xiàn)IR濾波器系數(shù)均由MATLAB產(chǎn)生，設(shè)計步驟如圖3所示.

3.2濾波器仿真結(jié)果

硬件實現(xiàn)上，使用自頂向下的設(shè)計方法，針對系統(tǒng)的各個模塊，進行原理分析和算法仿真，采用DA改進算法設(shè)計上述參數(shù)的升余弦濾波器. 將程序下載到硬件測試平臺，使用STP觀測輸出波形，與MATALB仿真結(jié)果進行對比，驗證系統(tǒng)的正確性. 圖4所示為MATLAB理論仿真結(jié)果，上面是基帶信號源，下面是沖成型濾波的輸出；圖5所示為實際硬件仿真時，STP的輸出波形，從上往下依次為基帶信號源、內(nèi)插升采樣、脈沖成型濾波之后的波形.

對比圖4和圖5可知，在400 MHz的高速工作時鐘下，輸出結(jié)果理想，沒有毛刺，硬件測試電路輸出波形與理論仿真結(jié)果一致，驗證了本算法在高速時鐘下的正確性.

圖3　脈沖成形濾波器設(shè)計步驟

圖4　MATLAB仿真結(jié)果

圖5　STP輸出波形

3.3與商用IP核的性能對比

開發(fā)環(huán)境Quartus II V11.1中FIR Compiler的IP核和本文所提的改進DA算法都能完成要求的功能，但是它們資源使用情況和硬件最大運行速度卻有所不同，具體對比結(jié)果如表3所示. 從表3可以看出，改進DA算法沒有使用Memory ALUT，而IP核使用2個Memory ALUT，同時，改進DA算法總體使用的寄存器資源要比IP核更少，且最大運行速度達到402 MHz，高于IP核.

表3　改進DA算法和IP核算法對比

4結(jié)論

使用改進的全并行分布式算法和流水線設(shè)計結(jié)構(gòu)，實現(xiàn)了高階、高速的脈沖成型濾波器設(shè)計. 硬件測試平臺的測試結(jié)果，驗證了設(shè)計的正確性和可行性. 與商用IP核心實現(xiàn)方法相比，改進后的DA算法不僅沒有利用ROM資源，而且其他邏輯資源也節(jié)約了10%，降低了系統(tǒng)的復(fù)雜度，能滿足高階濾波及高速系統(tǒng)的需求，最大運行速度相比IP 核提高了近30%.

參考文獻

[1] 王方. 基帶成形數(shù)字濾波器的設(shè)計[J]. 無線電通信技術(shù)，2000，26(5):5-7.

[2] KIM M S, KIM D I, CHUNG J G,et al. Look-up table-based pulse-shaping filter design[J]. Electronics Letters, 2000, 36(17):1505-1506.

[3] HUANG W, KRISHNAN V. Design analysis of a distributed arithmetic adaptive FIR filter on an FPGA[J]. System & Computers, 2003, 1(9):926-930.[4] 楊洪軍,王振友. 基于分布式算法和查找表的FIR濾波器的優(yōu)化設(shè)計[J].山東理工大學(xué)學(xué)報(自然科學(xué)版),2009, 23(5):104-106.

[5] YOO H, ANDERSIN D V. Hardware efficient distributed arithmetic architecture for high-order digital filters [C]// Proceedings of IEEE International Conference on Acoustics，Speech and Signal Processing. Philadephia:IEEE,2005:125-128.

[6] GUO R, DEBRUNNER L S. A novel adaptive filter implementation scheme using distributed arithmetic [C]// Proceedings of the Forty Fifth Asilomar Conference on Signals，Systems and Computers. Pacific Grove: IEEE，2011: 160-164.

[7] 王學(xué)梅,吳敏. 基于FPGA的分布式算法FIR濾波器的設(shè)計實現(xiàn)[J].世界電子元器件, 2004(10): 65-67

[8] 劉俊,劉會杰,尹增山. 基于多速率的根升余弦濾波器的FPGA實現(xiàn)[J].現(xiàn)代電子技術(shù),2009,32(19):94-98.

[9] LONGA P, MIRI A. Area-efficient fir filter design on FPGAs using distributed arithmetic[C]//IEEE International Symposium on Signal Processing and Information Technology. Vancouver: IEEE, 2006.

[10]NARASIMHA M, PETERSON A M. On using the symmetry of FIR filters for digital interpolation[J]. IEEE Transactions on Acoustics Speech and Signal Processing, 1978,26(3):267-268.

[11]PRAMOD K M, ABBES A. FPGA realization of FIR filters by efficient and flexible systolization using distributed arithmetic[J]. IEEE Transactions on Signal Processing, 2008, 56(7):3009-3017.

(編輯王小唯苗秀芝)

Pulse shaping filter design based on improved DA algorithm

WU Fenghui, CHI Yonggang, ZHENG Yuxi, YANG Mu

(Communication Research Center, Harbin Institute of Technology, 150001 Harbin, China)

Abstract:In order to meet the requirement of high-speed and high-order shaping filter design, an improved DA (Distributed Architecture) algorithm is proposed on the basis of the traditional DA method. Considering zero insertion using in up-sampling process, Look-Up-Table is employed instead of ROM(Read-Only Memory) for reducing the number of effective address and increasing addressing speed. The proposed algorithm takes advantage of tables segmentation and symmetry of filter coefficients to save storage resource and improve processing speed. Meanwhile, pipeline contracture is further exploited to achieve better performance. Compared with commercial finite impulse response filter IP core, the proposed algorithm not only realizes higher rate as well as reduces the utilization of logic resources effectively, but also can design high-order filter without limit of ROM in hardware.

Keywords:pulse shaping; distribute architecture; FPGA; look-up table; FIR (finite impulse response)

中圖分類號:TP391.9

文獻標志碼:A

文章編號:0367-6234(2016)05-0032-04

通信作者:吳鳳輝，18004502432@163.com.

作者簡介:吳鳳輝(1993—)，女，碩士研究生.

收稿日期:2015-05-20.

doi：10.11918/j.issn.0367-6234.2016.05.004

哈爾濱工業(yè)大學(xué)學(xué)報2016年5期

哈爾濱工業(yè)大學(xué)學(xué)報的其它文章: 超塑性自由脹形溫度對Ti2AlNb板材壁厚分布的影響; 應(yīng)用復(fù)雜網(wǎng)絡(luò)的航空維修安全信息輻射模型; 一種適于無源LANDMARC算法的定位性能評價方法; 多元符號的安全算術(shù)編碼; 可拓聚類適應(yīng)度共享小生境遺傳算法研究; 改進卷積玻爾茲曼機的圖像特征深度提取