亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種伯努利粒子濾波器的FPGA實(shí)現(xiàn)

        2025-03-20 00:00:00連紅飛李東升蔣彥雯范紅旗肖懷鐵王國(guó)嫣

        摘 要:針對(duì)伯努利粒子濾波器在嵌入式應(yīng)用環(huán)境中的高速、高效計(jì)算問(wèn)題,以雷達(dá)微弱目標(biāo)聯(lián)合檢測(cè)估計(jì)伯努利粒子濾波器為例,提出一種功能模塊化、粒子規(guī)模可擴(kuò)展的現(xiàn)場(chǎng)可編程門(mén)陣列(field programmable gate array, FPGA)實(shí)現(xiàn)架構(gòu),并通過(guò)粒子狀態(tài)流水計(jì)算、分層累加求和、并行化重采樣等手段進(jìn)一步提高濾波計(jì)算速度。Xilinx ZC706評(píng)估板板載測(cè)試實(shí)驗(yàn)證明了所提架構(gòu)良好的可擴(kuò)展性和優(yōu)異的加速比,當(dāng)粒子數(shù)量為1 024時(shí),相較于Intel Core i3 4130 CPU計(jì)算環(huán)境下的加速比約為104量級(jí),該結(jié)果對(duì)伯努利粒子濾波技術(shù)在雷達(dá)、機(jī)器人、導(dǎo)航制導(dǎo)等領(lǐng)域的應(yīng)用具有重要參考價(jià)值。

        關(guān)鍵詞: 伯努利粒子濾波器; 現(xiàn)場(chǎng)可編程門(mén)陣列; 實(shí)時(shí)信號(hào)處理; 流水并行化; 重采樣; 聯(lián)合檢測(cè)估計(jì)

        中圖分類(lèi)號(hào): TN 953

        文獻(xiàn)標(biāo)志碼: ADOI:10.12305/j.issn.1001 506X.2025.02.07

        FPGA implementation of a Bernoulli particle filter

        LIAN Hongfei, LI Dongsheng, JIANG Yanwen, FAN Hongqi*, XIAO Huaitie, WANG Guoyan

        (National Key Laboratory of Automatic Target Recognition, College of Electronic Science and Technology,

        National University of Defense Technology, Changsha 410073, China)

        Abstract:Aiming at the high speed and efficient computing problem of Bernoulli particle filters in embedded application environments, taking the Bernoulli particle filters for joint detection and estimation of radar weak targets as an example, a function modularized and particle size scalable field programmable gate array (FPGA) implementation architecture is proposed. The computing speed of filtering calculation is further improved through approaches as particle state pipelining, layered accumulation and sum, and parallel resampling, etc. Xilinx ZC706 evaluation board on board testing experiments have demonstrated the good scalability and excellent acceleration ratio of the proposed architecture. When the number of particles is 1 024, the acceleration ratio is about 104 orders of magnitude compared to the Intel Core i3 4130 CPU computing environment. The results have important reference value for the application of Bernoulli particle filtering technology in radar, robotics, and navigation guidance fields.

        Keywords:Bernoulli particle filter; field programmable gate array (FPGA); real time signal processing; pipelining parallelization; resample; joint detection and estimation

        0 引 言

        作為貝葉斯框架下的最優(yōu)單目標(biāo)聯(lián)合檢測(cè)估計(jì)濾波器,伯努利粒子濾波器對(duì)微弱非線性非高斯信號(hào)具有優(yōu)良的處理性能1-3,在雷達(dá)信號(hào)檢測(cè)估計(jì)、無(wú)人系統(tǒng)定位感知、機(jī)器視覺(jué)等多個(gè)應(yīng)用中獲得廣泛關(guān)注并表現(xiàn)出良好的應(yīng)用前景4-7。但當(dāng)前的伯努利粒子濾波器多基于數(shù)字信號(hào)處理器(digital signal processor, DSP)、中央處理器(central processing unit, CPU)等通用處理器實(shí)現(xiàn)8-11,粒子濾波巨大的計(jì)算需求限制了其在上述領(lǐng)域、特別是在智能無(wú)人飛行器、制導(dǎo)雷達(dá)等嵌入式強(qiáng)實(shí)時(shí)場(chǎng)景下的應(yīng)用12。

        現(xiàn)場(chǎng)可編程門(mén)陣列(field programmable gate array, FPGA)是一種硬件可重構(gòu)的嵌入式處理器13-16,具有算力功耗比高、易于結(jié)構(gòu)化并行計(jì)算等特點(diǎn),特別適合粒子濾波器的計(jì)算實(shí)現(xiàn)17-18。當(dāng)前,尚未見(jiàn)到討論伯努利粒子濾波器FPGA實(shí)現(xiàn)的相關(guān)論文,而有關(guān)一般單目標(biāo)粒子濾波器FPGA實(shí)現(xiàn)的研究則主要集中在以下兩個(gè)方面。

        一是粒子濾波器的FPGA實(shí)現(xiàn)架構(gòu),主要可分為數(shù)據(jù)并行和任務(wù)并行兩類(lèi)。Hong等19提出了一個(gè)數(shù)據(jù)并行的粒子濾波實(shí)現(xiàn)架構(gòu),包括一個(gè)中央單元(central unit, CU)和多個(gè)處理單元(processing element, PE),粒子被等額劃分到各PE中,并獨(dú)立完成濾波器的預(yù)測(cè)和更新操作,CU負(fù)責(zé)重采樣。El Halym等20在上述架構(gòu)的基礎(chǔ)上,重點(diǎn)設(shè)計(jì)了多個(gè)PE和CU之間的互聯(lián)網(wǎng)絡(luò),降低了時(shí)間及資源消耗。Miao等21將上述數(shù)據(jù)并行架構(gòu)應(yīng)用于神經(jīng)元活動(dòng)的偶極子源跟蹤問(wèn)題并在Xilinx Virtex 5 FPGA芯片上進(jìn)行了實(shí)現(xiàn)。數(shù)據(jù)并行架構(gòu)可充分發(fā)揮FPGA信號(hào)PE數(shù)量多、結(jié)構(gòu)可編程的特點(diǎn),可大幅節(jié)省執(zhí)行時(shí)間,但同時(shí)例化多個(gè)PE也會(huì)導(dǎo)致FPGA資源開(kāi)銷(xiāo)的增加。另一種任務(wù)并行架構(gòu)則側(cè)重于通過(guò)復(fù)雜時(shí)序和數(shù)據(jù)緩存設(shè)計(jì)來(lái)消解各濾波操作單元間的數(shù)據(jù)依賴性,使不同濾波操作單元可被同時(shí)計(jì)算,從而達(dá)到提高計(jì)算速度的目的。文獻(xiàn)[22-23]通過(guò)時(shí)序控制實(shí)現(xiàn)粒子預(yù)測(cè)單元與更新單元的流水并行計(jì)算,但各濾波操作單元復(fù)雜的時(shí)序關(guān)系不利于單元的更新迭代,也影響濾波器的可擴(kuò)展性。

        二是重采樣的FPGA實(shí)現(xiàn)。由于在重采樣步驟粒子權(quán)重歸一化的全局性和隨機(jī)采樣操作的結(jié)果依賴性,重采樣后的粒子索引難以進(jìn)行逐粒子并行計(jì)算,從而制約粒子濾波器FPGA實(shí)現(xiàn)的效率。為此,學(xué)者們開(kāi)展了大量研究。Bolic等24針對(duì)多PE的數(shù)據(jù)并行架構(gòu),提出了近似的分布式重采樣算法,不僅簡(jiǎn)化了各PE之間的數(shù)據(jù)通信,而且具有良好的并行性和可擴(kuò)展性,但在一定程度上是通過(guò)犧牲重采樣性能換取了計(jì)算效率。Schwiegelshohn等25-26提出了一種優(yōu)化重采樣算法,通過(guò)在每個(gè)真實(shí)粒子周?chē)胩摂M粒子來(lái)實(shí)現(xiàn)重采樣操作的并行化,但是這種方法會(huì)消耗大量資源。Murray等27通過(guò)將Metropolis重采樣算法引入粒子濾波重采樣步驟實(shí)現(xiàn)了重采樣操作的并行化,在圖形處理單元(graphic processing unit, GPU)上取得了較好的加速效果27,但并未討論Metropolis重采樣算法的FPGA實(shí)現(xiàn)。

        伯努利粒子濾波器在傳遞單目標(biāo)后驗(yàn)概率密度的同時(shí),還需要傳遞目標(biāo)存在概率并考慮目標(biāo)新生事件,在濾波原理上有別于一般單目標(biāo)粒子濾波器。因此,在上述研究基礎(chǔ)上進(jìn)一步討論伯努利粒子濾波器的FPGA實(shí)現(xiàn),具有重要的工程應(yīng)用價(jià)值和學(xué)術(shù)意義。鑒于雷達(dá)微弱信號(hào)檢測(cè)與估計(jì)問(wèn)題的重要性以及伯努利粒子濾波器在解決該問(wèn)題上表現(xiàn)出的優(yōu)異性能,這里以雷達(dá)微弱信號(hào)聯(lián)合檢測(cè)估計(jì)伯努利粒子濾波器的FPGA實(shí)現(xiàn)為例,介紹一種面積資源約束下的模塊化FPGA架構(gòu)及其加速實(shí)現(xiàn)方法,為伯努利粒子濾波器在智能無(wú)人飛行器、導(dǎo)引系統(tǒng)等嵌入式強(qiáng)實(shí)時(shí)環(huán)境下的應(yīng)用提供設(shè)計(jì)參考。

        1 伯努利粒子濾波器原理

        1.1 雷達(dá)微弱信號(hào)檢測(cè)估計(jì)問(wèn)題

        本文考慮典型高重頻脈沖多普勒雷達(dá)的微弱信號(hào)檢測(cè)估計(jì)問(wèn)題。假設(shè)感興趣多普勒波門(mén)內(nèi)最多有一個(gè)目標(biāo),則第k個(gè)相參處理間隔(coherent processing interval, CPI)的接收信號(hào)矢量zk可表示為

        H0:zk=vk

        H1:zk=η(xk)+vk(1)

        式中:H0和H1分別為無(wú)/有目標(biāo)情況下的假設(shè);xk=[x1,x2,x3]Tk=[φk,fk,ak]T為目標(biāo)狀態(tài)矢量,φk為第k個(gè)相干幀回波信號(hào)的初始相位,fk為目標(biāo)多普勒頻率,ak為目標(biāo)信號(hào)復(fù)幅度;vk為復(fù)高斯噪聲矢量,vk~CN(0,2σ2N·IL),σ2N為噪聲功率,L為相干積累點(diǎn)數(shù)或信號(hào)矢量長(zhǎng)度;η(xk):R2C→CL為非線性的觀測(cè)函數(shù),將目標(biāo)回波信號(hào)矢量記作sk=[sk,1,sk,2,…,sk,L]T,則其中的sk,l可表示為

        sk,l=ηl(xk)=ak·exp(j2πfk(l-1)Ts+φk),

        l=1,2,…,L(2)

        式中:Ts為采樣間隔,一般等于多普勒雷達(dá)脈沖重復(fù)間隔。定義相干積累后的瞬時(shí)信噪比ρk為

        ρk=L·|ak|22σ2N(3)

        因此,高重頻脈沖多普勒雷達(dá)微弱信號(hào)檢測(cè)估計(jì)問(wèn)題的一般性描述為:已知k時(shí)刻的觀測(cè)序列Zk=[z1,z1,…,zk],在信噪比ρk較低的情況下(一般遠(yuǎn)小于雷達(dá)可靠檢測(cè)目標(biāo)所要求的13 dB),判斷信號(hào)sk存在與否并估計(jì)目標(biāo)狀態(tài)xk。

        1.2 伯努利粒子濾波器的工作步驟

        伯努利粒子濾波器為解決上述檢測(cè)估計(jì)問(wèn)題提供了一種最優(yōu)解。根據(jù)伯努利粒子濾波器原理,后驗(yàn)分布fk|k(X)封裝了關(guān)于伯努利隨機(jī)有限集(random finite set, RFS)X與檢測(cè)和估計(jì)相關(guān)的28-29所有信息:

        fk|k(X)=

        1-pk|k, X=

        pk|k·fk|k(x), X={x}

        0, 其他

        (4)

        式中:X=表示目標(biāo)不存在(H0);X={x}表示目標(biāo)存在(H1),且其狀態(tài)x滿足概率密度函數(shù)f(x),存在概率為pk|k。在伯努利粒子濾波理論框架下,高重頻脈沖多普勒雷達(dá)微弱信號(hào)檢測(cè)估計(jì)可重新表述為:已知k時(shí)刻的觀測(cè)序列Zk、隨時(shí)間傳遞伯努利RFS Xk的后驗(yàn)概率密度f(wàn)k|k(X),并依此密度估計(jì)Xk。

        由于觀測(cè)轉(zhuǎn)換函數(shù)η(x)的強(qiáng)非線性,上述問(wèn)題的求解計(jì)算通常采用序貫蒙特卡羅(也稱粒子濾波)方法實(shí)現(xiàn),該方法隨時(shí)間傳遞伯努利RFS Xk的目標(biāo)存在概率pk∣k,以及以粒子集{x(n)k|k,ω(n)k|k}Nn=1形式近似的狀態(tài)后驗(yàn)概率密度f(wàn)k|k(x),其中x(n)k|k和ω(n)k|k分別為第n個(gè)粒子的狀態(tài)和權(quán)重。每個(gè)濾波周期包含預(yù)測(cè)、更新、重采樣和狀態(tài)提取4個(gè)步驟。整個(gè)伯努利粒子濾波器的數(shù)據(jù)流圖如圖1所示,各濾波步驟可簡(jiǎn)單描述如下。

        (1) 預(yù)測(cè)

        已知k-1時(shí)刻的粒子集{x(n)k-1|k-1,ω(n)k-1|k-1}Nn=1及存在概率pk-1∣k-1,則k時(shí)刻存在概率和粒子集的預(yù)測(cè)30可表示為

        pk∣k-1=pb(1-pk-1∣k-1)+pspk-1∣k-1(5)

        x(n)k|k-1~πk|k-1(x|x(n)k-1|k-1), n=1,2,…,N

        bk(x), n=N+1,N+2,…,N+B(6)

        ω(n)k|k-1=pspk-1∣k-1Npk∣k-1, n=1,2,…,N

        pb(1-pk-1∣k-1)Bpk∣k-1, n=N+1,N+2,…,N+B(7)

        式中:pb和ps分別為目標(biāo)新生概率和存活概率;N為存活粒子個(gè)數(shù);πk|k-1(x|xk-1|k-1)為狀態(tài)轉(zhuǎn)移密度;B為新生粒子數(shù);bk(x)為新生目標(biāo)的概率密度函數(shù)。

        (2) 更新

        已知預(yù)測(cè)存在概率和預(yù)測(cè)粒子集,則在獲得k時(shí)刻的觀測(cè)zk后,更新的后驗(yàn)存在概率為

        pk∣k≈pk∣k-1∑N+Bn=1lk(zk∣x(n)k∣k-1)ω(n)k∣k-11-pk∣k-1+pk∣k-1∑N+Bn=1lk(zk∣x(n)k∣k-1)ω(n)k∣k-1(8)

        更新后的粒子狀態(tài)和歸一化權(quán)重1

        x~(n)k|k=x(n)k|k-1, n=1,2,…,N+B(9)

        ω~(n)k|k=lk(zk∣x(n)k∣k-1)ω(n)k∣k-1∑N+Bn=1lk(zk∣x(n)k∣k-1)ω(n)k∣k-1(10)

        式中:lk(zk∣x(n)k∣k-1)為k時(shí)刻的量測(cè)似然比,其定義為

        lk(zk∣x(n)k∣k-1)g1(zk∣x(n)k∣k-1)g0(zk)(11)

        式中:g1(zk∣x)與g0(zk)分別為目標(biāo)存在和不存在時(shí)的似然函數(shù),依據(jù)式(1)模型,二者為復(fù)高斯形式,即有

        g1(zk|x)=CN2σ2N·IL(zk-η(x))(12)

        g0(zk)=CN2σ2N·IL(zk)(13)

        (3) 重采樣

        為避免粒子權(quán)重退化和粒子數(shù)量隨時(shí)間增長(zhǎng),需要進(jìn)行重采樣,即根據(jù)不同重采樣算法,從更新粒子集{x~(n)k|k,ω~(n)k|k}N+Bn=1中采樣,獲得權(quán)值均等的粒子集{x(n)k|k,ω(n)k|k}Nn=1,即

        x(n)k|k~fk|k(x)≈∑N+Bn=1δx~nk|k(x)ω~(n)k|k(14)

        ω(n)k|k=1N(15)

        (4) 狀態(tài)提取

        伯努利RFS Xk的狀態(tài)提取包括檢測(cè)與估計(jì)兩部分。首先依據(jù)pk∣k做檢測(cè)判決,得到目標(biāo)存在變量γ^k的估計(jì),判決表達(dá)式具體如下:

        γ^k=1, pk|k≥τ,τ∈(0,1)

        0, 其他(16)

        式中:τ為判決門(mén)限。

        若γ^k=1,則進(jìn)一步估計(jì)目標(biāo)狀態(tài)x^k,即

        x^k=∑N′n=1ω~(n)kx~(n)k∣k-1(17)

        1.3 FPGA設(shè)計(jì)實(shí)現(xiàn)要求

        本文實(shí)現(xiàn)的目標(biāo)是在一定的FPGA資源約束下,一是盡量降低輸入輸出(input and output, IO)延時(shí),從而可為后續(xù)處理留出盡可能多的處理時(shí)隙;二是盡量提高濾波計(jì)算速度,減少單步濾波計(jì)算時(shí)間,從而在每個(gè)濾波周期內(nèi)處理更多波門(mén)的檢測(cè)估計(jì),具體要求和約束如下。

        (1) 輸入zk:長(zhǎng)度為L(zhǎng)的復(fù)數(shù)序列,設(shè)計(jì)中L=250,數(shù)據(jù)類(lèi)型為16位有符號(hào)定點(diǎn)。

        (2) 輸出:檢測(cè)結(jié)果γ^k,數(shù)據(jù)類(lèi)型為布爾型;估計(jì)結(jié)果x^k,數(shù)據(jù)類(lèi)型為32位浮點(diǎn)。

        (3) 單次濾波計(jì)算時(shí)間Tc:完成一次濾波迭代計(jì)算所需要的總時(shí)間。基本要求是Tc小于雷達(dá)CPI,即Tc<TCPI,本文中TCPI=5 ms。但考慮可同時(shí)濾波的波門(mén)數(shù)量,要求Tc≤100 μs。

        (4) IO延遲時(shí)間TIO:定義為從讀取zk序列的第一個(gè)數(shù)據(jù)到輸出結(jié)果的時(shí)間,要求是在小于單步計(jì)算時(shí)間Tc的前提下越小越好。

        (5) 資源開(kāi)銷(xiāo)比:考慮系統(tǒng)其他功能的資源開(kāi)銷(xiāo)以及多個(gè)波門(mén)數(shù)據(jù)并行處理的需求,約定在Xilinx ZC706中,Kintex 7 FPGA芯片上的資源開(kāi)銷(xiāo)不大于30%。

        2 伯努利粒子濾波器實(shí)現(xiàn)架構(gòu)

        數(shù)據(jù)并行架構(gòu)通過(guò)例化多個(gè)計(jì)算單元實(shí)行并行處理,在減小總計(jì)算時(shí)間的同時(shí)會(huì)帶來(lái)資源消耗的成倍增加。依據(jù)上述設(shè)計(jì)要求,本設(shè)計(jì)需要在有限資源約束下實(shí)現(xiàn)最高執(zhí)行速度,因此優(yōu)先采用任務(wù)并行架構(gòu),主要通過(guò)對(duì)粒子濾波器各計(jì)算部件的模塊化設(shè)計(jì)和粒子計(jì)算的流水并行處理來(lái)提升計(jì)算效率,伯努利粒子濾波器FPGA實(shí)現(xiàn)的系統(tǒng)架構(gòu)如圖2所示。圖2系統(tǒng)架構(gòu)中的主要部件包括計(jì)算單元(processing unit, PU)、存儲(chǔ)單元(memory unit, MU)和控制單元(control unit, CU)3個(gè)部分。

        架構(gòu)中各主要部件的功能如下。PU完成濾波器的主要計(jì)算功能。在設(shè)計(jì)中,將濾波過(guò)程劃分為更新、狀態(tài)提取、重采樣、存活粒子預(yù)測(cè)、粒子新生、隨機(jī)數(shù)產(chǎn)生6個(gè)計(jì)算單元模塊。模塊化的設(shè)計(jì)有助于算法的更新迭代和重載,極大提高設(shè)計(jì)的靈活性。

        在濾波過(guò)程中,一方面,由于粒子狀態(tài)和權(quán)重需要迭代計(jì)算更新,因此需要分配空間進(jìn)行存儲(chǔ)。另一方面,各個(gè)PU之間數(shù)據(jù)流的設(shè)計(jì)也關(guān)系到最終執(zhí)行時(shí)間及資源的消耗。因此,設(shè)計(jì)中將MU分為兩部分:一部分用于粒子狀態(tài)和權(quán)重存儲(chǔ)的內(nèi)存空間;另一部分是PU之間的緩存空間。粒子的狀態(tài)和權(quán)重采用塊隨機(jī)存儲(chǔ)器(block random access memory, BRAM)進(jìn)行存儲(chǔ),即圖2中的MU1和MU2,數(shù)據(jù)類(lèi)型均為32位浮點(diǎn)。緩存空間分為3個(gè)部分:一是隨機(jī)數(shù)緩存MU3,用于重采樣、存活粒子預(yù)測(cè)和粒子新生單元,數(shù)據(jù)類(lèi)型均為32位浮點(diǎn)。粒子數(shù)量確定后,處理過(guò)程中隨機(jī)數(shù)的個(gè)數(shù)不發(fā)生變化。因此,在設(shè)計(jì)中,所有隨機(jī)數(shù)一次性全部生成,每次濾波過(guò)程將重新生成隨機(jī)數(shù)。二是重采樣單元輸出的粒子索引緩存MU4。三是存活粒子狀態(tài)緩存MU5。在存活粒子預(yù)測(cè)單元中,由于輸入的粒子索引是不連續(xù)的,如果同時(shí)對(duì)粒子狀態(tài)空間進(jìn)行讀寫(xiě),會(huì)大大增加內(nèi)存空間尋址的難度。因此,為預(yù)測(cè)后的粒子狀態(tài)單獨(dú)開(kāi)辟一個(gè)緩存,深度為存活粒子個(gè)數(shù)N。以上3個(gè)緩存均設(shè)計(jì)為先進(jìn)先出(first input first output, FIFO)存儲(chǔ)形式,不需要地址管理,簡(jiǎn)化了訪存操作,提高了模塊之間數(shù)據(jù)傳輸?shù)男?,同時(shí)可以靈活地配置內(nèi)存空間大小。

        CU的主要功能是產(chǎn)生系統(tǒng)各單元協(xié)調(diào)運(yùn)行所需的各種同步和觸發(fā)控制信號(hào),實(shí)現(xiàn)各單元和IO的時(shí)序控制。

        各個(gè)PU的執(zhí)行時(shí)序編排如圖3所示。時(shí)序編排的原則如下:一是與IO延遲相關(guān)的計(jì)算前置,最小化IO延時(shí);二是無(wú)數(shù)據(jù)和計(jì)算部件依賴的單元并行執(zhí)行,減少總計(jì)算時(shí)間。待觀測(cè)zk到達(dá)后,首先執(zhí)行更新步驟;由于狀態(tài)提取步驟基于重采樣之前的粒子,因此狀態(tài)提取可與重采樣單元并行執(zhí)行。由于隨機(jī)數(shù)單元可一次性產(chǎn)生一個(gè)濾波周期所需的所有隨機(jī)數(shù),因此隨機(jī)數(shù)產(chǎn)生單元也可與更新單元并行執(zhí)行。因此,單次濾波計(jì)算時(shí)間Tc=(2N+2B+LFFT+LPU1+LPU3+LPU4+LPU5)TCLK。由圖2可知,數(shù)據(jù)IO延遲為更新單元與狀態(tài)提取單元時(shí)間之和,即TIO=(2N+2B+LFFT+LPU1+LPU2)TCLK。其中,LPU1、LPU2、LPU3、LPU4和LPU5分別為更新、狀態(tài)提取、重采樣、存活粒子預(yù)測(cè)及粒子新生單元完成一個(gè)粒子計(jì)算所需的時(shí)鐘周期數(shù);LFFT為輸入數(shù)據(jù)完成快速傅里葉變換(fast Fourier transformation, FFT)所需要的周期數(shù);TCLK為系統(tǒng)時(shí)鐘周期。

        3 FPGA并行優(yōu)化方法

        為了進(jìn)一步提高濾波計(jì)算速度,減小運(yùn)行時(shí)間,本節(jié)通過(guò)數(shù)組分層和并行化重采樣兩種通用的優(yōu)化方法加快濾波運(yùn)算速度。

        3.1 數(shù)組分層優(yōu)化

        式(17)中采用加權(quán)和計(jì)算的方式對(duì)目標(biāo)狀態(tài)進(jìn)行提取,其實(shí)現(xiàn)的邏輯電路如圖4(a)所示。目標(biāo)的每一維狀態(tài)提取均需進(jìn)行N+B次乘累加運(yùn)算,且由于其輸出要反饋到輸入,導(dǎo)致相鄰兩次累加運(yùn)算之間存在依賴性,將會(huì)增加所需要的時(shí)鐘周期,進(jìn)而增加計(jì)算時(shí)間。

        針對(duì)此問(wèn)題,提出了一種數(shù)組分層求和的方法,對(duì)累加和數(shù)組分為兩層進(jìn)行計(jì)算。首先,將數(shù)組等量切分為4個(gè)子數(shù)組,如圖4(b)中的MU1i、MU2i(i=1,2,3,4)。然后,分別計(jì)算每個(gè)子數(shù)組的累加和。最后,再對(duì)結(jié)果進(jìn)行求和計(jì)算,得到目標(biāo)狀態(tài)。數(shù)組分層后的邏輯電路圖如圖4(b)所示。

        經(jīng)過(guò)數(shù)組分層計(jì)算,4個(gè)子數(shù)組的乘累加運(yùn)算可以并行執(zhí)行,因此時(shí)間相較于優(yōu)化之前節(jié)省了3/4,且整個(gè)運(yùn)算過(guò)程僅增加了3個(gè)乘法器和3個(gè)加法器。

        通過(guò)數(shù)組分層計(jì)算,以較小的資源代價(jià)將累加和運(yùn)算部分的執(zhí)行時(shí)間減小至原來(lái)的1/4。

        3.2 并行化重采樣

        在傳統(tǒng)的重采樣算法,如系統(tǒng)重采樣、殘差重采樣等算法中,首先需要計(jì)算歸一化粒子權(quán)重的累加和序列,并根據(jù)隨機(jī)數(shù)與累加和序列比較的結(jié)果選擇粒子。這些算法的粒子選擇存在較強(qiáng)的數(shù)據(jù)依賴性,不易于并行化處理。本節(jié)針對(duì)此問(wèn)題,基于Metropolis重采樣算法設(shè)計(jì)了粒子流水并行采樣的重采樣單元。

        在Metropolis重采樣算法中,對(duì)于每一個(gè)粒子,在經(jīng)過(guò)D次迭代之后,算法將認(rèn)為已經(jīng)收斂到正確的粒子分布27。其偽代碼如算法1所示。

        算法 1 Metropolis重采樣算法

        a=Metropolis(N,ω):ω∈RN+B→RN

        1. for i=1 to N do

        2." k=i;

        3." for n=1 to D do

        4.u~U[0,1];

        5.j~U[1,2,…,N+B];

        6.if u≤ωj/ωk then

        7. k=j;

        8.end if

        9." end for

        10." ai=k;

        11. end for

        由上述算法的偽代碼可以看出,在Metropolis重采樣算法中,每個(gè)粒子的采樣僅依賴于隨機(jī)的兩個(gè)權(quán)重,而不需要計(jì)算累加和序列。因此,在設(shè)計(jì)中,將重采樣模塊并行處理,解決了傳統(tǒng)重采樣算法中粒子之間的依賴問(wèn)題。

        4 實(shí)驗(yàn)驗(yàn)證與測(cè)試

        本節(jié)在Xilinx ZC706評(píng)估板中的Kintex 7 FPGA芯片上實(shí)現(xiàn)了上述設(shè)計(jì)。首先,給出設(shè)計(jì)實(shí)現(xiàn)結(jié)果,對(duì)照第1.3節(jié)FPGA設(shè)計(jì)實(shí)現(xiàn)要求,評(píng)估設(shè)計(jì)實(shí)現(xiàn)結(jié)果。然后,將伯努利粒子濾波器算法在FPGA上的實(shí)現(xiàn)結(jié)果與其在CPU上的實(shí)現(xiàn)結(jié)果進(jìn)行一致性對(duì)比,驗(yàn)證實(shí)現(xiàn)的正確性。接著,對(duì)比分析了伯努利粒子濾波器算法在FPGA上實(shí)現(xiàn)的加速性能。最后,對(duì)設(shè)計(jì)的靈活性和可擴(kuò)展性進(jìn)行測(cè)試。設(shè)計(jì)中的參數(shù)配置如表1所示。各個(gè)PU對(duì)應(yīng)的時(shí)間消耗情況如表2所示。觸發(fā)器(flip flop, FF)、查找表(look up table, LUT)、BRAM及數(shù)字信號(hào)處理器片(digital signal processor slices, DSP Slices)等的資源開(kāi)銷(xiāo)如表3所示。

        由第3節(jié)計(jì)算公式和上述結(jié)果可知,單次濾波執(zhí)行時(shí)間為80.4 μs,數(shù)據(jù)IO延時(shí)為67.01 μs,且各項(xiàng)資源占用率控制在30%以內(nèi),實(shí)現(xiàn)結(jié)果達(dá)到設(shè)計(jì)中對(duì)時(shí)間和資源的要求。下面對(duì)上述設(shè)計(jì)實(shí)現(xiàn)結(jié)果進(jìn)行驗(yàn)證和測(cè)試。

        4.1 一致性驗(yàn)證

        為了驗(yàn)證FPGA設(shè)計(jì)實(shí)現(xiàn)的正確性,在同樣的輸入數(shù)據(jù)和參數(shù)配置下,將FPGA與CPU計(jì)算環(huán)境下的實(shí)現(xiàn)結(jié)果進(jìn)行對(duì)比,統(tǒng)計(jì)輸出結(jié)果的一致性。參數(shù)配置如表1所示,設(shè)置目標(biāo)多普勒頻率為-500 Hz,統(tǒng)計(jì)500幀數(shù)據(jù)并進(jìn)行對(duì)比,在兩種不同計(jì)算環(huán)境下的目標(biāo)檢測(cè)結(jié)果如圖5所示,圖中縱坐標(biāo)中的數(shù)值0代表未檢測(cè)出目標(biāo),1代表檢測(cè)出目標(biāo)。目標(biāo)狀態(tài)中的多普勒頻率估計(jì)結(jié)果如圖6所示。

        通過(guò)對(duì)圖5中的結(jié)果進(jìn)行統(tǒng)計(jì)可知,在CPU與FPGA計(jì)算環(huán)境下檢測(cè)出的目標(biāo)的幀數(shù)分別為493與491,檢測(cè)正確率分別為98.6%與98.2%。

        由圖6結(jié)果可以看出,兩種不同計(jì)算環(huán)境下的多普勒頻率估計(jì)結(jié)果基本一致,且與真值相差不大。接下來(lái),對(duì)其均值和誤差進(jìn)行量化統(tǒng)計(jì)。由于濾波過(guò)程需要一定的收斂時(shí)間,因此在初始階段偏差較大。去除統(tǒng)計(jì)過(guò)程中的前3幀數(shù)據(jù)后,兩種不同計(jì)算環(huán)境下處理結(jié)果的均值與誤差數(shù)據(jù)如表4所示。

        從表4中的處理結(jié)果可以計(jì)算得到,F(xiàn)PGA與CPU計(jì)算環(huán)境下的估計(jì)均值相差僅0.44 Hz,且與真實(shí)值的誤差遠(yuǎn)遠(yuǎn)小于多普勒分辨率200 Hz。

        綜上所述,由檢測(cè)和狀態(tài)估計(jì)結(jié)果分析可以得出,F(xiàn)PGA計(jì)算環(huán)境與CPU計(jì)算環(huán)境下的結(jié)果具有統(tǒng)計(jì)一致性。

        4.2 加速性能測(cè)試

        為了進(jìn)一步驗(yàn)證所提FPGA設(shè)計(jì)實(shí)現(xiàn)的并行加速性能,首先開(kāi)展FPGA計(jì)算環(huán)境與Intel Core i3 4130 CPU計(jì)算環(huán)境下處理時(shí)間的對(duì)比實(shí)驗(yàn)。定義加速比為CPU與FPGA計(jì)算環(huán)境下的單次濾波計(jì)算時(shí)間之比,加速比測(cè)試結(jié)果如圖7所示。從圖7可以看出,F(xiàn)PGA計(jì)算環(huán)境下的執(zhí)行速度約為Intel Core i3 4130 CPU下執(zhí)行速度的0.7~1.2萬(wàn)倍,且加速比隨著粒子數(shù)量的增加而增加。其次,為了驗(yàn)證所提并行加速方案的加速效果,對(duì)進(jìn)行數(shù)組分層和并行化重采樣優(yōu)化前后的IO延遲和單次濾波計(jì)算時(shí)間結(jié)果進(jìn)行對(duì)比,計(jì)算環(huán)境均為FPGA,結(jié)果如圖8所示。

        由圖8中的數(shù)據(jù)可知,優(yōu)化后數(shù)據(jù)IO延遲約降低了55.9%,單次濾波計(jì)算時(shí)間降低約76.1%,證實(shí)了數(shù)組分層優(yōu)化及并行化重采樣方法的有效性。

        4.3 可擴(kuò)展性測(cè)試

        為了驗(yàn)證設(shè)計(jì)架構(gòu)的可擴(kuò)展性,本實(shí)驗(yàn)在粒子數(shù)不同的情況下,評(píng)估FPGA實(shí)現(xiàn)資源占用的情況。在本設(shè)計(jì)中,隨著粒子數(shù)的增加,F(xiàn)F、DSP Slices及LUT的消耗幾乎不發(fā)生變化,但由于設(shè)計(jì)中內(nèi)存及緩存大小與粒子數(shù)直接相關(guān),因此統(tǒng)計(jì)不同粒子數(shù)下BRAM的資源占用情況如圖9所示。

        從圖9中的數(shù)據(jù)可以看出,隨著粒子數(shù)量的增加,BRAM資源占用也在相應(yīng)地增加,且當(dāng)粒子數(shù)量超過(guò)1 024時(shí),粒子數(shù)與資源占比大致呈線性關(guān)系,表明設(shè)計(jì)架構(gòu)具有良好的可擴(kuò)展性。

        5 結(jié) 論

        為了提高伯努利粒子濾波器的實(shí)時(shí)處理性能,本文提出了一種高速FPGA實(shí)現(xiàn)架構(gòu)。首先,通過(guò)模塊化的頂層設(shè)計(jì),提升了靈活性和可擴(kuò)展性;其次,提出了數(shù)組分層優(yōu)化和重采樣算法并行化的方法,大大降低了濾波器運(yùn)算時(shí)間?;赬ilinx ZC706評(píng)估板的實(shí)驗(yàn)結(jié)果表明,在性能與CPU處理保持統(tǒng)計(jì)一致性的前提下,在粒子數(shù)為1 024時(shí),F(xiàn)PGA運(yùn)行環(huán)境下的計(jì)算速度是CPU的約10 000倍,實(shí)時(shí)處理性能得到較大提升。本文的FPGA實(shí)現(xiàn)方法對(duì)于伯努利粒子濾波技術(shù)在雷達(dá)、制導(dǎo)與導(dǎo)航等其他領(lǐng)域的應(yīng)用具有重要參考價(jià)值。

        參考文獻(xiàn)

        [1]蔡飛. 雷達(dá)弱小目標(biāo)檢測(cè)與跟蹤技術(shù)研究[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2015.

        CAI F. Research on detection and tracking technologies for dim targets in radar[D]. Changsha: National University of Defense Technology, 2015.

        [2]LIANG T, BATTISTELLI G, CHISCI L, et al. Joint emitter detection and tracking based on the Bernoulli filter[C]∥Proc.of the 26th International Conference on Information Fusion, 2023.

        [3]CHENG X, JI H B, ZHANG Y Q. Effective implementation and improvement of fast labeled multi Bernoulli filter[J]. Journal of Systems Engineering and Electronics, 2023, 34(3): 661-673.

        [4]DAVIES E S, GARCIA FERNANDEZ A F. Information exchange track before detect multi Bernoulli filter for superpositional sensors[J]. IEEE Trans.on Signal Processing, 2024, 72: 607-621.

        [5]ISHTIAQ N, GOSTAR A K, BAB HADIASHAR A, et al. Interaction aware labeled multi Bernoulli filter[J]. IEEE Trans.on Intelligent Transportation Systems, 2023, 24(11): 11668-11681.

        [6]陳壯壯, 宋驪平. 機(jī)動(dòng)目標(biāo)跟蹤的交互多模型泊松多伯努利混合濾波[J]. 系統(tǒng)工程與電子技術(shù), 2024, 46(3): 786-794.

        CHEN Z Z, SONG L P. Interacting multiple model Poisson multi Bernoulli mixture filter for tracking maneuvering targets[J]. Systems Engineering and Electronics, 2024, 46(3): 786-794.

        [7]CHISHOLM T, LINS R, GIVIGI S. FPGA based design for real time crack detection based on particle filter[J]. IEEE Trans.on Industrial Informatics, 2020, 16(9): 5703-5711.

        [8]KIM D, LEE H, KWON H H, et al. Parallelized particle filter with efficient pipelining on FPGA for real time ballistic target tracking[J]. IEEE Access, 2023, 11: 104830-104838.

        [9]KIM D, HAN Y, LEE H, et al. Accelerated particle filter with GPU for real time ballistic target tracking[J]. IEEE Access, 2023, 11: 12139-12149.

        [10]TANG X Y, FU Z J. CPU GPU utilization aware energy efficient scheduling algorithm on heterogeneous computing systems[J]. IEEE Access, 2020, 8: 58948-58958.

        [11]SZWOCH G. Performance evaluation of the parallel object tracking algorithm employing the particle filter[C]∥Proc.of the IEEE Conference on Signal Processing: Algorithms, Architectures, Arrangements, and Applications, 2016: 119-124.

        [12]KRISHNA A, SCHAIK A V, THAKUR C S. FPGA implementation of particle filters for robotic source localization[J]. IEEE Access, 2021, 9: 98185-98203.

        [13]DIAKITE D, GAC N. X ray tomography reconstruction acce lerated on FPGA through high level synthesis tools[J]. IEEE Trans.on Biomedical Circuits and Systems, 2023, 17(2): 375-389.

        [14]ZHANG J H, HE X, ZHAO G, et al. FPGA implementation for finite time and fixed time neurodynamic algorithms in constrained optimization problems[J]. IEEE Trans.on Circuits and Systems I: Regular Papers, 2023, 70(9): 3584-3597.

        [15]SUN H, DENG Q, LIU X Z, et al. An energy efficient stream based FPGA implementation of feature extraction algorithm for LiDAR point clouds with effective local search[J]. IEEE Trans.on Circuits and Systems I: Regular Papers, 2023, 70(1): 253-265.

        [16]ZHOU X W, ZHAO D D, GENG Z S, et al. FPGA implementation of non commensurate fractional order state space models[J]. IEEE Trans.on Circuits and Systems I: Regular Papers, 2023, 70(9): 3639-3652.

        [17]汪敏, 馮一倫, 蔣彥雯, 等. 雷達(dá)波形通用調(diào)制引擎設(shè)計(jì)[J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(6): 1684-1692.

        WANG M, FENG Y L, JIANG Y W, et al. Design of general modulation engine for radar waveform[J]. Systems Engineering and Electronics, 2023, 45(6): 1684-1692.

        [18]TAHARA A, HAYASHIDA Y, THU T T, et al. Power performance analysis of FPGA based particle filtering for realtime object tracking[C]∥Proc.of the Conference on Complex, Intelligent, and Software Intensive Systems, 2018: 451-462.

        [19]HONG S J, CHIN S S, DJURIC P M, et al. Design and implementation of flexible resampling mechanism for high speed parallel particle filters[J]. Journal of VLSI Signal Processing, 2006, 44(1/2): 47-62.

        [20]EL HALYM H A A, MAHMOUD I I, HABIB S. Proposed hardware architectures of particle filter for object tracking[J]. EURASIP Journal on Advances in Signal Processing, 2012: 17.

        [21]MIAO L F, ZHANG J J, CHAKRABARTI C, et al. Efficient Bayesian tracking of multiple sources of neural activity: algorithms and real time FPGA implementation[J]. IEEE Trans.on Signal Processing, 2013, 61(3): 633-647.

        [22]ALAM S A, GUSTAFSSON O. Improved particle filter resampling architectures[J]. Journal of Signal Processing Systems, 2020, 92(6): 555-568.

        [23]AKSHAY A, BOLIC M, SANGJIN H, et al. Generic hardware architectures for sampling and resampling in particle filters[J]. EURASIP Journal on Advances in Signal Processing, 2005(17): 476167.

        [24]BOLIC M, DJURIC P M, HONG S J. Resampling algorithms and architectures for distributed particle filters[J]. IEEE Trans.on Signal Processing, 2005, 53(7): 2442-2450.

        [25]SCHWIEGELSHOHN F, OSSOVSKI E, HUBNER M. A fully parallel particle filter architecture for FPGAs[C]∥Proc.of the Conference on Applied Reconfigurable Computing, 2015: 91-102.

        [26]SCHWIEGELSHOHN F, OSSOVSKI E, HBNER M. A resamp ling method for parallel particle filter architectures[J]. Microprocessors and Microsystems, 2016, 47: 314-320.

        [27]MURRAY L M, LEE A, JACOB P E. Parallel resampling in the particle flter[J]. Journal of Computational and Graphical Statistics, 2016, 25(3): 789-805.

        [28]辛懷聲, 宋鵬漢, 曹晨. 多模型廣義標(biāo)簽多伯努利濾波器[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(12): 3603-3613.

        XIN H S, SONG P H, CAO C. Multiple model based generali zed labeled muti Bernoulli filter[J]. Systems Engineering and Electronics, 2022, 44(12): 3603-3613.

        [29]吳孫勇, 鄒寶紅, 薛秋條, 等. 基于單快拍空間平滑的多伯努利DOA跟蹤算法[J]. 系統(tǒng)工程與電子技術(shù), 2021, 43(9): 2430-2438.

        WU S Y, ZOU B H, XUE Q T, et al. DOA tracking algorithm based on single snapshot spatial smoothing with multi Bernoulli[J]. Systems Engineering and Electronics, 2021, 43(9): 2430-2438.

        [30]GNING A, RISTIC B, MIHAYLOVA L. Bernoulli particle/box particle filters for detection and tracking in the presence of triple measurement uncertainty[J]. IEEE Trans.on Signal Processing, 2012, 60(5): 2138-2151.

        作者簡(jiǎn)介

        連紅飛(1997—),男,博士研究生,主要研究方向?yàn)楹撩撞ɡ走_(dá)陣列成像、嵌入式實(shí)時(shí)信號(hào)處理。

        李東升(1994—),男,博士研究生,主要研究方向?yàn)槎嗄恳曈X(jué)即時(shí)定位與地圖創(chuàng)建、目標(biāo)跟蹤。

        蔣彥雯(1991—),女,副教授,博士,主要研究方向?yàn)殛嚵欣走_(dá)成像、精確制導(dǎo)應(yīng)用。

        范紅旗(1978—),男,研究員,博士,主要研究方向?yàn)橹鲃?dòng)感知系統(tǒng)、目標(biāo)跟蹤、信息融合與智能導(dǎo)引。

        肖懷鐵(1966—),男,教授,博士,主要研究方向?yàn)樽詣?dòng)目標(biāo)識(shí)別、 雷達(dá)信號(hào)處理、機(jī)器學(xué)習(xí)。

        王國(guó)嫣(1989—),女,講師,博士,主要研究方向?yàn)榧す?、多目視覺(jué)即時(shí)定位與地圖創(chuàng)建、多源信息融合、人機(jī)交互。

        厨房玩丰满人妻hd完整版视频| 偷拍视频这里只有精品| 日本成人中文字幕亚洲一区| 区一区二区三区四视频在线观看 | 久久亚洲国产成人亚| 一级无码啪啪| 色婷婷精品午夜在线播放| 日本精品一区二区三区二人码| 日本真人做爰免费视频120秒| 蜜桃无码一区二区三区| 亚洲男人天堂| 国产美女a做受大片免费| 国产精品亚洲av无人区一区蜜桃| 日韩中文字幕不卡在线| 一区二区三区美女免费视频| 精品亚洲a∨无码一区二区三区| 国产乱码一区二区三区爽爽爽| 日日碰狠狠躁久久躁| 99视频一区| 精品中文字幕手机在线| 白色白色视频在线观看| 中文字幕隔壁人妻欲求不满 | 国精品无码一区二区三区在线看| 中文字幕亚洲精品码专区| 一区二区三区四区国产亚洲| 亚洲一区二区三区少妇| 国产丝袜美女一区二区三区 | 98久9在线 | 免费| 国产精品系列亚洲第一| 中文字幕人妻一区色偷久久| 亚洲精品第四页中文字幕 | 成人自拍一二在线观看| 欧美黑人巨大videos精品| 99国产精品久久久蜜芽| 欧美xxxx黑人又粗又长精品| 欧美日韩中文字幕久久伊人| 中国少妇和黑人做爰视频| 国产乱淫h侵犯在线观看| 欧美性猛交aaaa片黑人| 亚洲国产另类精品| 狠狠干视频网站|