亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于X86架構CPU的雷達信號處理算法研究

2017-05-18 08:51:12魏夢瑤

電子科技 2017年5期

關鍵詞：優(yōu)化

魏夢瑤

(中國電子科技集團公司第20研究所雷達事業(yè)部, 陜西西安 710068)

基于X86架構CPU的雷達信號處理算法研究

魏夢瑤

(中國電子科技集團公司第20研究所雷達事業(yè)部, 陜西西安 710068)

介紹了利用X86架構通用CPU完成強實時的雷達信號處理任務的優(yōu)化方法。在ICC與FFTW程序優(yōu)化的基礎上，采用多線程編程技術(OpenMP)進行并行優(yōu)化設計，通過內(nèi)存拷貝和改變恒虛警率(CFAR)程序結構的方式進一步提高算法的處理速率。程序運行時間表明，優(yōu)化后實時處理時間能夠控制在一個雷達處理周期2.16 ms內(nèi)，滿足雷達信號處理實時性的要求。

CPU；信號處理；OpenMP；內(nèi)存拷貝

雷達信號處理算法具有高密度、低數(shù)據(jù)量、時延敏感、浮點計算密集、算法集中簡單等特點，工程應用中主要基于FPGA與DSP等嵌入式硬件開發(fā)實現(xiàn)，運算量大，雷達信號實時性較弱，實時處理較困難。隨著X86架構通用CPU運算性能的大幅提升、軟件生態(tài)環(huán)境的進一步優(yōu)化、并行及低延時網(wǎng)絡編譯方法的逐步成熟，使得利用X86架構通用CPU完成強實時的雷達信號處理任務成為可能[1]。X86架構通用CPU具有良好的軟件生態(tài)環(huán)境，能夠更好的支撐服務性軟件開發(fā)方法的實現(xiàn)，服務性軟件開發(fā)方法在軟硬件解耦、功能快速更新、切換，支持第三方開發(fā)、技術迭代進步快速等優(yōu)勢[2]。本文在X86架構通用CPU上實現(xiàn)雷達信號處理，采用多種優(yōu)化方法逐步提高信號處理的效率，通過對比各優(yōu)化方法下程序運行時間驗證最終的優(yōu)化效果。

1 相關優(yōu)化技術

本文選取雷達信號處理中最具代表性的脈沖壓縮、動目標檢測(MTD)和CFAR算法進行程序優(yōu)化，程序流程如圖1所示[3]。分析信號處理程序的運算量發(fā)現(xiàn)，其中最耗時的是FFT(Fast Fourier Transformation)運算，尤其體現(xiàn)在脈沖壓縮部分，如何提高脈沖壓縮部分FFT的運行速度是首要考慮的問題[4]。其次，編譯器的性能與使用并行程序設計也是提高信號處理的實時性的重要方法。

圖1 信號處理程序示意圖

FFTW是快速計算離散傅里葉變換的標準C語言程序集，可計算一維或多維實數(shù)和復數(shù)數(shù)據(jù)以及任意規(guī)模的離散傅里葉變換,且支持輸入任意長度及多維數(shù)據(jù)[5]，較好地解決了FFT運算量大的問題。Intel公司開發(fā)的ICC編譯器優(yōu)化效果最佳，該編譯器針對特定的矩陣運算、中間文件、目標文件甚至是語義層次上進行了深度優(yōu)化。

圖2 OpenMP并行編譯流程

并行程序設計部分可采用多線程編程技術OpenMP(Open Multi-Processing)進行編譯優(yōu)化處理[6]，其編譯流程如圖2所示。OpenMP為線程級共享存儲體系結構的并行編程語言[7]，能夠克服MPI等并行處理方法在網(wǎng)絡延時開銷等方面的缺點[8]，適合應用于多核心節(jié)點上需要提升時間性能的多線程應用程序設計[9]。

2 方案設計與實現(xiàn)

為充分體現(xiàn)基于ICC與FFTW程序優(yōu)化的有效性[10]，本文選用數(shù)據(jù)量較大的一組線性調(diào)頻信號對不同編譯條件下脈沖壓縮部分的運行時間進行對比。設雷達發(fā)射脈寬為40 μs，工作重復周期150 μs，信號帶寬10 MHz，采樣頻率10 MHz，脈沖數(shù)26,對其中最耗時的脈沖壓縮部分進行26組2 048點的FFT，采用串行化程序調(diào)用FFTW函數(shù)庫實現(xiàn)。

表1 不同執(zhí)行次數(shù)下脈沖壓縮運行時間對比

由表1的執(zhí)行結果可知，前3次程序運行時間較長,第4次之后程序運行時間逐漸穩(wěn)定。為了表明優(yōu)化效果的準確性，在同一優(yōu)化條件下將程序運行10次，取第4～10次的平均值為可參考的運行時間。在不同的硬件環(huán)境下使用GCC與ICC兩種編譯器對代碼進行編譯[11]，對比兩種編譯器的處理性能的同時，設立不使用FFTW的對照方案，用以說明FFTW庫的優(yōu)化效果[12]。

表2 不同編譯條件下脈沖壓縮運行時間對比

由表2的執(zhí)行結果可知，對于串行化的程序，使用FFTW函數(shù)庫與使用時域卷積代替FFTW函數(shù)庫的運行結果差異明顯，微軟的VC編譯器編譯后代碼的執(zhí)行效率明顯低于其他兩個編譯器。對比程序執(zhí)行結果，通過ICC編譯器進行編譯層優(yōu)化[13]，同時使用FFTW函數(shù)庫進行快速傅里葉計算為其中運行速度最快的方案。

由于沒有發(fā)揮多核CPU的并行性能，表2中單核與多核CPU上的執(zhí)行效率差異不大[14]。下面有針對性地對3個模塊的代碼運行時間進行分析，選擇信號時寬為60 μs，工作重復周期270 μs，采樣頻率10 MHz，脈沖數(shù)8的線性調(diào)頻信號。該數(shù)據(jù)量下脈沖壓縮部分進行8組4 096點傅里葉正變換和8組4 096點傅里葉逆變換，MTD部分進行2 700組8點FFT，雷達信號處理周期為270 μs×8=2.16 ms，若要滿足雷達實時處理需求，代碼運行時間必須<2.16 ms。

分析圖2的OpenMP并行編譯流程，其中對multiplication函數(shù)中原本串行的for循環(huán)任務進行了并行處理，對能同時應用于脈沖壓縮、MTD、CFAR3個模塊的OpenMP并行編譯實現(xiàn)。在程序中for循環(huán)不用依次執(zhí)行，可將循環(huán)中的多條語句同時執(zhí)行，scaleValue、sliceData與multiplication函數(shù)類似[15]，即length次for循環(huán)并行化，同時每次for循環(huán)的結果相互獨立。

由表3的執(zhí)行結果可知，使用OpenMP并行優(yōu)化前，僅脈沖壓縮部分運行時間為3.2 ms，遠大于一個雷達處理周期所需的2.16 ms，使用OpenMP并行優(yōu)化設計后程序運行時間為1.046 ms，僅脈沖壓縮部分可將運行時間縮短為原先的1/3。分析MTD算法特點發(fā)現(xiàn)，該部分并行處理特征明顯，可通過在OpenMP的基礎上進行內(nèi)存拷貝的方式，進一步提高算法的處理速率。對8脈沖的線性調(diào)頻信號分別進行2 700點的脈沖壓縮，將脈沖壓縮后的數(shù)據(jù)重新排列為8×2 700點的矩陣，矩陣采用內(nèi)存拷貝，將內(nèi)存complexArray+leftIndex處的rightIndex-leftIndex+1個fftw_complex結構拷貝到inArray+inLeftIndex處，充分提高拷貝效率。

由表4的執(zhí)行結果可知，在脈沖壓縮后對重排后的矩陣采用內(nèi)存拷貝方式處理，大幅降低了代碼的運行時間。以上分別對脈沖壓縮和MTD部分進行針對性的優(yōu)化，下面對CFAR部分的結構進行分析，尋找優(yōu)化途徑。CFAR模塊的主體復雜度為3層for循環(huán)，由此看出CFAR的計算量很大，通過研究最內(nèi)部的100次循環(huán)可知，內(nèi)部100次循環(huán)主要是在累加求和，同時后一次的100個循環(huán)的值和前一次100個循環(huán)的值存在著較大關聯(lián)，可以通過前一次100個循環(huán)計算出來的累加值，直接計算出后一次需要100個循環(huán)累加求和的值，如圖3所示。

圖3 CFAR優(yōu)化流程

對比第n次循環(huán)和第n+1次循環(huán)的求和位置可知，前后兩個Refer共同存在的一部分數(shù)據(jù)為d2和d5，因此，可以得到另一種求和的計算方法

LValuen+1=d2+d3-d1

(1)

即對n+1次循環(huán)左側求和

RValuen+1=d5+d6-d4

(2)

即對n+1次循環(huán)右側求和，表5為使用該優(yōu)化方法前后代碼的運行時間對比。

表4 內(nèi)存拷貝運行時間對比

表5 CFAR優(yōu)化運行時間對比

由表5的執(zhí)行結果可知，通過以上優(yōu)化方法對算法進行處理，最終代碼的運行時間為1.046+0.090+0.286 =1.422 ms，明顯小于一個雷達處理周期270 μs×8=2.16 ms，滿足雷達信號處理實時性要求，說明了以上優(yōu)化方法的正確性與可行性。

3 結束語

本文介紹了基于X86架構CPU的雷達信號處理算法優(yōu)化方法，使用優(yōu)化后大幅縮短了信號處理時間，對信號處理實時性方面有較大改善。在ICC與FFTW程序優(yōu)化提高脈沖壓縮運算速度的基礎上，將OpenMP并行編譯優(yōu)化應用于脈沖壓縮、MTD和CFAR3個模塊，對MTD采用內(nèi)存拷貝的方式提高處理速率，通過優(yōu)化算法降低了CFAR運算量，使得信號處理運行時間明顯減少。然而，不同架構的CPU本身對底層匯編代碼的執(zhí)行也有著不同的優(yōu)化策略，理論上較新架構CPU對匯編代碼執(zhí)行更快。因此，面對不斷加快的信號處理實時性要求，需繼續(xù)對更新架構CPU進行研究。

[1] Intel Corporation.Intel’s haswell CPU microarchitecture[EB/OL].(2012-11-13)[2016-12-25]http://www.realwo-rldtech.com/haswell-cpu/2/.

[2] 英特爾亞太研發(fā)有限公司組編.處理器架構[M].上海:上海交通大學出版社,2011.

[3] 陳伯孝.現(xiàn)代雷達系統(tǒng)分析與設計[M].西安:西安電子科技大學出版社,2012.

[4] Frigo M.FFTW home page[EB/OL].(2010-10-20)[2016-12-25]http://www.fftw.org.

[5] Frigo M,Johnson S G.The design and implementation of FFTW3[J].Proceedings of the IEEE,2014,93(2):216-231.

[6] 劉珺.基于OpenMP的色素介質(zhì)FDTD并行程序設計[J].電子科技,2015,28(7):21-23.

[7] Barbara Chapman.USING OpenMP[M].MA,USA:MIT Press,2007.

[8] Michael J Quinn.并行程序設計C、MPI與OpenMP[M].北京:清華大學出版社,2005.

[9] 羅秋明.OpenMP編譯原理及實現(xiàn)技術[M].北京:清華大學出版社,2012.

[10] FFTW Organization.FFT benchmark results[EB/OL].(2010-10-20)[2016-12-25]http://www.fftw.org/speed/.

[11] GNU Organization.Using the GNU Compiler Collection(GCC)[EB/OL]. (2012-11-23)[2016-12-26]https://gcc. gnu. org/on line docs/gcc-4.4.7/gcc/.

[12] Abedalmuhdi Almomany,Afnan Alquraan,Lakshmy Balachandran.GCC vs.ICC comparison using PARSEC benchmarks[J].IJITEE,2014,4(7):325-336.

[13] Stephen Blair-Chappell,Andrew Stoke.Intel Parallel Studio環(huán)境下的并行程序設計[M].北京:清華大學出版社,2013.

[14] 英特爾亞太研發(fā)有限公司,北京并行科技公司.釋放多核潛能:英特爾Parallel Studio并行開發(fā)指南[M].北京:清華大學出版社,2010.

[15] 潘小敏.基于共享內(nèi)存的高效OpenMP并行多層快速多級子算法[J].北京理工大學學報，2012,32(2):164-169.

Research on Radar Signal Processing Based on the X86 CPU

WEI Mengyao

(Radar Division, 20th Research Institute of China Electronics Technology Group Corporation, Xi’an 710068, China)

This paper introduces the optimization by using X86 architecture general CPU for strong real-time radar signal processing tasks. Based on the optimization of ICC and FFTW, multi-thread programming (OpenMP) is used to optimize the design to reduce the processing speed of the algorithm by means of memory copy and changing the CFAR program structure. The running time of the program shows that the optimized real-time processing time can be controlled within 2.16 ms of a radar processing cycle, meeting the real-time requirement of radar signal processing.

CPU; signal processing; OpenMP; memory copy

2017- 02- 16

國家自然科學基金青年基金(61306047)

魏夢瑤(1989-)，女，碩士，助理工程師。研究方向：雷達信號處理。

10.16180/j.cnki.issn1007-7820.2017.05.015

TN959.3

1007-7820(2017)05-055-04