亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

嵌入式GPU滑動聚束SAR實時成像方法

2020-10-21 07:21:16胡善清李慧星李炳沂謝宜壯陳亮陳禾

北京理工大學學報 2020年9期

胡善清，李慧星，李炳沂，謝宜壯，陳亮，陳禾

(1. 北京理工大學信息與電子學院雷達技術(shù)研究所，北京 100081；2.嵌入式實時信息處理技術(shù)北京市重點實驗室，北京 100081；3.北京無線電測量研究所，北京 100854)

星載合成孔徑雷達(synthetic aperture radar,SAR)是空間對地觀測領(lǐng)域的一個重要組成部分，由于其全天時、全天候的工作能力，星載SAR被廣泛應用于地球遙感、軍事偵察、資源勘探等諸多國防和民生的重要領(lǐng)域. 隨著高分重大專項的開展以及高分三號衛(wèi)星的發(fā)射，我國星載SAR領(lǐng)域進入了對多模式、多尺度和多粒度數(shù)據(jù)結(jié)合處理階段，進一步豐富了SAR數(shù)據(jù)產(chǎn)品的檢測、識別等后端應用形式. 然而，目前對于高分SAR數(shù)據(jù)處理依然停留在原始數(shù)據(jù)下傳地面處理階段，對于突發(fā)事件的響應能力嚴重不足. 在軌SAR數(shù)據(jù)實時處理是解決這一問題的主要途徑.

在SAR在軌處理方面，麻省理工學院(MIT)林肯實驗室[1]、美國空氣動力學實驗室(JPL)[2-4]、德國漢諾威大學[5]、加州理工大學[6-7]等機構(gòu)開展了星上實時處理方面的研究. 現(xiàn)有的在軌處理通常采用DSP+FPGA的方式實現(xiàn)[8],但其擴展性較差、算法實現(xiàn)難度大、性能不強. 與此同時，計算硬件的快速發(fā)展,特別是功耗低、性能強、開放性好的嵌入式GPU的問世和持續(xù)發(fā)展為遙感數(shù)據(jù)在軌實時處理帶來了新的可行方案. 針對光學應用，中科院遙感與數(shù)字地球研究所[9]、武漢大學[10]等國內(nèi)高校已經(jīng)開始驗證嵌入式GPU在軌搭載的可行性.

目前GPU主要在地面站作為SAR數(shù)據(jù)處理加速器使用. 孟大地等[11]在NVIDIA K20c + INTEL E5645平臺上做了基于距離多普勒(range Doppler，RD)算法SAR成像的優(yōu)化加速，8 GB的數(shù)據(jù)量只用了7 s；Zhang等[12]做了基于多CPU/GPU的深度協(xié)同SAR成像處理研究，2 GB數(shù)據(jù)量耗時0.72 s. 地面的成熟應用為基于嵌入式的在軌SAR實時成像處理提供可能. 相比于傳統(tǒng)插卡式GPU，Tegra系列具有功耗低、體積小、接口完備、易于嵌入式擴展等優(yōu)勢，但其劣勢主要體現(xiàn)在處理性能相對較差，且內(nèi)存空間不足等方面. 本設(shè)計基于Jetson TX2嵌入式開發(fā)板對滑動聚束SAR成像算法進行高效移植及優(yōu)化加速. TX2的內(nèi)存雖然高達8 GB，但由于其內(nèi)存-顯存共享設(shè)計的特性，若無法合理分配內(nèi)存資源很容易導致內(nèi)存不足. 對此，本設(shè)計依托滑動聚束式SAR處理流程，提出了一種基于TX2的內(nèi)存復用方案，在一定程度上有效解決了TX2內(nèi)存不足的問題；再利用zero-copy技術(shù)進行實時數(shù)據(jù)傳輸，解決了傳統(tǒng)模式下通過PCIe數(shù)傳帶來的處理瓶頸與資源浪費. 在計算加速層次，本設(shè)計借助CUDA通用并行計算架構(gòu)，將需要海量計算的環(huán)節(jié)，如方位向去斜、CS因子相乘、FFT等，都做了大規(guī)模并行化處理，最終實現(xiàn)16 384×8 192點滑動聚束SAR精確成像.

與現(xiàn)有研究相比，本文主要作出以下貢獻：第一，通過算法分割，提出了一種基于嵌入式GPU的內(nèi)存分割與重配置方案. 采取了一系列手段包括內(nèi)存的原地寫入、交替循環(huán)、動態(tài)釋放等，有效減少了內(nèi)存碎片化及重分配次數(shù)，節(jié)約了內(nèi)存空間. 第二，借助頁鎖定內(nèi)存和zero-copy技術(shù)，實現(xiàn)真正意義的零復制. 在ARM端開辟頁鎖定內(nèi)存，通過無需任何開銷的指針映射，杜絕傳輸耗時.

1 動聚束SAR成像CS算法

本設(shè)計采用的成像算法是基于CS(chirp scaling)原理的兩步去斜法. CS算法無需距離多普勒算法(刪除)中復雜的卷積，只需要若干次CS因子相乘和FFT即可實現(xiàn)條帶式SAR成像[13-14]. 滑聚模式SAR是對條帶SAR的改進，它兼?zhèn)錀l帶SAR的寬測幅與聚束SAR的高分辨率的優(yōu)點[15]. 滑聚SAR成像算法的整體流程圖如圖1所示.

雷達每次接收一條距離向數(shù)據(jù)(NR點),共接收NA條，作為一景的原始數(shù)據(jù)，轉(zhuǎn)置后便可進行方位向去斜操作，得到距離多普勒域數(shù)據(jù)，而后進入正常的CS處理流程. 首先，對方位向作變標處理；其次，距離向頻域乘徙動因子進而完成距離向脈沖壓縮操作；再次，方位向乘因子并作逆FFT完成方位向壓縮；最后對圖像作量化并輸出成像結(jié)果.

由于滑聚模式針對的應用場景多為高分辨率成像，因此處理的原始數(shù)據(jù)量大多是GB級，且為保證精度，數(shù)據(jù)全程以單精度浮點形式處理，對內(nèi)存需求極大. 結(jié)合如表 1所示TX2內(nèi)存開銷情況，假設(shè)一次可處理的最大數(shù)據(jù)量的理論值為xGB，則針對TX2 7.5 GB可用空間(除去操作系統(tǒng)占用)，單批次可處理的原始數(shù)據(jù)量理論最大值約為1.8 GB. 本文旨在討論嵌入式GPU獨立處理方法，針對的原始數(shù)據(jù)量小于理論上限.

同時，針對滑聚算法實現(xiàn)本身，F(xiàn)FT、相位因子生成、二維數(shù)據(jù)轉(zhuǎn)置的實現(xiàn)方式都關(guān)乎處理的時效性. 后文將著重闡述算法不同部分的并行優(yōu)化方法.

表1 內(nèi)存開銷情況

2 優(yōu)化設(shè)計

本文主要從以下兩個角度對滑動聚束式SAR成像做了基于嵌入式GPU的優(yōu)化加速：內(nèi)存分割、配置與基于任務(wù)的重調(diào)度；基于算法映射的大規(guī)模數(shù)據(jù)處理并行優(yōu)化方法. 規(guī)定采用的原始數(shù)據(jù)量是NA×NR，升采樣后為NP×NR.

2.1 內(nèi)存優(yōu)化設(shè)計

2.1.1內(nèi)存分割與重配置

頻繁分配和釋放內(nèi)存不僅耗時，更容易導致內(nèi)存的碎片化，因而內(nèi)存分割與重配置在整體方案的設(shè)計中十分重要. 內(nèi)存分割主要體現(xiàn)在對內(nèi)存的有效劃分上，根據(jù)用途，本設(shè)計將使用到的內(nèi)存段主要分為工作區(qū)內(nèi)存和數(shù)據(jù)緩沖內(nèi)存兩部分. 工作區(qū)內(nèi)存專門用于執(zhí)行FFT操作，因而需要長期占用；數(shù)據(jù)緩沖內(nèi)存用于暫時存放中間輸出，因而具有很大的可操控性. 本著相同數(shù)據(jù)量大小為一組的原則，將數(shù)據(jù)緩沖內(nèi)存再根據(jù)大小劃分為四組，如表 2所示.

表2 內(nèi)存分割設(shè)計

內(nèi)存段mem0用于存放輸入和輸出數(shù)據(jù)；mem11與mem12代表升采樣前的數(shù)據(jù)存儲；mem21與mem22代表升采樣后的數(shù)據(jù)存儲；另外還有一些中間變量用到的內(nèi)存段，表格中以mem3表示. 設(shè)計利用這4組內(nèi)存塊，通過有效的內(nèi)存復用與動態(tài)分配釋放，達到了降低內(nèi)存占用、減少分配耗時的目的.

如圖2，內(nèi)存的復用主要體現(xiàn)在以下3個方面.

① 原始數(shù)據(jù)緩存區(qū)mem0在處理過程中采用原位置換機制.M1為升采樣后的數(shù)據(jù)量，該部分空間一景處理完成后再釋放；

② 由于矩陣轉(zhuǎn)置模塊無法實現(xiàn)內(nèi)存覆蓋，使用同一段內(nèi)存會導致數(shù)據(jù)混亂，因此將上一個轉(zhuǎn)置的輸入空間作為下一個轉(zhuǎn)置的輸出空間使用，實現(xiàn)內(nèi)存交替復用.

③ 在執(zhí)行FFT操作與因子復乘部分時，輸出結(jié)果將輸入數(shù)據(jù)覆蓋，實現(xiàn)原地存儲.

內(nèi)存的動態(tài)分配與釋放主要體現(xiàn)在兩個方面：

① 用于存放升采樣前數(shù)據(jù)的存儲空間在升采樣后便不復使用，因而升采樣結(jié)束后將其立即釋放；而用于放置升采樣后數(shù)據(jù)的mem21和mem22分配將在mem11與mem12釋放成功后進行.

② 中間變量，如CS因子、距離徙動因子、距離向時間軸、方位向頻率軸等，都采取即分配、即利用、即釋放的手段. 這些變量數(shù)據(jù)量較小，占用的空間往往是kB量級，因而可以順利獲取，不用擔心由頻繁釋放帶來的內(nèi)存碎片化問題.

2.1.2任務(wù)分區(qū)與數(shù)據(jù)調(diào)度

在嵌入式GPU中，ARM作為SAR成像處理的主控及輔助計算部分，主要用于指令生成、調(diào)度與參數(shù)計算. ARM向GPU發(fā)布命令，激活GPU內(nèi)核啟動程序，繼而GPU開始并行計算；計算完成后GPU向ARM返回成功標志，ARM開始著手準備激活下一條內(nèi)核程序. 本設(shè)計里ARM用于計算的環(huán)節(jié)主要體現(xiàn)在軌道參數(shù)計算部分，該部分算法擁有大量迭代與串行操作，無法在GPU上實現(xiàn)并行加速，因而選擇在ARM端串行計算.

另外，對于數(shù)據(jù)傳輸方式，由于數(shù)據(jù)的中間處理過程都是在GPU上進行的，故在傳統(tǒng)的CPU+GPU異構(gòu)平臺上，是采取在CPU和GPU端分別開辟一段內(nèi)存的方法，先將數(shù)據(jù)讀取至CPU中，然后將數(shù)據(jù)由CPU再拷貝至GPU端作后續(xù)處理[16]，如圖 3(a)所示. 然而復制過程以及分別在主機端和設(shè)備端分配內(nèi)存的過程相對于計算本身而言沒有任何產(chǎn)出，且相當耗時，因而應盡可能地減少此類操作.

考慮到TX2的主機和設(shè)備的內(nèi)存共享特性，若分別開辟內(nèi)存，會導致兩段內(nèi)存中的內(nèi)容重復. 故此處采用了zero-copy技術(shù)，借助免費的映射關(guān)系達到有效規(guī)避傳輸時間的作用，如圖 3(b).

首先分配CPU頁鎖定內(nèi)存，這段主機存儲在經(jīng)過指針映射后可以投入到設(shè)備空間中使用. 在讀取與寫入磁盤時用到的是主機端指針，在需要設(shè)備端做加速計算處理時，使用相應的設(shè)備端指針即可. 在傳統(tǒng)GPU上，zero-copy是將數(shù)據(jù)傳輸與內(nèi)核計算操作以流水線的方式執(zhí)行，因而只能對該塊內(nèi)存讀寫一次，且性能提升不明顯，通常不加以考慮；而TX2得益于其內(nèi)存共享的特性，節(jié)約設(shè)備端存儲器的同時省去了數(shù)據(jù)拷貝的時間，因而可以實現(xiàn)真正意義上的零復制.

綜合上述分析，采用zero-copy技術(shù)的數(shù)據(jù)傳輸耗時為零，這正是因為zero-copy省去了一切不必要的顯式復制，取而代之的是不需要任何開銷的指針映射.

2.2 算法關(guān)鍵運算部分并行化處理

算法映射時，無論是矩陣轉(zhuǎn)置、因子復乘，還是FFT、求最值，都用到了GPU的并行特點，使得整體計算效率相比較串行處理提升了上百倍.

2.2.1矩陣轉(zhuǎn)置

對于全局內(nèi)存讀取，GPU要想達到高吞吐率，必須盡可能地采取合并訪問的方式，即連續(xù)訪問對齊內(nèi)存. 當發(fā)生非合并訪問時，GPU會傳輸多次來完成這個訪存請求，這將極大地降低內(nèi)存吞吐率，影響GPU的訪存速度[17].

顯然，矩陣轉(zhuǎn)置過程中，讀取矩陣的行時可以達到合并訪問，然而轉(zhuǎn)置后寫入矩陣的列時會形成非合并訪問(刪除原始圖4 非合并內(nèi)存訪問). (刪除共享內(nèi)存介紹)本設(shè)計借助共享內(nèi)存來避免對全局內(nèi)存的非合并訪問. 然而，當分屬不同塊的線程訪問到同一個塊時，就會帶來塊訪問沖突的問題[16]. 為了解決這一問題，本設(shè)計將共享內(nèi)存塊的大小設(shè)定為

Bdim*(Bdim+1).

(1)

Bdim代表共享內(nèi)存塊在一個維度上的大小. 這樣在寫入時分屬相同塊中的線程將訪問到不同的共享內(nèi)存塊，示意圖如圖4所示.

圖中，相同的數(shù)字代表矩陣的同一列；X代表為共享內(nèi)存人為加入的附加列. 可以看出，在寫入共享內(nèi)存時不存在塊內(nèi)沖突；但在從共享內(nèi)存中讀取數(shù)據(jù)時由于要做轉(zhuǎn)置操作，若不加處理(刪除)會導致一個塊中的所有線程讀取到同一個塊中的不同地址上，帶來嚴重的沖突；而添加附加列處理后，每一列的數(shù)據(jù)會呈對角線式均勻分布在不同塊中，每一個線程對應著不同塊. 最后將讀取到的列元素按行寫入內(nèi)存塊完成矩陣轉(zhuǎn)置.

經(jīng)過以上優(yōu)化，矩陣轉(zhuǎn)置可以同時避免非合并訪問與共享內(nèi)存帶來的塊沖突問題，理論吞吐率達100%.

2.2.2因子復乘

在滑聚算法中，5次因子的計算以及它們各自與待處理數(shù)據(jù)的相乘都涉及到了因子復乘. 像素點之間的計算相互獨立，故可以借助CUDA架構(gòu)很容易地移植到TX2中并行計算，如圖 5.

占用率表明了GPU中硬件發(fā)射時的并行情況，一般情況下，占用率越高，意味著程序的并發(fā)度越高，性能越好. 可以根據(jù)以下公式來計算硬件占用率. 其中，o為硬件占用率，Wact為實際活躍的線程束個數(shù)，Wmax為最大可活躍的線程束個數(shù).

o=Wact/Wmax.

(2)

在TX2中，由于受到寄存器資源的限制，占用率有時無法達到100%，這時，減少每個線程塊的大小可以有效地提升硬件占用率. 理論上，線程塊越小，硬件占用率越高；然而過小的線程塊又會導致GPU無法借助大量線程之間的流水操作來很好地掩藏訪存延遲，這就帶來一對矛盾. 可以參考以下公式計算一個內(nèi)核中可以同時發(fā)射的線程塊的個數(shù).

(3)

式中：Bnum為實際活躍的線程塊個數(shù)；Rmax為設(shè)備中的寄存器個數(shù)上限；R為每個線程中所需要使用的寄存器個數(shù)，與內(nèi)核復雜度有關(guān)；Bsize為分配的線程塊大小.

本文為了達到最高的性能收益，對上述矛盾做了折中. 對于寄存器個數(shù)充足的計算內(nèi)核，采用最大線程塊規(guī)?！? 024個線程，這使得占用率可達到100%，且最大限度地掩藏了訪存延遲；對于寄存器個數(shù)不足的計算內(nèi)核，則以2為基準，逐倍降低塊規(guī)模，最小塊為256個線程，從而達到性能最優(yōu).

2.2.3FFT

要想實現(xiàn)方位向和距離向壓縮，需要執(zhí)行多次FFT. CUDA庫中已經(jīng)集成了完備的cuFFT庫以幫助開發(fā)人員實現(xiàn)高性能的FFT變換.

在調(diào)用FFT的庫函數(shù)時，需要為FFT分配工作區(qū)，該區(qū)只能由FFT占用而不能用于其他操作. 經(jīng)過測試，地址空間的分配十分耗時，消耗時間超出FFT本身操作的10倍以上，若每次FFT操作都重新分配工作區(qū)會導致執(zhí)行效率大大降低. 分析整個SAR成像流程，共執(zhí)行了包括IFFT在內(nèi)的5次FFT操作，其中，方位向FFT 3次，距離向FFT 2次. 因此，本設(shè)計選擇在5次FFT操作全部完成后再將FFT的工作區(qū)統(tǒng)一釋放，從而提升了FFT計算在程序執(zhí)行總時間中的占比. 輸入和輸出數(shù)據(jù)存放在同一塊內(nèi)存中，實現(xiàn)原位存儲.

3 結(jié)果分析

3.1 成像效果及精度分析

本文基于GF-3地面測試數(shù)據(jù)[18]，分別采取點目標與面目標成像結(jié)果作評估，輸入數(shù)據(jù)均為1 m分辨率、10 km幅寬. 數(shù)據(jù)粒度為；16 384×8 192. (刪除具體內(nèi)存分配)

3.1.1點目標成像分析

在方位向與距離向均加-30 dB的5階泰勒窗后，設(shè)計優(yōu)化得到的點目標壓縮圖像如圖 6.

選取景中心點目標(像素點坐標為(8 192，4 096))作評估，可以得到二維等高線圖、方位向峰值曲線和距離向峰值曲線(加窗)，如圖 7和圖 8是未加窗的成像結(jié)果.

SAR成像結(jié)果常用的幾個評價指標為：峰值旁瓣比(peak side lobe ratio，PSLR)、積分旁瓣比(integrated side lobe ratio，ISLR)和分辨率[19]. 為了使評估結(jié)果更可靠，本文將圖8中的9個點目標全部作評估再取平均值，得到結(jié)果如表 3.

表3 點目標評估結(jié)果

理論上，在未加窗的情況下，PSLR應該為-13.4 dB；但在本設(shè)計中，由于構(gòu)造參數(shù)本身的些微誤差導致了成像結(jié)果的方位向PSLR增加了約0.55 dB，距離向PSLR增加了約0.12 dB. 為了使弱目標不被附近的強目標覆蓋，通常要求PSLR取到-20 dB，ISLR取到-15 dB，此時，可以選擇在脈壓時對方位向和距離向分別加-30 dB的5階泰勒窗抑制旁瓣，加窗后的結(jié)果滿足要求.

3.1.2面目標成像分析

壓縮后可得到面目標圖像如圖 9.

為了比較成像效果，本文采用了常用的面目標圖像質(zhì)量評估指標：均方誤差(mean squared error，MSE)、峰值信噪比(peak signal to noise ratio，PSNR)、結(jié)構(gòu)相似度(structural similarity index，SSIM)、輻射分辨率(γ)[20]，將TX2處理后的全幅圖像與CPU仿真結(jié)果圖作比較，得到各指標如表 4.

表4 面目標評估結(jié)果

3.2 實時性及功耗效能比分析

為了得到最佳方案，此處根據(jù)計算機硬件評估指標，定義SAR成像在GPU上實現(xiàn)的性能功耗比如下.

(4)

利用Nsight Eclipse平臺的Profile分析工具對優(yōu)化結(jié)果做分析可以知道，TX2在優(yōu)化等級為-o2的情況下，完成數(shù)據(jù)量為1 GB的滑動聚束式SAR成像的總執(zhí)行時間為12.660 s；其中，指令執(zhí)行時間(包括文件讀寫以及ARM端的一些調(diào)度)占用了1.418 47 s，在GPU上的計算時間占用了8.599 83 s，內(nèi)存分配與釋放占用了2.641 7 s. 同樣的數(shù)據(jù)量在Tesla K20c + Intel Xeon CPU E5-2697 v2平臺上的總仿真時間為4.165 s. 再結(jié)合現(xiàn)有的SAR成像研究[12,21-22]，可以得到對比結(jié)果如表 5所示.

表5 不同優(yōu)化方案的性能對比

可以看出，SAR成像在TX2上實現(xiàn)時的性能功耗比明顯高于其他平臺下的性能功耗比，這意味著單位功耗下嵌入式GPU可以提供更高的處理效率. 因此，在嵌入式GPU開發(fā)平臺上實現(xiàn)星載SAR實時成像非常有發(fā)展前景.

4 結(jié)束語

主要研究基于Chirp Scaling處理算法的滑動聚束式SAR成像算法在嵌入式開發(fā)平臺Jetson TX2上的設(shè)計與實現(xiàn). 通過算法分析，對內(nèi)存做到有效分割與重配置，借助原地內(nèi)存寫入、內(nèi)存交替循環(huán)、動態(tài)內(nèi)存釋放等手段解決了TX2上內(nèi)存不足的問題；在ARM與GPU的數(shù)據(jù)交互上，利用頁鎖定內(nèi)存，通過指針映射過程實現(xiàn)零復制，使數(shù)據(jù)傳輸耗時降低至0 ms；最后，通過有效復用TX2中的共享內(nèi)存、寄存器、全局內(nèi)存等存儲資源，合理分配線程個數(shù)，最大限度地開發(fā)了TX2的計算性能，實現(xiàn)大規(guī)模數(shù)據(jù)并行. 與現(xiàn)有研究相比，本設(shè)計在不損失精度的前提下，達到了最高的性能功耗比. 這為星載SAR實時成像開辟了良好的開端.

考慮到TX2現(xiàn)有的8 GB內(nèi)存空間仍不足以滿足大批量數(shù)據(jù)的星上實時處理，這可以通過PCIe擴展內(nèi)存或數(shù)據(jù)分塊來解決. 另外，隨著嵌入式平臺的不斷發(fā)展，更高性能的硬件平臺也可以投入使用，例如Jetson Xavier，內(nèi)嵌16 GB的LPDDR4，將TX2的內(nèi)存空間擴大了一倍；同時Xavier采用PCIe 4.0技術(shù)，當采用分塊處理時，可以達到更大的傳輸帶寬. 這都使未來基于嵌入式GPU的更大點數(shù)SAR在軌成像成為可能.