亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無(wú)人機(jī)載MiniSAR 實(shí)時(shí)成像處理GPU 異步優(yōu)化

        2023-09-06 06:41:28袁溆?xùn)|雒梅逸香王智超譚佳偉
        上海航天 2023年4期
        關(guān)鍵詞:數(shù)據(jù)量線程內(nèi)存

        袁溆?xùn)|,雒梅逸香,王智超,譚佳偉,王 峰

        (1.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院,上海 200433;2.32033 部隊(duì),海南 ???570100;3.31453 部隊(duì),遼寧 沈陽(yáng) 110000)

        0 引言

        合成 孔徑 雷達(dá)(Synthetic Aperture Radar,SAR)有著全天候、全天時(shí)的工作特性以及分辨率不隨平臺(tái)高度變化的成像特性[1],是航天遙感、目標(biāo)檢測(cè)領(lǐng)域重要的傳感器之一。SAR 系統(tǒng)的平臺(tái)通常是衛(wèi)星、飛機(jī)、導(dǎo)彈、工程車(chē)、熱氣球等。隨著電子技術(shù)和航空技術(shù)的發(fā)展,無(wú)人機(jī)以其小型化、低功耗、靈活性強(qiáng)和隱蔽性強(qiáng)等特點(diǎn)倍受關(guān)注[2-4],常被用于雷達(dá)數(shù)據(jù)的采集。實(shí)時(shí)無(wú)人機(jī)載成像系統(tǒng)的研究前景廣闊,實(shí)時(shí)性不僅有利于系統(tǒng)及時(shí)保存成像數(shù)據(jù),且有利于無(wú)人機(jī)探測(cè)感知一體化的設(shè)計(jì)[5-6]。

        龐大的計(jì)算量是實(shí)現(xiàn)實(shí)時(shí)無(wú)人機(jī)載MiniSAR的一大挑戰(zhàn),當(dāng)前的研究分為基于成像原理的算法優(yōu)化[1]和基于硬件結(jié)構(gòu)的算法優(yōu)化[7]。前者改變計(jì)算量和計(jì)算方法,可減少算法復(fù)雜度,但往往會(huì)伴隨著成像質(zhì)量下降的風(fēng)險(xiǎn)。后者不改變計(jì)算量和計(jì)算方式,在提高計(jì)算效率的同時(shí)可以保證成像質(zhì)量。本文工作圍繞后者進(jìn)行展開(kāi)。

        硬件的選擇需要結(jié)合算法特點(diǎn),相比于中央處理單元(Central Processing Unit,CPU)與現(xiàn)場(chǎng)可編程門(mén)陣列(Field-Programmable Gate Array,F(xiàn)PGA),圖形處理單元(Graphics Processing Unit,GPU)更適合用于SAR 成像算法。一方面,將CPU與GPU 進(jìn)行對(duì)比[8],雖然CPU 中的單個(gè)核心頻率要比GPU 高得多[9],邏輯預(yù)測(cè)的能力要比GPU 快得多,但核心數(shù)量遠(yuǎn)不及GPU,GPU 可并行執(zhí)行的線程數(shù)量遠(yuǎn)超于CPU,使GPU 的并行計(jì)算能力大大優(yōu)于CPU,對(duì)于并行度高的SAR 算法,使用GPU的計(jì)算方式進(jìn)行優(yōu)化,可以極大加快運(yùn)算的速度,因此GPU 比CPU 更適合承擔(dān)SAR 實(shí)時(shí)系統(tǒng)的計(jì)算任務(wù);另一方面,將FPGA 與GPU 進(jìn)行對(duì)比。FPGA 擅長(zhǎng)處理通信密集型運(yùn)算[10-11],GPU 擅長(zhǎng)處理計(jì)算密集型運(yùn)算[11-14],而SAR 屬于計(jì)算密集型運(yùn)算而非通信密集型運(yùn)算,所以GPU 相比于FPGA更適合用于SAR 成像的處理。

        GPU 擅長(zhǎng)處理具備以下3 種特點(diǎn)的計(jì)算任務(wù)[15]:1)計(jì)算需求量大,其算法可以保證任務(wù)占滿GPU 內(nèi)部的計(jì)算資源,防止資源浪費(fèi);2)計(jì)算并行程度高,其算法可以保證GPU 開(kāi)啟更多的并發(fā)任務(wù),提高GPU 各時(shí)刻計(jì)算核心的活躍度;3)吞吐量的重要性大于延遲,其算法可以降低GPU 對(duì)單線程處理速度的要求,而讓GPU 著重于單位時(shí)間內(nèi)的任務(wù)處理量。實(shí)時(shí)SAR 成像算法同時(shí)滿足以上3 個(gè)條件。1975 年,英特爾(Intel)創(chuàng)始人Gordon Earle Moore 提出了摩爾定律[16]。1999 年,英偉達(dá)(NVIDIA)半導(dǎo)體公司首次提出了GPU 的概念[17]。近20年來(lái),盡管面對(duì)諸多挑戰(zhàn),GPU 的發(fā)展仍舊突飛猛進(jìn),實(shí)時(shí)SAR 結(jié)合GPU 的研究前景遼闊。

        算法的選擇需要結(jié)合實(shí)際場(chǎng)景。1991 年,Cafforio 等[18]在處理地震信號(hào)時(shí),根據(jù)信號(hào)時(shí)頻域和頻譜帶寬的特點(diǎn),采用了波數(shù)域的算法進(jìn)行信號(hào)分析。目前,SAR 系統(tǒng)逐步微型化[19],可被搭載于無(wú)人機(jī)。為緩解無(wú)人機(jī)平臺(tái)的計(jì)算壓力[20],F(xiàn)MCW 波形逐步取代了LFM 波[21-22],距離徙動(dòng)算法(Range Migration Algorithm,RMA)也隨之被廣泛使用[23]。相比于后向投影算法(Back Projection Algorithm,BPA)算法,RMA 精度相當(dāng)且計(jì)算更快,適合用于無(wú)人機(jī)載的場(chǎng)景。因此,本文的核心算法選擇RMA。

        本文通過(guò)結(jié)合SAR 成像計(jì)算特點(diǎn)和GPU 硬件結(jié)構(gòu)及其計(jì)算特性,設(shè)計(jì)出了一種無(wú)人機(jī)載MiniSAR 實(shí)時(shí)處理機(jī),并針對(duì)該處理機(jī)提出了一種多CPU 線程的優(yōu)化方案,可以在不改變算法原理和硬件結(jié)構(gòu)的條件下縮短15%的計(jì)算時(shí)間,最后使用FUSAR-Ku 系統(tǒng)進(jìn)行了實(shí)驗(yàn)驗(yàn)證。本文內(nèi)容組織如下:第1 節(jié)介紹了FUSAR-Ku 成像算法原理以及運(yùn)動(dòng)補(bǔ)償原理和GPU 異步系統(tǒng)結(jié)構(gòu);第2 節(jié)介紹了實(shí)驗(yàn)方法以及實(shí)驗(yàn)結(jié)果;第3 節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了總結(jié)。

        1 FUSAR-Ku 系統(tǒng)與GPU 數(shù)據(jù)流

        實(shí)驗(yàn)設(shè)備是復(fù)旦大學(xué)電磁波信息科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室的FUSAR-Ku 系統(tǒng)[24-25]。綜合考慮成像精度、設(shè)備性能,F(xiàn)USAR-Ku 系統(tǒng)的核心算法折中選擇RMA。

        1.1 成像算法

        FUSAR-Ku 系統(tǒng)成像部分是在RMA 基礎(chǔ)上進(jìn)行改進(jìn)的,RMA 處理流程如圖1 所示。RMA 要在波數(shù)域進(jìn)行插值操作,具體步驟為脈沖壓縮、二維快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)、運(yùn)動(dòng)補(bǔ)償、距離徙動(dòng)校正、方位向脈沖壓縮、二維逆傅里葉變換(Inverse Fast Fourier Transform,IFFT)。

        圖1 RMA 處理流程Fig.1 Processing flow of the RMA

        但RMA 的STOLT 插值無(wú)法滿足無(wú)人機(jī)平臺(tái)運(yùn)動(dòng)補(bǔ)償?shù)囊?,為此,?duì)其進(jìn)行改進(jìn)得到了分段孔徑成像(Segment Aperture Imaging,SAI)算法[23]。該算法基于RMA 在波數(shù)域?qū)崿F(xiàn)RCMC 與運(yùn)動(dòng)補(bǔ)償,將原算法分段處理,并且分解為級(jí)數(shù)相乘的濾波器以完成成像。

        1.2 GPU 異構(gòu)數(shù)據(jù)流

        英偉達(dá)公司針對(duì)GPU 提出了統(tǒng)一計(jì)算設(shè)備架構(gòu)(Compute Unified Device Architecture,CUDA)。CUDA 是由CPU 和GPU 組成 的異構(gòu)平 臺(tái),CPU 為主機(jī)端(Host),適合處理邏輯運(yùn)算,GPU 為設(shè)備端(Device),適合處理并行化運(yùn)算。CPU 和GPU 之間依靠PCIE(Peripheral Component Interconnect Express)總線通信。CUDA 編程的異步執(zhí)流程如圖2 所示,具體流程如下:1)CPU 和GPU 兩端分別分配內(nèi)存;2)將CPU 端的數(shù)據(jù)拷貝到GPU 端;3)CPU 呼叫核函數(shù),GPU 執(zhí)行核函數(shù);4)將結(jié)果拷貝回CPU 端。在核函數(shù)N處理階段和CPU 處理階段N+1 之間,可選擇同步處理或者異步處理。

        圖2 CUDA 異步執(zhí)行流程Fig.2 Asynchronous execution flow of the CUDA

        2 FUSAR-Ku 實(shí)時(shí)處理機(jī)

        無(wú)人機(jī)載SAR 實(shí)時(shí)成像系統(tǒng)難以在保證其成像質(zhì)量的同時(shí)保證實(shí)時(shí)性,使得雷達(dá)成像的實(shí)時(shí)性依賴于硬件的性能。為充分發(fā)揮GPU 硬件性能,本文根據(jù)異步處理時(shí)序的特點(diǎn),在FUSAR-Ku 系統(tǒng)的基礎(chǔ)上,設(shè)計(jì)并優(yōu)化了FUSAR-Ku 實(shí)時(shí)處理機(jī)。FUSAR-Ku 實(shí)時(shí)處理機(jī)如圖3 所示。

        圖3 FUSAR-Ku 實(shí)時(shí)處理機(jī)Fig.3 FUSAR-Ku real-time processor

        2.1 實(shí)時(shí)處理機(jī)硬件框架

        FUSAR-Ku 實(shí)時(shí)處理機(jī)硬件內(nèi)部結(jié)構(gòu)和數(shù)據(jù)處理流程如圖3 所示。DSP 表示數(shù)字信號(hào)處理器(Digital Signal Processor);DDS 表示直接數(shù)字式頻率合成器(Direct Digital Synthesizer);SSD 表示固態(tài)硬盤(pán)(Solid State Disk);SMA 表示SMA 接口(SubMiniature Version A);V 表示垂直方向極化(Vertical);H 表示水平方向極化(Horizontal);DA表示數(shù)字信號(hào)轉(zhuǎn)模擬信號(hào)(Digital-to-Analog);AD表示模擬信號(hào)轉(zhuǎn)數(shù)字信號(hào)(Analog-to-Digital);RF表示射頻(Radio Frequency);RTK 表示實(shí)時(shí)動(dòng)態(tài)差分(Real-Time Kinematic)。MiniSAR 數(shù)據(jù)采集系統(tǒng)主要由FUSAR-Ku 系統(tǒng)、慣性導(dǎo)航系統(tǒng)和地面全球?qū)Ш叫l(wèi)星系統(tǒng)(Global Navigation Satellite System,GNSS)基站3 部分構(gòu)成,其中FUSAR-Ku MiniSAR 參數(shù)見(jiàn)表1。

        表1 FUSAR-Ku MiniSAR 參數(shù)Tab.1 Parameters of the USAR-Ku MiniSAR

        無(wú)人機(jī)載MiniSAR 數(shù)據(jù)采集場(chǎng)景如圖4 所示,它的原始回波數(shù)據(jù)往往接近TB 級(jí)別,難以被實(shí)時(shí)地傳輸至地面站,這也是該系統(tǒng)的受限之處。在MiniSAR 數(shù)據(jù)采集系統(tǒng)上增加信號(hào)處理機(jī),即可完成FUSAR-Ku 實(shí)時(shí)處理機(jī)的硬件設(shè)計(jì)。FUSARKu 實(shí)時(shí)處理機(jī)可將TB 級(jí)別的雷達(dá)原始回波數(shù)據(jù)轉(zhuǎn)化為MB 級(jí)別的SAR 成像數(shù)據(jù),大大降低了地面站實(shí)時(shí)收取的難度。成像數(shù)據(jù)被傳輸?shù)降孛嬲竞?,設(shè)備不易受到質(zhì)量和尺寸的限制,算力問(wèn)題得以解決,各種后處理得以實(shí)時(shí)實(shí)現(xiàn)。

        圖4 條帶式SAR 成像模式Fig.4 Imaging mode of the stripmap SAR

        無(wú)人機(jī)載重上限大約7 kg,硬件選擇應(yīng)優(yōu)先考慮體積小、質(zhì)量小、計(jì)算性能好、功耗低的設(shè)備。英偉達(dá)Jetson 系列邊緣計(jì)算機(jī)符合體積和質(zhì)量小的要求。Jetson AGX Xavier 如圖5 所示,其功耗范圍為10~30 W,相比于Jetson TX2 其計(jì)算性能更好,相比于Jetson AGX Orin 其功耗更低,因此被用作為實(shí)時(shí)處理機(jī)核心計(jì)算設(shè)備。數(shù)據(jù)流時(shí)序的設(shè)計(jì)需要對(duì)Jetson AGX Xavier 的計(jì)算能力和算法復(fù)雜度進(jìn)行評(píng)估。

        圖5 Jetson AGX Xavier[26](圖片來(lái)源:NVIDIA)Fig.5 Jetson AGX Xavier[26](Image source:NVIDIA)

        Jetson AGX Xavier 官方參數(shù)見(jiàn)表2。硬件的測(cè)試結(jié)果見(jiàn)表3。由表2 可知,乘、加、減、乘加融合和賦值操作所消耗的時(shí)間相近,除法運(yùn)算所需時(shí)間大約為乘法運(yùn)算的5 倍。乘、加、減和乘加融合皆為一次浮點(diǎn)運(yùn)算。SAI 算法復(fù)雜度見(jiàn)表4。

        表2 Jetson AGX Xavier 硬件參數(shù)Tab.2 Parameters of the Jetson AGX Xavier

        表3 Jetson AGX Xavier 各類(lèi)單操作平均所需時(shí)間Tab.3 Average time required for each operation of the Jetson AGX Xavier

        由表4 中可見(jiàn),浮點(diǎn)運(yùn)算復(fù)雜度可用ANa、Nr表示,A表示浮點(diǎn)運(yùn)算復(fù)雜度的系數(shù),其數(shù)值約為1 170。

        2.2 實(shí)時(shí)處理機(jī)軟件框架

        實(shí)時(shí)單CPU 線程數(shù)據(jù)流如圖6 所示。圖中流程分為3 個(gè)部分:1)數(shù)據(jù)準(zhǔn)備;2)數(shù)據(jù)預(yù)處理;3)主干計(jì)算。

        圖6 實(shí)時(shí)成像單CPU 線程數(shù)據(jù)流Fig.6 Data streams of the real-time imaging on a single CPU

        數(shù)據(jù)準(zhǔn)備包括慣性導(dǎo)航系統(tǒng)和雷達(dá)主機(jī)的數(shù)據(jù)解包、排序以及存儲(chǔ),該部分由CPU 負(fù)責(zé);數(shù)據(jù)預(yù)處理包括數(shù)據(jù)和接口的匹配,該部分由CPU 負(fù)責(zé);主干計(jì)算是指SAI 成像處理,該部分由GPU 負(fù)責(zé)。

        在數(shù)據(jù)預(yù)處理之前,CPU 需要耗費(fèi)較多時(shí)間用于文件數(shù)據(jù)讀取和存儲(chǔ),而此時(shí)GPU 處于閑置狀態(tài),CPU 與GPU 的并行工作效率幾乎為零。為降低CPU 數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理開(kāi)銷(xiāo),充分提高兩者并行效率,可根據(jù)CPU 與GPU 異步處理流程,提出一種多CPU 線程的異步優(yōu)化方案。

        多CPU 線程實(shí)時(shí)成像數(shù)據(jù)流如圖7 所示。當(dāng)前進(jìn)程分3 個(gè)線程并發(fā)執(zhí)行,采用時(shí)間片輪轉(zhuǎn)調(diào)度策略。線程0 查詢磁盤(pán)文件中是否存在與雷達(dá)數(shù)據(jù)相匹配的慣導(dǎo)數(shù)據(jù);線程2 通過(guò)PCIe 串口解包雷達(dá)主機(jī)數(shù)據(jù);線程1 完成數(shù)據(jù)預(yù)處理,并呼叫GPU 進(jìn)行成像。為提高系統(tǒng)效率,雷達(dá)數(shù)據(jù)解包后會(huì)被暫時(shí)存放于內(nèi)存中的暫存區(qū),暫存區(qū)內(nèi)數(shù)據(jù)在成像完成后被銷(xiāo)毀;為維持內(nèi)存使用穩(wěn)定,解包后的慣導(dǎo)數(shù)據(jù)不停留于內(nèi)存中,將立即以二進(jìn)制文件的形式保存于磁盤(pán)中以等待數(shù)據(jù)匹配,數(shù)據(jù)匹配使用二分查找策略。為保證線程安全,互斥鎖被用于臨界區(qū)數(shù)據(jù)同步。

        圖7 實(shí)時(shí)成像多CPU 線程數(shù)據(jù)流Fig.7 Data streams of real-time imaging on multiple CPUs

        該系統(tǒng)參考多流處理的加速思想,并設(shè)置了多個(gè)暫存區(qū),當(dāng)其中一個(gè)暫存區(qū)內(nèi)的雷達(dá)原始數(shù)據(jù)被用于成像時(shí),另一個(gè)暫存區(qū)會(huì)加載下一幀所需的雷達(dá)原始數(shù)據(jù),可掩蓋原始數(shù)據(jù)從磁盤(pán)到內(nèi)存的拷貝延時(shí)。慣導(dǎo)系統(tǒng)無(wú)法保證時(shí)鐘與雷達(dá)主機(jī)完全同步,其數(shù)據(jù)不能存放于暫存區(qū),只能由其他進(jìn)程通過(guò)以太網(wǎng)口收取數(shù)據(jù)并存放于磁盤(pán)中。

        軟件所需內(nèi)存大約為原始數(shù)據(jù)的5 倍。Jetson設(shè)備中的GPU 與CPU 共用一塊16 GB 的內(nèi)存,其中約2 GB 用于保證軟件以外的環(huán)境運(yùn)行,因此軟件在一個(gè)處理周期中最多能處理2.5~3.0 GB 的原始數(shù)據(jù)。

        成像時(shí)序會(huì)產(chǎn)生一幀圖像的時(shí)延,如圖8 所示。軟件在成像啟動(dòng)前會(huì)開(kāi)辟好輸入數(shù)據(jù)、計(jì)算中間變量和結(jié)果所有所需的內(nèi)存空間,并在程序終止時(shí)進(jìn)行統(tǒng)一銷(xiāo)毀。因此,在“主干計(jì)算”的循環(huán)階段,軟件不會(huì)有任何開(kāi)辟內(nèi)存的行為,同時(shí)避免了內(nèi)存泄漏問(wèn)題。

        圖8 SAR 成像時(shí)序Fig.8 Time sequence of SAR imaging

        2.3 實(shí)驗(yàn)評(píng)估指標(biāo)

        為直觀展現(xiàn)出多CPU 線程優(yōu)化在無(wú)人機(jī)載MiniSAR 實(shí)時(shí)成像中的優(yōu)勢(shì),本實(shí)驗(yàn)設(shè)計(jì)了幾種實(shí)驗(yàn)評(píng)估指標(biāo)。實(shí)驗(yàn)評(píng)估指標(biāo)有SAR 單幀加速比αSAR、多CPU 線 程壓縮率μmcg、多CPU 線程 開(kāi)銷(xiāo)比例γref、異步計(jì)算并行率εhet。μmcg可以顯示出,多CPU 線程優(yōu)化后實(shí)時(shí)處理機(jī)成像時(shí)間縮短的時(shí)間比例;γref可以顯示出,多CPU 線程切換開(kāi)銷(xiāo)占據(jù)成像周期的比例;εhet可以顯示出,CPU 與GPU 同時(shí)工作的時(shí)間占據(jù)成像周期的比例。

        各評(píng)估指標(biāo)如式(1)~式(4)所示。

        式中:Tacg為實(shí)時(shí)處理機(jī)完成一幀SAR 成像平均用時(shí);Tasc為單核心CPU 系統(tǒng)完成一幀SAR 成像平均用時(shí)。

        式中:Tascg為單CPU 線程實(shí)時(shí)處理機(jī)完成一幀SAR成像平均用時(shí);Tamcg為多CPU 線程實(shí)時(shí)處理機(jī)完成一幀SAR 成像平均用時(shí)。

        式中:Tawait為圖7 中線程1 完成一幀SAR 成像等待互斥鎖平均用時(shí)。

        式 中:Tah為GPU 和CPU 在多CPU 線程實(shí)時(shí)處理機(jī)中共同主干計(jì)算所花總時(shí)間。

        2.4 實(shí)時(shí)成像結(jié)果及分析

        成像結(jié)果如圖9 所示,該偽彩圖由多通道(HH、VH、HV、VV)SAR 成像結(jié)果經(jīng)過(guò)極化定標(biāo)和極化分解得到,成像區(qū)域?yàn)閺?fù)旦大學(xué)邯鄲校區(qū),圖中右側(cè)為校內(nèi)標(biāo)志性建筑物光華樓。紅色部分表示偶次散射,該散射分量主要由建筑物與地面構(gòu)成的二面角貢獻(xiàn);綠色部分表示多次散射,主要由地表植被、樹(shù)林等目標(biāo)貢獻(xiàn)。距離向分辨率為0.08 m,方位向分辨率為0.06 m,行高8 199 個(gè)像素(655.92 m),行寬10 047 個(gè)像素(602.82 m)。

        圖9 成像結(jié)果Fig.9 Imaging result

        與CPU 計(jì)算相比較,GPU 成像雙精度平均誤差約為-70 dB,單精度平均誤差約為-30 dB。單精度計(jì)算效率高,但大大降低了成像質(zhì)量。因此,實(shí)驗(yàn)均使用雙精度進(jìn)行成像處理。

        本研究設(shè)計(jì)了多組實(shí)驗(yàn)對(duì)比,以下均為離線雙精度成像的實(shí)驗(yàn)結(jié)果。考慮到GPU 熱啟動(dòng)計(jì)算效率要比冷啟動(dòng)高,實(shí)驗(yàn)只取5 幀SAR 成像后的結(jié)果。多CPU 線程實(shí)驗(yàn)還考慮了線程塊大小、數(shù)據(jù)量大小的影響。實(shí)驗(yàn)結(jié)果見(jiàn)表5 與表6。為使線程利用率為100%,表5 中線程塊的線程數(shù)被設(shè)置為32的整數(shù)倍,1024 線程/塊為Jetson AGX Xavier 的軟件上限。

        表5 不同線程塊實(shí)驗(yàn)對(duì)比Tab.5 Experimental comparison of different thread block sizes

        表6 不同數(shù)據(jù)量實(shí)驗(yàn)對(duì)比Tab.6 Experimental comparison of different amounts of data

        在表5 中:所有實(shí)驗(yàn)中數(shù)據(jù)Na為12 500,Nr為10 000;μmcg、γref、εhet是多CPU 線程實(shí)驗(yàn)組與單CPU線程實(shí)驗(yàn)組對(duì)照后得到的評(píng)估指標(biāo),不用于單CPU線程實(shí)驗(yàn)組性能評(píng)估;各組實(shí)驗(yàn)在編譯期間并未分配任何本地內(nèi)存;單CPU 線程與多CPU 線程實(shí)驗(yàn)在慣導(dǎo)數(shù)據(jù)存取、雷達(dá)原始數(shù)據(jù)存取、雷達(dá)成像階段都有16.67%的概率出現(xiàn)1 s 左右的波動(dòng),可能與各線程的波動(dòng)相關(guān),但不會(huì)在單線程上累加,成像周期也只存在1 s 左右的波動(dòng)。

        在表6中:所有實(shí)驗(yàn)中線程塊大小為32 線程/塊;實(shí)驗(yàn)中各處理階段會(huì)1 s 左右的波動(dòng)。

        根據(jù)硬件參數(shù),假設(shè)CPU 只使用單核心處理,可得到αSAR的上限為305.182 3,其式如下:

        式中:Fg為GPU 最大 核心頻率;Ng為GPU 核心 數(shù)量;Fc為CPU 最大核心頻率;Nc為CPU 核心數(shù)量。

        如圖9所示,成像結(jié)果雖存在一定的運(yùn)動(dòng)模糊,但建筑物、道路、植被的輪廓依然清晰,符合成像要求。GPU 雙精度計(jì)算得到的成像結(jié)果誤差為-70 dB??梢?jiàn),其成像質(zhì)量與CPU 雙精度計(jì)算基本無(wú)異。因此,GPU 代替CPU 承擔(dān)SAR 成像計(jì)算是完全可靠的。

        多CPU 線程實(shí)時(shí)處理機(jī)線程塊大小的對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表5。從μmcg和εhet的實(shí)驗(yàn)結(jié)果中可以看到,多CPU 線程優(yōu)化可在GPU 并行加速的基礎(chǔ)上掩蓋磁盤(pán)文件的存取開(kāi)銷(xiāo),提高CPU 與GPU 之間的異步并行效率,將處理機(jī)整體性能提升了15%。縱觀不同線程塊實(shí)驗(yàn),各組實(shí)驗(yàn)未使用本地內(nèi)存,且線程塊大小為32 線程/塊時(shí),成像效率最高;線程塊大小大于256 線程/塊時(shí),成像效率也會(huì)有略微提升。線程塊為32 線程/塊時(shí),成像算法Warp 活躍度較高,雖然塊中線程少,但是Warp 切換次數(shù)較少,單線程占有的資源較多,所以成像效率更高;線程塊增大到256 線程/塊時(shí),任務(wù)調(diào)度的開(kāi)銷(xiāo)減輕,所以成像效率會(huì)有略微提升。因?yàn)榇嫒【彺鏅C(jī)制不穩(wěn)定,各處理階段存在1 s 的波動(dòng)。在運(yùn)算資源方面,實(shí)驗(yàn)表明,系統(tǒng)在連續(xù)處理100 幀成像數(shù)據(jù)時(shí),并未發(fā)生實(shí)時(shí)內(nèi)存占用增大的現(xiàn)象,表明該系統(tǒng)有效解決了內(nèi)存泄漏問(wèn)題。

        表6 展示了多CPU 線程實(shí)時(shí)處理機(jī)不同數(shù)據(jù)量的對(duì)比實(shí)驗(yàn)結(jié)果。分析可知,處理機(jī)在處理小數(shù)據(jù)量時(shí)αSAR最高可達(dá)到33.345 9,符合式(5)加速比最大理論。隨著Nr數(shù)值的增加,αSAR會(huì)呈現(xiàn)下降趨勢(shì),數(shù)據(jù)量增大時(shí),下降速度會(huì)減慢,而Na數(shù)值增加時(shí)并不會(huì)出現(xiàn)這種狀況。αSAR隨Nr減小是因?yàn)椴逯抵械亩植檎液屠奂邮筃r方向的數(shù)據(jù)局部性降低,且處理邏輯分支增多;數(shù)據(jù)量越大,下降速度越慢,這是因?yàn)樾?shù)據(jù)量的并行計(jì)算成分較低,計(jì)算效率主要受數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理的影響。在處理機(jī)中,成像開(kāi)銷(xiāo)最大,其次是雷達(dá)原始數(shù)據(jù)的存取,多CPU 線程實(shí)時(shí)處理機(jī)的效率提升主要得益于雷達(dá)原始數(shù)據(jù)存取的隱藏。如果多CPU 線程實(shí)時(shí)處理機(jī)的工作效率與單CPU 線程相同,εhet的值將與μmcg相近。實(shí)驗(yàn)結(jié)果顯示,小數(shù)據(jù)量受到1 s 波動(dòng)的影響,不易看出εhet與μmcg之間的關(guān)系,但當(dāng)數(shù)據(jù)為Na為12 500,Nr為10 000 時(shí),εhet大約為μmcg的2倍,多CPU 實(shí)驗(yàn)中雷達(dá)存取開(kāi)銷(xiāo)要比單CPU 線程實(shí)驗(yàn)大整整一倍。說(shuō)明各線程競(jìng)爭(zhēng)CPU 計(jì)算資源,工作分時(shí)段進(jìn)行,符合時(shí)間片輪轉(zhuǎn)調(diào)度策略特點(diǎn),進(jìn)一步證明了多CPU 線程實(shí)時(shí)處理機(jī)未使用CPU多物理核心進(jìn)行計(jì)算。

        3 結(jié)束語(yǔ)

        本文提出了一種FUSAR-Ku 實(shí)時(shí)處理機(jī)的多CPU 線程優(yōu)化方案。該方案解決了實(shí)時(shí)成像中的內(nèi)存泄漏問(wèn)題,確保了成像穩(wěn)定性。在實(shí)時(shí)處理機(jī)中,GPU 的成像效率是CPU 成像效率的12 倍左右,使用該方案后,成像效率還可以繼續(xù)提升15%。由此可見(jiàn),GPU 異構(gòu)系統(tǒng)相比于單核CPU 系統(tǒng)具有更大的優(yōu)勢(shì)。在此基礎(chǔ)上,實(shí)時(shí)處理機(jī)的多CPU 線程工作模式相較于單CPU 線程工作模式也有著明顯優(yōu)勢(shì)。本文還詳細(xì)介紹了該項(xiàng)工作的硬件框架和軟件框架。硬件部分介紹了核心雷達(dá)主機(jī)的內(nèi)部結(jié)構(gòu),測(cè)試分析了核心計(jì)算設(shè)備N(xiāo)VIDIA Jetson AGX Xavier 的性能;軟件部分分析了系統(tǒng)數(shù)據(jù)流,提供了一種提高CPU 與GPU 并行效率的方案。為后續(xù)實(shí)時(shí)處理機(jī)的開(kāi)發(fā)奠定了基礎(chǔ),GPU 與SAR相結(jié)合的前景依舊廣闊。由GPU 理論最大加速比可知,處理機(jī)的加速性能還有著一定的提升空間。未來(lái)的工作不僅會(huì)著重于實(shí)時(shí)處理機(jī)系統(tǒng)的開(kāi)發(fā),也會(huì)在GPU 算法層面繼續(xù)研究。

        猜你喜歡
        數(shù)據(jù)量線程內(nèi)存
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計(jì)算Lyapunov指數(shù)的模糊C均值聚類(lèi)小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
        寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        “春夏秋冬”的內(nèi)存
        淺談linux多線程協(xié)作
        基于內(nèi)存的地理信息訪問(wèn)技術(shù)
        Linux線程實(shí)現(xiàn)技術(shù)研究
        么移動(dòng)中間件線程池并發(fā)機(jī)制優(yōu)化改進(jìn)
        上網(wǎng)本為什么只有1GB?
        免费 无码 国产精品| 久久综合精品人妻一区二区三区| 91九色人妻精品一区二区三区| 手机av在线观看视频| 一二三四中文字幕日韩乱码| 亚洲精品综合色区二区| 国产精品三级自产拍av| 蜜臀av一区二区三区精品| 国产一区二区三区涩涩| 国产三级三级精品久久| 韩国一区二区三区黄色录像| 亚洲中文字幕一区二区在线| 日韩女同视频在线网站| 欧美人妻aⅴ中文字幕| 精品人妻无码一区二区三区蜜桃一| 女人大荫蒂毛茸茸视频| 无码精品a∨在线观看| 午夜男女爽爽爽在线视频| 337人体做爰大胆视频| 俺也去色官网| 青青青伊人色综合久久亚洲综合| 国产AV无码无遮挡毛片| 白色白色视频在线观看| 一本之道久久一区二区三区| 国产午夜手机精彩视频| 国产精品久久久久久久免费看| 日本老熟欧美老熟妇| 精品无码AV无码免费专区| 挑战亚洲美女视频网站| 国产另类av一区二区三区| 中文字幕亚洲精品久久| 五月天激情电影| 摸进她的内裤里疯狂揉她动视频| 国产一级片毛片| 中国免费一级毛片| 中文字幕人妻日韩精品| 色综合久久中文综合网亚洲| 国产一二三四2021精字窝| 99精品国产在热久久| 免费可以在线看A∨网站| 高跟丝袜一区二区三区|