亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向航空目標檢測的神經(jīng)網(wǎng)絡加速器設計

        2022-07-03 12:56:13施立瑞王帥帥肖昊
        航空科學技術 2022年5期
        關鍵詞:目標檢測卷積神經(jīng)網(wǎng)絡加速器

        施立瑞 王帥帥 肖昊

        摘要:卷積神經(jīng)網(wǎng)絡被廣泛應用于航空圖像目標檢測領域。然而,由于航空圖像成像背景環(huán)境復雜、目標尺寸小且方向任意,為了提取更高層次的特征信息,神經(jīng)網(wǎng)絡模型的結(jié)構復雜度不斷提高,使得模型計算復雜度高、計算時間長,從而難以滿足航空目標檢測的實時性需求。本文提出了一種面向航空目標檢測的基于Winograd算法的神經(jīng)網(wǎng)絡加速器,通過Winograd卷積算法可大幅減少卷積計算中的乘法數(shù)量,并針對Winograd卷積在神經(jīng)網(wǎng)絡計算中由于時域變換引入額外加法計算的問題,提出了一種深流水的矩陣變換計算結(jié)構,通過復用加法計算的中間結(jié)果以及調(diào)整運算順序減少輸入和輸出變換的計算量。同時,針對加速器的現(xiàn)場可編程門陣列(FPGA)實現(xiàn),提出了一種高效的數(shù)據(jù)流形式和DSP陣列結(jié)構。試驗結(jié)果表明,本文提出的加速器相比CPU和GPU分別獲得了32倍和2.6倍的速度提升。

        關鍵詞:目標檢測;卷積神經(jīng)網(wǎng)絡;加速器;Winograd算法;FPGA

        中圖分類號:TP183文獻標識碼:ADOI:10.19452/j.issn1007-5453.2022.05.013

        近年來,航空圖像數(shù)據(jù)分析需求大幅增加,卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)由于其優(yōu)越的性能被廣泛應用于航空目標檢測[1-5]。然而,由于航空圖像成像背景環(huán)境復雜、目標尺寸小且方向任意,為了獲取更高的預測準確率,神經(jīng)網(wǎng)絡模型層數(shù)逐漸加深,結(jié)構更加復雜,使得模型計算復雜度高、計算時間長,從而難以滿足航空目標檢測中實時性的需求。因此,如何根據(jù)遙感圖像快速檢測目標成為一項巨大的挑戰(zhàn)。

        大量研究從軟硬件方面優(yōu)化提升航空圖像目標檢測速度。在軟件算法優(yōu)化方面,參考文獻[6]和文獻[7]通過提出輕量級網(wǎng)絡模型減少網(wǎng)絡參數(shù)和計算復雜度。參考文獻[6]提出了一種壓縮MobileNet網(wǎng)絡模型,在特征映射下采樣階段減少瓶頸架構數(shù)量,但在特征映射平臺階段增加更多瓶頸,從而減少網(wǎng)絡參數(shù),縮短推理時間并提高預測準確性。參考文獻[7]提出了一種輕量級神經(jīng)網(wǎng)絡模型G-YOLOv3,其主要構件為嵌套殘差塊,每個殘差塊中都包含了本征特征圖與相似特征圖,且殘差塊中添加注意力機制,增強網(wǎng)絡的學習能力,從而降低網(wǎng)絡所需參數(shù)和計算復雜度,提升目標檢測速度。在硬件加速方面,參考文獻[8]在MPSOC硬件平臺對網(wǎng)絡計算進行硬件加速,通過豐富的可編程邏輯資源提升計算并行度,縮短網(wǎng)絡計算時間。然而,上述加速目標檢測的方法均基于傳統(tǒng)卷積計算,而在航空目標檢測中用來提取特征值的卷積神經(jīng)網(wǎng)絡占據(jù)了網(wǎng)絡推斷階段70%以上的時間[6,9],傳統(tǒng)卷積由于高計算復雜度成為限制目標檢測速度的瓶頸。因此,本文提出了一種面向航空目標檢測的基于Winograd算法的神經(jīng)網(wǎng)絡加速器設計,包括:(1)對航空目標檢測網(wǎng)絡中的基干網(wǎng)絡部分進行硬件加速,通過Winograd算法降低了卷積計算的復雜度,與傳統(tǒng)卷積相比減少了75%的乘法計算,同時提出了一種深流水結(jié)構的矩陣變換方法,優(yōu)化Winograd算法中的加法計算,與直接Winograd計算相比減少了18.75%的輸入變換計算量和至少76.19%的輸出變換計算量;(2)在FPGA平臺加速卷積神經(jīng)網(wǎng)絡,設計了一種高效的DSP陣列結(jié)構和數(shù)據(jù)流方式,大幅提高DSP的計算效率。本文提出的加速器相比CPU和GPU分別獲得了32倍和2.6倍的速度提升。

        1目標檢測網(wǎng)絡

        1.1網(wǎng)絡結(jié)構

        航空目標檢測網(wǎng)絡模型結(jié)構如圖1所示,整體分為基干網(wǎng)絡和檢測網(wǎng)絡兩個部分。其中,基干網(wǎng)絡主要完成圖片特征值提取的功能,檢測網(wǎng)絡根據(jù)基干網(wǎng)絡提取的特征對特定目標進行檢測。由于航空圖像成像背景復雜且目標尺度較小,為了提取更高層次的特征信息,獲得更高的準確率,基干網(wǎng)絡采用深層卷積神經(jīng)網(wǎng)絡獲取有效特征。其中,卷積計算示意圖如圖2所示,每個通道上的卷積核分別與對應通道上的輸入數(shù)據(jù)相同大小的區(qū)域進行乘累加運算,每個通道上的乘累加后的結(jié)果相加得到輸出數(shù)據(jù)中的一個值,接著卷積核以一定的步長不斷滑動得到所有的輸出數(shù)據(jù)??梢姡瑐鹘y(tǒng)卷積的滑窗計算方式計算復雜度高,因此,本文引入Winograd算法,利用圖像像素點之間的結(jié)構相似性,將滑窗卷積變?yōu)榫仃圏c乘運算,大幅降低了卷積運算中乘法計算的數(shù)量。

        1.2 Winograd算法

        Winograd算法[10]由數(shù)學家Winograd于1980年提出,用于信號處理中的卷積操作。以一維Winograd卷積為例,記輸出尺寸為m,卷積核尺寸為r的卷積計算為F(m,r),d為輸入數(shù)據(jù),g為卷積核數(shù)據(jù),我們通過一組具體的計算闡述 Winograd卷積原理。

        將Winograd卷積應用到CNN中的計算流程圖如圖3所示。第一階段,將輸入特征圖和卷積核數(shù)據(jù)從時域轉(zhuǎn)換到Winograd域;第二階段,變換后的輸入特征圖和卷積核執(zhí)行矩陣點乘計算;第三階段,各通道間的卷積結(jié)果執(zhí)行累加;第四階段,將Winograd域的卷積結(jié)果變換到時域。其中,第三階段和第四階段的執(zhí)行順序不影響最終卷積結(jié)果。

        2 CNN加速器設計

        2.1目標檢測系統(tǒng)架構

        航空目標檢測系統(tǒng)架構如圖4所示,基干網(wǎng)絡部分采用FPGA加速,檢測網(wǎng)絡在主機完成。其中,加速器主要由輸入特征圖緩存、權重緩存、輸入特征圖變換、并行計算單元(PE)、輸出特征圖緩存組成。由于神經(jīng)網(wǎng)絡參數(shù)量巨大而片上存儲資源有限,外部存儲器中的數(shù)據(jù)將根據(jù)運算階段分批次加載到片上緩存中。其中,權重變換在片外預處理完成,片上緩存接收到的不再是原始權重數(shù)據(jù)而是轉(zhuǎn)換后的數(shù)據(jù)。多個輸入特征圖轉(zhuǎn)換模塊并行處理多通道輸入數(shù)據(jù),多個PE單元并行處理多個卷積核上的卷積,二者并行度可根據(jù)不同硬件平臺的資源進行調(diào)整。在輸出變換中,PE單元循環(huán)復用多次,完成所有通道卷積和累加后再執(zhí)行輸出變換,與參考文獻[11]相比,輸出變換的運算量僅為前者的1/N,N為輸入通道數(shù)。由于片上存儲資源有限,當輸出特征圖緩存中積累了一定數(shù)據(jù)后,通過訪存控制傳輸?shù)狡獯鎯ζ髦小.敿铀倨魍瓿商卣髦堤崛『?,將?shù)據(jù)傳到主機進行檢測網(wǎng)絡計算,實現(xiàn)完整目標檢測功能。

        2.2輸入/輸出特征圖轉(zhuǎn)換

        2.3 PE單元

        PE單元執(zhí)行的功能是對轉(zhuǎn)換后的輸入特征圖和權重進行點乘計算,如何合理地部署DSP資源是PE單元性能的關鍵?,F(xiàn)有設計僅使用DSP中的乘法器處理乘法計算,而DSP中除乘法器外還包含加法器等豐富的計算資源。因此,本文提出了一種高效的DSP計算數(shù)據(jù)流形式和通道間級聯(lián)的DSP陣列結(jié)構。

        DSP內(nèi)部的計算結(jié)構和數(shù)據(jù)流安排如圖7所示,單個DSP中計算兩個卷積核和輸入特征圖的卷積操作。輸入特征圖固定從A端口輸入,兩個卷積核的權重數(shù)據(jù)分別固定從B端口和D端口輸入,兩個卷積核復用輸入特征圖,通過控制DSP的配置參數(shù)使其乘法器執(zhí)行A×B和A×D的乒乓操作。同時,加法器乒乓執(zhí)行A×B和A×D的計算結(jié)果與其各自上一通道結(jié)果的累加。圖8展示了DSP間級聯(lián)的陣列結(jié)構,其中,Wa,b表示第a個卷積核的第b個通道的權重數(shù)據(jù),indata_m為輸入特征圖第m個通道數(shù)據(jù)。Psum、psum分別為上一循環(huán)和當前的部分和結(jié)果。級聯(lián)結(jié)構主要用來處理通道間累加,級聯(lián)的首個DSP從C口輸入上一通道的結(jié)果,其余DSP從PCIN口級聯(lián)輸入上一通道的結(jié)果,最后輸出兩個通道的部分和(psum)結(jié)果。PE單元包含多組級聯(lián)的DSP組,假設有M組DSP組,N個輸入通道,Z個卷積核,循環(huán)復用計算單元N/M次完成單個卷積核的計算,單次循環(huán)的最后一組DSP的輸出保存在RAM中參與下一次循環(huán)計算,直至完成所有通道的累加。

        DSP的數(shù)據(jù)流安排使得DSP的計算效率在計算過程中提高了4倍;DSP級聯(lián)的陣列結(jié)構與參考文獻[11]中單獨設置加法單元方法相比,減少了累加計算周期。同時,充分利用了DSP中的計算資源,從而節(jié)省了片上LUT資源。

        2.4雙緩沖區(qū)緩存單元

        由于神經(jīng)網(wǎng)絡參數(shù)量龐大,減少數(shù)據(jù)傳輸時間是加速器性能提升的關鍵。本文采用圖9所示雙緩沖區(qū)結(jié)構對數(shù)據(jù)進行乒乓讀寫,隱藏了從片外緩存數(shù)據(jù)與片上計算之間的延時。

        在F(m2,r2)的二維Winograd卷積中,輸入塊的大小為n×n,相鄰輸入塊之間重疊r-1個像素點,為了在讀取輸入圖分塊時復用重疊數(shù)據(jù),在緩存單元中,設計時將輸入特征圖按行存儲在RAM中。首先在n個RAM中分別存儲輸入特征圖的n行數(shù)據(jù),然后計算模塊開始從緩沖區(qū)讀取輸入特征圖塊開始計算,同時,緩沖區(qū)的(n- r+1)個RAM繼續(xù)接收來自片外的輸入特征圖數(shù)據(jù)。

        當緩沖區(qū)中的前n行數(shù)據(jù)由計算單元讀取完成之后,重新從片外緩存(n- r+1)行輸入特征圖數(shù)據(jù),此時計算單元從后n個RAM中讀取數(shù)據(jù),實現(xiàn)乒乓讀寫。該方法在復用輸入數(shù)據(jù)的同時使得數(shù)據(jù)緩存單元和計算單元一直處于工作狀態(tài),有效減少了加速器整體運行時間。

        3試驗與結(jié)果分析

        為驗證本文提出的基于Winograd算法的神經(jīng)網(wǎng)絡加速器的綜合性能,試驗選用經(jīng)典VGG16網(wǎng)絡模型作為航空目標檢測的基干網(wǎng)絡,SSD網(wǎng)絡模型作為檢測網(wǎng)絡,并在Xilinx VCU118硬件平臺部署基干網(wǎng)絡部分CNN加速器,模型檢測結(jié)果如圖10所示。

        將本文設計的加速器部署在FPGA上的推理延時與CPU、GPU上運行結(jié)果做對比見表2,其中,CPU采用Intel i5-4590處理器,GPU采用NVIDIA RTX2070super。相比CPU和GPU,本文加速器分別獲得了32倍和2.6倍的速度提升。

        表3評估了設計的硬件資源使用率、吞吐量、運行時間等性能指標。參考文獻[5]加速器采用傳統(tǒng)卷積計算,在硬件資源占用率相近的情況下,本文基于Winograd算法的加速器,相比參考文獻[12]節(jié)省了60.1%的網(wǎng)絡推斷時間。參考文獻[13]和文獻[[11]與本文卷積算法相同。其中,參考文獻[13]在Winograd卷積計算階段將輸出變換應用在通道累加之前,相比本文增加了71%的冗余計算。因而,在吞吐量相近的情況下,本文的加速器計算延時減少了31.5%。本文相比參考文獻[11]增加了不到一倍的DSP資源而計算延時僅為其一半不到。在LUT資源占用上,由于本文優(yōu)化了變換階段的計算(主要由LUT實現(xiàn)),與參考文獻[9]和文獻[11]相比分別減少了20.1%和25.7%。經(jīng)上述分析可見,本文加速器加速效果更佳。

        4結(jié)束語

        本文提出了一種基于航空目標檢測的神經(jīng)網(wǎng)絡加速器,通過Winograd卷積算法大幅減少卷積計算中的乘法數(shù)量,并針對當前Winograd卷積在CNN計算中由于時域變換引入額外加法計算的問題,提出了一種深流水的矩陣變換計算結(jié)構,通過復用加法計算的中間結(jié)果以及調(diào)整運算順序減少輸入變換和輸出變換的計算量。同時,針對加速器的FPGA實現(xiàn),提出了一種高效的數(shù)據(jù)流形式和DSP陣列結(jié)構。試驗結(jié)果表明,本文的加速器吞吐量更高、計算延時更短。

        參考文獻

        [1]Yi J,Wu P,Liu B,et al. Oriented object detection in aerial images with box boundary-aware vectors[C]// 2021 IEEE Winter Conference on Applications of Computer Vision(WACV),2021:2149-2158.

        [2]Kovbasiuk S,Kanevskyy L,Romanchuk M.Object detection method based on aerial image instance segmentation by unmanned aerial system in the framework of decision making system[C]// 2019 3rd International Conference on Advanced Infor-mation and Communications Technologies(AICT),2019:332-335.

        [3]趙文清,孔子旭,周震東,等.增強小目標特征的航空遙感目標檢測[J].中國圖象圖形學報,2021,26(3):644-653. Zhao Wenqing, Kong Zixu, Zhou Zhendong, et al. Aerial remote sensing target detection with enhanced small target features[J]. Chinese Journal of Image and Graphics, 2021,26(3):644-653. (in Chinese)

        [4]何曉驍,姚呈康.人工智能等新技術在航空訓練中的應用研究[J].航空科學技術,2020,31(10):7-11. He Xiaoxiao, Yao Chengkang. Research on the application of new technologies such as artificial intelligence in aviation training[J]. Aeronautical Science & Technology, 2020,31(10):7-11. (in Chinese)

        [5]鄧偉偉,段朝陽.人工智能在導彈控制系統(tǒng)中的應用[J].航空科學技術,2020,31(10):30-35. Deng Weiwei, Duan Chaoyang. Application of artificial intelligence in missile control system[J]. Aeronautical Science& Technology,2020,31(10):30-35. (in Chinese)

        [6]He Y,Pan Z,Li L,et al. Real-time vehicle detection from shortrange aerial image with compressed mobileNet[C]//2019 International Conference on Robotics and Automation(ICRA),2019:8339-8345.

        [7]聶子一,張璞.輕量級神經(jīng)網(wǎng)絡與遙感圖像目標檢測[J].電子制作,2021(18):54-55,62. Nie Ziyi, Zhang Pu. Lightweight neural network and remote sensing image target detection[J] .Electronic Production, 2021(18): 54-55, 62. (in Chinese)

        [8]任彬,王宇慶,叢振,等.基于MPSOC的航空圖像目標檢測系統(tǒng)設計[J].液晶與顯示,2021,36(7):1006-1017. Ren Bin, Wang Yuqing, Cong Zhen, et al. Design of aerial image target detection system based on MPSOC[J]. Liquid Crystal and Display, 2021,36(7):1006-1017. (in Chinese)

        [9]Ichim L,Popescu D. Road detection and segmentation from aerial images using a CNN based system[C]//2018 41st International Conference on Telecommunications and Signal Pro‐cessing(TSP),2018:1-5.

        [10]WinogradS. Arithmeticcomplexityofcomputations[J]. Society for Industrial & Applied Mathematics Philadelphia,1980,43(2):625-633.

        [11]Liang Y,Lu L,Xiao Q,et al. Evaluating fast algorithms for convolutional neural networks on FPGAs[C]//IEEE Transac‐tions on Computer-Aided Design of Integrated Circuits and Systems,2020,9(4):857-870.

        [12]Yuan T,Liu W,Han J,et al. High performance CNN accelerators based on hardware and algorithm co-optimization[C]//IEEE Transac-tions on Circuits and Systems I:Regular Papers,2021,68(1):250-263.

        [13]Shen J,Huang Y,Wen M,et al. Toward an efficient deep pipelined template-based architecture for accelerating the entire 2D and 3D CNNs on FPGA[C]//IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems,2020,1442-1455.

        Design of Neural Network Accelerator for Aeronautical Target Detection

        Shi Lirui,Wang Shuaishuai,Xiao Hao

        Hefei University of Technology,Hefei 230000,China

        Abstract: Convolutional neural networks are widely used in the field of object detection in aerial images. However, in order to extract higher-level feature information of small size and arbitrary direction target in complex background environment, the structural complexity of the neural network model continues to increase, which makes the model computationally complex and time-consuming. So it is difficult to satisfy real-time requirements in aerial target detection. This paper proposes a neural network accelerator based on the Winograd algorithm for aerial target detection. The Winograd convolution algorithm greatly reduces the number of multiplications in the convolution calculation. However, there are many additional calculations in transforming input data and filter to Winograd domain in current Winograd convolution. To addresses this problem, a deep pipeline calculation structure of matrix transformation is proposed, which reduces the calculation amount of input transformation and output transformation by reusing the intermediate results of addition calculation and adjusting the operation order. At the same time, for the field programmable gate array (FPGA) implementation of the accelerator, an efficient data flow format and DSP array structure are proposed. The experimental results show that the accelerator proposed in this paper achieves a speed improvement of 32 times and 2.6 times compared to CPU and GPU respectively.

        Key Words: target detection; convolutional neural network; accelerator; Winograd algorithm; FPGA

        猜你喜歡
        目標檢測卷積神經(jīng)網(wǎng)絡加速器
        輪滑加速器
        化學工業(yè)的“加速器”
        全民小康路上的“加速器”
        少先隊活動(2021年6期)2021-07-22 08:44:24
        視頻中目標檢測算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        基于深度卷積神經(jīng)網(wǎng)絡的物體識別算法
        行為識別中的人體運動目標檢測方法
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        移動機器人圖像目標識別
        基于卷積神經(jīng)網(wǎng)絡的樹葉識別的算法的研究
        国产精品欧美日韩在线一区| 一本大道av伊人久久综合 | 色妞ww精品视频7777| 久热这里只有精品99国产| 中文字幕av免费专区| 国产亚洲精品aaaa片小说| 亚洲国产成人久久一区www妖精| 黑人免费一区二区三区| av中国av一区二区三区av| 无码国产69精品久久久久孕妇| 日韩毛片基地一区二区三区| 偷拍激情视频一区二区| 丝袜美腿视频一区二区| 日本中文字幕一区二区高清在线| 亚洲天堂手机在线| 中文字幕a区一区三区| 97精品一区二区三区| 大陆极品少妇内射aaaaaa| 久久精品国产99精品国偷| 日本一本二本三本道久久久| 高清不卡日本v二区在线| 国产欧美日韩精品丝袜高跟鞋| 中文字幕无线码中文字幕| 免费在线观看蜜桃视频| 日本黑人亚洲一区二区| 久久99精品久久久久久秒播| 无码人妻少妇久久中文字幕蜜桃 | 免费在线观看播放黄片视频| 亚洲成a人片在线观看无码专区| 无码国产色欲xxxxx视频| 欧洲人体一区二区三区| 男男啪啪激烈高潮无遮挡网站网址| 亚洲一区二区三区av无码| 国产欧美精品在线一区二区三区 | 国产精品1区2区| 丝袜美腿亚洲综合在线播放| 亚洲欧美中文字幕5发布| 青青操国产在线| 国产网红一区二区三区| 厨房人妻hd中文字幕| 亚洲成成品网站源码中国有限公司|