亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向端到端目標檢測神經(jīng)網(wǎng)絡的高效硬件加速系統(tǒng)設計

2022-12-20 12:08:04任仕偉劉朝鉀李劍錚蔣榮堃王曉華薛丞博

北京理工大學學報 2022年12期

任仕偉，劉朝鉀，李劍錚，蔣榮堃,,3，王曉華，薛丞博

（1. 北京理工大學集成電路與電子學院，北京 100081；2. 北京理工大學重慶創(chuàng)新中心，重慶 401120；3. 北京理工大學重慶微電子中心，重慶 401332）

卷積神經(jīng)網(wǎng)絡（convolutional neural networks, CNN）正廣泛應用在計算機視覺領域[1]. 其中，圖像目標檢測作為計算機視覺中最重要的應用之一，正被使用在自動駕駛、安全防衛(wèi)、姿態(tài)識別、醫(yī)療衛(wèi)生、多目標檢測等領域[2?4]. 但隨著CNN 規(guī)模的不斷擴大，海量浮點運算對計算平臺的處理能力產(chǎn)生了更高的要求. 具備較高運算性能的圖形處理器（graphic processing unit, GPU）由于高功耗和低硬件資源利用效率，令其無法搭載在功耗敏感且資源受限的邊緣計算設備中. 而現(xiàn)場可編程門陣列（field programmable gate array, FPGA）平臺由于其并行架構、低功耗等特性，正被廣泛應用在硬件資源受限型與功耗敏感型設備中[5]. 因此，設計適用于FPGA 平臺的高效目標檢測CNN 硬件加速器是當前重點的研究方向.

目前，YOLO[6]及其演進版本YOLOv2[7]、YOLOv3[8]作為一階CNN 目標檢測器的代表，正得到廣泛的應用. 而YOLOv3 相較于YOLOv2 引入的多尺度檢測方案及更精細的網(wǎng)絡結構雖增加了硬件加速器的設計復雜度[9]，但也使其獲得了更好的檢測能力. 同時，YOLOv3-Tiny 在運算量及參數(shù)量上相較于YOLOv3標準模型均有更大程度的縮減，更適用于輕量化的邊緣計算設備使用.

近期，基于FPGA 實現(xiàn)的YOLOv3-Tiny 硬件加速架構被相繼提出[10?14]. YU 等[10]提出了一個基于FPGA 定制的輕量化YOLOv3-Tiny 架構，ZHEN 等[11]則通過優(yōu)化算法提升卷積效率，YU 和ZHEN 利用FPGA 較少的片上硬件資源即實現(xiàn)了YOLOv3-Tiny硬件加速，但由于其數(shù)據(jù)吞吐量較低，僅分別能實現(xiàn)1.9 FPS 與4.6 FPS 的檢測幀率，基本不具備實時檢測能力. AHMAD 等[12]利用高性能FPGA 的硬件資源優(yōu)勢實現(xiàn)了一個高吞吐量的YOLOv3-Tiny 網(wǎng)絡，但其硬件資源利用效率較低，且大量DSP 硬件資源的使用令其不利于在小型FPGA 上實現(xiàn). 綜上所述，為獲得檢測速度、檢測精度及硬件資源的平衡，本文通過網(wǎng)絡結構重組、層間融合與動態(tài)數(shù)值量化方式縮減YOLOv3-Tiny 網(wǎng)絡規(guī)模；提出基于通道并行與權值駐留的硬件加速算法與基于乒乓存儲陣列的緊密流水線處理流程，并復用硬件運算單元；最后構建目標檢測硬件加速系統(tǒng)實現(xiàn)高效準確的端到端目標檢測，并有效提升硬件資源利用效率.

1 目標檢測神經(jīng)網(wǎng)絡與模型優(yōu)化

1.1 YOLOv3-Tiny 網(wǎng)絡與結構重組

待測圖像輸入至YOLOv3-Tiny 網(wǎng)絡進行處理，并使用非極大值抑制算法（non-maximum suppression,NMS）[15]篩除重疊目標后可直接得到目標檢測結果.YOLOv3-Tiny 網(wǎng)絡由卷積（Conv）層、最大池化（Maxpool）層、批歸一化（batch normalization, BN）層[16]、激活函數(shù)（ACT）層、填充（Pad）層、上采樣（Upsample）層、拼接（Concat）層共同構成，其中激活函數(shù)層包括LeakyReLU 與Sigmoid 兩類. 本文以卷積運算為中心重組網(wǎng)絡，其他處理則設置在卷積運算前后，如圖1所示. 網(wǎng)絡由14 層以卷積運算為中心的網(wǎng)絡層構成，圖例為各網(wǎng)絡層的組成，序號表明網(wǎng)絡模型中每層網(wǎng)絡與網(wǎng)絡層類型的對應關系及執(zhí)行順序. 通過上述網(wǎng)絡層的組合運算實現(xiàn)與YOLOv3-Tiny 原型網(wǎng)絡完全一致的多尺度推理流程，并適應硬件加速器的流水線處理設計.

圖1 YOLOv3-Tiny 神經(jīng)網(wǎng)絡重組結構Fig.1 YOLOv3-Tiny neural network reconstruction structure

1.2 層間融合

卷積層負責提取圖片特征信息，其表達式為

式中：IF表示輸入特征圖；W表示權重；B表示偏置；OF表示輸出特征圖；IC為輸入通道；S為卷積步長；K為卷積核大??；oc為輸出特征圖通道；w與h為輸出特征圖內行列位置. 式(1)可被簡化為

BN 層置于卷積層后，緩解網(wǎng)絡訓練過程中過擬合問題并加速訓練收斂，其表達式為

式中 γ 、 β、xˉ、 σ2參數(shù)均在網(wǎng)絡訓練過程中生成，并在推理過程中保持不變. 式（3）中OF為卷積層的輸出，將式（2）代入式（3）中，可得

令式（4）中第一項與第二項系數(shù)分別為B′與W′，則將卷積層與BN 層融合. 層間融合后的權重W′與偏置B′由本地端通過式（4）預處理后再導入至FPGA 存儲空間內，即可在硬件加速器中避免復雜的BN 層運算，節(jié)省硬件資源開銷.

1.3 動態(tài)數(shù)值量化

若直接使用在GPU 平臺訓練得到的32 位浮點型參數(shù)輸入至FPGA 平臺進行推理運算，將消耗大量硬件資源以實現(xiàn)浮點運算[17]. 同時，32 位浮點型參數(shù)相對于量化數(shù)據(jù)位寬較大，需占用更大的DDR 數(shù)據(jù)傳輸帶寬. 故需采用數(shù)值量化，用整型運算替代浮點運算，以獲取硬件加速器運算性能的提升. 本文采用的數(shù)值量化表達式為

式中：float表示32 位浮點型數(shù)值；fix表示運算后的量化整型值；FIX_L表示量化寬度；FRAC_L表示小數(shù)位數(shù)；Round()對數(shù)值四舍五入取整；Clamp()將數(shù)值限定在量化整型值所能表示的最大范圍內.

為兼顧檢測精度與檢測速度，本文采用16 位量化寬度進行數(shù)值量化. 同時，在不同網(wǎng)絡層間采用不同的小數(shù)位寬度對權重、偏置及特征數(shù)據(jù)進行量化，即動態(tài)量化，以滿足模型中不同網(wǎng)絡層對小數(shù)位數(shù)的需求，提升模型精度.

2 硬件加速算法與流水線處理設計

2.1 基于通道并行與權值駐留的硬件加速算法

本文基于通道并行與權值駐留的硬件加速算法流程如圖2 所示. 啟動硬件加速算法后，讀取雙倍速率（double data rate, DDR）同步動態(tài)隨機存儲器指定地址空間內數(shù)據(jù)，在全部輸出通道上與卷積核執(zhí)行并行運算，依序執(zhí)行循環(huán)，直至輸出特征圖數(shù)據(jù)均被回寫至DDR 內. 通過并行加速算法，F(xiàn)PGA 平臺的并行架構得到充分利用，有效提升了硬件加速器的吞吐量.

圖2 硬件加速算法流程圖Fig.2 Flow chart of hardware acceleration algorithm

硬件加速器在處理過程中需以直接存儲訪問（direct memory access, DMA）方式對數(shù)據(jù)傳輸帶寬有限的片外DDR 發(fā)起大量數(shù)據(jù)訪問請求，將增加數(shù)據(jù)讀取至片內的等待時間. 本文采用權值駐留方式以減少訪問片外DDR 的次數(shù). 通過設置片上權重存儲（random access memory, RAM），將本輪所需全部權重數(shù)據(jù)從DDR 中讀取至該RAM 后，后續(xù)讀取請求可直接從片上權重RAM 內獲取權重數(shù)據(jù)，避免了讀取權重數(shù)據(jù)對DDR 傳輸帶寬的占用，減少了數(shù)據(jù)讀取操作的總耗時.

2.2 基于乒乓存儲陣列的加速器流水線處理流程

本文基于乒乓存儲陣列設計的硬件加速器緊密流水線處理流程如圖3 所示. 加速器需完成DDR 數(shù)據(jù)讀取、運算處理及DDR 數(shù)據(jù)回寫3 種操作. 通過設置兩組完全相同的片上存儲陣列，加速器交替向輸入緩沖存放從DDR 讀取的數(shù)據(jù)，并將輸出緩沖內數(shù)據(jù)回寫至DDR，有效縮短運算處理操作等待數(shù)據(jù)讀寫的空閑時間，并使得加速器處理總時間由耗時最長的操作決定，詳細的系統(tǒng)性能評估方案于3.5 節(jié)提出.

圖3 硬件加速器的流水線處理流程Fig.3 Pipeline processing flow of hardware accelerator

3 目標檢測硬件加速系統(tǒng)設計

3.1 目標檢測系統(tǒng)總體架構

基于FPGA 的目標檢測神經(jīng)網(wǎng)絡系統(tǒng)總體架構如圖4 所示，由處理器系統(tǒng)（processor system, PS）以及可編程資源（programable logic, PL）端的硬件加速器組成，通過用戶數(shù)據(jù)報協(xié)議（user datagram protocol,UDP）與上位機互聯(lián)，實現(xiàn)端到端的目標檢測. 神經(jīng)網(wǎng)絡硬件加速器以運算處理器（processing engine, PE）陣列為核心，與片上存儲陣列、池化陣列以及激活函數(shù)陣列進行數(shù)據(jù)交互與運算處理.

圖4 目標檢測硬件加速系統(tǒng)總體架構Fig.4 Overall architecture of object detection hardware acceleration system

本系統(tǒng)PEs 陣列包含的PE 數(shù)量由NPEs參數(shù)確定，每個PE 負責一個輸出通道上的數(shù)值運算，其余模塊均依據(jù)NPEs參數(shù)作相應變化，具有良好的可擴展性，其數(shù)量關系如表1 所示. 片上權重RAM 與權重寄存器陣列位寬均為144 bit，以同時讀取單個卷積核3×3×16 bit 的參數(shù)量，MAX_IC表示權重RAM 中可駐留權重的最大輸入通道數(shù). 144 bit 位寬的輸出數(shù)據(jù)RAM 與池化數(shù)據(jù)RAM 可同時存儲9 組PEs 陣列或池化陣列的16 bit 輸出數(shù)據(jù)，故其僅需PEs 數(shù)量的1/9 即可存儲全部輸出數(shù)據(jù)，ceil()為向上取整函數(shù). 同時，輸入數(shù)據(jù)RAM、輸出數(shù)據(jù)RAM、池化數(shù)據(jù)RAM、權重存儲陣列均以2.2 節(jié)中所描述的乒乓存儲方式構建，故數(shù)量均為需求值的兩倍，以實現(xiàn)PEs 陣列的緊密流水線運算，節(jié)約等待數(shù)據(jù)緩沖的時鐘周期.

表1 硬件加速器各模塊設置與數(shù)量Tab.1 Setting and number of hardware accelerator units

3.2 運算處理器設計

運算處理器負責特征圖數(shù)據(jù)與權值的乘加、偏置及輸入通道維度上數(shù)據(jù)的累加、數(shù)據(jù)溢出處理與動態(tài)量化4 種操作，其硬件結構如圖5 所示.

圖5 運算處理器PE 的硬件結構Fig.5 Hardware structure of processing engine

每個PE 由9 個16 bit 乘法器及其它運算與控制邏輯組成. 輸入數(shù)據(jù)選擇器（Mux）可控制輸入零元素以實現(xiàn)特征圖邊緣填充. PE 內部為全流水線架構，支持數(shù)據(jù)的連續(xù)輸入與運算. 最后PE 需完成數(shù)據(jù)溢出處理，輸出數(shù)據(jù)將被限定在量化寬度可表示的范圍內. PE 中的左右移位模塊根據(jù)量化參數(shù)配置完成數(shù)據(jù)截斷和待加數(shù)的小數(shù)位對齊. 為實現(xiàn)1×1 卷積運算，將3×3 卷積核矩陣除(0,0)位置的元素設置為0，并仍按3×3 卷積流程運算，通過該設計即可復用PE 完成不同卷積核尺度的運算.

3.3 池化單元與激活函數(shù)單元設計

池化單元與激活函數(shù)單元的硬件結構如圖6 所示，負責對PEs 輸出數(shù)據(jù)做池化與激活函數(shù)處理.

圖6 池化單元與激活函數(shù)單元的硬件結構Fig.6 Hardware structure of pool unit and activation unit

若硬件加速器使能池化單元，則PEs 的運算結果被直接輸入至池化單元以流水線方式處理，避免了卷積層與池化層間數(shù)據(jù)對片外DDR 的反復讀寫.該單元利用緩沖寄存器Reg 實現(xiàn)行內數(shù)值比較，利用池化數(shù)據(jù)RAM 回環(huán)實現(xiàn)行間數(shù)值比較，其由外部狀態(tài)機控制，以相同硬件結構實現(xiàn)任意步長的池化運算.

激活函數(shù)單元包括LeakyReLU 單元與Sigmoid單元，在數(shù)據(jù)回寫至DDR 前實現(xiàn)激活函數(shù)處理.LeakyReLU 單元利用一個乘法器實現(xiàn)對輸入值的非線性處理. Sigmoid 單元使用查找表構建，由于Sigmoid 函數(shù)關于(0,0.5)中心對稱，且在輸入大于+5 時輸出值相似，故查找表ROM 內僅存儲輸入為0～+5范圍內1 280 個采樣點的Sigmoid 函數(shù)輸出值，通過兩組Mux 實現(xiàn)地址選擇與輸出數(shù)值中心對稱處理，以片上ROM 替代了Sigmoid 函數(shù)中指數(shù)、除法等硬件難以實現(xiàn)的結構.

3.4 數(shù)據(jù)存儲與讀寫處理流程設計

片外DDR 內數(shù)據(jù)存儲方式與片上數(shù)據(jù)處理流程需和所設計的硬件加速器流水線相匹配，本節(jié)以3×3 卷積運算為例說明，如圖7 所示. 每層輸入特征圖dihw與輸出特征圖oohw按照相同順序存放在DDR內，以使本層的輸出特征圖可按相同存儲順序直接作為下一層的輸入特征圖被讀取. 由于采用輸出通道并行方式執(zhí)行卷積運算，每一輪次處理需讀取單個輸入通道下對應的全部輸出通道的權重，因此權重數(shù)據(jù)wiokk按照輸出通道優(yōu)先方式存儲于DDR 內，可使權重數(shù)據(jù)讀取時地址連續(xù)，增加猝發(fā)讀取長度，提升權重數(shù)據(jù)的讀取速率.

圖7 數(shù)據(jù)存儲方案及讀寫處理流程Fig.7 Scheme of data storage and flow of read and write processing

在啟動硬件加速器后，首先執(zhí)行第1 輪DDR讀取操作，加速器讀取輸入特征圖d[0,0:2,:]與權重w[0,:,:,:]至片上存儲陣列，并以并行滑窗方式完成第一輪卷積運算，隨后讀取DDR 中d[1,0:2,:]與w[1,:,:,:]完成第2 輪數(shù)據(jù)讀取與卷積運算. 經(jīng)過i輪處理后所有輸入通道的前3 行數(shù)據(jù)均完成卷積與累加處理，得到所有輸出通道下對應的第1 行輸出數(shù)據(jù). 此時執(zhí)行第1 輪DDR 寫入操作，將數(shù)據(jù)分別回寫至DDR內的o[:,0,:]中，完成單行輸出特征圖數(shù)據(jù)的存儲. 以此類推，直至完成本層硬件加速處理.

池化單元與激活函數(shù)單元均可在PEs 卷積處理后使能或旁路，僅增加數(shù)據(jù)處理流水線長度而不改變數(shù)據(jù)讀寫及處理的流程. 上采樣在讀取輸入特征圖數(shù)據(jù)時實現(xiàn)，在行內讀取每個特征圖點時，數(shù)據(jù)經(jīng)復制后再寫入輸入數(shù)據(jù)RAM 內實現(xiàn)行內上采樣，同時需對同一行數(shù)據(jù)進行兩次讀取以實現(xiàn)行間上采樣.拼接層需讀取DDR 不同地址空間內的兩層特征圖數(shù)據(jù)，因此僅需通過改變讀取地址即可實現(xiàn)特征圖的拼接操作.

3.5 系統(tǒng)性能評估

單輪硬件加速器處理的各部分理論耗時如式（6）所示，分別為DDR 數(shù)據(jù)讀取時間Tread，PEs運算處理時間Tprocess與DDR 數(shù)據(jù)回寫時間Twrite.WDDR表示DDR 的數(shù)據(jù)傳輸帶寬，Tread由所需讀取的輸入特征圖及權重總數(shù)據(jù)量與DDR 數(shù)據(jù)傳輸帶寬之比得到，由于單輪處理中只讀取一次偏置數(shù)據(jù)，故讀取偏置時間可被忽略.Tprocess由單輪硬件加速器處理所需總周期數(shù)與加速器運行時鐘頻率fCLOCK之比獲得. 所需寫入的輸出特征圖總數(shù)據(jù)量與DDR 數(shù)據(jù)傳輸帶寬之比即為DDR 數(shù)據(jù)回寫時間Twrite.

由于硬件加速器的緊密流水線處理流程，其單輪次處理的理論總時間由3 個時間中的最大值決定.同時，設計采用輸出通道并行架構，通道并行數(shù)量與NPEs參數(shù)相同，當網(wǎng)絡層的輸出通道數(shù)O大于NPEs時，需啟動多輪硬件加速器處理以完成單層網(wǎng)絡層內所有輸出通道的運算. 因此，單層網(wǎng)絡層處理的理論總時間如式（7）所示.

4 實驗結果與分析

4.1 實驗環(huán)境建立

本文采用UltraScale+ XCZU9EG 作為測試平臺，所設計的硬件加速器以Verilog 語言編寫并通過Vivado 軟件綜合實現(xiàn). ARM 處理器可向硬件加速器發(fā)送控制指令，實現(xiàn)不同參數(shù)配置下的硬件加速運算，并通過控制UDP 加速器實現(xiàn)數(shù)據(jù)高速傳輸. 同時，本文基于C#語言實現(xiàn)上位機軟件，其通過UDP網(wǎng)絡與硬件加速系統(tǒng)通信，并利用多線程技術向FPGA 傳輸待測圖像或對FPGA 回傳特征圖進行后處理與結果顯示. 上位機與硬件加速系統(tǒng)以流水線處理各任務，使系統(tǒng)具備高速連續(xù)的目標檢測能力. 以上模塊共同構成基于YOLOv3-Tiny 的端到端目標檢測硬件加速系統(tǒng)，系統(tǒng)實物圖如圖8 所示.

圖8 目標檢測硬件加速系統(tǒng)實物Fig.8 Hardware acceleration system of object detection

4.2 測試結果及性能評估

在實際測試環(huán)境下，本文以硬件加速器每秒鐘可執(zhí)行乘加操作數(shù)（giga operations per second, GOPS，G為109次）評估其整體吞吐量與性能，其由單張待測圖像在網(wǎng)絡推理過程所需的理論乘加操作數(shù)與實際檢測執(zhí)行時間的比值確定. 同時，根據(jù)吞吐量GOPS 與FPGA 片上LUT、BRAM、DSP 硬件資源使用量的比值評估其片上各硬件資源利用效率. 其中，DSP 作為FPGA 中最關鍵且稀缺的高速乘法運算硬件資源，因此DSP 效率是評估硬件加速器整體效率的關鍵指標.

為達到系統(tǒng)性能與硬件資源效率間的平衡，本文設置NPEs為32、MAX_IC為512 對硬件加速器進行FPGA 綜合實現(xiàn). 硬件加速器運行頻率為300 MHz，功耗為4.12 W，其使用了36.0 k LUT、41.3 k FF、199 BRAM36k、298 DSP 的FPGA 硬件資源，達到了96.6 GOPS 的吞吐量與17.3 FPS 的檢測幀率，其具有0.32 GOPS/DSP 的DSP 效率，2.68 GOPS/kLUT 的LUT 效率與0.49 GOPS/BRAM 的BRAM 效率.

在使用浮點數(shù)值的GPU 平臺與在本文使用動態(tài)量化數(shù)值的FPGA 平臺分別執(zhí)行YOLOv3-Tiny 神經(jīng)網(wǎng)絡，對MS COCO 2017 驗證集進行目標檢測，其部分結果如圖9 所示. 經(jīng)測試，使用動態(tài)量化數(shù)值的FPGA 平臺的檢測精度mAP50為31.5%，相較于使用浮點數(shù)值的GPU 平臺僅下降1.6%. 在可接受的檢測精度損失下，縮減了網(wǎng)絡規(guī)模，提升了FPGA 硬件加速器整體運算性能.

圖9 目標檢測結果對比Fig.9 Comparison of object detection results

YOLOv3-Tiny 目標檢測網(wǎng)絡在本文FPGA 硬件加速器與在CPU、GPU 平臺上實現(xiàn)的性能對比如表2 所示，輸入圖像像素尺寸為416×416. 本文所設計的硬件加速器吞吐量為96.6 GOPS，是CPU 平臺的1.1 倍，但功耗相較于CPU 平臺下降了15.8 倍. GPU平臺的功耗是本文硬件加速器的53.4 倍，但吞吐量僅增加16.5 倍. 從能效比上看，相較于GPU 與CPU，本文硬件加速器分別有3.2 倍與17.4 倍的提升，具有最佳的能效比. 同時，本文設計的硬件加速器功耗僅為4.12 W，更適用于功耗敏感型的邊緣計算設備.

表2 與CPU 和GPU 計算平臺的性能對比Tab.2 Comparision with CPU and GPU computing platform

4.3 性能對比及分析

本文設計的基于FPGA 的YOLOv3-Tiny 硬件加速器與先前其他同類硬件加速器[10?14]的性能對比結果如表3 所示. 本文的硬件加速器吞吐量與DSP 效率分別為96.6 GOPS 與0.32 GOPS/DSP. 與YU[10]的設計相比，本文的硬件加速器吞吐量與DSP 效率分別是其9.2 倍與4.6 倍. ZHENG[11]使用優(yōu)化算法提升卷積效率，本設計的吞吐量與DSP 效率分別是其4.2倍與2.0 倍. AHMAD[12]使用了7.7 倍于本設計的DSP數(shù)量實現(xiàn)加速器，但吞吐量僅提升了4.8 倍，同時其硬件部分設計僅包含卷積和BN 層處理且報告的是理論峰值吞吐量，而本設計實現(xiàn)了所有網(wǎng)絡層的加速功能，DSP 效率是其1.6 倍. PESTANA[13]設計的全可配加速器利用2.8 倍于本設計的DSP 實現(xiàn)，但吞吐量僅提升了1.9 倍，硬件資源利用效率較低，本設計的DSP 效率是其1.5 倍. ADIONO[14]使用通用卷積乘法實現(xiàn)加速器，本文根據(jù)其報告的執(zhí)行時間將原文的峰值吞吐量轉換為整體吞吐量，本文性能與DSP效率分別是其2.1 倍與1.7 倍. 綜上所述，本文提出的基于YOLOv3-Tiny 網(wǎng)絡的目標檢測硬件加速器在保持較高整體吞吐量的同時減少了硬件資源使用量，與其他文獻相比具備最佳的DSP 效率與LUT 效率以及良好的BRAM 效率，平衡了系統(tǒng)性能與硬件資源用量的關系，更適用于在硬件資源敏感型設備中實現(xiàn)高效端到端目標檢測.

表3 與其他YOLOv3-Tiny 硬件加速器的性能對比Tab.3 Performance comparision with other YOLOv3-Tiny hardware accelerator

5 結論

本文提出了一種基于YOLOv3-Tiny 網(wǎng)絡的端到端高效目標檢測硬件加速系統(tǒng). 通過網(wǎng)絡結構重組、層間融合與動態(tài)數(shù)值量化方式實現(xiàn)網(wǎng)絡模型縮減，并基于通道并行與權值駐留的硬件加速算法與緊密流水線處理流程實現(xiàn)了硬件加速器的高效處理. 最后，設計了一套基于FPGA 的目標檢測硬件加速系統(tǒng). 與其他同類硬件加速器相比，擁有最佳的DSP與LUT 硬件資源利用效率，并具備高效準確的端到端目標檢測能力，適合在硬件資源敏感與功耗敏感的邊緣計算設備中應用.