亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        受限資源下制導(dǎo)武器末制導(dǎo)機器視覺技術(shù)研究

        2020-02-18 05:23:18趙曉冬張洵穎程雪梅
        導(dǎo)航定位與授時 2020年1期
        關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)嵌入式卷積

        趙曉冬,車 軍,張洵穎,程雪梅

        (1.西北工業(yè)大學(xué)無人系統(tǒng)技術(shù)研究院,西安 710072;2.航空工業(yè)西安飛行自動控制研究所,西安 710076;3.西北工業(yè)大學(xué)365研究所,西安 710072)

        0 引言

        在現(xiàn)代戰(zhàn)爭當(dāng)中,精確制導(dǎo)武器的成功研制,促使定點攻擊作戰(zhàn)技術(shù)邁上新的臺階。光學(xué)制導(dǎo)技術(shù)作為精確制導(dǎo)的重要組成部分,是決定其作戰(zhàn)性能的重要因素。光學(xué)制導(dǎo)包括可見光電視、紅外、激光、光纖及復(fù)合制導(dǎo)等,其中可見光電視、紅外和復(fù)合制導(dǎo)都屬于圖像處理與機器視覺的范疇??梢姽怆娨曋茖?dǎo)由彈上成像系統(tǒng)負(fù)責(zé)完成目標(biāo)的探測與識別,較為成熟的包括“GBU-15”制導(dǎo)炸彈、“KAB-1500KR”以及“AGM-144”反坦克彈等制導(dǎo)武器。紅外制導(dǎo)利用熱成像探測原理,實現(xiàn)目標(biāo)的檢測與識別,較為成熟的包括“薩姆-7”、“紅纓-5”和美國“戰(zhàn)斧”巡航導(dǎo)彈BlockIV等。復(fù)合制導(dǎo)采用多模式復(fù)合方式,取長補短,具有代表性的有美國的RAM航空彈和AARGM導(dǎo)彈,分別采用雷達(dá)與紅外復(fù)合、微波與紅外復(fù)合的制導(dǎo)方式。

        在精確制導(dǎo)武器末制導(dǎo)過程中,國內(nèi)軍事上人工智能算法依舊處于無法落地的階段。美國洛克希德·馬丁公司的遠(yuǎn)程反艦導(dǎo)彈LRASM,已經(jīng)成功完成了多次靶試任務(wù)。LRASM基于一款較為成熟的空間導(dǎo)彈進行研制,旨在依靠自身人工智能處理器,在艦隊中檢測并摧毀特定軍事目標(biāo)。該型導(dǎo)彈于2017年12月成功擊中海上移動目標(biāo),標(biāo)志著其技術(shù)已完全成熟,達(dá)到列裝標(biāo)準(zhǔn)。同年2月,俄羅斯武器制造商與國防官員宣布開發(fā)內(nèi)置人工智能的新一代武器,該類智能武器可自主選擇目標(biāo)。2019年6月,以色列拉斐爾公司已成功將人工智能集成到Spice炸彈中,在實現(xiàn)目標(biāo)自主識別的基礎(chǔ)上,加入了人工智能及場景匹配技術(shù)。憑借人工智能和深度學(xué)習(xí)技術(shù),該武器可以識別移動的地面目標(biāo),并成功將其與其他物體及地形進行區(qū)分。

        針對末制導(dǎo)視覺處理方面的經(jīng)典算法研究成果較多,包括差分圖像法[1]、光流場算法[2]、統(tǒng)計模型算法[3]、小波變換算法[4]等。差分法是指利用多幀圖像計算出差分圖像,并將其對應(yīng)像素進行相乘,用以消除偽運動圖像信息;光流場算法利用基于特征信息的光流場進行運動目標(biāo)檢測,同時利用圖像分割獲得目標(biāo)的完整輪廓形狀;統(tǒng)計模型首先對運動場進行粗略估計,并根據(jù)馬爾可夫場理論,構(gòu)造間斷點,實現(xiàn)目標(biāo)檢測;小波變換利用在多尺度上計算由方向、尺度等參數(shù)構(gòu)成的向量來實現(xiàn)目標(biāo)檢測。其中,差分圖像法與光流法在工程實現(xiàn)當(dāng)中應(yīng)用較多。在信息化作戰(zhàn)方面,智能化電子戰(zhàn)的概念不斷涌現(xiàn)。利用人工智能感知技術(shù)獲取戰(zhàn)場信息,并將信息應(yīng)用到精確制導(dǎo)武器末制導(dǎo)階段當(dāng)中,是一種全新概念的作戰(zhàn)方式。從算法理論到工程應(yīng)用的鴻溝,直接影響武器裝備智能化的升級程度。智能化技術(shù)的逐步發(fā)展,為制導(dǎo)武器的智能升級帶來了新的技術(shù)突破口。智能化技術(shù)將顯著提升信息化系統(tǒng)的作戰(zhàn)能力,若能有效突破精確制導(dǎo)系統(tǒng)的智能化技術(shù)應(yīng)用瓶頸,將使現(xiàn)有的制導(dǎo)系統(tǒng)可以更好地適應(yīng)復(fù)雜戰(zhàn)場環(huán)境以及激烈對抗條件下的多類別目標(biāo)精確打擊需求。

        基于深度學(xué)習(xí)的軍事目標(biāo)檢測識別技術(shù)可以有效、自動、快速地識別戰(zhàn)場目標(biāo),是作戰(zhàn)雙方利用智能技術(shù)理解戰(zhàn)場態(tài)勢的基礎(chǔ)。智能技術(shù)在軍事應(yīng)用當(dāng)中需要具備三大核心要素,包括深度學(xué)習(xí)算法設(shè)計、高性能智能計算平臺以及大規(guī)模的數(shù)據(jù)訓(xùn)練集。首先建立深層次的神經(jīng)網(wǎng)絡(luò)模型;其次在規(guī)模龐大的數(shù)據(jù)集上進行預(yù)訓(xùn)練,并在戰(zhàn)場數(shù)據(jù)集上進行模型的再次訓(xùn)練與微調(diào);最終以實時處理模式在高性能計算平臺上實現(xiàn)網(wǎng)絡(luò)的實時推理計算,對多類型目標(biāo)進行實時計算識別。

        目前,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的自主目標(biāo)檢測識別算法大致分為兩類。一是基于區(qū)域建議的算法,包括區(qū)域建議卷積神經(jīng)網(wǎng)絡(luò)[5](Region-CNN,R-CNN)、Fast R-CNN[6]、Faster R-CNN[7]和區(qū)域建議全卷積神經(jīng)網(wǎng)絡(luò)[8](Region-based Fully Convolution Network,R-FCN),這類算法將目標(biāo)識別與目標(biāo)定位劃分成2個步驟,分別完成,錯誤率低,但識別速度較慢;二是基于回歸的算法,包括只看一次(You Only Look Once,YOLO)算法[9]、YOLO9000算法[10]、單點多盒探測(Single Shot MultiBox Detector,SSD)算法[11]、去卷積單點探測(Deconvolu-tional Single Shot Detector,DSSD)算法[12]、YOLOv2算法和YOLOv3算法[13]等,該類算法直接產(chǎn)生目標(biāo)類別概率和坐標(biāo),符合實時性要求,準(zhǔn)確率也基本可以達(dá)到區(qū)域建議算法的準(zhǔn)確率級別,可以在確保精度的同時,獲得更高的時間效率。R-CNN算法開創(chuàng)了深度學(xué)習(xí)自主目標(biāo)識別的先河,F(xiàn)aster R-CNN在R-CNN的基礎(chǔ)上,直接提取候選區(qū)域特征圖,并融入?yún)^(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN),實現(xiàn)整個識別過程的網(wǎng)絡(luò)統(tǒng)一,從而實現(xiàn)端到端之間的映射,大幅提升算法速度。在YOLO系列算法當(dāng)中,YOLOv3算法采用Darknet53的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),在檢測速度與精度兩方面均獲得了優(yōu)于SSD系列算法的檢測結(jié)果。目前,科研人員對于YOLOv3算法的落地應(yīng)用擁有極高的研究熱情。

        由于智能算法復(fù)雜度較高,所以智能算法對于計算需求有著較高要求,這與嵌入式受限資源條件下的應(yīng)用存在顯著的矛盾,基于神經(jīng)網(wǎng)絡(luò)壓縮的算法[14-15]應(yīng)運而生。網(wǎng)絡(luò)壓縮算法將原本復(fù)雜度較高、參數(shù)冗余較多的網(wǎng)絡(luò),基于最優(yōu)理論,在網(wǎng)絡(luò)精度損失較小的情況下,壓縮為復(fù)雜度較低、參數(shù)規(guī)模較小的網(wǎng)絡(luò)結(jié)構(gòu),使其更加適應(yīng)于資源受限條件下的硬件推理。目前,基于網(wǎng)絡(luò)壓縮的算法大致分為基于剪枝思想[16-17]的、基于張量分解思想的、基于權(quán)值共享思想的、基于權(quán)重量化思想[18-20]的、基于低比特或二值化思想[21-24]的壓縮算法等??偠灾?,網(wǎng)絡(luò)壓縮通過優(yōu)化思想,減少網(wǎng)絡(luò)參數(shù),降低對硬件的資源需求,在對網(wǎng)絡(luò)性能影響較小的情況下,實現(xiàn)智能算法在硬件端的實時推理部署。

        本文首先基于復(fù)雜背景及小目標(biāo),分析了當(dāng)前主流的自主檢測識別網(wǎng)絡(luò),包括基于區(qū)域建議的方法和基于回歸的方法,并對網(wǎng)絡(luò)進行性能評估,使用MAC統(tǒng)計及參數(shù)需求量對其硬件需求進行定量評估,構(gòu)成智能算法硬件嵌入式平臺的基礎(chǔ)輸入要求。其次,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的壓縮算法,并對算法進行普適性分析。最后,基于嵌入式GPU平臺,實現(xiàn)了基于TensorRT路線的神經(jīng)網(wǎng)絡(luò)加速,然后推理分析了經(jīng)優(yōu)化算法優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu),并對網(wǎng)絡(luò)精度損失情況和網(wǎng)絡(luò)加速比情況進行了評價。

        1 網(wǎng)絡(luò)性能評估和硬件資源需求定量評估

        對目前主流的深度學(xué)習(xí)自主識別算法進行參數(shù)及MAC計算量統(tǒng)計,如表1所示。可以看出,針對不同的神經(jīng)網(wǎng)絡(luò),所需要的硬件資源各不相同。MAC數(shù)目越多,代表硬件上所需的乘累加操作越多;權(quán)值合計越大,代表硬件上所需的存儲空間越大。

        表1 深度學(xué)習(xí)識別算法參數(shù)及MAC計算量統(tǒng)計Tab.1 Deep learning recognition algorithms parameters and MAC calculated quantity statistics

        從性能方面講,在所有算法當(dāng)中,YOLOv3算法從速度和精度兩方面均獲得了較為驚艷的效果。Darknet53借鑒殘差結(jié)構(gòu),采用類似ResNet的跳線連接方式,性能相比ResNet系列更加優(yōu)異。目前在各類落地應(yīng)用當(dāng)中,YOLO系列算法更多采用Tiny網(wǎng)絡(luò),該網(wǎng)絡(luò)層數(shù)較少,MAC統(tǒng)計量約為YOLOv3算法的1/13。Tiny網(wǎng)絡(luò)容易實現(xiàn)硬件應(yīng)用,且仿真較為容易,但是網(wǎng)絡(luò)精度相對較低,無法適應(yīng)精度要求較高的多目標(biāo)分類場合。于是,如何實現(xiàn)檢測精度較高的YOLOv3算法的真正落地,是目前亟待解決的難題;此外,類似YOLOv3這類深層網(wǎng)絡(luò)算法如何在嵌入式端落地,也是目前亟待解決的難題。

        2 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)與輸出特征分析

        YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)共計107層,網(wǎng)絡(luò)最終輸出三部分特征圖,如圖1所示,分別為Conv_6、Conv_14和Conv_22卷積節(jié)點,在此基礎(chǔ)上,進行分類與位置回歸。這3個卷積節(jié)點分別稱之為小尺度yolo層、中尺度yolo層和大尺度yolo層。13×13×255尺度用于檢測較為大型的目標(biāo),26×26×255用于檢測較為中型的目標(biāo),52×52×255用于檢測較為小型的目標(biāo)。三層特征輸出層的詳細(xì)輸入、輸出和卷積核參數(shù)如表2所示。

        圖1 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)的三部分特征輸出Fig.1 Three-part feature outputs of YOLOv3 network structure

        表2 YOLOv3網(wǎng)絡(luò)輸出特征圖詳細(xì)參數(shù)Tab.2 Detailed parameters of YOLOv3 network output characteristic diagram

        3 神經(jīng)網(wǎng)絡(luò)裁剪算法

        為神經(jīng)網(wǎng)絡(luò)設(shè)定合適的裁剪濾波器,從網(wǎng)絡(luò)結(jié)構(gòu)中剔除掉相對不重要的參數(shù),將剩余網(wǎng)絡(luò)結(jié)構(gòu)進行微調(diào)或重新訓(xùn)練,可以在較短時間內(nèi)有效對神經(jīng)元或權(quán)重連接實現(xiàn)裁剪,網(wǎng)絡(luò)裁剪過程如圖2所示。

        圖2 神經(jīng)網(wǎng)絡(luò)裁剪結(jié)構(gòu)對比圖Fig.2 Contrast diagram of pruning structure of neural network

        利用閾值方法對網(wǎng)絡(luò)權(quán)重進行整體裁剪,是網(wǎng)絡(luò)裁剪算法中最常用的步驟。假設(shè)閾值為ω,保留每層中filter權(quán)重絕對值之和大于閾值ω的權(quán)重。閾值法裁剪方式如式(1)所示,其中i和j代表卷積核的維度

        (1)

        式(1)很難從全局進行分析,并且不能將訓(xùn)練融入裁剪當(dāng)中,從而導(dǎo)致網(wǎng)絡(luò)精度降低。文獻[25]采用一種基于注意力模塊的剪枝濾波器,稱為SEBlock,由全局池化層、全連接層和激活函數(shù)組成。將通過注意力模塊的輸出稱為縮放因子,其變換過程描述如式(2)所示

        F(X〈n,W,H,C〉)=sig(FC2(ReLU(GAP(X〈n,W,H,C〉))))

        (2)

        其中,X〈n,W,H,C〉代表輸入,F(xiàn)C代表全連接層,GAP代表全局池化層,ReLU和sig代表激活函數(shù)。

        為了更好地使得裁剪過程自適應(yīng),本文提出將SEBlock與BN層縮放因子同時進行正則化訓(xùn)練裁剪的方法,算法策略如下所述:

        1)通過SEBlock計算縮放因子,獲得能夠反映通道重要性的參數(shù),結(jié)合通道在樣本數(shù)據(jù)集下的平均值進行綜合分析,更準(zhǔn)確地反映通道重要性。

        2)利用L1正則方法,在網(wǎng)絡(luò)原本代價函數(shù)的基礎(chǔ)上,將步驟1)計算出的縮放因子,與BN 層的縮放因子同時歸入目標(biāo)方程,進行稀疏化訓(xùn)練,如式(3)所示

        (3)

        3)依照步驟2)進行訓(xùn)練裁剪后,對網(wǎng)絡(luò)進行微調(diào),從而恢復(fù)裁剪后網(wǎng)絡(luò)的檢測精度。

        網(wǎng)絡(luò)裁剪的目標(biāo)是在保持網(wǎng)絡(luò)精度的前提下,保留重要權(quán)重,去掉不重要權(quán)重,其核心在于如何在裁剪的同時,更好地保持精度。文中所提出的自適應(yīng)稀疏化訓(xùn)練方式可以在裁剪的同時,最大程度上保證網(wǎng)絡(luò)精度。整個裁剪過程訓(xùn)練流程圖如圖3所示,首先利用式(3)對網(wǎng)絡(luò)進行稀疏化訓(xùn)練,隨后裁剪掉稀疏的網(wǎng)絡(luò)連接,其次對裁剪后的網(wǎng)絡(luò)進行微調(diào),獲得剪枝后的網(wǎng)絡(luò)。此外,該訓(xùn)練過程還可重復(fù)進行,并不斷迭代,以便獲得最優(yōu)結(jié)果。

        圖3 裁剪過程訓(xùn)練流程圖Fig.3 Pruning process training flow chart

        本文提出的網(wǎng)絡(luò)裁剪算法可以明顯保持裁剪后的網(wǎng)絡(luò)精度,針對本文裁剪算法已經(jīng)經(jīng)過測試的網(wǎng)絡(luò)結(jié)構(gòu)包括VGG、ResNet、Darknet53和DenseNet網(wǎng)絡(luò),該網(wǎng)絡(luò)裁剪算法針對CNN具備普適性。

        4 神經(jīng)網(wǎng)絡(luò)量化算法

        最主流的權(quán)重量化方式包括Fp16量化和Int8量化,其中Fp16相比Fp32減少50%的位寬,Int8相比Fp32減少75%的位寬。線性Int8量化將權(quán)重數(shù)據(jù)量化到(-127~127)的范圍當(dāng)中,這種映射稱為不飽和映射,將導(dǎo)致精度損失較大。本文將采用飽和映射進行量化,這也是TensorRT技術(shù)采用的量化方式。飽和映射的過程是尋找閾值|T|,將±|T|映射到±127范圍當(dāng)中,超過閾值之外的,直接映射到±127,飽和映射過程示意圖如圖4所示。

        圖4 飽和映射過程示意圖Fig.4 Schematic diagram of saturation mapping process

        本文采用的保精度量化算法策略如下所述:

        1)從驗證集當(dāng)中,選取子集當(dāng)作校準(zhǔn)集,用于校準(zhǔn)Int8量化帶來的精度損失;

        2)在選取的校準(zhǔn)集上進行Fp32推理,對于網(wǎng)絡(luò)的所有層,分別收集相關(guān)的激活值,列出直方圖;

        3)針對不同閾值實施遍歷操作,選取可以使得KL散度取得最小值的閾值,最終獲得一系列的閾值,并且所有層均返回一個閾值,稱之為校準(zhǔn)表(Calibration Table),最終利用校準(zhǔn)表實現(xiàn)神經(jīng)網(wǎng)絡(luò)Int8的保精度量化過程。

        本文采用的網(wǎng)絡(luò)量化算法可以明顯保持量化后的網(wǎng)絡(luò)精度,針對本文所采用的量化算法,已經(jīng)經(jīng)過測試的網(wǎng)絡(luò)結(jié)構(gòu)包括VGG、ResNet、Darknet53、AlexNet和GoogleNet網(wǎng)絡(luò),該網(wǎng)絡(luò)量化算法針對CNN具備普適性。

        5 TensorRT神經(jīng)網(wǎng)絡(luò)優(yōu)化技術(shù)

        TensorRT技術(shù)屬于英偉達(dá)的不開源神經(jīng)網(wǎng)絡(luò)加速技術(shù),為神經(jīng)網(wǎng)絡(luò)部署提供基于GPU平臺的加速解決方案。目前,TensorRT技術(shù)最擅長CNN優(yōu)化,TensorRT技術(shù)程序部署流程如圖5所示。

        圖5 TensorRT程序部署流程Fig.5 Program deployment process based on TensorRT

        TensorRT通過對網(wǎng)絡(luò)進行合并與量化,形成更為緊湊、硬件資源需求更小的網(wǎng)絡(luò)結(jié)構(gòu),能夠確保在減小資源使用率的同時,使得網(wǎng)絡(luò)結(jié)構(gòu)性能損失程度較小。TensorRT技術(shù)首先通過優(yōu)化技術(shù)生成如圖5所示的中間層engine,隨后利用該優(yōu)化后的engine對網(wǎng)絡(luò)結(jié)構(gòu)進行部署,實現(xiàn)各類受限資源條件下的神經(jīng)網(wǎng)絡(luò)實時應(yīng)用。

        對于如圖6所示的原始網(wǎng)絡(luò),TensorRT技術(shù)可將其垂直方向優(yōu)化為如圖7所示的優(yōu)化后網(wǎng)絡(luò)結(jié)構(gòu),從而有效實現(xiàn)網(wǎng)絡(luò)推理加速,水平方向的優(yōu)化與垂直方向類似。此外,結(jié)合網(wǎng)絡(luò)裁剪技術(shù),可在推理過程當(dāng)中獲得更高的加速比。

        圖6 原始網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Original network structure

        圖7 垂直方向優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Vertical optimized network structure

        6 仿真驗證

        為了驗證本文提出和采用的網(wǎng)絡(luò)壓縮算法在嵌入式端的加速能力,選取Nvidia Jetson Xavier作為驗證平臺,并與TensorRT優(yōu)化進行比對。Xavier是英偉達(dá)的異構(gòu)嵌入式GPU平臺,CPU具備8核ARM64架構(gòu),GPU具備512顆CUDA核心。在公有數(shù)據(jù)集VOC2007與VOC2012上進行數(shù)據(jù)訓(xùn)練,利用獲得的權(quán)重計算初始精度mAP值。隨后利用裁剪與量化算法進行優(yōu)化,并利用經(jīng)算法優(yōu)化后的權(quán)重計算新的mAP值。經(jīng)過20次裁剪與量化仿真測試,選取最優(yōu)仿真結(jié)果,同時,對未開源的TensorRT技術(shù)進行技術(shù)應(yīng)用,仿真驗證結(jié)果如表3所示。

        表3 YOLOv3算法嵌入式端仿真驗證結(jié)果Tab.3 Simulation and verification results of YOLOv3 on embedded GPU platform

        YOLOv3算法的部分網(wǎng)絡(luò)裁剪結(jié)果如表4所示。由表4可以看出,裁剪算法針對不同的卷積層會進行相應(yīng)的裁剪,有些層通道數(shù)目變小,有些層通道數(shù)目不變。網(wǎng)絡(luò)裁剪將直接改變網(wǎng)絡(luò)結(jié)構(gòu),裁剪結(jié)果與訓(xùn)練數(shù)據(jù)集密切相關(guān)。

        表4 YOLOv3算法部分網(wǎng)絡(luò)裁剪結(jié)果Tab.4 Partial network pruning results of YOLOv3

        YOLOv3算法裁剪前后的精度與幀頻對比結(jié)果如表5所示,表中結(jié)果均是分別在相應(yīng)條件下運行10次程序后選取的最優(yōu)結(jié)果??梢钥闯?,針對不同的裁剪力度,精度下降情況和幀頻變化均不同,裁剪力度越大,精度下降越快,幀頻越高。

        表5 YOLOv3算法裁剪前后精度與幀頻對比Tab.5 Accuracy and frame frequency comparison of YOLOv3 before and after pruning

        從表3~表5的仿真驗證結(jié)果可以看出,裁剪與量化的方式可以在網(wǎng)絡(luò)精度損失較少的情況下,使得嵌入式平臺上的網(wǎng)絡(luò)推理獲得理想的加速比。原版darknet在異構(gòu)嵌入式平臺的幀頻為8幀/s,經(jīng)TensorRT技術(shù)優(yōu)化后可獲得3倍的速度提升。經(jīng)本文提出的網(wǎng)絡(luò)壓縮算法,可以在精度損失小于5%的前提下,獲得3倍以上的速度提升。

        相比不開源的TensorRT技術(shù),本文算法思想可以實現(xiàn)自主可控的神經(jīng)網(wǎng)絡(luò)壓縮及嵌入式應(yīng)用。此外,基于本文思想,結(jié)合復(fù)雜算法實現(xiàn)裁剪與量化,將使得目標(biāo)檢測識別網(wǎng)絡(luò)精度下降幅度更小。

        7 結(jié)論

        本文提出了針對卷積神經(jīng)網(wǎng)絡(luò)的壓縮算法,并進行了相應(yīng)的嵌入式平臺應(yīng)用。相比不開源的針對GPU平臺的TensorRT優(yōu)化技術(shù),本文算法思想可以合理進行各類硬件平臺的技術(shù)復(fù)用。針對神經(jīng)網(wǎng)絡(luò)的定量硬件資源評估,以及針對GPU嵌入式平臺所進行的裁剪和量化實驗分析表明:

        1)各類自主目標(biāo)識別神經(jīng)網(wǎng)絡(luò)算法的硬件資源需求量可通過計算獲得,針對目標(biāo)算法,可以利用資源計算分析來合理設(shè)計硬件。

        2)基于英偉達(dá)目前的TensorRT技術(shù),利用8bit量化技術(shù),在嵌入式GPU平臺可以實現(xiàn)神經(jīng)網(wǎng)絡(luò)3倍的推理速度提升。由于此項技術(shù)為不開源技術(shù),所以精度損失程度未知。從公開資料來看,網(wǎng)絡(luò)精度損失較小。

        3)基于本文所提出和采用的網(wǎng)絡(luò)裁剪及量化優(yōu)化算法,在網(wǎng)絡(luò)精度損失小于5%的前提下,獲得了3倍以上的推理速度提升。本文算法與針對GPU平臺的不開源TensorRT技術(shù)相比,為針對不同平臺的神經(jīng)網(wǎng)絡(luò)優(yōu)化技術(shù)應(yīng)用提供了新的技術(shù)思路。

        經(jīng)驗證,本文的優(yōu)化算法思想可直接應(yīng)用于FPGA平臺。本文的下一步研究方向是基于FPGA平臺的硬件優(yōu)化[26-27]。在具備國產(chǎn)自主性、低功耗的FPGA平臺,利用網(wǎng)絡(luò)優(yōu)化技術(shù)實現(xiàn)神經(jīng)網(wǎng)絡(luò)的實時應(yīng)用部署,為制導(dǎo)武器末制導(dǎo)人工智能機器視覺技術(shù)的軍事應(yīng)用提供進一步的技術(shù)解決方案。

        猜你喜歡
        網(wǎng)絡(luò)結(jié)構(gòu)嵌入式卷積
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        搭建基于Qt的嵌入式開發(fā)平臺
        嵌入式軟PLC在電鍍生產(chǎn)流程控制系統(tǒng)中的應(yīng)用
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
        滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
        復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進展
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        亚洲国产av无码精品无广告| 久久婷婷五月综合色欧美| 亚洲加勒比久久88色综合| 日日碰狠狠添天天爽超碰97| 国产午夜精品久久久久99| 国产性感丝袜美女av| 日本一区二区三区熟女俱乐部| 久久99精品久久久久婷婷| 国产精品欧美福利久久| 漂亮人妻被中出中文字幕久久| 国产亚洲av手机在线观看| 人妻少妇一区二区三区| 国产精品亚洲av无人区二区| 日本一区二区视频在线| 欧美丰满熟妇bbb久久久 | 日韩高清不卡一区二区三区| 久久精品国产99国产精偷| 特黄大片又粗又大又暴| 老子影院午夜精品无码| 免费一级黄色大片久久久| 国产精品久久婷婷六月 | 成年毛片18成年毛片| 亚洲av午夜福利精品一区不卡| 国产大屁股喷水视频在线观看| 国产在线精品一区在线观看| 久久亚洲AV无码精品色午夜| 国产精品99久久不卡二区 | 青春草在线视频观看| 亚洲精品乱码久久久久久蜜桃不卡 | 国产在线视频一区二区三区| 精品亚洲麻豆1区2区3区| 亚洲av午夜福利精品一区二区| 亚洲熟妇色xxxxx欧美老妇| 99久久免费精品色老| 国产草逼视频免费观看| 中文字幕在线日亚洲9| 欧美日韩精品一区二区在线视频| 在线一区二区三区视频观看| 亚洲av综合色一区二区| 女的扒开尿口让男人桶30分钟| 精品一区二区三区在线观看视频|