亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        邊緣計算下的AI檢測與識別算法綜述

        2019-08-30 03:31:56孔令軍李華康
        無線電通信技術(shù) 2019年5期
        關(guān)鍵詞:剪枝邊緣卷積

        孔令軍,王 銳,張 南,李華康

        (1.南京郵電大學(xué),江蘇 南京 210003;2.北京中燕信息技術(shù)有限公司,北京 102488;3.中國航天系統(tǒng)科學(xué)與工程研究院,北京 100048)

        0 引言

        隨著人工智能(Artificial Intelligence,AI)熱潮的興起,深度學(xué)習(xí)等多種算法相繼被探索出來,并廣泛應(yīng)用在安防、交通、醫(yī)療、教育、零售、家居等領(lǐng)域[1]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),是深度學(xué)習(xí)的代表算法之一,并被廣泛應(yīng)用于計算機視覺、自然語言處理等領(lǐng)域[1]。

        ImageNet[3]比賽的開展,促使圖像領(lǐng)域卷積網(wǎng)絡(luò)快速發(fā)展,深度學(xué)習(xí)方法遠遠超過傳統(tǒng)方法的準(zhǔn)確率,使得CNN獲得了巨大的關(guān)注。隨后的比賽中,CNN逐漸取代了傳統(tǒng)的目標(biāo)檢測算法。為了進一步增加模型的準(zhǔn)確率,卷積網(wǎng)絡(luò)的模型不斷被加深,導(dǎo)致現(xiàn)在的模型需要龐大的計算能力和內(nèi)存才能勝任某些工作。深度學(xué)習(xí)理論的蓬勃發(fā)展,帶動了商業(yè)化的需求,尤其是在智慧城市等相關(guān)領(lǐng)域,如人臉識別、車輛檢測及車牌識別等。傳統(tǒng)的監(jiān)控系統(tǒng)設(shè)計方式由客戶端和服務(wù)器構(gòu)成:客戶端負責(zé)收集圖片并上傳服務(wù)器,服務(wù)器負責(zé)對圖片運用人工智能算法進行分析。隨著客戶端的增加,客戶端所產(chǎn)生的數(shù)據(jù)量也將隨之變大。這些數(shù)據(jù)若都交由云端服務(wù)器管理平臺來處理,將會造成網(wǎng)絡(luò)傳輸和服務(wù)器端巨大的壓力。同時,設(shè)備之間的性能不相同使得實時協(xié)同工作難以保證,數(shù)據(jù)泄露風(fēng)險還將增大。IDC表示到2019年,近50%物聯(lián)網(wǎng)創(chuàng)建的數(shù)據(jù)將被存儲、處理、分析,并在網(wǎng)絡(luò)邊緣進行操作。麥肯錫估計,到2025年,物聯(lián)網(wǎng)應(yīng)用的經(jīng)濟影響可能會從每年3.9萬億美元增長到11.1萬億美元。他們舉例說:“在2025年,通過遠程監(jiān)控改善慢性病患者健康狀況的價值可能高達每年1.1萬億美元?!盡arkets And Markets的一份新研究報告預(yù)計,邊緣計算市場預(yù)計將從2017年的14.7億美元增長到2022年的67.2億美元,在預(yù)測期內(nèi)復(fù)合年增長率超過35%。Gartner的分析報告顯示,目前,大約10%的企業(yè)生成數(shù)據(jù)是在傳統(tǒng)的集中式數(shù)據(jù)中心或云之外創(chuàng)建和處理的,到2022年,Gartner預(yù)測這一數(shù)字將達到50%。隨著5G時代的到來和AI硬件的發(fā)展,實時、智能、安全、隱私等四大趨勢催生了邊緣計算與前端智能的崛起。

        1 邊緣計算以及卷積網(wǎng)絡(luò)發(fā)展概況

        本節(jié)將主要闡述邊緣計算發(fā)展歷程以及深度學(xué)習(xí)中CNN的發(fā)展歷程。

        1.1 邊緣計算發(fā)展歷程

        邊緣計算最早可以追溯至1998年提出的內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Network,CDN),它是一種基于互聯(lián)網(wǎng)緩存網(wǎng)絡(luò),通過中心平臺的負載均衡、調(diào)度等將用戶訪問指向最近的緩存服務(wù)器上,以此降低網(wǎng)絡(luò)阻塞。2009年提出的Cloudlet概念,高性能、資源豐富的分布式服務(wù)器為移動設(shè)備提供計算或者資源訪問服務(wù),此時邊緣計算強調(diào)的云服務(wù)器功能下行至邊緣服務(wù)器,以減少帶寬和時延。隨后,在萬物互聯(lián)的背景下,邊緣數(shù)據(jù)迎來了爆發(fā)性增長,為了解決面向數(shù)據(jù)傳輸、計算和存儲過程中的計算負載以及數(shù)據(jù)傳輸帶寬等問題,研究者開始探索在生產(chǎn)者的邊緣增加數(shù)據(jù)處理功能,即萬物互聯(lián)服務(wù)的功能上行,具有代表性的是計算設(shè)備端處理即移動邊緣計算。

        邊緣計算能夠解決網(wǎng)絡(luò)擁塞、服務(wù)器計算壓力大以及數(shù)據(jù)安全性等問題,然而對于卷積網(wǎng)絡(luò)算法,受限于邊緣計算硬件設(shè)備性能限制,網(wǎng)絡(luò)模型的大小以及計算要求也必須做出相應(yīng)的優(yōu)化,以適應(yīng)邊緣計算設(shè)備使用。于是各種壓縮卷積網(wǎng)絡(luò)模型算法,如剪枝、結(jié)構(gòu)化卷積核等算法被提出,用來降低模型對資源的消耗。

        在谷歌學(xué)術(shù)上以“邊緣計算”為關(guān)鍵詞搜索到論文數(shù)量趨勢如圖1所示。2015年以前,邊緣計算處于技術(shù)發(fā)展累計階段;2015—2017年,邊緣計算開始快速發(fā)展,文章數(shù)量增長了10倍之多。直到2018年,邊緣計算開始穩(wěn)健發(fā)展。

        圖1 谷歌學(xué)術(shù)上以“邊緣計算”為關(guān)鍵詞搜索到論文數(shù)量

        1.2 深度學(xué)習(xí)下CNN發(fā)展歷程

        第一個神經(jīng)網(wǎng)絡(luò)是LeNet網(wǎng)絡(luò)[1],它于1998年被提出,用于進行手寫數(shù)字識別任務(wù)。它確定了卷積網(wǎng)絡(luò)的構(gòu)成,即由卷積層、池化層以及全連接層組成。由于傳統(tǒng)算法不需要大量的計算量也能達到相同的效果或者更好的效果,使得它的出現(xiàn)并沒引起太多關(guān)注。隨著計算機硬件性能不斷提高,2012年AlexNet[5]網(wǎng)絡(luò)以絕對優(yōu)勢一舉奪冠,自此CNN引起了廣泛關(guān)注,呈現(xiàn)出越來越多關(guān)于CNN的研究成果。AlexNet由5個卷積層以及3個全連接層組成。其中提出的局部響應(yīng)歸一化層(LRN),用于對數(shù)據(jù)進行歸一化,解決特征圖二維平面內(nèi)點之間的聯(lián)系,以提升訓(xùn)練速度。一年后,VGG網(wǎng)絡(luò)[6]被提出,它提供了一種新的思路,即:隨著網(wǎng)絡(luò)層的深度增加,效果也會隨之增加。此后的網(wǎng)絡(luò)設(shè)計中通過不斷堆疊的卷積層,使得網(wǎng)絡(luò)層的深度也不斷增加,算法效果不斷提高。VGG提出的第2年,GoogleNet[7]獲得了比賽冠軍,其不僅增加了深度,還通過結(jié)構(gòu)化網(wǎng)絡(luò)設(shè)計增加數(shù)據(jù)的重利用來提高效果。GoogleNet提出的如圖2 inception模塊所示結(jié)構(gòu),通過使用1x1,3x3,5x5卷積核以及3x3最大池化層過濾特征圖獲得結(jié)果,并合并結(jié)果作為提取到的特征圖。為了降低計算量,使用了1x1卷積核提前過濾,獲得通道維度較少的特征圖,然后通過卷積核進行卷積操作, 維度減少的inception模塊如圖3所示。

        圖2 inception 模塊

        圖3 維度減少的inception 模塊

        inception這種方式提高了參數(shù)的利用率,使得網(wǎng)絡(luò)能夠提取各種不同維度形狀特征來提高識別效果。隨后的網(wǎng)絡(luò)設(shè)計也越來越深,由于每次卷積后都會通過激活函數(shù)進行激活,對數(shù)據(jù)進行篩選,這種做法能夠強化卷積網(wǎng)絡(luò)的線性表達能力。但隨著卷積網(wǎng)路的深度增加,被過濾掉的特征也隨之增加,網(wǎng)絡(luò)也將退化,梯度也隨之消失,不容易訓(xùn)練。為解決這個問題,ResNet[8]引入殘差網(wǎng)絡(luò)單元,如圖4所示。將未被卷積的特征屬性與經(jīng)過卷積后的特征屬性進行特征融合,并重新加以利用,使得識別效果顯著增加。隨著殘差單元的提出,借鑒了參數(shù)重利用的網(wǎng)絡(luò)算法不斷被提出,網(wǎng)絡(luò)性能得到一定提升,識別效果也進一步增強。一種全新的結(jié)構(gòu)DenseNet[9]網(wǎng)絡(luò)借鑒了殘差單元思路,設(shè)計了一個結(jié)構(gòu)簡單全新的網(wǎng)絡(luò),性能及效果突破了Resnet的各種指標(biāo)。Densenet相對于Resnet更加強調(diào)特征的復(fù)用,幾乎將所有的淺層特征圖作為輸入進行卷積操作,極大減少了參數(shù)量,通過密集的連接緩解了梯度消失的問題。它頻繁將不同深度特征通過通道合并,當(dāng)前特征圖融合了幾乎所有前層的特征圖,幾乎所有層相當(dāng)于直接連接輸入和損失函數(shù),這樣就能夠減輕梯度消失問題。

        圖4 殘差網(wǎng)絡(luò)單元

        對上述卷積網(wǎng)絡(luò)進行特征提取后,便可以將提取到的特征圖應(yīng)用到各種圖像算法中,比如目標(biāo)檢測、目標(biāo)跟蹤、關(guān)鍵點定位、生成對抗網(wǎng)絡(luò)等。

        2 目標(biāo)檢測識別算法

        2.1 MTCNN算法

        MTCNN算法[9]既可以用于人臉檢測,也可以用于其他目標(biāo)檢測算法中。圖5 為MTCNN人臉檢測算法,它首先通過圖像金字塔將輸入圖像變?yōu)椴煌叨鹊膱D片,然后送入P-Net網(wǎng)絡(luò)獲取人臉預(yù)測框預(yù)測,再將P-Net預(yù)測得到的人臉框送入R-Net及O-Net進行多次判斷預(yù)測,之后再通過極大值抑制算法刪減多余的預(yù)測框。訓(xùn)練時通過預(yù)測交叉熵損失函數(shù)訓(xùn)練人臉/非人臉:

        (1)

        人臉框回歸以及關(guān)鍵點定位損失函數(shù)都使用L2范式:

        (2)

        圖5 MTCNN人臉檢測

        2.2 Faster R-CNN目標(biāo)檢測算法

        Faster R-CNN算法[10]由目標(biāo)檢測算法R-CNN[11]發(fā)展而來。在ImageNet目標(biāo)檢測比賽中,R-CNN最先將卷積網(wǎng)絡(luò)運用于目標(biāo)識別,以壓倒性優(yōu)勢戰(zhàn)勝了傳統(tǒng)目標(biāo)檢測算法。R-CNN具體做法是:通過提取圖像ROI區(qū)域生成ROI區(qū)域組,再將區(qū)域分別送入CNN進行特征提取,并將提取到的特征送入SVM分類器判別是否屬于該類別,并使用回歸預(yù)測修正候選框的位置。

        R-CNN經(jīng)過一系列發(fā)展,演化出了性能和效果雙優(yōu)的Faster R-CNN目標(biāo)檢測算法。Faster R-CNN檢測過程如圖6所示[10]。

        圖6 Faster R-CNN檢測過程

        通過卷積網(wǎng)絡(luò)進行圖片的特征提取,獲取圖片的特征屬性圖,并通過Proposal層類似于區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)獲取候選anchor。Faster R-CNN anchor提取如圖7[10]所示。Faster R-CNN通過特征屬性圖滑動窗口上的anchor獲取不同形狀候選框,每個候選框?qū)?yīng)特征圖上一點,然后通過分類損失函數(shù)和回歸損失函數(shù)進行聯(lián)合訓(xùn)練。

        圖7 Faster R-CNN anchor提取

        聯(lián)合訓(xùn)練損失函數(shù)如下:

        (3)

        (4)

        (5)

        (6)

        (7)

        Faster R-CNN的提出使得目標(biāo)檢測算法性能以及效果能夠基本用于實際環(huán)境,檢測的速度達到17 fps。

        2.3 YOLO目標(biāo)檢測算法

        YOLO[12]來源論文中的”You Only Look Once”,不同于R-CNN一系列網(wǎng)絡(luò)將目標(biāo)檢測分為兩類任務(wù):通過RPN獲取候選框完成候選框回歸任務(wù)和分類任務(wù)。YOLO則是將兩類任務(wù)合并成單任務(wù)進行。其基本過程為:① 將圖片分為S*S個網(wǎng)格,對于物體中心點出現(xiàn)在某網(wǎng)格內(nèi)部,則此網(wǎng)格負責(zé)檢測該物體;② 每個網(wǎng)格生成B個檢測框,若檢測框包含物體,則認為此檢測框需要預(yù)測出此物體,并且還需負責(zé)框的回歸任務(wù)。訓(xùn)練損失函數(shù)同F(xiàn)aster R-CNN類似。相對于Faster R-CNN,YOLO算法性能高,但缺陷也比較明顯,例如每當(dāng)一個格子最多預(yù)測一個物體目標(biāo),且當(dāng)出現(xiàn)不常見的長寬比時,YOLO網(wǎng)絡(luò)的泛化能力就會降低。

        2.4 SSD目標(biāo)檢測算法

        SSD[13]算法作為三大目標(biāo)檢測算法之一,擁有Faster R-CNN的高精確度以及YOLO的高性能。

        SSD算法和YOLO算法架構(gòu)如圖8所示,同F(xiàn)aster R-CNN和YOLO相比,它增加了多尺度特征屬性圖,而且用淺層網(wǎng)絡(luò)檢測小目標(biāo)、用深層網(wǎng)絡(luò)檢測大目標(biāo),同時利用Faster R-CNN的anchor思想選取不同大小形狀的anchor框,增加對不同大小形狀物體的魯棒性。框回歸損失函數(shù)以及分類損失函數(shù)與Faster R-CNN一樣。

        圖8 SSD算法以及YOLO算法架構(gòu)

        2.5 其他目標(biāo)檢測算法

        其他使用卷積網(wǎng)絡(luò)進行目標(biāo)檢測的算法都是依據(jù)上述3種算法改進而來,例如以Faster R-CNN為代表的two stage和以SSD為代表的one stage方法。相比較而言,two stage有更高的精確度,one stage有更快的速度。取得階段性進展的有R-FCN,F(xiàn)PN,RetinaNet[14],Mask R-CNN,YOLO v3,RefineDet[15],M2Det[16]。主要介紹其中典型的3個算法:RetinaNet,RefineDet,M2Det。

        造成one stage 和two stage效果區(qū)別的因素是什么呢?主要原因便是對anchor的處理方式。Two stage對anchor進行了篩選及微調(diào),然后送進分類與回歸器中,而one stage直接將anchor送入分類器與回歸器中訓(xùn)練,這種方式導(dǎo)致了anchor類別中的負樣本過多,使得訓(xùn)練樣本不均衡。為解決這個問題,RetinaNet將原來的Focal Loss替換了原來的交叉熵誤差。Focal Loss的公式為:

        FL(pt)=-αt(1-pt)γlg (pt),

        (8)

        可以看出,當(dāng)某類別的數(shù)量越大,貢獻的Loss平均下來越小,反之則平均貢獻的Loss越大,這種做法降低了樣本數(shù)量對訓(xùn)練損失的影響,使得量少類別對訓(xùn)練的貢獻值提高。

        RefineDet由2個內(nèi)部連接模塊組成,分別為:ARM(Anchor Refinement Module)和ODM(Object Detection Module)。ARM網(wǎng)絡(luò)和Faster R-CNN中的RPN網(wǎng)絡(luò)類似,進行預(yù)預(yù)測,ODM如SSD中的anchor處理,使其具有二者的共同優(yōu)點。

        M2Det使用了主干網(wǎng)絡(luò)+MLFPN來提取圖像特征,采用類似SSD的方式獲取預(yù)測框以及類別,最后通過NMS得到最后的檢測結(jié)果。

        其中,最關(guān)鍵的是進行圖像特征提取的結(jié)構(gòu)MLFPN,其主要由3個部分組成:

        ① 特征融合模塊FFM;

        ② 細化U型模塊TUM;

        ③ 尺度特征聚合模塊SFAM。

        由圖9 的M2Det網(wǎng)絡(luò)可以看出,F(xiàn)FMPv1對主干網(wǎng)絡(luò)提取到的淺層特征和深層特征進行融合,F(xiàn)FMv2通過融合不同深度特征圖,最終的SFAM通過拼接聚合不同類型的屬性圖,最終將包含廣泛信息的特征圖送入類似于SSD網(wǎng)絡(luò)中進行目標(biāo)檢測以及分類。

        圖9 M2Det網(wǎng)絡(luò)

        2.6 識別算法介紹

        如圖10所示,利用卷積網(wǎng)絡(luò)進行識別可分為2個步驟:利用卷積網(wǎng)絡(luò)進行圖像特征提取,然后利用softmax進行分類。

        圖10 識別過程

        常見的識別算法主要是特定場景下的識別,例如車牌識別和人臉識別。效果比較好的開源車牌識別算法,例如Openvino框架下的LPRNet[17]通過卷積網(wǎng)絡(luò)進行特征提取,并使用CTC LOSS損失函數(shù)訓(xùn)練,算法正確率能夠達到95%左右。人臉識別一般通過卷積網(wǎng)絡(luò)進行特征提取,再通過比較歐氏距離或者矩陣余弦距離進行人臉識別,有名的例如以mxnet框架寫的開源的insightface。

        3 算法優(yōu)化

        邊緣計算中首先需要對卷積網(wǎng)絡(luò)模型進行優(yōu)化,以滿足卷積網(wǎng)絡(luò)運行于特定設(shè)備上具有的實時性。卷積網(wǎng)絡(luò)模型優(yōu)化主要有5種方式:① 卷積核優(yōu)化;② 參數(shù)修剪和共享;③ 知識蒸餾算法;④ 低秩因子分解;⑤ 輕量級網(wǎng)絡(luò)模型設(shè)計。

        3.1 卷積核計算性能優(yōu)化

        卷積核優(yōu)化算法中較新也較好的方式是shuffleNet[14]網(wǎng)絡(luò)中卷積核所使用的方式。為減少計算量,最直觀的方式是直接減少卷積層的計算量。常規(guī)卷積的卷積核通道數(shù)和輸入特征圖的通道數(shù)一致。如圖11所示,MobileNets深度可分離卷積操作為最經(jīng)典MobileNets[19]的核優(yōu)化方式,具體做法是將卷積分為深度卷積和逐點卷積,通過基于深度可分離卷積,將典型的卷積操作圖11(a)分解成深度卷積圖11 (b)和逐點卷積圖11 (c)。假設(shè)經(jīng)典的卷積維度Dk*Dk*M,Dk為卷積核平面維度,M為輸入特征屬性通道數(shù),N為輸出特征維度通道數(shù)。深度可分離卷積首先通過卷積核為Dk*Dk*1對特征圖平面特征方向過濾,如圖11(b)所示。再通過卷積核1*1*M對特征圖的通道方向進行過濾,如圖11(b)所示。二者可以認為是分別對平面維度和通道維度進行降維。

        圖11 移動網(wǎng)絡(luò)深度可分離卷積操作

        由于通道間信息不連通,這種方式會使通道間充滿約束。為了解決這種問題,F(xiàn)ace++團隊提出了shuffleNet網(wǎng)絡(luò)。與MobileNet一樣,shuffle利用群卷積和深度可分卷積思想,優(yōu)化了核卷積用以解決通道之間的約束。如圖12(a)組卷積所示,Shufflenet的方法將特征圖通道分組進行卷積,增強了通道內(nèi)部的信息聯(lián)通。然而分組卷積僅解決了特征圖組內(nèi)信息的流通,組外信息并不能流通,降低了信息的表達能力。當(dāng)然可以將卷積后的特征圖在組內(nèi)部切割,然后將切割后的部分按順序排序,如圖12(b)所示。而shuffle通過通道混洗操作使得數(shù)據(jù)的通道維度上進行無序打亂,用以增加信息的表達能力,提升識別效果,如圖12(c)所示。 組卷積通道混洗如圖13所示,在Shufflenet經(jīng)典模塊圖13(b)中,特征圖首先通過組點卷積核操作,分組進行混洗操作,然后利用一般標(biāo)準(zhǔn)的組深度可分離卷積核進行過濾,將過濾后特征圖再通過組點卷積過濾。一般而言這種方式雖然能夠過濾掉沒用的信息,但同時也會過濾掉有用的信息。通過與輸入數(shù)據(jù)加和,以防止有用信息被過濾掉。

        圖12 shuffle通道維度上的組卷積操作

        圖13 混洗模塊

        為減少計算量,通過將組深度可分離卷積的滑動間隔stride由1修改成圖13(b)中的2,再利用平均赤化層下采樣輸入特征屬性,最終通過將得到的特征圖進行通道級聯(lián),取代圖13(a)混洗模塊的特征圖求和。雖然通道級聯(lián)增加了通道的維度,但由于下采樣減少了平面維度,導(dǎo)致計算成本并未增加很多。通過實驗發(fā)現(xiàn),此方式能夠顯著降低網(wǎng)絡(luò)所需的計算性能,而網(wǎng)絡(luò)的效果并沒有顯著降低。第二代ShuffleNet v2[20]網(wǎng)絡(luò)指出了以往架構(gòu)過于注重FLOPs的不足,提出了2個基本原則和4項準(zhǔn)則指導(dǎo)網(wǎng)絡(luò)架構(gòu)設(shè)計,無論在速度還是精確度上,都超過以往通過壓縮卷積核計算要求的算法。

        3.2 剪枝和參數(shù)共享

        參數(shù)共享在卷積網(wǎng)絡(luò)上用于降低計算量和減少參數(shù),最開始的剪枝應(yīng)用便是dropout,它通過隨機剪枝防止過擬合并加速訓(xùn)練,當(dāng)然也可以用來降低參數(shù)量。

        早期的剪枝方式通過權(quán)重的重要性剪枝方法進行分結(jié)構(gòu)化剪枝[21],刪除不重要的權(quán)重參數(shù)重新進行訓(xùn)練,直到達到滿意的模型大小,并且模型效果沒發(fā)生顯著改變。隨后提出的基于偏差權(quán)重衰減的最優(yōu)腦損傷和最優(yōu)腦手術(shù)方法,是通過減少損失函數(shù)的海森矩陣來減少連接數(shù)量。研究表明剪枝方式的精確度比重要性剪枝方式好。然而此方式的剪枝并不能應(yīng)用于實際卷積網(wǎng)絡(luò)層上,因為此類方法導(dǎo)致剪枝后的權(quán)值矩陣是無規(guī)則稀疏的,其僅僅將剪枝后的權(quán)重設(shè)置成0,輸入和0相乘消耗計算量,因此實際加速效果較低。只有剪掉的枝葉從搭建的網(wǎng)絡(luò)中消失,才算完成剪枝。通過結(jié)構(gòu)化剪枝可以使剪枝后的模型運行于實際場景中。與非結(jié)構(gòu)化剪枝不同的是,結(jié)構(gòu)化剪枝設(shè)置了一系列的剪枝約束條件。根據(jù)細粒度的程度,結(jié)構(gòu)化剪枝可以分為向量機剪枝、核級剪枝、組級剪枝和通道級剪枝4種類型。結(jié)構(gòu)化剪枝能夠直接降低模型的計算FLOPS。

        3.3 知識蒸餾

        正如Hinto提出來的一個例子[22],幼小的昆蟲擅長從環(huán)境中汲取能量,而成年后則擅長遷徙繁殖等方面。與這個例子相同的是,在訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)能夠從大量數(shù)據(jù)中訓(xùn)練模型網(wǎng)絡(luò);使用階段,則能夠應(yīng)用于更加嚴格的包括計算資源及計算速度的限制。一般首先在大數(shù)據(jù)集上訓(xùn)練一個復(fù)雜網(wǎng)絡(luò)模型,一旦網(wǎng)絡(luò)模型訓(xùn)練完成,便可以通過“蒸餾”方式,從大型模型中將所需要的應(yīng)用模型提取出來。知識蒸餾中,軟目標(biāo)是通過復(fù)雜模型預(yù)測得到的概率分布,硬目標(biāo)則是真實樣本的概率。參考復(fù)雜模型的結(jié)構(gòu)、深度等信息重新設(shè)計一個小模型,再將小模型的預(yù)測值分別與軟目標(biāo)和硬目標(biāo)做交叉熵的損失,并將兩部分損失進行聯(lián)合訓(xùn)練。軟目標(biāo)與硬目標(biāo)的綜合訓(xùn)練損失所占的比重不斷地由9:1通過迭代訓(xùn)練慢慢變成1:0。對于卷積網(wǎng)絡(luò),一般通過類別的shot-hot碼進行訓(xùn)練,相當(dāng)于使用硬目標(biāo)進行訓(xùn)練??偠灾?,將復(fù)雜模型預(yù)測得到的數(shù)據(jù)作為小模型的樣本標(biāo)簽,對網(wǎng)絡(luò)加以訓(xùn)練,以增加網(wǎng)絡(luò)的泛化能力。

        3.4 權(quán)值張量低秩分解

        卷積網(wǎng)絡(luò)核的參數(shù)權(quán)重W可以看作一個四維張量,他們分別對應(yīng)卷積核的長、寬、通道數(shù)以及輸出通道數(shù)。通過合并某些維度,四維張量能夠轉(zhuǎn)變成更小維度的張量?;跈?quán)值張量低秩分解方法,其實質(zhì)是找到與張量W近似、但計算量更小的張量?,F(xiàn)階段已經(jīng)有很多低秩分解算法被提出,例如優(yōu)必選悉尼AI研究院入選CVPR的基于低秩稀疏分解的深度壓縮模型。

        3.5 輕量級網(wǎng)絡(luò)模型設(shè)計

        在卷積網(wǎng)絡(luò)模型中,合并網(wǎng)絡(luò)層不改變網(wǎng)絡(luò)輸出是重要模型的優(yōu)化方式。例如,BatchNorm層(簡稱BN層)在深度學(xué)習(xí)中歸一化網(wǎng)絡(luò)模型加速訓(xùn)練,放置于卷積層或全連接層之后。測試時,通過將BN層合并到卷積層或全連接層中以減少計算量。

        假設(shè)BN層輸入數(shù)據(jù)為X,則BN層處理數(shù)據(jù)獲得輸出為:

        (9)

        卷積操作的權(quán)重為w,偏置為b,假設(shè)卷積網(wǎng)絡(luò)輸入為X,卷積網(wǎng)絡(luò)的輸出為Yconv,則卷積網(wǎng)絡(luò)操作為:

        Yconv=WX+b。

        (10)

        由式(9)和式(10)可知,通過卷積、池化操作后結(jié)果為:

        (11)

        因此卷積層更新后的權(quán)重W*以及偏置b*可以得出:

        (12)

        (13)

        4 邊緣計算硬件發(fā)展歷程

        對于邊緣計算,成本及性能是重要的考量因素。一直以來,并行計算兩大廠商之一的英偉達非常重視并行計算在數(shù)學(xué)上的應(yīng)用,不但開發(fā)出了CUDA庫用于并行計算,還開發(fā)出了CUDNN庫等各種矩陣運算庫用以優(yōu)化運算性能,僅需要學(xué)會簡單的C++便能方便地調(diào)用顯卡加速運算。各種深度學(xué)習(xí)框架如Caffe,Tensorflow等對nvidia的cuda支持,使其移植到嵌入式設(shè)備的成本極低,這些因素都使得英偉達旗下顯卡占有重要的市場Nvidia硬件對比如表1所示,給出了嵌入式產(chǎn)品端的主要參數(shù)。理論上核心越多,并行計算能力越強,從表1中可以看出,Tx1的并行計算能力是Nano的2倍,而使用新架構(gòu)Pascal的Tx2性能是Tx1的2倍,另一款產(chǎn)品Jetson Xavier則能夠提供超過Jetson Tx2的20倍以上性能,但昂貴的價格使不能被大規(guī)模部署。

        表1 Nvidia硬件對比

        硬件GPUCPU視頻處理內(nèi)存價格Nvidia Jeson Tx1NVIDIA MaxwellTM,256 CUDA核心Quad ARMA57/2 MB L24K x 2K 69 Hz編碼,4K x 2K 60 Hz解碼4GB 64 位LPDDR42 350$左右Nvidia Jeson Tx2NVIDIA PascalTM,256 CUDA核心HMP Dual Denver 2/2 MB L2 + Quad ARMA57/2 MB L24K x 2K 30 Hz編碼,4Kx2K 60 Hz解碼8GB 128 位LPDDR43 423$左右Nvidia Jeson NanoNVIDIA MaxwellTM,128 CUDA核心ARMCortex-A57MPCore4K 30 Hz編碼,4K 60 Hz解碼4 GB 64位LPDDR4780$ 左右

        英特爾也于2016年收購了一家硅谷公司Movdius,該公司主要為各種消費設(shè)備設(shè)計神經(jīng)網(wǎng)絡(luò)加速芯片,其開發(fā)產(chǎn)品中的神經(jīng)網(wǎng)絡(luò)計算棒使用的是Movidius芯片,可以通過openvino調(diào)用Movidius芯片進行加速計算,但其安裝包目前為止支持樹莓派的armv7架構(gòu)以及x86架構(gòu)。在收購另一家公司Nervana后,英特爾將很快推出專為人工智能打造的系列處理器—英特爾神經(jīng)網(wǎng)絡(luò)處理器(以前稱為“Lake Crest”)。

        AI視覺套件角蜂鳥是基于英特爾神經(jīng)網(wǎng)絡(luò)的Movidiu芯片開發(fā)的,它多提供一個攝像頭。研揚科技開發(fā)的UP系列單板,可以看作是一個能夠運行x86架構(gòu)桌面平臺的嵌入式產(chǎn)品,它只有信用卡大小,能夠支持神經(jīng)網(wǎng)絡(luò)計算棒以及研揚和英特爾聯(lián)合推出的AI Core作為并行加速計算擴展,雖然UP單板有x86平臺的高性能優(yōu)點,但其價格也比較昂貴。

        谷歌作為深度學(xué)習(xí)領(lǐng)域一個重要的公司,不僅維護深度學(xué)習(xí)開源框架(Tensorow),還推出了硬件加速平臺 Edge TPU,其設(shè)計目標(biāo)就是簡單流暢運行TensorFlow Lite。處理器使用的 Cortex-A53/Cortex M4F,GPU為GC7000Lite,內(nèi)置了Google Edge TPU加速Tensorow運算。另一款專為樹莓派設(shè)計的AIY Edge TPU Accelerator 則僅需利用USB-C/USB-B與Linux系統(tǒng)連接,即可加速tensorflow-lite運算。此外,華為的HiKey 970,可提供強大AI算力,支持硬件加速,性能強勁。寒武紀的Cambricon-1A,Cambricon-1H8,Cambricon-1H16系列可廣泛應(yīng)用于計算機視覺、語音識別及自然語言處理等智能處理關(guān)鍵領(lǐng)域。

        其他推出的比較小眾的產(chǎn)品,例如LightspeeurTM光矛系列是全球首款可同時支持圖像和視頻、語音與自然語言處理的智能神經(jīng)網(wǎng)絡(luò)專用處理器芯片方案,相比邊緣計算硬件市場上其他解決方案,能夠高出幾個數(shù)量級。例如其產(chǎn)品LaceliTM人工智能計算棒可以在1 W功率下提供超過9.3萬億次/s的浮點運算性能,而Movidius每瓦功率范圍運算能力則是0.1萬億次。恩智浦BlueBox是一款開發(fā)平臺,可為開發(fā)自動駕駛汽車的工程師提供必要性能、功能安全和可靠性平臺,并且配備雷達、激光探測與檢測(LIDAR)等自動駕駛必須的模塊。中星微的“星光智能一號”是中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)芯片。Deepwave公司推出的AIR-T(Artificial Intelligence Radio Transceiver)具有嵌入式高性能計算功能。深鑒科技于2018年上市的“聽濤系列列SoC”,只需1.1 W功耗,卻能達到4.1TOPs峰值性能。性價比是小眾平臺產(chǎn)品的最佳優(yōu)勢。

        5 結(jié)束語

        Faster R-CNN,SSD,YOLO等目標(biāo)檢測算法優(yōu)缺點分明,通過研究其原理,發(fā)現(xiàn)設(shè)計網(wǎng)絡(luò)模型及損失函數(shù)是提升AI性能和效果的重要方式。然而,高昂的計算代價會阻礙AI算法在邊緣計算硬件上的部署,因此模型優(yōu)化精簡和移植將是AI商業(yè)化的必經(jīng)之路。隨著硅芯片的發(fā)展使得AI算法部署成為可能,邊緣計算將解決人工智能的最后一公里,構(gòu)建萬物感知、萬物互聯(lián)、萬物智能的嶄新世界。

        猜你喜歡
        剪枝邊緣卷積
        人到晚年宜“剪枝”
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        基于YOLOv4-Tiny模型剪枝算法
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        一張圖看懂邊緣計算
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        一種面向不平衡數(shù)據(jù)分類的組合剪枝方法
        計算機工程(2014年6期)2014-02-28 01:26:33
        在邊緣尋找自我
        雕塑(1999年2期)1999-06-28 05:01:42
        性做久久久久久久| 青青草绿色华人播放在线视频| 美女与黑人巨大进入免费观看| 亚洲av成人无码一二三在线观看| a级毛片在线观看| 成年男人裸j照无遮挡无码| 日本免费精品一区二区三区视频| 国产精品午夜福利视频234区| 另类内射国产在线| 精品少妇一区一区三区| 日本一二三区在线不卡| 国产亚洲精品第一综合另类| 亚洲国产精品嫩草影院久久| 女人的天堂av免费看| 国产视频在线观看一区二区三区| 亚洲av高清在线观看一区二区 | 免费夜色污私人影院在线观看| 日本韩国三级aⅴ在线观看| 久久99人妖视频国产| 男女性杂交内射妇女bbwxz| 少妇极品熟妇人妻无码| 日本女优在线观看一区二区三区| 久久婷婷综合激情五月| 粉嫩被粗大进进出出视频| 免费毛片视频网站| 久久综合加勒比东京热| 精品亚洲成a人在线观看| 久久99精品国产99久久6男男| 国产精品国产三级国产AvkTV| 国产精品性色av麻豆| 亚洲欧美日韩国产精品一区二区| 一国产区在线观看| 国产av一区二区内射| 亚洲 欧美 综合 在线 精品 | 国产性感主播一区二区| 野花香社区在线视频观看播放| 欧美日本国产va高清cabal | 日本高清二区视频久二区| 精品一区二区三区芒果| 手机在线看永久av片免费| 噜噜噜色97|