亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        帶比例因子的卷積神經(jīng)網(wǎng)絡壓縮方法

        2018-06-26 10:19:40宋澤奇
        計算機工程與應用 2018年12期
        關鍵詞:準確率比例神經(jīng)網(wǎng)絡

        徐 喆,宋澤奇

        北京工業(yè)大學 信息學部,北京 100124

        1 引言

        目標識別一直是計算機圖像處理領域中的一個熱點問題,隨著智能設備越來越普及,人們對識別準確率更高,實時性更好的識別算法更加迫切。在眾多視覺檢測方法中,基于神經(jīng)網(wǎng)絡的物體檢測算法在最近幾年發(fā)展迅猛。因為這種檢測方法不再需要人為選取某些特定的視覺特征作為圖像分類的依據(jù),而是在訓練階段根據(jù)訓練樣本自適應出更加有效的特征來進行分類。神經(jīng)網(wǎng)絡雖然在檢測準確率上遠超傳統(tǒng)檢測方法,但是由于其內(nèi)部存在大量的神經(jīng)元參數(shù),使得神經(jīng)網(wǎng)絡在檢測過程中需要進行大量的計算,以至于其檢測實時性相比其他算法有較大差距。

        為了在準確率下降盡量小的情況下得到結構更簡單,運算量更少,檢測時間更短的視覺檢測神經(jīng)網(wǎng)絡,2006年Caruana等人[1]提出了一種通過學習復雜模型的預測結果來實現(xiàn)簡化網(wǎng)絡結構的網(wǎng)絡壓縮方法,該方法通過讓簡單模型向復雜模型學習的手段來提高簡單模型的識別能力。而后Caruana等人[2]也用實驗證明通過模型壓縮手段可以使結構簡單的神經(jīng)網(wǎng)絡達到較高的檢測準確率。2014年Li等人[3]將這種模型壓縮方法成功地用在了語音識別技術中。2015年Hinton等人[4]改進了原有算法的誤差計算方法,并引入了轉移控制參數(shù)Q來改善softmax回歸結果,使得這種模型壓縮方法得到了更高的準確率,他稱這種模型壓縮方法為“知識提取”算法。

        Geoffrey Hinton在論文中解釋了這種訓練方法的有效性來自于簡單模型通過訓練學習到了復雜模型對樣本集中數(shù)據(jù)間的相近關系的理解,他以MNIST[5]手寫體識別任務為例說明,如某一網(wǎng)絡對一個樣本“2”被誤判為“3”的平均概率約為10-6而被誤判為“7”的平均概率約為10-9。其實從這三個樣本的外形中也能很明顯的發(fā)現(xiàn):“2”和“3”比“2”和“7”在形態(tài)上要更相近。雖然Geoffrey Hinton闡述了這一問題,但是在其方法中依然只是利用輸出結果對齊的方式來達到網(wǎng)絡壓縮的目的,并沒有考慮將這種相近關系量化,作為簡單網(wǎng)絡的學習內(nèi)容來進一步充實壓縮手段,提升壓縮效果。本文以比例因子的形式量化了網(wǎng)絡對訓練樣本間相近關系的理解,將其作為“知識提取”算法中簡單模型通過訓練學習的目標之一,充實了網(wǎng)絡壓縮手段。文章第2章詳細闡述了帶比例因子Z的“知識提取”訓練方法,第3章通過在公開數(shù)據(jù)集中的實驗結果說明了算法的有效性,并在第4章得出了實驗結論。

        2 帶比例因子的“知識提取”方法

        在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡監(jiān)督訓練中,前向傳導過程為被訓圖像經(jīng)過卷積層的滑窗卷積和夾雜其中的池化層來降低數(shù)據(jù)維度最終完成圖像特征的提取工作,提取到的特征數(shù)據(jù)經(jīng)過若干全連接層后再經(jīng)過softmax回歸運算[6]最終在各類別的輸出端輸出當前樣本可能為該類別的概率值[7]。而反向傳導過程則是根據(jù)最終的分類結果與訓練數(shù)據(jù)集的樣本標簽計算誤差后作為調(diào)整依據(jù)修改網(wǎng)絡參數(shù)[8]。

        2.1 基于“知識提取”的網(wǎng)絡壓縮算法

        “知識提取”方法的訓練原理是將一個網(wǎng)絡結構相對簡單的卷積神經(jīng)網(wǎng)絡與一個已經(jīng)對同樣類型的樣本分類問題已經(jīng)具有良好表現(xiàn)力的復雜卷積神經(jīng)網(wǎng)絡同時訓練,使簡單網(wǎng)絡的學習目標除了標準數(shù)據(jù)集的標簽外還包括復雜網(wǎng)絡的判決結果,以使得簡單網(wǎng)絡的分類能力趨近于準確度更高的復雜網(wǎng)絡[1]。在本文中稱作為被學習對象的復雜卷積神經(jīng)網(wǎng)絡為大模型,與之對應的是網(wǎng)絡結構較為簡單的作為壓縮結果的小模型。大模型在訓練過程中只是與小模型對同樣的訓練樣本進行類別預測,而不需要進行反向傳導計算。對于需要進行反向傳導計算的小模型,其反向計算過程中的參數(shù)調(diào)整依據(jù)除包含該網(wǎng)絡對樣本預測結果與樣本標簽間的誤差外,還包含該預測結果與大模型對同樣樣本的預測結果間的誤差,這兩種誤差通過加權和的形式來構成小模型的代價函數(shù)。

        本文中大小模型對同一樣本的判別誤差來自于大小模型各自的softmax輸出端的誤差,傳統(tǒng)的softmax回歸運算的假設函數(shù)如下所示:

        其中x(i)為softmax層的某一個輸入樣本,y(i)為與之對應的網(wǎng)絡判別輸出,θ為模型參數(shù),k為訓練樣本的類別總數(shù),j為softmax層的輸出端編號,且 j∈(0,k-1)。對同一樣本而言,公式中的分母為某一固定常數(shù),則可知softmax層的k個輸出端的輸出值的和總為1,其中輸出端數(shù)值最大者為網(wǎng)絡對此時預測樣本判別置信度最高的類別。

        如果直接將傳統(tǒng)的softmax輸出結果運用到知識提取中,會出現(xiàn)這樣的現(xiàn)象:除數(shù)值最大的結果輸出端口外,其余端口的輸出結果往往趨近于0[4]。這樣的結果對于體現(xiàn)網(wǎng)絡輸出的類間關系很不利,因此Hinton引入轉移控制參數(shù)Q[4]解決這一問題,其具體實現(xiàn)方式如下所示:

        將大小模型的softmax層計算方法同時進行這樣的修改,其中Q為“知識”轉移中的轉移控制參數(shù),通常情況下將其設置為1,而在訓練時將其賦值為一個大于1的整數(shù),并保證大小模型的控制參數(shù)相等,這樣可以放大softmax輸出端的值,使其計算結果不再趨近于0,從而提升“知識”轉移的效果,使得小模型的分類準確度能夠更大程度的趨于大模型。

        2.2 將比例因子加入“知識提取”算法

        Hinton的“知識提取”網(wǎng)絡壓縮方法只是單純地讓大小模型的輸出結果對齊,以達到使小模型的分類能力趨近于大模型的效果。但在實際應用中發(fā)現(xiàn),這種趨近程度還可以通過充實小模型向大模型學習的手段進一步提升。本文通過將樣本的類間相近關系加入壓縮學習內(nèi)容中,以期待對壓縮網(wǎng)絡的分類準確率進一步提升。

        所謂類間相近關系也就是網(wǎng)絡輸出端中各端點的數(shù)值關系。為了具體量化這種各輸出端之間的數(shù)值關系,這里定義“知識提取”比例因子Z,來表達大模型對于樣本相似性的理解細節(jié)。比例因子Z的具體表述如下:

        其中qn、qm表示大小模型中softmax層第n、m輸出端對某一樣本的帶轉移溫度T的輸出概率值,以三分類的卷積神經(jīng)網(wǎng)絡為例n、m∈(0,1,2),m

        比例因子的這種網(wǎng)絡輸出端口間的輸出值比較,將類間的相近關系以比例的形式進行量化,能很好地表示相近關系這一特征,且道理上簡單易懂、計算過程簡便高效,不會大幅提升網(wǎng)絡訓練時間。而比例因子對齊的這種做法本身就是對網(wǎng)絡學習手段的一種擴充,這種對學習手段的擴充可以對網(wǎng)絡學習效果起到積極的作用。

        在神經(jīng)網(wǎng)絡的監(jiān)督訓練過程中,網(wǎng)絡對輸入樣本通過前向運算輸出判別結果,該結果與樣本標簽比較后產(chǎn)生判別誤差。為了能夠實現(xiàn)更準確的分類效果,網(wǎng)絡通過判別誤差對神經(jīng)元參數(shù)進行調(diào)整,以使得下一輪前向計算能夠輸出更加精確的判別結果。而這里的判別誤差就是通常所說的網(wǎng)絡反向計算中代價函數(shù)的重要組成部分。求兩模型對同一樣本的比例因子間的歐氏距離W,并將其歸一化后的值作為代價函數(shù)的一部分用于小模型的反向計算過程。

        歐氏距離作為一種簡單常見的衡量數(shù)據(jù)差別的方法,被廣泛用于神經(jīng)網(wǎng)絡誤差分析中,而將兩網(wǎng)絡比例因子的歐氏距離加入代價函數(shù)正是利用了神經(jīng)網(wǎng)絡的自身調(diào)節(jié)能力來使得比例因子誤差量對小模型網(wǎng)絡參數(shù)調(diào)節(jié)起到一定作用,進而使得其比例因子逐步向大模型靠近,以進一步提升小模型的網(wǎng)絡分類準確率。如圖1所示,大小模型在聯(lián)合訓練的過程中通過比較大小模型的輸出值及其比例因子誤差值產(chǎn)生大小模型對應輸出端的誤差以及大小模型比例因子的誤差,而小模型與標準數(shù)據(jù)集的標簽值比較得到標準數(shù)據(jù)集判別誤差。最終將這三部分誤差加入小模型代價函數(shù),來對其內(nèi)部參數(shù)進行調(diào)節(jié)。而神經(jīng)網(wǎng)絡的優(yōu)化目的就是通過誤差調(diào)節(jié)網(wǎng)絡參數(shù)來最小化代價函數(shù)值,進而得到更高的分類準確率的目的[9-10]。

        圖1 帶比例因子的“知識提取”算法網(wǎng)絡結構圖

        3 實驗

        本實驗分別用傳統(tǒng)“知識提取”方法和本文提出的加入比例因子的“知識提取”網(wǎng)絡壓縮方法,對同一復雜卷積神經(jīng)網(wǎng)絡進行壓縮訓練,并使得壓縮得到的兩個簡單網(wǎng)絡在網(wǎng)絡規(guī)模上保持一致。而后在相同的驗證集上對兩網(wǎng)絡的分類準確率和分類耗時進行比較,從而達到比較傳統(tǒng)“知識提取”壓縮方法與本文提出的帶比例因子的“知識提取”網(wǎng)絡壓縮方法壓縮能力的目的。

        本文首先采用NICTA數(shù)據(jù)集[11]進行網(wǎng)絡壓縮訓練。該數(shù)據(jù)集包含3個目標類別,分別是行人、汽車和除此以外的背景。該數(shù)據(jù)集包含訓練集237 344張,驗證集75 148張。圖2是數(shù)據(jù)集中的部分樣本。

        圖2 NICTA數(shù)據(jù)集中的部分樣本

        本實驗中大小模型的網(wǎng)絡結構設計參考了經(jīng)典的LeNet[5,12]手寫體分類神經(jīng)網(wǎng)絡模型。大模型包含3個卷積層,各卷積層后分別跟隨著1個池化層來降低特征復雜程度,在卷積結束后又通過4個全連接層以及1個softmax回歸層來進行分類和各類別的概率輸出。小模型則包含2個卷積層,3個全連接層以及1個softmax回歸層,小模型省略的包含150個通道和包含800個通道的全連接層會使其網(wǎng)絡參數(shù)數(shù)量大大降低,從而獲得更高的分類速度。網(wǎng)絡壓縮訓練的實驗參數(shù)如表1所示,具體的大小模型網(wǎng)絡結構如表2、3所示。

        表1 壓縮訓練實驗參數(shù)說明

        在網(wǎng)絡訓練中采用了AdaDelta[13]、Dropout[14]方法來盡量地抑制網(wǎng)絡過擬合問題,使得網(wǎng)絡能夠得到更好的泛化能力,其中Dropout算法已經(jīng)在著名的AlexNet[15]網(wǎng)絡中證明了其出色的抵抗過擬合能力。

        神經(jīng)網(wǎng)絡訓練中的參數(shù)調(diào)整依據(jù)是網(wǎng)絡對訓練集當前的判決誤差,為了避免網(wǎng)絡參數(shù)過度擬合于訓練集而偏離了真實情況,需要在訓練過程中通過網(wǎng)絡對驗證集的分類情況對網(wǎng)絡的決策能力進行較客觀地評價。圖3、4是某次訓練過程中神經(jīng)網(wǎng)絡對驗證集分類準確率和訓練集分類代價函數(shù)值的分布記錄情況,其中傳統(tǒng)“知識提取”方法采用了Geoffrey Hinton的知識提取算法[4],而直接通過數(shù)據(jù)集訓練的神經(jīng)網(wǎng)絡模型與小模型有著相同的網(wǎng)絡結構。從圖4中傳統(tǒng)“知識提取”方法的代價函數(shù)值變化情況,可以發(fā)現(xiàn)這個值通常要小于加入比例因子的網(wǎng)絡代價值,而加入比例因子方法的代價函數(shù)之所以較大,就是因為將比例因子也作為網(wǎng)絡壓縮訓練的目標,將其誤差值也作為代價函數(shù)的一部分來進行網(wǎng)絡參數(shù)調(diào)節(jié)。圖4中也描述了本文提出的網(wǎng)絡訓練方法中由于比例因子引起的帶來的代價值,如上所述這個值正是大小模型比例因子誤差的歸一化值,可以發(fā)現(xiàn)這個值隨著迭代次數(shù)的增加在逐漸減小并最終趨近于零,這說明小模型通過調(diào)整網(wǎng)絡參數(shù)基本可以和大模型的比例因子保持一致。觀察圖3發(fā)現(xiàn)本文提出的訓練方法所得到的神經(jīng)網(wǎng)絡較傳統(tǒng)“知識提取”方法而言其分類準確率變化緩慢,且前期準確率較低,但其準確率的最終穩(wěn)定值卻高于傳統(tǒng)“知識提取”訓練方法。這說明在代價函數(shù)中添加比例因子誤差量會使得網(wǎng)絡參數(shù)調(diào)整所參考的目標更加豐富,進而使得加入比例因子的訓練方法得到的小模型的分類準確率更接近于網(wǎng)絡結構復雜,分類耗時較長,但準確率更高的大模型。

        圖3 不同方法在驗證集上的準確率分布

        圖4 不同訓練方法的代價函數(shù)值分布情況

        表2 大模型的網(wǎng)絡結構說明

        表3 小模型的網(wǎng)絡結構說明

        表4為不同網(wǎng)絡在NICTA驗證集上的分類時間和準確率平均值,測試硬件平臺為CPU:I7-6700,GPU:GTX-TITAN X。從表中可以發(fā)現(xiàn)“知識提取”訓練方法可以很好地讓小模型的分類準確率趨近于大模型,從而平衡網(wǎng)絡的分類耗時和準確率問題。而本文提出的增加比例因子的“知識提取”訓練方法在分類時間保持不變的情況下又使得這種趨近程度進一步提高,使得相同網(wǎng)絡結構的小模型能夠得到更高的分類準確率。

        表4 不同模型在NICTA驗證集上的檢測結果對比

        為了更加客觀地對本文的算法進行驗證,在ETHZ數(shù)據(jù)集[16]和TUD數(shù)據(jù)集[17]上對壓縮方法進行驗證。考慮到目前網(wǎng)絡加速可以通過多種途徑實現(xiàn),為了對比本文所提出算法與同類型算法的實際效果,采用文獻[18]提出的網(wǎng)絡剪枝算法對大模型進行處理而后通過數(shù)據(jù)集進行驗證,文獻[18]通過對網(wǎng)絡參數(shù)的相關性進行量化來判斷網(wǎng)絡參數(shù)的變化對網(wǎng)絡性能的影響,而后按照一定標準對網(wǎng)絡中一些不重要的參數(shù)進行刪除以達到網(wǎng)絡加速的目的。實驗結果如表5、6所示,該結果表明加入比例因子的“知識提取”網(wǎng)絡壓縮方法在這兩個數(shù)據(jù)集上同樣表現(xiàn)出較傳統(tǒng)“知識提取”方法更好的壓縮能力。而與文獻[18]所提出的網(wǎng)絡加速算法相比,本文展現(xiàn)出了更好的加速效果,從實驗數(shù)據(jù)來看文獻[18]所提出的算法雖然在準確率下降不明顯的情況下通過網(wǎng)絡剪枝起到了加速效果,但是通過對網(wǎng)絡冗余參數(shù)進行裁剪的方法在參數(shù)下降規(guī)模上還是不及本文提出的網(wǎng)絡壓縮算法,導致其實際速度提升效果沒有本文提出的算法明顯。

        表5 不同模型在ETHZ驗證集上的檢測結果對比

        表6 不同模型在TUD驗證集上的檢測結果對比

        4 結束語

        本文在原有的“知識提取”網(wǎng)絡壓縮方法上,將網(wǎng)絡對分類樣本的在各輸出端的這種類間關系理解量化為比例因子。并在訓練中將兩網(wǎng)絡的比例因子誤差作為被壓縮網(wǎng)絡代價函的一部分,來對被壓縮網(wǎng)絡的參數(shù)進行調(diào)節(jié),擴充了網(wǎng)絡學習手段。觀察上述實驗可以發(fā)現(xiàn),通過本文提出的壓縮方法得到的小模型其分類準確率較原本的“知識提取”算法有了一定的提升。這說明本文提出的加入比例因子的“知識提取”模型壓縮方法可以更好地將大模型的分類能力轉移到小模型從而達到在盡量保持網(wǎng)絡分類能力的前提下減小模型復雜度進而達到提高實時性的效果。

        如今對網(wǎng)絡加速算法的研究日趨廣泛,而網(wǎng)絡加速的途徑也越來越多,如果能將“知識提取”與這些算法進行協(xié)同訓練,進而取得一加一大于二的性能,無疑會有更加強烈的實用價值,而這也將是未來研究的方向。

        [1]Buciluǎ C,Caruana R,Niculescu-Mizil A.Model compression[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2006:535-541.

        [2]Ba J,Caruana R.Do deep nets really need to be deep?[C]//Advances in Neural Information Processing Systems,2014:2654-2662.

        [3]Li J,Zhao R,Huang J T,et al.Learning small-size DNN with output-distribution-based criteria[C]//INTERSPEECH,2014:1910-1914.

        [4]Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neural network[J].arXiv preprint arXiv:1503.02531,2015.

        [5]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to documentrecognition[J].Proceedingsofthe IEEE,1998,86(11):2278-2324.

        [6]Unsupervised feature learning and deep learning-softmax regression[EB/OL].http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression 2013-04-07/2016-08-24.

        [7]Zeiler M D,F(xiàn)ergus R.Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision,2014:818-833.

        [8]Goodfellow I,Bengio Y,Courville A.Deep learning[M].[S.l.]:The MIT Press,2016.

        [9]LeCun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.

        [10]Hagan M T,Demuth H B,Beale M H,et al.Neural network design[M].Boston:PWS Publishing Company,1996.

        [11]Overett G,Petersson L,Brewer N,et al.A new pedestrian dataset for supervised learning[C]//2008 IEEE Intelligent Vehicles Symposium,2008:373-378.

        [12]金連文,鐘卓耀,楊釗,等.深度學習在手寫漢字識別中的應用綜述[J].自動化學報,2016,42(8):1125-1141.

        [13]Zeiler M D.ADADELTA:An adaptive learning rate method[J].arXiv preprint arXiv:1212.5701,2012.

        [14]Srivastava N,Hinton G E,Krizhevsky A,et al.Dropout:A simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.

        [15]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems,2012:1097-1105.

        [16]Ess A,Leibe B,Schindler K,et al.A mobile vision system for robust multi-person tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition,2008(CVPR 2008),2008:1-8.

        [17]Wojek C,Walk S,Schiele B.Multi-cue onboard pedestrian detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2009(CVPR 2009),2009:794-801.

        [18]費蕓潔,鄧偉.一種基于靈敏度分析的神經(jīng)網(wǎng)絡剪枝方法[J].計算機工程與應用,2007,43(7):34-35.

        猜你喜歡
        準確率比例神經(jīng)網(wǎng)絡
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        人體比例知多少
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質量檢驗分析
        神經(jīng)網(wǎng)絡抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        高速公路車牌識別標識站準確率驗證法
        基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        按事故責任比例賠付
        紅土地(2016年7期)2016-02-27 15:05:54
        復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
        在线播放中文字幕一区二区三区| 国产精品www夜色视频| 97久久人人超碰超碰窝窝| 免费午夜爽爽爽www视频十八禁| 国产精品成人va在线观看| 品色堂永远的免费论坛| 国产成人亚洲综合小说区| 蜜桃视频中文字幕一区二区三区| 日韩人妻久久中文字幕| 久久国语露脸国产精品电影| 天天色影网| 久久精品岛国av一区二区无码| 国产无码swag专区| 无码人妻中文中字幕一区二区| 能看的网站中文字幕不卡av | 国产流白浆视频在线观看| 精品无码人妻夜人多侵犯18| 乱人伦中文无码视频| 国产精品丝袜黑色高跟鞋| 无码国产精品一区二区免费式芒果| 91九色熟女潮喷露脸合集| 无码少妇丰满熟妇一区二区 | 精品乱色一区二区中文字幕 | 欧美激情视频一区二区三区免费| 另类内射国产在线| 一区二区免费电影| 国产一区二区在线中文字幕| √天堂资源中文www| 成人午夜福利视频镇东影视| 久久综合给合久久狠狠狠97色69| 亚洲中文字幕不卡无码| 国产精品亚洲精品一区二区| 草草浮力影院| 午夜短视频日韩免费| 91麻豆精品久久久影院| 麻豆最新国产av原创| 熟女性饥渴一区二区三区| 加勒比无码专区中文字幕| 国产av影片麻豆精品传媒| a级国产乱理论片在线观看| 亚洲欧洲综合有码无码|