亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        加權(quán)誤差:讓神經(jīng)網(wǎng)絡(luò)更快收斂

        2021-01-15 10:35:46安徽交通職業(yè)技術(shù)學(xué)院萬芳
        交通建設(shè)與管理 2020年5期
        關(guān)鍵詞:梯度準(zhǔn)確率權(quán)重

        文/安徽交通職業(yè)技術(shù)學(xué)院 萬芳

        安徽省交通運(yùn)輸綜合執(zhí)法監(jiān)督局 李明

        關(guān)鍵字:卷積神經(jīng)網(wǎng)絡(luò);加速收斂;加權(quán)誤差;計(jì)算機(jī)視覺;圖像分類;深度學(xué)習(xí);誤差函數(shù);梯度下降

        神經(jīng)網(wǎng)絡(luò)一直被居高不下的計(jì)算量讓任務(wù)耗費(fèi)著大量的計(jì)算資源,而且嚴(yán)重限制了神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域地普及。近些年,各類降低參數(shù)量[1,2]和加速神經(jīng)網(wǎng)絡(luò)收斂速度[3-5]的研究出現(xiàn)在人們的視線中,讓神經(jīng)網(wǎng)絡(luò)得以運(yùn)行在手機(jī)等移動(dòng)電子設(shè)備中,也促進(jìn)了神經(jīng)網(wǎng)絡(luò)研究的進(jìn)程。其中ShuffleNet[1]采用分組卷積減低參數(shù)量,Batch Normalization[4]著眼于每層特征圖的不同協(xié)方差進(jìn)行了研究,并在之后的各類神經(jīng)網(wǎng)絡(luò)中廣泛使用,極大地縮減了神經(jīng)網(wǎng)絡(luò)的運(yùn)行時(shí)間,但是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度仍然有待提高。

        在梯度下降縮減誤差的同時(shí),我們考慮加入另一個(gè)類似的通道,提出了加權(quán)誤差(Weighted error, WE),加權(quán)誤差在神經(jīng)網(wǎng)絡(luò)中應(yīng)用不多,大都是不同應(yīng)用場(chǎng)景的改進(jìn)[6],而我們針對(duì)最原始的神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)。以分類舉例:我們通常使用交叉熵作為誤差函數(shù),由其在神經(jīng)網(wǎng)絡(luò)中的獨(dú)特作用,其是將真實(shí)分類對(duì)應(yīng)的輸出增大,來近似期望模型的,其等價(jià)地就是縮小其錯(cuò)誤分類對(duì)應(yīng)的輸出。

        基于這種想法,我們采用乘法連接兩個(gè)模塊,將這個(gè)通道作為誤差函數(shù)的權(quán)重輸入,在零參數(shù)增加和少量計(jì)算量的增加下,加快了10-20%神經(jīng)網(wǎng)絡(luò)的收斂速度。

        1 加權(quán)誤差

        在隨機(jī)梯度下降算法中,我們對(duì)于批量大小為m 的輸入采用:

        由于梯度的性質(zhì),我們可以自然地將其轉(zhuǎn)化為:

        1.1 第二個(gè)優(yōu)化通道

        我們以分類舉例,分類中誤差函數(shù)通常選擇交叉熵:

        在神經(jīng)網(wǎng)絡(luò)中考慮單個(gè)樣本中p1一般是one-hot 編碼的概率分布,所以只有為1 的類別即只有期望響應(yīng)會(huì)返回計(jì)算值,對(duì)數(shù)函數(shù)在(0,1]導(dǎo)數(shù)為正,為負(fù),則loss降低對(duì)應(yīng)著期望響應(yīng)的增加,這符合我們想要的結(jié)果,同樣的我們降低非期望相應(yīng)也能達(dá)到相同的效果。基于這種想法我們將降低非期望相應(yīng)的部分當(dāng)作權(quán)重傳遞給誤差,這個(gè)部分表示為則整體誤差表現(xiàn)為:

        值得注意的是,這里并不是采用對(duì)應(yīng)樣本的權(quán)重相乘再求和,而是先求和再乘,我們采用這種方式保證第二個(gè)通道的可用性,并不之將其作為權(quán)重使用。

        1.2 權(quán)重分析

        由神經(jīng)網(wǎng)絡(luò)中的知識(shí)為概率,所以:

        這為權(quán)重的學(xué)習(xí)率衰減作用提供了良好的保障。隨著誤差下降,準(zhǔn)確率的提升,權(quán)重隨之減小,這符合我們對(duì)于學(xué)習(xí)率衰減一貫的認(rèn)知。同時(shí)不像平時(shí)學(xué)習(xí)率的指數(shù)化衰減等方案,其學(xué)習(xí)率和當(dāng)前訓(xùn)練步數(shù)密切相關(guān),這使得很多時(shí)候冗長(zhǎng)的訓(xùn)練步數(shù)并沒有為我們帶來良好的效果。我們想要的應(yīng)該是每一個(gè)狀態(tài)都有與之匹配的學(xué)習(xí)率,我們的權(quán)重正好可以滿足這個(gè)特點(diǎn),不同于之前需要做一些實(shí)驗(yàn)才能找到比較好的學(xué)習(xí)率衰減時(shí)機(jī)不同,我們甚至只需要在前期定義一個(gè)合理的學(xué)習(xí)率即可,這在有效避免了一部分計(jì)算浪費(fèi)的同時(shí),大大降低了神經(jīng)網(wǎng)絡(luò)對(duì)于超參數(shù)的依賴性。眾多周知,神經(jīng)網(wǎng)絡(luò)對(duì)于超參數(shù)學(xué)習(xí)率的依賴性比較高。

        2 實(shí)驗(yàn)驗(yàn)證

        本文選用CIFAR-10[9]和MNIST[10]數(shù)據(jù)集進(jìn)行測(cè)試,CIFAR-10 由32*32 的彩色1 像組成,包含50k 訓(xùn)練數(shù)據(jù)和10k 測(cè)試數(shù)據(jù);MNIST 由28*28 的灰度圖像組成,包含60k 訓(xùn)練數(shù)據(jù)和10k 測(cè)試數(shù)據(jù)。模型選用經(jīng)典的VGG[7]和ResNet[8],其余參數(shù)和數(shù)據(jù)增強(qiáng)方法采用ResNet 的操作。見表1,選用這兩種方法包含了各種模塊,包括BN,1*1 卷積,全局平均池化[11]等等有著比較好的對(duì)比價(jià)值。

        表1 VGG 和Resnet 模塊對(duì)比

        BN √1*1 卷積 √全局平均池化 √

        2.1 CIFAR-10

        考慮CIFAR-10[9]的圖像大小,我們對(duì)VGG 網(wǎng)絡(luò)進(jìn)行了如表2 的一些縮減,而Resnet 就保持其在論文中的結(jié)構(gòu),在本文中為了方便計(jì)算我們采用Resnet-20[8]進(jìn)行實(shí)驗(yàn),參數(shù)設(shè)計(jì)遵循原論文中的參數(shù),由于本論文的重心是加快網(wǎng)絡(luò)收斂速度,所以并不對(duì)算法效果過多關(guān)注。

        如圖1,在VGG 網(wǎng)絡(luò)中我們?yōu)榉乐惯^擬合添加了10-4 的參數(shù)衰減和0.1 的學(xué)習(xí)率,選用batch size 為128 得到加權(quán)誤差有了很好的加速效果,其準(zhǔn)確率基本全局高于傳統(tǒng)方法,加速效果非常明顯,而在Resnet-20 中這種加速就不顯得那么明顯了,這主要是Resnet 本身收斂速度就比較快,所以大多情況下都處于震蕩情況下,而較大學(xué)習(xí)率產(chǎn)生的震蕩效果太強(qiáng),掩蓋了部分加速效果,但是我們?nèi)匀豢梢暂^為直觀地觀察到WE-Resnet 以較小的震蕩,較快的收斂速度進(jìn)行收斂。為了說明這種情況,我們統(tǒng)計(jì)了兩組實(shí)驗(yàn)的測(cè)試準(zhǔn)確率的標(biāo)準(zhǔn)差和均值,可以看到加權(quán)誤差可以在震蕩較小的同時(shí)具有更快的收斂速度。但是WE 模塊在迭代前期效果并不好,這就是標(biāo)準(zhǔn)差相差不大的原因。這種情況是由于初期神經(jīng)網(wǎng)絡(luò)受樣本誤差影響較小,而WE 模塊更傾向于“找準(zhǔn)方向”小步長(zhǎng)地移動(dòng),我們統(tǒng)計(jì)1000 步以后的標(biāo)準(zhǔn)差得到VGG 和Resnet 中受到WE模塊影響,標(biāo)準(zhǔn)差分別降低9.0%和9.2%。

        表2 縮減的VGG 結(jié)構(gòu)

        Table 3 Test set accuracy rate

        圖1 準(zhǔn)確率對(duì)比

        之后我們對(duì)比另一個(gè)和神經(jīng)網(wǎng)絡(luò)性能密切相關(guān)的數(shù)據(jù)——誤差。如圖2,我們對(duì)比了兩種網(wǎng)絡(luò)的誤差,其中WE 模塊對(duì)應(yīng)誤差也只取交叉熵部分,發(fā)現(xiàn)其相比于不加WE 的網(wǎng)絡(luò)有所增加,即在相同的準(zhǔn)確率下,WE 將有這更大的誤差,雖然這個(gè)誤差將和WE 做乘法后縮減,但是本質(zhì)上還是為神經(jīng)網(wǎng)絡(luò)的進(jìn)一步訓(xùn)練帶來了契機(jī)。我們將訓(xùn)練繼續(xù),如圖3 我們發(fā)現(xiàn),WE 模塊的效果顯著好于傳統(tǒng)的VGG 模塊,平均提升了2%的準(zhǔn)確度,實(shí)際降低誤差率9%。這一方面印證了我們之前對(duì)于其類似于降低學(xué)習(xí)率的加速效果,同時(shí)也印證的其存在一定的正則化效果,這個(gè)正則化效果并不強(qiáng),在VGG 這種參數(shù)量大,很容易過擬合的網(wǎng)絡(luò)中能起到一定作用,在與其對(duì)比的Resnet中效果就不是很明顯了。

        圖2 誤差對(duì)比

        圖3 VGG 的最高準(zhǔn)確率檢測(cè)

        圖4 準(zhǔn)確率對(duì)比

        在Resnet 的模塊中我們可以看到WE 模塊類似學(xué)習(xí)率下降的效果似乎很弱或者說被干擾了,這是由于其不止是一個(gè)權(quán)重還是一個(gè)梯度下降通道,這個(gè)通道會(huì)加強(qiáng)梯度下降步長(zhǎng),致使其發(fā)生這種情況,其實(shí)面對(duì)不同的需求我們還可以簡(jiǎn)單的設(shè)計(jì)不同的WE 進(jìn)行操作使用,例如(WE)α,α =0,1,...,∞,值得注意的是,當(dāng)α =0 時(shí)就是不加WE 模塊的網(wǎng)絡(luò),α =1 就是我們前文中所介紹WE 模塊,α 取其他值就有不同的效果,但是大致效果和α =1 時(shí)類似,α =∞時(shí)誤差會(huì)趨于0,神經(jīng)網(wǎng)絡(luò)將無法優(yōu)化。如圖4,我們對(duì)比了幾種取值的VGG 網(wǎng)絡(luò)在CIFAR-10 數(shù)據(jù)集上的結(jié)果,如圖1(a)α 取較小的值時(shí)在前期下降效果比較好,如圖1(b)α 取較大值在后期效果比較好,且效果均優(yōu)于原始模型,這也和我們之前分析的情況相一致,WE 模塊的縮減作用隨著α 的增大而增強(qiáng),這種縮減不利于前期的梯度下降,但是在后期有著很穩(wěn)定的效果,我們針對(duì)這種情況設(shè)計(jì)了:

        我們稱之為自適應(yīng)(self-adaption,SA)的方式,這樣的做法可以同時(shí)具有兩種好的特性,幅度可以根據(jù)情況再做調(diào)節(jié),為了式子表示的美觀,我們不再探討對(duì)自適應(yīng)模塊的處理。

        我們發(fā)現(xiàn)當(dāng)作為兩個(gè)通道作用時(shí),類似學(xué)習(xí)率的效果會(huì)被大幅削弱,所以在Resnet 中仍然需要降低學(xué)習(xí)率來逼近最優(yōu)效果。但是我們的算法可以壓縮這個(gè)訓(xùn)練過程,但是由于Resnet本身在論文中的設(shè)計(jì)就有訓(xùn)練次數(shù)超出需要,而且需要多少步才能做到相似效果的量化難以考究,所以我們并沒有對(duì)于Resnet 有過多的探討,只要知道WE 模塊對(duì)于Resnet 仍有好的加速效果即可。

        2.2 MNIST

        在MNIST[10]上我們對(duì)VGG 和Resnet 去除了一組降采樣模塊后進(jìn)行了相似的運(yùn)算,由于MNIST 數(shù)據(jù)集比較簡(jiǎn)單,收斂速度很快,所以我們?cè)赩GG 中令α=0.1,Resnet 中仍使用α=1 在得到了如圖5 的效果,符合我們?cè)贑IFAR-10上的效果和分析。而且我們也不難發(fā)現(xiàn),WE 模塊對(duì)于越加復(fù)雜的數(shù)據(jù)集效果越好,α 的取值也趨向于變大,也印證了我們對(duì)于WE 的解釋。

        在使用WE 模塊的時(shí)候要注意,整個(gè)模塊需要手動(dòng)編寫,使用框架自帶函數(shù)并將其作為權(quán)重傳入,可能會(huì)導(dǎo)致WE 模塊不會(huì)被求導(dǎo),甚至可能導(dǎo)致收斂減速。

        圖5 誤差對(duì)比

        2.3 效果分析

        我們根據(jù)得到的各組結(jié)果,將序列的十組準(zhǔn)確率進(jìn)行平均,以此來規(guī)避神經(jīng)網(wǎng)絡(luò)震蕩帶來的影響,發(fā)現(xiàn)WE 方法對(duì)于各種網(wǎng)絡(luò)的加速效果不一,而且各有特點(diǎn),但是大都和我們之前的分析相一致,即越大的越后期效果越好,越小的越前期效果越好。CIFAR-10 數(shù)據(jù)集中,在VGG 以為正則好效果明顯所以可能達(dá)到60%以上的加速,表現(xiàn)為越后期加速效果越好;在Resnet 中最高也只有40%的加速,表現(xiàn)為前中期效果好,但是隨著Resnet 本身也慢慢擬合,這個(gè)加速效果會(huì)被慢慢追上,在學(xué)習(xí)率改變后,WE 模塊又會(huì)再次加速收斂。統(tǒng)計(jì)各種網(wǎng)絡(luò)效果我們大致確定WE 模塊的加速效果為10-20%。

        3 總結(jié)

        本文針對(duì)神經(jīng)網(wǎng)絡(luò)需要大量運(yùn)算時(shí)間的弊端,考慮神經(jīng)網(wǎng)絡(luò)存在不同的訓(xùn)練水平,應(yīng)該針對(duì)不同的狀態(tài)給予適應(yīng)性的訓(xùn)練,借此提出了一種自適應(yīng)的加權(quán)誤差(SAWE)模塊,加快了神經(jīng)網(wǎng)絡(luò)的收斂速度。實(shí)驗(yàn)表明其對(duì)于神經(jīng)網(wǎng)絡(luò)有著很好的加速效果,并在多個(gè)數(shù)據(jù)集均有較好的表現(xiàn)。

        猜你喜歡
        梯度準(zhǔn)確率權(quán)重
        一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        權(quán)重常思“浮名輕”
        一種自適應(yīng)Dai-Liao共軛梯度法
        一類扭積形式的梯度近Ricci孤立子
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        白丝兔女郎m开腿sm调教室| 一区二区在线观看视频亚洲| 女女同性黄网在线观看| 亚洲精品一区二区三区国产| av色一区二区三区精品| 亚洲av无码乱码国产精品| chinesefreexxxx国产麻豆| 人妻丰满少妇一二三区| 蜜桃传媒免费观看视频| 亚洲丝袜美腿精品视频| 亚洲午夜av久久久精品影院色戒| 夜夜高潮夜夜爽夜夜爱爱| 91美女片黄在线观看| 精品亚洲国产亚洲国产| 久久久久99精品成人片| 精品久久久久久中文字幕| 久久99久久99精品免观看女同 | 色欲aⅴ亚洲情无码av蜜桃| 亚洲国产精品500在线观看 | 九九在线精品视频xxx| 日本黄网色三级三级三级| 少妇做爰免费视频了| 人人做人人妻人人精| 亚洲 日韩 在线精品| 国产农村妇女毛片精品久久麻豆| 一区二区三区免费看日本| 久久久g0g0午夜无码精品| 亚洲精品一二区| 亚洲五月天中文字幕第一页| 天天做天天摸天天爽天天爱| 播放灌醉水嫩大学生国内精品| 中文无码免费在线| 成人久久久精品乱码一区二区三区| a级毛片免费完整视频| 亚洲欧洲精品成人久久曰影片| 国产精品自拍网站在线| 亚洲日韩中文字幕在线播放| 极品粉嫩嫩模大尺度无码| 成 人 网 站 在线 看 免费| 丰满少妇一区二区三区专区| 午夜视频国产在线观看|