亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MNIST數(shù)據(jù)集的參數(shù)最優(yōu)化算法比較研究

        2021-08-09 03:23:50卜文銳
        電子技術(shù)與軟件工程 2021年11期
        關(guān)鍵詞:效率優(yōu)化方法

        卜文銳

        (陜西國防工業(yè)職業(yè)技術(shù)學(xué)院 陜西省西安市 710300)

        1 神經(jīng)網(wǎng)絡(luò)的參數(shù)優(yōu)化

        1.1 參數(shù)更新

        神經(jīng)網(wǎng)絡(luò)在人工智能的發(fā)展當(dāng)中起到了重要作用,它通常包含著較為復(fù)雜的結(jié)構(gòu)和數(shù)量龐大的參數(shù),其優(yōu)化過程的主要目的就是有針對性地更新各類參數(shù),使得為解決問題而設(shè)定的損失函數(shù)取得令人滿意的最小值。一般而言,在許多實(shí)用性較強(qiáng)的領(lǐng)域中,神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程是一個較為復(fù)雜的問題,其主要原因是在將實(shí)際問題抽象為數(shù)學(xué)模型的過程中,需要引入相當(dāng)數(shù)量的各類參數(shù),神經(jīng)網(wǎng)絡(luò)需要處理的參數(shù)無論是較大的數(shù)量還是復(fù)雜的結(jié)構(gòu)都讓最優(yōu)解的求解較為困難。

        在神經(jīng)網(wǎng)絡(luò)優(yōu)化算法當(dāng)中,非常經(jīng)典的方法是選取網(wǎng)絡(luò)參數(shù)的梯度作為最小化損失函數(shù)的突破口,在很大程度上借鑒了工程數(shù)學(xué)研究中關(guān)于最速下降方法的研究成果,具體算法稱為隨機(jī)梯度下降法,簡稱SGD。相比于盲目地在參數(shù)空間中搜索,SGD 方法已經(jīng)具有巨大的優(yōu)勢了。但是,根據(jù)需要求解的具體問題,也有著比SGD 更好的優(yōu)化算法。

        1.2 常用方法

        1.2.1 SGD

        SGD 方法的表達(dá)式如式(1)所示,W 是神經(jīng)網(wǎng)絡(luò)的權(quán)重,?L/?W 是損失函數(shù)對W 的偏導(dǎo)數(shù),η 為學(xué)習(xí)率(一般取0.01 或0.001)。

        SGD 方法的局限性從式(1)中也可以看出,那就是梯度的方向并不一定總是指向最小值的方向。因此,在出現(xiàn)此類情況的問題中,SGD 方法的搜索效率將會大打折扣。

        1.2.2 Momentum

        Momentum 的表達(dá)式如式(2)和式(3)所示,W 是神經(jīng)網(wǎng)絡(luò)的權(quán)重,?L/?W 是損失函數(shù)對W 的偏導(dǎo)數(shù),η 為學(xué)習(xí)率,v 為速度。

        Momentum 方法對應(yīng)的物理模型非常類似非光滑、非真空環(huán)境下,在平面上滾動的球體,式(2)中的第一項代表了球體運(yùn)動時受到的各種阻力。

        1.2.3 AdaGrad

        在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中,學(xué)習(xí)率(數(shù)學(xué)式中記為η)的設(shè)定對于網(wǎng)絡(luò)參數(shù)的優(yōu)化具有重要意義。其設(shè)定過小,相當(dāng)于在搜索過程中步長過小,優(yōu)化效率較低;其設(shè)定過大,相當(dāng)于在搜索過程中選定了較大的步長,可能長時間在最小值附近擺動而無法收斂。在解決工程問題的過程中,學(xué)習(xí)率衰減的方法被廣泛采用:在搜索開始距離最小值較遠(yuǎn)時,采用較大的搜索步長;當(dāng)搜索逐漸進(jìn)行,接近最小值附近時,調(diào)小搜索步長。在此基礎(chǔ)之上,AdaGrad 方法拓展了該方法的細(xì)節(jié),針對各個參數(shù)在神經(jīng)網(wǎng)路模型中的不同用途,專門為其設(shè)定衰減率,相當(dāng)于更加細(xì)化的學(xué)習(xí)率衰減方法。

        圖1:四類算法最優(yōu)化結(jié)果對比

        用數(shù)學(xué)式表示AdaGrad 的更新方法如式(4)和式(5)所示,W 是神經(jīng)網(wǎng)絡(luò)的權(quán)重,?L/?W 是損失函數(shù)對W 的偏導(dǎo)數(shù),η 為學(xué)習(xí)率。其中參數(shù)h 的設(shè)置就是為了抑制某些參數(shù)因搜索步長過大而無法收斂,具體而言:從式(4)可以看出,如果某個參數(shù)的梯度變化較大,則其h 值也會發(fā)生較大改變:而式(5)中h 值存在于分母上,就確保權(quán)重W 值只發(fā)生較小的改變,也就確保了搜索步長有針對性地衰減。

        1.2.4 Adam

        在優(yōu)化算法的發(fā)展過程中,各類算法相互借鑒,不斷優(yōu)化的案例十分豐富,也往往有著意想不到的效果。Adam 方法就是結(jié)合了Momentum 方法和AdaGrad 方法的特點(diǎn),并進(jìn)行了一些獨(dú)特算法特征的引入,在2015年正式進(jìn)入最優(yōu)化方法的行列。

        2 MNIST數(shù)據(jù)集

        2.1 概述

        MNIST 是機(jī)器學(xué)習(xí)領(lǐng)域最有名的數(shù)據(jù)集之一,從各類AI 訓(xùn)練的典型實(shí)驗到許多知名期刊發(fā)表的論文都能見到其被廣泛使用。實(shí)際上,在閱讀圖像識別或機(jī)器學(xué)習(xí)的各類資料時,它是非常典型的研究對象,包含可以用于學(xué)習(xí)和推理的訓(xùn)練圖像6 萬張,測試圖像1 萬張。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與其它AI 的訓(xùn)練類似,也即將訓(xùn)練集上的訓(xùn)練結(jié)果用于測試集上的圖像進(jìn)行分類,而分類的效率和準(zhǔn)確率通常是度量神經(jīng)網(wǎng)路模型好壞的基本參數(shù)。

        2.2 基本參數(shù)

        圖2:不同迭代次數(shù)下四種算法損失函數(shù)對比

        MNIST 數(shù)據(jù)集是由28×28 像素的圖像組成,每個像素點(diǎn)根據(jù)其灰度的差異在0-255 之間取值,并以此保存為一個數(shù)組。在訓(xùn)練過程中,每個數(shù)據(jù)所對應(yīng)的分類標(biāo)簽(0-9 總共10 個分類)會被輸入神經(jīng)網(wǎng)絡(luò)作為參考;而在測試過程中,數(shù)據(jù)的標(biāo)簽將不提供給神經(jīng)網(wǎng)絡(luò)。

        3 最優(yōu)化算法對比

        3.1 實(shí)驗參數(shù)

        3.1.1 四類算法對比

        以求解式(6)所示的函數(shù)最小值作為四類算法對比研究的目標(biāo),在工程優(yōu)化問題當(dāng)中此類函數(shù)也經(jīng)常被作為研究對象,根據(jù)其等高線圖對比最優(yōu)化算法的好壞。

        針對該函數(shù)的特征,不同類型算法在最優(yōu)化參數(shù)的過程中往往會表現(xiàn)出各不相同的特征。

        3.1.2 MNIST 數(shù)據(jù)集實(shí)驗參數(shù)

        在MNIST 數(shù)據(jù)集上,我們比較前述SGD、Momentum、AdaGrad 和Adam 這四種算法的優(yōu)化效果,并確認(rèn)不同的方法在學(xué)習(xí)進(jìn)展方面的差異。我們采用一個5 層神經(jīng)網(wǎng)絡(luò),其中每層設(shè)置100 個神經(jīng)元,激活函數(shù)采用ReLU 函數(shù),迭代次數(shù)分別設(shè)定為1000、2000、3000 和4000。

        3.2 結(jié)果對比

        3.2.1 四類算法對比實(shí)驗

        SGD、Momentum、AdaGrad 和Adam 算法在式(6)所示最優(yōu)化問題上的結(jié)果如圖1 所示。SGD 方法主要體現(xiàn)了Z 字形搜索方式,而其它三種方法的搜索則有較顯著的非線性特征。從結(jié)果來看,AdaGrad 方法的結(jié)果最優(yōu)。但是,在最優(yōu)化問題中,結(jié)果會根據(jù)需要解決的問題而有較大的變化;并且,根據(jù)超參數(shù)(學(xué)習(xí)率等)設(shè)定的差異,結(jié)果也會發(fā)生變化。所以,在神經(jīng)網(wǎng)絡(luò)解決實(shí)際問題的過程中,網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)定和各類參數(shù)的設(shè)置往往決定著最終優(yōu)化算法的結(jié)果。

        3.2.2 MNIST 數(shù)據(jù)集最優(yōu)化算法對比

        從圖2 的結(jié)果中可知,與SGD 算法相比,其它3 種算法學(xué)習(xí)效率較高,而且速度較為接近,細(xì)致分析不同迭代次數(shù)的學(xué)習(xí)效果圖可以看出,AdaGrad 算法的學(xué)習(xí)效率總體略高于其它算法。和求解函數(shù)最小值問題時類似,我們只能確定,在當(dāng)前設(shè)定的實(shí)驗參數(shù)條件下,另3 種方法學(xué)習(xí)效率比SGD 算法更高,在多數(shù)情況下最終識別手寫數(shù)字的精度也更好。

        4 結(jié)語

        神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化是人工智能研究當(dāng)中非常重要的問題,基于不同的算法設(shè)計理念,四種常用方法均有著各自的特色。在求解函數(shù)最小值問題的過程當(dāng)中,AdaGrad 算法在SGD、Momentum、AdaGrad 和Adam 算法中具有較好的結(jié)果;在學(xué)習(xí)手寫數(shù)字識別領(lǐng)域典型的MNIST 數(shù)據(jù)集時,我們設(shè)定的迭代次數(shù)在1000、2000、3000 和4000 的5 層神經(jīng)網(wǎng)絡(luò)(每層設(shè)置100 個神經(jīng)元,激活函數(shù)采用ReLU 函數(shù))結(jié)果體現(xiàn)出與SGD 算法相比,另3 種方法學(xué)習(xí)效率更高,同時AdaGrad 算法的學(xué)習(xí)效率總體略高于其它算法。

        猜你喜歡
        效率優(yōu)化方法
        超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
        民用建筑防煙排煙設(shè)計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        提升朗讀教學(xué)效率的幾點(diǎn)思考
        甘肅教育(2020年14期)2020-09-11 07:57:42
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        跟蹤導(dǎo)練(一)2
        久久99国产精品久久99果冻传媒 | 亚洲天堂第一区| 国产桃色精品网站| 一本大道久久精品一本大道久久 | 亚洲AV永久天堂在线观看| 色婷婷精品综合久久狠狠| 女同性恋亚洲一区二区| 久草视频这里只有精品| 无码中文字幕人妻在线一区| 少妇无码一区二区三区免费| 国产精品99久久精品爆乳| 极品 在线 视频 大陆 国产| 亚洲国产视频精品一区二区| 国产性感主播一区二区| 色婷婷久久综合中文蜜桃| 久久国产黄色片太色帅| 人人做人人爽人人爱| 国产办公室沙发系列高清| 欧美自拍丝袜亚洲| AV中文字幕在线视| 91成人国产九色在线观看| 人妻少妇-嫩草影院| 亚洲av午夜福利精品一区二区| 天码av无码一区二区三区四区 | 久久亚洲av午夜福利精品一区| 成人免费看片又大又黄| Y111111国产精品久久久| 亚洲成人av一区二区麻豆蜜桃| 日本精品免费看99久久| 成人做受视频试看60秒| 巨熟乳波霸若妻在线播放| 视频一区精品自拍| 综合久久青青草免费观看视频| 产美女被爽到高潮免费a| 少妇性饥渴bbbbb搡bbbb| 中文字幕日韩高清| 久久一二三四区中文字幕| 国产不卡精品一区二区三区| 极品美女aⅴ在线观看| 日本专区一区二区三区| 国内激情一区二区视频|