亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種修正學(xué)習(xí)率的梯度下降算法

        2024-01-05 07:21:28姜文翰姜志俠孫雪蓮
        關(guān)鍵詞:測(cè)試函數(shù)收斂性梯度

        姜文翰,姜志俠,孫雪蓮

        (長(zhǎng)春理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長(zhǎng)春 130022)

        近年來(lái)神經(jīng)網(wǎng)絡(luò)已成為人工智能的核心框架,廣泛應(yīng)用于語(yǔ)音識(shí)別、圖像分類、自然語(yǔ)言處理等領(lǐng)域[1]。 其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在人體活動(dòng)識(shí)別、句子分類、文本識(shí)別、人臉識(shí)別、目標(biāo)檢測(cè)和定位、圖像表征等方面有著廣泛的應(yīng)用[2-5]。

        神經(jīng)網(wǎng)絡(luò)中,梯度下降算法是求解參數(shù)最重要、最基礎(chǔ)的方法[6]。 然而隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大,傳統(tǒng)的梯度下降算法已不能有效解決大規(guī)模機(jī)器學(xué)習(xí)問(wèn)題[7-9]。因此,梯度下降算法成為機(jī)器學(xué)習(xí)研究的焦點(diǎn)。隨機(jī)梯度下降算法(SGD)是梯度下降類算法中最基礎(chǔ)的方法。針對(duì)SGD 易陷入鞍點(diǎn)、局部極小值點(diǎn)、學(xué)習(xí)率不變等問(wèn)題[10],一方面,動(dòng)量梯度下降法利用之前下降的梯度方向保持慣性,可以克服SGD 易陷入鞍點(diǎn)、局部極小值點(diǎn)等問(wèn)題[11]。 另一方面,AdaGrad 利用步長(zhǎng)除以歷史梯度平方和作為每步的更新步長(zhǎng),引出自適應(yīng)步長(zhǎng)的概念。 但隨著迭代次數(shù)增加,梯度累加和會(huì)越來(lái)越大,AdaGrad 學(xué)習(xí)率會(huì)迅速減小,導(dǎo)致參數(shù)不再更新。RMSProp 使用梯度平方的滑動(dòng)指數(shù)平均改善這一問(wèn)題。Adam 在RMSprop 基礎(chǔ)上引入一階動(dòng)量。 盡管Adam 在多領(lǐng)域的應(yīng)用中已經(jīng)取得良好的結(jié)果,但在AMSGrad 中已經(jīng)通過(guò)反例公開(kāi)了其在某些情況下是發(fā)散的。 隨著Adam 的廣泛應(yīng)用以及大量Adam 變體的出現(xiàn),關(guān)于Adam收斂性的充分條件已經(jīng)引起深度學(xué)習(xí)和優(yōu)化領(lǐng)域的廣泛關(guān)注[12-13]。

        在Adam[14]算法基礎(chǔ)上,利用梯度的指數(shù)加權(quán)平均改進(jìn)學(xué)習(xí)率,提出了MonAdam 算法。該算法改善Adam 算法學(xué)習(xí)率分布較為極端的現(xiàn)象,從而提升神經(jīng)網(wǎng)絡(luò)的收斂性。隨后對(duì)MonAdam算法進(jìn)行了收斂性分析,給出相應(yīng)結(jié)論。最后,在非凸測(cè)試函數(shù)和神經(jīng)網(wǎng)絡(luò)中進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)結(jié)果表明,與其他優(yōu)化算法相比MonAdam算法具有較好的收斂性。

        在界定“整本書(shū)閱讀”這一概念時(shí),不少學(xué)者用結(jié)構(gòu)主義二元對(duì)立的方法來(lái)闡釋,從與“篇章閱讀”相對(duì)立的角度,認(rèn)為“整本書(shū)閱讀”首先在閱讀材料上不再是一篇節(jié)選文章的含英咀華,而是一本有著獨(dú)立精神、獨(dú)特思想價(jià)值,能夠作為一個(gè)連續(xù)性整體給讀者別樣閱讀感受的完滿集合,閱讀材料更長(zhǎng),也更具復(fù)雜性,完成這一復(fù)雜閱讀任務(wù)的時(shí)間更長(zhǎng),表現(xiàn)出來(lái)的閱讀行為也更具連續(xù)性。其次,不同于“列書(shū)單式”閱讀時(shí)代,僅僅是“讀”的粗淺要求,整本書(shū)閱讀是以“讀透”,讀出長(zhǎng)進(jìn)為硬性指標(biāo)的深層次閱讀。在整本書(shū)閱讀課上,教師是引導(dǎo)者、傾聽(tīng)者,更多的時(shí)候是調(diào)控者、記錄者。整本書(shū)閱讀教學(xué)策略是在師生共同閱讀中生成的。

        1 自適應(yīng)學(xué)習(xí)率

        Adam 算法[14]作為神經(jīng)網(wǎng)絡(luò)最常用的優(yōu)化算法之一,在保存動(dòng)量梯度算法的梯度指數(shù)衰減平均值(即一階矩mt)基礎(chǔ)上,同時(shí)保存RMSprop算法的梯度平方指數(shù)衰減平均值(即二階矩vt)[15],表達(dá)式如下:

        2.1組間總有效率對(duì)比 研究組銀屑病患者總有效率經(jīng)評(píng)定為92.5%,對(duì)照組經(jīng)評(píng)定為57.5%,組間具統(tǒng)計(jì)學(xué)差異(P<0.05);研究結(jié)果如表1所示。

        Adam 算法參數(shù)更新公式為:

        其中,θt是第t步更新的參數(shù)向量;α為學(xué)習(xí)率;和分別為一階矩和二階矩的偏差校正;ε為一個(gè)充分小的正值。Adam 算法結(jié)合兩種算法的優(yōu)點(diǎn),具有快速初始化的良好性能,但Luo 等人[16]舉出了在某些非凸函數(shù)上Adam 算法仍不能收斂到最優(yōu)解的反例。

        采用ResNet-18 神經(jīng)網(wǎng)絡(luò)[17]訓(xùn)練CIFAR-10數(shù)據(jù)集,利用TensorboardX 在圖1 中畫(huà)出訓(xùn)練5個(gè)EPOCH 的學(xué)習(xí)率分布圖。圖中x軸代表學(xué)習(xí)率,且學(xué)習(xí)率經(jīng)過(guò)以e為底的log 縮放,y軸代表迭代次數(shù),高度代表學(xué)習(xí)率出現(xiàn)的頻數(shù)[18]。

        圖1 ResNet-18 網(wǎng)絡(luò)訓(xùn)練CIFAR-10

        AMSGrad 算法[19]提出一種通過(guò)對(duì)二階矩取大的方法,即:

        此式為氣體部分編寫(xiě)程序可用的積分公式, 其中可以看出: 半徑方向最大網(wǎng)格節(jié)點(diǎn)數(shù)為NK, 每?jī)蓚€(gè)相鄰的網(wǎng)格節(jié)點(diǎn)距離為ΔR. 從球坐標(biāo)最大半徑處開(kāi)始向球心積分, 網(wǎng)格節(jié)點(diǎn)數(shù)i 依次減小1, 半徑依次減小ΔR. 對(duì)每一個(gè)網(wǎng)格節(jié)點(diǎn)數(shù)i , 對(duì)應(yīng)一個(gè)具體的半徑R, 此處根據(jù)當(dāng)?shù)亓鲌?chǎng)值及輻射發(fā)射系數(shù)計(jì)算出它的輻射值, 并且根據(jù)此處到球心之間的每一個(gè)網(wǎng)格節(jié)點(diǎn)的當(dāng)?shù)亓鲌?chǎng)值及輻射吸收系數(shù), 計(jì)算出具體的半徑R處對(duì)球心的輻射照度值.

        由圖1(b)可知AMSGrad 算法改善了Adam 算法存在極端學(xué)習(xí)率的問(wèn)題。但AMSGrad 算法只考慮了Adam 算法中學(xué)習(xí)率處于極大值時(shí)的情形,未考慮極小值是否對(duì)收斂性有影響,所以在實(shí)際問(wèn)題中的表現(xiàn)差強(qiáng)人意[16]。Luo 等人[16]提出Adabound 算法,使用學(xué)習(xí)率裁剪技術(shù):

        本文在Adam 算法中利用梯度信息加權(quán)平均的思想修正自適應(yīng)學(xué)習(xí)率,即將參數(shù)vt更新過(guò)程中的替換為,從而得到MonAdam 算法。公式如下:

        2 MonAdam 算法及分析

        2.1 MonAdam 算法

        將Adam 算法與SGD 算法結(jié)合。其中,自適應(yīng)學(xué)習(xí)率的下界ηl(t)是t的非遞減函數(shù),上界ηu(t)是t的非遞增函數(shù)。在學(xué)習(xí)率裁剪過(guò)程中,會(huì)發(fā)現(xiàn)學(xué)習(xí)率在幾輪迭代后迅速縮減到一個(gè)小的區(qū)間,如圖1(c)所示。

        其中,β3為修正自適應(yīng)學(xué)習(xí)率的指數(shù)衰減率;是第t步的梯度加權(quán)平均;是自適應(yīng)學(xué)習(xí)率的梯度。MonAdam 算法描述如下:

        (1)初始參數(shù)θ0,初始化m0= 0,v0= 0,=0,= 0,超參數(shù)β1,β2,β3∈[ 0, 1) ,學(xué)習(xí)率α,常數(shù)ε,損失函數(shù)f(θ),最大迭代次數(shù)T。

        精準(zhǔn)扶貧視域下西南邊疆民族地區(qū)思想和文化扶貧工作存在的問(wèn)題與對(duì)策 ……………………………………… 張志巧(6/35)

        (2)t從1 開(kāi)始進(jìn)行T次循環(huán)迭代。

        (3)計(jì)算gt= ?θf(wàn)t(θt- 1)。

        (5)計(jì)算mt=β1?mt-1+ (1 -β1)?gt。

        肯普夫說(shuō):“當(dāng)然,在美國(guó)西海岸、中國(guó)都有一些‘懷才不遇’的研究人員,他們?cè)敢鈦?lái)歐洲尋找一個(gè)良好的科研位置?!笨掀辗蛘J(rèn)為,現(xiàn)在是快速實(shí)施人工智能戰(zhàn)略的時(shí)候了。他說(shuō):“聯(lián)邦政府已經(jīng)承諾未來(lái)幾年將提供30億歐元的科研經(jīng)費(fèi)?!闭_使用這筆資金非常重要。他說(shuō):“最好將研究資金用于推動(dòng)工業(yè)應(yīng)用數(shù)字化的進(jìn)一步發(fā)展”,“因?yàn)樵谶@個(gè)領(lǐng)域我們歐洲人,尤其是德國(guó)作為工業(yè)基地有著明顯的優(yōu)勢(shì)?!?/p>

        (8)若滿足終止條件,則保存當(dāng)前解θt。

        其中,β1、β2分別是一階矩和二階矩的指數(shù)衰減率[14];mt- 1、vt- 1分別是第t- 1 步中的一階矩和二階矩;gt為第t步的梯度。

        2.2 初始化偏差修正

        文獻(xiàn)[14]中對(duì)E[vt]與E[gt2]進(jìn)行分析,得到vt需進(jìn)行偏差修正的結(jié)論,用以糾正初始化vt為零帶來(lái)的偏差。E[]與E[gt]之間的關(guān)系如下:

        采用ResNet-18 神經(jīng)網(wǎng)絡(luò)訓(xùn)練CIFAR-10 數(shù)據(jù)集,利用TensorboardX 在圖3 中畫(huà)出訓(xùn)練5 個(gè)EPOCH 的學(xué)習(xí)率分布圖。 從圖3(a)中可知Adam 算法學(xué)習(xí)率分布區(qū)間較為廣泛。對(duì)比圖3(b)可知MonAdam 算法一定程度上改善了Adam算法學(xué)習(xí)率分布較極端情況。

        證明:對(duì)比文獻(xiàn)[14]中定理4.1 的證明過(guò)程可知,只需重新證明MonAdam 中的的上界即可。

        圖2 表示MonAdam 算法在VAE 中訓(xùn)練MNIST數(shù)據(jù)集對(duì)10 個(gè)EPOCH 的損失圖。圖中橫軸代表學(xué)習(xí)率并取以10 為底的對(duì)數(shù),縱軸代表VAE 中的損失,VAE 損失是重構(gòu)誤差與KL 散度誤差兩項(xiàng)之和[20]。其中,超參數(shù)選取β3∈{ 0 .001,0.01,0.1} ,log10(α)∈[ -5, - 1 ]。

        圖2 變分自編碼器(VAE)訓(xùn)練MNIST 數(shù)據(jù)集

        由圖2 可知在訓(xùn)練初始階段,算法進(jìn)行偏差修正時(shí)結(jié)果較優(yōu),可以防止產(chǎn)生較大的初始化偏差。

        風(fēng)影急匆匆地又要走了,紅琴也挎著一籃子磨菇要回家了。冷不防她竄上去攔在他的面前,她讓他等一等,隨即就從細(xì)腰上取下一根紅色的褲腰帶子,閉上眼睛默默地念了一陣子,然后她將它掛在樹(shù)枝上,打了一個(gè)丁香結(jié)。他問(wèn)她什么意思,她笑容滿面,說(shuō)這個(gè)結(jié)就代表著他們這次見(jiàn)面,下次還在這里見(jiàn)面,再打一個(gè)結(jié)。她說(shuō)只要心誠(chéng),每次打結(jié)許個(gè)愿,等到打了七七四十九個(gè)結(jié),心里想什么好事,就能如愿以償了。

        2.3 梯度加權(quán)平均的自適應(yīng)學(xué)習(xí)率

        觀察兩組血液檢驗(yàn)結(jié)果,包括平均紅細(xì)胞血紅蛋白量、平均紅細(xì)胞體積、紅細(xì)胞分布寬度、平均血紅蛋白濃度;對(duì)比兩者診斷符合情況。

        1.2.1 透析前細(xì)節(jié)管理(1)根據(jù)不同時(shí)間段的心理情況采取不同的心理干預(yù)措施,讓其負(fù)面情緒得到充分的宣泄;(2)根據(jù)患者不同的文化背景采用不同的健康宣講方式為患者進(jìn)行血液透析對(duì)病情治療和控制的優(yōu)點(diǎn)、必要性以及透析過(guò)程中透析頭身體產(chǎn)生的不適反應(yīng),讓其對(duì)血液透析治療的步驟、優(yōu)勢(shì)、不適有一定了解,提前做好心理準(zhǔn)備,面對(duì)透析治療中的帶來(lái)的各種困難;(3)在對(duì)患進(jìn)行血液透析前,必須謹(jǐn)慎估測(cè)患者當(dāng)前的干體重,并預(yù)設(shè)最佳脫水值,防止在透析時(shí)發(fā)生大規(guī)模的超濾,使血壓急速下降。

        圖3 ResNet-18 網(wǎng)絡(luò)訓(xùn)練CIFAR-10 數(shù)據(jù)集

        2.4 收斂性分析

        由文獻(xiàn)[14]中定理4.1 可知,設(shè)函數(shù)ft的梯度有界,即?θ∈Rd,則有:

        由Adam 算法產(chǎn)生的任意兩個(gè)參數(shù)θt之間的距離有界,即:?m,n∈{1 ,…,T},有,。 對(duì)于參數(shù)β1、β2∈[ 0,1) ,滿足,令,且β1,t=β1λt-1,λ∈( 0,1) 。對(duì)于?T≥1,可以證明Adam 算法的遺憾界為:

        試驗(yàn)選取液固比601,浸取溫度55 ℃,測(cè)定浸取時(shí)間對(duì)Ba2+、OH-濃度以及水溶性鋇存在形式的影響,試驗(yàn)結(jié)果如圖6、圖7。

        如果E[gs]是穩(wěn)定的,則ζ= 0。否則,可以適當(dāng)選擇指數(shù)衰減率β3,以便為較遠(yuǎn)歷史梯度分配較小的權(quán)重,故ζ是足夠小的值[14]。 而項(xiàng)是由初始化引起的,可在算法中除以此項(xiàng),即對(duì)進(jìn)行偏差修正:

        在MonAdam 算法中引入?yún)?shù)β3∈[ 0,1) ,計(jì)算:

        為驗(yàn)證管理層能力對(duì)企業(yè)研發(fā)投入的直接影響,對(duì)全樣本進(jìn)行回歸,表2第1列和第2列分別是對(duì)模型 (1)進(jìn)行普通混合最小二乘法和固定效應(yīng)模型回歸的檢驗(yàn)結(jié)果??梢钥闯?,管理層能力對(duì)企業(yè)的研發(fā)投入強(qiáng)度的影響均為負(fù)。經(jīng)過(guò)F檢驗(yàn)和Hausman檢驗(yàn),應(yīng)選擇固定效應(yīng)模型,根據(jù)第2列結(jié)果解釋更合適。這意味著就全樣本而言,面對(duì)商業(yè)轉(zhuǎn)化不確定的經(jīng)營(yíng)環(huán)境,高能力管理者制定研發(fā)決策更為審慎,傾向于根據(jù)其自身專業(yè)能力更好地識(shí)別創(chuàng)新機(jī)會(huì),減少轉(zhuǎn)化無(wú)效或低效的研發(fā)投入以避免企業(yè)陷入經(jīng)營(yíng)困境,驗(yàn)證了假設(shè)1。

        其中:因?yàn)棣薸∈(0,1),i∈[ 1,…,t],所以不等式:

        即:

        因此:

        3 實(shí)驗(yàn)分析

        利用非凸函數(shù)與神經(jīng)網(wǎng)絡(luò)對(duì)SGDM、AdaGrad、RMSProp、Adam、MonAdam 五種算法進(jìn)行對(duì)比分析。

        3.1 非凸函數(shù)

        計(jì)算非凸函數(shù)F1(x) 和F2(x)[21]的最小值,應(yīng)用SGDM、Adam、MonAdam 算法進(jìn)行優(yōu)化。 圖像分別如圖4(a)、圖4(c)所示,收斂情況分別如圖4(b)、圖4(d)所示。

        圖4 非凸函數(shù)圖像與收斂結(jié)果

        參數(shù)均設(shè)置為β1= 0.95,β2= 0.999,β3= 0.9,α= 0.1,m0= 0,,v0= 0,且均進(jìn)行300 次迭代。F1(x) 與F2(x) 定義如下:

        由圖4(b)可知Adam 算法在非凸函數(shù)F1(x)中陷入了局部極小點(diǎn),SGDM 與MonAdam 算法收斂到全局最優(yōu)點(diǎn)。 由圖4(d)可知非凸函數(shù)F2(x)中SGDM 與Adam 算法均陷入局部極小點(diǎn),MonAdam 算法收斂到全局最優(yōu)點(diǎn)。

        3.2 測(cè)試函數(shù)

        選用四個(gè)測(cè)試函數(shù):

        (1)Booth′s 函數(shù):

        (2)Matyas 函數(shù):

        目前市場(chǎng)上的中藥揮發(fā)油提取設(shè)備型號(hào)多樣、功能各異,其質(zhì)量關(guān)系到中藥揮發(fā)油的質(zhì)量。相關(guān)部門(mén)應(yīng)盡快加強(qiáng)提取設(shè)備標(biāo)準(zhǔn)化管理,完善《藥品生產(chǎn)質(zhì)量管理規(guī)范》(GMP)或建立相關(guān)政策法規(guī)。由于在提取揮發(fā)油的過(guò)程中普遍存在提取工藝與提取設(shè)備不適宜的問(wèn)題,因此在研發(fā)自動(dòng)化、智能化揮發(fā)油提取設(shè)備的同時(shí),必須加強(qiáng)提取工藝與設(shè)備的適宜性研究,從而使傳統(tǒng)的低效、高耗能揮發(fā)油提取設(shè)備升級(jí)成高效、低耗、綠色的現(xiàn)代中藥揮發(fā)油提取設(shè)備。

        (3)McCormick 函數(shù):

        (4)Sphere 函數(shù):

        社會(huì)主義協(xié)商民主是中國(guó)共產(chǎn)黨和中國(guó)人民的偉大創(chuàng)造,最初起源于新民主主義時(shí)期作為各革命階級(jí)聯(lián)盟的統(tǒng)一戰(zhàn)線,體現(xiàn)為階級(jí)民主,即各革命階級(jí)為爭(zhēng)得民主,實(shí)施革命階級(jí)間的政治聯(lián)合與協(xié)商,在實(shí)踐中又通過(guò)統(tǒng)一戰(zhàn)線的合作形式和組織形式推動(dòng)社會(huì)主義協(xié)商民主的發(fā)展[11]。

        對(duì)MonAdam 算法性能進(jìn)行檢驗(yàn)。

        實(shí)驗(yàn)中該算法參數(shù)設(shè)置為:β1= 0.9,β2= 0.999,β3= 0.01。前三種測(cè)試函數(shù)學(xué)習(xí)率α= 0.001,第四種測(cè)試函數(shù)學(xué)習(xí)率α= 0.02。實(shí)驗(yàn)結(jié)果如圖5和表1 所示。

        表1 測(cè)試函數(shù)結(jié)果

        圖5 收斂情況

        如表1 所示,在四種測(cè)試函數(shù)中MonAdam 算法均達(dá)到全局最小點(diǎn)??梢?jiàn),MonAdam 算法收斂情況較優(yōu)。

        3.3 神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)

        首先在圖像分類任務(wù)中,選取常見(jiàn)的數(shù)據(jù)集進(jìn)行算法性能測(cè)試[22]。CIFAR10 和CIFAR100 數(shù)據(jù)集均由60 000 張圖像組成,其中50 000 張用于訓(xùn)練,10 000 張用于測(cè)試。本文使用ResNet-34求解CIFAR-10/100 數(shù)據(jù)集,比較SGDM、AdaGrad、RMSProp、Adam 以及MonAdam 算法的收斂效果。

        實(shí)驗(yàn)參數(shù)設(shè)置:α= 0.001,β1= 0.9,β2= 0.999,β3= 0.01,ε= 10-8,m0= 0,,v0= 0,momentum = 0.9。所有優(yōu)化算法均進(jìn)行200 次迭代。其中,對(duì)ResNet-34 深度神經(jīng)網(wǎng)絡(luò)采用學(xué)習(xí)率預(yù)熱技術(shù),在150 輪次后使得學(xué)習(xí)率衰減10。

        如圖6(b)、圖7(b)所示,MonAdam 算法在實(shí)驗(yàn)中均有較快的收斂速度和較好的泛化性能。 如表2 所示,MonAdam 算法在ResNet-34 模型中兩個(gè)測(cè)試集的準(zhǔn)確率分別可達(dá)93.77%、73.79%。

        表2 ResNet-34 的測(cè)試集準(zhǔn)確率

        圖6 利用ResNet-34 訓(xùn)練CIFAR-10 數(shù)據(jù)集

        圖7 利用ResNet-34 訓(xùn)練CIFAR-100 數(shù)據(jù)集

        為衡量MonAdam 算法的適用性,利用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[23]在PTB 數(shù)據(jù)集中進(jìn)行語(yǔ)言建模實(shí)驗(yàn)。實(shí)驗(yàn)中使用困惑度作為衡量指標(biāo),困惑度越小則代表對(duì)新文本有較好的預(yù)測(cè)作用。如表3 所示,MonAdam 的困惑度最小,即具有良好的優(yōu)化結(jié)果。

        4.用氯化鈉3.5 g、碳酸氫鈉2.5 g、氯化鉀1.5 g、葡萄糖20 g、氟哌酸散4 g、加水1 000 ml,充分搖勻溶解,每次口服80~100 ml,每日早晚各1次。

        表3 PTB 數(shù)據(jù)集的困惑度

        綜上所述,在非凸函數(shù)與CIFAR10/100 數(shù)據(jù)集中MonAdam 算法和Adam 算法相比,準(zhǔn)確率均有一定程度提升。 而在語(yǔ)言建模任務(wù)中,RMSprop 算法、Adam 算法和MonAdam 算法收斂性能相當(dāng),在圖8 中困惑度在下降過(guò)程中出現(xiàn)大量重合,故可知MonAdam 仍然有較出色的表現(xiàn)。

        圖8 利用LSTM 訓(xùn)練PTB 數(shù)據(jù)集

        4 結(jié)論

        由于梯度下降算法過(guò)程簡(jiǎn)單、易于實(shí)現(xiàn)、具有相對(duì)良好的收斂性等特點(diǎn),成為了神經(jīng)網(wǎng)絡(luò)中常用的參數(shù)更新算法。但仍具有收斂速度相對(duì)較慢、易陷入鞍點(diǎn)、局部極小點(diǎn)、泛化能力差等問(wèn)題[24]。通過(guò)對(duì)Adam 算法中學(xué)習(xí)率的修正,提出MonAdam算法。本文通過(guò)改善學(xué)習(xí)率的分布,完善Adam 算法的收斂性。 未來(lái)的工作可以考慮將提出的修正學(xué)習(xí)率思想應(yīng)用于AdaNorm[25]、RMSProp、AdamW[26]、AdaBound、Nadam[27]等算法中。

        猜你喜歡
        測(cè)試函數(shù)收斂性梯度
        一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
        Lp-混合陣列的Lr收斂性
        一種自適應(yīng)Dai-Liao共軛梯度法
        一類扭積形式的梯度近Ricci孤立子
        END隨機(jī)變量序列Sung型加權(quán)和的矩完全收斂性
        具有收縮因子的自適應(yīng)鴿群算法用于函數(shù)優(yōu)化問(wèn)題
        帶勢(shì)函數(shù)的雙調(diào)和不等式組的整體解的不存在性
        約束二進(jìn)制二次規(guī)劃測(cè)試函數(shù)的一個(gè)構(gòu)造方法
        行為ND隨機(jī)變量陣列加權(quán)和的完全收斂性
        松弛型二級(jí)多分裂法的上松弛收斂性
        欧美成人高清手机在线视频| 少妇高潮喷水久久久影院| 精品国精品无码自拍自在线| 日本久久久免费高清| 最新中文字幕乱码在线| 亚洲av免费手机在线观看| 少妇久久久久久被弄到高潮 | 国产欧美日韩中文久久| 免费无码黄动漫在线观看| 亚洲黄色尤物视频| 少妇人妻在线伊人春色| 未满十八18禁止免费无码网站| 国产精品自在线拍国产| 久久AV中文综合一区二区| 蜜桃视频一区二区三区| 黑人大群体交免费视频| 国产内射在线激情一区| 久久国产精品老人性| 亚洲女同系列在线观看| 777米奇色狠狠俺去啦| 国产日韩成人内射视频| 国产激情视频免费观看| 国产av综合网站不卡| 伊人久久久精品区aaa片| 91精品全国免费观看青青| 色偷偷亚洲精品一区二区| 久久久久九九精品影院| 亚洲精品国精品久久99热一| 91久国产在线观看| 国产精品熟女一区二区三区| 日本老熟妇乱| 人妻丰满熟妇AV无码片| 国产三级不卡在线观看视频| 亚洲国产成人一区二区精品区 | 蜜臀av色欲a片无码精品一区| 国产精品99久久免费| 日本一级淫片免费啪啪| 精品人妻少妇av中文字幕| 亚洲18色成人网站www| 免费视频成人 国产精品网站| 国产一区二区三区日韩在线观看|