印明昂, 王鈺爍, 孫志禮, 于云飛
(1. 東北大學(xué) 機(jī)械工程與自動化學(xué)院, 遼寧 沈陽 110819;2. 中車長春軌道客車股份有限公司, 吉林 長春 130062; 3. 中國航發(fā)沈陽發(fā)動機(jī)研究所, 遼寧 沈陽 110015)
以分類算法為基礎(chǔ)的“人工智能”正深刻影響著科研領(lǐng)域的每一方面.在此背景下,各項實驗中樣本數(shù)據(jù)的數(shù)量和維度呈現(xiàn)出“爆炸”增長的態(tài)勢.為適應(yīng)這種趨勢,近年,數(shù)值計算理論與優(yōu)化方法得到了長足發(fā)展.其中,一階優(yōu)化算法以其出眾的計算效率在數(shù)值優(yōu)化領(lǐng)域得到了廣泛的研究和應(yīng)用[1].Sashank等[2]指出自適應(yīng)步長加速算法Adam在收斂性上存在缺陷,并通過賦予歷史梯度的“長期記憶”提出AMSGrad算法,從理論上解決了收斂問題.Jun等[3]同樣從Adam的收斂問題出發(fā),通過一種基于歷史與當(dāng)前梯度的平方衰減構(gòu)建了一種有針對性的自適應(yīng)優(yōu)化算法.Ma等[4]在動量加速隨機(jī)梯度下降法的基礎(chǔ)上提出準(zhǔn)雙曲權(quán)重衰減的加速算法QHM,并找到一種通過改變超參數(shù)將該算法轉(zhuǎn)變?yōu)槠渌惴ǖ姆椒?Luo等[5]對比了隨機(jī)梯度下降法(SGD)與自適應(yīng)方法的泛化與收斂能力,通過使用動態(tài)的學(xué)習(xí)率變化界限提供了Adam和AMSGrad的一種新變種,分別稱為AdamBound和AMSBound,實現(xiàn)了從自適應(yīng)方法到SGD的漸進(jìn)平穩(wěn)過渡.
本文基于一種當(dāng)前梯度、預(yù)測梯度及歷史動量梯度三者結(jié)合的復(fù)合梯度,提出一種新型自適應(yīng)步長加速優(yōu)化算法,稱為復(fù)合梯度下降法(C-Adam),并通過尋找在文獻(xiàn)[6]中定義的遺憾(regret)上界,證明C-Adam算法的收斂性.最后對MNIST,Cifar-10常用測試數(shù)據(jù)集及45鋼靜拉伸破壞實驗的實驗數(shù)據(jù)通過多種算法建立Logistic回歸模型,對比驗證本文算法的性能表現(xiàn).
算法 1 復(fù)合梯度法C-Adam
輸入:超參數(shù):b1,b2;迭代步長η
初始化θ=0;(待求參數(shù))
初始化gt=0;(當(dāng)前梯度)
ut=0;(預(yù)測梯度)
mt=0;(動量一階矩)
vt=0;(動量二階矩)
初始化t=0;(迭代次數(shù))
當(dāng)θ不收斂或未達(dá)到最大迭代次數(shù)時,循環(huán):
t=t+1;
gt=▽θJ(θt-1);(取得參數(shù)當(dāng)前梯度)
θt=θt-1-η·gt;(梯度下降法更新參數(shù))
t=t+1;
ut=▽θJ(θt-1);(取得參數(shù)預(yù)測梯度)
mt=b1·mt-1+ (1-b1)·(gt+ut);(梯度復(fù)合)
vt=b2·vt-1+ (1-b2)·(gt+ut)2;
θt=θt-1-η·mt/(vt)1/2;(更新參數(shù))
循環(huán)結(jié)束
輸出:參數(shù)θt
算法1為復(fù)合梯度下降法的偽代碼描述.其中,θ表示所求問題的解;gt表示數(shù)據(jù)在當(dāng)前位置的梯度;ut表示利用梯度下降法更新θ后下一位置的梯度(如采用mini-batch策略在此次更新中不改變所選數(shù)據(jù)),稱為預(yù)測梯度;mt表示動量梯度,由歷史動量、當(dāng)前梯度及預(yù)測梯度三者復(fù)合而成;vt表示三種梯度二階矩的復(fù)合,用以自適應(yīng)控制迭代的步長;mt,vt的慣性衰減通過超參數(shù)b1,b2控制,通常b1=0.99,b2=0.999;t表示迭代次數(shù).
算法1與以往加速算法的區(qū)別在于將預(yù)測梯度與歷史動量區(qū)別開,通過一次真實的梯度更新找到下一步動量更精準(zhǔn)的下降方向.這一過程雖進(jìn)行了兩次迭代,但與其他算法的兩次迭代相比下降速度更快,結(jié)果更為精確.這一結(jié)論將在第二節(jié)數(shù)據(jù)測試部分得到驗證.
運(yùn)用文獻(xiàn)[6]中的收斂性分析方法對復(fù)合梯度法進(jìn)行收斂性證明.
首先觀察下式:
(1)
由算法1可知式(1)成立,將其進(jìn)一步展開,有
(2)
其中,〈,〉表示向量之間的內(nèi)積.根據(jù)算法1中mt的更新規(guī)則,有
(3)
(4)
根據(jù)柯西-許瓦茲不等式:2ab≤a2+b2,有
(5)
根據(jù)文獻(xiàn)[6]定義遺憾(regret)為
(6)
又由凸函數(shù)性質(zhì):
(7)
因此為尋找復(fù)合梯度法的遺憾上界,將式(5)和式(7)代入式(6),有
(8)
下面首先整理含有mt的項,
(9)
式(9)表示將求和的最后一項單獨(dú)處理,并寫成向量的分量形式.其中,d表示向量維度.由η=η/t1/2及mt,vt的更新形式,通過數(shù)學(xué)歸納法,式(9)可變形為
(10)
根據(jù)閔可夫斯基不等式
∑(ak·bk)2≤∑ak2·∑bk2
(11)
由于0 (12) (13) 由于每次迭代均可以放大為式(13)的最后一項,因此式(13)不等式的右側(cè)可繼續(xù)放大為 (14) 式(14)的最后一個等式由數(shù)學(xué)歸納法得出.通過觀察可知,式(14)中j的取值從t開始,因此j≥t.由此可繼續(xù)整理得 (15) 由等比數(shù)列求和公式及柯西-許瓦茲不等式,式(15)可放大為 (16) 式(16)可繼續(xù)放大為 (17) 將式(17)的結(jié)論代回式(8),整理得 (18) 根據(jù)vt的更新規(guī)則,有 另由假設(shè)θ的凸可行域F的半徑存在上界D∞,式(18)可變?yōu)?/p> (19) 最終可得復(fù)合梯度法的遺憾上界為 (20) 綜上,復(fù)合梯度下降法存在遺憾上界,因此該算法具有收斂性. 由美國郵政系統(tǒng)開發(fā)的MNIST數(shù)據(jù)集[7]是圖像識別的經(jīng)典數(shù)據(jù)集,共包含7萬張出自不同人的手寫0~9數(shù)字圖片.每張圖片均為28×28像素的黑白圖片,因此每組樣本由784維的數(shù)據(jù)和一個樣本標(biāo)簽組成. 利用MNIST數(shù)據(jù)集建立Logistic回歸模型.C-Adam算法超參數(shù)b1=0.99,b2=0.999;Adam,AMSGrad算法采用默認(rèn)設(shè)置;NAG算法的慣性系數(shù)選擇0.99;AdaDelta算法的權(quán)重衰減系數(shù)選擇0.01.所有算法的迭代步長均為0.001,mini-batch隨機(jī)數(shù)量選擇256,最大迭代次數(shù)設(shè)置為500.5種算法的訓(xùn)練損失及測試損失見圖1,圖2. Cifar-10數(shù)據(jù)集[8]共包含10個種類、6萬張像素為32×32的彩色圖像,每個像素點包括R,G,B三個數(shù)值,因此該數(shù)據(jù)集維度為32×32×3=3 072. 對Cifar-10數(shù)據(jù)集建立Logistic回歸模型.C-Adam算法超參數(shù)b1=0.99,b2=0.999;Adam,AMSGrad算法采用默認(rèn)設(shè)置;NAG算法的慣性系數(shù)選擇0.99;AdaDelta算法的權(quán)重衰減系數(shù)選擇0.01.所有算法的迭代步長均為0.001,mini-batch隨機(jī)數(shù)量選擇256,最大迭代次數(shù)設(shè)置為1 000.5種算法的訓(xùn)練損失及測試損失見圖3,圖4. 對45鋼試件進(jìn)行兩次靜拉伸破壞實驗,分別采集實驗過程中產(chǎn)生的聲發(fā)射信號數(shù)據(jù),并根據(jù)拉伸機(jī)信息劃分實驗階段,最終將兩組數(shù)據(jù)合并,建立Logistic回歸模型. 試件的樣式尺寸根據(jù)國標(biāo)GB/T6398—2000的有關(guān)內(nèi)容確定,具體尺寸見圖5.試件中部狹長型缺口為預(yù)制缺陷,通過兩圓孔與拉伸機(jī)連接.控制拉伸機(jī)加載速度恒定為0.033 mm/s,兩次實驗分別進(jìn)行511,673 s,分別測得聲發(fā)射信號27 081組和18 463組. 得到原始信號后首先根據(jù)文獻(xiàn)[9]所述方法進(jìn)行特征提取,獲得每組信號的30個特征參量;然后利用文獻(xiàn)[10]的降噪方法對所有特征進(jìn)行降噪處理,并將所得數(shù)據(jù)歸一化;最后繪制拉伸機(jī)的時間-力曲線,找到試件經(jīng)歷的不同狀態(tài),以此對數(shù)據(jù)進(jìn)行類別劃分.兩組實驗的階段劃分如圖6,圖7所示. 將兩次實驗數(shù)據(jù)合并,并建立Logistic回歸模型.其中,5種算法的超參數(shù)選擇與Cifar-10數(shù)據(jù)集實驗相同.訓(xùn)練損失與測試損失見圖8,圖9,模型的擬合正確率及驗證正確率見表1. 表1 模型擬合及驗證正確率Table 1 Model fitting and verification accuracy 1) 由三組訓(xùn)練損失圖可以看出,C-Adam在訓(xùn)練過程中的收斂速度明顯高于其他算法,且隨著迭代次數(shù)的增加損失值下降明顯,證明該算法具有快速收斂的特性. 2) 對于三組測試損失,C-Adam的收斂速度同樣優(yōu)于其他算法,且收斂于更小的損失水平,說明該算法具有良好的穩(wěn)定性. 3) 通過45鋼拉伸實驗數(shù)據(jù)的模型擬合結(jié)果可知,C-Adam的擬合正確率達(dá)到98.17%,驗證正確率達(dá)到97.86%,明顯高于其他算法,說明該算法可以提供更優(yōu)的解.2 案例分析
2.1 MNIST數(shù)據(jù)集
2.2 Cifar-10數(shù)據(jù)集
2.3 基于聲發(fā)射信號的靜拉伸破壞實驗
3 結(jié) 論