亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化的刪除垃圾神經(jīng)元策略*

        2022-08-31 03:36:10黃穎顧長(zhǎng)貴楊會(huì)杰
        物理學(xué)報(bào) 2022年16期
        關(guān)鍵詞:均值神經(jīng)元準(zhǔn)確率

        黃穎 顧長(zhǎng)貴 楊會(huì)杰

        (上海理工大學(xué)管理學(xué)院,上海 200093)

        隨著深度學(xué)習(xí)處理問(wèn)題的日益復(fù)雜,神經(jīng)網(wǎng)絡(luò)的層數(shù)、神經(jīng)元個(gè)數(shù)、和神經(jīng)元之間的連接逐漸增加,參數(shù)規(guī)模急劇膨脹,優(yōu)化超參數(shù)來(lái)提高神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能成為一個(gè)重要的任務(wù).文獻(xiàn)中尋找最優(yōu)參數(shù)的方法如靈敏度剪枝、網(wǎng)格搜索等,算法復(fù)雜而且計(jì)算量龐大.本文提出一種超參數(shù)優(yōu)化的“刪除垃圾神經(jīng)元策略”.權(quán)重矩陣中權(quán)重均值小的神經(jīng)元,在預(yù)測(cè)中的貢獻(xiàn)可以忽略,稱為垃圾神經(jīng)元.該策略就是通過(guò)刪除這些垃圾神經(jīng)元得到精簡(jiǎn)的網(wǎng)絡(luò)結(jié)構(gòu),來(lái)有效縮短計(jì)算時(shí)間,同時(shí)提高預(yù)測(cè)準(zhǔn)確率和模型泛化能力.采用這一策略,長(zhǎng)短期記憶網(wǎng)絡(luò)模型對(duì)幾種典型混沌動(dòng)力系統(tǒng)的預(yù)測(cè)性能得到顯著改善.

        1 引言

        深度學(xué)習(xí)被廣泛應(yīng)用于多學(xué)科領(lǐng)域,極大地提高了人們對(duì)復(fù)雜系統(tǒng)的認(rèn)識(shí).隨著應(yīng)用場(chǎng)景日益復(fù)雜,數(shù)據(jù)量和系統(tǒng)特征量增多,網(wǎng)絡(luò)規(guī)模(層數(shù)、神經(jīng)元個(gè)數(shù)和神經(jīng)元之間的連接)日益膨脹,算法復(fù)雜度和計(jì)算量也因此在指數(shù)增長(zhǎng),通常用月或年來(lái)計(jì)算.而大規(guī)模的參數(shù),也意味著過(guò)擬合問(wèn)題,從而降低習(xí)得的模型的泛化能力.超參數(shù)優(yōu)化,也就是通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),得到一個(gè)精簡(jiǎn)的網(wǎng)絡(luò)結(jié)構(gòu),在計(jì)算時(shí)間可接受的條件下,顯著提高預(yù)測(cè)水平,達(dá)到性能最優(yōu),成為當(dāng)前人工智能領(lǐng)域一個(gè)基本而迫切需要解決的任務(wù).

        目前網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化大致分為兩種類型.一是基于相關(guān)參數(shù)和評(píng)價(jià)指標(biāo)的變化情況直觀調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),如擬合精度等指標(biāo)的網(wǎng)格搜索法.這類方法理論上要遍歷所有參數(shù),耗時(shí)巨多,遠(yuǎn)超當(dāng)前計(jì)算能力.實(shí)際中往往按照一定比例枚舉參數(shù)取值,這又極易跳過(guò)最佳參數(shù).二是基于一些高效的優(yōu)化算法,如貝葉斯優(yōu)化[1]、靈敏度和相關(guān)性剪枝相結(jié)[2,3]、學(xué)習(xí)率優(yōu)化[4]、徑向基函數(shù)優(yōu)化[5]、多核極端學(xué)習(xí)機(jī)[6]、注意力機(jī)制引進(jìn)[7]、擴(kuò)展儲(chǔ)量計(jì)算分化神經(jīng)元[8]以及一些自適應(yīng)算法[9]等,來(lái)提升訓(xùn)練效率.在廣泛采用的靈敏度剪枝中,輪流刪除節(jié)點(diǎn)操作意味著龐大的計(jì)算量.為避免大計(jì)算量而采用的工程近似方法,易導(dǎo)致節(jié)點(diǎn)誤刪除[10].

        本文提出神經(jīng)網(wǎng)絡(luò)超參數(shù)優(yōu)化的“刪除垃圾神經(jīng)元策略”.這一策略依據(jù)的一個(gè)簡(jiǎn)單事實(shí)是,神經(jīng)元在時(shí)間序列預(yù)測(cè)中貢獻(xiàn)是不一樣的.給定一個(gè)初始的網(wǎng)絡(luò)結(jié)構(gòu),并對(duì)它進(jìn)行訓(xùn)練,在權(quán)重矩陣中權(quán)重平均值小的神經(jīng)元,在預(yù)測(cè)中的貢獻(xiàn)可忽略不計(jì),稱為垃圾神經(jīng)元.從這一原始的神經(jīng)網(wǎng)絡(luò)中刪除這些垃圾神經(jīng)元,簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu),來(lái)達(dá)到減小計(jì)算量、提高預(yù)測(cè)能力、增強(qiáng)泛化的目的.采用這一策略對(duì)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了優(yōu)化.LSTM 模型[11]作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的改進(jìn),既能記住短期信息,又能記住長(zhǎng)期信息,克服了RNN 模型在時(shí)間跨度過(guò)長(zhǎng)時(shí)容易存在梯度爆炸或梯度消失的問(wèn)題,被廣泛應(yīng)用于時(shí)間序列分析,如自然語(yǔ)言處理(NLP)、語(yǔ)音識(shí)別、金融數(shù)據(jù)預(yù)測(cè)等.對(duì)Logistic,Henon,Rossler 三種典型混沌系統(tǒng)的預(yù)測(cè)表明,這一策略可以有效改善LSTM的預(yù)測(cè)性能.

        2 長(zhǎng)短期記憶模型

        如圖1(a)所示[12],LSTM 網(wǎng)絡(luò)包含輸入層、隱藏層和輸出層,每一層由多個(gè)單元組成.在隱藏層的每個(gè)單元加入記憶細(xì)胞,并通過(guò)輸入門、遺忘門和輸出門來(lái)控制狀態(tài).

        圖1 LSTM 神經(jīng)網(wǎng)絡(luò) (a)LSTM 模型網(wǎng)絡(luò)結(jié)構(gòu);(b)單元內(nèi)部運(yùn)行邏輯Fig.1.LSTM neural network: (a)network structure of LSTM;(b)run logic inside the cell.

        其中,⊙為向量元素相乘.

        ft控制ct-1到當(dāng)前時(shí)間步的信息流動(dòng),it控制到當(dāng)前時(shí)間步的信息流動(dòng),ot控制當(dāng)前時(shí)間步的ct到ht的信息流動(dòng).如當(dāng)ft接近1 且it接近0 時(shí),過(guò)去的記憶細(xì)胞信息將會(huì)一直保留,可更好地捕捉時(shí)間序列中時(shí)間步較大的樣本間的依賴關(guān)系.當(dāng)ot接近1 時(shí),ct的信息將傳遞至ht供輸出層使用;當(dāng)ot接近0 時(shí),ct的信息將自己保留.

        3 刪除垃圾神經(jīng)元策略

        作為實(shí)例,我們考察了LSTM 對(duì)混沌系統(tǒng)預(yù)測(cè)的能力.采用刪除垃圾神經(jīng)元策略,簡(jiǎn)化了隱藏層結(jié)構(gòu),顯著提高了預(yù)測(cè)能力.刪除垃圾神經(jīng)元策略的具體操作步驟如下.

        1)搭建含有兩層LSTM和兩層全連接層的模型,用網(wǎng)格搜索法尋找最佳參數(shù)的大致取值范圍.由于模型中參數(shù)眾多,若以等差為1 的序列遍歷,模型訓(xùn)練耗時(shí)將長(zhǎng)達(dá)數(shù)年,因此以等比序列 2n或其他步長(zhǎng)遍歷參數(shù).

        2)由于初始權(quán)重隨機(jī)生成,單次訓(xùn)練結(jié)果沒(méi)有統(tǒng)計(jì)意義,本文滑動(dòng)讀取樣本分別進(jìn)行多次訓(xùn)練,并計(jì)算各組參數(shù)的預(yù)測(cè)準(zhǔn)確率(預(yù)測(cè)值的漲跌趨勢(shì)和真實(shí)值漲跌趨勢(shì)相同的樣本量占總預(yù)測(cè)樣本量的比值)、R方值、MSE 等評(píng)價(jià)指標(biāo)的平均值并輸出.根據(jù)準(zhǔn)確率和R方值最高、MSE 最低、神經(jīng)元數(shù)最少的原則,初步選取最佳參數(shù)組合,包括各層神經(jīng)元數(shù)、迭代次數(shù)、batch、dropout 等.

        3)用初步選取的最佳參數(shù)組合訓(xùn)練模型并輸出網(wǎng)絡(luò)權(quán)重,分析各組權(quán)重代表的意義,明確垃圾神經(jīng)元.刪除垃圾神經(jīng)元得到簡(jiǎn)潔的網(wǎng)絡(luò)結(jié)構(gòu),比較模型效果.

        4)以不同的權(quán)重閾值為界,定義垃圾神經(jīng)元,盡量使每組閾值刪除的神經(jīng)元數(shù)分布均勻;比較精簡(jiǎn)網(wǎng)絡(luò)后的預(yù)測(cè)效果,找到能最大程度提升模型性能的閾值.

        4 計(jì)算實(shí)驗(yàn)

        具體考察Logistic[13],Henon[14]和Rossler[15]三個(gè)典型混沌系統(tǒng)的LSTM 預(yù)測(cè).Takens 嵌入定理指出,混沌系統(tǒng)的每一維度變量都包含整個(gè)系統(tǒng)的長(zhǎng)期演化信息[16].因此,我們從每個(gè)系統(tǒng)的動(dòng)力學(xué)軌跡中,只抽取一維數(shù)據(jù)作為樣本,以使得各系統(tǒng)實(shí)驗(yàn)結(jié)果之間具有可比性.

        4.1 數(shù)據(jù)處理

        Logistic 模型也稱蟲(chóng)口模型,其差分方程表示為

        隨著參數(shù)μ的增加,系統(tǒng)發(fā)生倍周期分叉,當(dāng)μ∈[3.569,4],系統(tǒng)出現(xiàn)混沌現(xiàn)象.由于Logistic 系統(tǒng)隨著參數(shù)取值不同,混沌程度也不同,因此μ分別取3.6,3.7,3.8,3.9,3.99 生成樣本量為50000 的一維時(shí)間序列數(shù)據(jù).圖2(a)給出的是μ取3.9 時(shí)的軌跡.

        Henon 映射的迭代表達(dá)式為

        其 中a=1.4,b=0.3.x和y初始值取 為0.01 生成樣本量為50000 的時(shí)間序列數(shù)據(jù).圖2(b)中橫軸表示系統(tǒng)的迭代次數(shù),圖像給出迭代前100 次得到的x,y值構(gòu)成的軌跡.

        Rossler 系統(tǒng)是一連續(xù)混沌動(dòng)力系統(tǒng),其微分方程組為

        其中參數(shù)a取0.2,b取0.4,c取5.7.以xyz0為初始值,采用四階Runge-Kutta 方法[17],以0.001為步長(zhǎng)模擬出t∈[0,500] 的運(yùn)動(dòng)軌跡,圖2(c)給出前10000 個(gè)時(shí)間點(diǎn)的軌跡.為使樣本量同另外兩個(gè)系統(tǒng)一致從而結(jié)果具有可比性,本文再以10 為抽樣步長(zhǎng)得到50000 條數(shù)據(jù)作為樣本.

        圖2 混沌時(shí)間序列 (a)Logistic 系統(tǒng),μ=3.9;(b)Henon系統(tǒng);(c)Rossler 系統(tǒng)Fig.2.Chaotic time series: (a)Logistic system,μ=3.9;(b)Henon system;(c)Rossler system.

        對(duì)數(shù)據(jù)進(jìn)行歸一化處理.三個(gè)系統(tǒng)的訓(xùn)練集樣本量均取為5000.由于LSTM 模型預(yù)測(cè)較長(zhǎng)時(shí)間后的數(shù)據(jù)意義不大,因此選取測(cè)試集樣本量為15.為使實(shí)驗(yàn)結(jié)果具有統(tǒng)計(jì)意義,以一定步長(zhǎng)滑動(dòng)選取樣本進(jìn)行多次實(shí)驗(yàn).本文分別以100,200,300,···,4000 作為滑動(dòng)窗口訓(xùn)練10 次模型,取10 次預(yù)測(cè)準(zhǔn)確率的均值為最終結(jié)果,發(fā)現(xiàn)不同滑動(dòng)窗口對(duì)應(yīng)的平均預(yù)測(cè)準(zhǔn)確率在70%附近上下波動(dòng),可見(jiàn)滑動(dòng)窗口大小對(duì)預(yù)測(cè)結(jié)果沒(méi)有顯著影響.為充分利用并均勻覆蓋已有樣本,選取4000 為滑動(dòng)窗口進(jìn)行預(yù)測(cè),如第一批樣本以1—5000 條數(shù)據(jù)作為訓(xùn)練集,5001—5015 條數(shù)據(jù)作為測(cè)試集;第二批樣本以4000—9000 條數(shù)據(jù)作為訓(xùn)練集,9001—9015 條數(shù)據(jù)作為測(cè)試集;以此類推,共訓(xùn)練10 批樣本(最后一批樣本以40000—45000 條數(shù)據(jù)作為訓(xùn)練集,45001—45015 條數(shù)據(jù)作為測(cè)試集).最終以10 次預(yù)測(cè)評(píng)價(jià)指標(biāo)的均值作為模型最終的評(píng)價(jià)指標(biāo).

        4.2 LSTM 模型建立

        三個(gè)系統(tǒng)初步選取的最佳參數(shù)組合如表1 所列.其中,train 為訓(xùn)練集樣本量;test 為測(cè)試集樣本量;win 為滑動(dòng)窗口數(shù),表示每次觀測(cè)到的樣本數(shù),如win 為3 表示第一批輸入模型的樣本為x1,x2,x3,下一批為x2,x3,x4,以此類推;L1為第一層LSTM 輸出神經(jīng)元數(shù);L2為第二層LSTM 輸出神經(jīng)元數(shù);D1為第一層全連接層輸出神經(jīng)元數(shù);D2為第二層全連接層輸出神經(jīng)元數(shù),即最終輸出.

        表1 模型參數(shù)及結(jié)果Table 1.Parameters and results of the models.

        在多數(shù)模型中,以較為常見(jiàn)的步長(zhǎng)2n進(jìn)行網(wǎng)格搜索得到的預(yù)測(cè)準(zhǔn)確率是相對(duì)較高的,第一層網(wǎng)絡(luò)的最優(yōu)參數(shù)基本穩(wěn)定在16 個(gè)神經(jīng)元,對(duì)于訓(xùn)練集樣本數(shù)為5000 的數(shù)量級(jí)來(lái)說(shuō)是足夠的,更復(fù)雜的網(wǎng)絡(luò)容易造成過(guò)擬合;當(dāng)然也有部分模型以2n為步長(zhǎng)網(wǎng)格搜索時(shí)未能得到不錯(cuò)的預(yù)測(cè)效果,文中也會(huì)視情況選擇其他步長(zhǎng),如μ3.8 的Logistic 模型,以10 為步長(zhǎng)進(jìn)行網(wǎng)格搜索可得到更好的預(yù)測(cè)效果,此時(shí)便在網(wǎng)格搜索最優(yōu)參數(shù)為20 的基礎(chǔ)上進(jìn)一步優(yōu)化超參數(shù).

        4.3 權(quán)重分析

        全連接層的權(quán)重較為簡(jiǎn)單,在此不做分析.LSTM 層的權(quán)重包含三個(gè)張量: kernel,recurrent_kernel和bias,每個(gè)張量的維數(shù)為4×神經(jīng)元數(shù),依次為input_gate,forget_gate,cell和output_gate,權(quán)重拆分如表2 所列.

        表2 權(quán)重結(jié)構(gòu)拆分Table 2.Weight structure resolution.

        根據(jù)(1a)式—(1d)式可知,output_gate 權(quán)重直接關(guān)系到神經(jīng)元的最終輸出結(jié)果,因此對(duì)該權(quán)重做熱度圖以便于分析.以Logistic 系統(tǒng)中μ3.99為例,LSTM 輸出層神經(jīng)元數(shù)為16,輸出門對(duì)應(yīng)的權(quán)重矩陣維數(shù)為16×16.如表3 所列,第一行權(quán)重表示隱藏層輸入的16 個(gè)神經(jīng)元對(duì)輸出的第一個(gè)神經(jīng)元影響大小,第一列則表示隱藏層輸入的第一個(gè)神經(jīng)元對(duì)輸出的16 個(gè)神經(jīng)元的影響大小,均值行為每個(gè)輸入神經(jīng)元對(duì)所有輸出神經(jīng)元的權(quán)重絕對(duì)值的平均值,均值越小的神經(jīng)元可以理解為對(duì)整個(gè)輸出層的影響越小.

        在python 中用imshow 函數(shù)繪制出該權(quán)重矩陣對(duì)應(yīng)的熱圖.首先對(duì)表3 中每一行的權(quán)重?cái)?shù)據(jù)分別進(jìn)行歸一化,便于分析隱藏層輸入神經(jīng)元對(duì)各個(gè)輸出神經(jīng)元的影響大小;接著繪制熱圖,顏色越黃權(quán)重越高,顏色越藍(lán)權(quán)重越低.為了更直觀地體現(xiàn)各輸入神經(jīng)元的重要性,進(jìn)一步繪制如圖3和圖4所示的熱圖.同樣地,顏色越黃權(quán)重均值越高,表示該輸入神經(jīng)元給整個(gè)輸出層提供的信息越多;顏色越藍(lán)權(quán)重均值越低,表示該輸入神經(jīng)元給整個(gè)輸出層提供的信息越少,均值足夠低的輸入神經(jīng)元即可作為垃圾神經(jīng)元?jiǎng)h除.

        圖3 隱藏層輸入神經(jīng)元對(duì)輸出神經(jīng)元的權(quán)重?zé)釄DFig.3.Heat map of weight of input neuron to output neuron in hidden layer.

        表3 輸出門權(quán)重矩陣圖Table 3.Heat diagram of output door’s weights.

        圖4 隱藏層各輸入神經(jīng)元對(duì)輸出神經(jīng)元的權(quán)重均值熱圖Fig.4.Heat map of weights’ mean value of input neurons to output neurons in hidden layer.

        輸出神經(jīng)元的計(jì)算公式

        在以 2n為參數(shù)序列進(jìn)行網(wǎng)格搜索[18-20]時(shí),與16 個(gè)相鄰的神經(jīng)元參數(shù)為8,在該參數(shù)區(qū)間內(nèi),以不同閾值刪減神經(jīng)元并觀察模型預(yù)測(cè)結(jié)果變化.圖5 為16 個(gè)輸入神經(jīng)元的權(quán)重均值折線圖,如w11列的權(quán)重均值在均值行中的顏色最淺,則該神經(jīng)元對(duì)輸出值的影響最小,w15 列的權(quán)重均值在均值行中的顏色最深,則該神經(jīng)元對(duì)輸出值的影響最大.

        圖5 權(quán)重均值折線圖Fig.5.Line graph of the weights’ mean.

        表4 給出以權(quán)重均值低于0.09,0.1和0.11 為閾值刪除垃圾神經(jīng)元以及神經(jīng)元數(shù)調(diào)整前后的預(yù)測(cè)準(zhǔn)確率,通過(guò)迷你趨勢(shì)圖觀察以不同閾值刪除垃圾神經(jīng)元對(duì)模型預(yù)測(cè)性能的影響.通過(guò)網(wǎng)格搜索得到神經(jīng)元數(shù)為16 時(shí)模型預(yù)測(cè)準(zhǔn)確率為57.1%;權(quán)重均值低于0.09 的神經(jīng)元有1 個(gè),刪除后神經(jīng)元數(shù)降為15,預(yù)測(cè)準(zhǔn)確率為59.3%,比初始結(jié)果提升2.2 個(gè)百分點(diǎn);權(quán)重均值低于0.1 的神經(jīng)元有4 個(gè),刪除后神經(jīng)元數(shù)降為12,預(yù)測(cè)準(zhǔn)確率為56.4%,比初始結(jié)果降低0.7 個(gè)百分點(diǎn);權(quán)重均值低于0.11 的神經(jīng)元有6 個(gè),刪除后神經(jīng)元數(shù)降為10,預(yù)測(cè)準(zhǔn)確率為51.4%,與初始降低5.7 個(gè)百分點(diǎn).從預(yù)測(cè)準(zhǔn)確率的迷你趨勢(shì)圖來(lái)看,刪除1 個(gè)權(quán)重均值低于0.09 的垃圾神經(jīng)元可提升預(yù)測(cè)效果,減少了部分過(guò)擬合;隨著刪減數(shù)目的增多,模型欠擬合,預(yù)測(cè)準(zhǔn)確率逐漸低于原始水平.因此,基于權(quán)重分析適當(dāng)刪減垃圾神經(jīng)元的方法能有效提升模型性能.

        表4 μ=3.99 時(shí)不同參數(shù)的預(yù)測(cè)準(zhǔn)確率Table 4.The prediction accuracy of different parameters when μ=3.99.

        5 結(jié)果分析

        三個(gè)系統(tǒng)在不同參數(shù)取值下,以相同策略選取刪減垃圾神經(jīng)元的權(quán)重閾值以提升最終的預(yù)測(cè)準(zhǔn)確率;刪除垃圾神經(jīng)元的數(shù)量及調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)前后的預(yù)測(cè)準(zhǔn)確率具體結(jié)果如表5 所列.

        表5 神經(jīng)元數(shù)及預(yù)測(cè)準(zhǔn)確率變化表Table 5.Table of neuron numbers and prediction accuracy.

        在Logistic 系統(tǒng)中,μ3.6 時(shí)的結(jié)果如表6 所列,網(wǎng)格搜索得到神經(jīng)元數(shù)為16,模型預(yù)測(cè)準(zhǔn)確率為82.9%.為使神經(jīng)元數(shù)位于區(qū)間(8,16)中,分別以權(quán)重均值低于0.08,0.09,0.095 為閾值刪減神經(jīng)元并觀察模型效果.刪除權(quán)重均值低于0.08 的1 個(gè)神經(jīng)元,預(yù)測(cè)準(zhǔn)確率為90.7%,比初始預(yù)測(cè)結(jié)果提升7.8%;刪除權(quán)重均值低于0.09 的4 個(gè)神經(jīng)元,預(yù)測(cè)準(zhǔn)確率為87.9%,比初始結(jié)果提升5%;刪除權(quán)重均值低于0.095 的6 個(gè)神經(jīng)元,預(yù)測(cè)準(zhǔn)確率為78.6%,比初始結(jié)果降低4.3%,效果更差.從迷你趨勢(shì)圖來(lái)看,刪除1 個(gè)權(quán)重均值在0.08 以下的垃圾神經(jīng)元可最大程度提升預(yù)測(cè)效果;隨著刪減數(shù)目增多,運(yùn)行成本持續(xù)降低,預(yù)測(cè)準(zhǔn)確率逐漸回落,直至模型欠擬合使預(yù)測(cè)效果低于原始水平.

        表6 μ=3.6 時(shí)不同參數(shù)的預(yù)測(cè)準(zhǔn)確率Table 6.The prediction accuracy of different parameters when μ=3.6.

        μ3.7 時(shí)的結(jié)果如表7 所列,網(wǎng)格搜索得到神經(jīng)元數(shù)為16,模型預(yù)測(cè)準(zhǔn)確率為70.7%.為使神經(jīng)元數(shù)位于區(qū)間(8,16)中,分別以權(quán)重均值低于0.075,0.09,0.105 為閾值刪減神經(jīng)元并觀察模型效果.刪除權(quán)重均值低于0.08 的3 個(gè)神經(jīng)元,預(yù)測(cè)準(zhǔn)確率為71.4%,比初始預(yù)測(cè)結(jié)果提升0.7%;刪除權(quán)重均值低于0.095 的5 個(gè)神經(jīng)元,準(zhǔn)確率為65%,比初始結(jié)果降低5.7%;刪除權(quán)重均值低于0.105 的7 個(gè)神經(jīng)元,預(yù)測(cè)準(zhǔn)確率為60.7%,比初始結(jié)果降低10%,效果更差.從迷你趨勢(shì)圖來(lái)看,刪除3 個(gè)權(quán)重均值在0.075 以下的垃圾神經(jīng)元可最大程度提升預(yù)測(cè)效果;隨著刪減數(shù)目的增多,模型欠擬合導(dǎo)致預(yù)測(cè)效果愈發(fā)低于原始水平.

        表7 μ=3.7 時(shí)不同參數(shù)的預(yù)測(cè)準(zhǔn)確率Table 7.The prediction accuracy of different parameters when μ=3.7.

        μ3.8 時(shí)的結(jié)果如表8 所列,網(wǎng)格搜索得到神經(jīng)元數(shù)為20,模型預(yù)測(cè)準(zhǔn)確率為68.6%.為使神經(jīng)元數(shù)位于區(qū)間(10,20)中,分別以權(quán)重均值低于0.08,0.09,0.1 為閾值刪減神經(jīng)元并觀察模型效果.刪除權(quán)重均值低于0.08 的2 個(gè)神經(jīng)元和權(quán)重均值低于0.095 的5 個(gè)神經(jīng)元,預(yù)測(cè)準(zhǔn)確率均為68.6%,均與初始結(jié)果持平,但刪減數(shù)量越多,運(yùn)行成本會(huì)相對(duì)越低;權(quán)重均值低于0.105 的神經(jīng)元有8 個(gè),刪除后神經(jīng)元數(shù)降為12,預(yù)測(cè)準(zhǔn)確率為65%,比初始結(jié)果降低3.6%.從迷你趨勢(shì)圖來(lái)看,刪除4 個(gè)權(quán)重均值在0.09 以下的垃圾神經(jīng)元可在預(yù)測(cè)準(zhǔn)確率不降低的前提下節(jié)省最多的運(yùn)行成本;繼續(xù)刪減便會(huì)導(dǎo)致模型欠擬合,使得預(yù)測(cè)效果低于原始水平.

        表8 μ=3.8 時(shí)不同參數(shù)的預(yù)測(cè)準(zhǔn)確率Table 8.The prediction accuracy of different parameters when μ=3.8.

        μ3.9 時(shí)的結(jié)果如表9 所列,網(wǎng)格搜索得到神經(jīng)元數(shù)為16,模型預(yù)測(cè)準(zhǔn)確率為60%.為使神經(jīng)元數(shù)位于區(qū)間(8,16)中,分別以權(quán)重均值低于0.09,0.095,0.1 為閾值刪減神經(jīng)元并觀察模型效果.刪除權(quán)重均值低于0.09 的2 個(gè)神經(jīng)元和權(quán)重均值低于0.095 的4 個(gè)神經(jīng)元,預(yù)測(cè)準(zhǔn)確率均為60%,均與初始結(jié)果持平,但刪減數(shù)量越多,運(yùn)行成本會(huì)相對(duì)越低;權(quán)重均值低于0.105 的神經(jīng)元有6 個(gè),刪除后神經(jīng)元數(shù)降為10,預(yù)測(cè)準(zhǔn)確率為55%,比初始結(jié)果降低5%.從迷你趨勢(shì)圖來(lái)看,刪除4 個(gè)權(quán)重均值在0.095 以下的垃圾神經(jīng)元可在預(yù)測(cè)準(zhǔn)確率不降低的前提下節(jié)省最多的運(yùn)行成本;繼續(xù)刪減便會(huì)導(dǎo)致模型欠擬合,使得預(yù)測(cè)效果低于原始水平.

        表9 μ=3.9 時(shí)不同參數(shù)的預(yù)測(cè)準(zhǔn)確率Table 9.The prediction accuracy of different parameters when μ=3.9.

        圖6 給出參數(shù)μ分別取值3.6,3.7,3.8,3.9,3.99 時(shí)選擇最優(yōu)權(quán)重閾值的變化.μ值越小混沌程度越弱,μ值越大混沌程度越強(qiáng),可見(jiàn)隨著混沌程度的提升,最優(yōu)權(quán)重閾值整體呈上升趨勢(shì);系統(tǒng)越混沌,需要保留的神經(jīng)元權(quán)重越高.圖7 給出參數(shù)μ分別取值3.6,3.7,3.8,3.9,3.99 時(shí)優(yōu)化超參數(shù)前后的模型預(yù)測(cè)準(zhǔn)確率變化.由于參數(shù)越大,模型的混沌程度越高,當(dāng)μ接近4 時(shí),x取值越近似于在0—1 之間隨機(jī)分布,預(yù)測(cè)難度更大.因此整體來(lái)看,無(wú)論超參數(shù)調(diào)整前還是調(diào)整后的預(yù)測(cè)準(zhǔn)確率都呈下降趨勢(shì);從調(diào)整超參數(shù)前后的預(yù)測(cè)準(zhǔn)確率變化幅度來(lái)看,剔除垃圾神經(jīng)元對(duì)模型性能的提升效果是逐步降低的.但最差的效果也就是預(yù)測(cè)準(zhǔn)確率與原先持平,而運(yùn)行成本卻大大降低了,說(shuō)明該方法可準(zhǔn)確定位到對(duì)模型預(yù)測(cè)沒(méi)有貢獻(xiàn)的垃圾神經(jīng)元,在不影響訓(xùn)練效果的情況下,最大程度降低模型運(yùn)行負(fù)擔(dān)、提升模型性能,這在參數(shù)眾多、耗時(shí)較長(zhǎng)的深度學(xué)習(xí)模型訓(xùn)練中是有重要意義的.

        圖6 不同混沌狀態(tài)對(duì)應(yīng)的最優(yōu)權(quán)重閾值變化Fig.6.The change of optimal weight threshold corresponding to different chaotic states.

        圖7 不同混沌狀態(tài)對(duì)應(yīng)的預(yù)測(cè)準(zhǔn)確率變化Fig.7.The change of prediction accuracy of different chaotic states.

        為了進(jìn)一步說(shuō)明該方法的可行性,本文用Henon 系統(tǒng)和Rossler 系統(tǒng)的一維獨(dú)立變量分別再次進(jìn)行實(shí)證研究,結(jié)果如表10和表11 所列.

        表11 Rossler 系統(tǒng)取不同參數(shù)的預(yù)測(cè)準(zhǔn)確率Table 11.Prediction accuracy of Rossler system for different parameters.

        在Henon 系統(tǒng)一維獨(dú)立數(shù)據(jù)模型中,網(wǎng)格搜索得到神經(jīng)元數(shù)為22,模型預(yù)測(cè)準(zhǔn)確率為67.1%.為使神經(jīng)元數(shù)位于區(qū)間(14,22)中,分別以權(quán)重均值低于0.1,0.11,0.12,0.14 為閾值刪減神經(jīng)元并觀察模型效果.如表10 所列,刪除權(quán)重均值低于0.1 的1 個(gè)神經(jīng)元后,預(yù)測(cè)準(zhǔn)確率為70%,比初始結(jié)果提升2.9%;刪除權(quán)重均值低于0.11 的3 個(gè)神經(jīng)元后,預(yù)測(cè)準(zhǔn)確率為66.4%,比初始結(jié)果降低0.7%;刪除權(quán)重均值低于0.12 的6 個(gè)神經(jīng)元后,預(yù)測(cè)準(zhǔn)確率為65.7%,比初始結(jié)果降低1.4%;刪除權(quán)重均值低于0.14 的8 個(gè)神經(jīng)元后,預(yù)測(cè)準(zhǔn)確率為65%,比初始結(jié)果降低2.1%.從迷你趨勢(shì)圖來(lái)看,刪除1 個(gè)權(quán)重均值在0.1 以下的垃圾神經(jīng)元可最大程度提升預(yù)測(cè)效果;更多的刪減則導(dǎo)致模型欠擬合,預(yù)測(cè)效果越來(lái)越差.

        表10 Henon 系統(tǒng)取不同參數(shù)的預(yù)測(cè)準(zhǔn)確率Table 10.Prediction accuracy of Henon system for different parameters.

        在Rossler 系統(tǒng)一維獨(dú)立數(shù)據(jù)模型中,網(wǎng)格搜索得到神經(jīng)元數(shù)為16,模型預(yù)測(cè)準(zhǔn)確率為77.1%.為使神經(jīng)元數(shù)位于區(qū)間(8,16)中,分別以權(quán)重均值低于0.085,0.095,0.105,0.115 為閾值刪減神經(jīng)元并觀察模型效果.如表11 所列,刪除權(quán)重均值低于0.085 的2 個(gè)神經(jīng)元后,預(yù)測(cè)準(zhǔn)確率為83.6%,比初始結(jié)果提升6.5%;刪除權(quán)重均值低于0.095的4 個(gè)神經(jīng)元后,預(yù)測(cè)準(zhǔn)確率為81.4%,比初始結(jié)果提升4.3%;刪除權(quán)重均值低于0.105 的5 個(gè)神經(jīng)元后,預(yù)測(cè)準(zhǔn)確率為80.7%,比初始結(jié)果提升3.6%;刪除權(quán)重均值低于0.115 的8 個(gè)神經(jīng)元后,預(yù)測(cè)準(zhǔn)確率為71.4%,比初始結(jié)果降低5.7%.從迷你趨勢(shì)圖來(lái)看,刪除1 個(gè)權(quán)重均值在0.085 以下的垃圾神經(jīng)元預(yù)測(cè)效果最好;以低于0.095和0.105 為閾值刪減神經(jīng)元帶來(lái)的預(yù)測(cè)準(zhǔn)確率提升相對(duì)前者越來(lái)越低,但仍然高于初始水平,且運(yùn)行成本越來(lái)越低;繼續(xù)刪減更多的神經(jīng)元,模型欠擬合導(dǎo)致預(yù)測(cè)效果越來(lái)越差,低于初始水平.

        以上所有模型均采用滑動(dòng)選取樣本的方法,進(jìn)行了10 次以上的訓(xùn)練并對(duì)最終的評(píng)價(jià)指標(biāo)取平均值,故結(jié)果具有統(tǒng)計(jì)意義,并非偶然現(xiàn)象.觀察這些系統(tǒng)在刪減不同閾值下垃圾神經(jīng)元時(shí)的預(yù)測(cè)效果變化,發(fā)現(xiàn)大多情況下,使預(yù)測(cè)效果提升最大的閾值不超過(guò)0.1,即通常將權(quán)重均值不超過(guò)0.1(甚至更低)的神經(jīng)元視為垃圾神經(jīng)元并刪除可較大提升模型性能.通過(guò)多次實(shí)驗(yàn),充分證明所提方法的可行性與有效性.

        6 結(jié)論與展望

        針對(duì)現(xiàn)有的超參數(shù)優(yōu)化方法存在的過(guò)擬合、計(jì)算量龐大等問(wèn)題,本文提出了通過(guò)分析權(quán)重含義定位冗余神經(jīng)元,從而快速高效地精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu)、降低運(yùn)行成本、提升訓(xùn)練效果的方法.

        由于深度學(xué)習(xí)模型參數(shù)眾多,挨個(gè)遍歷所有參數(shù)動(dòng)輒耗時(shí)長(zhǎng)達(dá)數(shù)年,運(yùn)行成本極高;否則又會(huì)躍過(guò)最佳參數(shù),達(dá)不到最好的訓(xùn)練效果,即使達(dá)到最好的訓(xùn)練效果,也可能因?yàn)槟P徒Y(jié)構(gòu)不夠精簡(jiǎn)而導(dǎo)致過(guò)擬合,冗余神經(jīng)元也會(huì)大大降低運(yùn)行效率.通過(guò)Logistic 模型、Henon 模型、Rossler 模型的實(shí)證分析,證明此方法可大大提高尋找最優(yōu)參數(shù)的效率,減少模型中冗余的神經(jīng)元,從而避免過(guò)擬合、提高泛化能力.在模型預(yù)測(cè)準(zhǔn)確率不受影響的前提下,有效縮短計(jì)算時(shí)間,提高運(yùn)行效率,甚至可以通過(guò)減少過(guò)擬合使準(zhǔn)確率得到提升.

        混沌時(shí)間序列為看似無(wú)序的有序系統(tǒng),以此進(jìn)行實(shí)證研究可證明方法本身的有效性.但在實(shí)際數(shù)據(jù)中往往存在許多白噪聲,因此,如何降噪并有效應(yīng)用于實(shí)際數(shù)據(jù)成為我們下一步繼續(xù)研究的問(wèn)題.

        猜你喜歡
        均值神經(jīng)元準(zhǔn)確率
        《從光子到神經(jīng)元》書評(píng)
        自然雜志(2021年6期)2021-12-23 08:24:46
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
        均值不等式失效時(shí)的解決方法
        均值與方差在生活中的應(yīng)用
        基于二次型單神經(jīng)元PID的MPPT控制
        毫米波導(dǎo)引頭預(yù)定回路改進(jìn)單神經(jīng)元控制
        欧美黑人疯狂性受xxxxx喷水 | 潮喷失禁大喷水aⅴ无码| 人妻av无码系列一区二区三区| 精品五月天| 国产美女高潮流白浆免费观看| 亚洲av香蕉一区二区三区av| 亚洲日韩av无码一区二区三区人| 亚洲av色先锋资源电影网站 | 日本加勒比一区二区在线观看| 99久久婷婷国产亚洲终合精品| 亚瑟国产精品久久| 色欲av一区二区久久精品| 国产大学生自拍三级视频| 性色视频加勒比在线观看| 曰韩无码二三区中文字幕| 精品国产18禁久久久久久久| 亚洲国内精品一区二区在线| 99国产精品久久99久久久| 男人添女人下部高潮全视频| 中文字幕avdvd| 伊人五月亚洲综合在线| 丰满少妇人妻久久久久久| 国产精品久久久久久妇女6080| 久久久精品中文无码字幕| 一区二区三区视频亚洲| 国产va免费精品高清在线观看| 爽妇网国产精品| 亚洲精品中文字幕乱码人妻| 国产精品亚洲av无人区一区香蕉| 天堂…在线最新版资源| 国产在线精品福利大全| 一本色道精品亚洲国产一区| 日本大乳高潮视频在线观看| 玖玖资源站无码专区| 天堂视频一区二区免费在线观看| 免费在线观看视频播放| 精品亚洲成a人7777在线观看| 亚洲欧美日韩国产综合专区| 91久久国产香蕉熟女线看| 粗大猛烈进出白浆视频| 国产精品流白浆喷水|