亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于小樣本無(wú)梯度學(xué)習(xí)的卷積結(jié)構(gòu)預(yù)訓(xùn)練模型性能優(yōu)化方法

        2022-03-01 12:33:48李亞鳴鄧洪武王志勇
        計(jì)算機(jī)應(yīng)用 2022年2期
        關(guān)鍵詞:類(lèi)別卷積向量

        李亞鳴,邢 凱*,鄧洪武,王志勇,胡 璇

        (1.中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027;2.中國(guó)科學(xué)技術(shù)大學(xué)蘇州高等研究院,江蘇蘇州 215123)

        0 引言

        隨著深度學(xué)習(xí)的發(fā)展和計(jì)算硬件設(shè)備的改進(jìn),作為深度學(xué)習(xí)代表性網(wǎng)絡(luò)結(jié)構(gòu)之一的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖像識(shí)別和音頻處理方面取得了快速發(fā)展并得到了廣泛應(yīng)用。卷積結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)能力,能夠以相對(duì)較少的參數(shù)量快速有效地提取圖片和音頻數(shù)據(jù)中的特征信息,避免了傳統(tǒng)算法中復(fù)雜的特征預(yù)處理過(guò)程。近年來(lái)出現(xiàn)的卷積結(jié)構(gòu)的深度學(xué)習(xí)預(yù)訓(xùn)練模型如ResNeXt[1]、DenseNet[2]在一些大型圖像數(shù)據(jù)集上的性能表現(xiàn)已大幅優(yōu)于傳統(tǒng)的圖像識(shí)別模型。

        盡管基于卷積結(jié)構(gòu)的深度學(xué)習(xí)預(yù)訓(xùn)練模型已經(jīng)在圖像處理領(lǐng)域現(xiàn)有數(shù)據(jù)集上取得了優(yōu)異性能,但其在泛化性上仍面臨挑戰(zhàn)。首先,在實(shí)際生活中,大型數(shù)據(jù)集的獲取往往需要消耗大量的人力財(cái)力,在許多場(chǎng)景下難以滿(mǎn)足模型對(duì)數(shù)據(jù)規(guī)模的需求。其次,卷積神經(jīng)網(wǎng)絡(luò)模型通常是基于反向傳播以及梯度下降進(jìn)行學(xué)習(xí)的,隨著網(wǎng)絡(luò)層次越來(lái)越深,在優(yōu)化的過(guò)程中,容易出現(xiàn)訓(xùn)練結(jié)果收斂于局部最小值而非全局最小值的情況。Zhang 等[3]指出基于梯度下降的方法通常需要高昂的花銷(xiāo)對(duì)超參數(shù)進(jìn)行調(diào)整才能達(dá)到模型性能的提升,并且作為反向傳播的提出者,他認(rèn)為反向傳播可能并非大腦自然存在的機(jī)制[4],并不一定是深度學(xué)習(xí)未來(lái)的方向。另外由于權(quán)重共享,卷積結(jié)構(gòu)對(duì)局部數(shù)據(jù)采樣構(gòu)建局部特征,高層組合局部采樣點(diǎn)構(gòu)建高維抽象特征,容易出現(xiàn)對(duì)局部敏感,而對(duì)全局不敏感的情況,并且其普遍采用的池化過(guò)程中會(huì)丟失部分有價(jià)值的信息,導(dǎo)致進(jìn)一步忽略局部信息與整體信息之間的相關(guān)性[5]。上述的這些問(wèn)題限制了卷積神經(jīng)網(wǎng)絡(luò)性能的進(jìn)一步提升。

        針對(duì)上述問(wèn)題,研究者們提出了多種解決思路對(duì)模型進(jìn)行改進(jìn)。針對(duì)梯度下降算法所存在的問(wèn)題,Adam[6]、AdaGrad[7]等算法引入二階動(dòng)量,積累之前狀態(tài)的動(dòng)量替代梯度,實(shí)現(xiàn)了自適應(yīng)學(xué)習(xí)率,加快了前期收斂,但也存在訓(xùn)練后期學(xué)習(xí)率震蕩、模型無(wú)法收斂,以及過(guò)早停止訓(xùn)練導(dǎo)致泛化性差等問(wèn)題。參數(shù)初始化[8]和中間層標(biāo)準(zhǔn)化策略[9]等方法對(duì)于深度學(xué)習(xí)模型性能提升相對(duì)有限,殘差連接[10]和ReZero[11]等方法則通過(guò)增加跳躍式傳遞結(jié)構(gòu)的方式讓低層信號(hào)直接傳遞到高層,增強(qiáng)了梯度的反向傳播,加快了模型優(yōu)化的收斂。Swish 激活函數(shù)[12]和Mish 激活函數(shù)[13]則通過(guò)設(shè)計(jì)更平滑的激活函數(shù)替代ReLU(Rectified Linear Unit)激活函數(shù),在復(fù)雜度增加很小的情況下提高了模型的穩(wěn)定性以及準(zhǔn)確性,平均性能更優(yōu)。但這些方法仍然無(wú)法解決梯度下降的根本問(wèn)題,模型的性能仍然受到限制。

        針對(duì)模型訓(xùn)練過(guò)程對(duì)數(shù)據(jù)集規(guī)模的要求,目前的研究主要是進(jìn)行數(shù)據(jù)增強(qiáng)處理,或是利用元學(xué)習(xí),或是對(duì)模型添加先驗(yàn)信息的方式,以此來(lái)從較少樣本中學(xué)習(xí)到較好的模型。這些方法都在一定程度上解決了數(shù)據(jù)量不足導(dǎo)致模型泛化能力差的問(wèn)題,但仍然對(duì)先驗(yàn)信息提出了一定要求,對(duì)于小樣本數(shù)據(jù)仍然面臨較大挑戰(zhàn)。

        針對(duì)卷積結(jié)構(gòu)以及池化層的缺陷,文獻(xiàn)[14]提出基于本地重要性的池化(Local Importance-based Pooling,LIP)方法,采用注意力機(jī)制來(lái)自適應(yīng)地保留下采樣中的重要信息,貢獻(xiàn)較小的信息則被過(guò)濾掉。文獻(xiàn)[15]提出一種基于感興趣區(qū)域的池化(Region of Interest pooling,RoI pooling)方法,選擇對(duì)不同大小的區(qū)域進(jìn)行池化,能夠在一定程度上增加核心區(qū)域信息的關(guān)聯(lián)程度,更好地提取有效信息。這些方法能夠一定程度提升模型性能,但沒(méi)有解決池化層存在的問(wèn)題,仍會(huì)丟失部分有價(jià)值的信息。

        另外,卷積神經(jīng)網(wǎng)絡(luò)中卷積層在提取信息的過(guò)程中往往存在特征提取冗余的問(wèn)題,網(wǎng)絡(luò)權(quán)重的相關(guān)性過(guò)高,導(dǎo)致模型泛化性下降[16]。當(dāng)數(shù)據(jù)集質(zhì)量較差時(shí),卷積層的輸出結(jié)果中將包含部分與樣本核心語(yǔ)義無(wú)關(guān)的噪聲信息,這些噪聲信息將不僅會(huì)影響模型提取特征信息的質(zhì)量,導(dǎo)致模型性能變差,還會(huì)消耗過(guò)多的算力。因此,如何準(zhǔn)確評(píng)估采樣點(diǎn)提取特征的有效性,篩選出沒(méi)有貢獻(xiàn)的噪聲信息,也成為提高卷積神經(jīng)網(wǎng)絡(luò)模型性能的關(guān)鍵。

        在本工作中,提出一種基于資本資產(chǎn)定價(jià)模型(Capital Asset Pricing Model,CAPM)[17]以及小樣本數(shù)據(jù)來(lái)定向生成網(wǎng)絡(luò)有效結(jié)構(gòu)的方法,基于最優(yōu)傳輸理論以及時(shí)不變穩(wěn)定性對(duì)模型中間輸出結(jié)果進(jìn)行去噪,并以自監(jiān)督的方式進(jìn)行無(wú)需梯度下降和反向傳播的表征學(xué)習(xí),避免了梯度下降算法帶來(lái)的缺陷,能夠生成各個(gè)類(lèi)別有效信息的類(lèi)別感知表征向量,減少了傳統(tǒng)方法中池化層帶來(lái)的信息損失,并基于自注意力機(jī)制生成最終的表征嵌入向量。

        本文的主要工作如下:

        1)針對(duì)卷積結(jié)構(gòu)預(yù)訓(xùn)練模型,基于資本資產(chǎn)定價(jià)模型來(lái)定向組合生成網(wǎng)絡(luò)有效結(jié)構(gòu),基于時(shí)不變穩(wěn)定性和自監(jiān)督的方式,無(wú)需梯度下降和反向傳播來(lái)進(jìn)行表征學(xué)習(xí),避免了對(duì)梯度的依賴(lài);

        2)基于小樣本數(shù)據(jù),利用數(shù)據(jù)增強(qiáng)技術(shù)生成調(diào)制序列數(shù)據(jù),通過(guò)協(xié)整檢驗(yàn)分析因果關(guān)系并據(jù)此定向修剪網(wǎng)絡(luò)結(jié)構(gòu);

        3)理論和實(shí)驗(yàn)分析表明,本文方法可應(yīng)用于多類(lèi)卷積結(jié)構(gòu)預(yù)訓(xùn)練模型,對(duì)數(shù)據(jù)集規(guī)模的要求有數(shù)量級(jí)下降,同時(shí)模型性能和泛化性有明顯提高。

        1 相關(guān)工作

        1.1 基于卷積結(jié)構(gòu)深度學(xué)習(xí)模型的圖像識(shí)別方法

        早期的卷積神經(jīng)網(wǎng)絡(luò)發(fā)展并不順利,文獻(xiàn)[18]提出的LeNet-5 采用反向傳播算法對(duì)模型進(jìn)行優(yōu)化,具備卷積層、池化層和全連接層三種基本模塊,在數(shù)字識(shí)別任務(wù)上取得了一定效果,但在一般實(shí)際任務(wù)中的表現(xiàn)不如支持向量機(jī)(Support Vector Machine,SVM)、Boosting 等算法。直到AlexNet[19]的提出證明了卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模圖像數(shù)據(jù)集上的可行性,使用ReLU 激活函數(shù),證明其效果在深層結(jié)構(gòu)中超過(guò)Sigmoid 激活函數(shù),并首次將Dropout[20]以及LRN(Local Response Normalization)等技術(shù)應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)中,增強(qiáng)了模型的泛化性。同時(shí)AlexNet 采用GPU(Graphics Processing Unit)進(jìn)行運(yùn)算加速。后續(xù)提出的VGGNet[21]對(duì)卷積核以及最大池化層作了改進(jìn),構(gòu)建了更深的網(wǎng)絡(luò)結(jié)構(gòu),證明了增加隱藏層深度以及小卷積核能夠有效提高卷積神經(jīng)網(wǎng)絡(luò)的性能,但隨著網(wǎng)絡(luò)深度的增加,模型性能會(huì)出現(xiàn)先升后降的網(wǎng)絡(luò)退化現(xiàn)象。在MobileNet V2[22]中提到激活函數(shù)ReLU 使得模型在輸入輸出過(guò)程中,由于信息不可逆,導(dǎo)致部分信息損失,模型中大量隱藏神經(jīng)元對(duì)不同輸入輸出相同值,導(dǎo)致權(quán)重矩陣的秩較小,深層網(wǎng)絡(luò)中矩陣連乘使得模型出現(xiàn)梯度消失問(wèn)題。ResNet[10]提出殘差連接結(jié)構(gòu),將模型深度提高到152 層,性能得到大幅提升,獲得ILSVRC(ImageNet Large Scale Visual Recognition Challenge)2015 比賽分類(lèi)任務(wù)的冠軍。

        ImageNet 2012 數(shù)據(jù)上訓(xùn)練得到的預(yù)訓(xùn)練模型在其驗(yàn)證集上取得了很好的效果,但仍然有性能優(yōu)化空間。傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)方法一般只采用圖片頂層特征做預(yù)測(cè),因?yàn)轫攲拥奶卣髡Z(yǔ)義信息較為豐富。頂層特征中目標(biāo)位置比較粗略,而底層的特征語(yǔ)義信息較少,但是目標(biāo)位置比較準(zhǔn)確,所以有些算法采用多尺度特征融合的方式,利用融合后的特征做預(yù)測(cè)。在特征金字塔(Feature Pyramid Network,F(xiàn)PN)[23]中預(yù)測(cè)是在不同特征層獨(dú)立進(jìn)行的,將高層與底層的特征信息進(jìn)行融合,得到了信息更豐富的融合特征并進(jìn)行預(yù)測(cè),模型性能得到提升。PyNET[24]中則采用了金字塔的思想,結(jié)合全局信息以及底層信息,低尺度得到的信息被上采樣,然后和高層次的特征連接到一起,然后繼續(xù)處理,結(jié)合了局部與全局的信息。這些方法都增加了新的采樣方式,能夠從樣本中提取更多的有效信息。

        1.2 資本資產(chǎn)定價(jià)模型

        在網(wǎng)絡(luò)模型中,不同神經(jīng)元能夠提取不同含義的信息,本文引入CAPM,將有價(jià)值的特征語(yǔ)義信息作為資產(chǎn),然后對(duì)信息進(jìn)行取舍組合,實(shí)現(xiàn)收益最大化。CAPM 是一種基于風(fēng)險(xiǎn)資產(chǎn)期望收益均衡基礎(chǔ)上的預(yù)測(cè)模型,其核心思想是理性的投資者將選擇并持有有效的投資組合,即那些在給定期望回報(bào)率的水平上使風(fēng)險(xiǎn)最小化的投資組合[25]。

        如圖1 所示,不同股票組合構(gòu)成了組合可行區(qū)域,有著不同的收益以及標(biāo)準(zhǔn)差,資本市場(chǎng)線(xiàn)與組合可行區(qū)域上沿相切,切點(diǎn)P為理論上的最佳市場(chǎng)組合,達(dá)到風(fēng)險(xiǎn)與收益的平衡,相較于同樣風(fēng)險(xiǎn)的M組合,P組合具有更高的收益率。構(gòu)建有風(fēng)險(xiǎn)的投資組合時(shí),一般的策略是投資回報(bào)達(dá)到無(wú)風(fēng)險(xiǎn)投資的回報(bào),或者更多。

        圖1 資本資產(chǎn)定價(jià)模型Fig.1 Capital Asset Pricing Model

        1.3 模型的不變性與Wasserstein度量

        1.3.1 模型的不變性

        圖像識(shí)別任務(wù)中模型的不變性指的是樣本經(jīng)過(guò)各種幾何變換,其核心語(yǔ)義信息不發(fā)生變化,模型仍然能將其夠映射到原始樣本對(duì)應(yīng)的類(lèi)別。對(duì)經(jīng)過(guò)變換的樣本圖片具有一致的表達(dá),是使得模型具備泛化性的重要保證。常見(jiàn)的有平移不變性、尺度不變性、旋轉(zhuǎn)不變性等,一般通過(guò)不同的數(shù)據(jù)增強(qiáng)規(guī)則或者特定的網(wǎng)絡(luò)結(jié)構(gòu)使得模型具備對(duì)應(yīng)的能力。卷積神經(jīng)網(wǎng)絡(luò)中的卷積層以及池化層一定程度上為模型提供了平移不變性,目標(biāo)出現(xiàn)在樣本的任何區(qū)域,卷積層都能夠提取特征信息,輸出同樣的響應(yīng),而最大池化層中,即使最大值在感受野內(nèi)出現(xiàn)了移動(dòng),仍然能夠返回最大值。而在SPP-Net[26]中,引入SPP(Spatial Pyramid Pooling)層,通過(guò)SPP層來(lái)解除了卷積神經(jīng)網(wǎng)絡(luò)對(duì)于固定尺寸圖片輸入的限制,并采用多尺度訓(xùn)練方法,使用不同尺寸的樣本圖片進(jìn)行訓(xùn)練,為不同尺寸的圖片增強(qiáng)了模型的尺度不變性。對(duì)于旋轉(zhuǎn)不變性等,卷積神經(jīng)網(wǎng)絡(luò)并沒(méi)有加入對(duì)應(yīng)的先驗(yàn)特性,需要大量的增強(qiáng)數(shù)據(jù)進(jìn)行訓(xùn)練。

        1.3.2 最優(yōu)傳輸理論及Wasserstein度量

        最優(yōu)傳輸研究的是兩個(gè)分部之間變換的問(wèn)題,最早是對(duì)土堆搬運(yùn)問(wèn)題的研究,后來(lái)被抽象為給定兩個(gè)度量空間D、G以及對(duì)應(yīng)的分布α、ν,尋找最優(yōu)傳輸變換G=T(D),將服從分布α的隨機(jī)變量轉(zhuǎn)換為服從分布ν,并最小化消耗函數(shù)[27]。最優(yōu)傳輸問(wèn)題為非凸優(yōu)化問(wèn)題,其解的存在性難以保證,后被松弛為線(xiàn)性問(wèn)題,使得最優(yōu)傳輸理論得到快速發(fā)展[28-29]。

        Wasserstein 距離(簡(jiǎn)稱(chēng)W 距離)是一種在兩個(gè)概率測(cè)度空間中近似尋找最優(yōu)傳輸距離的方法。相較于JS(Jenson’s Shannon)散度,W 距離在兩個(gè)概率分布的支撐集沒(méi)有重疊或重疊較少的情況下,仍然能夠反映出兩個(gè)分布的遠(yuǎn)近,并且它值域不限制在0 到1,不存在上下限,能夠很好地定義為資產(chǎn)定價(jià)模型中的收益。兩個(gè)分布之間的W 距離定義如下:

        其中:Π(P1,P2)表示所有以P1和P2為邊緣分布構(gòu)成的聯(lián)合分布γ(d,g)的集合;γ(d,g)表示將分布P1轉(zhuǎn)換為P2需要從d傳輸?shù)絞的傳輸量,可以看作最優(yōu)傳輸中的消耗量[30]。

        2 基于調(diào)制序列的卷積網(wǎng)絡(luò)結(jié)構(gòu)定向修剪

        2.1 基于小樣本的調(diào)制序列數(shù)據(jù)生成

        從大規(guī)模數(shù)據(jù)中找到有意義的關(guān)系能夠有效提高神經(jīng)網(wǎng)絡(luò)的性能,目前主流的研究都是將神經(jīng)網(wǎng)絡(luò)看作黑盒,利用海量數(shù)據(jù)窮舉獲得相關(guān)性關(guān)系,而因果關(guān)系能夠更好地解釋神經(jīng)網(wǎng)絡(luò)的機(jī)制[31]。在因果推理中,因和果具有先后順序性,因此通過(guò)觀(guān)察時(shí)序數(shù)據(jù)能夠更好地發(fā)現(xiàn)因果關(guān)系,但小樣本數(shù)據(jù)屬于非時(shí)序數(shù)據(jù),因此本文基于干預(yù)調(diào)制的方法,利用現(xiàn)有的數(shù)據(jù)增強(qiáng)技術(shù)對(duì)小樣本數(shù)據(jù)進(jìn)行擴(kuò)充,生成序列數(shù)據(jù)。文獻(xiàn)[32]指出當(dāng)對(duì)樣本進(jìn)行干預(yù)處理時(shí),同時(shí)也限制了樣本隨其他因子變化的自然趨勢(shì),改變了原始數(shù)據(jù)的分布,不同的干預(yù)方式將導(dǎo)致完全不同的相關(guān)性關(guān)系,可以觀(guān)察模型對(duì)于經(jīng)過(guò)指定干預(yù)方式生成的樣本所作出的響應(yīng)。

        因此本研究首先制定數(shù)據(jù)增強(qiáng)規(guī)則f對(duì)樣本數(shù)據(jù)進(jìn)行擴(kuò)充:

        其中:x為單個(gè)樣本;y為經(jīng)過(guò)變換后的增強(qiáng)樣本;t為從調(diào)制曲線(xiàn)上采樣得到的連續(xù)性變換參數(shù),用于生成具有時(shí)間連續(xù)性的圖片變換參數(shù)序列,以高斯模糊、移動(dòng)觀(guān)測(cè)窗口等變換方式對(duì)數(shù)據(jù)集中所有的樣本都進(jìn)行變換處理,參數(shù)則分別對(duì)應(yīng)于高斯方差大小以及窗口坐標(biāo);ε為隨機(jī)擾動(dòng)項(xiàng),能夠避免采樣的重復(fù)性,增強(qiáng)數(shù)據(jù)分布的魯棒性、多樣性。

        考慮K個(gè)類(lèi)別的數(shù)據(jù)集,每個(gè)類(lèi)別中包含n個(gè)樣本,基于具有時(shí)間連續(xù)性的參數(shù)以對(duì)同一類(lèi)別中的每一個(gè)樣本進(jìn)行同樣的m次連續(xù)性的數(shù)據(jù)增強(qiáng),生成了大小為n×m的增強(qiáng)樣本矩陣。即每個(gè)類(lèi)別的原始樣本都生成m組長(zhǎng)度為n的時(shí)間樣本序列,每一組都包含由n個(gè)原始樣本基于同一參數(shù)進(jìn)行變換處理得到的n個(gè)增強(qiáng)樣本。同時(shí)也構(gòu)成了n組長(zhǎng)度為m的空間樣本序列,每一組都包含由其中一個(gè)樣本基于不同參數(shù)進(jìn)行變換處理得到的m個(gè)增強(qiáng)樣本,如圖2 所示?;谡{(diào)制曲線(xiàn)生成具有時(shí)間連續(xù)性的噪聲能夠?qū)υP驮斐筛黠@的擾動(dòng),對(duì)特征不變性的研究更有利。

        圖2 樣本數(shù)據(jù)增強(qiáng)Fig.2 Sample data augmentation

        2.2 基于協(xié)整檢驗(yàn)的卷積網(wǎng)絡(luò)結(jié)構(gòu)定向修剪

        文獻(xiàn)[33]指出一個(gè)經(jīng)過(guò)初始化的神經(jīng)網(wǎng)絡(luò)模型,當(dāng)數(shù)據(jù)變化時(shí),其損失函數(shù)相較于輸入數(shù)據(jù)的雅可比矩陣通過(guò)平展處理可看作一個(gè)向量,在不同類(lèi)別的數(shù)據(jù)之間,性能越好的結(jié)構(gòu),對(duì)應(yīng)的雅可比矩陣也將越不具有相關(guān)性,因此可以不需要對(duì)模型進(jìn)行訓(xùn)練就能快速評(píng)估網(wǎng)絡(luò)結(jié)構(gòu)的好壞。類(lèi)似地,對(duì)于采樣點(diǎn)而言,其數(shù)據(jù)分布越平穩(wěn),與其他分布的重疊越少,則其采樣質(zhì)量將越高。如2.1 節(jié)所闡述的,基于調(diào)制曲線(xiàn)生成的增強(qiáng)樣本對(duì)原始數(shù)據(jù)集進(jìn)行了擴(kuò)充,形成了時(shí)間樣本序列。對(duì)時(shí)間序列而言,如果均值沒(méi)有系統(tǒng)的變化(無(wú)趨勢(shì)),方差也沒(méi)有系統(tǒng)變化,且嚴(yán)格消除了周期性變化,就稱(chēng)之是平穩(wěn)的[34]。因此首先考慮從時(shí)間序列平穩(wěn)角度基于增強(qiáng)的樣本數(shù)據(jù)對(duì)每個(gè)采樣點(diǎn)穩(wěn)定提取特征的能力進(jìn)行評(píng)估,繼而對(duì)預(yù)訓(xùn)練模型網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修剪。

        為了評(píng)估不同采樣點(diǎn)穩(wěn)定提取特征的能力,本文采用W距離對(duì)不同數(shù)據(jù)分布進(jìn)行度量。對(duì)于同一采樣點(diǎn),從時(shí)間角度看,其輸出構(gòu)成一個(gè)時(shí)間序列,序列中的每一組數(shù)據(jù)都可以看作一個(gè)數(shù)據(jù)分布,因此可以計(jì)算相鄰時(shí)刻兩個(gè)數(shù)據(jù)分布之間的W 距離。由于相鄰時(shí)刻的兩種變換具有連續(xù)性,沒(méi)有發(fā)生突變,那么相鄰的兩個(gè)分布之間的距離將趨于較小,具有時(shí)間一階穩(wěn)定性。增強(qiáng)的樣本時(shí)間序列具有連續(xù)性,穩(wěn)定提取特征的采樣點(diǎn)輸出值在時(shí)間一階角度下計(jì)算得到的W 距離值序列也將趨于穩(wěn)定,而部分采樣點(diǎn)提取的噪聲信息將不具有穩(wěn)定性。

        為了評(píng)估節(jié)點(diǎn)響應(yīng)調(diào)制變化的能力,本文采用協(xié)整檢驗(yàn)對(duì)序列數(shù)據(jù)在各節(jié)點(diǎn)的輸出以及由調(diào)制曲線(xiàn)采樣得到的參數(shù)序列數(shù)據(jù)進(jìn)行檢驗(yàn)。協(xié)整是考察兩個(gè)或者多個(gè)變量之間的長(zhǎng)期平穩(wěn)關(guān)系,能夠在具有單獨(dú)隨機(jī)性趨勢(shì)的幾個(gè)變量之間找到穩(wěn)定的關(guān)系[35]。經(jīng)過(guò)時(shí)間一階平穩(wěn)性驗(yàn)證后,通過(guò)協(xié)整檢驗(yàn)可以發(fā)現(xiàn)模型中能夠?qū)φ{(diào)制序列作出響應(yīng)的部分采樣點(diǎn)。對(duì)于二元時(shí)間序列X、Y,如果存在非零線(xiàn)性組合β=(β1,β2),使得Z=β1X+β2Y弱平穩(wěn),則認(rèn)為兩個(gè)分量X和Y存在協(xié)整關(guān)系[36]。

        對(duì)數(shù)據(jù)集中的每一個(gè)類(lèi)別的增強(qiáng)樣本數(shù)據(jù)單獨(dú)進(jìn)行考慮,保留能夠穩(wěn)定提取該類(lèi)別特征信息的部分采樣點(diǎn),去除提取與該類(lèi)別無(wú)關(guān)信息的部分采樣點(diǎn)??紤]每個(gè)采樣點(diǎn)對(duì)應(yīng)的W 距離值序列的標(biāo)準(zhǔn)差序列,將標(biāo)準(zhǔn)差大于指定閾值的部分采樣點(diǎn)看作無(wú)法穩(wěn)定提取該類(lèi)別圖片的核心語(yǔ)義信息。根據(jù)一般神經(jīng)網(wǎng)絡(luò)剪枝的規(guī)則[37],將這部分采樣點(diǎn)的輸出值置為0。保留W 距離序列標(biāo)準(zhǔn)差低于一定閾值的dimdenoise個(gè)采樣點(diǎn)。最后,通過(guò)協(xié)整檢驗(yàn)篩選掉不具備協(xié)整關(guān)系的部分節(jié)點(diǎn),完成對(duì)預(yù)訓(xùn)練模型的修剪。文獻(xiàn)[38]指出網(wǎng)絡(luò)修剪本質(zhì)上其實(shí)是最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)的搜索過(guò)程,即以監(jiān)督的方式,為每一類(lèi)數(shù)據(jù)都構(gòu)建了一個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu),能夠保留模型提取的潛在有效信息。

        3 基于資本資產(chǎn)定價(jià)模型的表征向量生成

        傳統(tǒng)的卷積結(jié)構(gòu)以及池化結(jié)構(gòu)都只考慮鄰近像素或采樣點(diǎn)之間的相關(guān)性,而忽略了與其他采樣點(diǎn)之間的協(xié)作關(guān)系,從而導(dǎo)致大量有效信息的損失。并且在小樣本數(shù)據(jù)的情況下,模型發(fā)現(xiàn)的相關(guān)性關(guān)系往往缺少泛化性[31]。相較于直接構(gòu)建多分類(lèi)模型,本文方法引入資本資產(chǎn)定價(jià)模型為數(shù)據(jù)集中的每一個(gè)類(lèi)別構(gòu)建單分類(lèi)模型,基于最優(yōu)傳輸理論,計(jì)算W 距離衡量采樣點(diǎn)間的相關(guān)性,通過(guò)無(wú)需梯度傳播的正向?qū)W習(xí)特征圖中采樣點(diǎn)之間的組合關(guān)系,生成能夠使單類(lèi)樣本與其他類(lèi)具有明顯區(qū)分性的類(lèi)別感知表征向量。

        卷積結(jié)構(gòu)中每個(gè)采樣點(diǎn)所提取的特征偏重于不同的信息,如輪廓、紋理等[39-40]。將不同的采樣點(diǎn)看作資本資產(chǎn)定價(jià)模型中的不同股票,采樣點(diǎn)之間的組合看作資本市場(chǎng),沿用CAPM 中的定義,將收益序列的標(biāo)準(zhǔn)差看作CAPM 中的市場(chǎng)風(fēng)險(xiǎn)。在已知收益序列的情況下,可以直接計(jì)算出組合內(nèi)采樣點(diǎn)的最佳權(quán)重,證明如下:

        假設(shè)有N個(gè)風(fēng)險(xiǎn)資產(chǎn),它們的收益率用隨機(jī)變量r表示:

        資產(chǎn)投資組合中它們的份額記為Q:

        設(shè)eN×1=[1 1…1]T,則有eTQ=1,即所有投資份額的總和為1。則期望收益向量為:

        協(xié)方差為:

        同時(shí)記協(xié)方差矩陣為V,對(duì)于某一投資組合p而言:

        期望收益和收益方差分別為:

        此時(shí)的優(yōu)化目標(biāo)為在給定收益期望μp的情況下,最小化風(fēng)險(xiǎn)即:

        在此,假設(shè)V是正定矩陣,此時(shí)V的逆存在。構(gòu)造拉格朗日輔助函數(shù):

        使目標(biāo)函數(shù)取得極值:

        得:

        記[E(r)e]V-1[E(r)e]為A,則:

        將式(13)代回式(12)得到權(quán)重向量最優(yōu)解:

        因此當(dāng)收益和風(fēng)險(xiǎn)的定義方式確定后,可以計(jì)算其特征合成的權(quán)重最優(yōu)解Q*,然后對(duì)組合內(nèi)采樣點(diǎn)值進(jìn)行加權(quán)求和作為新采樣點(diǎn)是輸出結(jié)果,這一結(jié)構(gòu)也可以看作是一種選擇性連接[41]。

        根據(jù)最優(yōu)傳輸理論,可以通過(guò)計(jì)算不同采樣點(diǎn)對(duì)應(yīng)的數(shù)據(jù)分布之間傳輸?shù)淖钚〈鷥r(jià)對(duì)不同采樣點(diǎn)之間的協(xié)作關(guān)系進(jìn)行評(píng)估,而W 距離能夠近似兩個(gè)分布之間的最優(yōu)傳輸代價(jià),因此本文首先基于W 距離計(jì)算采樣點(diǎn)的相關(guān)系數(shù)矩陣來(lái)衡量采樣點(diǎn)之間的相關(guān)程度,高相關(guān)系數(shù)代表采樣點(diǎn)間存在增益關(guān)系,低相關(guān)系數(shù)代表采樣點(diǎn)間存在互補(bǔ)關(guān)系,然后將增益互補(bǔ)的采樣點(diǎn)組合在一起將能夠?qū)⒉煌饬x的信息結(jié)合在一起,對(duì)單個(gè)采樣點(diǎn)提取的特征信息進(jìn)行增益以及補(bǔ)充,提高采樣點(diǎn)提取特征信息的能力。

        首先對(duì)數(shù)據(jù)集中的不同類(lèi)別的增強(qiáng)樣本數(shù)據(jù)分別從空間角度進(jìn)行考慮。對(duì)于卷積結(jié)構(gòu)輸出的特征圖中的每一個(gè)采樣點(diǎn),從空間角度看,形成了一個(gè)空間樣本序列,序列中的每一組數(shù)據(jù)可都看作一個(gè)數(shù)據(jù)分布。以其中一組為標(biāo)準(zhǔn)分布P0,將空間序列中每一組數(shù)據(jù)形成的分布Pi與之計(jì)算W距離,計(jì)算公式如下:

        其中:Wij代表第i(1≤i≤dimdenoise)個(gè)采樣點(diǎn)對(duì)應(yīng)的空間序列中第j(1≤j≤n)組分布與標(biāo)準(zhǔn)分布之間的W 距離。由于每一組數(shù)據(jù)都是由同一類(lèi)別樣本中的一個(gè)樣本經(jīng)過(guò)變換得到的增強(qiáng)數(shù)據(jù),所以可看作是該類(lèi)別圖片的類(lèi)內(nèi)距離Win,得到類(lèi)內(nèi)W 距離矩陣?;陬?lèi)內(nèi)W 距離矩陣計(jì)算得到相關(guān)系數(shù)矩陣C,用于衡量采樣點(diǎn)間的協(xié)作關(guān)系。

        其中:Cij表示第i個(gè)采樣點(diǎn)與第j個(gè)采樣點(diǎn)W 距離序列之間的相關(guān)系數(shù)。類(lèi)似地,再?gòu)臄?shù)據(jù)集中隨機(jī)選擇其他類(lèi)增強(qiáng)圖片空間序列作為類(lèi)外圖片,保證類(lèi)外多樣性,將序列中每一組數(shù)據(jù)形成的分布與同類(lèi)內(nèi)圖片的標(biāo)準(zhǔn)分布計(jì)算W 距離,作為該類(lèi)別圖片的類(lèi)外距離Wout,得到多組距離后取均值與類(lèi)內(nèi)距離序列保持統(tǒng)一維度,因此可定義采樣點(diǎn)的收益函數(shù)R:

        通過(guò)計(jì)算可得到收益矩陣,為了添加類(lèi)內(nèi)的多樣性,本文從空間序列數(shù)據(jù)中重新選擇不同的數(shù)據(jù)分布作為標(biāo)準(zhǔn)分布,并對(duì)分布取平均,重新計(jì)算得到包含類(lèi)內(nèi)多樣性的收益矩陣,并且數(shù)據(jù)分布也將更加穩(wěn)定。

        由于所有采樣點(diǎn)的感受野都已經(jīng)覆蓋了整個(gè)樣本圖片,相較于根據(jù)相關(guān)系數(shù)從所有采樣點(diǎn)中選擇采樣點(diǎn)進(jìn)行組合,本文方法選擇所有采樣點(diǎn)中收益最大的一部分采樣點(diǎn)作為備選采樣點(diǎn),再依據(jù)相關(guān)系數(shù)矩陣從中選擇采樣點(diǎn)進(jìn)行組合,以最大化特征信息質(zhì)量。以特征圖中的每個(gè)采樣點(diǎn)作為中心采樣點(diǎn),從備選采樣點(diǎn)中選擇采樣點(diǎn)進(jìn)行組合,即資本市場(chǎng),再根據(jù)組合內(nèi)采樣點(diǎn)的收益序列矩陣計(jì)算夏普比率得到各個(gè)采樣點(diǎn)的最佳的權(quán)重,加權(quán)求和之后生成單分類(lèi)特征向量,其收益提升,并且分布更加穩(wěn)定,得到了更高質(zhì)量的特征表示。

        本文方法的整體框架如圖3 所示,針對(duì)圖片多分類(lèi)(K類(lèi)數(shù)據(jù))任務(wù),首先獲取增強(qiáng)樣本圖片序列經(jīng)過(guò)預(yù)訓(xùn)練模型卷積層輸出得到的原始特征向量,基于分布穩(wěn)定性檢驗(yàn)以及協(xié)整檢驗(yàn)生成K種噪聲定向修剪方式,原始特征特征向量分別經(jīng)過(guò)K種噪聲修剪方式得到K個(gè)經(jīng)過(guò)修剪的向量。然后基于資本資產(chǎn)定價(jià)模型生成K種節(jié)點(diǎn)組合方式CAPMi(1≤i≤K),對(duì)修剪后向量中的節(jié)點(diǎn)進(jìn)行重新組合生成類(lèi)別感知表征向量。即從數(shù)據(jù)分布的角度為數(shù)據(jù)集中的每一個(gè)類(lèi)別都構(gòu)建了全新的結(jié)構(gòu),通過(guò)無(wú)需梯度的正向?qū)W習(xí)更好地提取指定類(lèi)別相關(guān)的信息,解決了傳統(tǒng)卷積結(jié)構(gòu)以及池化帶來(lái)的信息損失的問(wèn)題,同時(shí)也避免了基于梯度下降進(jìn)行優(yōu)化帶來(lái)的問(wèn)題。

        圖3 本文方法的整體框架Fig.3 Overall framework of the proposed method

        4 基于自注意力機(jī)制的多分類(lèi)模型

        經(jīng)過(guò)資本資產(chǎn)定價(jià)模型組合后生成的表征向量完成了特征穩(wěn)定提取的過(guò)程,這些表征向量分別包含不同類(lèi)別信息,并且它們之間具備穩(wěn)定的偏序關(guān)系;但這一結(jié)果無(wú)法作為特征向量用于特征分類(lèi),構(gòu)建多分類(lèi)模型還需要將這些特性信息融合在一起生成統(tǒng)一的特征向量。如果將這些表征向量簡(jiǎn)單地連接起來(lái),類(lèi)別之間的互信息將會(huì)丟失,難以得到最優(yōu)的結(jié)果,因此需要制定方法學(xué)習(xí)表征向量之間的互信息并進(jìn)行融合。

        文獻(xiàn)[42]中在人臉識(shí)別任務(wù)上提出了一種基于自注意力機(jī)制生成權(quán)重的方法。自注意力機(jī)制是一種注意力機(jī)制改進(jìn)方法,不借助外部信息,而更專(zhuān)注于數(shù)據(jù)內(nèi)部之間的關(guān)聯(lián)性[43]。人臉樣本經(jīng)過(guò)不同的組網(wǎng)絡(luò)生成包含胡子、膚色等不同屬性的組感知向量后,基于卷積層輸出的特征圖,生成多個(gè)組感知表征向量的權(quán)重,再將所有的組感知表征向量加權(quán)生成最終的特征向量,其模型性能優(yōu)于傳統(tǒng)的人臉識(shí)別模型。

        因此可以考慮根據(jù)樣本圖片歸屬于某一類(lèi)別的概率對(duì)這些信息進(jìn)行融合,概率最大的類(lèi)別感知表征向量貢獻(xiàn)也將越大。類(lèi)似地,本文方法引入自注意力機(jī)制實(shí)現(xiàn)表征向量之間互信息的融合。由資本資產(chǎn)定價(jià)模型所生成的多個(gè)表征向量可看作一個(gè)整體,通過(guò)計(jì)算自注意力能夠挖掘不同表征向量之間的互信息,并且可以得到單類(lèi)別表征向量與整體語(yǔ)義空間的關(guān)系,從而指導(dǎo)權(quán)重向量的生成,完成對(duì)多個(gè)表征向量的融合,為最終生成統(tǒng)一的特征向量提供有效的信息。

        基于自注意力機(jī)制,本文方法采用scaled dot-production attention[43]進(jìn)行相似度計(jì)算得到的注意力,自適應(yīng)地生成類(lèi)別感知表征向量的權(quán)重,其結(jié)構(gòu)如圖4 所示。針對(duì)K個(gè)類(lèi)別的數(shù)據(jù),以監(jiān)督的方式生成K維的向量,使用Softmax 方法對(duì)其進(jìn)行歸一化處理,將其作為K個(gè)類(lèi)別感知表征向量的權(quán)重向量,與類(lèi)別感知表征向量做加權(quán)求和處理,完成對(duì)信息的融合,增強(qiáng)了數(shù)據(jù)之間關(guān)聯(lián)性。由資本資產(chǎn)定價(jià)模型(CAPM)組合生成的表征向量偏重于樣本與各個(gè)類(lèi)別的關(guān)聯(lián)信息,但也存在部分信息的損失,因此,將其與去噪后的特征圖相加,兩者形成一種信息的互補(bǔ),最大化有效信息,生成最終特征向量,結(jié)構(gòu)如圖4 所示。通過(guò)全連接層對(duì)特征向量進(jìn)行聚合,可以生成具有弱相關(guān)性的embedding 向量。

        圖4 自注意力機(jī)制結(jié)構(gòu)Fig.4 Structure of self-attention mechanism

        5 實(shí)驗(yàn)與結(jié)果分析

        5.1 實(shí)驗(yàn)設(shè)置

        5.1.1 數(shù)據(jù)集

        對(duì)于訓(xùn)練,本研究采用ImageNet 2012 數(shù)據(jù)集[44]中的訓(xùn)練集,其中包含1 000 類(lèi)圖片,每類(lèi)1 300 張圖片,從中隨機(jī)選擇K=10 和K=100 類(lèi)圖片,每類(lèi)隨機(jī)選擇25 張圖片構(gòu)建小樣本量級(jí)訓(xùn)練集。對(duì)于測(cè)試,采用ImageNet 2012 數(shù)據(jù)集中的驗(yàn)證集,其中包含1 000 類(lèi)圖片,每類(lèi)包含50 張圖片。另外本研究在CIFAR-100 數(shù)據(jù)集[45]重新進(jìn)行了同樣的實(shí)驗(yàn),其中包含100 類(lèi)圖片,每類(lèi)各有500 個(gè)訓(xùn)練圖片和100 個(gè)測(cè)試圖片,并且每個(gè)圖片都帶有類(lèi)別標(biāo)簽以及超類(lèi)標(biāo)簽,可用于評(píng)估概念層次間的偏序關(guān)系。訓(xùn)練過(guò)程中,每類(lèi)隨機(jī)選擇了25 張訓(xùn)練集圖片構(gòu)建小樣本量級(jí)訓(xùn)練集,其他數(shù)據(jù)構(gòu)成測(cè)試集,并在該測(cè)試集上進(jìn)行測(cè)試。

        5.1.2 度量指標(biāo)

        在本文方法中,統(tǒng)一采用W 距離對(duì)數(shù)據(jù)分布之間的距離進(jìn)行評(píng)估。在網(wǎng)絡(luò)修剪實(shí)驗(yàn)中,考慮到樣本不平衡的情況,采用召回率在ImageNet 2012 驗(yàn)證集上進(jìn)行評(píng)估。在最終模型性能評(píng)估實(shí)驗(yàn)中,采用Top1-Acc 和Top5-Acc 分別在ImageNet 2012 驗(yàn)證集和CIFAR-100 測(cè)試集上進(jìn)行評(píng)估。

        5.1.3 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)是基于Pytorch 深度學(xué)習(xí)框架下完成的,硬件配置如下:處理器為Intel Xeon gold 6320,內(nèi)存為32 GB,GPU 為NVIDIA GeForce RTX 2070。對(duì)于輸入的圖片,分辨率大小統(tǒng)一調(diào)整為224×224×3,并使用均值向量(0.485,0.456,0.406)以及標(biāo)準(zhǔn)差向量(0.229,0.224,0.225)對(duì)圖片進(jìn)行標(biāo)準(zhǔn)化處理。

        5.2 網(wǎng)絡(luò)剪枝性能評(píng)估

        在數(shù)據(jù)增強(qiáng)過(guò)程中,本文方法采用了高斯模糊、尺度變化、滑動(dòng)窗口等方式對(duì)樣本作了連續(xù)性增強(qiáng),生成了序列數(shù)據(jù)??紤]K類(lèi)增強(qiáng)的數(shù)據(jù)樣本,每個(gè)類(lèi)別都計(jì)算得到一個(gè)長(zhǎng)度為dimorigin的標(biāo)準(zhǔn)差向量Si(0≤i≤K)。需要定義噪聲篩選的閾值,篩選出大于此閾值的采樣點(diǎn)編號(hào)集合,對(duì)應(yīng)于特征圖中的采樣點(diǎn)編號(hào),將對(duì)應(yīng)的值將置為0,即構(gòu)建得到K種網(wǎng)絡(luò)結(jié)構(gòu)修剪方法。從圖5 可以觀(guān)察到,部分噪聲采樣點(diǎn)的標(biāo)準(zhǔn)差異常大,可看作無(wú)法對(duì)同類(lèi)別圖片穩(wěn)定提取信息。為了避免標(biāo)準(zhǔn)差向量中極值的影響,本文選擇標(biāo)準(zhǔn)差向量中小于中間值的部分?jǐn)?shù)據(jù)定位為Smid,閾值τ表達(dá)式定義為:

        圖5 隨機(jī)類(lèi)別對(duì)應(yīng)的排序后的標(biāo)準(zhǔn)差分布Fig.5 Sorted standard deviation distribution corresponding to random class

        其中:Cthreshold為常數(shù),在實(shí)驗(yàn)中根據(jù)統(tǒng)計(jì)學(xué)相關(guān)經(jīng)驗(yàn)以及多次實(shí)驗(yàn)將其取值為5 能夠篩選掉20%左右的噪聲采樣點(diǎn)。隨后通過(guò)協(xié)整檢驗(yàn)保留置信度大于95%的部分采樣點(diǎn)完成對(duì)網(wǎng)絡(luò)模型的修剪。

        為驗(yàn)證經(jīng)過(guò)修剪后的網(wǎng)絡(luò)結(jié)構(gòu)性能,構(gòu)建K個(gè)與AlexNet 預(yù)訓(xùn)練模型中的全連接層同樣結(jié)構(gòu)的二分類(lèi)器進(jìn)行驗(yàn)證,對(duì)于K類(lèi)中的每一個(gè)類(lèi)別,選擇該類(lèi)的20 張圖片作為正類(lèi),另外從ImageNet 2012 數(shù)據(jù)集中隨機(jī)選擇20 類(lèi),每個(gè)類(lèi)別選擇20 張圖片,共400 張圖片作為負(fù)類(lèi),獲取經(jīng)過(guò)按照本類(lèi)修剪方式修剪后的特征圖,輸入到模型中完成訓(xùn)練,獲取測(cè)試集樣本輸出的指示向量,以召回率為指標(biāo)評(píng)估K個(gè)二分類(lèi)模型性能。觀(guān)察圖6 可以看到當(dāng)K=10 時(shí),預(yù)訓(xùn)練模型經(jīng)過(guò)修剪后,其中8 個(gè)類(lèi)別的召回率得到了提升,說(shuō)明通過(guò)檢驗(yàn)時(shí)間一階數(shù)據(jù)分布的穩(wěn)定性確實(shí)能夠剔除與類(lèi)別核心語(yǔ)義信息無(wú)關(guān)的噪聲,提高模型穩(wěn)定提取特征信息的性能。

        圖6 模型經(jīng)過(guò)修剪后,單類(lèi)別召回率普遍提升Fig.6 Most single class recall rates increasing after model pruning

        另外,本文方法探究了不同類(lèi)別對(duì)應(yīng)的修剪后網(wǎng)絡(luò)模型有效結(jié)構(gòu)的相似程度。選擇蛇、蝴蝶、貓、獵豹、狗、魚(yú)、鳥(niǎo)、蜘蛛幾個(gè)綱目作為實(shí)現(xiàn)對(duì)象,從ImageNet 2012 訓(xùn)練集中屬于這些綱目的部分類(lèi)別中隨機(jī)選擇小樣本量級(jí)的樣本作為實(shí)驗(yàn)數(shù)據(jù)。按照第3 章所闡述的方法,針對(duì)這些類(lèi)別對(duì)模型進(jìn)行修剪分別生成各自對(duì)應(yīng)的有效結(jié)構(gòu),計(jì)算每個(gè)類(lèi)別保留的采樣點(diǎn)編號(hào),模型相似比例為修剪后模型保留采樣點(diǎn)的編號(hào)的交集大小,以物種貓為中心的結(jié)果如圖7 所示,其中sna、but、cat、le、dog、fish、bird、spi 分別代表蛇、蝴蝶、貓、獵豹、狗、魚(yú)、鳥(niǎo)、蜘蛛。觀(guān)察貓與其他物種的單分類(lèi)模型相似比例,可以看到貓與同物種的其他貓類(lèi)相似比例最高,除此外,與狗和獵豹兩個(gè)物種的相似比例較高,這也符合人類(lèi)對(duì)于物種的視覺(jué)認(rèn)知,這一結(jié)果表明模型中不同類(lèi)別之間存在穩(wěn)定偏序關(guān)系的可能性,CNN 模型本身具備提取概念層次特征信息的能力,也說(shuō)明本文方法能夠使模型在最優(yōu)路徑上進(jìn)行傳輸。

        圖7 不同物種對(duì)應(yīng)的單分類(lèi)模型有效結(jié)構(gòu)相似比例Fig.7 Similar ratios of effective structures of single classification models for different species

        5.3 模型性能評(píng)估

        經(jīng)過(guò)修剪后的特征圖中采樣點(diǎn)已經(jīng)能夠穩(wěn)定提取信息,而這些采樣點(diǎn)之間的相關(guān)性仍然比較大,為了節(jié)約計(jì)算成本,考慮最大化收益以及信息的多樣性,對(duì)于每個(gè)采樣點(diǎn),根據(jù)相關(guān)系數(shù)矩陣另外選擇相關(guān)系數(shù)最大的5 個(gè)采樣點(diǎn)以及相關(guān)系數(shù)最小的5 個(gè)采樣點(diǎn),一共11 個(gè)采樣點(diǎn)作為CAPM 中的資本市場(chǎng)。每個(gè)采樣點(diǎn)可計(jì)算得到收益序列以及標(biāo)準(zhǔn)差,可計(jì)算最優(yōu)市場(chǎng)組合,即11 個(gè)采樣點(diǎn)的最佳權(quán)重,加權(quán)求和之后作為新生成的表征向量中的一個(gè)采樣點(diǎn)。得到新的表征向量后,采用第4 章中闡述的方式計(jì)算每一個(gè)采樣點(diǎn)的收益,觀(guān)察經(jīng)過(guò)選擇性組合前后采樣點(diǎn)的收益變化來(lái)評(píng)估類(lèi)別感知表征向量的性能。

        隨機(jī)選擇類(lèi)別觀(guān)察部分節(jié)點(diǎn)經(jīng)過(guò)CAPM 組合優(yōu)化前后的收益變化,結(jié)果如圖8 所示,可以觀(guān)察到通過(guò)本文方法所構(gòu)建的新結(jié)構(gòu)對(duì)節(jié)點(diǎn)進(jìn)行重新組合后,新生成的表征向量中采樣點(diǎn)整體的收益都得到了提高,即單類(lèi)別的區(qū)分性得到了顯著提高。另外,實(shí)驗(yàn)中隨機(jī)選擇了部分采樣點(diǎn)觀(guān)察它們經(jīng)過(guò)資本資產(chǎn)定價(jià)模型組合前后在分布上的變化,圖9 為3 個(gè)節(jié)點(diǎn)組合前后的W 距離分布情況,即類(lèi)內(nèi)距離Win和類(lèi)間距離Wout。可以觀(guān)察到經(jīng)過(guò)組合后,Win分布更加平穩(wěn),并且能夠與Wout分布明顯區(qū)分開(kāi)來(lái),這一結(jié)果表明本文方法能夠顯著提高不同類(lèi)別樣本之間的區(qū)分性。

        圖8 隨機(jī)選擇類(lèi)別,資本資產(chǎn)定價(jià)模型組合優(yōu)化前后所有采樣的收益R分布Fig.8 After randomly selecting a class,distribution of income R of all samples before and after combinational optimization of capital asset pricing model

        圖9 資本資產(chǎn)定價(jià)模型組合優(yōu)化前后單采樣點(diǎn)的可區(qū)分性Fig.9 Distinguishability of single node before and after combinational optimization of capital asset pricing model

        為了評(píng)估本文方法生成的最終特征向量性能,構(gòu)建一個(gè)包含3 層全連接層的多分類(lèi)模型并計(jì)算準(zhǔn)確率Acc 作為評(píng)價(jià)指標(biāo)。首先評(píng)估原始網(wǎng)絡(luò)結(jié)構(gòu)的性能,獲取訓(xùn)練集樣本輸入預(yù)訓(xùn)練模型的原始特征向量進(jìn)行訓(xùn)練,將測(cè)試集樣本輸入多分類(lèi)模型得到輸出指示向量,計(jì)算準(zhǔn)確率作為預(yù)訓(xùn)練模型的基準(zhǔn)性能。然后將訓(xùn)練集樣本對(duì)應(yīng)的原始特征向量輸入到本文方法所構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)中,得到新的特征向量,輸入到同樣結(jié)構(gòu)的全連接層完成模型訓(xùn)練,獲取測(cè)試集樣本對(duì)應(yīng)的指示向量,仍計(jì)算準(zhǔn)確率作為提出的方法性能。

        分別在ImageNet 2012 數(shù)據(jù)集上隨機(jī)選擇100 類(lèi)以及CIFAR-100 數(shù)據(jù)集上進(jìn)行評(píng)估,結(jié)果如表1 所示,模型經(jīng)過(guò)改進(jìn)后,在ImageNet 2012 數(shù)據(jù)集100 類(lèi)圖片上Top-1 Acc 從58.82%提高到了68.50%,Top-5 Acc 從83.51%提高到了92.25%。在CIFAR-100 數(shù)據(jù)集上Top-1 Acc 從61.29%提高到了69.15%,Top-5 Acc 從81.43%提高到了89.55%。這一結(jié)果表明本文方法能夠基于小樣本量級(jí)的訓(xùn)練數(shù)據(jù)顯著提升CNN 預(yù)訓(xùn)練模型的性能。

        為驗(yàn)證本文算法能夠直接應(yīng)用到其他卷積神經(jīng)網(wǎng)絡(luò)模型中,使用同樣的方法分別對(duì)ResNet 預(yù)訓(xùn)練模型進(jìn)行修改對(duì)性能進(jìn)行評(píng)估,結(jié)果顯示在表1 中,Top-1 Acc 和Top-5 Acc分別由78.51%和94.20%提高了85.72%和96.65%,說(shuō)明本文方法能夠直接應(yīng)用到主流的卷積神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練模型中,不需要做復(fù)雜定制化處理。

        表1 圖片分類(lèi)任務(wù)性能比較 單位:%Tab.1 Performance comparison of image classification tasks unit:%

        6 結(jié)語(yǔ)

        本文提出了一種基于資本資產(chǎn)定價(jià)模型以及小樣本的無(wú)需梯度傳播的正向?qū)W習(xí)的方法,為小樣本生成序列化增強(qiáng)樣本數(shù)據(jù),并通過(guò)協(xié)整檢驗(yàn)分析因果關(guān)系對(duì)預(yù)訓(xùn)練模型的結(jié)構(gòu)進(jìn)行修剪并選擇性構(gòu)建一種新的結(jié)構(gòu),能夠更好地提取特征信息,并通過(guò)無(wú)需梯度傳播的正向?qū)W習(xí)生成了質(zhì)量更高的特征向量,解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)優(yōu)化過(guò)程對(duì)梯度的依賴(lài);并且進(jìn)行了一系列實(shí)驗(yàn)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)以及特征向量質(zhì)量進(jìn)行了評(píng)估,表明本文方法能夠明顯提高預(yù)訓(xùn)練模型的性能和泛化能力,并且能夠直接應(yīng)用到主流的卷積神經(jīng)網(wǎng)絡(luò)模型中,無(wú)需做定制化處理。未來(lái)計(jì)劃尋找更多的有效策略對(duì)模型中的采樣信息進(jìn)行整合和提煉,利用協(xié)整分析和CAPM 等干預(yù)方式來(lái)降低模型的復(fù)雜度并進(jìn)一步提高模型性能。

        猜你喜歡
        類(lèi)別卷積向量
        向量的分解
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        聚焦“向量與三角”創(chuàng)新題
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        向量垂直在解析幾何中的應(yīng)用
        服務(wù)類(lèi)別
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線(xiàn)
        論類(lèi)別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        美腿丝袜诱惑一区二区| 911国产在线观看精品| 日本少妇被黑人xxxxx| 三年片免费观看大全有| 激情内射亚洲一区二区三区爱妻| 国产精品成人无码久久久久久| 男女啪啪动态视频在线观看| 国产精品久久久久一区二区三区 | 亚洲一区二区日韩精品| 亚洲国产精品久久久久久无码| 毛片24种姿势无遮无拦| 中文字幕一区二区三区人妻精品| 极品少妇一区二区三区四区视频 | 国产中文三级全黄| 亚洲精品久久无码av片软件| 特级毛片全部免费播放a一级| 精品精品国产三级av在线 | 午夜福利影院不卡影院| 亚洲一区二区懂色av| 成人一区二区免费中文字幕视频| 亚洲一区二区观看播放| 国产精品无套粉嫩白浆在线| 国产最新一区二区三区天堂| 国产av精品一区二区三区不卡 | 国产精品久久国产三级国| 亚洲av无码国产精品色| 亚洲男人的天堂在线播放 | 无码精品一区二区三区在线| 成av人片一区二区三区久久| 久久91精品国产91久| 国产主播性色av福利精品一区| 国产精品久久久久乳精品爆| 亚洲a∨天堂男人无码| 中文字幕人妻在线少妇完整版| 国产精品国产三级国产av剧情| 日日摸夜夜添无码无码av| 亚洲人成人一区二区三区| 五月婷婷丁香视频在线观看| 国产三级精品三级| 免费观看国产精品| 久久偷拍国内亚洲青青草|