亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于因果干預與不變性的卷積預訓練模型優(yōu)化研究

        2022-04-18 10:56:24李亞鳴王志勇鄧洪武
        計算機工程 2022年4期
        關(guān)鍵詞:類別收益卷積

        胡 璇,邢 凱,李亞鳴,王志勇,鄧洪武

        (1.中國科學技術(shù)大學 計算機科學與技術(shù)學院,合肥 230027;2.中國科學技術(shù)大學 蘇州高等研究院,江蘇 蘇州 215123;3.中國科學技術(shù)大學 網(wǎng)絡(luò)空間安全學院,合肥 230027)

        0 概述

        在圖像處理領(lǐng)域,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學習模型由于避免了對圖像特征的手動提取,因此在圖像識別、分割、檢測等相關(guān)的圖像處理任務(wù)上得到廣泛應用。CNN 相比全連接神經(jīng)網(wǎng)絡(luò),主要采用兩個重要的歸納偏差。CNN卷積結(jié)構(gòu)依據(jù)局部像素關(guān)系緊密、較遠像素相關(guān)性弱的先驗認知,采用局部連接,每個神經(jīng)元只連接上一層小范圍內(nèi)的神經(jīng)元,并且依據(jù)局部特征的位置無關(guān)性,采用權(quán)重共享,通過在整張?zhí)卣鲌D上復用卷積核,使一組卷積連接共享相同的權(quán)重。上述歸納偏差大幅降低了卷積結(jié)構(gòu)的參數(shù)規(guī)模,加快了訓練收斂速度,卻也引入了局部敏感性,導致缺乏對數(shù)據(jù)的整體把握[1]。另外,特征提取中對各種不變性的捕捉也是CNN 面臨的重要挑戰(zhàn),通常認為復用卷積核和池化操作可以使得深度CNN 對圖像的平移、形變具有某種程度的不變性,但文獻[2]研究證明當圖像平移幾個像素后,多數(shù)CNN結(jié)構(gòu)的輸出會發(fā)生巨大改變。當前的機器學習理論建立在對現(xiàn)有數(shù)據(jù)相關(guān)分析與回歸分析的基礎(chǔ)上,基于對已有數(shù)據(jù)的觀察,尋找規(guī)律、擬合模型并作出預測。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)提高了擬合函數(shù)的復雜度和精確度,但擬合過程仍然依賴對現(xiàn)有數(shù)據(jù)的統(tǒng)計關(guān)聯(lián)性分析,而關(guān)聯(lián)性僅是對共現(xiàn)頻率、概率的統(tǒng)計和預測,并非從因果性上提供有說服力的解釋,因此難以判斷變量之間真正的因果關(guān)系,使得模型缺乏靈活性、適應性及泛化性[3]。

        針對圖像處理領(lǐng)域CNN 的局部敏感性問題,增大卷積核或卷積深度可以增強感受野,但同時也會擴大參數(shù)規(guī)模,存在感受野和訓練效率之間的權(quán)衡問題。從VGG[4]開始的卷積架構(gòu)普遍采用將單個較大的卷積核分解成兩層小卷積核,減少訓練參數(shù)的同時加入更多非線性,然而過深的網(wǎng)絡(luò)會出現(xiàn)退化,因此ResNet[5]向卷積層中添加跨層旁路,通過縮短信息傳遞的有效路徑長度來保證梯度信息流動。并且自然語言處理(Natural Language Processing,NLP)中的自注意力機制也被引入圖像領(lǐng)域,用于捕獲數(shù)據(jù)中的遠程交互[1],但依然存在參數(shù)多、計算量大的問題。

        針對CNN 在特征提取中的不變性問題,研究人員通過增大訓練集規(guī)模或基于變換對訓練數(shù)據(jù)進行增強,提高模型泛化能力,但該方式增加了訓練量,通過復制跨尺度、方向和其他仿射自由度的特征來利用視點變化的其他影響方式會產(chǎn)生難以處理的高維特征圖[6]。因此,Inception 系列[7-9]采用并列的多尺度卷積核提取多尺度信息,特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[10]利用逐層堆疊不同感受野和分辨率特征圖的金字塔模式進行跨分辨率的信息融合,膠囊網(wǎng)絡(luò)系列[6,11-12]學習特征空間姿態(tài)和特征間位置關(guān)系的編碼,捕獲特征間一致性位置關(guān)系并構(gòu)建特征處于不同位姿的一致性表達。

        在因果關(guān)系學習方面,PEARL 等[3]提出關(guān)聯(lián)、干預、反事實推理3 個層級,但基于被動觀察的數(shù)據(jù)做出預測的深度學習模型僅處于最低層級,只能基于觀察到的某一事件是否改變了觀察到的另一事件的可能性做出數(shù)據(jù)間的統(tǒng)計關(guān)聯(lián)性層次判斷,而無法預測對事件的主動干預會引起的后果。PEARL 等[3]認為足夠強大準確的因果模型可以利用第一層級(關(guān)聯(lián))的數(shù)據(jù)來回答第二層級(干預)的問題,通過在數(shù)學上做出修正來強調(diào)引入干預概念的必要性。

        ARORA 等[13]指出:如果數(shù)據(jù)的概率分布能被大型稀疏深度神經(jīng)網(wǎng)絡(luò)描述,則通過分析之前層激活值的相關(guān)統(tǒng)計特性,聚類輸出高度相關(guān)的神經(jīng)元,便可逐層構(gòu)建出最優(yōu)的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。借鑒PEARL 和ARORA的思想,本文引入因果干預,提出高維空間中概念層次的一致性表達對低維空間中的變換具有不變性的假設(shè)(即不動點的存在性),通過因果干預手段輔助篩選CNN卷積具有各種不變性的子結(jié)構(gòu),改善模型對純粹統(tǒng)計關(guān)聯(lián)性的依賴,篩選出模型中噪聲敏感的部分結(jié)構(gòu)。進一步地,基于Wasserstein 距離(以下簡稱W 距離)度量類內(nèi)類間區(qū)分度并由此構(gòu)建收益函數(shù),通過基于收益的組合來捕捉長距離特征間的相關(guān)依賴,具體過程基于高斯分布下的Hessian 矩陣和協(xié)方差的互逆關(guān)系,將基于Hessian 矩陣的優(yōu)化轉(zhuǎn)化為資本資產(chǎn)定價模型(Capital Asset Pricing Model,CAPM)中最小化給定收益水平下風險的約束優(yōu)化,利用夏普比率來計算優(yōu)化方向,生成具有類間區(qū)分度的網(wǎng)絡(luò)結(jié)構(gòu),由此構(gòu)建出概念層次的穩(wěn)定特征。

        1 相關(guān)工作

        1.1 圖像識別中的CNN 卷積結(jié)構(gòu)

        圖像分類與識別是計算機視覺的基本問題,是定位、檢測、分割等任務(wù)的基礎(chǔ),面臨對觀察視角的依賴、類內(nèi)多樣性等復雜情況構(gòu)成的挑戰(zhàn)[14],傳統(tǒng)圖像分類采用人工提取特征作為可訓練分類器的輸入,分類的準確性依賴特征提取階段的設(shè)計,任務(wù)艱巨且不具有普適性,無法獨立于特定任務(wù)本身[15]。

        近年來,深度學習模型利用多層非線性信息處理,在自動特征提取和圖像分類上取得了豐碩成果。文獻[15]提出的LeNet-5 將局部感受野、共享權(quán)重和降采樣相結(jié)合,應用在手寫數(shù)字識別等場景下,是現(xiàn)代CNN的基礎(chǔ)。文獻[16]提出的AlexNet在CNN 上成功使用ReLU 激活函數(shù)、定向修剪(dropout)和局部響應歸一化(Local Response Normalization,LRN),并采用數(shù)據(jù)增強緩解過擬合,提高泛化能力,獲得了ImageNet 2012競賽冠軍,開啟了深度CNN 領(lǐng)跑圖像領(lǐng)域的先河。后續(xù)研究針對實際訓練中模型深度、參數(shù)規(guī)模、梯度傳播等一系列挑戰(zhàn),對CNN 卷積結(jié)構(gòu)進行了有針對性的優(yōu)化,模型分類性能持續(xù)提高。文獻[4]提出的VGGNets證明了增加網(wǎng)絡(luò)深度可以一定程度提高性能,并用2 層3×3 的卷積核代替1 層5×5,在保持感受野的前提下減少參數(shù)量,提高非線性。文獻[7]提出由Inception 模塊疊加成的22 層GoogLeNet,用不同大小的卷積核提取圖像不同尺度的特征再加以融合,并在卷積前用1×1卷積降維,用全局平均池化代替全連接層,從而比8 層的AlexNet 擁有更好的性能和更少的參數(shù)。Inception 的V2[8]和V3[9]版本引入了批標準化(Batch Normalization,BN),加入了對較大卷積核的分解,并指出在低層采用1×1 卷積降維會丟失信息。為解決深度模型的梯度消失問題,文獻[5]提出34 層的ResNet,使用跳層直連構(gòu)建兩層殘差塊,降低信息傳遞有效路徑的長度。更深的模型(50、101、152)采用帶有1×1 瓶頸結(jié)構(gòu)的三層殘差塊,進一步減少卷積計算量。針對多尺度特征,文獻[10]提出FPN 結(jié)構(gòu),利用卷積網(wǎng)絡(luò)本身帶有的層次性語義特征構(gòu)建特征金字塔,用于處理大范圍尺度變化的物體,通過對特征圖上采樣和跨層融合,同時獲取頂層語義特征和底層高分辨率信息。

        在深度神經(jīng)網(wǎng)絡(luò)中,獲取遠程依賴關(guān)系至關(guān)重要。對于圖像數(shù)據(jù),長距離依賴關(guān)系是由深層卷積堆疊從而形成大感受野來建模的。卷積運算在空間上是對局部鄰域進行操作,因此只有當反復執(zhí)行卷積時,使信息在網(wǎng)絡(luò)中逐層傳播,才能捕獲遠程依賴關(guān)系,在計算效率和優(yōu)化上都存在挑戰(zhàn)[1]。為此,研究人員將NLP 領(lǐng)域用于捕獲遠程交互的自注意力機制引入視覺領(lǐng)域,用于增強或替代卷積結(jié)構(gòu)[1,17-18]。自注意力的關(guān)鍵思想是通過隱層神經(jīng)元之間的相似函數(shù)動態(tài)生成加權(quán)平均值,與池化或卷積不同,輸入信息之間的相互作用取決于信息本身,而不是由相對位置先驗決定,使得自注意力可捕獲輸入數(shù)據(jù)中的遠程交互而不增加參數(shù)的數(shù)量。文獻[1]提出一種二維相對自注意力機制,通過將卷積特征圖與自注意力機制產(chǎn)生的特征圖級聯(lián),用自注意力來增強卷積算子,可以靈活地調(diào)整自注意力通道的比例,并考慮從完全卷積到完全自注意力模型的一系列架構(gòu)。

        基于圖方法的研究也是近年來的熱點之一,這類方法通常將數(shù)據(jù)集映射為一個圖,每個樣本對應一個節(jié)點,若兩個樣本具有強相似度與相關(guān)性,則對應的節(jié)點之間存在一條強度正比于相似度與相關(guān)性的邊,然后通過構(gòu)造的圖來推斷無標注數(shù)據(jù)的標簽。這一思想在缺乏大規(guī)模標注數(shù)據(jù)的半監(jiān)督分類任務(wù)上應用廣泛,出現(xiàn)了很多關(guān)于構(gòu)造圖和傳播標簽的算法,如基于b-matching[19]和基于低秩子空間[20]的圖構(gòu)造方法、基于線性鄰域的標簽傳播算法[21]等。由于原始數(shù)據(jù)中包含噪聲污染,建立的圖可能無法準確反映樣本之間的潛在關(guān)系,因此文獻[22]提出一種基于光滑表示的半監(jiān)督分類算法,在構(gòu)造圖之前先對原始數(shù)據(jù)進行過濾,同時采用統(tǒng)一的框架集成圖構(gòu)造和標簽傳播兩個步驟,有效提升了構(gòu)造圖的準確性和與后續(xù)任務(wù)的關(guān)聯(lián)性。

        1.2 相關(guān)概念介紹

        1.2.1 W 距離

        本文使用W 距離[23]來度量卷積子結(jié)構(gòu)映射到高維空間后樣本分布之間的距離。W 距離來自最優(yōu)傳輸理論,給定歐式空間中的區(qū)域X、Y?RN,分別有概率密度μ、ν,總測度相同μ(X)=ν(Y)。假設(shè)映射T:X→Y,若對任意可測集合B?Y,式(1)均成立,則此映射保持測度,記作T*μ=ν,其中*是保持測度的記號,表示映射T可以保測度地將分布μ映射到分布ν。假設(shè)任意x∈X、y∈Y的距離為c(x,y),則映射的傳輸代價C(T)是距離c(x,y)的積分,如式(2)所示。最優(yōu)傳輸映射是所有保測度的映射中使得傳輸代價最小者,如式(3)所示。最優(yōu)傳輸映射的傳輸代價被稱為是兩個概率測度之間的W 距離,如式(4)所示,其中γ是一個邊緣分布為μ、ν的聯(lián)合概率分布。

        即使兩個分布的支撐集沒有重疊或重疊非常少,W 距離仍然能反映兩個概率分布的遠近。另外,W 的值域沒有0 到1 的限制,因此在高維空間中比KL 散度和JS 散度更能度量空間中低維流形之間的分布距離。

        1.2.2 因果干預與格蘭杰因果關(guān)系檢驗

        因果關(guān)系通常被解釋為描述某個事件對另一個事件的作用關(guān)系,后一事件被認為是前一事件的結(jié)果。一般而言,一個事件是很多原因綜合產(chǎn)生的,而該事件又可以成為其他多個事件的原因。因此,若要量化這種因果關(guān)系往往較為困難,需要現(xiàn)代數(shù)學工具的輔助。在確定某一事件是否真正是導致另一事件的原因,特別在這種影響是不確定性的描述且只是在總體現(xiàn)象觀察到的情況下,就更加難以判斷[24]。

        當前的機器學習理論建立在對現(xiàn)有數(shù)據(jù)回歸分析的基礎(chǔ)上,基于對已有數(shù)據(jù)的被動觀察,尋找規(guī)律、擬合模型并做出預測。深度神經(jīng)網(wǎng)絡(luò)提高了擬合函數(shù)的復雜度和精確度,數(shù)據(jù)規(guī)模和擬合精度不斷提高,但其擬合過程仍然依賴對現(xiàn)有數(shù)據(jù)的統(tǒng)計相關(guān)性分析,而相關(guān)性僅是對共現(xiàn)頻率的統(tǒng)計,并非從因果性上提供有說服力的解釋,因此難以判斷變量之間的因果關(guān)系和方向[3]。

        隨機控制實驗是發(fā)現(xiàn)因果關(guān)系的傳統(tǒng)途徑,但受限于實驗條件,大部分場合只能獲得被動觀察數(shù)據(jù),而無法主動干預。從被動觀察數(shù)據(jù)上探索因果關(guān)系避免了實驗條件的限制,分為基于時序觀察數(shù)據(jù)和非時序觀察數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)方法?;跁r序觀察數(shù)據(jù)的因果推斷受限于觀察手段、采樣頻率等限制,因此實際中后者具有更廣的適用范圍[25]。

        本文借鑒時間序列的數(shù)據(jù)處理方法,基于干預調(diào)制,將非序列數(shù)據(jù)擴展為序列觀察數(shù)據(jù),由序列數(shù)據(jù)的因果推斷方法來鎖定網(wǎng)絡(luò)結(jié)構(gòu)中具有不變性的部分。本文基于格蘭杰因果檢驗來發(fā)現(xiàn)網(wǎng)絡(luò)中具有不變性的子結(jié)構(gòu),該檢驗方法由文獻[26]在分析經(jīng)濟變量的因果關(guān)系時提出,將因果關(guān)系定義為基于一個時間序列的先驗值預測另一個時間序列的能力。給定長期時間序列X和Y,如果采用X和Y序列對Y做回歸的聯(lián)合預測誤差小于只用Y序列自回歸的預測誤差,則可以認為X對Y的預測起到了幫助,因此減小了預測誤差。在這種情況下,稱X對Y有格蘭杰因果關(guān)系。

        1.2.3 夏普比率與資本資產(chǎn)定價模型

        在現(xiàn)代投資組合理論中,投資者通常計算資產(chǎn)類型之間的相關(guān)性構(gòu)建投資組合,在給定的風險水平上實現(xiàn)收益最大化[24]。本文將CNN 卷積結(jié)構(gòu)提取到的有效信息類比為資產(chǎn),通過定義收益和風險,借鑒資本資產(chǎn)定價模型計算有效信息的組合,由之前層激活值的相關(guān)統(tǒng)計特性,基于有效信息組合輸出為高度相關(guān)的神經(jīng)元,便可逐層構(gòu)建出最優(yōu)的網(wǎng)絡(luò)拓撲結(jié)構(gòu),由此獲得給定風險下的最大收益(性能)。資本資產(chǎn)定價模型示意圖如圖1 所示。

        圖1 資本資產(chǎn)定價模型示意圖Fig.1 Schematic diagram of CAPM

        圖1中曲線為風險資產(chǎn)組合可以達到的有效前沿,若投資組合中包含無風險資產(chǎn),則組合的收益-風險關(guān)系將落在一條截距為無風險收益率rf并經(jīng)過曲線上任意一點A的資本配置線(Capital Allocation Line,CAL)上。對CAL 上的任意一點P,期望收益E(RP)由倍的風險資產(chǎn)組合期望收益E(RA)和)倍的無風險資產(chǎn)期望收益E(Rf)組成,如式(5)[27]所示,其中σP和σA分別為點P和A的標準差。這條直線的斜率被稱為夏普比率[28-29],又稱為報酬-波動性比率,如式(6)所示。

        夏普比率刻畫了投資組合每承受一單位總風險,會產(chǎn)生多少超額報酬。在給定的標準差上,夏普比率越高的投資組合擁有越高的期望收益。當CAL 與有效前沿相切時,夏普比率最高,達到資本市場線(Capital Market Line,CML)。資本市場線上的每個點都對應著當前風險下最高的期望收益。通過基于自定義收益和風險的計算挖掘CNN 卷積結(jié)構(gòu)采樣視角之間的相關(guān)性,形成聚合結(jié)構(gòu)以實現(xiàn)對有效特征信息的高效組合。

        2 基于不變性的預訓練網(wǎng)絡(luò)結(jié)構(gòu)選擇性定向修剪

        CNN 卷積結(jié)構(gòu)對變換缺乏一致性表示,雖然卷積和池化操作帶來了一定程度上的平移不變性,但對縮放、旋轉(zhuǎn)等變換依然需要針對性改進卷積架構(gòu)[4,13]或在訓練數(shù)據(jù)中加入對應增強來實現(xiàn)對變換后目標的認知。借鑒流形學習中數(shù)據(jù)通常存在低于現(xiàn)實空間維度中的唯一表示這一觀點,認為物體在高維空間中存在概念層次的一致性表達,該表達在低維空間中存在一種映射表達,在特定視角下不會隨低維空間中的變換改變?;诓蛔兞坷碚摵虰rouwer 不動點定理,假設(shè)模型映射函數(shù)f能還原出物體概念層次的一致性表達,那么f是各種變換群上的不變量,該高維表達為變換群映射下的不動點。將平移、縮放等變換作用在二維樣本圖像上,根據(jù)變換前后模型提取信息分布的差異,觀察模型各維度在變換作用下的穩(wěn)定性,篩選出具有不變性的模型子結(jié)構(gòu)。

        由于缺乏因果穩(wěn)定性,模型不能分辨提取到的信息來自物體本身還是來自采樣過程引入的噪聲。根據(jù)文獻[30]的研究可知,未經(jīng)訓練的初始網(wǎng)絡(luò)對特定數(shù)據(jù)的建模能力可以由擬合函數(shù)對輸入數(shù)據(jù)的雅可比矩陣反映,矩陣中元素相關(guān)性越弱,越能良好地對數(shù)據(jù)建模。在噪聲和干擾的影響下,輸入輸出之間的相關(guān)性很容易遭到篡改,反之,若模型的輸入輸出具有穩(wěn)定的因果關(guān)系,則不容易受到噪聲干擾。為樣本圖片加入?yún)?shù)隨時間規(guī)律變化的高斯模糊增強,將非序列數(shù)據(jù)擴展為序列數(shù)據(jù),由序列數(shù)據(jù)的因果推斷方法,即檢驗輸出序列和調(diào)制序列在統(tǒng)計上的因果關(guān)系,篩選模型中具有因果穩(wěn)定性的子結(jié)構(gòu)。

        2.1 基于平移、尺度等不變性的多樣性調(diào)制序列生成

        基于不變性理論將平移、尺度等變換作用在樣本圖片上,基于因果干預將參數(shù)隨時間規(guī)律變化的高斯模糊添加到樣本圖片上,通過測算模型輸出分布的穩(wěn)定性,檢驗模型的各種不變性和因果穩(wěn)定性。調(diào)制序列生成步驟具體如下:

        1)從數(shù)據(jù)集中選取小規(guī)模樣本,為每一個樣本按表1 中3 種方式連續(xù)生成多張圖片。

        表1 調(diào)制序列生成方式Table 1 Modulation sequence generation mode

        2)生成圖片構(gòu)成調(diào)制序列,樣本整體規(guī)模為[樣本數(shù),序列長度]。

        2.2 基于干預序列的預訓練模型子結(jié)構(gòu)不變性分析

        采用基于平移和尺度變換生成的調(diào)制序列,依據(jù)不變量理論來篩選預訓練模型中具有各種不變性的子結(jié)構(gòu)。這一操作的理論依據(jù)是在變換群作用下,假設(shè)模型某部分采樣點有助于還原目標在高維空間中的一致性表達,則其輸出分布應當是穩(wěn)定的,即表現(xiàn)為模型提取到的特征信息不隨樣本的平移、尺度等變化而變化,映射到高維空間中的不動點。

        定理1(Brouwer 不動點)若A?RN且A為非空緊凸集,f:A→A是一個從A到A的連續(xù)函數(shù),則該函數(shù)f有一個不動點,即存在x∈A,x=f(x)。

        假設(shè)每一類物體在概念層次上都存在足夠區(qū)別于其他類的高維空間表達,如圖2 所示,在理想情況下,從概念到表示的過程可以看作從一個高維空間到其自身的整體映射,則由Brouwer 不動點定理,無論在中間加入何種變換,映射都一定存在不動點,即一定存在某個高維空間中的表示不受低維空間中的變換影響。假設(shè)這樣的高維空間概念表示為θ,樣本生成和采樣過程的映射為Q(·),群G是對圖片的變換 群,變換g∈G,特征提取模型為f(·)。根據(jù)Brouwer 不動點定理,從概念到表示的過程是一個高維空間到 其自身的整體映 射,有f(Q(θ))=θ,f(g(Q(θ)))=θ,因此f(Q(θ))=f(g(Q(θ)))。設(shè)樣本圖片為x=Q(θ),則在樣本圖片上,不變性表現(xiàn)為f(x)=f(g(x)),即模型提取到的特征信息不隨樣本的平移、旋轉(zhuǎn)、尺度等變化而變化。

        圖2 概念-表示映射流程Fig.2 Mapping process of concepts-represents

        不變性分析的具體步驟如下:

        1)對相同調(diào)制方式的同類樣本集合通過模型卷積結(jié)構(gòu)的輸出分布,測算用W 距離度量的分布差異。

        2)使用W 距離的方差衡量分布差異穩(wěn)定性,篩選出每種變換具有一定程度不變性的特征提取結(jié)構(gòu)。

        2.3 基于格蘭杰因果關(guān)系的預訓練網(wǎng)絡(luò)選擇性定向修剪

        采用基于高斯模糊生成的調(diào)制序列,依據(jù)序列數(shù)據(jù)的因果推斷方法來篩選預訓練模型中具有因果穩(wěn)定性的部分,并對噪聲敏感的部分結(jié)構(gòu)進行定向修剪。采用方差分析衡量輸出分布的穩(wěn)定性,用格蘭杰因果檢驗判斷模型提取到的信息對調(diào)制函數(shù)的響應。1.2.2節(jié)中介紹了格蘭杰因果檢驗的原理和計算過程,通過檢驗由調(diào)制序列的先驗值預測輸出序列的能力,來判斷在給定的顯著水平下調(diào)制序列是否為輸出序列。對噪聲干擾不穩(wěn)定,又未對調(diào)制序列產(chǎn)生響應的采樣點可以被認為受到了噪聲干擾,對這樣的點進行定向修剪,以便進一步構(gòu)建穩(wěn)定特征。

        基于因果干預的剪枝步驟具體如下:

        1)將基于高斯模糊生成的調(diào)制序列中的同類樣本集合通過模型卷積層,獲得輸出分布。

        2)測算用W 距離衡量的分布差異。

        3)使用W 距離的方差衡量分布差異穩(wěn)定性,篩選出對噪聲干擾較為穩(wěn)定的采樣點。

        4)對調(diào)制函數(shù)和輸出分布的W 距離序列進行格蘭杰因果檢驗,篩選出對調(diào)制函數(shù)有響應的采樣點。

        5)對不屬于以上兩種的部分采樣點進行剪枝。

        3 基于W 距離的網(wǎng)絡(luò)模型結(jié)構(gòu)優(yōu)化生成

        模型通過優(yōu)化不斷調(diào)整連接權(quán)重,在實際應用中有Momentum[31]、Adagrad[32]、Adam[33]等多種基于梯度的優(yōu)化方式。相比一階梯度,Shampoo[34]等基于二階梯度的優(yōu)化方式具有更快的收斂速度,但受限于計算量、內(nèi)存、通信花銷等因素,普及度不高。本文給出基于二階梯度的優(yōu)化過程與經(jīng)濟學領(lǐng)域資本資產(chǎn)定價模型中基于協(xié)方差計算投資組合的等價性,并通過加入單位風險下收益最大的約束得到最優(yōu)解。該方法首先定義同類和不同類樣本之間用W 距離衡量的區(qū)分度為無監(jiān)督的收益函數(shù),基于高斯分布假設(shè)下對數(shù)似然的二階導(Hessian)矩陣和協(xié)方差的互逆關(guān)系,并引入夏普比率,將基于Hessian 矩陣的最優(yōu)化問題轉(zhuǎn)化為資本資產(chǎn)定價模型中給定收益水平下最小化風險的約束優(yōu)化問題,逐層計算優(yōu)化方向,為每類目標生成在單分類任務(wù)下能形成良好類間區(qū)分的網(wǎng)絡(luò)拓撲結(jié)構(gòu),構(gòu)建單分類穩(wěn)定特征,進一步實現(xiàn)多分類。

        3.1 基本原理與理論分析

        將基于Hessian 矩陣的最優(yōu)化問題轉(zhuǎn)化為資本資產(chǎn)定價模型中給定收益水平下最小化風險的約束優(yōu)化問題,該方法依據(jù)高斯分布假設(shè)下負對數(shù)似然的二階導(即Hessian)與協(xié)方差的逆相等。

        證明

        假設(shè)期望為θ*、協(xié)方差矩陣為Vθ的高斯隨機向量θ,概率密度p(θ)如式(7)所示,負對數(shù)似然J(θ)如式(8)所示,Hessian 矩陣在(l,l′)維度下的分量如式(9)所示。由此可得Hessian 矩陣如式(10)所示。

        計算CAPM 中的均值-方差前沿,即每個給定的收益水平對應的最小方差投資組合,需先計算風險資產(chǎn)組合可能達到的有效前沿。對某個資產(chǎn)組合p,其用向量表示的風險資產(chǎn)構(gòu) 成r如 式(11)所 示,rn(n=1~N,n∈R)為組合中的單個資產(chǎn),份額w如式(12)所示,wn為資產(chǎn)rn在組合中所占的份額,每個資產(chǎn)的收益期望E(r)如式(13)所示,E(rn)為資產(chǎn)rn的收益期望,資產(chǎn)ri與rj的兩兩協(xié)方差σij(i,j=1~N,i,j∈R)如式(14)所示,由兩兩協(xié)方差構(gòu)成的協(xié)方差矩陣V如式(15)所示。對組合p而言,其收益如式(16)表示,代入式(11)、式(12)和式(13),可得收益期望如式(17)所示,代入式(14)和式(15),可得方差如式(18)所示。

        在給定風險下最大化收益,等價于在給定收益期望下最小化風險=wTVw,如式(19)所示,其中,μp為給定的收益期望,e 為單位向量。為求解該最優(yōu)化問題,構(gòu)造拉格朗日輔助函數(shù)L(w,λ1,λ2),使目標函數(shù)取得極值,如式(20)所示。求解式(20)得到份額向量最優(yōu)解,即投資組合p中每個分量的權(quán)重,如式(21)所示。

        將式(21)代入目標函數(shù)可得風險如式(22)所示。整理得到風險資產(chǎn)組合可能取到的均值-方差前沿,即圖1中的雙曲線,如式(23)所示。綜合式(10)和式(19),得到尋找Hessian 矩陣的主特征方向(如式(24)所示)與CAPM 中基于協(xié)方差矩陣計算均值方差前沿的過程(如式(25)所示)等價。由于式(24)計算Hessian 矩陣的最大主成分,式(25)計算協(xié)方差矩陣的最小主成分,因此H=V-1,而互逆矩陣的特征向量相同,對應特征值互為倒數(shù),由此等價關(guān)系成立。在問題式(25)的約束條件中加入單位風險下收益最大的約束(限定為夏普比率最大的解),得到資本市場線及對應切點的收益水平,如式(26)所示。將式(26)代入式(21),即為問題式(24)和式(25)的最優(yōu)解。

        以上過程借由資本資產(chǎn)定價模型和夏普比率完成了基于二階梯度的優(yōu)化計算過程。

        3.2 基于W距離的特征不變性提取與網(wǎng)絡(luò)結(jié)構(gòu)生成

        首先,將多分類問題轉(zhuǎn)化成一類和其他類的單分類問題。對每一個單分類問題而言,優(yōu)化目標是最大化類間區(qū)分,即經(jīng)過特征提取后,同類樣本分布之間距離最小化,非同類樣本分布之間距離最大化,同時保證分布的穩(wěn)定性?;赪 距離定義收益函數(shù)如式(27)所示。為每類樣本取一個標準分布,Wb和Wi分別是標準分布與其他類樣本和同類樣本分布W 距離的均值。定義基于收益的損失函數(shù)如式(28)所示。

        顯然,最小化損失等價于最大化收益。對經(jīng)過穩(wěn)定性篩選的節(jié)點,計算每個節(jié)點(即特征空間維度)上收益的期望、協(xié)方差和相關(guān)系數(shù)。顯然,在收益期望最大的一部分維度上,不同類的樣本距離較遠,同類樣本趨向聚集,類別間已經(jīng)有了較好的區(qū)分?;诿總€這樣的維度來構(gòu)建通往上層的組合,組合的目標是最大化收益和最小化風險,即最大化單位風險下的收益,因此選取收益期望最大的部分組合采樣點,加入弱相關(guān)的點以增強采樣視角多樣性,負相關(guān)的點以對沖方差,降低不穩(wěn)定性。

        然后,依據(jù)式(26)和式(21)對每一個組合計算最優(yōu)組合權(quán)重,獲得這一層的優(yōu)化方向。計算出的權(quán)重直接用于生成上層節(jié)點,構(gòu)建在單分類任務(wù)下具有類別區(qū)分度且較為穩(wěn)定的特征。

        最后,通過Stacking 相同操作的方式逐層堆疊,逐步構(gòu)建區(qū)分度更好、穩(wěn)定更強的單分類特征。在完成對每一類圖像的單分類特征構(gòu)建后,借鑒自注意力機制訓練出每一個單分類特征的權(quán)重,再將模型接入全連接層,通過監(jiān)督學習進行分類訓練。

        基于W 距離的網(wǎng)絡(luò)結(jié)構(gòu)生成具體步驟如下:

        1)為每類選取標準分布,計算類內(nèi)和類間分布的W 距離。

        2)基于W 距離計算收益。

        3)計算每個維度上收益的期望、協(xié)方差和相關(guān)系數(shù),基于收益期望和相關(guān)系數(shù)選取組合。

        4)對每一個組合,由式(26)計算出夏普比率最大時的收益值μp,從而由式(21)計算包含每個較優(yōu)視角上的最優(yōu)組合權(quán)重。

        5)利用步驟4 中計算出的權(quán)重構(gòu)建上層節(jié)點。

        6)逐層Stacking,構(gòu)建對單分類區(qū)分度高的穩(wěn)定特征。

        4 實驗與結(jié)果分析

        4.1 實驗設(shè)置

        為驗證本文方法的有效性,在AlexNet、ResNet50等傳統(tǒng)SOTA 預訓練模型和ImageNet-2012 數(shù)據(jù)集上進行實驗?;趶腎mageNet-2012 的1 000 類圖像數(shù)據(jù)中選取的111 類動植物數(shù)據(jù),在準確率、召回率、訓練數(shù)據(jù)量等方面對模型進行性能評估。

        實驗使用的ImageNet 數(shù)據(jù)集類別具體如下:

        1)蛇,n01728572/thunder snake、n01728920/ringneck snake、n01729322/hognose snake 等共計17 個類別。

        2)蝴蝶,n02276258/admiral、n02277742/ringlet、n02279972/monarch 等共計6 個類別。

        3)貓,n02123045/tabby cat、n02123159/tiger cat、n02123394/Persian cat 等共計7 個類別。

        4)豹,n02128385/leopard、n02128757/snow leopard、n02128925/jaguar 共計3 個類別。

        5)狗,n02085620/Chihuahua、n02085782/Japanese spaniel、n02085936/Maltese dog 等共計10 個類別。

        6)魚,n01443537/goldfish、n01484850/white shark、n01491361/tiger shark 等共計6 個類別。

        7)鳥,n02002724/black stork、n02006656/spoonbill、n02007558/flamingo 等共計8 個類別。

        8)蜘蛛,n01773157/black and gold garden spider、n01773549/barn spider、n01773797/garden spider 等共計7 個類別。

        9)猴子,n02483362/gibbon、n02487347/macaque、n02494079/squirrel monkey 等共計4 個類別。

        10)蜥蜴,n01675722/banded gecko、n01677366/common iguana、n01682714/American chameleon 等共計11 個類別。

        11)壁虎,n01629819/European fire salamander、n01630670/common newt、n01631663/eft 等共計5 個類別。

        12)狐貍,n02119022/red fox、n02119789/kit fox、n02120079/Arctic fox 等共 計4 個類 別。

        13)貍,n02441942/weasel、n02442845/mink、n02443114/polecat 等共計7 個類別。

        14)牛,n02403003/ox、n02408429/water buffalo、n02410509/bison 共計3 個類別。

        15)羊,n02412080/ram、n02415577/bighorn、n02417914/ibex 等共計6 個類別。

        16)菌菇,n12985857/coral fungus、n12998815/agaric、n13037406/Gyromitra 等共計7 個類別。

        4.2 預訓練網(wǎng)絡(luò)結(jié)構(gòu)選擇性定向修剪的有效性分析

        通過干預調(diào)制得到具有多樣性的序列數(shù)據(jù),分別依據(jù)不變性和因果穩(wěn)定性對卷積結(jié)構(gòu)進行分析。使用W 距離來衡量輸出序列分布的差異性,利用標準差來衡量W 距離序列的穩(wěn)定性。根據(jù)所有采樣點上W 距離標準差的分布情況,設(shè)定剪枝閾值:

        其中:mmid為W 距離 序列方 差的中位數(shù);εmid為 中段數(shù)據(jù)(如1/4 至3/4 的分位點)的標準差。根據(jù)實驗中的具體情況,取C為4、5、6。

        選取卷積結(jié)構(gòu)的中間輸出,在每類類內(nèi)分布上計算W 距離,基于方差篩選節(jié)點去噪。圖3 反映了在基于各種不變性的序列上計算分布W 距離情況,其中,縱軸為類內(nèi)分布W 距離標準差,橫軸為采樣點序號(按縱坐標升序排列)。由圖3 可知,大約有20%的采樣點上的輸出分布方差較大,依據(jù)該方差分布確定閾值常數(shù)C,從而確定剪枝的閾值?;诟裉m杰因果檢驗的剪枝與之類似,取閾值為0.01 的顯著性水平,篩去約20%的采樣點。

        圖3 卷積結(jié)構(gòu)對噪聲的響應與去噪效果Fig.3 Response of convolutional structure to noise and denoising effect

        此時直接接入預訓練模型的全連接層能觀察到對應類別分類的召回率提升。圖4 給出了基于各種不變性去噪剪枝的召回率提升情況,其中,橫軸為按原模型召回率升序排列的111 類圖片,縱軸為召回率。由圖4 可以看出,大部分類別的樣本經(jīng)修剪后的模型分類召回率均有所提升,部分類別的提升甚至超過10 個百分點,驗證了本文方法的有效性。

        圖4 去噪后的召回率提升情況Fig.4 Recall improvement after denoising

        表2 給出了模型修剪前后所有類別上的平均召回率變化情況,可以看出本文修剪方法在總體上平均能夠帶來2~4 個百分點的分類召回率提升,表明基于不變性和因果干預的調(diào)制方式確實能篩選出模型對噪聲敏感的結(jié)構(gòu),提高模型穩(wěn)定提取特征的能力。另外,可以觀察到基于高斯模糊因果干預和尺度不變性的召回率提升相對平移不變性更大,主要原因為CNN 卷積結(jié)構(gòu)本身具有一定程度的平移不變性,基于平移不變性的干預調(diào)制對分類性能的提升相對有限。

        表2 去噪前后的召回率比較Table 2 Comparison of recall rates before and after denoising %

        4.3 基于因果干預與不變性的預訓練模型性能優(yōu)化比較分析

        對經(jīng)過篩選的點計算W 距離、收益和最優(yōu)組合權(quán)重,構(gòu)建上層節(jié)點。對比組合前后,觀察到類內(nèi)類間區(qū)分度的提升和波動的降低。圖5 是隨機選擇的某個類別(tabby cat)在經(jīng)過組合前后類內(nèi)類間W 距離區(qū)分度示例,橫軸表示該層收益最好的300 個(top300)維度,縱軸表示在該維度上樣本類內(nèi)外分布的W距離。由圖5可以看到,在模型經(jīng)過優(yōu)化組合后,樣本的類間分布距離和類內(nèi)分布距離的區(qū)別更加明顯,即樣本在一些維度上的表示逐漸能夠和其他類別的樣本區(qū)分開來,波動也有所降低,穩(wěn)定性提高,表明在這些維度上正在逐步構(gòu)建單分類的穩(wěn)定特征。

        圖5 組合前后的類內(nèi)類間區(qū)分度Fig.5 Distinctions between inside class and outside class before and after combination

        表3 隨機選擇一些類別,觀察組合前后收益的變化,即類間分布W 距離和類內(nèi)分布W 距離的比值。由表3 中可以看出,類別整體收益提升,即樣本類內(nèi)外區(qū)分度在組合后有增大的趨勢,驗證了本文組合方法的有效性。

        表3 組合前后的收益變化Table 3 Profit changes before and after combination

        將按照每個類別優(yōu)化生成的單分類特征采用自注意力機制訓練加權(quán),再通過全連接層進行分類。所有方法在相同的ImageNet 111類驗證集上進行測試。表4反映了去噪剪枝和網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化生成對分類準確率的最終貢獻,可以看出相比ResNet50 基線預訓練模型,本文優(yōu)化模型(Ours)在ImageNet 111 類數(shù)據(jù)上測試集準確率提升了約5 個百分點。表5 從訓練集規(guī)模方面反映了本文方法的訓練效率,可以看出本文優(yōu)化模型在預訓練模型的基礎(chǔ)上只需要每類20 張圖片的小樣本用于優(yōu)化,大幅提升了訓練效率。

        表4 測試集準確率比較Table 4 Comparison of accuracy of test sets %

        表5 訓練集規(guī)模比較Table 5 Comparison of training set sizes

        5 結(jié)束語

        本文提出一種基于因果干預與不變性的CNN卷積結(jié)構(gòu)圖像識別模型優(yōu)化方法,通過對非序列數(shù)據(jù)進行基于各種不變性的干預調(diào)制,篩選出模型中具有各種不變性和因果穩(wěn)定性的子結(jié)構(gòu),改善模型對純粹統(tǒng)計關(guān)聯(lián)性的依賴,并進一步基于對樣本類別間分布的W 距離度量,構(gòu)建組合捕捉特征間長距離相關(guān)依賴,生成具有類別區(qū)分度的優(yōu)化網(wǎng)絡(luò)拓撲結(jié)構(gòu),構(gòu)建概念層次的穩(wěn)定特征。實驗結(jié)果表明,優(yōu)化后的深度模型相比ResNet50 基線預訓練模型準確率約提升了5 個百分點,并大幅降低了訓練集規(guī)模。下一步將融合基于不變性和因果干預的分析結(jié)果,引入頻域分析等方法,對網(wǎng)絡(luò)結(jié)構(gòu)做出更精確的篩選判斷并設(shè)計更高效的優(yōu)化方法。

        猜你喜歡
        類別收益卷積
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        螃蟹爬上“網(wǎng)” 收益落進兜
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        2015年理財“6宗最”誰能給你穩(wěn)穩(wěn)的收益
        金色年華(2016年1期)2016-02-28 01:38:19
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        東芝驚爆會計丑聞 憑空捏造1518億日元收益
        IT時代周刊(2015年8期)2015-11-11 05:50:38
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        人妻少妇精品一区二区三区| 国产精品免费观看久久| 一本一本久久a久久精品综合| 国产成人一区二区三区高清| 国产大屁股熟女流白浆一区二区| 一本色道久久hezyo无码| 超薄丝袜足j好爽在线观看| 亚洲男人的天堂精品一区二区| 亚洲男女视频一区二区| 久久精品免费中文字幕| 国产真人性做爰久久网站| 欧美国产亚洲精品成人a v| 三级黄片一区二区三区| 国产精品国产三级国产av品爱 | 爆乳午夜福利视频精品| 久久久大少妇免费高潮特黄| а√中文在线资源库| 99re久久精品国产| 中文字幕乱码中文乱码毛片| 好看的日韩精品视频在线| 成人性生交大片免费看96| 五月激情婷婷丁香| 久久精品亚洲乱码伦伦中文| 成熟人妻换xxxx| 国产美女露脸口爆吞精| 99re国产电影精品| 国产交换精品一区二区三区| 国模雨珍浓密毛大尺度150p| 欧洲亚洲综合| 精品日本免费观看一区二区三区| 永久免费毛片在线播放| 国产精品亚洲综合色区韩国| 亚洲综合国产成人丁香五月小说| 国产成人精品日本亚洲i8| 国产成人亚洲精品青草天美| 一本大道久久精品 东京热| 精品日韩一区二区三区av| 中文字字幕人妻中文| 老熟女多次高潮露脸视频| 日韩一区二区三区天堂| www夜片内射视频在观看视频|