亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于互信息自編碼和變分路由的膠囊網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化

        2021-12-02 10:14:16鮑靜益尚蘊浩
        電子與信息學(xué)報 2021年11期

        鮑靜益 徐 寧 尚蘊浩 楚 昕

        ①(常州工學(xué)院 常州 213032)

        ②(河海大學(xué)常州校區(qū) 常州 213022)

        1 引言

        人工智能領(lǐng)域(Artifical Intelligence, AI)經(jīng)久不衰的一個研究話題是基于機(jī)器視覺的圖像理解與分類識別。不可否認(rèn),卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)在其中扮演了重要的角色,被一致公認(rèn)為主流方法之一。然而,CNN亦存在本質(zhì)缺陷:無法識別物體的姿勢和形變。因此,文獻(xiàn)[1]提出創(chuàng)新的膠囊網(wǎng)絡(luò)(Capsule Network,CN)來代替CNN,并取得了令人鼓舞的效果:2017年的向量膠囊網(wǎng)絡(luò)刷新了MNIST數(shù)據(jù)集的最高準(zhǔn)確率;2018年的矩陣膠囊網(wǎng)絡(luò)在Smallnorb數(shù)據(jù)集上達(dá)到了僅僅1.8%的錯誤率[2]。更有研究人員將膠囊網(wǎng)絡(luò)的應(yīng)用從圖像分類擴(kuò)展到文本分類、自然語言處理以及對抗網(wǎng)絡(luò)等領(lǐng)域,并且在學(xué)術(shù)研究和實際應(yīng)用場景中證明了膠囊網(wǎng)絡(luò)的表現(xiàn)普遍優(yōu)于當(dāng)前場景最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型[3,4]。

        目前來看,膠囊網(wǎng)絡(luò)亦存在一些不足:一是經(jīng)典路由使用前必須告知輸入數(shù)據(jù)的類別總數(shù),過度依賴先驗知識的人工確定,不具備自主學(xué)習(xí)的能力;二是主流膠囊網(wǎng)絡(luò)本質(zhì)上均為監(jiān)督學(xué)習(xí),強(qiáng)烈依賴數(shù)據(jù)標(biāo)定,在面對無標(biāo)注數(shù)據(jù)時,缺乏提煉抽象本征特征參數(shù)的能力。

        針對第1個不足,文獻(xiàn)[5]提出利用變分路由來克服。首先,基于變分路由的膠囊網(wǎng)絡(luò)作用于矩陣膠囊,與向量膠囊相比,有特征區(qū)別度高和計算量小的優(yōu)勢;其次,通過使用對數(shù)據(jù)先驗干涉少的高斯混合模型(Gaussian Mixture Model, GMM)來擬合低級膠囊,滿足自動確定數(shù)據(jù)類別數(shù)的要求,增強(qiáng)了網(wǎng)絡(luò)的魯棒性;最后,利用變分法擬合近似分布,避免了參數(shù)最大似然點估計,置信度計算提高了泛化性能[6]。本文在前期工作的基礎(chǔ)上補(bǔ)充了更廣泛的實驗,用來展示變分路由的性能和優(yōu)勢,并對算法進(jìn)行了更為詳盡的闡述和分析。

        針對第2個不足,本文嘗試構(gòu)建一個能作用無監(jiān)督學(xué)習(xí)的新型膠囊網(wǎng)絡(luò)結(jié)構(gòu),提出了一種基于互信息評價的膠囊自編碼器。該模型有如下優(yōu)勢:(1)引入局部編碼器。使網(wǎng)絡(luò)擁有從局部特征到全局特征的認(rèn)知過程;(2)保留了對象空間特征。編碼器的輸出為膠囊結(jié)構(gòu),這樣的矢量結(jié)構(gòu)能夠在保留原始空間特征的同時增強(qiáng)網(wǎng)絡(luò)魯棒性;(3)實現(xiàn)了特征的篩選。利用基于矢量重構(gòu)的互信息作為損失函數(shù)修正網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)具備對編碼膠囊的篩選能力,只保留最特別的編碼特征。

        本文結(jié)構(gòu)安排如下:第2節(jié)闡述了經(jīng)典膠囊網(wǎng)絡(luò)的實現(xiàn)原理;第3節(jié)給出變分路由的詳盡推導(dǎo)以及基于互信息的膠囊自編碼器模型;第4節(jié)對上述創(chuàng)新工作進(jìn)行了實驗驗證和分析;第5節(jié)給出本文的總結(jié)。

        2 經(jīng)典膠囊網(wǎng)絡(luò)

        2.1 膠囊

        膠囊的靈感來源于大腦視覺皮層中的微柱體,定義為一定數(shù)量的單神經(jīng)元以某種形式的組合[7]。經(jīng)典膠囊的組成方式有向量和矩陣兩種,向量膠囊以列向量形式存在,而矩陣膠囊則包含了神經(jīng)元、姿勢矩陣和一個標(biāo)量激活值。若膠囊網(wǎng)絡(luò)的輸入數(shù)據(jù)類別為K,那么最終會得到K個高級膠囊,每個高級膠囊中包含的不同特征值代表輸入數(shù)據(jù)的不同屬性,比如手寫數(shù)字線條的粗細(xì)、傾斜程度和大小等。高級向量膠囊的長度表示網(wǎng)絡(luò)將該輸入判斷為當(dāng)前膠囊所對應(yīng)類別的概率,因此模長最長的膠囊決定了網(wǎng)絡(luò)對當(dāng)前輸入的預(yù)測輸出。高級矩陣膠囊中姿勢矩陣的不同元素對應(yīng)網(wǎng)絡(luò)提取的不同特征,激活值大小表示使用對應(yīng)低級膠囊的姿勢矩陣激活高級膠囊的概率。

        2.2 路由

        膠囊網(wǎng)絡(luò)使用路由算法將初始膠囊分組形成高級膠囊,使網(wǎng)絡(luò)各層之間能夠更好地傳遞數(shù)據(jù),經(jīng)典路由算法有動態(tài)路由和期望最大化(Expectation Maximization, EM)路由兩種。

        EM路由作用于矩陣膠囊,使用GMM分布對初始膠囊間的特征進(jìn)行擬合,然后利用 EM算法迭代計算所需特征服從的各分布函數(shù)的最佳擬合參數(shù),其中特征所屬類別以分布函數(shù)相關(guān)參數(shù)(均值、方差等)來決定[8]。EM路由是兩階段的迭代算法,可分為E步和M步。步驟E計算初始膠囊i間特征符合高級膠囊j分布的先驗概率;步驟M在掌握先驗概率的基礎(chǔ)上,將先驗分布的期望最大化,計算得到膠囊j和后驗概率值(將膠囊i分配給膠囊j的概率),分別代表矩陣膠囊結(jié)構(gòu)中的姿勢矩陣和激活值。然后將膠囊j和概率值代入E步計算,同樣迭代3次完成EM路由。最終輸出高級膠囊的姿勢矩陣和激活值,其中4×4姿態(tài)矩陣是由GMM的16個期望值構(gòu)成的,代表將給定特征分配給當(dāng)前高級特征后所有給定特征的平均值,激活值表示給定特征被當(dāng)前高級膠囊激活的概率。

        2.3 損失函數(shù)

        網(wǎng)絡(luò)模型參數(shù)的初始化具有隨機(jī)性,因此需通過網(wǎng)絡(luò)的反向傳播,以最小化損失函數(shù)為目的,不斷修正這些參數(shù),使網(wǎng)絡(luò)的預(yù)測輸出更準(zhǔn)確。經(jīng)典膠囊網(wǎng)絡(luò)有傳播和邊緣兩種損失函數(shù)。若將高級膠囊j預(yù)測為當(dāng)前圖像的高級抽象特征,那么傳播目標(biāo)函數(shù)公式為

        其中,at是 標(biāo)簽對應(yīng)的正確激活值,aj是除標(biāo)簽外對應(yīng)的其他錯誤的激活值,如果at和aj的邊距小于m,則通過m?(at ?aj) 的平方懲罰它。一般將m初始化為0.2,在每一次迭代訓(xùn)練后線性增加0.1。當(dāng)m達(dá)到最大值0.9后會停止增長。其中從較低的邊距開始訓(xùn)練使網(wǎng)絡(luò)懲罰比較寬松,能夠避免在早期階段出現(xiàn)太多的死膠囊。如果網(wǎng)絡(luò)以0.9或更高的概率預(yù)測正確的類別,則函數(shù)將返回0。否則,如果置信度小于0.9,則返回0~1的數(shù)字。網(wǎng)絡(luò)的總傳播目標(biāo)函數(shù)可以表示為

        邊緣目標(biāo)函數(shù)表示為

        其中,Tj表 示對象j的存在與否,如果對象j存在,則Tj=1 ,否則Tj=0 。|vj| 表 示對高級膠囊j取模長,λ是調(diào)整左右部分的比重系數(shù)。m1和m2是對網(wǎng)絡(luò)分別表示識別出錯和未識別出來的懲罰參數(shù)。通常設(shè)m1=0.9,m2=0.1,λ=0.5。也就是如果分類正確應(yīng)該滿足兩個條件:(1)高級膠囊j的模長不應(yīng)該小于0.9;(2)其他高級膠囊的模長都應(yīng)該小于0.1,其中條件(1)的重要性高于條件(2)兩倍。若輸入數(shù)據(jù)集類別數(shù)為K,那么所有高級膠囊的總損失函數(shù)為

        3 改進(jìn)方法

        3.1 基于變分路由的膠囊網(wǎng)絡(luò)

        3.1.1 變分路由

        變分路由是可以在不計算最大似然解的情況下,完成對初始膠囊特征間的聚合過程,同時還能自適應(yīng)高級膠囊類別數(shù),因此網(wǎng)絡(luò)具有一定的抗過擬合能力。變分路由將潛在變量和未知參數(shù)都作為不 可 觀 測 變 量,使 用θ={θ1...θi...θk}表 示,k表示不可觀測變量數(shù),X={x1...xi...xm}表示可觀測變量的集合,m表示可觀測變量的個數(shù)。假設(shè)不可觀測變量都存在各自的先驗概率分布,且互相獨立,根據(jù)平均場理論[9],概率分布q(θ)可以分解表示為

        其中,qi(θi) 為θi的概率分布??紤]所有可觀測變量和不可觀測變量聯(lián)合概率分布的對數(shù),就可以得到qi(θi)的最優(yōu)解的對數(shù)[10]

        其中,p(X,θi)是 輸入數(shù)據(jù)X和變量θi的真實聯(lián)合概率分布,qi?(θi)表 示不可觀測變量θi的近似分布。變分路由實則基于各個獨立分布形成的變分分布來近似隱藏變量的條件分布,然后最優(yōu)化每個獨立分布來達(dá)到混合分布的最優(yōu)化。

        變分路由使用GMM對高級膠囊建模,然后將初始膠囊中的特征視為擬合GMM的數(shù)據(jù)點,計算擬合分布的過程就是計算高級膠囊的過程。矩陣膠囊中姿勢矩陣代表的是對數(shù)據(jù)提取的抽象特征,通過對姿勢矩陣進(jìn)行分組、聚合來實現(xiàn)特征間的聚合。設(shè)初始膠囊位于網(wǎng)絡(luò)的L層,高級膠囊位于網(wǎng)絡(luò)的L+1層,n∈layerl,k ∈layerl+1。將初始膠囊的姿勢矩陣Mn乘 以一個4 ×4的視角不變轉(zhuǎn)換矩陣Wnk, 然后得到一個4 ×4 投 票矩陣Vnk, 其中Wnk通過網(wǎng)絡(luò)的反向傳播學(xué)習(xí)更新。那么初始膠囊n被分組整合到高級膠囊k的概率,是基于投票矩陣Vnk與其他初始膠囊對高級膠囊k的投票{Vik,i ?=n}的接近程度。本文將初始膠囊的投票矩陣Vnk作為可觀測變量,由V={ν1...νm...νM}表示,其中M=N×K,表示投票矩陣的數(shù)量,每個矩陣νm具有16個神經(jīng)元,對應(yīng)于被提取的16個原始圖像特征數(shù)據(jù),該元素表示為νmd。 對于每個觀察量νm,本文都設(shè)定一個對應(yīng)的潛在變量θi, 表示為θ={θ1...θn...θN},變量θn有k個維度,對應(yīng)數(shù)據(jù)集類別數(shù),θn的數(shù)據(jù)形式是one-hot向量(只有類別k對應(yīng)的元素為1,其余元素均為0),元素表示為θnk。

        投票矩陣νm符合的高斯混合概率分布公式為

        其中,π={πk}表示高斯混合分布中不同分布的占比大小集合,μ={μk}是高斯混合分布中各分布均值的集合,Λ={Λk}是各分布的協(xié)方差集合,下標(biāo)k表示第k個混合分布的相關(guān)參數(shù),p(νm)表 示νm所屬的高級膠囊分布。為了獲得完整數(shù)據(jù)集聯(lián)合分布p(ν,θ), 需計算后驗概率p(θ/v),本文使用變分推斷的方法計算后驗概率p(θ/v)的 近似解q(θ),根據(jù)式(6)可以得

        其中

        表1給出了變分路由算法的偽代碼。變分路由是由VBE步和VBM步構(gòu)成的兩階段迭代優(yōu)化算法,VBE步根據(jù)當(dāng)前參數(shù)計算先驗分布表達(dá)式,VBM步根據(jù)求得的后驗分布將期望最大化,然后更新參數(shù)。其中rnk ←rnk·a表示用a與rnk的點乘對rnk進(jìn)行修正,Nk表示每個圖像中投票矩陣V對類別歸屬的總和,mk表示每個圖像中姿勢矩陣對原始圖像的高級抽象特征值的平均值。通過偽代碼可以更加清晰地展示變分路由算法的整體思想,在初始膠囊層和高級膠囊層間以迭代計算VBE步和VBM步的方式,將初始膠囊分配到對應(yīng)高斯分布中。VBE步確定初始膠囊分配到高級膠囊的概率為rnk,并更新先驗分布的各個參數(shù)。VBM步基于rnk重新計算GMM的各參數(shù)Nk,ν?k和Sk等。迭代結(jié)束后得到的mk和Nk分別經(jīng)過維度轉(zhuǎn)換函數(shù),計算高級膠囊的姿勢矩陣與標(biāo)量激活值。然后使用姿勢矩陣重構(gòu)原始圖片,使用標(biāo)量激活值預(yù)測原始圖像類別。

        表1 變分路由算法偽代碼

        3.1.2 網(wǎng)絡(luò)架構(gòu)與實現(xiàn)

        圖1給出了基于變分路由的膠囊網(wǎng)絡(luò)模型示意圖。網(wǎng)絡(luò)由6層組成,分別為輸入層、普通卷積層、初始膠囊層、卷積膠囊層和分類膠囊層。網(wǎng)絡(luò)的預(yù)測輸出根據(jù)分類膠囊層里高級膠囊中的激活值a決定,每一個高級膠囊對應(yīng)一個類別,擁有最大激活值a的高級膠囊對應(yīng)類別為網(wǎng)絡(luò)的預(yù)測輸出。高級膠囊中姿勢矩陣元素值由該類圖像特性的平均值組成。

        圖1 基于變分路由的膠囊網(wǎng)絡(luò)模型示意圖

        初始膠囊層中用17個1×1的卷積核,以1為步長,將32個輸入通道轉(zhuǎn)換為32個膠囊特征圖,每個膠囊包含一個4×4的姿勢矩陣和一個激活值,共有17維。使用S形曲線函數(shù)激活得到輸出,命名為初始膠囊。網(wǎng)絡(luò)總共輸出12×12×32個初始膠囊,包含1 2×1 2×3 2 個4×4 的姿勢矩陣和1 2×1 2×32×1個激活值,表示為(12, 12, 32, 17)。

        卷積膠囊層中實現(xiàn)了膠囊版的卷積,對姿勢矩陣和激活值分別以卷積核為5×5,步長為2的滑動窗口做卷積,得到4×4×32個中級膠囊,表示為(4,4, 32, 17)。

        分類膠囊層,這一層使用變分路由算法將中級膠囊以部分─整體的方式形成高級膠囊,這些高級膠囊即為網(wǎng)絡(luò)對原始輸入圖像的高級特征抽象表示。網(wǎng)絡(luò)最終輸出10個高級膠囊,對應(yīng)數(shù)據(jù)的10個類別,表示為(10, 17)。

        輸出層被設(shè)置為經(jīng)典的Softmax函數(shù)。

        3.2 基于互信息的膠囊自編碼器

        3.2.1 膠囊自編碼器

        膠囊自編碼器結(jié)構(gòu)如圖2所示,包含以下部分:局部編碼器H(x) 、 全局編碼器G(h)、解碼器和路由算法。首先H(x)通 過計算得到原始輸入x的局部編碼膠囊h,接著h利用網(wǎng)絡(luò)的分支結(jié)構(gòu)對應(yīng)兩個輸出,一個輸出編碼h,一個將h作為輸入連接到G(h), 經(jīng)過全局編碼后輸出全局編碼膠囊g。然后將h和g進(jìn)行拼接得到初始編碼膠囊,再經(jīng)過路由計算得到高級編碼膠囊。最后將高級編碼膠囊輸入解碼器中重構(gòu)原始輸入圖像。

        圖2 膠囊自編碼器結(jié)構(gòu)示意圖

        3.2.2 互信息評價準(zhǔn)則

        模型需要一個損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)參數(shù)。文獻(xiàn)[13]通過最大化互信息來學(xué)習(xí)數(shù)據(jù)的高效表征[14]。本文受到啟發(fā),提出使用基于互信息評價準(zhǔn)則的損失函數(shù)來訓(xùn)練膠囊自編碼器。

        假設(shè)X表示原始輸入圖像x的集合、G表示全局編碼膠囊g的集合、H表示局部編碼膠囊h的集合。首先考慮X和G之間的全局互信息L ossl的計算。按照基本定義,兩者的互信息可表示為

        另一方面,假定g服從先驗高斯分布q(g)(選擇高斯分布可以使編碼膠囊的規(guī)整度更高且人為干預(yù)少),那么,人為假設(shè)的分布q(g)與 真實分布p(g)之間就會存在偏差,而這種偏差應(yīng)越小越好,KL散度適合用來量化這種偏差[16],其優(yōu)化目標(biāo)為

        其中, Ep(x)(·)表 示關(guān)于p(x) 的 數(shù)學(xué)期望,m和n分別為加權(quán)系數(shù)?;バ畔㈨椥枰ㄟ^最大化KL距離完成最大化互信息,但是KL函數(shù)值域為[ 0,+∞),無法實現(xiàn)最大化。另外,KL函數(shù)關(guān)于自變量不對稱,在訓(xùn)練中會因為輸入數(shù)據(jù)順序的不同而得到不同的結(jié)果。因此可以選取JS散度來表示互信息的最大化[17],JS散度定義為

        使用負(fù)采樣的方法對JS散度進(jìn)行計算[18],得到

        3.2.3 網(wǎng)絡(luò)架構(gòu)與實現(xiàn)

        為了能夠直觀衡量網(wǎng)絡(luò)特征提取質(zhì)量,本文在模型中設(shè)計了分類計算模塊,如圖3所示。網(wǎng)絡(luò)獲取局部和全局編碼膠囊后,將其結(jié)合成初始編碼膠囊,接著利用動態(tài)路由算法對初始編碼膠囊進(jìn)行特征聚合得到高級編碼膠囊,并使用高級編碼膠囊的長度代表對應(yīng)類別的概率,此時需要將高級編碼膠囊經(jīng)過Squash函數(shù)得到歸一化概率值,并視最大概率值所在位置的類別為預(yù)測輸出,最后根據(jù)數(shù)據(jù)標(biāo)簽計算網(wǎng)絡(luò)預(yù)測準(zhǔn)確率。在進(jìn)入解碼器之前,我們對高級編碼膠囊進(jìn)行掩碼操作(將非預(yù)測類別對應(yīng)特征置為0,只保留預(yù)測類別對應(yīng)的特征),然后解碼器使用全連接網(wǎng)絡(luò)重構(gòu)輸入圖像,以判斷網(wǎng)絡(luò)學(xué)習(xí)到的高級編碼膠囊是否提取到足夠的能重構(gòu)原始輸入的特征。

        圖3 基于互信息的膠囊自編碼器評估模型

        表2給出了膠囊自編碼器中的動態(tài)路由算法的偽代碼。其中b為網(wǎng)絡(luò)初始編碼膠囊的初始化偏置,c為初始編碼膠囊投票是否分配給高級編碼膠囊的權(quán)重系數(shù),c通過對b進(jìn)行softmax得到。h和g分別為局部和全局編碼膠囊、H(x) 和G(h)分別為對應(yīng)的局部和全局編碼器。u為投票矩陣,表示網(wǎng)絡(luò)對當(dāng)前特征是否聚集到某高級膠囊的投票。w是視角不變矩陣,網(wǎng)絡(luò)通過w獲得視點等變性。concat(?)表示對?中元素進(jìn)行拼接。s為高級編碼膠囊的集合,設(shè)定s中每個高級編碼膠囊的長度表示對應(yīng)投票正確的概率,因此需要對s進(jìn)行歸一化處理。本文使用S quash函數(shù)來完成歸一化,然后得到輸出編碼膠囊v。 那么v中膠囊的模長將被壓縮為0~1,模長最大的膠囊所在位置的對應(yīng)類別被網(wǎng)絡(luò)認(rèn)為是最正確的投票,即為網(wǎng)絡(luò)對輸入的預(yù)測輸出。路由算法中的各種參量都需要通過網(wǎng)絡(luò)的反向傳播來進(jìn)行學(xué)習(xí)。本文使用互信息作為反向傳播的損失函數(shù),由局部互信息 L ossh、全局互信息L ossl和先驗損失Lossp的加權(quán)和組成,損失函數(shù)表示為

        表2 基于編碼膠囊的路由偽代碼

        4 實驗

        4.1 數(shù)據(jù)庫

        本文實驗使用了4個數(shù)據(jù)集,分別是MNIST[19],FashionMNIST[20], CIFAR-10[18]和CIFAR-100[18]。MNIST數(shù)據(jù)集由200多個不同職位的人的手寫阿拉伯?dāng)?shù)字構(gòu)成(10類)。數(shù)據(jù)集總共包含70000個樣本,每個樣本都帶有標(biāo)簽。FashionMNIST數(shù)據(jù)集則是由德國的一家時尚科技公司旗下部門提供,由日常衣物鞋類構(gòu)成。與MNIST數(shù)據(jù)集一樣,總共有70000個樣本圖片,分為10類,每類有7000張圖片。CIFAR-10數(shù)據(jù)集是深度學(xué)習(xí)研究中使用最廣泛的數(shù)據(jù)集之一,由60000張普適物體圖片集組成。每張圖片有RGB(紅、綠、藍(lán))3個通道,包含鳥類、狗、輪船和卡車等生活常見物體,一共10個類別,每個類別分別有6000張圖像。CIFAR-100數(shù)據(jù)集是一個相對比較復(fù)雜的數(shù)據(jù)集,由60000張圖片組成,共100個類別,每個類別包含600張圖片。

        4.2 基于變分路由的膠囊網(wǎng)絡(luò)實驗分析

        4.2.1 分類準(zhǔn)確率評估

        圖4展示了采用變分路由算法的膠囊網(wǎng)絡(luò)分類準(zhǔn)確性隨著處理批次(epoch)增加的變化曲線。其中,分別將MNIST和FashionMNIST中的55000張圖片作為訓(xùn)練集,剩余15000張作為測試集。

        從圖4中可以發(fā)現(xiàn),MNIST由于圖像呈現(xiàn)形式簡單,因此經(jīng)過9個epoch,性能基本穩(wěn)定;相比較之下,F(xiàn)ashionMNIST中圖像類別差異性較大,更為復(fù)雜,導(dǎo)致模型收斂速度相對較慢。在MNIST數(shù)據(jù)集上,變分模型平均分類準(zhǔn)確率可以達(dá)到99.50%;在FashionMNIST數(shù)據(jù)集上達(dá)到了93.50%,驗證了數(shù)據(jù)集復(fù)雜度不同對模型預(yù)測能力的影響。

        圖4 變分路由膠囊網(wǎng)絡(luò)分類準(zhǔn)確性

        表3對比了經(jīng)典CNN, ResNet[21]和Inception-V3[22]、基本膠囊網(wǎng)絡(luò)(Capsule Network, CN)和變分膠囊網(wǎng)絡(luò)(Variational Bayesian Capsule Network,VBCN)在上述兩個數(shù)據(jù)集上的測試效果??梢园l(fā)現(xiàn):在MNIST上,VBCN比CN提升了0.2個百分點的準(zhǔn)確率,在FashionMNIST前者比后者提升了1%左右的準(zhǔn)確率。相比較經(jīng)典CNN而言,膠囊網(wǎng)絡(luò)具有明顯分類增益,體現(xiàn)了潛在結(jié)構(gòu)的優(yōu)勢。相比較于ResNet和Inception-V3這些改進(jìn)后的CNN,VBCN在MNIST上的準(zhǔn)確率要高于這兩個網(wǎng)絡(luò),但是在FashionMNIST數(shù)據(jù)集上要低于這兩個網(wǎng)絡(luò)。對于MNIST這種簡單的數(shù)據(jù)集,膠囊網(wǎng)絡(luò)通過向量建模的方式要優(yōu)于CNN網(wǎng)絡(luò)。但是對于復(fù)雜的數(shù)據(jù)集,因為路由網(wǎng)絡(luò)需要消耗巨大計算資源的限制,無法像CNN一樣堆疊很多層去提取特征,因此性能表現(xiàn)暫時劣于CNN的改進(jìn)模型。這一結(jié)果給后期膠囊網(wǎng)絡(luò)的改進(jìn)提出了新的思路和啟示。

        表3 分類準(zhǔn)確率對比(%)

        4.2.2 模型泛化能力評估

        為了測試和驗證模型對數(shù)據(jù)異構(gòu)性的適應(yīng)能力,即模型泛化性能,本文仿照文獻(xiàn)[2]設(shè)計了兩個擴(kuò)展數(shù)據(jù)集:Two_MNIST和Two_FashionMNIST。這兩個數(shù)據(jù)集分別由原始MNIST和FashionMNIST樣本在垂直方向上拼接構(gòu)成。標(biāo)簽為包含兩個元素的數(shù)組構(gòu)成,依次記錄被拼接的兩個樣本標(biāo)簽。

        表4給出了分類準(zhǔn)確率的對比結(jié)果。其中標(biāo)簽“Two_MNIST”表示用MNIST數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),人工生成的Two_MNIST數(shù)據(jù)集作為測試集的結(jié)果。標(biāo)簽“Two_FashionMNIST”具有類似含義。訓(xùn)練數(shù)據(jù)為55000張,測試數(shù)據(jù)為15000張,圖樣與訓(xùn)練數(shù)據(jù)不重疊。從表4中可以看出:得益于CN的優(yōu)秀結(jié)構(gòu)化設(shè)計,CN比CNN, ResNet,Inception-V3等CNN有大幅的性能增益,從另一個側(cè)面反映了CNN對形變和圖像內(nèi)容姿勢變化的敏感性,而這點恰好是CN的長處,即CN就是為了克服CNN的該缺陷所提出來的。另外,VBCN比CN也有一定程度的效果提升,這主要得益于VBVN的變分估計是“集合”估計,而CN的模型估計是“點”估計,前者精準(zhǔn)性更佳。

        表4 泛化性對比(%)

        4.3 基于互信息的膠囊自編碼器實驗分析

        4.3.1 基于最鄰近樣本的互信息機(jī)制評估

        為了可視化基于互信息機(jī)制的特征分類能力,通過設(shè)置式(32)中不同的ε和ρ的值來調(diào)節(jié)局部互信息和全局互信息在網(wǎng)絡(luò)中比重,從而來觀察兩者對最終效果的影響。為保證實驗的公平性,保持先驗損失L ossp的 權(quán)重τ不變,只交替的改變局部互信息Lossh和 全局互信息L ossl的權(quán)重。

        圖5-圖7分別給出了CIFAR-10數(shù)據(jù)集在下述3種不同情況下的最鄰近樣本圖:情況1下設(shè)ε=2,ρ=1,τ=0.01 ;情 況2下 設(shè)ε=1 ,ρ=0 ,τ=0.01;情況3下設(shè)ε=0,ρ=1,τ=0.01。實驗測試發(fā)現(xiàn)當(dāng)將ε設(shè)置為與ρ相 等時能達(dá)到最好的效果,將τ設(shè)為較小的數(shù)是為了降低先驗信息對網(wǎng)絡(luò)的影響。待這3種情況達(dá)到收斂狀態(tài)后,實驗使用歐氏距離衡量當(dāng)前測試樣本和其他測試樣本的相似程度,即圖5-圖7,其中第1列為10個隨機(jī)抽取的原始樣本,其余9列同排樣本表示網(wǎng)絡(luò)計算所得最鄰近的9個測試樣本,按歐氏距離由大到小排列。

        圖5 情況1下的最鄰近樣本示意圖

        觀察圖5可以發(fā)現(xiàn),網(wǎng)絡(luò)能夠通過不同測試數(shù)據(jù)的高級編碼膠囊的相似度,判斷輸入是否為同一類別。如第1行,最左側(cè)為原始樣本卡車,然后通過計算相似度得到的9個最鄰近樣本都同為卡車。說明高級編碼膠囊能夠較為理想地代表原始輸入圖像。

        經(jīng)對比觀察圖6和圖7,可以了解到全局互信息和局部互信息損失的系數(shù)ε和ρ值會對準(zhǔn)確率產(chǎn)生一定影響,良好的分類性能高度依賴于局部項,局部互信息的缺少會導(dǎo)致網(wǎng)絡(luò)的分類能力驟降。實驗驗證了網(wǎng)絡(luò)通過引入局部編碼器和局部互信息,不僅獲得了從局部看待整體的能力,還能夠提升網(wǎng)絡(luò)的分類能力。

        圖6 情況2下的最鄰近樣本示意圖

        圖7 情況3下的最鄰近樣本示意圖

        4.3.2 分類準(zhǔn)確率評估

        本實驗通過計算分類計算準(zhǔn)確率來定量分析和比較改進(jìn)模型和經(jīng)典模型的優(yōu)劣。在實驗中發(fā)現(xiàn)[1],如果向損失函數(shù)中添加邊緣目標(biāo)函數(shù),會提高網(wǎng)絡(luò)的分類準(zhǔn)確率。因此,本次實驗在損失函數(shù)中加入邊緣目標(biāo)函數(shù),并給邊緣目標(biāo)函數(shù)添加一個較小的系數(shù),以使互信息損失占主導(dǎo)地位。表5給出了兩種對比方法針對每個類別測試時的準(zhǔn)確率結(jié)果,其中訓(xùn)練數(shù)據(jù)為各類標(biāo)簽總共50000張圖片,測試數(shù)據(jù)為各自類別剩余的總共10000張圖片。

        對比分析表5中數(shù)值,改進(jìn)的CN模型在測試集上達(dá)到了平均72%的準(zhǔn)確率,相比經(jīng)典CN模型準(zhǔn)確率提高了7%左右。此實驗進(jìn)一步證明本文模型提取的編碼膠囊,能夠高效代表輸入圖像特征,且能夠直接通過分類計算模塊,實現(xiàn)高準(zhǔn)確率分類,無需重新使用其他網(wǎng)絡(luò)模型對其訓(xùn)練分類。

        表5 CIFAR-10測試準(zhǔn)確率對比

        除了在CIFAR10數(shù)據(jù)集上測試我們模型的性能,本文還在CIFAR100數(shù)據(jù)集上做了實驗。對比分析表6中數(shù)值,改進(jìn)CN模型比經(jīng)典CN模型準(zhǔn)確率提高了5.35%左右。這說明了在復(fù)雜數(shù)據(jù)集的情況下,互信息損失函數(shù)能夠?qū)崿F(xiàn)對編碼膠囊的有效挑選,將最具辨別性的特征編碼成膠囊去做分類,從而提高了網(wǎng)絡(luò)的識別效果。

        表6 CIFAR-100測試準(zhǔn)確率對比(%)

        5 結(jié)論

        本文針對膠囊網(wǎng)絡(luò)的基本結(jié)構(gòu)進(jìn)行了研究,提出了提高其特征提取能力和泛化能力的優(yōu)化方法。本文的主要貢獻(xiàn)如下:

        (1)提出了基于變分路由的膠囊網(wǎng)絡(luò),通過實驗驗證了其分類、特征表示和泛化的能力,證明了基于變分路由的膠囊網(wǎng)絡(luò)在遷移學(xué)習(xí)和特征整合上優(yōu)于基本模型CNN;

        (2)通過對基于矢量重構(gòu)的互信息損失函數(shù)的推導(dǎo),使膠囊自編碼器獲得了對編碼膠囊的篩選能力,只保留膠囊中對原始輸入進(jìn)行識別分類最有效的特征,在減輕網(wǎng)絡(luò)計算負(fù)擔(dān)的同時提高了網(wǎng)絡(luò)分類識別的能力。

        国产成人大片在线播放| 2021国产最新在线视频一区| 国产精品国产自线拍免费| 国产精品成年人毛片毛片| 在线精品国产亚洲av蜜桃| 99热这里有精品| 国产精品亚洲一区二区无码国产| 亚洲啊啊啊一区二区三区| 91偷自国产一区二区三区| 少妇伦子伦精品无吗| 国产又黄又猛又粗又爽的a片动漫| 精品久久久久久午夜| 一本色道加勒比精品一区二区| 中文字幕日韩精品有码视频| 老熟妻内射精品一区| 国产在线视频h| 亚洲黄色精品在线播放| 中文字幕乱码高清完整版| 一卡二卡三卡视频| 蜜臀av一区二区三区人妻在线| 久久一区二区国产精品| 无码人妻精品一区二区蜜桃网站| 日韩AV不卡六区七区| av网站影片在线观看| 国产三级视频不卡在线观看| 欧美xxxx色视频在线观看 | 国产乱码一区二区三区爽爽爽| 精品国产亚洲AⅤ麻豆| 精品日本一区二区视频| 一区二区三区国产在线视频| 人人爽久久涩噜噜噜av| 中文字幕不卡高清免费| 我想看久久久一级黄片| 精品伊人久久大线蕉色首页| 亚洲男人av香蕉爽爽爽爽| 中文字幕乱码av在线| 真实夫妻露脸爱视频九色网| 男女啪啪无遮挡免费网站| 欧美色资源| 午夜理论片日本中文在线| 国产肉体xxxx裸体784大胆|