亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自適應(yīng)特征融合與轉(zhuǎn)換的小樣本圖像分類

        2022-12-22 11:47:16劉小明劉濟(jì)宗郭清宇
        關(guān)鍵詞:特征提取特征模型

        許 棟,楊 關(guān),劉小明,劉 陽(yáng),劉濟(jì)宗,陳 靜,郭清宇

        1.中原工學(xué)院 計(jì)算機(jī)學(xué)院,鄭州 450007

        2.河南省網(wǎng)絡(luò)輿情監(jiān)測(cè)與智能分析重點(diǎn)實(shí)驗(yàn)室,鄭州 450007

        3.中原工學(xué)院 前沿信息技術(shù)研究院 網(wǎng)絡(luò)輿情研究中心,鄭州 450007

        4.西安電子科技大學(xué) 通信工程學(xué)院,西安 710071

        深度學(xué)習(xí)在圖像處理[1]和自然語言處理[2]等領(lǐng)域有著廣泛的應(yīng)用,但是傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)大多依賴大量的數(shù)據(jù)。由于數(shù)據(jù)的采集等過程需要耗費(fèi)大量的資源,并且人工標(biāo)注存在著一定失誤,所以建立一個(gè)大型數(shù)據(jù)集代價(jià)高昂,這在一定程度上制約著深度學(xué)習(xí)的發(fā)展。因此,適用于少量標(biāo)注數(shù)據(jù)訓(xùn)練的小樣本學(xué)習(xí)[3]甚至零樣本學(xué)習(xí)[4]也就應(yīng)運(yùn)而生。小樣本學(xué)習(xí)是元學(xué)習(xí)[5]在監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用,通過一定的先驗(yàn)知識(shí),利用少量具有標(biāo)注信息的樣本進(jìn)行特定的任務(wù)應(yīng)用。

        現(xiàn)有的小樣本學(xué)習(xí)方法有四種基本策略:基于數(shù)據(jù)、基于模型、基于外部記憶、基于參數(shù)[6]?;跀?shù)據(jù)的方法通過使用先驗(yàn)知識(shí)來擴(kuò)充小樣本訓(xùn)練集,在增強(qiáng)的樣本集上再利用傳統(tǒng)的機(jī)器學(xué)習(xí)算法建模,從而使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化[7]?;谀P偷姆椒▌t使用先驗(yàn)知識(shí)縮小假設(shè)空間H,在H空間中,小樣本數(shù)據(jù)集更容易得到穩(wěn)定可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化效果?;谕獠恐R(shí)則是向模型中添加額外的記憶知識(shí)來保存信息,助力模型學(xué)習(xí)。基于參數(shù)的方法同樣使用了先驗(yàn)知識(shí),目的是搜尋假設(shè)空間中使得模型效果最好的超參數(shù)θ,先驗(yàn)知識(shí)用于提供合理的參數(shù)初始化或者用于指導(dǎo)更改參數(shù)搜索策略,從而訓(xùn)練出較好泛化性能的模型。除了MatchingNet[8]、Protonet[9]、RelationNet[10]等經(jīng)典模型,越來越多的小樣本模型開始涌現(xiàn)。

        Huang等人[11]提出了利用泊松學(xué)習(xí)算法(Poisson transfer network,PTN)來改進(jìn)標(biāo)簽傳遞,PTN主要設(shè)計(jì)用于半監(jiān)督的少量樣本分類模型,并進(jìn)一步增強(qiáng)了嵌入對(duì)比自我監(jiān)督學(xué)習(xí)的特征,然后通過使用基于圖的方法來改進(jìn)推理過程。Ye等人[12]提出了直接調(diào)整特征的方法,使用set-to-set函數(shù)將一組任務(wù)不確定的特征轉(zhuǎn)化為特定的特征,并且使用了transformer這種較為復(fù)雜的結(jié)構(gòu)來提升效果。Yoon等人[13]提出了XtarNet來學(xué)習(xí)任務(wù)場(chǎng)景特定的特征,其中,模型在基礎(chǔ)數(shù)據(jù)集中進(jìn)行訓(xùn)練,來適應(yīng)給定的新類數(shù)據(jù)集,從而應(yīng)用于新類的分類。但是包括這些方法在內(nèi)的大部分方法的改進(jìn)效果幾乎掩蓋了特征提取所帶來的增益。DenseNet[14]等經(jīng)典網(wǎng)絡(luò)模型表明了特征的有效提取對(duì)于模型效果的重要性。更重要的是,由于小樣本學(xué)習(xí)數(shù)據(jù)采樣的特殊性,每次只有少量數(shù)據(jù)輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這可能造成模型無法充分提取與利用特征。Chen等人[15]指出,神經(jīng)網(wǎng)絡(luò)特征提取能力的大小影響著小樣本模型的表現(xiàn),對(duì)于領(lǐng)域相似的分布特征,這種影響更大。即特征提取成為影響模型性能的關(guān)鍵因素。目前小樣本學(xué)習(xí)模型采用諸如ResNet10、ResNet12等淺層網(wǎng)絡(luò),在有限層網(wǎng)絡(luò)和小樣本數(shù)據(jù)訓(xùn)練模式下,如何充分利用特征,是改進(jìn)模型、提高模型表現(xiàn)的一個(gè)重要方向。

        針對(duì)這些問題,提出了基于多分支自適應(yīng)加權(quán)特征提取模塊的神經(jīng)網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)主要包含以下兩個(gè)階段:

        (1)特征提取階段,通過引入多分支特征提取,使得模型在無需構(gòu)建較深網(wǎng)絡(luò)的情況下,能夠提取到豐富的特征,同時(shí)緩解了較深網(wǎng)絡(luò)中經(jīng)常出現(xiàn)的梯度爆炸和梯度消失;通過給予不同特征提取分支相應(yīng)的自適應(yīng)權(quán)重,使得在特征融合階段,分支能夠自適應(yīng)地抑制或者放大不同分支的特征信號(hào),從而能夠較好地融合特征。

        (2)特征相似度度量階段,通過引入自適應(yīng)的中心二范數(shù)歸一化(adaptive central L2 normalization,ACL2N)特征轉(zhuǎn)換層,使得模型對(duì)于不同域的特征能夠較好地適應(yīng),同時(shí)也起到了正則效果抑制過擬合,提高了模型在相似數(shù)據(jù)域和交叉數(shù)據(jù)域的準(zhǔn)確率。

        1 相關(guān)工作

        1.1 數(shù)據(jù)增強(qiáng)

        數(shù)據(jù)增強(qiáng)[16]是深度學(xué)習(xí)中一種最直接的提高模型性能的方法,通過對(duì)數(shù)據(jù)集進(jìn)行各種圖像預(yù)處理,進(jìn)而擴(kuò)充現(xiàn)有數(shù)據(jù)集。該方法利用先驗(yàn)知識(shí)擴(kuò)充訓(xùn)練集來增加樣本數(shù)量,豐富了監(jiān)督信息,從增強(qiáng)的樣本數(shù)據(jù)中就可獲得可靠的特征空間[17]。對(duì)于小樣本學(xué)習(xí)來說,恰當(dāng)?shù)貙?duì)數(shù)據(jù)集進(jìn)行相應(yīng)的處理會(huì)使得模型更合理地利用數(shù)據(jù),進(jìn)而提高模型的泛化能力。以實(shí)例可信度推斷(instance credibility inference)[18]為代表的數(shù)據(jù)增強(qiáng)方法就是引入了一種判斷機(jī)制來增加訓(xùn)練樣本。利用帶有置信度預(yù)測(cè)標(biāo)簽的類別未標(biāo)記數(shù)據(jù)來擴(kuò)充訓(xùn)練集,從而在一定程度上增強(qiáng)了模型的泛化能力,提高了模型的分類精度。但是通常情況下,數(shù)據(jù)增強(qiáng)只能生成與已知樣本相似分布的增廣數(shù)據(jù),所以一般作為輔助手段在數(shù)據(jù)預(yù)處理階段使用。

        1.2 嵌入學(xué)習(xí)

        將高維特征嵌入到低維空間進(jìn)行運(yùn)算是嵌入學(xué)習(xí)[19]的一大特點(diǎn)。將樣本特征xi∈X?Rd嵌入到低維以便于使相似的樣本在低維空間更加容易分類。根據(jù)支持集(support set)和查詢集(query set)[8]中特征提取器的同異,現(xiàn)有的嵌入學(xué)習(xí)模型主要分為兩類。一類是兩者的特征提取器相同,標(biāo)記為fs;另一類兩者的特征提取器則不同,標(biāo)記為fd1、fd2。前者由于具有相同的特征提取器,所以提取器可以公用,減少了模型的參數(shù),加快了推理時(shí)間;后者由于特征提取器不同,提取的特征更具有多樣性,增強(qiáng)了模型的魯棒性,在一定程度上對(duì)精度有著更好地提升。原型網(wǎng)絡(luò)[9]是典型的相同特征提取器fs方法,支持集和查詢集都使用卷積神經(jīng)網(wǎng)絡(luò)(con‐volutional neural networks,CNN)作為特征提取器。此外,還使用了歐氏距離作為度量方法來判斷相似性。與原型網(wǎng)絡(luò)不同,匹配網(wǎng)絡(luò)[8]的支持集特征提取器使用卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-long short-term memory,Bi-LSTM),而查詢集則使用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)作為特征提取器,并且使用余弦距離作為相似性度量方法。

        1.3 領(lǐng)域適應(yīng)

        小樣本學(xué)習(xí)的定義和訓(xùn)練模式意味著不可避免地出現(xiàn)跨域(cross domain)[20]問題:在基類上進(jìn)行訓(xùn)練,在新類上進(jìn)行測(cè)試,兩者沒有交集。域適應(yīng)旨在減少源域與目標(biāo)域之間的領(lǐng)域漂移問題。所以小樣本學(xué)習(xí)在一定程度上需要借助域適應(yīng)的方法來提高模型的效果。自從Yaroslav等人提出了域?qū)股窠?jīng)網(wǎng)絡(luò)[21],越來越多的方法基于此在特征級(jí)或者像素級(jí)層面上來縮小源域和目標(biāo)域之間的分布差異。然而這些方法都只是在一系列先驗(yàn)類別學(xué)到相應(yīng)特征參數(shù),對(duì)于小樣本中新類的分類效果只能起到一定的作用。趙小強(qiáng)等人[22]提出基于特征和類別對(duì)齊的領(lǐng)域適應(yīng)算法,通過使同域內(nèi)的樣本類密度最大和聯(lián)合判別網(wǎng)絡(luò)來降低類的錯(cuò)分率、實(shí)現(xiàn)類與域的對(duì)齊。

        2 模型方法

        小樣本圖像分類的流程可以歸納為數(shù)據(jù)預(yù)處理與載入、特征提取、相似度度量處理三個(gè)步驟。本章首先介紹了小樣本相關(guān)概念,其次探究了網(wǎng)絡(luò)層數(shù)對(duì)小樣本模型的影響,討論了小樣本模型網(wǎng)絡(luò)層數(shù)較淺的原因,接著引出本文在特征提取階段和相似度度量階段所改進(jìn)的方法。

        2.1 問題定義

        根據(jù)階段的不同,將小樣本模型需要采用的數(shù)據(jù)集分為三類。在訓(xùn)練階段,將訓(xùn)練集劃分為Base數(shù)據(jù)集和Val數(shù)據(jù)集。先驗(yàn)訓(xùn)練時(shí),使用Base數(shù)據(jù)集,記為其中xi∈RD,yi∈Yb分別是第i個(gè)輸入圖片和該圖片所屬的類別標(biāo)簽。Base數(shù)據(jù)集作為先驗(yàn)知識(shí)來訓(xùn)練模型,包含許多標(biāo)記的圖像。驗(yàn)證時(shí),使用驗(yàn)證集Val,標(biāo)記為其中yi∈Yv。測(cè)試階段,使用測(cè)試集Novel,標(biāo)記為,其中yi∈Yn。Novel數(shù)據(jù)集中包含著少量被標(biāo)記的圖片。三個(gè)數(shù)據(jù)集互不相交,即Db∩Dv∩Dn=?。

        在小樣本學(xué)習(xí)中,通常使用被稱為Episode的模式[8]來訓(xùn)練和測(cè)試模型,該模式又稱為K-way N-shot模式,其中,K-way表示有K個(gè)類,N-shot表示每類有N個(gè)樣本。在每個(gè)Episode階段,每次從Db采樣兩個(gè)子集來進(jìn)行訓(xùn)練 ,一 個(gè) 約 定 為 支 持 集Support Set:,一個(gè)約定為查詢集Que‐M的 含 義 同N。Dv和Dn的采樣方式也是如此。在這種模式下,基于嵌入學(xué)習(xí)的小樣本圖像分類模型的目的就是在訓(xùn)練階段,從Db中采樣出S和Q,S用于模型訓(xùn)練,Q用于預(yù)測(cè)標(biāo)簽;預(yù)測(cè)階段,從Db中采樣出S和Q,直接匹配兩者的相似度從而對(duì)Q進(jìn)行分類。

        2.2 小樣本的模型層數(shù)

        提升網(wǎng)絡(luò)模型性能的方法很多,如采用更大的數(shù)據(jù)集、更好的硬件等[23]。但一般而言,最直接的方法就是增加網(wǎng)絡(luò)的深度和寬度。采用深層網(wǎng)絡(luò)會(huì)提升模型的特征提取能力,但是需要學(xué)習(xí)大量參數(shù),由于小樣本學(xué)習(xí)數(shù)據(jù)集中的樣本少的特點(diǎn),不可避免地會(huì)出現(xiàn)參數(shù)學(xué)習(xí)不充分,從而忽視重要特征甚至出現(xiàn)過擬合等問題。而采用淺層網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)會(huì)變少,相對(duì)地,提取主要特征的能力就會(huì)變?nèi)酢?/p>

        為了研究層數(shù)對(duì)于小樣本模型的影響,這里選取了數(shù)據(jù)集中的圖片進(jìn)行可視化展示,如圖1。該圖為單目標(biāo)圖片,圖中展示為一只狗。由于ResNet10只有四組Block的緣故,只展示這四組Block的網(wǎng)絡(luò)可視化,剩下的ResNet18、ResNet34也抽取四組Block作為對(duì)比??梢钥吹?,ResNet10首先關(guān)注到的是狗和背景的零散點(diǎn)狀區(qū)域,接著由于特征的提取逐漸關(guān)注到不同的部位,最后一層則關(guān)注到圖中狗的大部分軀干。ResNet18因?yàn)橛兄^深的層數(shù),最終的模型開始階段便可聚焦邊緣部位,但是也關(guān)注了一些背景特征,隨著模塊的加深,高層語義也逐漸豐富,對(duì)于部位的定位也逐漸準(zhǔn)確,可以關(guān)注到狗的肢體和部分面部,能夠較好地濾掉無關(guān)區(qū)域及背景。ResNet34經(jīng)過訓(xùn)練,一開始便可捕捉到相應(yīng)的面部信息,選取了Block9、Block13可以發(fā)現(xiàn)關(guān)于面部特征的標(biāo)記越來越大,這和網(wǎng)絡(luò)層數(shù)的增多是密不可分的,最后可以關(guān)注到幾乎整個(gè)狗的面部和部分四肢。從這個(gè)過程可以看出,從ResNet10到ResNet34,隨著網(wǎng)絡(luò)的加深,模型的關(guān)注點(diǎn)可以從四肢軀干逐漸到面部,對(duì)于語義的處理也逐漸匯聚到辨識(shí)度高的部位,但是網(wǎng)絡(luò)的加深所帶來的參數(shù)過多的效應(yīng)也開始顯現(xiàn):少量樣本的情況下,過于關(guān)注高級(jí)語義導(dǎo)致對(duì)于物體細(xì)節(jié)疏忽并且存在著過擬合,在進(jìn)行后續(xù)分類時(shí)會(huì)影響模型判斷,導(dǎo)致效果的提升不明顯。

        圖1 不同層網(wǎng)絡(luò)的CAMFig.1 CAM of different layer networks

        另外,如表1所示,從模型成本角度來看,在參數(shù)總量和復(fù)雜度都非常大的情況下,ResNet34所得到的精度比ResNet10和ResNet18的高出不是很多:ResNet34的參數(shù)量和復(fù)雜度遠(yuǎn)遠(yuǎn)高于ResNet10(分別為5倍與4倍),精度僅僅提升了3%;并且也比ResNet18的參數(shù)量和復(fù)雜度大一倍,精度僅僅提升不到0.7%。即隨著網(wǎng)絡(luò)層數(shù)的提升,模型精度的提升增益與龐大參數(shù)量和復(fù)雜度的增加不成比例,這意味著,傳統(tǒng)深度學(xué)習(xí)模型有效的、比較高的層數(shù),在小樣本的情況下,提升效果有限,并且提升所需的代價(jià),是模型參數(shù)量和模型復(fù)雜度的激增。如何利用較少的層數(shù)在小樣本數(shù)據(jù)上取得較好的效果,是探究提升模型表現(xiàn)的一個(gè)重要方向。

        表1 不同層數(shù)的網(wǎng)絡(luò)信息Table 1 Network information of different layers

        2.3 特征提取

        現(xiàn)有小樣本學(xué)習(xí)模型大多采取了諸如ResNet10和ResNet12等淺層殘差網(wǎng)絡(luò)折中地進(jìn)行特征提取工作,故網(wǎng)絡(luò)深度在一定程度上受到限制。

        受InceptionNet[23]的啟發(fā),在ResNet10的基礎(chǔ)上,提出了自適應(yīng)權(quán)重的多分支特征提取網(wǎng)絡(luò)。首先,是殘差網(wǎng)絡(luò)標(biāo)志性的殘差分支Identity。其次,分別用兩組1×1卷積將特征的通道進(jìn)行減半壓縮,一是減少參數(shù)量防止過擬合。二是方便后續(xù)進(jìn)行卷積特征拼接進(jìn)行加性融合。接著,在第一組1×1卷積后加入一組3×3卷積;另一組1×1卷積后加入兩組3×3卷積來替代一組5×5卷積,分別用這兩組感受野不同的卷積組合對(duì)同一組輸入進(jìn)行特征提取再按通道進(jìn)行拼接。這一支路稱為雙卷積分支DConv,并標(biāo)記為Fdconv,計(jì)算公式為:

        其中,Combine為按通道拼接函數(shù),C()1×1為1×1卷積,C(3×3)為3×3卷積,C(5×5)為5×5卷積,finput為輸入特征。由于卷積提取的豐富特征,在進(jìn)行拼接之后,后面接入一個(gè)Squeeze-and-Excitation(SE)注意力模塊[24]。

        另外兩組分別為平均池化分支和最大池化分支,平均池化用來提取全局背景特征,相對(duì)應(yīng)地,最大池化提取局部特征。前者標(biāo)記為Fmax,后者標(biāo)記為Favg,池化分支在提取特征的時(shí)候一個(gè)額外的優(yōu)勢(shì)在于不需要學(xué)習(xí)參數(shù)。兩者的特征提取計(jì)算公式為:

        其中,max()為區(qū)域最大值函數(shù),avg()為區(qū)域平均值函數(shù),finput為輸入特征。

        一般情況下,不同的卷積核提取的特征存在著差異,大的感受野意味著同一個(gè)點(diǎn)所含的語義信息豐富,小的感受野意味著物體的細(xì)節(jié)保存更好,在進(jìn)行四組支路的特征提取后。一般地,Identity支路最大程度上保留著原始特征,雙卷積支路蘊(yùn)含著更多的語義信息,最大池化支路注重輸入的局部信息,平均池化支路則關(guān)注輸入的全局信息。對(duì)不同支路特征提取器的特征進(jìn)行合理地融合,是充分利用特征、提高模型表現(xiàn)的一個(gè)重要手段。在提出的特征提取模型中,為了更好地利用特征,通過引入自適應(yīng)的特征權(quán)重,來使模型根據(jù)數(shù)據(jù)的特征分布來自行決定在特定的層以特定的權(quán)重來融合特征。特征融合公式如下:

        圖2 自適應(yīng)特征處理模塊Fig.2 Adaptive feature processing module

        2.4 相似性度量

        小樣本學(xué)習(xí)中一個(gè)很主要的方法就是利用一個(gè)相似度度量方法來比較支持集與查詢集中圖片的相似度,經(jīng)過特征提取模塊提取后的特征再輸入進(jìn)度量函數(shù)中就能不同程度上比較出兩者的異同,從而達(dá)到分類的目的。目前主要的方法有很多,Oriol等人[8]使用Cosine函數(shù)作為相似度度量方法;Zhang等人[25]使用Earth Mover Distance作為相似度度量方法。

        對(duì)特征提取模塊提取的特征進(jìn)行特征變換,然后再輸入度量函數(shù)會(huì)大大提高分類精度。Wang等人[26]通過將特征進(jìn)行中心化和L2歸一化后,模型效果有所提升。受此工作啟發(fā),引進(jìn)特征變換。小樣本學(xué)習(xí)每次采取KWay N-Shot的模式采樣訓(xùn)練樣本,這就意味著特征分布在不停地變換。在特征提取模塊由于自適應(yīng)權(quán)值的變化,也使得特征信號(hào)隨之變化。在這種情況下,定參數(shù)的特征變換層對(duì)于不同的特征分布只能有單一的變換,無法較好地解決上述問題。為此,引入兩個(gè)參數(shù),使得特征變換層對(duì)不同情況下的特征進(jìn)行相應(yīng)的適應(yīng),從而對(duì)新類別有很好地魯棒性。將這種自適應(yīng)的特征變換模塊標(biāo)記為Fft。具體計(jì)算為:

        其中,xff為提取后的特征為L(zhǎng)2歸一化,xn為特征的第n維,F(xiàn)CL2N為特征變換函數(shù)CL2N,β和γ為控制線性變換的權(quán)重參數(shù)。在特征經(jīng)過一系列變換后將其輸入歐式度量函數(shù)中進(jìn)行相似度比較。首先計(jì)算出支持集的原型pk:

        其中,F(xiàn)ff()為特征提取函數(shù),Nk為第k次任務(wù)采樣的N種類集合,sk為支持集。再將pk與查詢集進(jìn)行相似度dk比較:

        其中,Q為Query向量,P為Support原型pk,T為轉(zhuǎn)置操作。最后利用SoftMax函數(shù)進(jìn)行分類,得出概率p*k:

        2.5 訓(xùn)練過程

        利用數(shù)據(jù)增強(qiáng)使得數(shù)據(jù)集進(jìn)行一定的數(shù)據(jù)樣本擴(kuò)充后,將數(shù)據(jù)集分為Train和Novel,根據(jù)訓(xùn)練時(shí)的不同階段,Train劃分為Base和Val。根據(jù)K-Way N-Shot策略,每次從Base中采樣K個(gè)類別N個(gè)樣本,共計(jì)K×N張圖片進(jìn)行訓(xùn)練。首先將圖像輸入AFP中進(jìn)行特征提取與處理,然后輸入到ACL2N中進(jìn)行變換,最后進(jìn)行特征的相似性度量以進(jìn)行分類。每個(gè)Batch訓(xùn)練完之后,從Val中采樣出相同數(shù)量的K個(gè)類別N個(gè)樣本來驗(yàn)證模型的精度。整個(gè)Epoch結(jié)束之后,在Novel上測(cè)試模型對(duì)新類的分類效果。訓(xùn)練的整個(gè)流程如圖3所示。

        圖3 模型結(jié)構(gòu)Fig.3 Module structure

        3 實(shí)驗(yàn)與分析

        3.1 數(shù)據(jù)集介紹

        本文實(shí)驗(yàn)采用兩個(gè)主要的小樣本學(xué)習(xí)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),在三個(gè)分類場(chǎng)景中驗(yàn)證所提模型的有效性。數(shù)據(jù)集分別為Caltech-UCSD Birds-200-2011數(shù)據(jù)集(CUB)[27]和mini-ImageNet數(shù)據(jù)集[28]。

        對(duì)于常規(guī)分類,使用mini-ImageNet數(shù)據(jù)集。該數(shù)據(jù)集是ImageNet數(shù)據(jù)集的一個(gè)子集,由100類不同的物體組成,每個(gè)類都含有600張圖片,如前所述,數(shù)據(jù)集被劃分為Base、Val和Novel,相對(duì)應(yīng)地,三者所含種類分別為64、16、20。每張圖片的尺寸為84×84像素。對(duì)于細(xì)粒度分類,使用Caltech-UCSD Birds-200-2011數(shù)據(jù)集。CUB數(shù)據(jù)集是加州理工學(xué)院與加州大學(xué)圣地亞哥分校聯(lián)合提出的圖像細(xì)粒度分類數(shù)據(jù)集,該數(shù)據(jù)集是CUB-2010的擴(kuò)充,含有200類不同的鳥類,總計(jì)11 788張圖片,每張圖片尺寸為84×84像素。用100類訓(xùn)練模型,驗(yàn)證和測(cè)試各50類。對(duì)于跨域分類,使用mini-ImageNet數(shù)據(jù)集作為Base,總計(jì)100類。CUB的Val和Novel作為跨域場(chǎng)景的Val和Novel,各50類。做該類實(shí)驗(yàn)是為了評(píng)估在數(shù)據(jù)分布差異較大的情況下,所提模型的魯棒性。

        3.2 實(shí)驗(yàn)設(shè)置

        3.2.1 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)均在linux操作系統(tǒng)下使用pytorch深度學(xué)習(xí)框架完成,硬件配置如下:CPU為Intel Xeon E5-2678,GPU為GeForce RTX 2080,RAM為32 GB。

        3.2.2 參數(shù)設(shè)置

        由于深度學(xué)習(xí)的特點(diǎn),模型的性能很大程度上取決于網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)和參數(shù)的初始化。特征提取階段,在ResNet10的基礎(chǔ)上實(shí)現(xiàn)骨干網(wǎng)絡(luò)。多分支特征提取模塊中,殘差分支和雙卷積支路中的卷積核參數(shù)初始化,采用默認(rèn)的正態(tài)分布初始化。最大池化支路,將池化尺寸設(shè)置為3。平均池化分支,將池化尺寸設(shè)置為2。在進(jìn)行加性特征融合時(shí),為了保證公平并且評(píng)估特定階段各支路對(duì)特征貢獻(xiàn)程度,將各特征的權(quán)重全部初始化為1。同樣地,在度量相似度階段,將自適應(yīng)特征轉(zhuǎn)換層ACL2N中 的β和γ初始 化為1。此外,整 個(gè)實(shí) 驗(yàn) 中,BatchSize設(shè)置為21;Epoch在1-Shot中設(shè)置為600,在5-Shot中設(shè)置為400;優(yōu)化器使用Adam,學(xué)習(xí)率設(shè)為0.001。為了在一定程度上擴(kuò)充數(shù)據(jù)集,使用了數(shù)據(jù)增強(qiáng)等預(yù)處理,采用隨機(jī)剪裁、像素級(jí)處理、隨機(jī)翻轉(zhuǎn),張量化及歸一化等五種預(yù)處理方法。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        3.3.1 實(shí)驗(yàn)結(jié)果

        所有的實(shí)驗(yàn)均在K-Way N-Shot分類下進(jìn)行。和主流的K、N設(shè)置一樣,分別選取5-Way 1-Shot和5-Way 5-Shot場(chǎng)景進(jìn)行分類實(shí)驗(yàn)。為了評(píng)估模型的性能,本文與優(yōu)秀模型的結(jié)果進(jìn)行了比較。結(jié)果如表2、表3、表4所示。

        表2 CUB精度表Table 2 Accuracy of CUB 單位:%

        表3 mini-Imagenet精度表Table 3 Accuracy of mini-Imagenet單位:%

        表4 Cross Domain精度表Table 4 Accuracy of Cross Domain單位:%

        由實(shí)驗(yàn)結(jié)果所示,本文模型在CUB數(shù)據(jù)集上相比Baseline提升了9.81(5-Way 1-Shot)和8.16個(gè)百分點(diǎn)(5-Way 5-Shot),在mini-ImageNet數(shù)據(jù)集上相比Baseline提升了9.16(5-Way 1-Shot)和9.21個(gè)百分點(diǎn)(5-Way 5-Shot),在Cross Domain上相比Baseline提升了3.61(5-Way 1-Shot)和8.29個(gè)百分點(diǎn)(5-Way 5-Shot)。

        3.3.2 結(jié)果分析

        可以看到,三個(gè)實(shí)驗(yàn)中,在mini-ImageNet數(shù)據(jù)集上的平均提升最為顯著。如前所述,mini-ImageNet是一個(gè)多種類的數(shù)據(jù)集,所以在該數(shù)據(jù)集上有好的效果從側(cè)面驗(yàn)證了模型有較好的魯棒性。在模型中需要尺寸為5×5卷積核的地方,都用兩個(gè)尺寸為3×3的卷積核來進(jìn)行替代。在保證感受野不損失的情況下構(gòu)建了更深的網(wǎng)絡(luò)層,減少了模型的參數(shù)量。基于自適應(yīng)權(quán)重的多層四路特征處理模塊可以根據(jù)特征的特點(diǎn)在不同層對(duì)該層每一支路賦予相應(yīng)的權(quán)重并進(jìn)行融合,如表5所示,在特征融合模塊的不同層中,權(quán)重各不相同。其中,每一層中雙卷積支路的權(quán)重占比都接近50%,表明基于卷積的特征融合的重要性。特征輸入進(jìn)該模塊的第一層時(shí)最大池化分支占比較大(24%)說明模塊對(duì)于特征首先進(jìn)行圖像的邊緣紋理提?。辉诘谌龑訒r(shí)最大池化分支的比重(25%)來到了四組中最大的時(shí)候并且與雙卷積分支的比重差距最?。?4%),說明經(jīng)過多層特征提取后高層語義中的邊緣紋理信息起了相對(duì)重要的作用。在自適應(yīng)的特征轉(zhuǎn)換層中,經(jīng)過訓(xùn)練得到的自適應(yīng)參數(shù)組βs、γs、βq、γq的值分別為0.77、0.99、1.13、0.83。支持集和查詢集參數(shù)的變化程度不同說明對(duì)于兩者來說,特征的變換程度是不同的,支持集的β值更加敏感;查詢集的β和γ對(duì)于變換都有不同程度的響應(yīng)。

        表5 特征處理模塊各層權(quán)重Table 5 Weight of each layer of feature processing module

        分別在單目標(biāo)物體、雙目標(biāo)物體和多目標(biāo)物體上設(shè)計(jì)實(shí)驗(yàn),以便觀察相關(guān)網(wǎng)絡(luò)是否對(duì)物體特征進(jìn)行了正確處理。

        結(jié)合權(quán)重模型表,在單目標(biāo)(圖4(a))中,采用上一章討論模型層數(shù)影響時(shí)所采用的圖片,Block1階段,最大池化和平均池化的比重在四個(gè)階段里是各自分支最大的,表明在開始階段模型先關(guān)注邊緣紋理特征和背景。但是由于權(quán)重歸一化后比重控制在0到1之間,所以此階段只能提取到一些微小地邊緣特征和背景信息。Block2階段,由于殘差分支的比重較大,使得模型保留了Block1階段的特征,最大池化的比重有所下降是因?yàn)樵撾A段模型對(duì)于背景信息的重視程度較大。值得注意的是,平均池化的比重反而下降,是因?yàn)槌プ罱K比重較為合理的第四階段外,在前三個(gè)階段中,該階段的雙卷積分支比重為最大。由于雙卷積分支提取的是局部特征,引入平均池化的初衷是為了與雙卷積分支和最大池化分支互補(bǔ),在權(quán)重還不穩(wěn)定的時(shí)候提供一定的背景信息,現(xiàn)在雙卷積分支的比重大,平均池化的比重也就相應(yīng)減少。另外可以看到,殘差分支較為契合地對(duì)Block1階段的特征注意進(jìn)行了再深化,并且由于雙卷積分支和平均池化分支的共同作用,使得對(duì)背景信息的提取得到提升,需要注意的是,如果給定目標(biāo)圖片只有極少量背景信息,這種背景信息的捕捉在一定程度上會(huì)影響到目標(biāo)物體的捕捉,這種現(xiàn)象在雙目標(biāo)(雙甲蟲,圖4(b))中有一定的體現(xiàn):在有少量背景信息的情況下,模型仍然對(duì)背景有不少的關(guān)注。Block3階段,最大池化分支的權(quán)重再次提升,和殘差分支的權(quán)重基本接近,相應(yīng)地,在保留上一階段信息的同時(shí),模型提取到了更多的邊緣紋理特征,值得注意的是,對(duì)于單目標(biāo)物體來說,模型對(duì)于圖像背景的特征提取過多,是由于特征融合不可避免地會(huì)融合背景信息,即使如此,模型還是主要聚焦于物體輪廓周圍的邊緣信息;而作為對(duì)比,雙目標(biāo)和多目標(biāo)(鴨群,圖4(c))上,模型可以很好地注意到目標(biāo)物體:在最大池化捕捉了精確的邊緣信息的同時(shí),雙卷積分支可以捕捉部分物體信息。在Block4階段,雙卷積分支的比重來到了最大,意味著語義信息的提取與整合越來越重要,高級(jí)語義越來越占據(jù)重要作用。殘差、平均池化、最大池化分支的比重趨于平衡,即目標(biāo)與背景之間的特征注意處于一個(gè)合理的狀態(tài)。在圖中可以看到,目標(biāo)物體的注意程度越來越高,并且能夠較為清晰地分辨出物體本身和背景(這一點(diǎn)在雙目標(biāo)和多目標(biāo)中更為明顯)。從而,模型所提取特征的合理性趨于完善。

        圖4 不同任務(wù)的CAMFig.4 CAM of different tasks

        在雙目標(biāo)中,采用的是兩個(gè)甲蟲的圖片。如上所述,Block1階段模型只提取到零散的邊緣信息;Block2是對(duì)Block1中提取信息的再擴(kuò)大,并且由于雙卷積分支和最大池化分支的作用,捕捉了一定的背景信息,用于特征的融合;Block3中已經(jīng)對(duì)物體有具體的信息捕捉,并且濾去了大部分背景信息,重點(diǎn)提取物體本身;Block4由于權(quán)重趨于合理化,模型已經(jīng)比較合理地關(guān)注雙目標(biāo)物體的大部分信息。值得注意的是,模型對(duì)于雙目標(biāo)物體由于特征融合的作用,對(duì)于物體的整體關(guān)注度相比于單目標(biāo)要完整許多,這一點(diǎn)在多目標(biāo)的可視化中得到了進(jìn)一步驗(yàn)證??梢钥吹剑S著各階段分支的不斷學(xué)習(xí),權(quán)重也在不斷變化并最終趨于合理,對(duì)于背景信息的處理也較為理想,使得模型可以較好地捕捉物體進(jìn)行分類。特別是物體較多的目標(biāo)任務(wù)場(chǎng)景中,模型可以很好地捕捉目標(biāo)并賦予注意。

        3.3.3 模型參數(shù)規(guī)模及運(yùn)算

        從模型信息表(表6)中可以看出,隨著網(wǎng)絡(luò)的加深,模型所需要的參數(shù)和運(yùn)算規(guī)模也成倍地增長(zhǎng),每600循環(huán)的實(shí)時(shí)推理也是如此。由于采用了1×1卷積對(duì)特征進(jìn)行了降維,并且用3×3卷積來代替更大的5×5、7×7卷積,平均池化分支和最大池化分支也沒有需要學(xué)習(xí)的參數(shù),這些設(shè)定使得本文模型在增加了多分支的情況下網(wǎng)絡(luò)參數(shù)沒有進(jìn)一步增加。

        表6 模型參數(shù)及運(yùn)算量Table 6 Model parameters and computational volume

        雖然參數(shù)較少,但是由于模型采用分支結(jié)構(gòu)以及融合等操作,所以復(fù)雜度更高。這點(diǎn)從模型總的FLOPs上也可以看出來。但FLOPs只是通過理論上的計(jì)算量來衡量模型,在實(shí)際應(yīng)用時(shí),由于各種各樣的優(yōu)化計(jì)算操作,導(dǎo)致計(jì)算量并不能準(zhǔn)確地衡量模型的速度:相同的FLOPs會(huì)有不同的推理速度,低FLOPs也可能有較高耗時(shí)的推理,高FLOPs也可能會(huì)有較低耗時(shí)的推理。除了FLOPs,還有兩個(gè)重要的因素,其一就是存儲(chǔ)訪問成本(memory access cost,MAC),其二是并行度,在同樣FLOPs的情況下,并行度高的模型推理速度是要快于并行度低的模型[29]。從表中可以看出,本文模型的FLOPs要比ResNet34低,但是推理時(shí)間卻變得更長(zhǎng)。對(duì)比Params也是這樣:參數(shù)較少并不意味著模型簡(jiǎn)單、推理時(shí)間少。在本文模型中,使用了多條支路,最后通過融合的方式將特征送入下一級(jí)。如上所述,支路的增加對(duì)GPU并行運(yùn)算并不友好,并且由于支路的融合操作必須要有同步操作,需要等待所有的支路完成相應(yīng)的運(yùn)算再進(jìn)行融合,從而增加了計(jì)算時(shí)間;1×1卷積雖然減少了參數(shù)量,但是進(jìn)行升降維操作導(dǎo)致MAC變高;在進(jìn)行特征融合的時(shí)候,需要進(jìn)行Element-Wise操作,然而該操作在GPU上占用的時(shí)間是很多的。所以以上因素會(huì)導(dǎo)致模型降低效率,增加模型復(fù)雜度及實(shí)時(shí)性推理時(shí)間。

        3.4 消融實(shí)驗(yàn)

        為了分析每個(gè)模塊對(duì)模型產(chǎn)生的影響,本文做了以下對(duì)比實(shí)驗(yàn):模型無添加模塊,模型只添加SE模塊,模型只添加多分支特征提取模塊AFP,模型只添加特征轉(zhuǎn)換模塊ACL2N,模型添加全部模塊。對(duì)比實(shí)驗(yàn)結(jié)果如表7所示。

        表7 各模塊精度Table 7 Acc of each Module

        結(jié)果表明,三個(gè)模塊對(duì)于分類精度都有不同程度的提升,SE模塊的提升相對(duì)較少,所以注意力機(jī)制可以作為輔助手段添加到模塊中,以提升網(wǎng)絡(luò)的表現(xiàn),在本文所提的網(wǎng)絡(luò)也是這樣做的。AFP模塊和ACL2N模塊相較于Baseline,精度都有較大提升,分別為78.22%和79.06%。說明兩者都可以作為網(wǎng)絡(luò)的主模塊對(duì)特征進(jìn)行處理。在最后將三個(gè)模塊同時(shí)加入網(wǎng)絡(luò)取得了81.37%的分類進(jìn)度,表明三個(gè)模塊同時(shí)使用對(duì)網(wǎng)絡(luò)的提升作用更大。

        對(duì)于后兩個(gè)模塊,由于有自適應(yīng)權(quán)重的引入,本文將在3.4.1和3.4.2兩個(gè)小節(jié)探究參數(shù)對(duì)模塊性能的影響。

        3.4.1 特征融合模塊權(quán)重分析

        在特征融合模塊中,將各個(gè)分支的權(quán)重全部初始化為1是為了使初始時(shí)每個(gè)分支的重要程度相同。所以在對(duì)比實(shí)驗(yàn)中設(shè)置初始化為1的權(quán)重歸一化模型(weight normalization model,WNM)和各個(gè)分支固定為1的權(quán)重平衡模型(weight balance model,WBM)、權(quán)重未歸一化模型(weight unnormalization model,WUM)進(jìn)行實(shí)驗(yàn)。結(jié)果如圖5所示,可以看到,與WBM、WUM相比,WNM的表現(xiàn)要優(yōu)秀不少,表明其權(quán)值可以針對(duì)特征對(duì)特定層的特定分支賦予相應(yīng)的權(quán)重來更好地提升模型的表現(xiàn)。

        圖5 不同權(quán)重的精度Fig.5 Precision of different weights

        在含有不同物體的混合目標(biāo)、多目標(biāo)上進(jìn)行了實(shí)驗(yàn)結(jié)果的可視化,結(jié)果如圖6、圖7所示。

        圖6 不同權(quán)重的混合目標(biāo)Fig.6 Mixed targets with different weights

        圖7 不同權(quán)重的多目標(biāo)Fig.7 Multiple targets with different weights

        首先,在混合目標(biāo)上,采用的是斑點(diǎn)狗與小皮狗的圖片。由于WBM和WUM的權(quán)重?cái)?shù)值要比WNM的要大,在Block1階段即捕捉到較多的邊緣特征信息,其中,關(guān)注到不少的不相關(guān)物體信息。在Block2階段,WBM由于權(quán)重較為均衡,在經(jīng)過了一組Block之后,可以減少無關(guān)物體和背景信息的關(guān)注度,只較少保留了相關(guān)物體信息;而WUM的權(quán)重大,對(duì)于所有物體的信息都會(huì)有所捕捉,同時(shí)也會(huì)有部分背景信息;WNM的歸一化權(quán)重則收縮了注意范圍。在Block3中,值得注意的是由于沒有進(jìn)行歸一化,WUM的權(quán)重調(diào)節(jié)過于極端,這一點(diǎn)在下個(gè)階段得到了進(jìn)一步的驗(yàn)證。在最后一組Block中,各個(gè)模型已經(jīng)有了豐富的特征信息,在WBM中,權(quán)重一直處于一成不變的狀態(tài),所以最終模型只是對(duì)已注意特征的擴(kuò)大,能夠較好地捕捉到相關(guān)物體;WUM由于過大的權(quán)重,捕捉了過多的物體信息,使得相當(dāng)一部分背景信息融合進(jìn)了特征之中,會(huì)影響到分類結(jié)果;而WNM的歸一化權(quán)重經(jīng)過訓(xùn)練,已經(jīng)有了較為合理的分支權(quán)重分配,可以看到,對(duì)相關(guān)物體有很好的捕捉,對(duì)于不相關(guān)的物體以及背景信息都有較好的識(shí)別。在多目標(biāo)(圖7,鳥群)的展示中,這種現(xiàn)象有了進(jìn)一步的展示。

        3.4.2 特征轉(zhuǎn)換模塊系數(shù)β和偏置γ數(shù)值分析

        為了研究ACL2N特征轉(zhuǎn)換函數(shù)中β和γ對(duì)實(shí)驗(yàn)的影響程度,設(shè)計(jì)了對(duì)比不同數(shù)值參數(shù)的實(shí)驗(yàn)。對(duì)于support和query的特征轉(zhuǎn)換,本文基于自適應(yīng)的參數(shù)組數(shù)值來設(shè)置對(duì)照參數(shù)。這樣做的原因是對(duì)于初始參數(shù)而言,選取訓(xùn)練后在測(cè)試集中取得最好精度的自適應(yīng)參數(shù),將參數(shù)組的每個(gè)參數(shù)換值來進(jìn)行探究。自適應(yīng)參數(shù)組βs、γs、βq、γq的值分別為0.77、0.99、1.13、0.83,可以看到在訓(xùn)練后γs的受影響程度最小,所以對(duì)剩下三個(gè)參數(shù)進(jìn)行實(shí)驗(yàn)。對(duì)于βs,分別以等差為0.1的取值,取βs為0.57、0.67、0.77、0.87、0.97、1.07進(jìn)行實(shí)驗(yàn)。如圖8為實(shí)驗(yàn)結(jié)果,可以看到從0.57精度開始提升,在0.77處取得極大值,之后精度開始降低。對(duì)于βq,自適應(yīng)值為1.13,同樣地,分別以0.1為間隔取值,取βq為0.93、1.03、1.13、1.23、1.33、1.43。如圖9所示,精度隨著值的增加而增加,在1.13處取得極大值后下降。對(duì)于γq,自適應(yīng)值為0.83,取γq分別為0.63、0.73、0.83、0.93、1.03、1.13,結(jié)果如圖10所示。精度呈現(xiàn)先高后低再升高的波動(dòng),在0.83處取得極大值。上述實(shí)驗(yàn)表明,在訓(xùn)練時(shí)取得的自適應(yīng)參數(shù)組(0.77、1.13、0.83)上的精度最高。

        圖8 βs變化結(jié)果Fig.8 Result of βs changes

        圖9 βq變化結(jié)果Fig.9 Result of βq changes

        圖10 γq變化結(jié)果Fig.10 Result of γq changes

        結(jié)果表明,添加了自適應(yīng)權(quán)重,可以使模塊在Episode不斷變化的情況下不斷學(xué)習(xí)適應(yīng)不同的特征分布,從而學(xué)習(xí)到最佳的適應(yīng)性參數(shù)。

        4 結(jié)束語

        本文根據(jù)小樣本學(xué)習(xí)的特點(diǎn)提出了一個(gè)針對(duì)特征進(jìn)行操作的小樣本圖像處理模型。該模型可以較好地利用特征。在特征提取階段,通過使用自適應(yīng)加權(quán)多路特征提取模塊,使得輸入圖像以不同的特征提取方式進(jìn)行提取與融合,在此基礎(chǔ)上引入自適應(yīng)的權(quán)重使得對(duì)于特征可以適應(yīng)性放縮其中某一支路的特征信號(hào),起到了良好的魯棒性和正則作用。在相似性度量階段,對(duì)于不斷變化的采樣,自適應(yīng)特征變換層ACL2N可以對(duì)特征進(jìn)行相應(yīng)的分布適應(yīng)變換,從而匹配特征提取信號(hào)的變化,進(jìn)一步提高模型的表現(xiàn)。通過在CUB和mini-ImageNet數(shù)據(jù)集上一系列的對(duì)比實(shí)驗(yàn)和可視化,展示了模型中所提模塊的效果,從而驗(yàn)證了模型的有效性。進(jìn)一步的探究工作可以使用ResNet18等多層網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)結(jié)合層與層之間的特征融合,以便在較深網(wǎng)絡(luò)中達(dá)到更好的分類效果。

        猜你喜歡
        特征提取特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        3D打印中的模型分割與打包
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        免费国精产品自偷自偷免费看| 亚洲激情综合中文字幕| 亚洲2022国产成人精品无码区| 免费va国产高清大片在线| 国产精品乱码在线观看| 狠狠躁夜夜躁人人爽天天不卡| 日韩有码中文字幕在线视频| 4455永久免费视频| 尤物视频在线观看| 久久这里只精品国产99热| 精品国产乱来一区二区三区| 日本不卡的一区二区三区中文字幕| 亚洲av综合av成人小说| 八戒网站免费观看视频| 亚洲国产日韩在线精品频道| 日韩av免费一区二区| 国产av夜夜欢一区二区三区| 午夜福利电影| 91免费国产高清在线| 亚洲在线精品一区二区三区| 久久精品国产自在天天线| 久久婷婷国产剧情内射白浆 | 熟妇人妻精品一区二区视频免费的 | 欧美v亚洲v日韩v最新在线| 中文人妻AV高清一区二区| 国产精品国产三级国产专播| 亚洲熟女综合色一区二区三区| 亚洲av片不卡无码久久| 国产成人av综合色| 最新中文字幕日韩精品| 欧美黑人群一交| 亚洲人妻无缓冲av不卡| 国产成人一区二区三区| 国产在线无码不卡影视影院| 亚洲av无码乱码国产精品fc2| 无码流畅无码福利午夜| 亚洲国产色婷婷久久精品| 久久久g0g0午夜无码精品| 欧洲亚洲视频免费| 激情五月六月婷婷俺来也| 亚洲午夜久久久久久久久久|