亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自注意力孿生網(wǎng)絡的野生蛇細粒度分類①

        2022-08-25 02:52:24袁國武
        計算機系統(tǒng)應用 2022年8期
        關(guān)鍵詞:細粒度余弦特征向量

        何 燦, 袁國武, 吳 昊

        (云南大學 信息學院, 昆明 650500)

        1 前言

        對于人類而言認識新事物僅僅需要一到兩個圖片或者概念, 然而對于最好的深度神經(jīng)網(wǎng)絡其數(shù)據(jù)集也是成千上萬張[6]. 不僅需要對數(shù)據(jù)圖像進行標簽化還需浪費大量的時間來訓練模型. 小樣本學習是元學習的一個重要分支, 是指給定一個少樣本圖像分類任務T,在該任務中包括數(shù)據(jù)集D={Dtrain,Dtest}. 把Dtrain稱之為少量樣本學習的支持集, 也稱為訓練集其一般由一到數(shù)十張圖片組成; 把Dtest稱為測試集, 也稱為查詢集. 一般來說, 少量樣本學習考慮的是一個N-way K-shot的分類問題. 其中,N表示Dtrain中類別的個數(shù),K表示每個類別有K個樣本, 支持集Dtrain的樣本數(shù)為Dtrain=NK. 如何在半監(jiān)督或無監(jiān)督的條件下解決小樣本學習細粒度分類的問題, 是本文研究的另一重點[1,7,8]. 小樣本學習利用極少的數(shù)據(jù)對網(wǎng)絡進行訓練并且在能夠保證準確率的情況下盡可能地減少訓練的數(shù)據(jù)量[3], 在很多網(wǎng)絡中通常只用一張圖片作為訓練的數(shù)據(jù)集, 最后對比提取的特征向量, 進而判斷測試集圖像的類別. 對比以往的小樣本學習方法, 本文提出在細粒度分類方向做小樣本學習研究. 細粒度圖像的差異大多體現(xiàn)在局部細微之處, 難點主要在于兩個方面: 一個是準確定位圖像中具有辨別性的關(guān)鍵區(qū)域, 二是從檢測到的關(guān)鍵區(qū)域中提取有效特征[6]. 如何有效地檢測圖像中的前景圖像, 從中挖掘局部細節(jié)并在這些區(qū)域上提取關(guān)鍵的特征信息, 是細粒度圖像分類的難點[9]. 基于卷積神經(jīng)網(wǎng)絡的模型在細粒度分類方面有很大的局限性[10],本文使用了基于自注意力機制的Swin Transformer(Swin-T). Swin-T是Transformer在圖像領(lǐng)域的又一出色的網(wǎng)絡, 其通過層級化的設(shè)計和翻轉(zhuǎn)窗口有效地彌補卷積神經(jīng)網(wǎng)絡過于專注局部的弊端, 并且在分類、分割等領(lǐng)域都優(yōu)于大部分的卷積神經(jīng)網(wǎng)絡模型[11]. 此外, Swin-T對Vision Transformer做進一步提升, 主要改善了Vision Transformer的token數(shù)目固定且單一的缺點、增加了窗口之間的信息交互. 通過實驗結(jié)果對比, 獲得了優(yōu)于卷積神經(jīng)網(wǎng)絡的Transformer特征提取網(wǎng)絡模型[4,12,13], 最終本文選擇了Swin-T作為孿生網(wǎng)絡的主干網(wǎng)并改進Swin-T在孿生網(wǎng)絡方面的不足從而與孿生網(wǎng)絡進行適配. 因此, 本文提出了利用自注意力機制對蛇的細微差別進行檢測[7,14], 通過遷移學習對比不同網(wǎng)絡獲得最佳特征提取網(wǎng)絡模型并作為搭建孿生網(wǎng)絡的主干網(wǎng), 將孿生網(wǎng)絡提取出的特征向量送入本文構(gòu)造的元學習器中, 元學習器對這兩組特征向量做對比和分類[15].

        2 相關(guān)工作

        2.1 細粒度分類

        神經(jīng)網(wǎng)絡在細粒度分類方向取得了長足的進步[16],近年的研究大多是弱監(jiān)督分類, 其難點在于分離背景干擾因素并提取局部特征. 早期的工作主要依賴先驗信息如局部標注、邊界框等人工注釋. 另一部分工作則僅通過圖像級別的注釋來定位有區(qū)別的部位. Jaderberg等人[11]提出了空間變換網(wǎng)絡來進行仿射變換從而對全局特征應用特征池化方法得到進一步改進. 但是, 仿射變換只能執(zhí)行旋轉(zhuǎn)、剪切、縮放和翻譯[17]. 當支持集和測試集的圖片差異較大時, 即便二者是來自同一類的圖片, 也很難有效區(qū)分圖片的差異. 在本文中, 通過遷移學習獲得自注意力特征提取主干網(wǎng), 通過多頭自注意力機制來獲取局部特征以及這些局部特征之間的關(guān)聯(lián)[18,19]來改進空間變換網(wǎng)絡的缺陷.

        2.2 元學習

        在近幾年, 元學習領(lǐng)域取得了極大的進步. Vinyals等人[7]提出了匹配網(wǎng)絡方法, 該方法通過在標記的支持集添加嵌入函數(shù)來預測未標記的查詢集. 通過計算支持集和查詢集上特征的余弦距離得出查詢集上和支持集最接近的那一類, 從而完成少量樣本學習. Ravi等人[20]則在匹配網(wǎng)絡上進一步改進, 提出了元學習的方法. 該方法通過long short term memory訓練支持集更新分類器, 然后在每一次迭代上訓練自定義模型[14]. 孿生網(wǎng)絡由Koch等人[1]提出, 其包含兩個權(quán)重完全相同的網(wǎng)絡, 首先通過圖像驗證任務訓練網(wǎng)絡學習樣本的判別特征, 然后對于新任務的樣本直接使用訓練好的模型提取特征向量進行比較, 搭建簡單且在很多場景任務中達到了不錯的效果. Vinyals等人[7]提出的matching networks在孿生網(wǎng)絡基礎(chǔ)上引入了加權(quán)機制, 即對每兩個樣本通過歐式距離計算相似性, 并對這些相似性分數(shù)通過Softmax函數(shù)進行歸一化操作. Antouniou等人[21]提出使用改進GAN網(wǎng)絡, 先訓練模型來評估數(shù)據(jù)的概率分布, 然后隨機采樣直接無監(jiān)督生成數(shù)據(jù), 來彌補數(shù)據(jù)不足的缺點. Liu等人[22]提出可以簡單地旋轉(zhuǎn)一個類中的所有圖像, 來將這個旋轉(zhuǎn)后的類的圖像與父類區(qū)分開來從而作為一個新類, 同時也高效地增加了訓練過程中可以采樣的樣本數(shù)量. Chen等人[23]突出針對一次學習問題, 提出了Self-Jig算法, 這是一個兩階段方法, 首先在訓練集中利用帶變遷的源域圖片采用網(wǎng)格劃分的方式將圖片劃分成多個區(qū)塊, 然后隨機替換掉部分區(qū)塊實現(xiàn)數(shù)據(jù)增強, 并以此訓練一個基準網(wǎng)絡. 在目標域以同樣的方式將有標簽支持集和無標簽查詢集合成為新的圖片, 并賦予新圖片支持集的標簽再訓練網(wǎng)絡模型. Hariharan等人[8]提出一種表征學習和數(shù)據(jù)增強方法, 通過構(gòu)造三元組并利用生成對抗網(wǎng)絡產(chǎn)生的新數(shù)據(jù)添加正則化項來嚴格限制編碼器學習的有效信息. 原型網(wǎng)絡[14]是將輸入圖像映射到一個潛在空間, 其中一個類別的原型是對支持集中所有相同類別圖像的向量化樣例數(shù)據(jù)取均值得到的, 然后再通過計算查詢集圖像的向量化值與類別原型之間的歐式距離從而預測查詢集合的類別. 換句話說, 原型網(wǎng)絡認為在映射后空間中距離越近的樣例屬于同一類別的可能性越大, 反之, 則認為不屬于同一類別. 關(guān)系網(wǎng)絡[24]是通過一個神經(jīng)網(wǎng)絡來計算不同樣例之間的距離.

        2.3 元學習細粒度分類

        Transformer首次提出是應用到機器翻譯[25]領(lǐng)域中, 在當前的研究工作中Transformer成為自然語言處理領(lǐng)域的基礎(chǔ)架構(gòu)[26], 并取得了不錯的結(jié)果. 基于此,很多工作嘗試將Transformers引入計算機視覺處理領(lǐng)域. Vision Transformer首次提出了視覺變換架構(gòu), 將圖像分割成固定數(shù)量的塊, 在每個塊內(nèi)做注意力運算并取得了優(yōu)于卷積神經(jīng)網(wǎng)絡的結(jié)果[7]. Data-efficient Image Transformers通過數(shù)據(jù)增強和強分類, 通過對比結(jié)果減少了訓練所花費的時間提高了分類的效率. Liu等人[4]提出Swin-T, 該方法是在Vision Transformer的基礎(chǔ)上加入了多模態(tài)融合并結(jié)合卷積神經(jīng)網(wǎng)絡層次化設(shè)計的思想. 通過翻轉(zhuǎn)窗口達到不同窗口之間的信息交互, 為了減少Transformer結(jié)構(gòu)的復雜度又設(shè)計了在每個切片內(nèi)做自注意力計算, 并使每個切片與周圍切片進行信息交互和融合, 這也使其復雜度相較于此前Transformer網(wǎng)絡減少到了線性復雜度的級別. 此外, 相較于Vision Transformer, Swin-T能夠處理高分辨率圖片[4],取得了更好的效果. 在本文中, 構(gòu)造細粒度數(shù)據(jù)集并命名Snake set (S-set), 通過改進Swin-T模型在S-set數(shù)據(jù)集上進行遷移學習獲得特征提取網(wǎng)絡進而作為搭建孿生網(wǎng)絡的主干網(wǎng).

        3 方法

        3.1 構(gòu)建孿生網(wǎng)絡

        以注意力機制為基礎(chǔ)的Transformer模型被越來越多地應用到圖像領(lǐng)域, 且比以卷積神經(jīng)網(wǎng)絡為基礎(chǔ)的網(wǎng)絡模型效果要更好. 這主要是因為卷積神經(jīng)網(wǎng)絡網(wǎng)絡隨著層數(shù)的加深特征會逐漸丟失. 盡管近年又提出了殘差網(wǎng)結(jié)構(gòu)但是對于深層網(wǎng)絡仍然容易產(chǎn)生過擬合[6,27]. 在Transformer中, 圖片被分為各個不同的切片在每個切片內(nèi)應用自注意力機制不僅實現(xiàn)了每次輸入數(shù)據(jù)的可控性也解決了圖片相對于文本數(shù)據(jù)維度過多的問題. 在計算自注意力時通過加入相對位置偏置B來計算每一個頭的相關(guān)性:

        其中,Q,K,V是query,key,value矩陣;d是query/key的維度. 通過在本實驗細粒度數(shù)據(jù)集上對比不同模型的效果, 最終選擇改進Swin-T作為孿生網(wǎng)絡的主干網(wǎng),孿生網(wǎng)絡通過構(gòu)建兩組權(quán)重、參數(shù)相同的孿生模型.一組為支持集的特征提取網(wǎng)絡[4,7], 另一組作為提取測試集圖像的特征提取網(wǎng)絡.

        為了使Swin-T契合到本文搭建的孿生網(wǎng)絡中, 本文改寫并定義了Swin-T的損失函數(shù)部分. Swin-T作為特征提取網(wǎng)絡, 共有4個模塊, 前2個模塊提取低維特征, 其權(quán)重占比較小; 后2個模塊提取高維特征, 其中第3個模塊權(quán)重占比最大. 這是因為對于低維特征而言, 其維度小、包含的高維信息過少, 對于高維特征而言, 其維度高、已丟失了大部分低維信息. 通過對第3個模塊的權(quán)重設(shè)置, 同時兼顧高維和低維特征. 本文改寫了4個提取特征模塊后的損失部分, 去掉平均池化層和全連接層, 新增標準化層對特征進行歸一化從而將Swin-T與孿生網(wǎng)絡進行適配. 將改進過的Swin-T作為孿生網(wǎng)絡特征提取網(wǎng)絡模型, 并設(shè)置兩組孿生網(wǎng)絡特征提取網(wǎng)絡權(quán)重相同、參數(shù)一致.

        (1)沉降過濾式離心機脫水效果良好,脫水產(chǎn)物水分為18.50%,脫水率高達96.23%,即離心液和濾液中攜帶的水量為入料量的96.23%,脫水產(chǎn)物中只夾帶了3.77%的剩余水量。

        3.2 特征向量相似度

        孿生特征提取網(wǎng)絡提取到相應數(shù)據(jù)集的特征后,為了進一步確定兩個輸入孿生網(wǎng)絡的圖片是否屬于同一類, 本文使用了余弦距離和歐式距離.

        其中,a和b分別代表兩組孿生網(wǎng)絡提取出來的特征向量,Loss(θ)表示兩組向量的余弦距離. 余弦距離也稱為余弦相似度, 通過計算兩個向量之間的夾角值得到余弦相似度, 再用一減去余弦相似度從而得到余弦距離[28].如果兩個特征向量的余弦相似度值為零或負數(shù), 則余弦距離為大于一的值, 說明提取這兩個特征向量的圖像不屬于同一類. 如果兩個特征向量的余弦相似度為一, 則余弦距離為零, 說明提取這兩個特征向量的圖像為同一類.通過這樣設(shè)置, 使余弦距離為非負值, 其值在[0, 2]的區(qū)間上, 從而在數(shù)值上符合認知邏輯, 也進一步優(yōu)化了整個計算的過程. 當兩個特征向量越相似, 余弦相似度越高,余弦距離越大; 當兩個特征向量差異越大, 余弦相似度越低, 余弦距離越小. 再通過設(shè)置合適的閾值對余弦距離進行判斷, 大于這個閾值的則認為這兩個特征向量對應的圖像屬于同一類, 反之, 則屬于不同類.

        其中,X,Y分別代表兩組孿生網(wǎng)絡提取出的特征向量,n表示特征向量的長度,i表示兩組特征向量對應的數(shù)值, 范圍從1到n. 歐式距離的一種定義方式是通過計算兩個向量對應各項的差的平方之和后開方所得的值;還有一種方式是通過計算兩個向量對應各項差的平方和. 根據(jù)其定義當孿生網(wǎng)絡提取的兩個特征向量越接近時, 歐式距離的值越小; 反之, 歐式距離則越大. 總體來說, 余弦距離體現(xiàn)的是兩個特征向量的方向差異, 而歐式距離體現(xiàn)的是兩個特征向量數(shù)值上的絕對差異.通過余弦距離和歐式距離的綜合考量, 優(yōu)化孿生網(wǎng)絡提取的兩個特征向量的比較方法.

        3.3 改進Swin Transformer

        Swin Transformer (Swin-T)選擇ImageNet數(shù)據(jù)集上進行訓練和測試. 在圖1中, 通過改進Swin-T與孿生網(wǎng)絡進行適配, 并進一步提升特征提取的效率. 首先通過遷移學習對本文使用的數(shù)據(jù)集Snake set進行訓練, 得到提取本實驗細粒度數(shù)據(jù)集的能力. 在遷移學習得到特征提取網(wǎng)絡模型后, 為了使遷移學習的模型能夠與孿生網(wǎng)絡進行匹配, 只需要遷移后的模型具備特征提取能力, 因此, 舍棄了模型中損失計算部分和分類部分, 之后送到元學習器中進行特征對比.

        圖1 改進Swin Transformer模型

        Swin-T提出的翻轉(zhuǎn)窗口注意力方法相較于之前的Transformer網(wǎng)絡將復雜度縮小到了線性級別. 在本文中通過應用翻轉(zhuǎn)窗口極大地減少了特征提取的時間.

        式(5)是對式(4)即Swin-T之前的注意力計算復雜度的改進, 計算量級從二次方減少到一次方;h、w分別表示整幅圖片切片的行數(shù)和列數(shù),hw表示切片數(shù);M表示窗口分割的切片數(shù);C表示特征的通道數(shù).MSA表示多頭注意力;W–MSA表示翻轉(zhuǎn)多頭注意力.

        3.4 元學習器

        元學習器對來自孿生網(wǎng)絡的特征向量做對比分類.通過余弦距離和歐式距離綜合應用對支持集和測試集的特征向量做對比, 并設(shè)置合適的閾值, 對大于閾值的兩個向量, 則認為屬于同一類, 反之, 則屬于不同類. 此外, 對于不同類的測試集圖片為其賦予新的標簽, 單獨列為一個新的類別, 從而增強元學習的自主學習性.

        由式(2)和式(3)求得的兩個結(jié)果做邏輯與運算,得到兩組特征向量的對比結(jié)果Loss(c),c為類別信息.只有在余弦距離和歐式距離的結(jié)果都為正的情況下,元學習器才認為這兩組特征向量屬于同一類.

        3.5 實驗模型

        在圖2所示的模型流程圖中, 首先模型通過在ImageNet上預訓練得到改進的Swin-T. 為了使改進的Swin-T更好地獲取野生蛇的特征, 通過在Snake set上微調(diào)模型的權(quán)重參數(shù), 從而得特征提取模型. 然后將兩組特征提取模型共享權(quán)重作為孿生網(wǎng)絡的主干網(wǎng)來搭建孿生網(wǎng)絡. 之后輸入支持集和測試集到孿生網(wǎng)絡提取特征向量, 并將孿生網(wǎng)絡提取出來的兩組特征向量送入元學習器進行對比和分類. 如果測試集類別與支持集類別相同, 則輸出分類類別標簽, 否則生成新類別標簽. 在圖3的模型中, 左側(cè)數(shù)據(jù)集包含支持集和測試集, 支持集共有5種野生蛇類別, 每個類別包含5張圖片; 測試集只有一個類別, 每個類別包含一張圖片. 改進的Swin-T包含兩個完全相同的特征提取網(wǎng)絡, 這兩個特征提取網(wǎng)絡權(quán)重、參數(shù)一樣. 將孿生網(wǎng)絡提取的特征向量送入元學習器, 元學習器由預測部分和類別生成部分構(gòu)成. 預測部分完成對測試集特征的對比和預測, 這里對比方法使用了余弦距離和歐式距離, 如果與支持集中所有類別對比后超過閾值則認為是同一類.如果與支持集中的所有類別對比后的值小于閾值則認為屬于不同類別, 并生成新的標簽, 從而形成一個新類.

        圖2 模型流程圖

        圖3 實驗模型

        4 實驗

        4.1 數(shù)據(jù)集

        在微軟亞洲研究院提出的Swin-T中, 使用ImageNet作為數(shù)據(jù)集. 在本實驗中, 制作了如圖4的野生蛇數(shù)據(jù)集, 共17 389張圖片, 其中訓練集與測試集按照9:1的比例進行劃分, 將其命名為Snake set. 劃分后的訓練集含有15 650張圖片, 測試集含1739張圖片. 將數(shù)據(jù)集初始化為384×384大小的尺寸, 在訓練模型時通過旋轉(zhuǎn)、裁剪、插值對圖像進一步增強[29]. 在Snake set數(shù)據(jù)集上對比了當前在細粒度分類方面效果較好的主干網(wǎng), 包括Res-Net、DenseNet、EfficientNet和Swin-T等, 在未經(jīng)微調(diào)的前提下, 對比不同主干網(wǎng)在Snake set數(shù)據(jù)集上的分類準確率, 包含15 650張訓練集圖片以及1 739張測試集圖片. 結(jié)果證明使用注意力共17 389張圖片, 其中訓練集圖片為15 650張、測試集1 739張機制的Swin-T效果要明顯好于其他卷積神經(jīng)網(wǎng)絡模型, 因此本文選擇Swin-T作為搭建孿生網(wǎng)絡的主干網(wǎng),并對Swin-T網(wǎng)絡作進一步改進.

        圖4 S-set數(shù)據(jù)集示例圖

        4.2 主干網(wǎng)絡對比

        如表1所示, 根據(jù)實驗結(jié)果對比, 本文選擇基于Transformer結(jié)構(gòu)的Swin-T作為孿生網(wǎng)絡的主干網(wǎng). 近年來注意力機制在自然語言領(lǐng)域取得了巨大的進步,同時應用到計算機視覺和圖像處理領(lǐng)域一樣取得了不錯的成果. 彌補了以往基于卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)的缺陷,Swin-T將圖片作為一個切片輸入, 增強局部信息交互,在切片內(nèi)做注意力運算, 這樣的Transformer網(wǎng)絡結(jié)構(gòu)對于大多圖像領(lǐng)域的研究都具有很好的應用前景.

        表1 主干網(wǎng)實驗結(jié)果

        為了使Swin-T具備更好的效果, 本文探索了不同Swin-T模塊對實驗結(jié)果的影響, 第3個Swin-T模塊能夠有效提取特征同時減少時間消耗, 因此將第3個Swin-T塊的權(quán)重設(shè)置最高. 在模型提取信息后, 使用一個規(guī)范層使其值歸一化, 經(jīng)過上述操作得到一個一維的、長為221 184的特征向量. 此外, 為了進一步確定特征向量的長度對元學習器分類的影響, 又在規(guī)范層后加一個平均池化層, 得到一維的、長為1 024的特征向量. 實驗結(jié)果證明, 特征向量長度越長越有利于元學習器的對比分類[4,12,30].

        4.3 模型改進

        根據(jù)前面介紹的方法中, 本文從多方面改進了Swin Transformer, 保留了模型在分類前的全部網(wǎng)絡結(jié)構(gòu), 并重新寫了分類部分和損失部分的函數(shù). 整個模型由3部分組成, 首先特征提取模塊將原始圖像映射到特征空間. 把特征空間輸入元學習器并對查詢集中的圖像進行預測. 特征提取層使用Swin-T模型, 該模型分為4個模塊每個模塊又對應不同數(shù)目的注意力層.其4個模塊分別對應2層、2層、18層、2層; 并且每個模塊分別對應的多頭注意力數(shù)目為6、12、24、48.模型的輸入圖片尺寸為384×384像素. 通過特征提取層最終得到一維的、長為221 181的特征向量, 在每一層提取特征后使用一個mlp層, mlp層最重要的作用就是控制輸出的維度數(shù)使其保持一個較慢的速度增加.每個mlp層由全連接層、GELU激活層、drop層組成.

        特征提取得到特征空間后再通過構(gòu)建元學習器對特征進行預測和分類. 首先通過特征提取模型搭建孿生網(wǎng)絡提取支持集和測試集的圖像特征向量, 將提取到的特征向量送入元學習器, 對測試集樣本做類別預測. 元學習器對兩組特征向量計算余弦距離和歐式距離, 余弦距離從兩組特征向量的角度方面進行對比; 歐式距離從距離方面對兩組特征向量進行對比. 在計算余弦距離和歐式距離時設(shè)置合適的閾值, 從而大于這個閾值的兩個特征向量則認為是來自于同一類的圖片;而小于這個閾值的兩個特征向量則認為來自不同類的圖片. 若確定某個特征向量是來自于不同類的圖片, 則為其添加新標簽, 從而豐富元學習的可擴展性和自主學習性, 使其更加符合元學習的特點[31].

        4.4 實驗結(jié)果

        為了評估模型的準確率, 本實驗構(gòu)造單圖片測試集. 單圖片測試集即在測試集中包含一張測試的圖片,當測試集圖片類別不屬于支持集中的任一類別時, 其分類結(jié)果為新類別. 最后, 通過統(tǒng)計測試集中的分類結(jié)果作為評價模型的指標.

        如表2所示, 在單圖片實驗中, 本文設(shè)置了7組實驗數(shù)據(jù), 每一組支持集中包含5個類別, 每個類別有5張圖片. 每一組測試集中有一個類別, 包含一張圖片.在第1組實驗中, 測試集的蛇類別與支持集中第1類蛇的類別相同, 分類結(jié)果為第1類. 在第2組實驗中,測試集的蛇類別與支持集中第2類蛇的類別相同, 分類結(jié)果為第2類. 在第3組、第4組、第5組實驗中,測試集的蛇類別分別與支持集中第3類、第4類、第5類蛇的類別相同, 分類結(jié)果為第3類、第4類、第5類. 為了更好驗證基于自注意力機制的孿生網(wǎng)絡模型在細粒度分類中的效果, 在第6組和第7組實驗中, 設(shè)置測試集蛇類別與支持集5種蛇類別均不相同, 實驗結(jié)果經(jīng)元學習器生成了新的類別標簽, 即新類1和新類2.

        表2 單圖片實驗結(jié)果

        為了進一步與其他細粒度分類模型的對比, 本實驗設(shè)置多圖片測試集. 多圖片測試集中包含1 000張圖片, 將分類準確率作為模型的評價指標.

        如表3所示, 在第1組到第5組對比實驗中, 分別對比了bilinear convolutional neural networks (B-CNN)、discriminative filter bank within a CNN (DFL–CNN)、weakly supervised data augmentation network (WS-DAN)、progressive multi-granularity (PMG)共4種細粒度分類網(wǎng)絡在野生蛇圖片上的分類效果. 通過單圖片和多圖片測試驗證了基于自注意力機制的孿生網(wǎng)絡在小樣本學習和細粒度分類方向的優(yōu)勢.

        表3 多圖片實驗結(jié)果

        4.5 模型環(huán)境

        本實驗使用的設(shè)備參數(shù)如下: 操作系統(tǒng)為Ubuntu 18.04環(huán)境, 深度學習環(huán)境和框架為Cuda 10.1、Cudnn 7、PyTorch 1.7.1、Torchvision 0.8.2、Cudatoolkit 10.1; 顯卡2080ti、32 GB內(nèi)存

        4.6 模型參數(shù)

        在進行遷移學習訓練模型時, 訓練參數(shù)設(shè)置為300輪, 每輪輸入4張圖片; 每20輪進行一次預熱學習, 預熱學習率為5E–7; 權(quán)重衰減率為0.05; 基礎(chǔ)學習率為5E–3, 最小學習率為5E–6.

        模型參數(shù)設(shè)置如下, 通道數(shù)為4, 嵌入通道數(shù)為96,模型四個模塊的深度分別為2, 2, 18, 2, 4個塊的自注意力頭數(shù)分別為6, 12, 24, 48; 窗口大小為7×7個切片,自注意力機制的偏置設(shè)為true.

        5 總結(jié)

        本文主要研究基于自注意力機制的孿生網(wǎng)絡模型在細粒度分類的小樣本學習方法. 首先通過遷移學習得到提取本實驗細粒度數(shù)據(jù)集的網(wǎng)絡模型權(quán)重. 將遷移學習后的網(wǎng)絡模型作為孿生網(wǎng)絡的主干網(wǎng), 通過構(gòu)建元學習器對孿生網(wǎng)絡提取的兩組特征向量做對比和分類. 本實驗探索了基于自注意力機制的網(wǎng)絡模型在細粒度圖像的分類效果, 相較于卷積神經(jīng)網(wǎng)絡模型, 本文獲得了更高的準確率和效率.

        猜你喜歡
        細粒度余弦特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學設(shè)計——以特征值和特征向量為例
        融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
        克羅內(nèi)克積的特征向量
        細粒度的流計算執(zhí)行效率優(yōu)化方法
        一類特殊矩陣特征向量的求法
        基于雙線性卷積網(wǎng)絡的細粒度圖像定位
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
        兩個含余弦函數(shù)的三角母不等式及其推論
        支持細粒度權(quán)限控制且可搜索的PHR云服務系統(tǒng)
        分數(shù)階余弦變換的卷積定理
        人人妻人人澡人人爽国产| 玖玖资源站无码专区| 亚洲成色在线综合网站| 宅男噜噜噜| 妺妺窝人体色www聚色窝韩国| 人妻精品人妻一区二区三区四五| 少妇又色又爽又高潮在线看| 丁香美女社区| 国自产偷精品不卡在线| 国产人成视频免费在线观看| 日韩在线精品免费观看| 国产精品天天看天天狠| 天天躁日日躁狠狠躁av| 一本大道久久a久久综合| 国产一区二区三区免费在线播放| 色欲色香天天天综合网www| 激情偷乱人成视频在线观看| 又大又粗弄得我出好多水| 久久久国产精品福利免费| 亚洲精品一区二区三区日韩| 免费a级毛片在线播放| 久久久天堂国产精品女人| 成人午夜视频一区二区无码| av在线网站手机播放| 白白色发布的在线视频| 蜜桃久久精品成人无码av| 可以免费在线看黄的网站| 中文字幕精品乱码一区| 老女老肥熟女一区二区| 老熟妇乱子伦av| 国产三级精品美女三级| 久久精品国产福利亚洲av| 日本道色综合久久影院| 人妻少妇av中文字幕乱码| 中文字幕天天躁日日躁狠狠| 国产女人精品一区二区三区| 色噜噜亚洲男人的天堂| 国产熟妇按摩3p高潮大叫| 亚洲熟妇色xxxxx欧美老妇| 性色av成人精品久久| 久久精品国产亚洲av麻豆床戏|