亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        細粒度視覺分類:深度成對特征對比交互算法

        2023-11-16 00:51:02郭鑫平
        計算機與生活 2023年11期
        關鍵詞:細粒度集上向量

        汪 敏,趙 鵬,郭鑫平,閔 帆

        1.西南石油大學 電氣信息學院,成都 610500

        2.西南石油大學 計算機科學學院,成都 610500

        3.西南石油大學 人工智能研究所,成都 610500

        卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)在視覺識別領域取得了巨大的成功[1-2]。細粒度視覺分類(fine-grained visual categorization,F(xiàn)GVC)旨在識別各種特定類別的子類別,如不同種類的鳥、狗、飛機以及汽車等[3]。由姿勢、視角、光照、遮擋和背景干擾引起的高類內和低類間視覺差異使細粒度圖像分類成為一項極具挑戰(zhàn)性的任務[4]。將普通圖像識別領域性能優(yōu)越的經(jīng)典CNN模型直接應用于細粒度圖像識別會導致模型性能的顯著下降[5]。圖1舉例給出了普通圖像識別與細粒度識別的區(qū)別。圖1(a)展示了普通圖像識別問題。通常的圖像識別,是為了區(qū)分不同的大類,類別之間存在顯著差異。因此經(jīng)典CNN模型能夠取得優(yōu)異性能。圖1(b)展示了細粒度圖像識別。其中赫爾曼海鷗、灰背鷗、銀鷗以及加州海鷗均屬于鳥類這一大類。然而,它們分屬于不同的子類別,類別之間具有極其相似的外部特征。這給CNN模型識別帶來了巨大挑戰(zhàn)。

        圖1 普通圖像識別與細粒度圖像識別的區(qū)別Fig.1 Difference between ordinary image recognition and fine-grained image recognition

        深度FGVC 方法主要分為強監(jiān)督方法和弱監(jiān)督方法。強監(jiān)督方法采用額外的人工標注信息,如目標邊界框和特殊部位關鍵點,來獲取目標物體的空間位置和細微差異。Zhang等人[6]通過使用特殊部位標注信息對小語義信息進行建模,并在分類子網(wǎng)絡中引入新的部件語義信息,完成多個語義部分的定位和整個對象的識別。Krause 等人[7]設計了基于共同分割和對齊的細粒度識別網(wǎng)絡,雖然不需要使用部分注釋,但依據(jù)目標對象標注框所訓練的模型具有更好的識別效果。Wang等人[8]構建了一個基于補丁關系的網(wǎng)絡結構,通過三元組建模具有區(qū)分性的語義信息,并自動挖掘具有區(qū)別的三元組信息進行分類。

        雖然借助差異性的部件標注信息,通過精細設計挖掘差異信息的網(wǎng)絡結構,可以實現(xiàn)更高精度的分類性能,但人工標注成本昂貴,不符合現(xiàn)實研究以及工業(yè)應用的需求。因此僅使用類別標簽的弱監(jiān)督方法成為近年來研究的新趨勢。Lin等人[9]設計了一種雙線性的CNN模型,通過兩個子網(wǎng)絡相互協(xié)作,完成圖像的差異性特征提取和區(qū)域定位,最后將兩種特征經(jīng)過外積的形式聯(lián)合用于細粒度分類。Ji等人[10]提出了一種注意力神經(jīng)網(wǎng)絡的樹結構模型,通過樹結構對細粒度特征由粗到細進行差異性建模,以實現(xiàn)更優(yōu)性能的分類。Zhang 等人[11]構建了一個多尺度三支網(wǎng)絡,將原始圖像經(jīng)過定位和拆分,生成更細微更具判別力的補丁,有效提升了經(jīng)典網(wǎng)絡的識別性能,但相應的模型結構也更復雜。此外,Chen等人[12]提出了基于圖像拼接方法對補丁間關系進行建模的破壞構建學習(destruction and construction learning,DCL)。Yang 等人[13]提出了基于自我監(jiān)督機制的導航學習網(wǎng)絡(navigator-teacher-scrutinizer neural network,NTS-Net)等。這些方法均顯著提升了經(jīng)典CNN 模型在細粒度識別領域的性能,但伴隨而至的是網(wǎng)絡模型更復雜,所需的訓練成本更高。

        鑒于以上分析,由于細粒度圖像類間信息差異小而類內信息差異大,現(xiàn)有一些方法僅使用單輸入單輸出的模式無法挖掘更具差異的信息部位以及更具代表性的公共特征,進而影響模型的分類性能。因此,提出了一種深度成對特征對比交互算法(deep pairwise feature contrast interactive fine-grained classification,PCI)。

        首先,PCI 構建了正對和負對輸入,基于典型CNN模型提取深度成對細粒度特征。成對細粒度深度特征之間包含共同、差異特征。

        其次,建立深度成對特征交互機制。通過成對特征的全局信息學習、深度對比、深度自適應交互提取特征對之間的共同、差異特征,實現(xiàn)正對共同特征、負對差異特征的自適應交互學習。

        最后,建立成對特征對比學習機制,用對比損失約束正對、負對特征之間的相似性,增大正對之間的相似性并減小負對之間的相似性。以此解決細粒度圖像類內方差大、類間方差小的難題。

        本文的主要貢獻包括以下三方面:

        (1)設計雙輸入雙輸出的網(wǎng)絡結構,建立了對比機制、特征自適應學習策略,依據(jù)成對圖像對比推理,顯著提升模型細粒度識別能力。

        (2)構建正負對學習策略,設計成對細粒度對比損失函數(shù),以對比學習的方式解決細粒度圖像類內方差大而類間方差小的問題。

        (3)在具有挑戰(zhàn)性的細粒度數(shù)據(jù)集CUB-200-2011、Stanford Dogs、Stanford Cars 和FGVC-Aircraft上與近年來20 種頂會論文算法對比,對比結果表明了所提方法的先進性與有效性。

        1 相關工作

        1.1 細粒度圖像分類

        FGVC旨在實現(xiàn)更精細化的子類之間的區(qū)分,是一項極具挑戰(zhàn)性的研究課題。在其發(fā)展過程中,根據(jù)有無使用更加精細的標注(邊界框或特殊關鍵點等)將FGVC方法分為強監(jiān)督方法和弱監(jiān)督方法。強監(jiān)督方法使用額外的人工標注信息使CNN模型關注類別之間更加細致的差異,從而提升模型的識別能力。經(jīng)典的強監(jiān)督學習方法包括基于部分區(qū)域的卷積神經(jīng)網(wǎng)絡(part-based region-based convolutional neural network,Part-based R-CNN)[14]、全卷積注意力定位網(wǎng)絡(fully convolutional attention localization network,F(xiàn)CAN)[15]、姿勢歸一化卷積神經(jīng)網(wǎng)絡(pose normalized deep convolutional nets,PN-CNN)[16]、部分堆疊卷積神經(jīng)網(wǎng)絡(part-stacked convolutional neural network,Part-Stacked CNN)[17]等。其中,Part-based R-CNN[14]采取的方式為構造一個全局特征檢測器和一個局部特征檢測器,通過對局部特征檢測器施加更加精細的標注以強制使CNN 關注類別之間細微的差異特征。FCAN[15]則提出了一種強化學習框架,可優(yōu)化適應不同細粒度域的局部判別區(qū)域。PN-CNN[16]提出了更接近于人類專家系統(tǒng)的神經(jīng)架構,首先利用網(wǎng)絡估計出目標的邊界信息,依據(jù)邊界對局部語義信息進行整合分類。Part-stacked CNN[17]構建了部分堆疊的CNN架構,建模與對象部分的細微差異,明確解釋了細粒度識別過程。然而,精細標注導致的昂貴標簽代價阻礙了強監(jiān)督方法的適用性。

        弱監(jiān)督方法僅依靠類別標簽進行分類,這是近年來的主要趨勢。Gao 等人[18]通過自通道交互(selfchannel interaction,SCI)和對比通道交互(contrastive channel interaction,CCI)兩個模塊挖掘特征通道間的互補信息和差異信息,其中SCI模塊用于挖掘自身通道間特征信息并進行加權,CCI模塊用于挖掘差異通道間的信息并進行加權判斷。Chang 等人[19]設計了互通道損失充分挖掘通道特征的多樣性和差異性,通過將通道特征劃分成屬于不同類別的特征組,并施加多樣性約束以定位細微差異特征。Zhang等人[20]通過結合專家系統(tǒng)解決細粒度分類問題,通過引入約束使專家產(chǎn)生不同的預測分布,從而迫使模型關注不同的細粒度特征。Xu等人[21]建立空間注意力機制使模型注意更具差異性和信息量的區(qū)域。

        1.2 對比學習

        對比學習的基本思想是將原始數(shù)據(jù)映射到一個特征空間中,其中正對的相似性最大化,而負對的相似性最小化[22]。其作為一種無監(jiān)督的手段,被廣泛應用于表示學習[23]。其中正對和負對的構建方式也不盡相同。Sharma等人[24]使用聚類的結果作為偽標簽來構建正對與負對。更為簡單的方法是直接利用數(shù)據(jù)增強的方法來構建數(shù)據(jù)對,即正對由同一張圖像的兩種不同的數(shù)據(jù)增強方式構成,除此之外都為負對[25]。在三元組損失中通過設置錨點,最小化錨點與正對的距離,同時最大化錨點與負對的距離。對比損失極大優(yōu)化了特征表示的結果[26]。

        最近的對比學習被應用于深度圖像聚類任務。Li等人[27]將對比學習引入了無監(jiān)督聚類任務,通過在特征級向量上施加對比損失增大正對間的相似性同時減小負對間的相似性。Dang等人[28]根據(jù)深度特征矩陣行與列不同的性質差異設計了雙重對比學習進行深度聚類。通過對行與列施加對比學習,深度模型可以自適應地將正對拉近,而將負對推開。

        從人類深度對比細粒度圖像的視角出發(fā),本文創(chuàng)新性地設計了雙輸入雙輸出網(wǎng)絡模型,提出了成對對比約束損失,構建了正負對深度特征構建、深度特征成對交互以及成對特征對比策略。

        2 網(wǎng)絡框架

        2.1 問題定義

        將單個圖像實例對象表示為,i∈[1,n],p∈Y表示實例所屬類別,訓練集與測試集具有相同的類別Y={1,2,…,k},n為訓練集樣本總數(shù)。骨干CNN模型用f(?)表示,f(?)由L層卷積層和一個全連接層組成,即f(?)的深度為L。將實例經(jīng)過f(?)的卷積層后輸出的深度特征用∈RC×H×W表示,C、H、W分別表示深度特征的通道數(shù)量、高和寬。f(?)中第l層輸出的深度特征表示為。fl(?)表示f(?)第l層卷積層,1 ≤l≤L。將經(jīng)過f(?)的輸出預測標簽用y∈Y表示,將真實標簽用y*∈Y表示。

        2.2 網(wǎng)絡框架概述

        PCI網(wǎng)絡結構由正負對構建及深度特征提取、深度成對特征對比交互、成對特征對比學習三部分組成。圖2展示了網(wǎng)絡的總體框架。

        正負對構建及深度特征提取由正負對構建、成對深度特征提取兩部分組成。正負對構建保證輸入包含同類組成的正對和異類組成的負對。這使模型能同時學習同類對之間的共同特征和異類對之間的差異特征。詳細的正負對構建以及成對深度特征提取過程見3.1節(jié)。

        深度成對特征對比交互模擬人類深度對比交互的過程。它由全局信息向量學習、門向量學習、深度成對特征交互三部分組成。全局信息向量融合了成對特征的全局信息。門向量學習對比了成對特征的共同、差異特征。深度成對特征交互利用門向量所學習的對比信息自適應交互正負對深度特征。詳細的深度成對特征對比交互過程見3.2節(jié)。

        成對特征對比學習對深度交互后的特征施加對比約束,從特征映射角度增大正對特征的相似性和減小負對特征的相似性。其能夠與深度成對特征對比交互有機結合,增強模型的泛化性能。詳細的成對特征對比學習見3.3節(jié)。

        3 深度成對特征對比交互算法

        本章將詳細介紹正負對構建以及深度特征提取、深度成對特征對比交互、成對特征對比學習三個模塊。

        3.1 正負對構建以及深度特征提取

        將來自于同類的兩張圖像定義為正對,將來自于不同類的兩張圖像定義為負對,即:

        其中,p與q分別表示樣本屬于第p類和第q類,n為訓練集樣本總數(shù)。

        將圖像對(,)輸入深度為L層的CNN 模型f(?),經(jīng)過每一層卷積,會生成對應層的深度特征。將第l層卷積層輸出的深度特征表示為RC×H×W,即:

        其中,fl(?)表示f(?)的第l層卷積層,C、H、W分別表示深度特征的通道數(shù)量、高和寬。該對特征將用于深度成對特征對比交互,模仿人類深度對比成對圖像的過程。

        3.2 深度成對特征對比交互

        本節(jié)將闡述深度成對特征對比交互的過程,其分為三部分,包括全局信息向量學習、門向量學習、深度成對特征交互。

        (1)全局信息向量學習:全局信息向量將成對特征的信息融合為一個特征向量,并映射到高維特征空間。

        其中,MLP(?)為一個兩層神經(jīng)網(wǎng)絡映射函數(shù)(multilayer perceptron,MLP)。目的是將全局信息向量映射到更高維度的向量空間作為全局信息的通道表示。全局信息向量M是從圖像對所提取的特征中自適應學習并映射,它融合了兩者特征的通道信息。這有效借鑒了人類的行為,在對比判斷過程中會同時接受兩張圖像信息。

        (2)差異性門向量生成:差異性門向量為全局信息向量與自信息向量通過對比的方式生成。它包含了成對深度特征對比后的特征信息,具有細粒度特征選擇性。

        基于獲得的全局信息向量M,PCI 繼續(xù)模仿人類的行為,深度對比兩張圖像的異同。即PCI將所學得的全局信息向量M分別與代表各自特征的自信息向量進行對比。受注意力交互網(wǎng)絡(attentive pairwise interaction network,API-Net)[5]的啟發(fā),本文采用通道乘積的方法進行對比,使全局信息向量M分別與自信息向量相乘,再經(jīng)過一個Sigmoid(Sig)函數(shù)以生成各自的差異性門向量g∈RC,即:

        圖3 深度特征交互Fig.3 Deep feature interaction

        (3)深度特征交互:深度特征交互利用差異性門向量的選擇信息,將選擇后的對比特征自適應交互,以生成共同或差異特征。深度特征交互過程如圖3所示。

        首先,門向量為成對深度特征經(jīng)過對比后自適應產(chǎn)生。它們分別代表了圖像對的不同特征信息,將各自的特征通過各自的門向量以選取對比過后的特征,即。

        其次,為了將對比選取后的特征信息施加在原特征上進行交互,本文采用了相加求和的方式,這樣做可以放大原本的特征信息。但PCI 網(wǎng)絡需要同時適應正對與負對兩種情況,即在正對的情況下需放大共同特征,在負對情況下需突出差異特征。因此在交互的過程中不能直接相加求和。因此,在交互時引入了兩個可訓練的參數(shù)α和β,并使它們通過Tanh 函數(shù)。目的是利用Tanh(T)將兩個可訓練參數(shù)映射到正負數(shù)空間。從而模擬正負對完全不同的特征交互方式,使網(wǎng)絡在訓練過程可以自適應調節(jié)這兩個參數(shù)以同時適應正負對兩種情況。成對深層特征交互的過程如式(5)所示:

        3.3 成對特征對比學習

        考慮深度成對特征交互,模型完成了成對細粒度圖像的深度對比。進一步,本文優(yōu)化損失函數(shù),將對比約束與交叉熵損失有機融合,提升模型分類性能。模型以端到端的方式訓練。在正對與負對上施加的對比約束,使正對之間的相似性增大、負對之間的相似性減小。

        優(yōu)化后的總損失函數(shù)為:

        其中,Lce為分類任務中常用的交叉熵損失函數(shù),λ為可調節(jié)超參數(shù),Lcon為對比損失。

        sp,q利用余弦相似度衡量了特征對之間的相似性。在網(wǎng)絡訓練過程中,若成對圖像為正對,Lcon會增大正對之間的相似性;若成對圖像為負對,Lcon則會減小負對之間的相似性。因此,在分類損失Lce和對比損失Lcon的共同作用下,PCI 會自適應執(zhí)行深度成對特征對比交互過程,提取差異性的特征或公共特征,從而提高模型的細粒度識別能力。

        4 實驗結果與分析

        4.1 數(shù)據(jù)集和評價指標

        實驗數(shù)據(jù)集:為驗證所提出方法PCI 的有效性,在四個最富有挑戰(zhàn)性的細粒度數(shù)據(jù)集上進行了相關實驗,即CUB-200-2011[29]、FGVC-Aircraft[30]、Stanford Cars[31]、Stanford Dogs[32]。使用官方的訓練和測試劃分訓練集和測試集,詳細的類別信息以及拆分信息統(tǒng)計見表1。

        表1 數(shù)據(jù)集的訓練集與測試集信息Table 1 Datasets information of training and testing

        實驗評價指標:為驗證所提出的細粒度分類算法PCI 的性能,采用分類任務中廣泛使用的精度(accuracy,Acc)作為評價指標,如式(9)所示:

        其中,TP(true positive)表示真實值是Positive,模型認為是Positive 的數(shù)量;TN(true negative)表示真實值是Negative,模型認為是Negative 的數(shù)量;FP(false positive)表示真實值是Negative,模型認為是Positive 的數(shù)量;FN(false negative)表示真實值是Positive,模型認為是Negative的數(shù)量。

        4.2 訓練和測試

        (1)訓練:采用在ImageNet[33]數(shù)據(jù)集上預訓練的殘差網(wǎng)絡(residual network,ResNet)[34]作為骨干網(wǎng)絡。在訓練時,每次從訓練集中隨機采樣N個類別,每個類別采樣2 張圖像,每批次組成批量即Batch-Size=2N的訓練數(shù)據(jù),按照3.1 節(jié)中所示的正負對配對的方式進行配對訓練并計算對比損失和交叉熵損失。使用反事實注意力學習(counterfactual attention learning,CAL)[35]中建議的弱監(jiān)督數(shù)據(jù)增強方法,即首先將原始圖像縮放為512×512,再使用隨機裁剪將圖像裁剪為448×448 大小,并使用隨機反轉以增強數(shù)據(jù)。采用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器。SGD 的初始學習率為0.001,動量為0.9,權重衰減為5E-4。此外,采用余弦下降方法調整學習率,在整個訓練過程僅使用類別標簽。

        (2)測試:表2 和表3 中shuffle=True 和shuffle=False表示同一模型在兩種不同配對方式下的測試結果。PCI為雙輸入雙輸出的網(wǎng)絡結構,在測試集上進行兩種配對方式的測試以驗證其性能。第一種為隨機打亂整個測試數(shù)據(jù)集,即在加載數(shù)據(jù)集的時候將shuffle設置為True,此時整個數(shù)據(jù)集的配對方式完全隨機。第二種為不打亂測試數(shù)據(jù)集,使用測試數(shù)據(jù)集默認的順序進行測試,即在加載數(shù)據(jù)集的時候將shuffle 設置為False,此時配對方式按照數(shù)據(jù)集默認的順序配對,不隨機打亂整個數(shù)據(jù)集。為驗證實驗結果的準確性,在隨機配對測試的時候采取計算10次求均值的方式。

        表2 PCI與對比算法在4個數(shù)據(jù)集上的Top-1分類準確率比較Table 2 Comparison of Top-1 classification accuracy between PCI algorithm and other algorithms on 4 datasets 單位:%

        表3 本文算法在4個數(shù)據(jù)集上的消融實驗Table 3 Ablation studies of proposed algorithm on 4 datasets 單位:%

        4.3 實驗結果及對比分析

        (1)對比基線:為驗證所提出算法PCI 的有效性和先進性,同時選取了強監(jiān)督算法和弱監(jiān)督算法進行對比實驗。強監(jiān)督算法包括SPDA-CNN(semantic part detection and abstraction CNN)[6]、PA-CNN(part annotations CNN)[7]、FCAN(fully convolutional attention localization network)[15]、PN-CNN(pose normalized CNN)[16]、MGCNN(multiple granularity descriptors CNN)[36]等性能優(yōu)越的算法。弱監(jiān)督算法包括API-Net(attentive pairwise interaction network)[5]、B-CNN(bilinear CNN)[9]、ACNet(attention convolutional network)[10]、DCL(destruction and construction learning)[12]、NTS-Net(navigatorteacher-scrutinizer neural network)[13]、CIN(channel interaction networks)[18]、MC-Loss(mutual-channel loss)[19]、DFL-CNN(discriminative filter bank CNN)[37]、FT(finetuned)[38]、Cross-X[39]、PCA(progressive co-attention)[40]、PC(pairwise confusion)[41]、Max-Ent(maximumentropy)[42]、MAMC(multi-attention multi-class)[43]和SEF(semantically enhanced feature)[44]等性能優(yōu)越的算法。

        表2展示了所提出的方法PCI在CUB-200-2011、Stanford Dogs、FGVC-Aircraft以及Stanford Cars四個細粒度數(shù)據(jù)集上的實驗結果,其中符號“—”表示當前方法在對應的數(shù)據(jù)集上未進行實驗,表中對比算法結果嚴格引用自原論文。

        從表2 可以看出,shuffle 為True 時,在CUB-200-2011、Stanford Dogs、FGVC-Aircraft 以 及Stanford Cars 數(shù)據(jù)集上所提出模型PCI 的精度分別為84.3%、84.0%、90.8%、92.1%。在CUB-200-2011 數(shù)據(jù)集上PCI 的性能超過了強監(jiān)督算法MG-CNN(↑1.3 個百分點)和PA-CNN(↑1.5個百分點),并超過了弱監(jiān)督算法PC(↑4.1個百分點)、B-CNN(↑0.2個百分點)、MaxEnt(↑3.9 個百分點)以及FT(↑0.2 個百分點)。在Stanford Dogs 數(shù)據(jù)集上超過了算法B-CNN(↑1.9個百分點)、PC(↑10.6 個百分點)和MaxEnt(↑10.4個百分點)。在FGVC-Aircraft 數(shù)據(jù)集上超過了強監(jiān)督算法MG-CNN(↑4.2 個百分點),弱監(jiān)督算法BCNN(↑6.7 個百分點)、FT(↑2.3 個百分點)、PC(↑7.4 個百分點)以及MaxEnt(↑6.9 個百分點)。在Stanford Cars 數(shù)據(jù)集上PCI 測試精度超過了B-CNN(↑0.8個百分點)和FT(↑0.4個百分點)。

        從表2 可以看出,shuffle 為False 時,即整個測試集配對按照數(shù)據(jù)集默認順序進行。此時,PCI 在CUB-200-2011、Stanford Dogs、FGVC-Aircraft 以及Stanford Cars 數(shù)據(jù)集上的測試精度分別為92.5%、94.1%、96.7%、96.9%。此時,PCI 在4 個細粒度視覺分類數(shù)據(jù)集上的測試精度均優(yōu)于當前最先進的算法。它們分別是在CUB-200-2011 數(shù)據(jù)集上的PCA(88.3%)、Stanford Dogs數(shù)據(jù)集上的FCAN(88.9%)和Cross-X(88.9%)、FGVC-Aircraft 數(shù)據(jù)集上的DCL(93.0%)和API-Net(93.0%)以及Stanford Cars數(shù)據(jù)集上的API-Net(94.8%)。PCI 此時的精度分別超過了PCA(↑4.2 個百分點)、FCAN(↑5.2 個百分點)和Cross-X(↑5.2 個百分點)、DCL(↑3.7 個百分點)和API-Net(↑3.7個百分點)、API-Net(↑2.1個百分點)。

        (2)對不同的強監(jiān)督細粒度分類算法進行實驗分析:所提出PCI算法在兩種配對方式的情況下均優(yōu)于強監(jiān)督算法PA-CNN[7]以及MG-CNN[36]。例如,在CUB-200-2011 數(shù)據(jù)集上與PA-CNN[7]相比較,此時PCI的性能在兩種情況下分別提高了1.5個百分點和9.7個百分點,具有明顯的提升。PA-CNN[7]采用了部分標注框,通過分割和對齊網(wǎng)絡設計以促使模型更具競爭力。在FGVC-Aircraft數(shù)據(jù)集上與MG-CNN[36]相比較,此時PCI 的性能分別提升了4.2 個百分點和10.1 個百分點,具有明顯的提升。MG-CNN 采用多分支構建多粒度網(wǎng)絡結構,在使用標注框時網(wǎng)絡性能更好。與強監(jiān)督算法比較,PCI的優(yōu)勢在于不使用更精細化的標注而取得更優(yōu)異的性能,并且不額外增大模型的參數(shù)量。PCI在shuffle為True時在Stanford Dogs數(shù)據(jù)集上的性能弱于FCAN[15],這是因為此時測試集隨機進行配對,而不同的對比對象會影響模型的預測性能,從而影響模型提取差異特征的能力。這與人類對比過程一致。如表2所示。

        (3)對不同的弱監(jiān)督細粒度分類算法進行實驗分析:所提出方法PCI 在數(shù)據(jù)集CUB-200-2011、Stanford Dogs、FGVC-Aircraft和Stanford Cars上精度達到最高,分別為92.5%、94.1%、96.7%、96.9%。在CUB-200-2011數(shù)據(jù)集上與性能最優(yōu)異的弱監(jiān)督算法PCA[40]相比,提高了4.2 個百分點。PCA 同樣引入了尋找共同特征的機理,并設計注意力擦除模塊以促使模型關注更加多樣性的特征。在FGVC-Aircraft數(shù)據(jù)集上與性能最優(yōu)異的弱監(jiān)督算法DCL[12]和API-Net[5]相比,提升了3.7個百分點。DCL依據(jù)破壞和重建建模圖像補丁關系,并引入對抗攻擊的思想以學習細粒度特征。API-Net同樣從成對圖像中學習,但其只對模型最后一層特征做對比約束和交互,這無法在訓練過程中有效對比中間層的深度特征,并學習它們之間的關系。另外與多分支網(wǎng)絡相比較,如NTSNet[13]雖然不需要使用額外標簽,但其在構建具有差異性提取能力的網(wǎng)絡時需要多個分支網(wǎng)絡進行協(xié)同合作,這促使推理模型更大,訓練成本增大。而PCI僅需要成對的圖像進行深度對比交互學習就可以實現(xiàn)共同特征與差異特征的提取,模型更加簡化。如表2所示。

        綜上分析,實驗結果和分析表明所提出的PCI算法能夠在細粒度數(shù)據(jù)集上達到優(yōu)異的表現(xiàn)性能。所提出的深度成對特征對比交互算法能夠顯著優(yōu)化模型的泛化性能,提高模型的細粒度視覺識別能力。

        4.4 可視化實驗分析

        為直觀表示PCI 所提取的細粒度圖像對之間的細微特征,采用類激活圖(Grad-Cam)[45]對特征進行了可視化??梢暬瘜Ρ鹊幕€為ResNet-50[34]和APINet[5]。

        從圖4 可以看出,ResNet-50、API-Net 以及本文方法PCI 都能定位到目標所在空間位置。但與普通圖像識別不同,細粒度圖像的目標更加細微,背景更加復雜,同類之間的特征差異更小。這使模型即使定位到目標卻不能準確判斷目標類別。因此,這時需要模型關注更細微的特征,如同類之間的共同特征,異類之間的差異特征。所提出的算法遵循這一思想,從實驗結果和可視化可以看出,本文方法PCI能夠更多地關注細粒度圖像的共同特征和差異特征。

        (1)正對共同特征:正對圖像,由于背景與姿勢的差異,應使模型關注它們之間的共同特征。圖4中第一行和第二行為兩對不同的正對圖像。從圖4 可以看出,API-Net與PCI均比基礎ResNet-50關注到更多的共同特征。但API-Net 在背景較為復雜而目標較為精細的情況下不能關注到足夠的共同特征。圖4(b)第一行中,API-Net 僅關注了鳥的尾部特征,而沒有捕捉到鳥的身體特征。圖4(b)第二行中,處于飛行和靜止中的兩張同類鳥的圖像,因為姿勢和背景的不同使它們的特征具有明顯的差異。這時候應該更關注它們之間相同的特征,如紅色的嘴、白色的頭部等。而API-Net 沒有很好地關注到這些共同特征。與之相比,從圖4(c)中可以看出,PCI 更多地注意到兩幅圖像的共同特征,如紅色的嘴等。

        (2)負對差異特征:對于負對圖像,由于類別之間細微的差異,模型應關注它們之間的差異特征。圖4 中第三行和第四行為兩對不同負對圖像??梢钥闯鯝PI-Net 與PCI 都比基礎ResNet-50 關注到更多的差異特征。但某些情況下,API-Net沒有關注到足夠的差異特征,如第三行中鳥的爪子和嘴巴。與之對比,從圖4(c)中可以看出,PCI 更多地關注到了差異性特征,爪子和嘴巴等。

        4.5 消融實驗

        (1)PCI 的有效性:表3 詳細列出與基礎模型ResNet-50[34]相比,引入PCI 算法后,在4 個數(shù)據(jù)集上都顯著提升了基礎骨干模型的細粒度識別性能。

        shuffle 為True 時,引入PCI 后在CUB-200-2011、Stanford Dogs、FGVC-Aircraft、Stanford Cars 上識別精度分別提升了6.1 個百分點、14.1 個百分點、9.6 個百分點、0.4個百分點。shuffle為False時,引入PCI后在CUB-200-2011、Stanford Dogs、FGVC-Aircraft、Stanford Cars數(shù)據(jù)集上識別精度分別提升了14.3個百分點、24.2 個百分點、15.5 個百分點、5.2 個百分點。綜上分析,消融實驗對比結果表明了PCI 的有效性,它顯著提升了經(jīng)典CNN模型在細粒度識別中的性能。

        shuffle為False的性能整體上優(yōu)于為True時的性能,說明圖像配對的不同將會影響模型的預測能力,這與人類對比判別一致,不同的對比對象將會產(chǎn)生不同的判斷結果。shuffle 為True 時每次的配對都是隨機的,此時整個數(shù)據(jù)集的配對方式主要為負對,模型更多依據(jù)提取差異特征進行推理。shuffle為False時每次的配對為默認順序,此時整個數(shù)據(jù)集的配對方式主要為正對,模型更多依據(jù)提取共同特征進行推理。因此,F(xiàn)alse時的性能優(yōu)于True時的性能,說明模型提取共同特征的能力整體上優(yōu)于提取差異特征的能力。但兩種情況下相較于原模型,PCI均帶來了性能的提升,因此PCI是有效的。

        (2)錯誤案例分析:在探索配對方式對PCI 性能的影響過程中,對于差異較大的負對,PCI 可以輕易判別正確。然而,對于差異過于細微的類別,PCI 無法有效識別。如圖5中13、14類別,人類的肉眼也很難通過對比進行區(qū)分。

        圖5 成對分類錯誤案例分析Fig.5 Case analysis of pairwise misclassification

        圖5(a)表明,對于人類肉眼無法辨識的類別,PCI也會發(fā)生識別錯誤。圖5(a)這幅圖像為負對,但它們之間具有極為相似的外部特征。生物學上它們屬于同一種鳥類下面的兩個不同分支,它們的真實標簽分別為13 和14。但PCI 將第一幅圖像預測為14,顯然PCI在對比交互的過程中沒有區(qū)分出這一對圖像的細微差異,從而將它們預測為了一類。

        圖5(b)表明,正對深度對比提取共同特征有利于細粒度圖像識別。圖5(a)中配對分類錯誤的圖像與它的同類組成正對,從圖5(b)中可以發(fā)現(xiàn),PCI 將兩幅圖像都預測正確,這印證了PCI可以通過深度對比提取更多的共同特征。

        圖5(c)表明,負對深度對比提取差異特征有利于細粒度圖像識別。圖5(a)中配對分類錯誤的圖像與另一類與其外觀差異較大的圖像組成負對。從圖5(c)中可以看出,PCI將兩幅圖像都預測正確。這證明PCI 能夠通過對比提取異類之間的差異特征。消融實驗的結果驗證了PCI深度對比的過程,通過深度對比成對圖像的特征從而區(qū)分一對細粒度圖像。

        (3)可解釋性推理:PCI 根據(jù)人類對比交互過程而設計,因此具有一定的解釋能力。在判斷一對同類圖像,PCI注意到的更多是它們的共同特征。如圖4(c)中第二行所示,提取到了共同的鳥嘴和頭部等。在判斷一對異類圖像時,PCI則提取區(qū)分于它們的差異特征。如圖4(c)中第四行所示,提取到了異類之間具有區(qū)分性的鳥嘴和鳥爪等。同樣,圖5 中,對于同一張圖像,在其與差異較小的負對進行同時預測時(圖5(a)),此時將其預測為14類,置信度為0.864 9。將其與差距較大的負對進行同時預測時,此時將其預測為13類,置信度為0.922 2(圖5(c))。0.864 9的置信度弱于0.922 2,兩種不同情況的推理差異說明PCI確實是通過如人類一樣進行深度對比來推理的,這反過來解釋了模型的判斷過程。

        5 結束語

        受人類會深入對比兩張圖像的特征進而區(qū)分細粒度圖像的啟發(fā),設計了深度成對特征對比交互算法(PCI),從成對深度特征對比學習的角度解決細粒度圖像存在的固有問題,有效提升了細粒度識別精度。

        其中,正負對構建模擬了現(xiàn)實中既包含同類對也包含異類對的場景,保證模型輸入更合理。深度成對特征對比交互模擬人類深度對比兩張細粒度圖像的過程,能夠有效對比兩張圖像的共同和差異特征并進行深度的交互。成對特征對比學習對成對圖像施加對比約束,和深度成對對比交互過程有機融合,增強模型提取共同特征和差異特征的能力。

        未來的研究工作主要包括以下三部分:

        (1)進一步優(yōu)化深度對比交互過程,提高辨別差異更細微特征的能力。

        (2)將成對深度對比交互應用于其他圖像處理領域,如語義分割和行為識別等。

        (3)將深度對比交互過程應用于基于注意力的深度模型,如Transformer。

        猜你喜歡
        細粒度集上向量
        融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
        紅外技術(2022年11期)2022-11-25 03:20:40
        向量的分解
        細粒度的流計算執(zhí)行效率優(yōu)化方法
        高技術通訊(2021年1期)2021-03-29 02:29:24
        聚焦“向量與三角”創(chuàng)新題
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        基于雙線性卷積網(wǎng)絡的細粒度圖像定位
        復扇形指標集上的分布混沌
        支持細粒度權限控制且可搜索的PHR云服務系統(tǒng)
        向量垂直在解析幾何中的應用
        久久99中文字幕久久 | 色婷婷五月综合久久| 丰满岳乱妇久久久| 在线看片国产免费不卡| 亚洲天堂av在线一区| 51国产偷自视频区视频| 久久亚洲色www成人欧美| 夜夜爽无码一区二区三区| 97自拍视频国产在线观看| 森中文字幕一区二区三区免费 | 国产亚洲情侣一区二区无 | 国产精东一区二区三区| 美丽的小蜜桃在线观看| 粉嫩被粗大进进出出视频| 国产午夜在线观看视频播放| 亚洲黄色官网在线观看| 国产农村妇女精品一区| 骚片av蜜桃精品一区| 亚州AV无码乱码精品国产| 国产偷拍自拍在线观看| 欧美性生交大片免费看app麻豆 | 扒开双腿疯狂进出爽爽爽视频| 国产成人亚洲合集青青草原精品| 国产爽快片一区二区三区| 无码一区二区三区中文字幕| 少妇高潮惨叫久久久久久| 水蜜桃一二二视频在线观看免费 | 色男色女午夜福利影院| 中国精品18videosex性中国| 成人做爰69片免费看网站| 日韩偷拍视频一区二区三区| 天天射综合网天天插天天干| 国产成人精品无码一区二区老年人 | 极品尤物在线精品一区二区三区 | 亚洲白嫩少妇在线喷水 | 亚洲国产精品一区二区| 国产高清在线观看av片| 无码人妻品一区二区三区精99| 18禁国产美女白浆在线| 亚洲一区二区三区精品| 国产真实老熟女无套内射|