亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多尺度可變Vision Transformer及其在動物圖像識別中的應(yīng)用

        2024-06-11 00:00:00夏益凡王端虹李紀龍姜楓
        軟件工程 2024年5期

        關(guān)鍵詞:動物圖像;ViT;可變注意力機制;多層特征圖

        中圖分類號:TP39 文獻標志碼:A

        0 引言(Introduction)

        對野生動物進行保護,維護生物的多樣性和生態(tài)鏈的完整性,促進人與自然和諧共生,是生態(tài)文明建設(shè)的一項重要任務(wù)。對動物圖像進行快速、準確的識別,在野生動物的保護過程中是十分重要的一個環(huán)節(jié),近年來正逐漸成為計算機視覺領(lǐng)域的熱門研究課題之一。

        動物圖像具有如下兩個特點。(1)動物所處背景復(fù)雜多變。如圖1(a)和圖1(b)所示,蜜蜂、蝴蝶等圖像經(jīng)常以鮮花、草叢為背景,動物主體部分占比小,通常識別困難。(2)動物類間差異小、類內(nèi)差異大。如圖1(c)和圖1(d)所示,狗和狼屬于不同類,但都具有犬類特征,相似度高;如圖1(e)和圖1(f)所示,同屬甲蟲類的獨角仙和金龜子的特征差異大,獨角仙有一根粗壯角突,而金龜子沒有角突。

        因此,動物圖像的識別難度相較于其他圖像的識別難度更大。本文根據(jù)動物圖像的特點,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[1-4]和Transformer[5-7]的優(yōu)勢,提出一種多尺度可變ViT(Vision Transformer)模型,用于動物圖像的識別。

        1 相關(guān)工作(Related works)

        1.1 Vision Transformer模型

        ViT[5]是谷歌于2020年提出的將Transformer應(yīng)用于圖像分類的模型。令輸入圖像的長、寬和高分別為H、W 和C,P 表示圖像塊的大小,C 為圖像通道數(shù),ViT模型架構(gòu)如圖2所示,具體步驟如下。

        第一步:圖像切塊。首先將圖像均勻地切成(H/P)×(W/P)個圖像塊,其次將每個二維圖像塊展平為一維向量,每個向量的維度為P2×C。

        第二步:圖像塊編碼。對每個圖像塊進行編碼,將每個展平后的圖像塊映射到D 維的向量,并為每個圖像塊加上位置編碼,表示其在圖像中原來的位置,用于計算圖像塊之間的注意力。此外,單獨加上一個編號為0的塊,用于計算圖像類別。

        第三步:自注意力編碼。利用Transformer中的自注意力機制,使用多頭自注意力和多層感知器(Multi-LayerPerceptron,MLP)、層標準化等操作計算圖像塊之間的注意力,得到每個圖像塊的編碼。

        第四步:計算圖像類別。將Transformer編碼器得到的圖像塊編碼輸入全連接層,經(jīng)過維度轉(zhuǎn)換,使用Softmax函數(shù)得到圖像屬于每種類的概率向量,取最大值得到圖像類別。

        1.2 ResNet模型

        ResNet(殘差網(wǎng)絡(luò))是一種深度卷積神經(jīng)網(wǎng)絡(luò)[9],其設(shè)計的關(guān)鍵是通過跨層連接(shortcut connection)解決訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的梯度消失問題。網(wǎng)絡(luò)的深度對模型的性能至關(guān)重要,當(dāng)增加網(wǎng)絡(luò)層數(shù)后,網(wǎng)絡(luò)可以提取更加復(fù)雜的特征模式。然而當(dāng)網(wǎng)絡(luò)層數(shù)過深時,會出現(xiàn)網(wǎng)絡(luò)退化的問題,準確率會出現(xiàn)飽和甚至下降的情況,網(wǎng)絡(luò)的訓(xùn)練誤差和測試誤差明顯增大,而ResNet可以有效地解決這種退化問題。

        ResNet解決網(wǎng)絡(luò)退化問題的原理如圖3所示。圖3為ResNet殘差塊結(jié)構(gòu),殘差塊結(jié)構(gòu)分為兩個部分:主路徑和跨層連接。圖3左側(cè)路徑為主路徑,通常是由2~3個卷積層組成的,用于提取輸入圖像的特征信息。圖3右側(cè)路徑為跨層連接,直接從輸入連接至輸出,即恒等映射??鐚舆B接的存在,使網(wǎng)絡(luò)在計算殘差反向傳播時不會出現(xiàn)梯度消失或梯度爆炸等問題,從而提高了網(wǎng)絡(luò)的性能和泛化能力。

        2 多尺度可變ViT 圖像識別模型(Multi-scaleadaptable Vision Transformer image recognitionmodel)

        2.1 方法框架

        本文提出多尺度可變ViT動物圖像識別模型,其框架如圖4所示。該模型由特征提取模塊、編碼器和分類頭3個部分組成。特征提取模塊選取ResNet50[9]作為骨干網(wǎng)絡(luò),從圖像中提取特征;編碼器中使用可變自注意力模塊,計算各圖像塊之間的注意力權(quán)重并獲取各種尺度動物的特征;分類頭包括MLP層,并使用Softmax函數(shù)獲得分類結(jié)果。

        2.2 特征提取模塊

        在特征提取模塊中,使用如表1所示的ResNet50模型作為特征提取器。ResNet50包含5個大層:Conv1、Conv2、Conv3、Conv4和Conv5。本文使用Conv3層、Conv4層和Conv5層輸出的特征圖,分別記為C3、C4和C5。此外,將C5經(jīng)過一個3×3、步長為2的卷積得到特征圖C6。至此,獲得C3、C4、C5、C6四張?zhí)卣鲌D,然后將4張?zhí)卣鲌D拼接后作為編碼器層的輸入。

        2.3 編碼器

        在ViT的編碼器中,使用多頭自注意力機制計算每個圖像塊(query)和其他所有塊(key)的相關(guān)性權(quán)重,并以此對圖像塊的特征進行重新編碼。自注意力的弊端主要如下:(1)計算量大,每個圖像塊都要與其他所有圖像塊計算相關(guān)性,算法復(fù)雜度高。(2)精度不高,尤其是對于圖像中動物主體占圖像比較小的情況,識別率更低。因此,本文借鑒可變注意力原理,對每個query,只選取圖像中的一部分key進行運算,并根據(jù)注意力權(quán)重進行特征融合,從而降低算法復(fù)雜度、提升圖像識別率,如算法1所示。

        算法1中,q∈RN*T*D 是帶位置信息的特征圖,T 為所有特征圖序列化后的維度總和。r 是參考點坐標,每張?zhí)卣鲌D的參考點都是通過將一個與其大小相等的二維等差數(shù)列展平后,分別除以特征圖的大小獲得。算法的工作原理:首先,將x 經(jīng)過一個線性投影,將其維度變換為(N ,Lx ,M ,D∥M );其次,讓q 通過兩個線性層,分別將之轉(zhuǎn)換為偏移量offsets 和注意力權(quán)重weights,再將參考點r 與偏移量offsets 疊加得到采樣點sample_loc,隨后將經(jīng)過一個線性層的原始數(shù)據(jù)x、采樣點sample_loc、使用Softmax函數(shù)得到的注意力權(quán)重weights 送入deform_attn_func函數(shù)計算相似度;最后,通過一個線性層獲取最終結(jié)果。需要說明的是,在計算相似度時,不使用q 的原因為它是帶位置信息的特征圖數(shù)據(jù),而x 是原始特征圖數(shù)據(jù)。

        3 實驗與分析(Experiments and analysis)

        3.1 數(shù)據(jù)集

        目前,常見的動物數(shù)據(jù)集如下。Animals 90,包含90種常見類別動物的圖片,約5 400張,該數(shù)據(jù)集的圖片總量較少;Animals 10,包含10種類別動物的圖片,約26 000張,該數(shù)據(jù)集的動物種類較少;CUB-200鳥類數(shù)據(jù)集,包含200類鳥類子類,共11 788張圖片,該數(shù)據(jù)集只有鳥類圖片,不涵蓋其他類別動物;Animals with attributes 2數(shù)據(jù)集,包含50種類別動物的圖片,共37 322張,該數(shù)據(jù)集的動物類別較少。

        為了保證動物種類齊全,數(shù)據(jù)豐富,本文通過搜集并整理動物圖像,自制動物圖像數(shù)據(jù)集。該數(shù)據(jù)集場景多樣,種類齊全,包括哺乳動物、海洋生物、節(jié)肢動物等,共有90個動物類,每個類平均有210張訓(xùn)練集和30張測試集。為了保證訓(xùn)練數(shù)據(jù)充足,提高模型的魯棒性及改善類別不平衡的問題,本文采用數(shù)據(jù)增強(Data Augmentation,DA)技術(shù)對數(shù)據(jù)集進行擴充,通過增加網(wǎng)絡(luò)訓(xùn)練樣本的個數(shù),使網(wǎng)絡(luò)模型對復(fù)雜環(huán)境有更強的適應(yīng)性。通常,數(shù)據(jù)增強方法包括隨機翻轉(zhuǎn)、隨機裁剪、色彩抖動、隨機灰度和隨機光照變換等,本文在對動物特征圖進行比對后,采取隨機翻轉(zhuǎn)和隨機裁剪的數(shù)據(jù)增強方法,其中隨機翻轉(zhuǎn)采用了水平翻轉(zhuǎn)和垂直翻轉(zhuǎn),而隨機裁剪能夠在保留圖像比例的基礎(chǔ)上,隨機移動圖片各區(qū)域在圖片上的位置。實驗中,訓(xùn)練集共有18 210張圖片,測試集共有2 932張圖片,比例為6∶1。

        3.2 實驗環(huán)境和參數(shù)設(shè)置

        實驗使用的服務(wù)器GPU 為Nvidia GeForce RTX 3070Laptop,使用的深度學(xué)習(xí)框架為Pytorch。輸入圖像分辨率為224×224,Transformer編碼器的輸入圖像塊編碼后的特征維度D 取256。訓(xùn)練過程中,使用ADAM(Adaptive MomentumEstimation)優(yōu)化器加速神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程。同時,通過動態(tài)調(diào)整學(xué)習(xí)率,在不同的參數(shù)空間中自適應(yīng)地調(diào)整參數(shù)的更新幅度,幫助模型更快地收斂,提高模型的準確率。實驗中,分別設(shè)置學(xué)習(xí)率為1e-5,權(quán)重衰減系數(shù)為0.1,每40輪衰減1次,batch_size為12,epoch為200。

        3.3 模型性能評價指標

        實驗采用圖像分類中最常用的Top-1準確率作為性能評價指標。同時,因為Top-1準確率只考慮了最可能的單個類別,忽略了其他可能的類別,因此使用了Top-5準確率。Top-1準確率是指在分類問題中,模型預(yù)測的最高概率類別與實際類別相符的比率。即當(dāng)在測試數(shù)據(jù)集上使用訓(xùn)練好的模型進行預(yù)測時,對于每個樣本,模型都會給出一個概率分布,表示該樣本屬于每個類別的概率,對比概率最大的類是否符合圖片真正對應(yīng)的類,將預(yù)測正確的樣本數(shù)除以總樣本數(shù),就能得到模型的Top-1準確率。Top-5準確率是在Top-1準確率的基礎(chǔ)上,對比概率最大的前5個類是否包含圖片真正對應(yīng)的類。

        3.4 實驗結(jié)果

        為了測試本文方法的有效性,將之與經(jīng)典的分類模型視覺幾何組(Visual Geometry Group, VGG)[10]、殘差網(wǎng)絡(luò)(ResNet)[9]和ViT[5]在相同數(shù)據(jù)集上進行實驗比較,不同方法的實驗結(jié)果如表2所示。本文所提出的多尺度可變ViT動物識別模型在動物圖像集上的Top-1準確率和Top-5準確率分別達到90.34%和97.59%,均高于其他方法相應(yīng)的指標值。

        實驗結(jié)果顯示,本文算法Top-1準確率比單獨用ViT或ResNet更高,表明將可變注意力機制和ResNet網(wǎng)絡(luò)相結(jié)合,能夠提升圖像的識別率,因為相較于自注意力機制而言,可變注意力機制具有更好的適應(yīng)性,而ResNet則避免了信息在深層網(wǎng)絡(luò)中退化的問題,最終共同提升了模型的識別準確率。

        3.5 消融實驗

        為了驗證本文方法的適應(yīng)性和泛化能力,進行了特征圖攜帶位置信息的消融實驗,消融實驗結(jié)果如表3所示。表3中,特征圖數(shù)量為1,表示圖像經(jīng)過ResNet后,僅選用C5這一張?zhí)卣鲌D;特征圖數(shù)量為4,表示圖像經(jīng)過ResNet后,選用C3、C4、C5和C6一共4張?zhí)卣鲌D。表3中的結(jié)果表明,在采用4張攜帶位置信息特征圖的情況下,算法的準確率更高,位置信息及多張?zhí)卣鲌D均能夠較好地提升算法的準確率。

        4 結(jié)論(Conclusion)

        本文針對動物圖像識別問題,提出了一種多尺度可變ViT動物圖像識別模型,能夠有效地解決圖像中存在的背景復(fù)雜、部分種類動物難以識別的問題。該模型以Transformer為基礎(chǔ),在CNN中引入多尺度特征,并提出可變注意力的概念,提升動物分類的準確率。同時,為了驗證算法的有效性,本文對現(xiàn)有動物數(shù)據(jù)集進行了適當(dāng)擴充,構(gòu)建了包含90種常見類別、共21 142張圖片的動物數(shù)據(jù)集。實驗結(jié)果表明,相較于目前主流的分類模型和算法,本文提出的方法具有更高的分類準確率。

        作者簡介:

        夏益凡(2000-),男,本科生。研究領(lǐng)域:深度學(xué)習(xí),圖像識別。

        王端虹(2000-),男,本科生。研究領(lǐng)域:數(shù)字圖像處理,機器學(xué)習(xí)。

        李紀龍(2000-),男,本科生。研究領(lǐng)域:深度學(xué)習(xí),圖像分割。

        姜 楓(1980-),男,博士,教授。研究領(lǐng)域:機器學(xué)習(xí),計算機視覺。

        精品国产亚洲人成在线观看| 国产suv精品一区二人妻| 亚洲成a人片在线| 国产人妖一区二区在线| 国产成人综合精品一区二区| 中文字幕一区日韩精品| 好男人视频在线视频| japanese色国产在线看视频| 日本女同av在线播放| 把女人弄爽特黄a大片| 日本免费人成视频播放| 午夜无码亚| 97中文字幕在线观看| 国产一级一片内射视频在线| 日出白浆视频在线播放| 精品人妻无码一区二区三区蜜桃一| 伊人久久大香线蕉在观看| 美女被搞在线观看一区二区三区| 成人日韩精品人妻久久一区| 久久精品国产亚洲av四虎| 在线精品无码一区二区三区| 日本一区不卡在线观看| 国产精品国产亚洲精品看不卡| 欧美日韩中文国产一区发布| 欧美日韩国产另类在线观看| 风韵丰满妇啪啪区老老熟女杏吧 | 国产亚洲一本二本三道| 宅男66lu国产在线观看| 国产目拍亚洲精品一区二区| 国产99久久精品一区| 国产一区高清在线观看| 麻豆一区二区99久久久久| 久久久久久久尹人综合网亚洲 | 久久亚洲道色综合久久| 人妻暴雨中被强制侵犯在线| 亚洲先锋影院一区二区| 亚洲视频在线观看第一页| а天堂中文最新一区二区三区| 久久国产精彩视频| 久久精品亚洲成在人线av| 大地资源在线影视播放|