亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進YOLOv5s 的大熊貓姿態(tài)識別

        2023-10-07 11:43:24楊斌段昶陳鵬
        四川動物 2023年5期
        關鍵詞:大熊貓姿態(tài)卷積

        楊斌,段昶 ,陳鵬

        (1. 西南石油大學電氣信息學院,成都 610500;2. 成都大熊貓繁育研究基地,四川省瀕危野生動物保護生物學重點實驗室,成都 610086)

        大熊貓Ailuropoda melanoleuca是我國特有的珍稀物種,有“活化石”和“中國國寶”等美譽,其保育工作受到國家和公眾的高度關注(王曉,張晉東,2019)。人們一直在探尋大熊貓行為模式,以增進對其的了解并制定對應的保護策略。大熊貓的姿態(tài)分析是行為模式研究的重要組成內容,識別大熊貓姿態(tài)是研究其行為的基礎(侯金等,2020)。傳統(tǒng)人眼直接觀察大熊貓行為效率低下,且需要長期專業(yè)知識儲備和經(jīng)驗累積(劉赫等,2022)。將目標檢測技術用于自動識別大熊貓姿態(tài)和開展大熊貓行為研究,能更準確、及時掌握大熊貓狀態(tài),提高大熊貓種群飼養(yǎng)管理和保育水平。

        動物姿態(tài)識別領域已經(jīng)取得了豐碩的成果,薛月菊等(2018)提出一種改進的Faster RCNN(Renet al.,2017)基于哺乳母豬姿態(tài)的識別算法,對主干網(wǎng)絡設計新的殘差結構和引入中心損失函數(shù),平均精度達到93.25%;劉龍申等(2022)提出一種圍產(chǎn)期母豬姿態(tài)的識別方法,利用EfficientDet(Tanet al.,2020)網(wǎng)絡進行識別,平均精度達93.97%;許成果等(2022)提出一種自注意力機制與無錨點的仔豬姿態(tài)識別方法,使用Swin Transformer(Liuet al.,2021)作為基礎網(wǎng)絡,提取仔豬圖像的局部和全局特征,設計了一個特征增強模塊進行多尺度特征融合,最后將融合后的特征圖輸入檢測頭進行仔豬的定位和姿態(tài)識別,識別精度達到95.68%;林夢翔等(2022)提出一種基于全局與隨機局部特征融合的鳥類姿態(tài)識別模型,通過不同尺度的特征融合獲取全局特征,裁剪圖片獲取局部特征,兩者融合進行鳥類姿態(tài)識別。上述動物姿態(tài)識別方面的研究對本文大熊貓姿態(tài)識別具有借鑒意義。

        本文以大熊貓為研究對象,提出一種基于改進YOLOv5s 的大熊貓姿態(tài)識別方法,可有效輔助后續(xù)的行為識別工作,為野外檢測識別提供技術參考。

        1 研究方法

        1.1 YOLOv5s改進

        以YOLOv5s(https://github. com/ultralytics/yolov5)作為基準大熊貓姿態(tài)識別方法,改進YOLOv5s 的主干網(wǎng)絡與頸部網(wǎng)絡以提高大熊貓姿態(tài)識別精度(圖1),紅色虛線框和加粗字體為本文改進部分。

        圖1 YOLOv5s改進后的網(wǎng)絡結構Fig. 1 Improved network structure of YOLOv5s

        YOLOv5s的主干網(wǎng)絡提取特征主要通過C3模塊實現(xiàn)。本文所使用的姿態(tài)數(shù)據(jù)集少量圖片目標存在遮擋,對于存在遮擋的目標,位置信息特別重要,但C3模塊未能有效利用目標的位置信息,以至于在特征提取階段造成目標位置信息丟失,使得網(wǎng)絡識別精度受限。故本文引入坐標注意力(coordinate attention,CA)(Houet al.,2021)改進C3模塊:第一,CA 可以捕獲跨通道信息,建立通道之間的依賴性,賦予權值比例,突出有效特征;第二,CA 還能捕獲目標的方向與位置信息,進一步提高檢測的準確率。改進后的模塊命名為C3CA,上路分支為深度卷積繼續(xù)加強特征的提取,擴大特征圖的感受野,下路分支進行特征壓縮,保留原始信息。2 路分支連接后,進行坐標注意力,對特征圖坐標位置編碼,最后通過卷積進行特征融合。輸入殘差征,同時進行特征X 方向全局平均池化和Y 方向全局平均池化。然后在空間維度上連接和卷積來壓縮通道,其中,r為卷積中的通道下采樣比例,通過批標準化和非線性來編碼垂直方向和水平方向的空間信息。接著在通道維度上進行分割,再各自通過卷積進行通道轉換,最終通過激活函數(shù)Sigmoid得到注意力權重,與輸入特征相乘,得到方向感知和位置敏感的特征圖(圖2,圖3)。

        圖2 C3CA結構Fig. 2 C3CA structure

        圖3 坐標注意力編碼注意過程Fig. 3 Coordinate attention coding attention process

        在頸部網(wǎng)絡特征融合時,來自不同階段的殘差(Residual)特征圖直接連接會導致特征冗余(圖4:a)。Tan 等(2020)針對不同階段特征圖對識別結果的重要程度不同,提出雙向特征金字塔網(wǎng)絡(bidirectional feature pyramid network,BiFPN),該網(wǎng)絡結構特征融合過程中采用了加權求和的操作,給不同階段特征圖賦予權重比例,學習特征的重要性。不同階段的殘差特征圖乘以初始化參數(shù)w0、w1學習特征圖的重要性,然后進行特征相加,再通過1×1 卷積進行特征融合(圖4:b)。本文引入BiFPN 中的加權求和操作替換YOLOv5s 頸部網(wǎng)絡特征融合的直接連接操作。

        圖4 特征融合(a)原連接(b)加權求和Fig. 4 Feature fusion (a) concatenation (b) weighted sum

        在頸部網(wǎng)絡特征輸出時,采用傳統(tǒng)的卷積對于不規(guī)則目標的特征信息提取能力不足。本文所使用的大熊貓姿態(tài)數(shù)據(jù)集,圖片中的目標姿態(tài)多變,為不規(guī)則目標,為了適應不規(guī)則目標采用可變形卷積作為頸部網(wǎng)絡輸出階段的特征提取,不僅可以對規(guī)則目標的特征信息提取,還可以充分提取不規(guī)則目標的特征信息。Zhu 等(2019)提出可變形卷積,在傳統(tǒng)卷積的基礎上調整卷積核的方向向量,使得卷積核跟隨目標形狀自適應采樣。因此,為了適應各種形式的物體,本文引入了可變形卷積對采樣位置進行自由采樣,而不局限于方正的格點。傳統(tǒng)卷積神經(jīng)網(wǎng)絡定位采樣方法難以適應物體的變形。該過程模型公式如下:

        式中,x表示輸入特征圖,卷積核按照方正的網(wǎng)格點對其進行采樣。w表示權重,對于輸出y上的位置p0,輸出特征映射等于w賦予的采樣值之和。其中,R為位置信息,計算公式如下:

        可變形卷積的主要特點是能夠對特征自適應采樣,具有學習空間幾何變形的能力。這非常適合于檢測不同大小和形狀的物體,而該方法只是在一定程度上增加了計算時間。對于每個采樣點具有額外學習目標偏移的可變形卷積公式如下:

        對于每個采樣位置賦予偏置量Δpn后,采樣變得不規(guī)則,這使得新方法的變換建模能力優(yōu)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(圖5)。

        圖5 標準卷積與可變形卷積Fig. 5 Standard and deformable convolution

        1.2 數(shù)據(jù)集

        姿態(tài)數(shù)據(jù)來源包含:成都大熊貓繁育研究基地、網(wǎng)絡爬蟲。成都大熊貓繁育研究基地采集的原始視頻,視頻總時長超過1 700 h,對原始視頻進行篩選,剔除遮擋嚴重、視野模糊的視頻,對視頻分幀處理獲得圖片,選取了12 235 張圖片;通過網(wǎng)絡爬蟲挑選出樣本較少的姿態(tài)圖片,共780張。這些照片包含6 類大熊貓姿態(tài):站、立、坐、趴、躺臥、側臥(圖6)。使用LabelImg 標注大熊貓姿態(tài)。按照4∶1 將數(shù)據(jù)集分為訓練集和測試集,訓練集10 413張圖片,測試集2 602張圖片(表1)。

        表1 大熊貓姿態(tài)數(shù)據(jù)集樣本數(shù)量Table 1 Sample number of giant panda pose dataset

        1.3 實驗運行環(huán)境

        本文所使用的實驗環(huán)境如表2所示。

        表2 實驗環(huán)境Table 2 Experimental environment

        1.4 評價指標與訓練參數(shù)設置

        實驗以平均精度均值(mean average precision,mAP)、模型每秒檢測的圖像數(shù)量(frames per second,F(xiàn)PS)、網(wǎng)絡模型的參數(shù)及網(wǎng)絡模型權重的大小評價指標對模型進行評價。mAP(0.5)主要用于體現(xiàn)模型的識別能力,其中,(0.5)表示交并比(intersection over union,IOU)等于0.5,mAP(0.5∶0.95)由于要求的IOU閾值更高,主要用于體現(xiàn)定位效果及邊界回歸能力;FPS 是衡量運行速度,其值越大,實時性越高;模型參數(shù)量和模型權重大小是邊緣端部署的重要指標,在不損失精度的情況下,越小越好。

        輸入圖像大小為640×640,采用SGD 優(yōu)化器進行訓練,初始學習率設置為0.01,訓練總次數(shù)設置為100,批量大小設置為16。

        1.5 姿態(tài)識別方法

        為評估本文改進方法的性能,實驗中還與以下8 種方法在使用相同大熊貓姿態(tài)數(shù)據(jù)集訓練后進行對比:YOLOv3(Redmon & Farhadi,2018)、YOLOv3-tiny、YOLOv3-spp、YOLOv4-csp-s、YOLOv5s、YOLOv5m、YOLOv6-tiny(Liet al.,2022)、YOLOv7-tiny(Wanget al.,2022)。

        2 實驗結果

        本文改進模型相較于原生YOLOv5s,在mAP(0.5)、mAP(0.5∶0.95)、參數(shù)量、權重大小、FPS指標上均占優(yōu)勢。相比YOLOv5s,3 個改進點結合形成的YOLOv5s+C3CA+BiFPN+DConv,其mAP(0.5)/mAP(0.5∶0.95)提高到3.12%/3.96%,模型參數(shù)減少8.6%(表3)。

        表3 YOLOv5s改進前后實驗對比結果Table 3 Comparison of experimental results before and after YOLOv5s improvement

        本文改進模型相較于其他姿態(tài)識別方法,綜合識別性能最佳(表4)。

        表4 大熊貓姿態(tài)數(shù)據(jù)集對比實驗結果Table 4 Comparison of experimental results of giant panda pose datasets

        各類方法在“站、立、坐”姿態(tài)的識別率較高,本文改進模型在“站”姿態(tài)AP(0.5)值為97.87%,達到 最 優(yōu);YOLOv5m 在“立”姿 態(tài)AP(0.5)值 為96.72%,達到最優(yōu);YOLOv4-csp-s 在“坐”姿態(tài)AP(0.5)值為93.89%,達到最優(yōu)。在“趴、躺臥、側臥”姿態(tài)中,YOLOv6-tiny 在“趴”姿態(tài)AP(0.5)值為87.64%,提升較大;本文改進模型在“躺臥”姿態(tài)AP(0.5)值為89.73%,有明顯提升;YOLOv6-tiny 在“側臥”姿態(tài)AP(0.5)值為86.98%,提升較大。本文改進模型比改進前的YOLOv5s 模型在識別率較低的“趴、躺臥、側臥”姿態(tài),分別提升了4.45%、7.44%、7.79%(表5)。

        表5 基于不同模型的6類大熊貓姿態(tài)識別精度Table 5 Recognition accuracy of 6 pose types of giant pandas based on different models

        為了更好地驗證本文提出改進后算法的可行性,在姿態(tài)測試集中選取部分數(shù)據(jù)進行測試,YOLOv5s 與YOLOv5s+C3CA+BiFPN+DConv 算法 在 不同圖片下的檢測結果對比顯示:YOLOv5s 識別結果中真值分別為“站(圖7:a)、站(圖7:c)、立(圖7:e)、躺臥(圖7:g)、側臥(圖7:i)”;但網(wǎng)絡出現(xiàn)了漏檢(圖7:a)、“站”被誤識別為“坐”(圖7:c)、“立”被誤識別為“坐”(圖7:e)、“躺臥”被誤識別為“坐”(圖7:g)、“側臥”被誤識別為“趴”(圖7:i)等問題。網(wǎng)絡出現(xiàn)這種結果的可能原因是:特征圖目標位置信息利用不足,對不規(guī)則目標識別難度較大。通過對網(wǎng)絡模型的改進,形成YOLOv5s+C3CA+BiFPN+DConv,改進后算法的識別結果均正確識別出“站、站、立、躺臥、側臥”(圖7:b、d、f、h、j),在遮擋物嚴重的情況下也能做出正確的識別。

        圖7 改進前后識別效果對比Fig. 7 Comparison of recognition effect before and after improvement

        3 討論與結論

        本文聚焦于大熊貓姿態(tài)識別問題,提出一種改進YOLOv5s 大熊貓姿態(tài)識別方法,改進了包含主干網(wǎng)絡與頸部網(wǎng)絡,原YOLOv5s 主干網(wǎng)絡未能有效利用目標的位置信息,利用CA 設計C3CA 以改進主干網(wǎng)絡,提高對目標位置信息提取的能力;還采用BiFPN 中加權求和操作替換原頸部網(wǎng)絡特征融合采用的直連方式;在頸部網(wǎng)絡輸出階段采用可變形卷積,提高對不規(guī)則目標的識別能力。實驗結果表明,所有改進點相結合,大熊貓姿態(tài)識別精度最佳,實現(xiàn)了高精度自動化識別目標姿態(tài),降低人力物力,為大熊貓行為分析奠定了基礎。

        本文改進了YOLOv5s 大熊貓姿態(tài)識別方法,通過此方法訓練生成的模型與YOLOv5s 相比識別精度與檢測速度達到了較高的水平。該方法可以推廣到其他珍稀保護動物的姿態(tài)識別問題上,并且對實驗訓練環(huán)境要求較低。

        此方法存在一定的局限性。在輸入圖像中,對于環(huán)境較暗的獸舍、目標不清晰的情況下,模型出現(xiàn)誤檢、漏檢現(xiàn)象。下一步將對YOLOv6、YOLOv7進行改進,提升大熊貓姿態(tài)識別的精度,并且通過姿態(tài)的識別對其行為進行分析。

        致謝:感謝成都大熊貓繁育研究基地提供并授權使用大熊貓監(jiān)控視頻數(shù)據(jù)。

        猜你喜歡
        大熊貓姿態(tài)卷積
        我們都愛大熊貓
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        攀爬的姿態(tài)
        學生天地(2020年3期)2020-08-25 09:04:16
        大熊貓
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        全新一代宋的新姿態(tài)
        汽車觀察(2018年9期)2018-10-23 05:46:40
        跑與走的姿態(tài)
        中國自行車(2018年8期)2018-09-26 06:53:44
        大熊貓也消暑
        基于傅里葉域卷積表示的目標跟蹤算法
        水中大熊貓
        东京热加勒比日韩精品| 国产天美传媒性色av| 最好看2019高清中文字幕视频| AV无码免费不卡在线观看| 白色月光免费观看完整版| 狠狠色噜噜狠狠狠狠97首创麻豆| 麻豆成人精品国产免费| 国产又色又爽又刺激视频| 亚洲国产精品午夜一区 | 国产在线一区二区三区四区| 日韩精品区一区二区三vr| 欧美性猛交xxxx乱大交蜜桃| 免费毛片一区二区三区女同| 丝袜美腿福利一区二区| 性欧美老人牲交xxxxx视频| 精品国产亚洲一区二区在线3d| 视频福利一区二区三区| 久久久极品少妇刺激呻吟网站| 污污内射在线观看一区二区少妇| 美国黄色片一区二区三区 | 蜜桃视频永久免费在线观看| 日本韩国男男作爱gaywww| 人妻系列无码专区久久五月天| 白丝美女被狂躁免费视频网站| 国产黄色一区二区三区av| 亚洲妇熟xxxx妇色黄| 少妇太爽了在线观看| 国产午夜av一区二区三区| 国产自拍在线视频91| 农村欧美丰满熟妇xxxx| 白浆出来无码视频在线| 色偷偷亚洲精品一区二区| 四虎影视久久久免费观看| 国产黄a三级三级三级av在线看| 国产午夜av一区二区三区| 日韩中文字幕在线观看一区 | 午夜天堂av天堂久久久| 欧美性猛交内射兽交老熟妇| 97无码人妻一区二区三区蜜臀 | 五月综合激情婷婷六月| 激情亚洲一区国产精品|