亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制和可變形卷積的雞只圖像實例分割提取

        2021-05-19 01:50:12郝宏運李騰飛王紅英
        關(guān)鍵詞:輪廓注意力損失

        方 鵬 郝宏運 李騰飛 王紅英

        (1.中國農(nóng)業(yè)大學(xué)工學(xué)院, 北京 100083; 2.北京城市學(xué)院北京3D打印研究院, 北京 100083)

        0 引言

        人類對畜牧業(yè)產(chǎn)品的消費需求逐年上升,同時,畜牧業(yè)所需的生產(chǎn)資料(土地、水資源、勞動力等)卻不斷萎縮[1],生產(chǎn)力與社會需求的矛盾日益凸顯。在這種情況下,精準(zhǔn)畜牧業(yè)[2-3]理念以其可持續(xù)、高效、低耗的特點應(yīng)運而生。獲取動物的個體行為、健康、福利信息對精準(zhǔn)畜牧業(yè)管理決策十分重要[4-5]。機(jī)器視覺技術(shù)廣泛應(yīng)用于動物監(jiān)測中,而基于視覺的監(jiān)測技術(shù)的前提是實現(xiàn)對動物圖像的提取和分割,只有對動物輪廓信息進(jìn)行精準(zhǔn)分割,才能對動物個體進(jìn)行生長評估[6]、體況評價和行為分析[7-8](如發(fā)情行為、產(chǎn)前行為)等方面的研究。

        機(jī)器視覺技術(shù)具有采集速度快、識別精度高的特點,同時更具有無接觸、對動物應(yīng)激小的優(yōu)勢,在雞只體況監(jiān)測[9-12]、雞只行為識別[13-14]和雞只福利狀態(tài)監(jiān)測[15-16]等方面都有廣泛的應(yīng)用。相關(guān)研究在很大程度上依賴于圖像的分割,顯然,圖像分割的準(zhǔn)確性和精度對基于機(jī)器視覺的雞只監(jiān)測技術(shù)至關(guān)重要。然而,傳統(tǒng)的基于顏色空間[17]、幀差或者光流[18]的分割方法難以在復(fù)雜養(yǎng)殖環(huán)境中實現(xiàn)高精度、高魯棒性的圖像分割。

        近年來,具有很強(qiáng)特征學(xué)習(xí)能力的深度卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域得到了廣泛應(yīng)用。通過大量經(jīng)過人工標(biāo)注的圖像數(shù)據(jù)的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)可以充分提取攜帶豐富空間和語義信息的圖像特征,并將其用于圖像分割,其分割效果良好[19]。作為一種像素級識別分割目標(biāo)輪廓的目標(biāo)檢測算法,實例分割最早在2014年提出,并迅速得到發(fā)展,先后出現(xiàn)了DeepMask[19]、SharpMask[20]等實例分割算法,但均存在精度不高、模型泛化性不夠的缺點。文獻(xiàn)[21]提出的Mask R-CNN框架在模型泛化能力、分類精度和分割精度上均有優(yōu)異的表現(xiàn)。研究表明,通過深度卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)養(yǎng)殖環(huán)境下雞只輪廓的提取和分割是可行的。

        為了實現(xiàn)疊層籠養(yǎng)環(huán)境下雞只圖像的高精度分割和輪廓提取,本文提出一種基于Mask R-CNN的雞只圖像分割和輪廓提取方法,先對原始圖像進(jìn)行增強(qiáng),以提高圖像品質(zhì),隨后進(jìn)行雞只圖像的分割和輪廓的提取。

        1 圖像采集與圖像增強(qiáng)處理

        以疊層籠養(yǎng)環(huán)境下的白羽肉雞為研究對象,進(jìn)行識別分割試驗。于2019年7月9—11日在山東省煙臺市蓬萊區(qū)民和牧業(yè)股份有限公司肉雞養(yǎng)殖場采集了27~29日齡的肉雞圖像。試驗雞舍為一棟全封閉的8層疊層籠養(yǎng)肉雞舍,舍內(nèi)平均光照強(qiáng)度為8 lx,共飼養(yǎng)羅斯308肉雞114 240只。

        圖像采集所用設(shè)備主要包括:Sony XCG-240C型彩色數(shù)字相機(jī),分辨率為1 920像素×1 200像素,匹配焦距6 mm的Ricoh FL-CC0614A-2M型定焦鏡頭;立式三腳架,最大拍攝高度可達(dá)2.2 m。拍攝時相機(jī)參數(shù)設(shè)定為:采集幀率3 f/s,曝光時間80 ms。

        將工業(yè)相機(jī)安裝在立式三角架上,固定相機(jī)的工作距離、拍攝高度和拍攝角度,在籠門前方位置對籠內(nèi)雞群進(jìn)行拍攝。將采集的視頻按幀提取成靜態(tài)圖像,人工挑選出800幅肉雞圖像建立樣本集。由于舍內(nèi)照度較低,采集的圖像亮度不夠,為便于后續(xù)的圖像標(biāo)注和圖像特征提取,先對采集的圖像進(jìn)行Retinex增強(qiáng)。同時,為減少計算量,降低模型訓(xùn)練時間,將原圖像調(diào)整為448像素×256像素。隨后,在Labelme圖像標(biāo)注工具中用多邊形標(biāo)注出雞只的外輪廓,共標(biāo)注目標(biāo)11 034個,制作成COCO(Common objects in context)格式的數(shù)據(jù)集。在樣本集中隨機(jī)選取70%(560幅)圖像作為訓(xùn)練集,用于模型的訓(xùn)練,選取20%(160幅)圖像作為驗證集,用于訓(xùn)練參數(shù)的調(diào)優(yōu),選取10%(80幅)圖像作為測試集,用于評估最終模型的識別能力。采集的原圖及Retinex增強(qiáng)后的圖像如圖1所示。

        2 基于Mask R-CNN的雞只輪廓實例分割模型優(yōu)化

        Mask R-CNN作為一種實例分割算法,集成了目標(biāo)檢測和語義分割兩大功能,可以同時完成目標(biāo)分割、分類和檢測任務(wù),且在這3種任務(wù)上均有較優(yōu)的表現(xiàn),是一種綜合性能很優(yōu)異的實例分割方法。因此,本文選擇在Mask R-CNN模型框架下進(jìn)行雞只圖像實例分割模型的研究,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        整體上,Mask R-CNN網(wǎng)絡(luò)分為主干網(wǎng)絡(luò)、區(qū)域生成網(wǎng)絡(luò)(Region proposal networks, RPN)和頭部網(wǎng)絡(luò)。主干網(wǎng)絡(luò)主要進(jìn)行圖像特征的提取,區(qū)域生成網(wǎng)絡(luò)主要通過提取的圖像特征生成感興趣區(qū)域(ROI),而頭部網(wǎng)絡(luò)則在此基礎(chǔ)上完成之后的目標(biāo)分類、邊框回歸及掩膜預(yù)測生成工作。

        針對本文待分割圖像的特點,在現(xiàn)有Mask R-CNN網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行了調(diào)整和優(yōu)化,構(gòu)建了一種雞只圖像分割和輪廓提取網(wǎng)絡(luò)。主要對主干網(wǎng)絡(luò)做出3點優(yōu)化:①調(diào)整卷積層結(jié)構(gòu)。②構(gòu)建基于注意力機(jī)制的卷積層。③引入可變形卷積。

        2.1 主干網(wǎng)絡(luò)卷積層結(jié)構(gòu)調(diào)整優(yōu)化

        目前,通用的Mask R-CNN網(wǎng)絡(luò)以深度殘差網(wǎng)絡(luò)[22](ResNet)和特征金字塔網(wǎng)絡(luò)(Feature pyramid networks, FPN)相結(jié)合的方式作為主干網(wǎng)絡(luò),負(fù)責(zé)輸入圖像的特征提取。ResNet網(wǎng)絡(luò)作為一種深層網(wǎng)絡(luò),可以有效解決常規(guī)網(wǎng)絡(luò)堆疊到一定深度時出現(xiàn)的梯度彌散問題,通過深層次的網(wǎng)絡(luò)達(dá)到較好的特征提取效果,其基本結(jié)構(gòu)為殘差模塊(Residual block),通過模塊的堆疊,使網(wǎng)絡(luò)達(dá)到較大深度。

        現(xiàn)有研究表明,淺層網(wǎng)絡(luò)的感受野較小,能夠捕獲更多的圖像細(xì)節(jié),提升檢測的精度;而深層網(wǎng)絡(luò)輸出的特征更加抽象,更加關(guān)注圖像的語義信息,有利于目標(biāo)的檢出[23]。本文研究對象為籠養(yǎng)狀態(tài)下的雞只,目標(biāo)單一,類別少,目標(biāo)檢出相對容易。因此對現(xiàn)有主干網(wǎng)絡(luò)卷積層數(shù)量和殘差學(xué)習(xí)模塊堆疊方式進(jìn)行調(diào)整,適當(dāng)削減卷積層的數(shù)量,增加淺層網(wǎng)絡(luò)深度,減小深層網(wǎng)絡(luò)深度,使網(wǎng)絡(luò)更加關(guān)注圖像的細(xì)節(jié)信息。網(wǎng)絡(luò)由原來的101層卷積層減少為41層,降低網(wǎng)絡(luò)計算量;同時網(wǎng)絡(luò)第3階段卷積層數(shù)量從12層增加為15層,第4階段卷積層數(shù)量從69層減少為9層,第5階段卷積層數(shù)量從9層減少為6層,降低圖像特征損耗。調(diào)整后的ResNet網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。圖中只包含卷積層和池化層,每個卷積層后還有批量正則化層和激活層未畫出;第1~5階段分別為ResNet網(wǎng)絡(luò)的5個階段;2x、4x為模塊重復(fù)次數(shù);Conv(64, 256,k=(1,1),s=1,p=0)中,k為卷積核尺寸,s為滑動步長,p為填充像素數(shù),256為卷積核通道數(shù),64為上一層卷積層輸出的通道數(shù),其余卷積層類似。主干網(wǎng)絡(luò)由殘差學(xué)習(xí)模塊堆疊而成,殘差學(xué)習(xí)模塊首端和末端為1×1卷積核,中間為3×3卷積核。在網(wǎng)絡(luò)每個階段的第1個殘差模塊,除了3個卷積層的串聯(lián),輸入和輸出之間還通過一個卷積層旁路相連,以增加輸入特征圖的通道數(shù),便于和輸出特征圖融合,而后面接的殘差學(xué)習(xí)模塊輸入和輸出特征圖的通道數(shù)一致,故可以不通過卷積層升高維度而直接進(jìn)行加操作。這種結(jié)構(gòu)可以有效降低特征損耗,提升模型訓(xùn)練效果。

        FPN[23]網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。輸入圖像自下而上分別經(jīng)過ResNet網(wǎng)絡(luò)5個階段的處理,輸出5種不同尺度的特征圖(C1~C5)。輸出的特征圖分別通過一個1×1的卷積操作后與自上而下的上采樣操作生成的特征圖進(jìn)行融合,生成特征圖M5、M4、M3和M2,隨后經(jīng)過3×3的卷積操作消除上采樣的混疊效應(yīng),生成特征圖P5、P4、P3和P2,P5經(jīng)過一次下采樣操作生成P6,特征圖P2、P3、P4、P5和P6分別獨立地輸入到RPN網(wǎng)絡(luò),生成若干個感興趣區(qū)域(ROI)。FPN網(wǎng)絡(luò)將ResNet網(wǎng)絡(luò)每一階段輸出的特征圖融合,既利用了高層特征圖的強(qiáng)語義信息,又利用了低層特征圖的強(qiáng)空間位置信息,大大提升了主干網(wǎng)絡(luò)的特征提取能力。

        2.2 基于注意力機(jī)制的卷積層構(gòu)建

        注意力機(jī)制最早由MNIH等[24]提出并引入圖像分類領(lǐng)域,隨后在機(jī)器學(xué)習(xí)領(lǐng)域迅速發(fā)展,眾多應(yīng)用于不同領(lǐng)域的注意力模型相繼提出。注意力機(jī)制模仿人類視覺系統(tǒng)的處理機(jī)制,人類在進(jìn)行視覺信息處理時會自動過濾不重要的信息,而把更多注意力資源用于需要重點關(guān)注的目標(biāo)區(qū)域,大大提高了視覺信息處理效率與準(zhǔn)確性。而當(dāng)注意力機(jī)制引入基于神經(jīng)網(wǎng)絡(luò)的圖像處理領(lǐng)域時,其本質(zhì)是一種資源的重新分配機(jī)制,即對不同重要程度的信息賦予不同的權(quán)重,大大提高神經(jīng)網(wǎng)絡(luò)效率,用很小的計算量換取網(wǎng)絡(luò)性能的顯著提升。

        為提升雞只輪廓實例分割模型網(wǎng)絡(luò)性能,本文在ResNet網(wǎng)絡(luò)中引入注意力機(jī)制。在原有網(wǎng)絡(luò)結(jié)構(gòu)中添加1個通道注意力模塊和1個空間注意力模塊[25]。

        通道注意力模塊結(jié)構(gòu)如圖5a所示,輸入的特征圖經(jīng)過1個全局最大池化層和平均池化層后,分別得到1個通道描述,隨后這2個通道描述送入1個2層的神經(jīng)網(wǎng)絡(luò),得到2個特征向量,2個特征向量通過逐元素累加的方式合并成1個,通過1個激活函數(shù)輸出通道權(quán)重系數(shù),權(quán)重系數(shù)與輸入特征相乘即得到新的特征圖??臻g注意力模塊結(jié)構(gòu)如圖5b所示。

        本文在ResNet網(wǎng)絡(luò)的每一個殘差模塊中串聯(lián)插入1個通道注意力模塊和1個空間注意力模塊。卷積運算通過將跨通道和空間信息融合在一起來提取信息特征,既考慮了不同通道像素的重要性,又考慮了同一通道不同位置像素的重要性。其在ResNet網(wǎng)絡(luò)殘差學(xué)習(xí)模塊的位置如圖6所示。每個殘差學(xué)習(xí)模塊中,在第2個1×1卷積層之后串聯(lián)接入1個通道注意力模塊和1個空間注意力模塊。

        2.3 引入可變形卷積層

        在圖像檢測任務(wù)(目標(biāo)檢測、實例分割)中,通常需要網(wǎng)絡(luò)對同一目標(biāo)的不同姿態(tài),如位置的偏移、角度的旋轉(zhuǎn)及尺度的變化都具有相同的識別能力。然而,受限于卷積操作本身的固定性,卷積神經(jīng)網(wǎng)絡(luò)并不具有尺度不變性和旋轉(zhuǎn)不變性,基本沒有對目標(biāo)幾何形變的適應(yīng)能力[26]。實際中,神經(jīng)網(wǎng)絡(luò)對目標(biāo)變化的適應(yīng)能力幾乎完全來自于數(shù)據(jù)本身的多樣性?,F(xiàn)有研究表明,標(biāo)準(zhǔn)卷積中的規(guī)則格點采樣是導(dǎo)致網(wǎng)絡(luò)難以適應(yīng)幾何形變的主要原因,為此DAI等[27]提出了一種可變形卷積網(wǎng)絡(luò),用可變形卷積取代神經(jīng)網(wǎng)絡(luò)中的標(biāo)準(zhǔn)卷積,眾多研究表明,該方法在目標(biāo)檢測領(lǐng)域表現(xiàn)優(yōu)異[28-30]。

        標(biāo)準(zhǔn)的卷積操作具有非常固定的幾何結(jié)構(gòu),很難與目標(biāo)復(fù)雜的外形相匹配。而可變形卷積擁有可變化、不規(guī)則的形狀,感受野靈活多變,可以很好適應(yīng)不同尺寸、外形的目標(biāo)。在標(biāo)準(zhǔn)的二維卷積過程中,對于輸出特征圖中的每一個位置P0,其特征值y(P0)計算式為

        (1)

        式中w(Pn)——該采樣位置的卷積核權(quán)重

        x(P0+Pn)——采樣位置的輸入特征值

        Pn——感受野區(qū)域中的所有采樣位置

        R——感受野區(qū)域

        教師在開展中長跑運動時,單一的以訓(xùn)練為主,沒有合適的方式方法,無法引導(dǎo)學(xué)生去擺脫抵觸情緒,所以學(xué)生的畏難心理日益嚴(yán)重,對中長跑運動的興趣也直線下降。

        而在可變形卷積中

        (2)

        式中x(P0+Pn+ΔPn)——采樣偏移位置的輸入特征值

        ΔPn——采樣點位置的偏移量

        可見,可變形卷積就是在傳統(tǒng)的卷積操作上加入了一個采樣點位置的偏移量,使卷積變形為不規(guī)則卷積,從而擁有更大、更靈活的感受野。

        為分割出圖像中雞只的輪廓像素,本文在ResNet網(wǎng)絡(luò)中加入可變形卷積層,通過引入偏移量,增大感受野,同時使感受野可以適應(yīng)不同尺寸、形狀的雞只輪廓,達(dá)到更好的分割效果。將ResNet網(wǎng)絡(luò)的第3、4、5階段的3×3卷積調(diào)整為可變形卷積,而第2階段保留為標(biāo)準(zhǔn)卷積層,以減小引入可變形卷積帶來的網(wǎng)絡(luò)參數(shù)量的增加對網(wǎng)絡(luò)負(fù)荷的影響。

        3 雞只輪廓識別分割試驗

        3.1 試驗條件及配置

        試驗在Ubuntu 18.04系統(tǒng)下進(jìn)行,試驗所用機(jī)器配置:處理器為Intel(R) Core(TM) i7-9700K,主頻3.6 GHz,內(nèi)存16 GB,顯卡為NVIDIA GeForce RTX 2080(16 GB),使用GPU加速計算,采用Python作為編程語言,選擇Pytorch框架來實現(xiàn)網(wǎng)絡(luò)模型的搭建、訓(xùn)練和調(diào)試。訓(xùn)練集為560幅圖像,驗證集為160幅圖像,測試集為80幅圖像。

        使用Torchvision視覺庫中的ResNet預(yù)訓(xùn)練模型作為初始輸入權(quán)重,采用隨機(jī)梯度下降法對雞只輪廓分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練。設(shè)置學(xué)習(xí)率為0.001,采用熱身策略,初始學(xué)習(xí)率為0.000 18,采用線性增加策略,訓(xùn)練5個epochs后增加到0.001;動量為0.9,權(quán)值衰減系數(shù)為0.000 1,訓(xùn)練迭代100個epochs,每5個epochs保存一個權(quán)重,取精度最高的模型為最終模型。

        3.2 試驗結(jié)果與分析

        采用不同的主干網(wǎng)絡(luò)進(jìn)行雞只輪廓分割試驗:①現(xiàn)有的ResNet 101網(wǎng)絡(luò)。②調(diào)整現(xiàn)有網(wǎng)絡(luò)卷積層結(jié)構(gòu)后得到的ResNet 41網(wǎng)絡(luò)。③ResNet 41網(wǎng)絡(luò)中添加注意力機(jī)制(簡稱為ResNet 41+cbam)。④ResNet 41網(wǎng)絡(luò)中添加注意力機(jī)制并將部分卷積層替換成可變形卷積(簡稱為ResNet 41+cbam+dcn)。⑤ResNet 50網(wǎng)絡(luò)中添加注意力機(jī)制和可變形卷積層(簡稱為ResNet 50+cbam+dcn)。

        模型對雞只圖像的分割結(jié)果如圖7所示。由圖7可知,分割模型可較準(zhǔn)確地將雞只輪廓之間的粘連區(qū)域分割開,可實現(xiàn)籠養(yǎng)雞只輪廓的提取分割。

        以準(zhǔn)確率A(Accuracy)、召回率R(Recall)和精確率P(Precision)、平均檢測時間t作為評價指標(biāo),衡量分割模型的性能。

        不同模型的性能如表1所示。由表1可知,將主干網(wǎng)絡(luò)卷積層數(shù)從101層減小為41層,模型各指標(biāo)未有顯著降低,說明原有的101層卷積網(wǎng)絡(luò)對本文研究的雞只輪廓分割提取任務(wù)有較大冗余,降低其卷積層數(shù)不影響模型性能,但可以大幅降低運算量,其單幅圖像檢測時間從0.32 s減小為0.18 s,降低了44%。在ResNet 41網(wǎng)絡(luò)的基礎(chǔ)上引入注意力機(jī)制,模型各指標(biāo)性能有較大提升,其精確率和準(zhǔn)確率分別從77.01%、82.34%大幅提升至85.49%、88.35%,召回率略有下降,而檢測時間卻沒有顯著增加,注意力機(jī)制的引入使模型用很小的資源開銷換取了較大的性能提升。在引入注意力機(jī)制的基礎(chǔ)上,將部分3×3卷積層調(diào)整為可變形卷積層,模型性能較優(yōu)化前有一定程度的提升,精確率和準(zhǔn)確率分別從85.49%、88.35%提升到88.60%、90.37%,與現(xiàn)有的Mask R-CNN網(wǎng)絡(luò)相比,其精確率和準(zhǔn)確率分別提高了10.37、5.89個百分點。但同時,可變形卷積的引入增加了模型的參數(shù)量,其檢測時間從0.24 s增至0.41 s,對模型的實時性有所影響。在ResNet 50 網(wǎng)絡(luò)中引入注意力機(jī)制并添加可變形卷積層,模型在驗證集上的精確率和準(zhǔn)確率分別為87.23%、89.80%,均略低于在ResNet 41網(wǎng)絡(luò)中引入注意力機(jī)制及添加可變形卷積層的模型性能,說明本文設(shè)計的41層網(wǎng)絡(luò)結(jié)構(gòu)有利于提升分割網(wǎng)絡(luò)的性能。

        表1 不同網(wǎng)絡(luò)性能對比Tab.1 Performance comparison of different networks

        3.2.2不同模型損失曲線分析

        對上述5個網(wǎng)絡(luò)訓(xùn)練過程中的損失函數(shù)變化進(jìn)行分析。損失函數(shù)衡量的是模型訓(xùn)練過程中預(yù)測值和真實值之間的差異變化。在基于Mask R-CNN網(wǎng)絡(luò)的雞只輪廓實例分割模型的訓(xùn)練中,損失函數(shù)L主要由分類損失、檢測損失和分割損失3部分組成,定義式[21,31]為

        L=Lcls+Lbbox+Lmask

        (3)

        式中Lcls——模型的分類損失

        Lbbox——檢測損失(邊框回歸損失)

        Lmask——分割損失

        分類損失Lcls計算式為

        (4)

        式中Ncls——類別數(shù)量

        pi——目標(biāo)被預(yù)測為正樣本的概率

        檢測損失Lbbox計算式為

        (5)

        其中

        (6)

        Nreg——特征圖的像素值

        ti——預(yù)測邊框的坐標(biāo)向量

        分割損失Lmask計算式為

        Lmask=Sigmoid(Ck)

        (7)

        式中Ck——第k類目標(biāo)

        網(wǎng)絡(luò)對于每一個ROI都有k×m2維度的輸出,k為類別數(shù),共輸出k個分辨率為m×m的二值掩膜。對于第k類目標(biāo)(Ck),Lmask定義為對掩膜中的每一個像素執(zhí)行Sigmoid函數(shù)得到的平均二值交叉熵?fù)p失。

        圖8為以ResNet 41為主干網(wǎng)絡(luò)的雞只輪廓分割模型訓(xùn)練過程中檢測損失、分類損失、分割損失和總損失的變化。各損失均在訓(xùn)練開始的很短時間內(nèi)下降到較低值,隨后隨著迭代步數(shù)的增加緩慢下降,訓(xùn)練過程中各損失曲線波動較小,模型收斂較好,說明各超參數(shù)配置較為合理。當(dāng)?shù)綌?shù)達(dá)到10 000次(100個epochs)左右時,各損失均趨于穩(wěn)定,不再持續(xù)下降。

        圖9為不同網(wǎng)絡(luò)的總損失隨迭代步數(shù)的變化情況。5個網(wǎng)絡(luò)的總損失均隨著網(wǎng)絡(luò)的迭代逐步下降,最終趨于穩(wěn)定,模型收斂。ResNet 101和ResNet 41網(wǎng)絡(luò)的損失曲線在訓(xùn)練后期基本重合,最終訓(xùn)練損失分別為0.85和0.87左右,一定程度上說明2個模型具有相似的性能表現(xiàn)。而ResNet 41+cbam網(wǎng)絡(luò)和ResNet 41+cbam+dcn網(wǎng)絡(luò)最終訓(xùn)練損失分別穩(wěn)定在0.63和0.31左右,較優(yōu)化之前的網(wǎng)絡(luò)有較明顯的下降,將部分卷積層替換成可變形卷積后,模型性能有一定提升。ResNet 50+cbam+dcn的網(wǎng)絡(luò)最終訓(xùn)練損失在0.43左右,略高于ResNet 41+cbam+dcn網(wǎng)絡(luò),ResNet 41+cbam+dcn網(wǎng)絡(luò)在所有試驗網(wǎng)絡(luò)中性能最優(yōu)。

        3.2.3不同模型輸出特征可視化分析

        為更好地解釋本文采用的優(yōu)化方式對模型性能的提升,利用GRAD-CAM[32]對不同網(wǎng)絡(luò)進(jìn)行可視化分析,通過梯度來衡量卷積層中空間位置的重要性,分別輸出不同網(wǎng)絡(luò)、不同階段輸出特征的類激活熱力圖(Class activation heat map),可以清楚地顯示網(wǎng)絡(luò)在進(jìn)行預(yù)測時重點關(guān)注的圖像區(qū)域。本文將5種網(wǎng)絡(luò)第2階段和第5階段的特征可視化結(jié)果進(jìn)行了比較,結(jié)果如圖10所示。圖中紅色區(qū)域的范圍越大,說明網(wǎng)絡(luò)提取的特征更多地覆蓋到了需要識別的目標(biāo)上。由圖可知,ResNet 101網(wǎng)絡(luò)和ResNet 41網(wǎng)絡(luò)均只有少部分特征覆蓋到了雞只輪廓上,而ResNet 41+cbam網(wǎng)絡(luò)、ResNet 41+cbam+dcn及ResNet 50+cbam+dcn網(wǎng)絡(luò)提取的特征更好地覆蓋了目標(biāo)對象區(qū)域,說明在網(wǎng)絡(luò)中引入注意力機(jī)制確實加強(qiáng)了網(wǎng)絡(luò)對重點信息的關(guān)注程度,提升了網(wǎng)絡(luò)性能。而可變形卷積使網(wǎng)絡(luò)具有更大、更靈活的感受野,提升了網(wǎng)絡(luò)對不同尺寸、不同外形目標(biāo)的適應(yīng)能力,提升了網(wǎng)絡(luò)對雞只輪廓的分割能力。對比ResNet 41+cbam+dcn網(wǎng)絡(luò)和ResNet 50+cbam+dcn網(wǎng)絡(luò)的可視化結(jié)果,可以發(fā)現(xiàn)ResNet 41+cbam+dcn網(wǎng)絡(luò)特征提取效果略好。從第2階段和第5階段的特征圖可以看出,隨著網(wǎng)絡(luò)的加深,網(wǎng)絡(luò)提取的特征越來越多地覆蓋到了雞只輪廓上,同時網(wǎng)絡(luò)也過濾掉了一些不屬于雞只輪廓的特征,提升了模型的檢測精度。模型輸出特征的可視化分析結(jié)果與上文中模型性能指標(biāo)和訓(xùn)練損失分析結(jié)果一致,進(jìn)一步說明本文對網(wǎng)絡(luò)進(jìn)行的優(yōu)化是有效的。

        4 結(jié)論

        (1)以疊層籠養(yǎng)下的肉雞為研究對象,將Mask R-CNN網(wǎng)絡(luò)引入雞只輪廓的分割提取中,構(gòu)建了一種雞只圖像分割和輪廓提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)以基于注意力機(jī)制、可變形卷積的41層深度殘差網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)相融合的方式作為主干網(wǎng)絡(luò),可以實現(xiàn)籠養(yǎng)狀態(tài)下肉雞圖像的分割和輪廓提取。

        (2)優(yōu)化后的模型在驗證集的精確率、準(zhǔn)確率和召回率分別為88.60%、90.37%和77.48%,與現(xiàn)有的Mask R-CNN網(wǎng)絡(luò)相比,其精確率和準(zhǔn)確率分別提高了10.37、5.89個百分點,而單幅圖像的檢測時間僅增加了0.09 s,說明注意力機(jī)制和可變形卷積的引入有效提高了網(wǎng)絡(luò)的綜合性能。

        (3)特征圖可視化分析表明,網(wǎng)絡(luò)中引入注意力機(jī)制和可變形卷積后,網(wǎng)絡(luò)提取的特征更多地覆蓋到雞只輪廓上,提高了檢測精度。本文算法模型對籠養(yǎng)狀態(tài)下的雞群分割效果較好,能準(zhǔn)確分割提取雞只個體輪廓。

        猜你喜歡
        輪廓注意力損失
        少問一句,損失千金
        讓注意力“飛”回來
        胖胖損失了多少元
        OPENCV輪廓識別研究與實踐
        基于實時輪廓誤差估算的數(shù)控系統(tǒng)輪廓控制
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        一般自由碰撞的最大動能損失
        在線學(xué)習(xí)機(jī)制下的Snake輪廓跟蹤
        看曰本女人大战黑人视频| 新视觉亚洲三区二区一区理伦| 国产午夜亚洲精品国产成人av| 和黑人邻居中文字幕在线| 欧美日韩久久久精品a片| 人妻少妇人人丰满视频网站| 亚洲av无吗国产精品| 邻居少妇张开腿让我爽了一夜| 怡红院免费的全部视频| 亚洲国产精品久久电影欧美| 欧美黑人粗暴多交高潮水最多| 亚洲精品美女自拍偷拍| 白色月光免费观看完整版| 国产无套乱子伦精彩是白视频| 真人无码作爱免费视频禁hnn| 精品国产一区二区三区久久久狼| 九九九影院| 久久久久久人妻一区二区无码Av| av高潮一区二区三区| 丰满人妻久久中文字幕| 97碰碰碰人妻无码视频| 久久精品成人欧美大片| 淫妇日韩中文字幕在线| 一区二区三区视频亚洲| 国产 高潮 抽搐 正在播放 | 久久女人精品天堂av影院麻| 色综合久久久久综合体桃花网 | av黄片免费在线观看| 国产日产在线视频一区| 果冻传媒2021精品一区| 久久中文字幕无码一区二区| 国产无遮挡又黄又爽无VIP| 人妻少妇av中文字幕乱码| 亚洲午夜av久久久精品影院色戒| 性色av无码一区二区三区人妻| 国产日韩亚洲欧洲一区二区三区| 九九99久久精品在免费线97| 少妇下面好紧好多水真爽| 妺妺窝人体色777777| 中文字幕日韩一区二区三区不卡| 在线观看精品国产福利片87|