亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Swin-Unet 的奶牛飼料消耗狀態(tài)監(jiān)測(cè)方法

        2024-01-01 00:00:00張博羅維平
        關(guān)鍵詞:語(yǔ)義分割自動(dòng)監(jiān)測(cè)奶牛

        摘要: 【目的】針對(duì)監(jiān)控圖像中飼料區(qū)域結(jié)構(gòu)較長(zhǎng)、邊界模糊,且形狀與尺寸復(fù)雜多變等特點(diǎn),本研究旨在更準(zhǔn)確地分割飼料殘余區(qū)域與消耗區(qū)域,以達(dá)到準(zhǔn)確監(jiān)測(cè)飼料消耗狀態(tài)的目的。【方法】本研究提出了基于Swin-Unet 的語(yǔ)義分割模型,其在Swin Transformer 塊的開(kāi)始階段應(yīng)用ConvNeXt 塊,增強(qiáng)模型對(duì)特征信息的編碼能力,以提供更好的特征表示,并利用深度卷積替換線性注意力映射,以提供局部空間上下文信息。同時(shí)提出了新穎的寬范圍感受野模塊來(lái)代替多層感知機(jī),以豐富多尺度空間上下文信息。此外在編碼器的開(kāi)始階段,將線性嵌入層替換為卷積嵌入層,通過(guò)分階段壓縮特征,在塊之間和內(nèi)部引入更多的空間上下文信息。最后引入多尺度輸入策略、深度監(jiān)督策略,并提出了特征融合模塊,以加強(qiáng)特征融合?!窘Y(jié)果】所提出方法的平均交并比、準(zhǔn)確率、F1 分?jǐn)?shù)與運(yùn)行速度分別為86.46%、98.60%、92.29% 和23 幀/s,相較于Swin-Unet,分別提高4.36、2.90、0.65 個(gè)百分點(diǎn)和15%?!窘Y(jié)論】基于圖像語(yǔ)義分割的方法應(yīng)用于飼料消耗狀態(tài)的自動(dòng)監(jiān)測(cè)是可行的,該方法通過(guò)將卷積引入Swin-Unet,有效地提高了分割精度與計(jì)算效率,對(duì)提升生產(chǎn)管理效率具有重要意義。

        關(guān)鍵詞: 飼料消耗;自動(dòng)監(jiān)測(cè);語(yǔ)義分割;Swin Transformer;奶牛;深度卷積

        中圖分類(lèi)號(hào): S24;TP391 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1001-411X(2024)05-0754-10

        飼料作為奶牛重要的營(yíng)養(yǎng)來(lái)源,監(jiān)測(cè)飼料消耗狀態(tài)對(duì)保障奶牛健康和提高生產(chǎn)管理效率具有重要意義。當(dāng)前,主要以人工目測(cè)的方式來(lái)監(jiān)測(cè)飼料的消耗狀態(tài),存在工作量大、人力成本高和效率低等問(wèn)題。同時(shí),由于人工目測(cè)的局限性,巡視頻率和準(zhǔn)確率難以保障。隨著畜牧業(yè)規(guī)模的不斷擴(kuò)大,規(guī)?;?、集約化養(yǎng)殖日益成為趨勢(shì)[1],給傳統(tǒng)的依賴(lài)人工目測(cè)的巡視方式帶來(lái)了巨大的挑戰(zhàn)。該研究提出利用監(jiān)控?cái)z像頭結(jié)合基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)計(jì)算飼料消耗區(qū)域的占比,以達(dá)到自動(dòng)監(jiān)測(cè)飼料消耗狀態(tài)的目的。在實(shí)際應(yīng)用中,監(jiān)控圖像中飼料區(qū)域結(jié)構(gòu)較長(zhǎng)、邊界模糊,且形狀與尺寸復(fù)雜多變,難以精確分割飼料消耗區(qū)域與殘余區(qū)域的邊界,導(dǎo)致出現(xiàn)過(guò)度分割和分割不足的現(xiàn)象,影響飼料消耗狀態(tài)的監(jiān)測(cè)值。

        由于卷積算子固有的局部性,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN) 為主干的Unet[2] 及其變體[3-7] 難以對(duì)圖像內(nèi)的遠(yuǎn)距離語(yǔ)義依賴(lài)關(guān)系進(jìn)行建模,因此無(wú)法有效分割具有挑戰(zhàn)性的器官邊界。為了更好地對(duì)全局上下文信息進(jìn)行建模,研究人員提出引入注意力機(jī)制以及用來(lái)擴(kuò)大卷積核感受野的空洞卷積核。然而,這些方法都會(huì)增加計(jì)算復(fù)雜度。此外,使用較大空洞率的卷積核可能會(huì)導(dǎo)致邊界信息的丟失或模糊。

        鑒于視覺(jué)Transformer (Vision transformer,ViT)[8] 模型在全局上下文信息捕獲方面具有明顯的優(yōu)勢(shì),創(chuàng)建Transformer-CNN 的混合語(yǔ)義分割模型成為主流。然而,用于語(yǔ)義分割的Transformer 都很龐大,并且依賴(lài)于經(jīng)典視覺(jué)任務(wù)的預(yù)訓(xùn)練權(quán)重來(lái)適應(yīng)分割任務(wù),因此Transformer-CNN 的混合模型[9-12]又會(huì)使模型變得龐大且計(jì)算復(fù)雜。最近的研究[13-20]已轉(zhuǎn)向使用Transformer 作為構(gòu)建整個(gè)分割架構(gòu)的主干,以減輕計(jì)算負(fù)擔(dān),但都未嘗試在Transformer的低級(jí)特征提取階段對(duì)局部空間上下文進(jìn)行建模。Swin-Unet[15] 是基于純Transformer 的語(yǔ)義分割模型中最具有代表性的,其使用Swin Transformer[21]提出的移位窗口機(jī)制以分層提取特征,極大地降低了傳統(tǒng)自注意力的二次復(fù)雜度,同時(shí)實(shí)現(xiàn)了更好的性能,但由于其使用包含線性注意力映射和線性多層感知機(jī)(Multi-layer perceptron,MLP) 的標(biāo)準(zhǔn)Swin Transformer 塊來(lái)處理數(shù)據(jù),因此其創(chuàng)建的特征表示本質(zhì)上是線性的,缺乏對(duì)局部空間信息的有效處理,無(wú)法充分挖掘局部信息,難以精確分割飼料消耗區(qū)域與殘余區(qū)域的邊界。

        鑒于現(xiàn)有方法的不足,為使Swin Transformer更好地對(duì)局部信息進(jìn)行建模,更準(zhǔn)確地分割飼料區(qū)域的邊界,本研究將卷積引入Transformer 塊,以更好地建模局部信息,從而加強(qiáng)對(duì)飼料邊界的精確分割。

        1 基于Swin-Unet 的語(yǔ)義分割網(wǎng)絡(luò)

        1.1 網(wǎng)絡(luò)整體框架

        改進(jìn)的Swin-Unet (Improved Swin-Unet,ISwin-Unet) 整體框架如圖1 所示,呈對(duì)稱(chēng)的U 形結(jié)構(gòu)。

        模型輸入輸出分辨率為H×W×3 的2D 圖像。H、W 和3 分別表示輸入輸出圖像的高度、寬度和通道數(shù)。首先,提出了卷積嵌入(Convolutionalembedding,CE) 層,進(jìn)入編碼器的輸入圖像首先通過(guò)CE 層在圖像的重疊塊上創(chuàng)建W/4×H/4×C( C =96) 的序列嵌入,在壓縮圖像尺寸的同時(shí),引入更多的局部空間上下文信息。然后應(yīng)用編碼器內(nèi)的多級(jí)全卷積Swin Transformer (Fully convolutional SwinTransformer,F(xiàn)CST) 塊和Patch merging 層提取輸入圖像的特征。同時(shí),引入多尺度輸入策略,進(jìn)一步向編碼器注入金字塔式輸入,將上級(jí)FCST 塊和Patch merging 層提取的特征與縮小尺寸后的原圖像進(jìn)行特征融合,以突出顯示不同類(lèi)別和不同尺度下較小的感興趣區(qū)域(Region of interest,ROI) 特征。編碼器提取的特征由2 個(gè)FCST 塊組成的瓶頸層進(jìn)行處理。

        解碼器將瓶頸表示作為輸入,引入反卷積上采樣模塊,通過(guò)反卷積上采樣模塊執(zhí)行2 倍上采樣,并將通道數(shù)減半。具體來(lái)說(shuō),反卷積上采樣模塊對(duì)上采樣特征圖采用跨步反卷積,并將通道維度減半,具體實(shí)現(xiàn)為:LN,2d→Transposed convolution,2 × 2 , s = 2 , d → G E L U ; LN 為層歸一化( L a y e rnormalization),d 表示重構(gòu)后的特征圖的通道數(shù),Transposed convolution 為反卷積,s 為步長(zhǎng),GELU為GELU 激活函數(shù)。通過(guò)將Patch expanding 層替換為反卷積上采樣層,能更好地保留特征。

        將通過(guò)上采樣創(chuàng)建的高分辨率特征圖與來(lái)自編碼器相同分辨率的特征圖一同傳遞給所提出的特征融合模塊(Feature fusion module,F(xiàn)FM),以補(bǔ)償因下采樣而丟失的信息。然后,將融合后的特征輸入FCST 塊,為融合后的特征提供空間上下文信息。重復(fù)上述過(guò)程3 次后,將特征輸入到Patch expanding層,該層執(zhí)行4 倍上采樣,然后進(jìn)行線性映射以得到最終的分割類(lèi)別。

        此外,引入了深度監(jiān)督策略,在訓(xùn)練過(guò)程中引入額外的監(jiān)督信號(hào),幫助網(wǎng)絡(luò)更好地學(xué)習(xí)特征,以提高模型的預(yù)測(cè)能力。具體而言,在解碼器的不同階段輸出中間分割圖,有助于確保模型逐漸恢復(fù)空間細(xì)節(jié),同時(shí)充分利用多尺度信息,通過(guò)在多個(gè)尺度上監(jiān)督,更好地學(xué)習(xí)圖像的語(yǔ)義信息,提高模型的預(yù)測(cè)能力。本研究沒(méi)有在最低尺度上引入深度監(jiān)督,因?yàn)樵谧畹统叨壬弦肷疃缺O(jiān)督信號(hào)會(huì)增加計(jì)算的復(fù)雜性,而且對(duì)于小尺寸的ROI,最低尺度上的分辨率不足,難以準(zhǔn)確地捕捉目標(biāo)的細(xì)節(jié)。此外,在最低尺度上無(wú)法提供足夠的上下文信息,缺少關(guān)鍵的上下文信息。這些都會(huì)使模型無(wú)法有效地提取語(yǔ)義信息,從而降低模型性能。

        1.2 全卷積Swin Transformer 塊

        該研究基于Swin Transformer 塊提出了新穎的FCST 塊,F(xiàn)CST 塊在多頭自注意力(Multi-headself-attention,MHSA) 和MLP 中充分利用卷積的空間建模能力,將擅長(zhǎng)提取局部空間上下文的卷積神經(jīng)網(wǎng)絡(luò)與能有效捕獲長(zhǎng)距離依賴(lài)關(guān)系的S w i nTransformer 相結(jié)合,在多階段設(shè)計(jì)中引入卷積,以分層增強(qiáng)Swin Transformer 的空間和局部建模能力,F(xiàn)CST 塊結(jié)構(gòu)如圖2 所示。

        在FCST 塊的開(kāi)始階段,提出應(yīng)用ConvNeXt[22]塊來(lái)增強(qiáng)模型對(duì)特征信息的編碼能力,以提供更好的特征表示。同時(shí),提出了一種新穎的基于(移位) 窗口的卷積多頭自注意力[(Shifted)Windowbasedconvolutional multi-head self-attention,(S)WCMHSA],其利用深度卷積注意力映射替換線性注意力映射,將卷積與MHSA 結(jié)合構(gòu)成卷積注意力,并結(jié)合Swin Transformer 塊的(移位) 窗口機(jī)制,來(lái)提取分層語(yǔ)義信息及局部空間上下文信息,以加強(qiáng)對(duì)邊界的精確分割。此外,提出了寬范圍感受野(Wide receptive field,WRF) 模塊來(lái)代替MLP,以豐富多尺度空間上下文信息,從而應(yīng)對(duì)尺寸和形狀復(fù)雜多變的飼料區(qū)域。

        FCST 塊的計(jì)算公式為:

        ?zl = (S)W-CMHSA[LN(zl-1)]+zl-1; (1)

        zl = WRF[LN(?zl)]+ ?zl; (2)

        ?zl+1 = (S)W-CMHSA[LN(zl)]+zl; (3)

        zl+1 = WRF[LN(?zl+1)]+ ?zl+1; (4)

        式中, ?zl和zl分別表示第l 個(gè)FCST 塊中(S)W-CMHSA模塊和WRF 模塊的輸出,?zl+1和zl+1分別表示第l+1 個(gè)FCST 塊中(S)W-CMHSA 模塊和WRF 模塊的輸出。

        1.2.1 ConvNeXt 塊

        傳統(tǒng)的特征提取網(wǎng)絡(luò)(例如Resnet) 采用兩頭大、中間小的瓶頸結(jié)構(gòu),在通道數(shù)減少的過(guò)程中,可能導(dǎo)致信息丟失。而ConvNeXt塊[ 2 2 ] 采用兩頭小、中間大的倒瓶頸( I n v e r t e dbottleneck) 結(jié)構(gòu),使得ConvNeXt 塊能夠有效捕獲輸入數(shù)據(jù)的特征,提高模型的表達(dá)能力。

        ConvNeXt 塊的結(jié)構(gòu)如圖3 所示,ConvNeXt 塊實(shí)現(xiàn)為:7×7 Depth-wise Conv,d→LN,d→PointwiseConv,4×d→GELU→Point-wise Conv,d→RC;RC 表示殘差連接(Residual connection),Depth-wiseConv 表示深度卷積,Point-wise Conv 表示點(diǎn)卷積。其使用了7×7 的大卷積核,相較于傳統(tǒng)的3×3 卷積核,可提高模型性能。同時(shí),為了解決梯度消失問(wèn)題,使用了GELU 激活函數(shù)。此外,使用LN 代替?zhèn)鹘y(tǒng)的BN (Batch normalization),LN 層更適合小批量的訓(xùn)練數(shù)據(jù),有助于網(wǎng)絡(luò)收斂。

        1.2.2 (S)W-CMHSA

        標(biāo)準(zhǔn)的Transformer 模型采用線性注意力映射進(jìn)行多頭自注意力計(jì)算,缺乏充分的空間上下文信息。研究人員試圖通過(guò)卷積增強(qiáng)來(lái)緩解這一問(wèn)題,然而這會(huì)增加額外的計(jì)算成本。Wu 等[23] 提出利用深度可分離卷積替換線性注意力映射,深度可分離卷積可實(shí)現(xiàn)為:Depth-wise Conv→BN→Point-wise Conv。本研究為了更好地適應(yīng)數(shù)據(jù)量較小的任務(wù),去除了深度可分離卷積中的逐點(diǎn)卷積,使模型更簡(jiǎn)單,避免過(guò)擬合。此外,利用LN 替換BN,以提高性能。深度卷積提供的空間上下文進(jìn)一步消除了對(duì)位置編碼的需要。深度卷積的卷積核大小為3×3,填充為1,步長(zhǎng)為1,以確保:1) 提取的塊是重疊的;2) 卷積運(yùn)算不會(huì)改變輸出尺寸。此外,在注意力輸出圖后,利用3×3 深度卷積替換線性層,以便微調(diào)獲得更多空間信息。

        1.2.3 WRF 模塊

        提出利用WRF 模塊替換MLP,以提取細(xì)粒度信息和多尺度上下文信息?,F(xiàn)有的Transformer 將MLP 模塊實(shí)現(xiàn)為:LN,d→Linear,4×d→GELU→Linear,d→RC。Linear 表示線性映射。WRF 模塊如圖4 所示,WRF 模塊由LN 層、密集空洞卷積模塊( D e n s e a t r o u s c o n v o l u t i o n ,DAC)[24]、特征聚合層和RC 層構(gòu)成。

        DAC 模塊通過(guò)使用不同空洞率的空洞卷積,可捕獲不同尺度的上下文信息,提供對(duì)圖像的多尺度表示,從而更好地捕獲語(yǔ)義信息。特征聚合層是通過(guò)1 個(gè)3×3 卷積算子和GELU 激活函數(shù)構(gòu)成的,以進(jìn)一步提取空間上下文信息。

        如圖5 所示,DAC 模塊由以級(jí)聯(lián)方式堆疊的空洞卷積組成,即4 個(gè)級(jí)聯(lián)分支,每個(gè)分支的感受野分別為3、7、9 和19。最后,直接將原始特征與其他分支特征相加,類(lèi)似殘差連接機(jī)制。一般而言,具有較大感受野的卷積能夠捕獲更大區(qū)域的信息,從而提取和生成更加抽象的特征,適用于處理較大尺寸的物體。相反,具有較小感受野的卷積則更適合于處理小尺寸的物體,能夠更精確地捕獲局部細(xì)節(jié)信息。DAC 模塊通過(guò)結(jié)合不同空洞率的空洞卷積,實(shí)現(xiàn)對(duì)多尺寸特征的提取。

        1.3 卷積嵌入層

        現(xiàn)有模型使用線性層將圖像分割成不重疊的塊并大幅減小圖像的大小,將原分辨率為H×W 的圖像壓縮為H/4× W/4,同時(shí)將通道維度改變?yōu)镃。然而,使用線性層來(lái)壓縮特征不僅會(huì)損失高質(zhì)量的空間和局部信息,還會(huì)增加模型的大小。本研究提出了卷積嵌入層,以替換線性嵌入層。卷積嵌入層由具有重疊塊的4 個(gè)卷積構(gòu)成,通過(guò)分階段壓縮特征,以在塊之間和內(nèi)部引入更多的空間上下文信息。卷積嵌入層如圖6 所示,具體來(lái)說(shuō),該層的實(shí)現(xiàn)過(guò)程如下:Conv 3×3,s=1,C/2→GELU→Conv3×3, s=2, C/2→GELU+LN→Conv 3×3, s=1,C→GELU→Conv 3×3,s=2,C→GELU。其中s 為步長(zhǎng),輸入維度為3。最后,輸出分辨率為H/4×× W/4×C的特征圖。

        1.4 特征融合模塊

        將通過(guò)上采樣創(chuàng)建的高分辨率特征圖與來(lái)自編碼器同一分辨率的特征圖由FFM 模塊進(jìn)行融合。FFM 模塊如圖7 所示,其進(jìn)一步豐富了空間和細(xì)粒度信息,同時(shí)補(bǔ)償了下采樣造成的信息缺失,從而提高模型的分割性能。具體而言,將通過(guò)上采樣創(chuàng)建的高分辨率特征圖的輸出與來(lái)自編碼器的淺層特征表示在通道維度上進(jìn)行拼接,隨后通過(guò)1 個(gè)3×3 的卷積層來(lái)調(diào)整通道數(shù)。然后依次通過(guò)GELU 激活函數(shù)、3×3 卷積、GELU 激活函數(shù),以進(jìn)一步豐富空間上下文信息,最終通過(guò)殘差結(jié)構(gòu)得到融合后的特征圖。具體實(shí)現(xiàn)為:Conv 3×3,s=1,d/2→GELU→Conv 3×3,s=1,d/2→GELU。

        1.5 損失函數(shù)

        損失函數(shù)L 由dice 損失函數(shù)Ldice 和交叉熵?fù)p失函數(shù)Lce 組成,可表示如下:

        式中,N 和K 分別表示樣本數(shù)和類(lèi)別數(shù);yn和^yn分別表示真實(shí)語(yǔ)義標(biāo)簽的o n e - h o t 編碼和網(wǎng)絡(luò)的softmax 輸出,n 2 [1,…,N];^ynk表示樣本n屬于類(lèi)別k 的置信度。

        2 試驗(yàn)與結(jié)果分析

        2.1 試驗(yàn)環(huán)境及參數(shù)配置

        本研究所使用的模型是基于Pytorch 深度學(xué)習(xí)框架和Python3.7 編程語(yǔ)言實(shí)現(xiàn)的,集成開(kāi)發(fā)環(huán)境為P y C h a r m。試驗(yàn)平臺(tái)的操作系統(tǒng)為U b u n t u20.04,顯卡為NVIDIA GeForce RTX 2 080 Ti GPU,處理器為Inter(R) Core(TM) i7-9700K,主頻3.6G H z ,內(nèi)存4 8 G B 。將輸入圖像的尺寸設(shè)定為512 像素×512 像素,設(shè)置批次大?。˙atch size) 為64,使用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 1,總共訓(xùn)練300 個(gè)周期。

        2.2 數(shù)據(jù)集

        數(shù)據(jù)集為自制數(shù)據(jù)集,來(lái)源于內(nèi)蒙古某牧場(chǎng)現(xiàn)場(chǎng)采集的監(jiān)控視頻。通過(guò)對(duì)部分視頻數(shù)據(jù)進(jìn)行抽幀,獲取1 714 張圖片,訓(xùn)練集、驗(yàn)證集與測(cè)試集的比例為8∶1∶1。

        圖8 為飼料消耗情況的分割結(jié)果圖,清晰地展示了飼料消耗區(qū)域與飼料殘余區(qū)域。飼料消耗狀態(tài)A 可由公式(8) 計(jì)算:

        式中,B 為飼料消耗區(qū)域的像素點(diǎn)總數(shù),C 為飼料殘余區(qū)域的像素點(diǎn)總數(shù)。

        2.3 評(píng)價(jià)指標(biāo)

        在圖像語(yǔ)義分割領(lǐng)域,常用的性能評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Accuracy)、交并比(Intersection over union,IoU)、精度(Precision)、召回率(Recall) 和F1 分?jǐn)?shù)(F1-score) 等。上述指標(biāo)的計(jì)算公式可表示如下:

        式中,TP (True positive) 表示實(shí)際為正例且被預(yù)測(cè)為正例的數(shù)量;TN (True negative) 表示實(shí)際為負(fù)例且被預(yù)測(cè)為負(fù)例的數(shù)量;FP (False positive) 表示實(shí)際為負(fù)例但被預(yù)測(cè)為正例的數(shù)量; F N ( F a l s enegative) 表示實(shí)際為正例但被預(yù)測(cè)為負(fù)例的數(shù)量。

        2.4 對(duì)比試驗(yàn)

        為了驗(yàn)證ISwin-Unet 算法的分割效果,將ISwin-Unet 與經(jīng)典的圖像分割算法在相同條件下進(jìn)行了比較,包括Unet、Attention Unet、Swin-Unet、TransUnet、Transfuse 以及nnFormer。

        為了直觀展示所提出模型的分割效果,隨機(jī)選取了4 張測(cè)試圖片,分割效果對(duì)比圖如圖9 所示。

        通過(guò)對(duì)比各方法的分割效果圖,可以觀察到:ISwin-Unet 模型的分割效果最好,其分割出的飼料消耗區(qū)域與殘余區(qū)域與真實(shí)標(biāo)簽最接近,且邊界更加細(xì)膩。當(dāng)飼料消耗區(qū)域較小時(shí),其他方法存在誤將飼料殘余區(qū)域歸類(lèi)為飼料消耗區(qū)域或誤將飼料消耗區(qū)域歸類(lèi)為飼料殘余區(qū)域的現(xiàn)象,但I(xiàn)Swin-Unet 模型比其他模型更具辨別力,分割更加細(xì)膩,能夠更準(zhǔn)確地將其區(qū)分開(kāi)。

        不同算法的定量對(duì)比結(jié)果如表1 所示,ISwin-Unet 超越了經(jīng)典的基于卷積和基于Transformer 的方法,在平均交并比、準(zhǔn)確率和F1 分?jǐn)?shù)這幾個(gè)評(píng)價(jià)指標(biāo)上都是最高的,分別達(dá)到了86.46%、98.60%、92.29%,相較于Swin-Unet,分別提高4.36、0.65 和2.90 個(gè)百分點(diǎn)??傮w而言,ISwin-Unet 在無(wú)需預(yù)訓(xùn)練的情況下實(shí)現(xiàn)了最佳性能。

        此外,表1 還列出了所有模型在相同運(yùn)行條件下的運(yùn)行速度,即模型每秒鐘能處理的圖像幀數(shù)。就計(jì)算速度(效率) 而言,基于Transformer 或SwinTransformer 塊的模型低于其他具有純卷積結(jié)構(gòu)的模型。所提出的ISwin-Unet 在自制數(shù)據(jù)集上的運(yùn)行速度為23 幀/s,優(yōu)于Swin-Unet 的20 幀/s。表明所提出的ISwin-Unet 在提高分割精度的同時(shí),在算法效率方面也有較大的提升。

        2.5 消融試驗(yàn)

        ISwin-Unet 是基于Swin-Unet 改進(jìn)的,通過(guò)消融試驗(yàn)以進(jìn)一步驗(yàn)證每個(gè)改進(jìn)的有效性。以平均交并比、準(zhǔn)確率和F1 分?jǐn)?shù)作為評(píng)價(jià)指標(biāo),將從頭開(kāi)始訓(xùn)練的Swin-Unet 視為基線模型(方法0)。本研究將Swin-Unet 編碼器中的線性嵌入層替換成卷積嵌入層,記作模塊1。在Swin Transformer 塊的開(kāi)始階段(LN 層之后) 增加ConvNeXt 塊,記作模塊2。將Swin Transformer 塊中的線性注意力映射替換為深度卷積注意力映射,記作模塊3。將Swin Transformer 塊中的MLP 替換為WRF 模塊,記作模塊4。將傳統(tǒng)的融合方式替換成FFM,記作模塊5。在編碼器階段增加多尺度輸入策略,記作模塊6。在解碼器階段增加深度監(jiān)督策略,記作模塊7。將解碼器階段的上采樣層Patch expanding 替換為反卷積上采樣,記作模塊8。試驗(yàn)結(jié)果如表2所示。

        由方法0 與1 的對(duì)比結(jié)果可知,通過(guò)將線性嵌入層替換為卷積嵌入層,F(xiàn)1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率分別提升了0.88、1.32 和0.12 個(gè)百分點(diǎn),表明通過(guò)分階段壓縮特征,在塊之間和內(nèi)部引入更多的空間上下文信息,模型的性能有所提升。

        對(duì)比方法1 和2 的數(shù)據(jù)可知,與直接創(chuàng)建圖像的逐塊映射相比,在創(chuàng)建圖像的逐塊映射之前增加ConvNeXt 塊后,3 個(gè)評(píng)價(jià)指標(biāo)都有一定的提升,表明在創(chuàng)建圖像的逐塊映射之前,通過(guò)ConvNeXt 塊進(jìn)行預(yù)處理能提高模型的性能。對(duì)比方法2 和3 的數(shù)據(jù)可知,將Swin Transformer 塊中的線性注意力映射替換為卷積注意力映射后,F(xiàn)1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率分別提升了0.26、1.48 和0.13 個(gè)百分點(diǎn),表明通過(guò)深度卷積創(chuàng)建重疊的塊,豐富局部空間上下文,模型的性能有所提升。對(duì)比方法3 和4 的數(shù)據(jù)可知,將WRF 模塊替換MLP 后,F(xiàn)1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率分別提升了0.39、0.53 和0.06 個(gè)百分點(diǎn),表明包含密集空洞卷積的WRF 模塊由于包含多個(gè)不同大小的感受野,具有多尺度特征提取能力,模型的性能進(jìn)一步提升。對(duì)比方法1 和4 可知,通過(guò)改進(jìn)Swin Transformer 塊,F(xiàn)1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率分別提升了1.51、2.65 和0.25 個(gè)百分點(diǎn)。

        對(duì)比方法4 和5 的數(shù)據(jù)可知,將傳統(tǒng)的融合方式替換成FFM 后,3 個(gè)指標(biāo)稍有提升,表明以卷積的方式降低通道維度的FFM 能提高模型的性能。

        對(duì)比方法5 和6 的數(shù)據(jù)可知,在編碼器階段增加多尺度輸入策略后,模型在3 個(gè)評(píng)價(jià)指標(biāo)上都取得了一定的提升,表明多尺度輸入策略能提高模型的性能。

        對(duì)比方法6 和7 的數(shù)據(jù)可知,在解碼器階段引入深度監(jiān)督策略后,F(xiàn)1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率分別提升了0.14、0.10 和0.07 個(gè)百分點(diǎn),表明在訓(xùn)練階段引入深度監(jiān)督策略可提升模型的性能。

        對(duì)比方法7 和8 的數(shù)據(jù)可知,將Patch expanding上采樣層替換為反卷積上采樣模塊后,F(xiàn)1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率分別提升了0.13、0.13 和0.08 個(gè)百分點(diǎn),表明以反卷積的方式進(jìn)行上采樣可提高模型的性能。

        3 結(jié)論

        本研究提出了基于圖像語(yǔ)義分割的監(jiān)測(cè)方法。針對(duì)監(jiān)控圖像中飼料區(qū)域存在結(jié)構(gòu)較長(zhǎng)、邊界模糊,且形狀與尺寸復(fù)雜多變等特點(diǎn),為了更準(zhǔn)確地分割飼料殘余區(qū)域與消耗區(qū)域,以達(dá)到準(zhǔn)確監(jiān)測(cè)飼料消耗狀態(tài)的目的,本研究提出了基于Swin-Unet 的語(yǔ)義分割模型,主要得出以下結(jié)論。

        1 ) 對(duì)于S w i n T r a n s f o r m e r 塊,在S w i nTransformer 塊的開(kāi)始階段引入ConvNeXt 塊進(jìn)行預(yù)處理以提供更好的特征表示,并利用深度卷積替換線性注意力映射,以增強(qiáng)對(duì)局部空間上下文信息的提取能力。同時(shí)利用包含密集空洞卷積的WRF 模塊替換MLP,以加強(qiáng)對(duì)形狀和尺寸復(fù)雜多變的飼料區(qū)域的分割能力。通過(guò)改進(jìn)S w i nTransformer 塊,F(xiàn)1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率分別提升1.51、2.65 和0.25 個(gè)百分點(diǎn),表明將卷積引入Swin Transformer 塊,能提升圖像語(yǔ)義分割精度。

        2) 在Swin-Unet 編碼器的初始階段,利用卷積嵌入層替換線性嵌入層,通過(guò)分階段壓縮特征,在塊之間和塊內(nèi)部引入更多的空間上下文信息,F(xiàn)1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率指標(biāo)分別提升0.88、1.32和0.12 個(gè)百分點(diǎn),表明提出的卷積嵌入層對(duì)于提升分割效果是有效的。

        3) 所提出模型的F1 分?jǐn)?shù)、平均交并比和準(zhǔn)確率分別為92.29%、86.46% 和98.60%,比改進(jìn)前的Swin-Unet 模型,分別提高了2.90、4.36、0.65 個(gè)百分點(diǎn)。此外,在計(jì)算效率方面,幀率達(dá)到23 幀/s,優(yōu)于Swin-Unet 的20 幀/s。表明基于圖像語(yǔ)義分割的方法應(yīng)用于飼料消耗狀態(tài)的自動(dòng)監(jiān)測(cè)是可行的,該方法通過(guò)將卷積引入Swin-Unet,有效提高了分割精度,同時(shí)提升了計(jì)算效率,對(duì)提高生產(chǎn)管理效率具有重要意義。

        參考文獻(xiàn):

        [1]張玉磊, 喬泓博. 畜牧業(yè)發(fā)展方式及其未來(lái)發(fā)展趨勢(shì)[J]. 科技風(fēng), 2023, 25: 161-163.

        [2]RONNEBERGER O, FISCHER P, BROX T. U-net:Convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science. SpringerInternational Publishing, 2015: 234-241.

        [3]ZHOU Z W, RAHMAN SIDDIQUEE M M, TAJBAKHSHN, et al. UNet++: A nested U-net architecture formedical image segmentation[M]//Deep Learning in MedicalImage Analysis and Multimodal Learning for ClinicalDecision Support. Springer International Publishing,2018: 3-11.

        [4]HUANG H M, LIN L F, TONG R F, et al. UNet 3+: Afull-scale connected UNet for medical image segmentation[C]//2020 IEEE International Conference on Acoustics,Speech and Signal Processing. Barcelona, Spain:IEEE, 2020: 1055-1059.

        [5]SCHLEMPER J, OKTAY O, SCHAAP M, et al. Attentiongated networks: Learning to leverage salient regionsin medical images[J]. Medical Image Analysis, 2019, 53:197-207.

        [6]KAUL C, MANANDHAR S, PEARS N. Focusnet: Anattention-based fully convolutional network for medicalimage segmentation[C]//2019 IEEE 16th InternationalSymposium on Biomedical Imaging (ISBI 2019). Venice,Italy: IEEE, 2019: 455-458.

        [7]KAUL C, PEARS N, DAI H, et al. Focusnet++: Attentiveaggregated transformations for efficient and accuratemedical image segmentation[C]//2021 IEEE 18th InternationalSymposium on Biomedical Imaging (ISBI 2021).Nice, France: IEEE, 2021: 1042-1046.

        [8]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al.An image is worth 16 × 16 words: Transformers for imagerecognition at scale[EB/OL]. arXiv: 2010.11929(2020-10-22) [2024-04-01]. https://doi.org/10.48550/arXiv.2010.11929.

        [9]OKTAY O, SCHLEMPER J, FOLGOC L L, et al. AttentionU-Net: Learning where to look for the pancreas[EB/OL]. arXiv: 1804.03999 (2018-4-11) [2024-04-01].https://doi.org/10.48550/arXiv.1804.03999.

        [10]PETIT O, THOME N, RAMBOUR C, et al. U-Net transformer:Self and cross attention for medical image segmentation[EB/OL]. arXiv: 2103.06104 (2021-03-10) [2024-04-01]. https://doi.org/10.48550/arXiv.2103.06104.

        [11]CHEN J, LU Y, YU Q, et al. TransUNet: Transformersmake strong encoders for medical image segmentation[EB/OL]. arXiv: 2102.04306 (2021-02-08) [2024-04-01].https://doi.org/10.48550/arXiv.2102.04306.

        [12]ZHANG Y D, LIU H Y, HU Q. TransFuse: Fusing transformersand CNNs for medical image segmentation[M]//Medical Image Computing and Computer AssistedIntervention-MICCAI 2021. Springer International Publishing,2021: 14-24.

        [13]VALANARASU J M J, OZA P, HACIHALILOGLU I,et al. Medical transformer: Gated axial-attention for medicalimage segmentation[EB/OL]. arXiv: 2102.10662(2021-02-21) [2024-04-01]. https://doi.org/10.48550/arXiv.2102.10662.

        [14]KARIMI D, VASYLECHKO S D, GHOLIPOUR A.Convolution-free medical image segmentation usingtransformers[M]//Medical Image Computing and ComputerAssisted Intervention-MICCAI 2021. Springer InternationalPublishing, 2021: 78-88.

        [15]CAO H, WANG Y Y, CHEN J, et al. Swin-Unet: Unetlikepure transformer for medical image segmentation[EB/OL]. arXiv: 2105.05537 (2021-05-12) [2024-04-01].https://doi.org/10.48550/arXiv.2105.05537.

        [16]LIN A L, CHEN B Z, XU J Y, et al. DS-TransUNet:Dual swin transformer U-net for medical image segmentation[J]. IEEE Transactions on Instrumentation andMeasurement, 2022, 71: 1-15.

        [17]HUANG X, DENG Z, LI D, et al. MISSFormer: An effectivemedical image segmentation transformer[EB/OL].arXiv: 2109.07162 (2021-09-15) [2024-04-01]. https://doi.org/10.48550/arXiv.2109.07162.

        [18]ZHOU H Y, GUO J, ZHANG Y, et al. nnformer: Interleavedtransformer for volumetric segmentation[EB/OL].arXiv: 2109.03201 (2021-09-07) [2024-04-01]. https://doi.org/10.48550/arXiv.2109.03201.

        [19]WANG H Y, XIE S, LIN L F, et al. Mixed transformerU-Net for medical image segmentation[EB/OL]. arXiv:2111.04734 (2021-11-08) [2024-04-01]. https://doi.org/10.48550/arXiv.2111.04734.

        [20]TRAGAKIS A, KAUL C, MURRAY-SMITH R, et al.The fully convolutional transformer for medical imagesegmentation[C]//2023 IEEE/CVF Winter Conference onApplications of Computer Vision (WACV). Waikoloa,HI, USA: IEEE, 2023: 3660-3669.

        [21]LIU Z, LIN Y T, CAO Y, et al. Swin transformer: Hierarchicalvision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on ComputerVision (ICCV). Montreal, QC, Canada: IEEE, 2021:10012-10022.

        [22]LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the2020s[C]//2022 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). New Orleans,LA, USA: IEEE, 2022: 11976-11986.

        [23]WU H P, XIAO B, CODELLA N, et al. Cvt: Introducingconvolutions to vision transformers[C]//2021 IEEE/CVFInternational Conference on Computer Vision (ICCV).Montreal, QC, Canada: IEEE, 2021: 22-31.

        [24]GU Z W, CHENG J, FU H Z, et al. CE-net: Context encodernetwork for 2D medical image segmentation[J].IEEE Transactions on Medical Imaging, 2019, 38(10):2281-2292.

        【責(zé)任編輯 李慶玲】

        基金項(xiàng)目:國(guó)家自然科學(xué)基金(62103309);湖北省數(shù)字化紡織裝備重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(DTL2022001)

        猜你喜歡
        語(yǔ)義分割自動(dòng)監(jiān)測(cè)奶牛
        乍暖還寒時(shí)奶牛注意防凍傷
        夏季奶牛如何預(yù)防熱應(yīng)激
        基于積神經(jīng)網(wǎng)絡(luò)的圖像著色方法研究
        基于全卷積網(wǎng)絡(luò)FCN的圖像處理
        基于語(yǔ)義分割的車(chē)道線檢測(cè)算法研究
        奶牛吃草
        基于語(yǔ)義分割的增強(qiáng)現(xiàn)實(shí)圖像配準(zhǔn)技術(shù)
        豬行為自動(dòng)監(jiān)測(cè)技術(shù)研究現(xiàn)狀與展望
        環(huán)境空氣質(zhì)量自動(dòng)監(jiān)測(cè)的發(fā)展及優(yōu)勢(shì)研究
        江蘇省空氣質(zhì)量自動(dòng)監(jiān)測(cè)質(zhì)控管理平臺(tái)質(zhì)控技術(shù)
        科技資訊(2015年19期)2015-10-09 20:10:58
        日韩无套内射视频6| 国产国产人精品视频69| 性xxxx视频播放免费| 国产二级一片内射视频插放| 成人无码午夜在线观看| 传媒在线无码| 丝袜美腿av免费在线观看| 精品亚洲第一区二区三区| 成人国产精品一区二区网站公司| 亚洲av第一成肉网| 日本一区免费喷水| 中文字幕亚洲视频三区| 国产情侣自拍一区视频| 亚洲av永久精品爱情岛论坛| 国产自精品| 亚洲精品一区二区三区蜜臀| 国产乱码一区二区三区精品| 午夜福利试看120秒体验区| 久久综合色鬼| 国内精品嫩模av私拍在线观看| 精品一区三区视频在线观看| 六月婷婷久香在线视频| 亚洲av鲁丝一区二区三区| 99热这里只有精品国产66 | 久久夜色精品国产亚洲av老牛| 久久精品国产亚洲av麻豆会员| 三年的高清电影免费看 | 在教室伦流澡到高潮hnp视频| 日本一区二区三区小视频| 成人免费av色资源日日| 色窝窝无码一区二区三区| 日韩在线一区二区三区免费视频| 国产精品高潮av有码久久| 日本在线中文字幕一区| 一本大道久久a久久综合精品| 熟女一区二区三区在线观看| 国产精品自在线拍国产| 亚洲免费不卡| 五码人妻少妇久久五码| 国产精品一区二区黄色| 中文字幕网伦射乱中文|