亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義分割的視頻魚(yú)類(lèi)特征提取方法研究

        2024-01-01 00:00:00李瀟洋陳健常劍波
        水生態(tài)學(xué)雜志 2024年5期
        關(guān)鍵詞:語(yǔ)義分割

        摘要:從視頻圖像中快速、準(zhǔn)確提取水生生物(如魚(yú)類(lèi))的特征信息,是信息科學(xué)與水生態(tài)研究結(jié)合的熱點(diǎn)。基于Transformer的視覺(jué)模型,采用一種基于弱監(jiān)督語(yǔ)義分割的視頻魚(yú)類(lèi)特征提取方法,在無(wú)需預(yù)訓(xùn)練或微調(diào)的條件下,可以實(shí)現(xiàn)對(duì)魚(yú)的身體、頭部和魚(yú)鰭3類(lèi)形態(tài)區(qū)域標(biāo)簽的分割提取。采用DeepFish分割數(shù)據(jù)集構(gòu)建計(jì)算機(jī)視覺(jué)自注意力模型(vision transformer,ViT),通過(guò)對(duì)水下拍攝的魚(yú)類(lèi)視頻進(jìn)行實(shí)驗(yàn),結(jié)果實(shí)現(xiàn)了魚(yú)體形態(tài)主體特征的有效提取,對(duì)擬定的3類(lèi)形態(tài)標(biāo)簽區(qū)域進(jìn)行了良好的分割標(biāo)記。研究方法具有較高的效率、分割準(zhǔn)確度和標(biāo)記區(qū)域的連續(xù)平滑性,可提供良好的語(yǔ)義特征,為人工智能技術(shù)在魚(yú)類(lèi)等水生生物監(jiān)測(cè)實(shí)踐中提供了一種低成本、高效率的新方法。

        關(guān)鍵詞:弱監(jiān)督學(xué)習(xí);語(yǔ)義分割;視覺(jué)自注意力模型;魚(yú)類(lèi)特征提取

        中圖分類(lèi)號(hào):S931.1" " " " 文獻(xiàn)標(biāo)志碼:A" " " " 文章編號(hào):1674-3075(2024)05-0204-09

        人工智能技術(shù),如深度學(xué)習(xí)、計(jì)算視覺(jué)自注意力模型等,在水生態(tài)視頻圖像監(jiān)測(cè)中展現(xiàn)出了強(qiáng)大潛力。相較于依靠延繩釣探捕、拖網(wǎng)探捕等捕撈技術(shù)的傳統(tǒng)方法,利用水下拍攝的魚(yú)類(lèi)視頻并輔以深度學(xué)習(xí)方法提取魚(yú)類(lèi)特征可以節(jié)省探測(cè)的時(shí)間與成本,同時(shí)這種非接觸測(cè)量方式不會(huì)使魚(yú)類(lèi)產(chǎn)生應(yīng)激反應(yīng),能夠更真實(shí)地反映魚(yú)類(lèi)在環(huán)境中的活動(dòng)狀態(tài)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展和神經(jīng)網(wǎng)絡(luò)模型的深化,視頻水生生物特征獲取的準(zhǔn)確性和效率得到了顯著提高(Yang et al,2021)。在魚(yú)類(lèi)表型分割方面,Dong等(2023)基于關(guān)鍵點(diǎn)檢測(cè)技術(shù)提取了魚(yú)體輪廓形狀,并分析了魚(yú)類(lèi)形態(tài)特征,但關(guān)鍵點(diǎn)的標(biāo)記存在一定主觀性,限制了模型成果的泛化能力。Zhang等(2021)應(yīng)用Fish 4 Knowledge(F4K)數(shù)據(jù)集進(jìn)行訓(xùn)練,提出了一種深度學(xué)習(xí)方法,可以對(duì)魚(yú)類(lèi)進(jìn)行識(shí)別和分類(lèi)。李健源等(2024)基于改進(jìn)的DeepSORT算法,采用YOLOv5模型作為目標(biāo)檢測(cè)模型,對(duì)監(jiān)測(cè)視頻中目標(biāo)魚(yú)實(shí)現(xiàn)了動(dòng)態(tài)識(shí)別和自動(dòng)計(jì)數(shù)。此外,如卷積神經(jīng)網(wǎng)絡(luò)(CNNs)等深度學(xué)習(xí)模型,也可以高精度地識(shí)別和分類(lèi)圖像數(shù)據(jù),如魚(yú)類(lèi)物種、藻類(lèi)繁殖等,但也存在訓(xùn)練深度學(xué)習(xí)模型需要大量數(shù)據(jù),可解釋度弱等不足。

        計(jì)算機(jī)視覺(jué)自注意力模型(vision transformer,ViT)是一種基于Transformer的視覺(jué)模型,與傳統(tǒng)的深度學(xué)習(xí)模型(如CNN)相比,ViT使用自注意力機(jī)制來(lái)處理圖像數(shù)據(jù),能夠提供更微觀的圖像分析,從而捕捉圖像中的長(zhǎng)距離依賴(lài)關(guān)系,提升監(jiān)測(cè)的精度和細(xì)節(jié)豐富度(Dosovitskiy et al,2020)。語(yǔ)義分割利用神經(jīng)網(wǎng)絡(luò)分析圖像中每個(gè)像素所代表的真實(shí)物體,對(duì)圖像進(jìn)行像素級(jí)分類(lèi),從而分割出物體輪廓,可更有效提取水生生物,如魚(yú)體形態(tài)區(qū)域的特征并開(kāi)展量化分析。Yu等(2020)基于Mask R-CNN實(shí)現(xiàn)了魚(yú)體形態(tài)特征測(cè)量,Li等(2023)基于ResNet50為編碼器的UNet模型實(shí)現(xiàn)了對(duì)8類(lèi)魚(yú)體形態(tài)區(qū)域的精準(zhǔn)分割。計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用不僅可以提高魚(yú)類(lèi)跟蹤、計(jì)數(shù)和行為分析的效率,也可以提高魚(yú)類(lèi)形態(tài)測(cè)量的準(zhǔn)確率和效率。然而現(xiàn)有的研究主要基于有監(jiān)督學(xué)習(xí)的模式,其對(duì)有效標(biāo)記樣本的需求量較大,訓(xùn)練模型所需的算力成本大,模型參數(shù)優(yōu)化過(guò)程復(fù)雜(田志新等,2022;李健源等,2024)。

        語(yǔ)義分割是計(jì)算機(jī)視覺(jué)中的重要領(lǐng)域,它通過(guò)標(biāo)注出圖像中每個(gè)像素所屬的對(duì)象類(lèi)別,實(shí)現(xiàn)圖像區(qū)域的劃分和理解。對(duì)于面向語(yǔ)義分割的魚(yú)類(lèi)相關(guān)視覺(jué)任務(wù),由于其存在因數(shù)據(jù)標(biāo)注規(guī)模以及深度學(xué)習(xí)模型預(yù)訓(xùn)練微調(diào)導(dǎo)致的算力資源需求大的問(wèn)題,本文試圖引入弱監(jiān)督語(yǔ)義分割技術(shù)來(lái)快速提取水生態(tài)監(jiān)測(cè)視頻中魚(yú)類(lèi)的特征信息,通過(guò)使用不完整的監(jiān)督信息(如圖像級(jí)別的標(biāo)簽、掩碼或大致的邊界框)來(lái)進(jìn)行提示性的語(yǔ)義分割,從而在較低的算力需求和少量標(biāo)記工作量的條件下實(shí)現(xiàn)有效的圖像理解(Zhi et al,2021)。

        1" "材料與方法

        1.1" "數(shù)據(jù)來(lái)源

        采用DeepFish數(shù)據(jù)集(Saleh et al,2020)進(jìn)行建模,從620張標(biāo)注好的圖像中選取310張進(jìn)行模型訓(xùn)練、124張進(jìn)行模型驗(yàn)證、186張進(jìn)行模型測(cè)試。DeepFish數(shù)據(jù)集是一個(gè)用于評(píng)估水下視覺(jué)分析算法的真實(shí)魚(yú)類(lèi)棲息地?cái)?shù)據(jù)集,該數(shù)據(jù)集是從澳大利亞熱帶海洋環(huán)境20個(gè)棲息地水下收集的約4萬(wàn)張圖像經(jīng)人工處理標(biāo)注而來(lái)。該數(shù)據(jù)集的原始視頻是將攝像機(jī)放置于海底,并在水體渾濁度相對(duì)較低的時(shí)間段內(nèi)采集獲得,原始圖像以全高清分辨率(1 920×1 080像素)剪輯導(dǎo)出。其典型樣本圖像的分割掩碼圖及不同棲息地的樣本分布見(jiàn)圖1,涵蓋了水下成像的復(fù)雜環(huán)境,有助于訓(xùn)練和測(cè)試模型在不同環(huán)境下對(duì)魚(yú)體特征學(xué)習(xí)的能力。

        采用實(shí)拍水下魚(yú)群監(jiān)控視頻的方式進(jìn)行推廣應(yīng)用測(cè)試。選用由中國(guó)水利水電科學(xué)院在雅江某魚(yú)道內(nèi)定點(diǎn)拍攝的3段異齒裂腹魚(yú)(Schizothorax oconnori)(體長(zhǎng)30~50 cm)視頻,視頻幀尺寸為1 280×720像素,幀率均為30幀/秒,視頻文件參數(shù)見(jiàn)表1。3段視頻在清晰度、魚(yú)類(lèi)個(gè)體數(shù)量和成像位置上存在差異,用于檢驗(yàn)弱監(jiān)督語(yǔ)義分割方法的魯棒性。

        1.2" "魚(yú)體輪廓與形態(tài)區(qū)域分割

        1.2.1" "魚(yú)體輪廓語(yǔ)義標(biāo)記" "參考魚(yú)類(lèi)關(guān)鍵點(diǎn)數(shù)據(jù)集(Yu et al,2023),考慮實(shí)際水下成像條件,將魚(yú)體形態(tài)測(cè)量區(qū)域分割為3個(gè)語(yǔ)義標(biāo)記:頭部、身體和魚(yú)鰭(圖2)。

        1.2.2" "魚(yú)類(lèi)語(yǔ)義分割特征提取流程" "采用基于部件協(xié)同分割的弱監(jiān)督語(yǔ)義分割方法進(jìn)行語(yǔ)義分割特征提取,具體流程見(jiàn)圖3。使用FFmpeg工具(Tomar,2006)逐秒提取視頻關(guān)鍵幀圖像,通過(guò)加載預(yù)訓(xùn)練權(quán)重的ViT模型從待分割圖像提取特征向量,首先加載魚(yú)體輪廓分割的模板圖片集進(jìn)行聚類(lèi)分組,基于模板匹配的方法,實(shí)現(xiàn)待分割圖像各像素點(diǎn)的區(qū)域判定,得到魚(yú)體輪廓分割的區(qū)域掩碼,然后加載魚(yú)體形態(tài)區(qū)域分割的模板圖像集進(jìn)行模板匹配,實(shí)現(xiàn)魚(yú)體特定形態(tài)區(qū)域的提取分割。

        采用基于ViT模型實(shí)現(xiàn)在圖像塊粒度表征圖像特征的方法,ViT模型架構(gòu)見(jiàn)圖4。

        提取特征的步驟如下:

        (1)將輸入的圖像分成一系列的圖像塊,構(gòu)建成一個(gè)序列,直接將圖像塊拉伸為一維向量序列,轉(zhuǎn)化為詞嵌入向量;ViT模型構(gòu)建圖像塊一般按像素劃分,各塊之間不存在重疊,為了提升特征提取的分辨率并有效提取塊邊界信息,采用滑動(dòng)窗口的方式生成部分重疊的圖像塊序列。分塊數(shù)(N)的計(jì)算公式如下:

        N = NH [×] NW = ([H+S-PS][×][W+S-PS]) ①

        式中:NH和NW分別為高度和寬度上切分塊的數(shù)量,H為圖像高度,W為圖像寬度,S為滑窗步長(zhǎng),P為圖像分塊大小。

        (2)對(duì)圖像塊序列中的每個(gè)元素添加一個(gè)用于表示序列元素位置信息的位置編碼。

        (3)將圖像塊的嵌入向量和位置編碼向量作為輸入,使用多層的Transformer編碼器進(jìn)行處理。其中編碼器由多個(gè)Transformer模塊構(gòu)成,每個(gè)模塊包含多個(gè)自注意力層和前饋神經(jīng)網(wǎng)絡(luò)。編碼器層的堆疊使得模型能夠更好地捕捉圖像的高級(jí)特征。

        (4)Transformer模塊由自注意力層、全連接前饋層、殘差連接和層歸一化操作等基本單元組成,其中自注意力層是核心組成部分,由可學(xué)習(xí)的查詢(xún)矩陣WQ、鍵矩陣WK及值矩陣WV組成,圖像塊向量的輸入i分別經(jīng)過(guò)上述3個(gè)矩陣的變換得到查詢(xún)向量q,鍵向量k,值向量v,最后經(jīng)過(guò)自注意力機(jī)制的公式得到層的輸出向量t,計(jì)算公式如下:

        [k,q,v=WK,WQ,WV×i]" " ②

        [t=Softmax(qkTd)×v]" " ③

        式中:Softmax為歸一化指數(shù)函數(shù),d為輸入向量i的嵌入維度,T為k向量的轉(zhuǎn)置。

        自注意力機(jī)制的實(shí)現(xiàn)基于查詢(xún)向量q,鍵向量k,值向量v。對(duì)于輸入序列中的每個(gè)元素,模型都會(huì)計(jì)算它與所有其他元素的相似度(通過(guò)q和k的匹配來(lái)實(shí)現(xiàn)),而后根據(jù)相似度加權(quán)求和,得到當(dāng)前元素與鄰近元素的關(guān)系。關(guān)系相近的元素即為同一語(yǔ)義的集合,由此可以提取出相同語(yǔ)義的區(qū)域,即魚(yú)類(lèi)的特征形態(tài)區(qū)域。

        由于q,k,v,t向量都是輸入向量i的線性變換,逐層傳遞的編碼信息即可反映圖像塊的特征。本文直接利用預(yù)訓(xùn)練模型進(jìn)行特征提取,圖像以256的短邊長(zhǎng)度輸入到ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的ViT模型(Caron et al,2021)提取圖像特征,模型自主力層計(jì)算的向量集作為編碼高級(jí)語(yǔ)義信息的特征向量。研究對(duì)比了模型在不同分塊大小、嵌入維度、滑窗步長(zhǎng)、特征向量類(lèi)型及提取層數(shù)深度參數(shù)下魚(yú)體輪廓分割結(jié)果,以?xún)?yōu)選適用于魚(yú)體形態(tài)區(qū)域分割的模型參數(shù)。本文研究的推理模型結(jié)構(gòu)參數(shù)如表2所示,DeiT(data efficient image transformer)是指通過(guò)知識(shí)蒸餾方法訓(xùn)練的ViT小模型,其通過(guò)大的預(yù)訓(xùn)練模型傳遞知識(shí)信息訓(xùn)練,而非像ViT模型從頭訓(xùn)練。因此,DeiT在保持與ViT模型結(jié)構(gòu)相同且性能同等條件下壓縮了模型體積,有助于減輕對(duì)算力的需求,實(shí)現(xiàn)更高效的部署。實(shí)驗(yàn)環(huán)境基于ubuntu22.04操作系統(tǒng),CPU為12線程i5-12400,RTX3060(12GB)顯卡,內(nèi)存32GB,CUDA版本為11.7,編程語(yǔ)言為python3.8,深度學(xué)習(xí)框架為Pytorch1.13,設(shè)置了固定的隨機(jī)種子,確保實(shí)驗(yàn)結(jié)果的復(fù)現(xiàn)性。

        1.2.3" "模板匹配" "為了實(shí)現(xiàn)自動(dòng)分割標(biāo)記,采用模板匹配方法對(duì)圖像的特征向量進(jìn)行聚類(lèi)分析。在魚(yú)體輪廓分割處理中,選擇數(shù)據(jù)集中魚(yú)體掩碼最大的5張圖像作為模板,對(duì)魚(yú)體形態(tài)分割處理,篩選魚(yú)類(lèi)形態(tài)特征顯著和清晰的4視頻幀作為模板。

        模板圖像的特征向量集以余弦相似度來(lái)度量,計(jì)算公式如下:

        [cos(θ)=i=1n(xi×yi)i=1n(xi)2×i=1n(yi)2]" " "④

        式中:xi,yi為對(duì)比的2個(gè)圖像特征向量。

        通過(guò)K均值聚類(lèi)算法得到多個(gè)聚類(lèi)中心,從而獲得水下場(chǎng)景的語(yǔ)義標(biāo)簽聚類(lèi)簇。K均值聚類(lèi)算法選取與類(lèi)型總數(shù)相同的點(diǎn)作為初始化聚類(lèi)中心,計(jì)算每個(gè)點(diǎn)到聚類(lèi)中心的距離,并聚類(lèi)到離該點(diǎn)最近的聚類(lèi)中去。之后計(jì)算每個(gè)聚類(lèi)中所有點(diǎn)的坐標(biāo)平均值,并將這個(gè)平均值作為新的聚類(lèi)中心。重復(fù)上述2個(gè)步驟,直到每個(gè)類(lèi)的聚類(lèi)中心不再變化,完成聚類(lèi)。根據(jù)聚類(lèi)中心的相對(duì)位置判定語(yǔ)義標(biāo)記的魚(yú)體輪廓,從而實(shí)現(xiàn)水下魚(yú)體圖像區(qū)域的自動(dòng)分割。

        由于環(huán)境特征變化,通過(guò)K均值聚類(lèi)算法推理得到的魚(yú)體形態(tài)區(qū)域分割存在一定的噪點(diǎn),造成分割區(qū)域邊緣不平滑,因此需要進(jìn)行適當(dāng)?shù)暮筇幚砑夹g(shù)實(shí)現(xiàn)標(biāo)簽平滑。本文使用多標(biāo)簽條件隨機(jī)場(chǎng)技術(shù)實(shí)現(xiàn)語(yǔ)義分割標(biāo)簽的區(qū)域平滑連續(xù)(Kr?henbühl amp; Koltun,2012)。由于視頻圖像和魚(yú)類(lèi)特征位置變化的連續(xù)性,本方法并沒(méi)有采用深度學(xué)習(xí)視覺(jué)任務(wù)常用的數(shù)據(jù)增強(qiáng)和圖像增強(qiáng)技術(shù),以保持模板與目標(biāo)圖像在水下成像環(huán)境的一致性。

        1.3" "評(píng)價(jià)指標(biāo)

        采用語(yǔ)義分割任務(wù)中常見(jiàn)的平均交并比(mean intersection over union,mIoU)和平均像素準(zhǔn)確率(mean pixel accuracy,mPA)作為魚(yú)體輪廓分割實(shí)驗(yàn)的模型精度評(píng)價(jià)指標(biāo),采用推理速度評(píng)價(jià)魚(yú)體形態(tài)區(qū)域分割模型的計(jì)算效率,單位為幀/s。其中平均交并比(mIoU)?通過(guò)計(jì)算預(yù)測(cè)區(qū)域和真實(shí)區(qū)域之間的交集與并集的比值來(lái)評(píng)估模型性能,值越高,表示模型預(yù)測(cè)的區(qū)域與真實(shí)區(qū)域的重疊程度越高。?平均像素準(zhǔn)確率(mPA)?是計(jì)算模型對(duì)每個(gè)類(lèi)別的像素預(yù)測(cè)正確的比例,將所有類(lèi)別的像素準(zhǔn)確率取均值即得到mPA,mPA越高,說(shuō)明模型對(duì)像素級(jí)別的分類(lèi)越準(zhǔn)確?。推理速度是一秒鐘完成推理的畫(huà)面數(shù)量,數(shù)值越高,模型的計(jì)算效率越高。

        2" "結(jié)果與分析

        2.1" "魚(yú)體輪廓分割

        在DeepFish數(shù)據(jù)集選擇的5張模板圖像的聚類(lèi)及分割效果如圖5所示,模型分割結(jié)果比較理想,5張模板圖像的mIoU達(dá)到0.83,186張測(cè)試圖像的mIoU達(dá)到0.54,測(cè)試集圖像魚(yú)體面積與模型分割預(yù)測(cè)效果的關(guān)系如圖6所示,62.5%的測(cè)試圖像mIoU超過(guò)0.5。

        2.2" "魚(yú)體形態(tài)區(qū)域分割

        在本文測(cè)試的3段水下魚(yú)群監(jiān)控視頻中,典型關(guān)鍵幀的部件協(xié)同分割結(jié)果如圖7所示,魚(yú)體形態(tài)區(qū)域能被準(zhǔn)確分割。在分割準(zhǔn)確度上,當(dāng)視野中的魚(yú)類(lèi)比較稀疏時(shí),更容易獲得較好的形態(tài)區(qū)域語(yǔ)義分割效果。在推理速度上,單張RTX3060顯卡推理魚(yú)體形態(tài)區(qū)域分割處理過(guò)程為1.2幀/s,單張V100顯卡的推理速度為3.1幀/s,結(jié)合視頻關(guān)鍵幀提取,本方法的推理效率可以滿(mǎn)足實(shí)踐需求。

        3" "討論

        3.1" "ViT模型參數(shù)優(yōu)化與比選

        本文以嵌入維度為384、分塊大小為8、滑動(dòng)步長(zhǎng)為4的DeiT-S/8模型作為基準(zhǔn)模型參數(shù),研究第11層自注意力模塊中特征向量類(lèi)別對(duì)分割效果的影響,結(jié)果如表3所示,鍵向量的特征提取實(shí)現(xiàn)的分割效果最佳,值向量的分割存在較大的背景假陽(yáng)性,本文實(shí)驗(yàn)均選用鍵向量作為特征提取的向量類(lèi)型。

        以基準(zhǔn)模型為例,研究特征提取的層數(shù)對(duì)分割結(jié)果的影響,結(jié)果如圖8所示。提取的特征層數(shù)越深,平均像素精度和平均交并比越高,分割效果越好。本文實(shí)驗(yàn)均選用11層即最后一層進(jìn)行模型特征提取。

        ViT模型的圖像分塊序列化和嵌入維度參數(shù),既影響了模型參數(shù)的規(guī)模,也影響著模型對(duì)圖像特征信息提取的分辨率,進(jìn)而影響模型開(kāi)展精細(xì)化區(qū)域分割的性能和效果,本文在固定模型特征提取的向量類(lèi)型和層數(shù)固定的條件下,對(duì)不同圖像分塊序列化和嵌入維度參數(shù)的模型在魚(yú)體輪廓分割上的效果進(jìn)行對(duì)比分析,結(jié)果如表4所示。本文選擇的基準(zhǔn)模型結(jié)構(gòu)分割的效果表現(xiàn)最佳,模型性能主要受分塊大小影響,由于使用的均是預(yù)訓(xùn)練權(quán)重模型進(jìn)行推理,對(duì)于水下環(huán)境通用特征的提取會(huì)干擾魚(yú)體分割的效果,模型規(guī)模最大的ViT-B/8模型的分割效果反而不如參數(shù)規(guī)模較小的Deit-S/8模型。在同等參數(shù)規(guī)模的模型中,分塊數(shù)越小,分割效果越好,主要原因是提取的圖像特征細(xì)節(jié)更多,但同時(shí)模型推理速度會(huì)變慢。滑窗步長(zhǎng)可補(bǔ)充模型分塊邊界區(qū)域的圖像特征,實(shí)現(xiàn)在不額外投入模型訓(xùn)練資源的條件下,提取更細(xì)致的圖像特征,理論上具備提升模型性能的可行性(Amir et al,2021)。但實(shí)驗(yàn)結(jié)果表明其影響效果因模型的結(jié)構(gòu)參數(shù)規(guī)模而異,對(duì)于模型規(guī)模小、特征提取能力相對(duì)弱的DeiT-S/16模型,滑窗步長(zhǎng)減少,分割效果反而越差;而對(duì)于其他更大規(guī)模的模型而言,滑窗步長(zhǎng)越小,分割效果越好。說(shuō)明滑窗處理的有效性受主干模型本身特征提取能力的制約,此外縮小滑窗步長(zhǎng)會(huì)增加模型對(duì)圖像的計(jì)算量,因此未來(lái)在開(kāi)展水下魚(yú)類(lèi)特征提取模型的訓(xùn)練和優(yōu)化中,需要權(quán)衡滑窗處理與模型參數(shù)規(guī)模,以滿(mǎn)足模型性能與推理速度的需求。

        3.2" "ViT模型提取的語(yǔ)義特征

        在魚(yú)體形態(tài)區(qū)域分割實(shí)驗(yàn)中,根據(jù)實(shí)際觀測(cè)視頻的成像條件,本文選擇4張視頻關(guān)鍵幀作為模板,研究模板圖像在不同層之間的匹配聚類(lèi)結(jié)果,以分析ViT模型最后4層特征向量的表征特點(diǎn)(圖9)。深層的特征向量聚類(lèi)結(jié)果可以區(qū)分魚(yú)體形態(tài)細(xì)部特征,而淺層則主要區(qū)分魚(yú)體的空間位置,本文采用最后一層模型的聚類(lèi)結(jié)果作為特征匹配的模板,從最后一層(第11層)的分割結(jié)果來(lái)看,本文提出的3個(gè)魚(yú)體形態(tài)標(biāo)記區(qū)域之間的差異顯著,提取的掩碼分割效果較為平滑和連續(xù)。

        本文的結(jié)果驗(yàn)證了ViT模型提取的特征在自注意力層之間傳遞的特點(diǎn),即淺層特征更多側(cè)重于位置嵌入的相似度,深層特征側(cè)重語(yǔ)義信息(Amir et al,2021)。由于本文的K均值聚類(lèi)算法中的距離定義采用的是余弦相似度,在稠密、多目標(biāo)圖像識(shí)別上有一定的局限性,K均值聚類(lèi)算法本身對(duì)于離群值和非連續(xù)特征的提取效果不佳,因此實(shí)現(xiàn)高效魚(yú)體形態(tài)區(qū)域信息聚合和分割的聚類(lèi)算法有待進(jìn)一步研究。

        3.3" "弱監(jiān)督語(yǔ)義分割方法的優(yōu)勢(shì)

        在模板聚類(lèi)階段,本文的方法不僅魚(yú)體輪廓區(qū)域可識(shí)別提取,水草等水下環(huán)境要素也可以通過(guò)模板進(jìn)行聚類(lèi)分割識(shí)別;在聚類(lèi)分割階段,由于模板的聚類(lèi)結(jié)果中魚(yú)體輪廓邊緣存在部分噪點(diǎn),因此分割區(qū)域標(biāo)簽的平滑處理會(huì)適當(dāng)聚集壓縮分割區(qū)域。本文選擇的5張模板圖像中魚(yú)體區(qū)域在圖像像素面積占比均超過(guò)10%(圖5),模板圖像集與小尺寸魚(yú)體圖像特征之間存在一定的差距,因此對(duì)于測(cè)試集圖像中部分小尺寸魚(yú)體輪廓的分割效果有待改進(jìn)提升。由于本文采用的是預(yù)訓(xùn)練的ViT模型,沒(méi)有更改特征提取模型結(jié)構(gòu)和參數(shù),未來(lái)在開(kāi)展針對(duì)性的水下魚(yú)類(lèi)特征提取模型研究中,可采用移位窗口(Liu et al,2021)等多尺度特征提取方法提升ViT模型對(duì)多尺度圖像特征提取的適應(yīng)性。

        本文方法與文獻(xiàn)公開(kāi)的預(yù)訓(xùn)練或微調(diào)模型的精度對(duì)比如表5所示,本文方法在相對(duì)較低的推理模型參數(shù)量條件下,實(shí)現(xiàn)了實(shí)用化的分割效果。本文基準(zhǔn)ViT模型與ResNet50卷積網(wǎng)絡(luò)的推理參數(shù)量相當(dāng),ViT模型的優(yōu)勢(shì)在于基于自注意力機(jī)制構(gòu)建的序列化關(guān)聯(lián)性能夠捕捉到圖像中不同區(qū)域之間的語(yǔ)義關(guān)系,從而無(wú)需過(guò)多依賴(lài)顯式的位置編碼,因此從預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)提取中間層的特征可被廣泛用于各類(lèi)視覺(jué)任務(wù)。本方法無(wú)需對(duì)ViT模型預(yù)訓(xùn)練或微調(diào),對(duì)推理算力需求較低,因此相較于有監(jiān)督學(xué)習(xí)方法,本文提出的弱監(jiān)督學(xué)習(xí)方法在推理效率上更有優(yōu)勢(shì),而且對(duì)分割標(biāo)注的樣本需求量極低,可極大降低數(shù)據(jù)預(yù)處理成本,降低ViT模型應(yīng)用落地的難度。

        4" "結(jié)論

        魚(yú)類(lèi)圖像形態(tài)的幾何和語(yǔ)義特征高度相關(guān)。本文基于Transformer的視覺(jué)模型,提出了一種基于弱監(jiān)督語(yǔ)義分割的視頻魚(yú)類(lèi)特征提取方法,通過(guò)加載預(yù)訓(xùn)練權(quán)重的ViT模型從待分割圖像提取特征向量,然后進(jìn)行模板匹配,實(shí)現(xiàn)魚(yú)體特定形態(tài)區(qū)域的提取分割。主要結(jié)論如下:

        (1)本文在DeepFish測(cè)試集共186張測(cè)試圖像的平均交并比(mIoU)指標(biāo)達(dá)到0.54,62.5%的測(cè)試圖像mIoU超過(guò)0.5,提取速度高于1幀/s。因此本方法能快速準(zhǔn)確實(shí)現(xiàn)無(wú)接觸式分割、提取魚(yú)類(lèi)特征。

        (2)本文基準(zhǔn)ViT模型與ResNet50卷積網(wǎng)絡(luò)的推理參數(shù)量相當(dāng),同時(shí)無(wú)需對(duì)ViT模型預(yù)訓(xùn)練或微調(diào),即可實(shí)現(xiàn)實(shí)用化的分割效果。因此本方法擁有相對(duì)較低的推理算力需求與分割標(biāo)注的樣本需求量,可降低數(shù)據(jù)預(yù)處理成本,降低ViT模型應(yīng)用落地的難度。

        本文提出的方法在無(wú)需預(yù)訓(xùn)練或微調(diào)的條件下實(shí)現(xiàn)了對(duì)魚(yú)的身體、頭部和魚(yú)鰭3類(lèi)形態(tài)區(qū)域標(biāo)簽的分割提取并進(jìn)行良好的標(biāo)記,具有較高的效率和標(biāo)記區(qū)域的連續(xù)平滑性,為形態(tài)測(cè)量等魚(yú)類(lèi)行為研究提供了良好的語(yǔ)義特征表示。

        參考文獻(xiàn)

        李健源, 柳春娜, 盧曉春, 等, 2024. 構(gòu)建VED-SegNet分割模型提取魚(yú)類(lèi)表型比例[J]. 農(nóng)業(yè)工程學(xué)報(bào), 40(3):175-183.

        田志新, 廖薇, 茅健, 等, 2022. 融合邊緣監(jiān)督的改進(jìn)Deeplabv3+水下魚(yú)類(lèi)分割方法[J]. 電子測(cè)量與儀器學(xué)報(bào), 36(10):9.

        Amir S, Gandelsman Y, Bagon S, et al, 2021. Deep vit features as dense visual descriptors[J]. arXiv:2112.05814.

        Caron M, Touvron H, Misra I, et al, 2021. Emerging properties in self-supervised vision transformers[J]. arXiv:2104.14294.

        Dong J, Shangguan X, Zhou K, et al, 2023. A detection-regression based framework for fish keypoints detection[J]. Intelligent Marine Technology and Systems, 1(1):9.

        Dosovitskiy A, Beyer L, Kolesnikov A, et al, 2020. An image is worth 16x16 words: transformers for image recognition at scale[J]. arXiv:2010.11929.

        Islam M J, Edge C, Xiao Y, et al, 2020. Semantic segmentation of underwater imagery: dataset and benchmark[J]. arXiv:2004.01241v3.

        Kr?henbühl P, Koltun V, 2012. Efficient inference in fully connected crfs with gaussian edge potentials[J]. arXiv:1210.5644.

        Li J, Liu C, Yang Z, et al, 2023. RA-UNet: an intelligent fish phenotype segmentation method based on ResNet50 and atrous spatial pyramid pooling[J]. Frontiers in Environmental Science, 11:1201942.

        Liu Z, Lin Y, Cao Y, et al, 2021. Swin transformer: hierarchical vision transformer using shifted windows[J]. arXiv:2103.14030.

        Saleh A, Laradji I H, Konovalov D A, et al, 2020. A realistic fish-habitat dataset to evaluate algorithms for underwater visual analysis[J]. Scientific Reports, 10(1):14671.

        Tomar S, 2006. Converting video formats with FFmpeg[J]. Linux journal, (146):10.

        Yang L, Liu Y, Yu H, et al, 2021. Computer vision models in intelligent aquaculture with emphasis on fish detection and behavior analysis: a review[J]. Archives of Computational Methods in Engineering, 28(4):1-32.

        Yu C, Fan X, Hu Z, et al, 2020. Segmentation and measurement scheme for fish morphological features based on mask R-CNN[J]. Information Processing in Agriculture,7(4):523-524.

        Yu Y, Zhang H, Yuan F, 2023. Key point detection method for fish size measurement based on deep learning[J]. IET Image Processing, 17(14):4142-4158.

        Zhang Y, Zhang F, Cheng J, et al, 2021. Classification and recognition of fish farming by extraction new features to control the economic aquatic product[J]. Complexity, (1):5530453.

        Zhi S, Laidlow T, Leutenegger S, et al, 2021. In-place scene labelling and understanding with implicit scene representation[J]. arXiv:2103.15875.

        (責(zé)任編輯" "熊美華)

        A Semantic Segmented Framework for Extracting Fish Features from Videos

        LI Xiao‐yang1, CHEN Jian1, CHANG Jian‐bo2

        (1. Electronic Information School, Wuhan University, Wuhan 430072, P.R. China;

        2. School of Water Resources and Hydropower Engineering, Wuhan University, Wuhan 430072, P.R. China)

        Abstract:Fast and accurate extraction of information on features of aquatic organisms from video images is a research hotspot that draws from information science and ecological research. In this study, we developed a fish feature extraction method based on weakly supervised semantic segmentation and the vision transformer. Our aim was to realize the segmentation and extraction of three types of fish morphological regions (body, head, and fins) without the need for pre-training or fine-tuning. First, a self-attention model was created using a DeepFish segmentation dataset, and then applied to extract information from underwater videos of Schizothorax oconnori. Results show that the method we proposed effectively extracted the three morphological features of the test fish, appropriately segmenting, marking and labeling the three features. In general, the process is highly efficient, accurate, and smoothly labeled the semantic features. It is a low-cost, highly efficient method for the practical application of artificial intelligence technology in the monitoring of fish and other aquatic organisms.

        Key words: weakly supervised learning; semantic segmentation; vision transformer; fish feature extraction

        猜你喜歡
        語(yǔ)義分割
        基于全卷積網(wǎng)絡(luò)的肝臟CT語(yǔ)義分割
        軟件工程(2020年6期)2020-06-21 15:16:16
        基于弱監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法綜述
        基于語(yǔ)義分割的室內(nèi)動(dòng)態(tài)場(chǎng)景同步定位與語(yǔ)義建圖
        結(jié)合語(yǔ)義邊界信息的道路環(huán)境語(yǔ)義分割方法
        一種改進(jìn)迭代條件模型的遙感影像語(yǔ)義分割方法
        基于積神經(jīng)網(wǎng)絡(luò)的圖像著色方法研究
        基于全卷積網(wǎng)絡(luò)FCN的圖像處理
        基于語(yǔ)義分割的車(chē)道線檢測(cè)算法研究
        基于深度學(xué)習(xí)的太陽(yáng)能電池板缺陷檢測(cè)模型設(shè)計(jì)
        一種基于多尺度角點(diǎn)檢測(cè)的語(yǔ)義分割網(wǎng)絡(luò)
        淫秽在线中国国产视频| 精品+无码+在线观看| 插上翅膀插上科学的翅膀飞| 精品天堂色吊丝一区二区| 香蕉视频在线观看亚洲| 精品国产精品三级精品av网址| 免费又黄又爽又色的视频| 国产成人av在线免播放观看新| 国产激情综合在线观看| 国产福利视频一区二区| 亚洲一卡2卡3卡4卡5卡精品| 成人精品一区二区三区中文字幕 | 在线观看免费人成视频国产| 国产av在线观看91| 日韩精品乱码中文字幕| 精品一区三区视频在线观看| 国产黄大片在线观看画质优化 | 国产精品久久国产精品99 gif| 亚洲精品白浆高清久久久久久| 成人综合网站| 国产精品户露av在线户外直播| 国产亚洲精品日韩综合网| 26uuu欧美日本在线播放| 综合久久青青草免费观看视频| 国产女主播大秀在线观看| 国产尤物自拍视频在线观看| 熟女肥臀白浆一区二区| 蜜臀久久99精品久久久久久| 亚洲乱色伦图片区小说| 2021久久精品国产99国产精品 | 性欧美videofree高清精品| 四川丰满少妇被弄到高潮| 精品国产免费Av无码久久久 | 无码av天堂一区二区三区| 色伦专区97中文字幕| 久久久国产精品樱花网站| 日韩亚洲欧美精品| 开心五月激动心情五月| 成人在线观看av毛片| 国产精品沙发午睡系列| 特黄熟妇丰满人妻无码|