亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多信息輔助的U型輕量級(jí)顯著性目標(biāo)檢測(cè)模型

        2023-09-06 04:29:58卞葉童
        關(guān)鍵詞:骨架邊緣卷積

        卞葉童,孫 涵

        (南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106)

        1 引 言

        近年來(lái),顯著性目標(biāo)檢測(cè)作為計(jì)算視覺(jué)領(lǐng)域的熱點(diǎn)研究方向之一,引起了世界各地學(xué)者的熱烈關(guān)注.其涉及很多其他計(jì)算機(jī)視覺(jué)任務(wù),比如目標(biāo)檢測(cè)[1]、圖像檢索[2]、目標(biāo)追蹤[3]等等.雖然顯著性目標(biāo)檢測(cè)的發(fā)展離不開(kāi)對(duì)人類(lèi)視覺(jué)機(jī)制的模仿和利用,但是由于相比人類(lèi)還是缺乏相當(dāng)一部分先驗(yàn)知識(shí),在某些特殊場(chǎng)景下,前景和背景在顏色、紋理等低級(jí)信息較為相似時(shí),傳統(tǒng)的顯著性目標(biāo)檢測(cè)方法甚至是一些具有語(yǔ)義信息的深度模型仍易被迷惑.由于傳統(tǒng)模型只能夠關(guān)注局部,所以在具有強(qiáng)大表征能力的全卷積網(wǎng)絡(luò)被提出后,顯著性目標(biāo)檢測(cè)領(lǐng)域就出現(xiàn)了一大批基于此的深度模型.伴隨著深度模型中一次又一次的下采樣,特征的感受野越來(lái)越大,蘊(yùn)含的全局語(yǔ)義線(xiàn)索也越來(lái)越多,最終顯著圖的目標(biāo)定位較傳統(tǒng)模型有了明顯的改善.

        基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)方法在蓬勃發(fā)展的同時(shí),也帶來(lái)了一些問(wèn)題.常見(jiàn)的顯著性目標(biāo)檢測(cè)方式是對(duì)像素進(jìn)行二值化的分割[22].而深度模型中一層又一層的下采樣之后,分辨率降低,全局信息豐富的同時(shí)削弱了細(xì)節(jié)信息.這使得深度模型預(yù)測(cè)出的顯著圖呈現(xiàn)出的邊緣非常模糊,有的形狀或狹長(zhǎng)或蜿蜒的顯著性目標(biāo)區(qū)域甚至?xí)虼吮宦z.于是淺層細(xì)節(jié)信息開(kāi)始被考慮進(jìn)來(lái),通過(guò)適宜的方式(比如U-Net[4])與深度特征進(jìn)行融合互補(bǔ),生成既具有細(xì)節(jié)又擁有完整結(jié)構(gòu)的顯著圖.除此之外,有的方法還使用了邊緣信息作為細(xì)節(jié)補(bǔ)充.充分利用淺層信息對(duì)顯著邊緣進(jìn)行明確的建模,加入邊緣特征提高模型對(duì)邊界區(qū)域的敏感度和關(guān)注度.在融合方式上,若使用簡(jiǎn)單直接的相加、通道級(jí)聯(lián)的方式,信息融合不充分,不僅沒(méi)有將各種信息的作用發(fā)揮到位,還白白增加了冗余的特征.所以,在融合方式的創(chuàng)新上,又涌現(xiàn)了一批優(yōu)秀的模型.

        當(dāng)各種補(bǔ)充信息被利用,融合方式達(dá)到了令人滿(mǎn)意的效果,龐大的參數(shù)量、計(jì)算量以及內(nèi)存消耗也隨之而來(lái).這顯然限制了顯著性目標(biāo)檢測(cè)作為其他計(jì)算機(jī)視覺(jué)任務(wù)中一環(huán)的發(fā)展應(yīng)用.VGG[5]、ResNet[6]等優(yōu)秀的骨干網(wǎng)絡(luò),雖然能夠充分提取出原始輸入中的特征,但是其規(guī)模高達(dá)幾十兆、上百兆,加上其他部分的參數(shù),一個(gè)模型常常有一百兆以上甚至幾百兆.因此,現(xiàn)有的很多優(yōu)秀的顯著性目標(biāo)檢測(cè)模型基本無(wú)法滿(mǎn)足在現(xiàn)實(shí)中生活中移動(dòng)終端等設(shè)備上的投入使用.

        如果對(duì)顯著性目標(biāo)檢測(cè)框架特征提取的部分引入輕量級(jí)神經(jīng)網(wǎng)絡(luò)MobileNet[7],能夠大大解放計(jì)算力,減少了小型設(shè)備中因?yàn)槟P瓦^(guò)大而導(dǎo)致的內(nèi)存限制,提升了訓(xùn)練速度和檢測(cè)速度.但是檢測(cè)精度也會(huì)隨之下降,邊界的清晰度也再次陷入了瓶頸.如何在保持模型輕量的條件下,盡量維持模型的檢測(cè)效果,是需要攻克的難點(diǎn).

        基于以上問(wèn)題,本文提出了一個(gè)基于多信息輔助的U型輕量級(jí)顯著性目標(biāo)檢測(cè)模型.該模型創(chuàng)新性地使用輕量級(jí)模型作為整體框架的骨干網(wǎng)絡(luò),并且使用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積.為了防止模型參數(shù)驟減引起的性能下降,本方法引入了顯著骨架特征和邊緣特征對(duì)骨干網(wǎng)絡(luò)提取出的特征進(jìn)行補(bǔ)充,分別提高模型對(duì)邊緣區(qū)域以及目標(biāo)中心區(qū)域的敏感度.利用下采樣平行融合模塊,將最深層的特征進(jìn)行不同感受野的融合交互,加強(qiáng)模型對(duì)圖像整體結(jié)構(gòu)的把握.

        本文貢獻(xiàn)如下:

        1)設(shè)計(jì)了MUN模塊(Multi-task U-shape Network),并以此作為解碼器的模塊單元.MUN模塊能夠幫助每一層級(jí)的特征和顯著邊緣特征、骨架特征進(jìn)行多尺度的融合交互,提升模型對(duì)于目標(biāo)邊緣和定位的感知能力.

        2)提出了DPM模塊(Downsampling Parallel Module),可以幫助網(wǎng)絡(luò)進(jìn)一步提取不同感受野的深層特征,遞進(jìn)地掌握?qǐng)D像的語(yǔ)義結(jié)構(gòu).

        3)在DPM和MUN模塊的基礎(chǔ)上,設(shè)計(jì)出了輕量級(jí)顯著性目標(biāo)檢測(cè)模型LMUNet(Lightweight Multi-task U-shaped Network).該模型在規(guī)模和性能之間達(dá)到了一個(gè)良好的平衡.

        4)在不同的數(shù)據(jù)集上做了大量實(shí)驗(yàn),不僅驗(yàn)證了所提出模塊的有效性,通過(guò)與其他模型的對(duì)比,也證明了LMUNet的優(yōu)越性.

        本文結(jié)構(gòu)安排如下:第2節(jié)介紹顯著性目標(biāo)檢測(cè)領(lǐng)域的研究現(xiàn)狀,第3節(jié)著重介紹LMUNet和所提出模塊,第4節(jié)描述所做的大量實(shí)驗(yàn),并展示和分析實(shí)驗(yàn)結(jié)果,第5節(jié)進(jìn)行全文總結(jié).

        2 研究現(xiàn)狀

        目前,顯著性目標(biāo)檢測(cè)領(lǐng)域內(nèi)主要有兩個(gè)問(wèn)題需要改善:1)邊緣區(qū)域預(yù)測(cè)容易出現(xiàn)模糊不準(zhǔn)確的情況;2)雖然深度神經(jīng)網(wǎng)絡(luò)可以提取到深度語(yǔ)義信息,但是當(dāng)前景背景較為相似時(shí),仍會(huì)出現(xiàn)目標(biāo)定位不準(zhǔn)確的情況.針對(duì)兩個(gè)問(wèn)題,Pang等人利用U型結(jié)構(gòu)構(gòu)建了MINet[8],來(lái)對(duì)深層特征和淺層特征進(jìn)行多層次多尺度的特征提取和特征融合.其中,聚合交互模塊可以通過(guò)相互學(xué)習(xí)有效地利用相鄰層的特征,而自交互模塊可以使網(wǎng)絡(luò)自適應(yīng)地從數(shù)據(jù)中提取多尺度信息,更好地處理尺度變化.除了結(jié)構(gòu)上的創(chuàng)新,還有部分模型引入了邊緣信息等幫助模型提高對(duì)邊緣區(qū)域的敏感性.比如,Zhao等人提出了EGNet模型[9],在網(wǎng)絡(luò)內(nèi)明確建立互補(bǔ)的顯著目標(biāo)信息和顯著邊緣信息,以保持顯著目標(biāo)邊界.同時(shí),突出的邊緣特征也有助于定位.通過(guò)讓這兩個(gè)互補(bǔ)的任務(wù)相互幫助,共同優(yōu)化了這兩個(gè)任務(wù)分支的表現(xiàn),從而對(duì)顯著圖進(jìn)行了明顯改善.

        多種信息的引入、融合方式的升級(jí),導(dǎo)致了模型結(jié)構(gòu)復(fù)雜、規(guī)模龐大,限制了顯著性目標(biāo)檢測(cè)在實(shí)際生活中的投入使用.于是,關(guān)于輕量級(jí)顯著性目標(biāo)檢測(cè)的模型研究開(kāi)始了.Liu等人提出了一種新的立體注意多尺度模塊,該模塊采用立體注意機(jī)制進(jìn)行有效的多尺度學(xué)習(xí).以此模塊為基本單元,提出了一種用于顯著性目標(biāo)檢測(cè)的輕量級(jí)編解碼器架構(gòu)SAMNet[10](Stereoscopically Attentive Multi-Scale Network).幾乎同時(shí),Liu等人還提出了HVPNet[11](Hierarchical Visual Perception Network),其主要構(gòu)成模塊為層次視覺(jué)感知模塊.該模塊的設(shè)計(jì)靈感來(lái)源于靈長(zhǎng)類(lèi)的視覺(jué)系統(tǒng),使用密集連接的結(jié)構(gòu)來(lái)模擬視覺(jué)層次結(jié)構(gòu),并使用空洞卷積來(lái)模擬多尺度視覺(jué)信號(hào)在具有不同群體感受野的不同皮層中受到的分層處理.這些模型在達(dá)到輕量級(jí)的同時(shí)還保持了不錯(cuò)的性能.

        3 LMUNet網(wǎng)絡(luò)模型

        3.1 總體結(jié)構(gòu)

        模型的主要框架分為解碼器部分和編碼器部分.編碼器部分主要是由一個(gè)骨干網(wǎng)絡(luò)和DPM模塊組成.骨干網(wǎng)絡(luò)用于從原始輸入進(jìn)行特征提取,這里使用的是MobileNet.當(dāng)然,此處可以被替代為任何一個(gè)輕量級(jí)的骨干網(wǎng)絡(luò).根據(jù)MobileNet中的輸出特征的大小,將其分成5個(gè)模塊.最接近輸入的模塊的輸出大小為112×112,輸出隨著模塊的加深逐級(jí)減小一倍,最后一個(gè)主干網(wǎng)絡(luò)模塊的輸出是7×7.其中,最淺層模塊的輸出和最深層模塊的輸出被共同送進(jìn)多任務(wù)特征提取模塊進(jìn)行骨架特征和邊緣特征的提取.如圖1右上角所示,4個(gè)3×3的卷積被用于生成顯著性的邊緣,然后用顯著性邊緣標(biāo)簽對(duì)其進(jìn)行監(jiān)督.顯著性邊緣標(biāo)簽由原始標(biāo)簽通過(guò)梯度計(jì)算得到.同樣地,顯著骨架圖也通過(guò)4個(gè)卷積層來(lái)獲取.經(jīng)過(guò)可行性分析,本文決定僅使用顯著性目標(biāo)的骨架進(jìn)行額外的信息補(bǔ)充.用于監(jiān)督骨架圖生成的標(biāo)簽由原始的二值化顯著標(biāo)簽得到.首先,對(duì)原始的顯著標(biāo)簽使用matlab中operation為“skel”的 bwmorph函數(shù),作用是移除顯著目標(biāo)的邊界,但是不允許目標(biāo)隔開(kāi),由此保留下來(lái)的像素就是顯著目標(biāo)的骨架.然后對(duì)得到的骨架進(jìn)行腐蝕操作和膨脹操作,平滑骨架標(biāo)簽.最終得到的骨架標(biāo)簽就可以對(duì)骨架特征分支進(jìn)行監(jiān)督.由于不需要特別精細(xì)的邊緣圖和骨架圖,也為了盡量減少模型的參數(shù),所以此處對(duì)邊緣特征和骨架特征的提取方式并沒(méi)有采用特別復(fù)雜的結(jié)構(gòu).

        骨干網(wǎng)絡(luò)的最后一個(gè)模塊的特征輸出,已經(jīng)是7×7大小的深層特征.從以往經(jīng)驗(yàn)看來(lái),7×7分辨率特征所具有的感受野仍然不能夠在前背景相似的情況下將顯著目標(biāo)準(zhǔn)確定位出來(lái),所以此處,使用DPM模塊進(jìn)行更進(jìn)一步的全局語(yǔ)義線(xiàn)索推理.

        解碼器部分由5個(gè)MUN模塊來(lái)進(jìn)行多任務(wù)特征融合以及分辨率還原.MUN的輸入除了上一級(jí)MUN模塊的輸出,還有骨干網(wǎng)絡(luò)中對(duì)應(yīng)尺度的側(cè)輸出以及來(lái)自多任務(wù)特征提取模塊的骨架特征和邊緣特征作為補(bǔ)充信息.注意圖1中,虛線(xiàn)表示對(duì)應(yīng)尺度的側(cè)輸出特征流,而實(shí)線(xiàn)表示其他特征流.其內(nèi)部結(jié)構(gòu)針對(duì)輸入的不同特點(diǎn)設(shè)計(jì)了一對(duì)一的融合方式,能夠在減少大跨度信息擾亂的同時(shí)將各種信息進(jìn)行妥善的過(guò)渡統(tǒng)一.MUN的輸出除了被送進(jìn)下一個(gè)MUN模塊,還會(huì)通過(guò)一個(gè)的卷積層側(cè)輸出一個(gè)顯著圖,由原始顯著標(biāo)簽進(jìn)行監(jiān)督.由于最底層的尺度過(guò)小,生成的顯著圖經(jīng)過(guò)線(xiàn)性插值還原分辨率之后,非常模糊,并且誤差會(huì)很大.對(duì)此顯著圖進(jìn)行監(jiān)督的話(huà),不僅不能正確清晰的幫助模型掌握目標(biāo)定位,反而會(huì)帶來(lái)擾亂.所以參與監(jiān)督的實(shí)際上只有4個(gè)中間預(yù)測(cè)顯著圖,并且四個(gè)顯著圖損失的權(quán)重依據(jù)分辨率從高到低的順序依次削減.整個(gè)模型框架的最終輸出是由4個(gè)中間預(yù)測(cè)圖通道級(jí)聯(lián)再壓縮得到的單通道顯著圖.

        上述結(jié)構(gòu)看起來(lái)并不簡(jiǎn)單,模型參數(shù)量卻只有2.70M,是因?yàn)樵谡w的結(jié)構(gòu)上使用了一些輕量級(jí)的設(shè)計(jì).前文中提到的所有卷積操作,使用的都是深度可分離卷積.深度可分離卷積大大減少了參數(shù)量,但是卻幾乎維持了標(biāo)準(zhǔn)卷積的效果,非常適合輕量級(jí)模型.除了卷積,本文還將解碼器部分的通道數(shù)都通過(guò)3×3的深度可分離卷積壓縮到64,這樣有利于與補(bǔ)充信息進(jìn)行融合,相較于使用128通道的模型也大大降低了整體規(guī)模.值得注意的是,MUN模塊的設(shè)計(jì)雖然和整體框架形成一個(gè)嵌套式的U型結(jié)構(gòu),但是由于大部分操作是在多重下采樣之后的特征上進(jìn)行的,所以并沒(méi)有帶來(lái)大量的參數(shù)增加,在相對(duì)小的代價(jià)下,獲得了相對(duì)豐富的多尺度特征.

        3.2 多信息輔助U型模塊

        U型網(wǎng)絡(luò)的優(yōu)越性在于其深淺層信息的融合效力能夠在特征被逐漸稀釋的同時(shí),為對(duì)應(yīng)尺寸的解碼層輸送包含相對(duì)豐富細(xì)節(jié)的特征補(bǔ)充.但是,嵌套式的U型結(jié)構(gòu)會(huì)導(dǎo)致參數(shù)規(guī)模指數(shù)級(jí)擴(kuò)大,這就違背了最初的創(chuàng)新動(dòng)機(jī).為了能夠發(fā)揮U型結(jié)構(gòu)的特長(zhǎng),同時(shí)又能夠盡最大可能減少參數(shù)量的增長(zhǎng),本文重新設(shè)計(jì)了一個(gè)U型的多尺度多任務(wù)特征提取模塊.如圖2左邊部分所示,模塊的主要組成部分是深度可分離卷積.深度可分離卷積主要分成兩個(gè)部分,首先是對(duì)輸入的圖像進(jìn)行分通道的卷積操作,每個(gè)通道對(duì)應(yīng)一個(gè)卷積核.在針對(duì)通道的卷積操作之后,跟著一層BN層以及一層ReLU層進(jìn)行歸一化和激活.第2個(gè)部分針對(duì)像素進(jìn)行的1×1卷積,這一步幾乎等同于傳統(tǒng)的1×1卷積,但是由于卷積核面積較小(面積為1),所以也沒(méi)有帶來(lái)很多額外的計(jì)算量.同樣地,在這層卷積層之后,也跟隨著B(niǎo)N層和ReLU層進(jìn)行進(jìn)一步的處理.編碼器部分仍是通過(guò)一步步的下采樣操作來(lái)獲得更具全局視角的深層特征,解碼器部分通過(guò)上采樣操作來(lái)還原分辨率.每個(gè)MUN模塊的輸入和輸出大小相同,通道數(shù)也被統(tǒng)一為64.

        圖2 不同版本MUN模塊結(jié)構(gòu)對(duì)比Fig.2 Comparison of different versions of MUN

        MUN模塊融合的信息種類(lèi)包括邊緣特征和骨架特征.這兩種補(bǔ)充信息的特點(diǎn)各不相同,邊緣特征富含細(xì)節(jié),需要有較大的分辨率來(lái)承載;骨架信息偏向于結(jié)構(gòu)化,其生成較偏重于深度信息,比較粗糙.圖2左半部分所展示的第1種融合方式中,MUN將短連接從解碼器傳送過(guò)來(lái)的信息和骨架信息、邊緣信息在MUN模塊入口處就進(jìn)行融合卷積.這種無(wú)差別對(duì)待的方式?jīng)]有考慮到兩種補(bǔ)充信息的特點(diǎn).根據(jù)以往經(jīng)驗(yàn)認(rèn)為,骨架特征具有的語(yǔ)義線(xiàn)索更多,相對(duì)較深層的信息也是具有較多的語(yǔ)義信息,這兩種特征的分布可能更為相近,且特點(diǎn)相似跨度較小.所以設(shè)計(jì)了圖2右半部分的融合方式,在模塊入口僅將邊緣特征下采樣到與骨干網(wǎng)絡(luò)的側(cè)輸出特征相同大小,然后使用像素對(duì)齊相加的方式將該兩種特征和上一MUN模塊的輸出特征融合成一個(gè)新的64通道特征.經(jīng)過(guò)2~3次深度可分離卷積之后,將骨架特征加入.此時(shí),MUN已經(jīng)逐漸加深,得到的特征也開(kāi)始具有結(jié)構(gòu)性.加入的方式依舊使用像素對(duì)齊相加.在實(shí)驗(yàn)部分,對(duì)兩種模塊的表現(xiàn)進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果表明第2版本的融合方式更加能夠適應(yīng)不同特征的不同特點(diǎn).最終選用第2種融合方式作為最終網(wǎng)絡(luò)的解碼器模塊.

        3.3 下采樣平行模塊

        在骨干網(wǎng)絡(luò)中,特征的分辨率逐漸被下采樣操作減小,其中蘊(yùn)含的信息也從豐富的細(xì)節(jié)信息轉(zhuǎn)換成了深度語(yǔ)義信息.如果將最淺層的特征和最深層的特征相融合形成新的特征,由于兩種特征的分布差距過(guò)大,這種不一致性會(huì)導(dǎo)致融合效果下降.所以為了避免這種特征間跨度過(guò)大引起的融合失敗,DPM模塊采用了相鄰特征平行融合的方式.

        如圖3所示,DPM模塊對(duì)輸入特征進(jìn)行了不同的操作,生成了3個(gè)分支.首先,對(duì)輸入分別做一次深度可分離卷積和空洞率為2的空洞卷積,這就形成了3個(gè)分支中的兩個(gè).兩個(gè)分支擁有不同的感受野,但由于空洞率僅為2,所以特征分布仍較為接近.然后再對(duì)輸入做下采樣,以獲得更具全局視野的特征,并對(duì)該特征進(jìn)行一次卷積,形成了第3個(gè)分支.相鄰分支特征分別進(jìn)行點(diǎn)對(duì)點(diǎn)相乘,用于增強(qiáng)兩個(gè)相鄰特征中都檢測(cè)為顯著性的部分,削弱有任何一方認(rèn)為是非顯著區(qū)域的部分,并將該特征作為補(bǔ)充信息,加入第1階段的特征融合.第1階段的特征融合將相鄰分支特征相加,并加入該兩個(gè)特征的對(duì)齊相乘進(jìn)行局部修正.至此,3個(gè)分支融合成了兩個(gè)分支,分別對(duì)其進(jìn)行一次卷積操作.第2階段的融合將兩個(gè)分支的特征進(jìn)行相加,再進(jìn)行一次卷積操作.最終得到的特征作為DPM模塊的最終輸出,參與解碼器中的分辨率還原.

        圖3 DPM模塊結(jié)構(gòu)Fig.3 Structure of DPM

        3.4 損失函數(shù)

        LMUNet網(wǎng)絡(luò)總共涉及到需要監(jiān)督的有7處,其中,一處是邊緣特征提取部分,需要對(duì)顯著邊緣圖進(jìn)行監(jiān)督,還有一處是骨架特征提取部分,也需要生成一個(gè)對(duì)應(yīng)的顯著骨架標(biāo)簽來(lái)幫助建模.其余5處是作為網(wǎng)絡(luò)最終輸出的綜合顯著圖和解碼器4個(gè)MUN模塊的側(cè)輸出,這4個(gè)側(cè)輸出經(jīng)過(guò)線(xiàn)性插值和顯著標(biāo)簽進(jìn)行尺寸對(duì)齊,由原始顯著標(biāo)簽進(jìn)行監(jiān)督.在本章節(jié)中出現(xiàn)的模型皆是在數(shù)據(jù)集DUTS的訓(xùn)練集上進(jìn)行的.該數(shù)據(jù)集提供顯著標(biāo)簽,但是不提供顯著邊緣標(biāo)簽和骨架標(biāo)簽.為了減少擾亂,僅使用顯著性目標(biāo)的邊緣作為邊緣標(biāo)簽.出于同樣的考慮,骨架也僅使用顯著性目標(biāo)的骨架.顯著性骨架標(biāo)簽基于原顯著標(biāo)簽,將顯著性目標(biāo)的外圈像素逐漸腐蝕,但是必須保證連通的像素區(qū)域不增加,不改變圖像歐拉數(shù).由此得到的骨架圖會(huì)因?yàn)橛行┻吘売行╀J利而生成多余的骨架分支,不符合人類(lèi)視覺(jué)機(jī)制對(duì)于目標(biāo)骨架的定義.于是,在此基礎(chǔ)上,也如同在文獻(xiàn)[12]中的做法,對(duì)顯著骨架標(biāo)簽通過(guò)腐蝕和膨脹函數(shù)進(jìn)行平滑處理.最終效果圖如圖4第4列所示,其中第3列是基于顯著標(biāo)簽得到的顯著邊緣標(biāo)簽.

        圖4 顯著邊緣標(biāo)簽(第3列)和骨架標(biāo)簽(第4列)Fig.4 Salient edge ground truth and skeleton ground truth

        同文獻(xiàn)[13]使用的邊緣函數(shù)損失函數(shù)類(lèi)似,使用的是針對(duì)邊界的Edge Loss:

        (1)

        en代表是的顯著邊緣預(yù)測(cè)圖中的像素值.W代表的是整個(gè)模型的參數(shù).logPr(en=0|W)代表的是像素值en被計(jì)算為1的顯著性像素的概率.E+表示的是顯著性像素集合,E-表示非顯著性像素集合.顯著圖的監(jiān)督還使用了常用的二值交叉熵?fù)p失(BCE Loss:Binary Cross Entropy Loss)和交并集之比損失(IoU Loss:Intersection over Union Loss).此處骨架的損失函數(shù)也參考了文獻(xiàn)[12],使用二值交叉熵?fù)p失.該損失函數(shù)可以被寫(xiě)成:

        SkeletonLoss=-w(i,j)(p(i,j)log g(i,j)+(1-p(i,j))log(1-g(i,j)))

        (2)

        其中,w(i,j)是每個(gè)像素點(diǎn)的權(quán)重,默認(rèn)是1.和p(i,j)和g(i,j)分別是位置(i,j)處的預(yù)測(cè)值和真值,即Ground Truth中對(duì)應(yīng)的值.整體損失函數(shù)的公式為:

        (3)

        4 實(shí) 驗(yàn)

        4.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

        模型的訓(xùn)練過(guò)程使用的是DUTS-TR,該訓(xùn)練數(shù)據(jù)集包含了10553張圖片.使用的優(yōu)化算法是隨機(jī)梯度下降法,初始學(xué)習(xí)率為1e-2,沖量設(shè)置為0.9,權(quán)重衰減設(shè)置為5e-4,batchsize為16.由于MobileNet的參數(shù)已經(jīng)經(jīng)歷過(guò)預(yù)訓(xùn)練,而其他部分的參數(shù)是經(jīng)過(guò)隨機(jī)初始化方法進(jìn)行初始化的.所以在訓(xùn)練過(guò)程中,對(duì)骨干網(wǎng)絡(luò)的參數(shù)和其他模塊的參數(shù)使用不同的學(xué)習(xí)率以適應(yīng)處于不同調(diào)整階段的迭代.具體實(shí)現(xiàn)上,對(duì)骨干網(wǎng)絡(luò)部分使用的學(xué)習(xí)率是其他部分的十分之一.訓(xùn)練完成之后,分別在5個(gè)數(shù)據(jù)集上進(jìn)行了多項(xiàng)評(píng)估和比較.這5個(gè)數(shù)據(jù)集分別為,包含5019張圖像的DUTS-TE數(shù)據(jù)集[14]、包含1000張圖像的ECSSD數(shù)據(jù)集[15]、包含850張圖像的PASCAL-S數(shù)據(jù)集[16]以及包含4447張圖像的HKU-IS數(shù)據(jù)集[17].關(guān)于模型的評(píng)估,使用了4個(gè)評(píng)估指標(biāo)從不同的角度去檢驗(yàn)?zāi)P蛢?yōu)劣,分別是平均F值(mF:mean F-measure)[18]、平均絕對(duì)誤差(MAE:mean absolute error)[19],結(jié)構(gòu)度量值(Sm:structure-measure)[20]以及增強(qiáng)匹配指標(biāo)(Em:enhanced-alignment measure)[21].

        4.2 消融實(shí)驗(yàn)

        在本節(jié)中,將對(duì)前面提出的模塊進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證所作出創(chuàng)新點(diǎn)的有效性.

        4.2.1 多任務(wù)U型網(wǎng)絡(luò)模塊

        MUN的設(shè)計(jì)目的是為了將顯著邊緣特征和骨架特征融合進(jìn)解碼過(guò)程,對(duì)在編碼器中被稀釋的特征進(jìn)行補(bǔ)充和修正.如表1所示,隨著MUN的信息逐漸豐富,模型的整體性能也逐步提升.UN是單純的U型網(wǎng)絡(luò),僅對(duì)編碼器和上一個(gè)UN模塊的輸出做提取融合,但是由于在結(jié)構(gòu)上對(duì)單層特征進(jìn)行了多尺度的提取和交互,所以也展現(xiàn)出了不錯(cuò)的效果.是在UN的基礎(chǔ)上,融合了邊緣特征.邊緣特征加入后,在DUTS-TE數(shù)據(jù)集上,mF提高了4.1%,MAE降低了1.3%.這說(shuō)明邊緣信息的補(bǔ)充起到了相當(dāng)?shù)木植績(jī)?yōu)化作用,并且設(shè)計(jì)的U型模型能夠正確地將邊緣信息融入,發(fā)揮其作用.同時(shí),能夠反映結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性的Sm和Em分別提高了1.3%和3.3%.整體來(lái)看,邊緣特征不僅幫助了邊緣局部區(qū)域的預(yù)測(cè),還對(duì)整體結(jié)構(gòu)預(yù)測(cè)有改善.要注意的是MUN1和MUN2結(jié)構(gòu)的不同,對(duì)邊緣和骨架的融合方式區(qū)別在MUN的編碼器中加入骨架Skeleton的時(shí)機(jī),圖2展示了這兩種結(jié)構(gòu)的具體區(qū)別.可以看到,當(dāng)無(wú)差別地對(duì)待邊緣特征和骨架特征,由于加入了輔助信息,性能還是有一定的提升.但是提升幅度遜于MUN2,這是因?yàn)闆](méi)有考慮兩者的區(qū)別,用同一種方式融入兩種信息,導(dǎo)致骨架特征給淺層特征帶來(lái)了一定的噪聲和擾亂,從而影響模型的判斷.由實(shí)驗(yàn)數(shù)據(jù)可以看出,MUN2由于考慮了不同特征分布的差距,將骨架特征的加入時(shí)機(jī)安排在較深層,所以在性能上表現(xiàn)更為優(yōu)秀.MUN2較MUN1在mF上提升了1%,MAE降低了0.6%,而Sm和Em分別提高了1.4%和0.9%.而加上skeleton的MUN2方式相比只加edge的方法,整體評(píng)價(jià)指標(biāo)也有提高,這不僅說(shuō)明skeleton的加入對(duì)模型有輔助作用,而且MUN2的融合方式也是有效的.最終的對(duì)比實(shí)驗(yàn)中使用的是MUN2版本.

        表1 基于DUTS-TE數(shù)據(jù)集的MUN不同版本模塊消融對(duì)比Table 1 Comparison between different versions of MUN module on DUTS-TE

        4.2.2 各模塊消融實(shí)驗(yàn)

        根據(jù)表1的結(jié)果確定使用MUN2作為解碼器的主要組成模塊,表2中展示了MUN2模塊和DPM模塊被逐漸加上之后模型的表現(xiàn).Base模型是僅使用UN模塊作為解碼器組成、MobileNet作為編碼器的模型.MUN2模塊被加入之后,在圖像局部預(yù)測(cè)與整體結(jié)構(gòu)預(yù)測(cè)上都有了很大的提升.DPM被加入后,在兩個(gè)數(shù)據(jù)集的各個(gè)指標(biāo)上也都有進(jìn)步,足以說(shuō)明DPM的有效性.提升效果不如MUN2明顯,猜測(cè)是因?yàn)槭褂玫氖禽p量級(jí)網(wǎng)絡(luò)MobileNet作為骨干網(wǎng)絡(luò)去進(jìn)行深度特征的提取,由于體量較輕,在最深層的時(shí)候可能提取到的深度信息沒(méi)有其他非輕量級(jí)網(wǎng)絡(luò)那么豐富.而DPM的進(jìn)一步提取恰好建立在第5個(gè)最深的模塊輸出上.若后續(xù)有一些更優(yōu)秀的輕量級(jí)模型被提出,可以靈活地應(yīng)用在LMUN網(wǎng)絡(luò)框架中,或許可以進(jìn)一步發(fā)揮出DPM的優(yōu)勢(shì).整體看來(lái),網(wǎng)絡(luò)本身的結(jié)構(gòu)設(shè)計(jì)是高效的,MUN2模塊和DPM模塊的加入對(duì)模型的性能提升都有進(jìn)一步的貢獻(xiàn).

        表2 基于DUTS-TE數(shù)據(jù)集的各模塊消融對(duì)比Table 2 Ablation comparison of each module on DUTS-TE

        4.3 對(duì)比實(shí)驗(yàn)

        4.3.1 數(shù)據(jù)對(duì)比

        為了驗(yàn)證LMUNet的優(yōu)越性,本節(jié)中做了大量的對(duì)比實(shí)驗(yàn).為了體現(xiàn)對(duì)比的公平性,所有的評(píng)估結(jié)果均來(lái)源于各個(gè)模型論文中所提供的各大數(shù)據(jù)集上的顯著圖,并且使用同一套評(píng)估代碼.進(jìn)行對(duì)比的SOTA(State of the Art)模型一共有9個(gè).其中,非輕量級(jí)模型有7個(gè),包括R3Net[23],PoolNet[24],EGNet[9],MINet[8],LDF[25],F3Net[26]和GCPANet[27].由于輕量級(jí)顯著性目標(biāo)檢測(cè)的研究目前還比較少,所以用于輕量級(jí)模型對(duì)比的網(wǎng)絡(luò)只有兩個(gè),即SAMNet[10]和HVPNet[11].

        表3中展示了LMUNet與其他兩個(gè)輕量級(jí)網(wǎng)絡(luò)在DUTS-TE測(cè)試數(shù)據(jù)集上的計(jì)算時(shí)間對(duì)比.采用的單位為每秒幀率(FPS:Frame Per Second).可以看出雖然LMUNet雖然規(guī)模略大于HVPNet和SAMNet,但是在檢測(cè)速度上明顯超越了兩者.

        表3 LMUNet與其它輕量級(jí)模型的速度對(duì)比Table 3 Speed comparison between LMUNet and other lightweight SOD models

        關(guān)于模型精度的對(duì)比在表4中給出,第2列展示了各個(gè)模型的參數(shù)量,單位為M.表4中結(jié)果顯示,本文所提出了方法在精度上已經(jīng)能夠超越大部分非輕量級(jí)模型,但是整體效果仍略遜于F3Net和LDF,但是LMUNet的模型參數(shù)量只有兩者的近十分之一.對(duì)比HVPNet,本文提出的模型在各個(gè)數(shù)據(jù)集上平均關(guān)于mF超過(guò)了4.98%,關(guān)于MAE下降了1.75%,而Sm和Em平均提升了2.38%和2.45%.雖然LMUNet的參數(shù)量為2.70M,略高于另外兩個(gè)輕量級(jí)模型,但是也滿(mǎn)足輕量級(jí)的要求,能夠很好地應(yīng)用在實(shí)際場(chǎng)景中.以上足以證明本文所提出模型在各個(gè)數(shù)據(jù)集上都達(dá)到了最優(yōu)的性能.

        表4 提出模型與9種模型在DUTS-TE、ECSSD、PASCAL-S和HKU-IS數(shù)據(jù)集上的對(duì)比Table 4 Comparison between LMUNet and other SOTA models

        4.3.2 可視化對(duì)比

        圖5中展示了LMUNet和一些SOTA模型的可視化結(jié)果對(duì)比.圖5中第1列是原圖,第2列是真值標(biāo)簽.第3、4列是兩個(gè)輕量級(jí)模型SAMNet、HVPNet,最后一列是本文所提出的模型.其他是一些非輕量級(jí)模型.對(duì)比第1、3兩行,LMUNet的顯著圖相較其他輕量級(jí)模型更為清晰、準(zhǔn)確,在大量縮減參數(shù)的同時(shí),還能達(dá)到和其他非輕量級(jí)模型不相上下的預(yù)測(cè)水平.對(duì)比其他4列,本文所提出模型在人類(lèi)視覺(jué)系統(tǒng)的評(píng)判標(biāo)準(zhǔn)下不僅超越了其他輕量級(jí)模型,甚至優(yōu)于一些非輕量級(jí)模型.綜上所述,LMUNet在邊緣區(qū)域和整體目標(biāo)定位上都表現(xiàn)出了優(yōu)越的性能.

        圖5 所提出模型與其他優(yōu)秀模型的可視化結(jié)果對(duì)比Fig.5 Visualized comparison of the LMUNet and other SOTA models

        5 總 結(jié)

        本文提出了一種基于多任務(wù)信息補(bǔ)充的輕量級(jí)嵌套U型顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò),簡(jiǎn)稱(chēng)LMUNet.顯著性目標(biāo)檢測(cè)作為一項(xiàng)涉及多種計(jì)算機(jī)視覺(jué)任務(wù)的研究,其速度和精度都需要達(dá)到較高水準(zhǔn).但是目前領(lǐng)域內(nèi)幾乎很少有輕量級(jí)模型的出現(xiàn),龐大的參數(shù)規(guī)模限制了顯著性目標(biāo)檢測(cè)在移動(dòng)設(shè)備上的應(yīng)用,也阻礙了和其他視覺(jué)任務(wù)的結(jié)合使用.所以L(fǎng)MUNet借鑒了目標(biāo)檢測(cè)輕量級(jí)網(wǎng)絡(luò)MobileNet的部分結(jié)構(gòu)作為骨干網(wǎng)絡(luò),同時(shí)使用深度可分離卷積代替普通卷積,減少參數(shù)量.為了防止輕量化后的模型表現(xiàn)嚴(yán)重下降,分別設(shè)計(jì)了MUN模塊和DPM模塊.MUN模塊利用邊緣特征對(duì)模塊內(nèi)的淺層特征作細(xì)節(jié)補(bǔ)充和邊緣區(qū)域強(qiáng)調(diào),利用骨架特征對(duì)圖像特征的結(jié)構(gòu)進(jìn)行進(jìn)一步的強(qiáng)化和修正.DPM模塊中通過(guò)下采樣操作和空洞卷積操作獲得了不同感受野和全局性的特征,主要作用是為了對(duì)模型進(jìn)行結(jié)構(gòu)信息補(bǔ)充,改善目標(biāo)定位.考慮到尺度相差過(guò)大的特征無(wú)法相互適應(yīng)融合,DPM中使用平行結(jié)構(gòu)進(jìn)行相鄰融合,逐漸將多個(gè)特征集成為一個(gè)特征.本文提出的方法在4個(gè)常用數(shù)據(jù)集上都獲得了不錯(cuò)的性能,在模型大小和精度之間達(dá)到了進(jìn)一步的平衡,與其他優(yōu)秀模型的對(duì)比闡述了本模型的有效性及優(yōu)越性.

        猜你喜歡
        骨架邊緣卷積
        電子樂(lè)園·上旬刊(2022年5期)2022-04-09 22:18:32
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        一張圖看懂邊緣計(jì)算
        內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
        鐵骨架配合物凝膠的合成、表征及催化性能
        在邊緣尋找自我
        雕塑(1999年2期)1999-06-28 05:01:42
        人妻夜夜爽天天爽三区| 亚洲av熟女天堂久久天堂| 在线天堂av一区二区| 67194熟妇人妻欧美日韩| 亚洲久热无码av中文字幕| 亚洲熟妇av日韩熟妇av| 各类熟女熟妇激情自拍| 久久久久亚洲av片无码| 久久亚洲精品ab无码播放| 欧美精品一本久久男人的天堂| 日本女优一区二区在线免费观看| 久久综合久中文字幕青草| 成人国产一区二区三区| 免费人成再在线观看视频| 免费无遮挡无码视频在线观看| 无码伊人久久大香线蕉| 亚洲av色在线播放一区| 亚洲欧美一区二区成人片| 少妇厨房愉情理伦片bd在线观看 | 国产三级在线观看完整版| 97午夜理论片在线影院| 红杏性无码免费专区| 亚洲在线精品一区二区三区| 亚洲综合色婷婷七月丁香| 亚洲综合一区二区三区四区五区| 日韩精人妻无码一区二区三区 | 日韩久久一级毛片| 日本无吗一区二区视频| 国产精品妇女一区二区三区| 伊人久久大香线蕉av一区| 国产精品久久中文字幕第一页| 一区二区中文字幕蜜桃| 久久婷婷五月综合色奶水99啪| 久久久亚洲欧洲日产国码αv| 天天干成人网| 中文字幕日本女优在线观看| 国产自产二区三区精品| 亚洲老妈激情一区二区三区| 日韩在线精品在线观看 | 亚洲国产中文字幕精品| 看黄a大片日本真人视频直播|