作者簡(jiǎn)介:鄭劍(1977-),男,湖北黃岡人,副教授,碩導(dǎo),博士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、大數(shù)據(jù)隱私保護(hù);沈士濤(1998-),男,浙江嘉興人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué);于祥春(1989-),男(通信作者),山東泰安人,講師,博士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)(yuxc@jxust.edu.cn);龐慶威(1998-),男,山東濟(jì)寧人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué);吳宗錝(1998-),男,河南南陽(yáng)人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué).
摘 要:局部特征信息在圖像分割中扮演著重要角色,然而基于文本的實(shí)例分割任務(wù)具有對(duì)輸入文本表達(dá)式的依賴(lài)性,無(wú)法直接從原始的輸入圖像中提取局部特征信息。針對(duì)這一問(wèn)題,提出了一種具體的名詞引導(dǎo)局部特征提取的深度神經(jīng)網(wǎng)絡(luò)模型(NgLFNet),NgLFNet模型可根據(jù)輸入文本表達(dá)式中的關(guān)鍵名詞來(lái)自動(dòng)挖掘待分割對(duì)象的局部特征信息。具體地,該模型首先通過(guò)語(yǔ)句分析得到關(guān)鍵名詞;其次通過(guò)文本和圖像編碼器提取相應(yīng)特征,并利用關(guān)鍵名詞通過(guò)多頭注意力機(jī)制獲取高關(guān)注區(qū)域局部特征;然后逐步融合多模態(tài)特征;最后在解碼修正模塊利用得到的局部特征對(duì)預(yù)測(cè)掩膜進(jìn)行更細(xì)致的修正,從而得到最終結(jié)果。將該方法與多種主流基于文本的實(shí)例分割方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明該方法提升了分割效果。
關(guān)鍵詞:圖像處理;深度學(xué)習(xí);基于文本的實(shí)例分割;多模態(tài)特征;特征融合;注意力機(jī)制
中圖分類(lèi)號(hào):TP391.41;TP183 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2023)04-049-1263-05
doi:10.19734/j.issn.1001-3695.2022.07.0389
Abstract:Local feature information plays an important role in image segmentation,however,the referring image segmentation task is dependent on the text expression,so it is impossible to extract local feature information directly from the original refe-rence image.In order to solve this problem,this paper proposed a specific noun-guided local feature extraction deep neural network model(NgLFNet).The NgLFNet model can automatically mine the local feature information of the object to be segmented according to the key nouns in the input text expression.Specifically,the model firstly obtained key nouns in text through sentence analysis.Secondly,extracting corresponding features through text and image encoders,and using the key nouns to obtain local features of high-interest regions through the multi-head attention mechanism.Then the multi-modal features were gradually fused to learn.Finally,the decoding and correction module used the obtained local features to perform more detailed corrections on the prediction mask to obtain the final result.The proposed method is compared with a variety of mainstream referring segmentation methods and the experimental results show that the proposed method improves the accuracy of text-based instance segmentation task.
Key words:image processing;deep learning;referring image segmentation;multimodal features;feature fusion;attention mechanism
0 引言
基于文本的實(shí)例分割[1,2]被認(rèn)為是一種最具挑戰(zhàn)性的多模態(tài)實(shí)例分割任務(wù)。通常情況下,針對(duì)一幅固定的輸入圖像,可以提供不同的輸入文本表達(dá)式;而基于文本的實(shí)例分割則需要根據(jù)不同的表達(dá)式分割得到對(duì)應(yīng)的掩膜。例如,輸入語(yǔ)句“圖片左邊戴著黑色帽子正在玩手機(jī)的人”時(shí),不僅要區(qū)分出“人”實(shí)例(可能不止一個(gè)),還要根據(jù)該語(yǔ)言的限定詞在所有的“人”實(shí)例中找到最匹配的實(shí)例對(duì)象。
基于文本的實(shí)例分割起初是由Hu等人[3]從語(yǔ)義分割任務(wù)拓展而來(lái),這項(xiàng)任務(wù)需要通過(guò)文本信息的引導(dǎo)來(lái)確定像素點(diǎn)的語(yǔ)義類(lèi)別標(biāo)簽,該過(guò)程需要精確匹配文本語(yǔ)言和視覺(jué)圖像之間的關(guān)聯(lián)。Hu等人在拓展研究的同時(shí)也提出了CNN-LSTM框架來(lái)解決這一任務(wù)。此后,Liu等人[4]為圖像特征融入了空間信息,使模型能更好地感知文本表達(dá)式中的空間關(guān)系,該策略取得了優(yōu)異表現(xiàn)并被后續(xù)研究者廣泛采納。近些年來(lái)關(guān)于基于文本的實(shí)例分割模型研究的改進(jìn)點(diǎn)可以歸納為兩種策略。第一種是設(shè)計(jì)新的融合策略來(lái)更好地整合視覺(jué)特征和文本特征,例如:文獻(xiàn)[5,6]利用視覺(jué)編碼器得到多尺度特征以獲得更多的視覺(jué)信息;文獻(xiàn)[7,8]則又在它們的基礎(chǔ)上加入注意力機(jī)制來(lái)獲取融合特征內(nèi)部的關(guān)系和更多特征細(xì)節(jié)。上述研究都很好地促進(jìn)了模態(tài)間的融合,卻沒(méi)有常見(jiàn)于圖像處理中的局部特征參與融合。第二種策略是從文本理解角度出發(fā),探索文本表達(dá)式中所蘊(yùn)涵的潛在語(yǔ)義信息。Shi等人[9]提出的關(guān)鍵詞感知網(wǎng)絡(luò)KWAN(key-word-aware network)從每個(gè)圖像區(qū)域提取關(guān)鍵詞;Yu等人[10]提出模塊化注意力網(wǎng)絡(luò)MAttNet(mo-dular attention network)為每個(gè)單詞分配注意力權(quán)重以尋找文本表達(dá)式關(guān)鍵詞;Ding等人[11]認(rèn)為應(yīng)從多種角度理解文本表達(dá)式,由此提出VLT(vision-language transformer)模型;Yang等人[12]則提出自底向上推理模塊BUS(bottom-up shift),根據(jù)表達(dá)式的句法關(guān)系逐步推理得到目標(biāo)物體。上述研究對(duì)局部文本的特征進(jìn)行了提取卻沒(méi)有局部圖像特征直接提取的先例。
分析基于文本的實(shí)例分割任務(wù)的原理可知,獲取兩種模態(tài)中更多的關(guān)聯(lián)性線(xiàn)索(如空間關(guān)系、外觀屬性等細(xì)節(jié)信息)能夠提高任務(wù)的分割精度,圖像的局部特征中則蘊(yùn)涵了上述信息。然而,前文所述的研究中存在利用注意力關(guān)注局部區(qū)域的研究,卻并未出現(xiàn)將局部特征進(jìn)行直接提取的案例。通過(guò)研究分析可知,這種現(xiàn)狀是由基于文本的實(shí)例分割本身的固有特點(diǎn)所導(dǎo)致的。基于文本的實(shí)例分割需要根據(jù)文本表達(dá)式中所描述的目標(biāo)物體作為分割對(duì)象,從而導(dǎo)致輸入圖像本身無(wú)法遵循固定規(guī)律使用常規(guī)方法來(lái)提取局部特征。
針對(duì)上述問(wèn)題,經(jīng)過(guò)對(duì)第二種改進(jìn)策略進(jìn)行分析后發(fā)現(xiàn),從文本理解角度出發(fā),探索文本表達(dá)式中語(yǔ)義信息和輸入圖像中待分割對(duì)象之間的匹配關(guān)系,這種關(guān)聯(lián)性可以為局部特征的提取提供引導(dǎo)線(xiàn)索。因此,本文提出了一種關(guān)鍵名詞引導(dǎo)局部特征提取的基于文本的實(shí)例分割方法,并獲得了令人滿(mǎn)意的表現(xiàn)效果,該方法通過(guò)關(guān)鍵名詞提取模塊獲得文本表達(dá)式中的關(guān)鍵名詞,然后結(jié)合注意力機(jī)制獲得高關(guān)注度的局部特征,與原有的視覺(jué)和文本特征相融合,為后續(xù)模塊提供了局部信息;利用局部特征設(shè)計(jì)了一個(gè)細(xì)化掩膜的解碼修正模塊,通過(guò)該模塊獲得更加精準(zhǔn)的掩膜,并通過(guò)實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。
1 NgLFNet模型
針對(duì)如何提升基于文本的實(shí)例分割任務(wù)精度,本文以VLT[11]為基準(zhǔn)模型,在該模型的基礎(chǔ)上進(jìn)行改進(jìn),提出了一種具體的關(guān)鍵名詞引導(dǎo)局部特征提取的深度神經(jīng)網(wǎng)絡(luò)模型(NgLFNet)。
NgLFNet模型總體網(wǎng)絡(luò)架構(gòu)如圖1所示。模型首先通過(guò)關(guān)鍵名詞提取模塊獲得輸入文本表達(dá)式中的關(guān)鍵名詞Tnn,然后利用局部特征提取模塊獲取高關(guān)注度區(qū)域的特征作為局部特征Fl,最后融入原有的文本和全局視覺(jué)特征的融合特征Fm以提供更多的細(xì)節(jié)。另外,為提高掩膜質(zhì)量,本文修改了基礎(chǔ)解碼器模塊,并設(shè)計(jì)了解碼修正模塊,加入注意力機(jī)制利用局部特征和淺層視覺(jué)特征逐步修正掩膜邊緣結(jié)果,以?xún)?yōu)化最終的結(jié)果。
1.2 名詞提取及局部特征生成
相比于全局特征,局部特征擁有更多的細(xì)節(jié),因此融合局部特征將有效地提升模型的性能。但是,對(duì)輸入圖像進(jìn)行分割具有輸入文本表達(dá)式依賴(lài)性,即輸入文本表達(dá)式的不同,基于文本的實(shí)例分割的標(biāo)簽預(yù)測(cè)也隨著發(fā)生改變。同時(shí),輸入圖像所包含的目標(biāo)對(duì)象本身沒(méi)有規(guī)律可循,因此無(wú)法采用如人臉圖像識(shí)別任務(wù)中的切片、關(guān)鍵點(diǎn)分割等方法直接從原始圖像提取局部特征。然而,Yang等人[12]根據(jù)輸入文本表達(dá)式的語(yǔ)法從下往上利用名詞定位物體,利用物體之間的關(guān)系逐步推理最終找到輸入文本表達(dá)式中真正需要分割的物體。受此啟發(fā),本文使用名詞引導(dǎo)局部特征的提取。此外,從文本理解的角度對(duì)輸入文本進(jìn)行分析后發(fā)現(xiàn),當(dāng)文本句式完整時(shí),指定物品將極大概率地出現(xiàn)在名詞當(dāng)中,且絕大部分文本中的其他名詞與指定物品的名詞之間存在關(guān)聯(lián)。因此,基于文本的實(shí)例分割任務(wù)實(shí)質(zhì)上可以轉(zhuǎn)換為如何解決文本表達(dá)式中的關(guān)鍵詞和輸入圖像中待分割對(duì)象之間的對(duì)齊匹配問(wèn)題。
為得到輸入文本表達(dá)式中的名詞,本文使用自然語(yǔ)言處理包Stanford CoreNLP進(jìn)行文本的詞性分析和句法分析。首先,使用詞性分析得到所有名詞(即關(guān)鍵詞)在表達(dá)式中的位置。其次,由于數(shù)據(jù)集中某些文本表達(dá)式直接使用動(dòng)名詞描述人或動(dòng)物的姿態(tài)來(lái)指定某個(gè)物體,而這些動(dòng)名詞一般為根或者主語(yǔ)所在處,所以使用句法分析得到根和主語(yǔ)在表達(dá)式中的位置。但同時(shí)使用上述兩種算法大概率出現(xiàn)冗余現(xiàn)象,使得某個(gè)單詞的重要級(jí)別發(fā)生變化,為此本文設(shè)置一個(gè)由0和1組成的三維矩陣Ann,其中1表示此位置單詞為名詞。將此矩陣與原始文本特征Tt進(jìn)行相乘即可獲得所需的名詞特征Tnn,如圖3所示。
本文采用多頭注意力機(jī)制結(jié)合Tnn和初步特征融合模塊所得Fm3進(jìn)行相似信息提取,得到與名詞特征相似度高的圖像特征信息,由此得到名詞代表的局部特征Fl。局部特征獲取模塊架構(gòu)示意圖如圖4所示。名詞特征Tnn作為查詢(xún)向量Vq的源輸入,融合特征Fm3作為索引向量Vk和內(nèi)容向量Vv的源輸入。查詢(xún)向量Vq同時(shí)也是整個(gè)局部特征提取模塊的引導(dǎo)特征,與Vk相乘得到關(guān)鍵名詞對(duì)融合圖像特征各像素點(diǎn)的注意力權(quán)重A,權(quán)重越大表示此處屬于名詞所指代物體的概率越大,以此完成名詞對(duì)局部特征提取的引導(dǎo)。最終由注意力權(quán)重A與內(nèi)容向量Vv相乘得到關(guān)鍵名詞指向的局部特征Fl。由于整個(gè)融合特征Fm3的參數(shù)量較大,本文先通過(guò)一個(gè)匹配特征生成模塊減少其層數(shù)至32得到Fmq。此外,由于圖像特征為四維向量不符合輸入維度的要求,F(xiàn)mq需先通過(guò)展平操作使其維度與名詞特征一致,隨后經(jīng)過(guò)兩個(gè)不同的全連接層得到索引向量Vk和內(nèi)容向量Vv。
1.3 解碼修正
在以前的研究工作中,為了提高分割精度,研究者一般會(huì)采取提取和集成多層次特征策略。文獻(xiàn)[7,8]首先結(jié)合文本特征和不同層次的視覺(jué)特征并分別進(jìn)行不同處理,然后整合不同層次的結(jié)果。然而,對(duì)多層次特征映射的重復(fù)處理極大地增加了計(jì)算成本,更重要的是,不同層次的視覺(jué)特征圖的特征并沒(méi)有得到充分利用。在不同層次的視覺(jué)特征中高級(jí)特征包含更多的語(yǔ)義信息,而低級(jí)特征則能為網(wǎng)絡(luò)提供更多的結(jié)構(gòu)細(xì)節(jié)。因此,使用Fv5、Fv4、Fv3進(jìn)行特征融合,將Fv2、Fv3兩個(gè)含更多細(xì)節(jié)的低級(jí)視覺(jué)信息作為掩膜細(xì)化輔助信息的一部分。
2 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析
2.1 數(shù)據(jù)集
為了驗(yàn)證提出的NgLFNet模型的有效性,在三個(gè)公開(kāi)的基于文本的實(shí)例分割數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),分別是RefCOCO、RefCOCO+以及G-ref數(shù)據(jù)集。
RefCOCO[13]是基于文本的實(shí)例分割最大和最常使用的數(shù)據(jù)集之一,其所有圖像是從MSCOCO中收集得到。它包含19 994張圖像以及對(duì)所有圖像中總計(jì)50 000個(gè)對(duì)象的142 210個(gè)語(yǔ)言表達(dá)式。數(shù)據(jù)集中包括一個(gè)大小為120 624的訓(xùn)練集、一個(gè)大小為10 834的驗(yàn)證集、一個(gè)大小為5 657的測(cè)試集A,以及一個(gè)大小為5 095的測(cè)試集B。據(jù)統(tǒng)計(jì),此數(shù)據(jù)集中每張圖像包含兩個(gè)及以上物體,每個(gè)表達(dá)式的平均長(zhǎng)度為3.6個(gè)單詞。
RefCOCO+[13]數(shù)據(jù)集包含19 992張圖像及對(duì)所有圖像中總計(jì)49 856個(gè)對(duì)象的141 564個(gè)語(yǔ)言表達(dá)式。數(shù)據(jù)集中包含訓(xùn)練集、驗(yàn)證集、測(cè)試集A、測(cè)試集B各一個(gè),大小分別為120 624、10 758、5 726、4 889。相比于RefCOCO,此數(shù)據(jù)集去除了某些表示絕對(duì)位置的單詞,使得此數(shù)據(jù)集在一定程度上更具挑戰(zhàn)性。
G-Ref[14]數(shù)據(jù)集包括26 711張圖像及對(duì)所有圖像中總計(jì)54 822個(gè)對(duì)象的104 560個(gè)語(yǔ)言表達(dá)式。與前兩種數(shù)據(jù)集在交互游戲環(huán)境下進(jìn)行數(shù)據(jù)收集的方式不同,此數(shù)據(jù)集在非交互環(huán)境下進(jìn)行收集而產(chǎn)生,對(duì)對(duì)象的描述也更加豐富,包含更多關(guān)于位置和外觀的單詞,也使得其語(yǔ)言表達(dá)式的平均長(zhǎng)度達(dá)到了8.4,遠(yuǎn)高于前兩個(gè)數(shù)據(jù)集。特別說(shuō)明,本文采用UMD方法拆分此數(shù)據(jù)集。
2.2 實(shí)施過(guò)程與訓(xùn)練細(xì)節(jié)
實(shí)驗(yàn)使用2.1節(jié)中已經(jīng)分類(lèi)的數(shù)據(jù)集分別進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試。實(shí)驗(yàn)時(shí)統(tǒng)一將輸入圖像調(diào)整為416×416,輸入文本表達(dá)式最大長(zhǎng)度設(shè)置為40,并使用GloVe進(jìn)行詞嵌入。由于一張掩膜圖像對(duì)應(yīng)多個(gè)文本表達(dá)式,訓(xùn)練階段采取隨機(jī)方式取其中一個(gè)文本表達(dá)式作為輸入。測(cè)試階段則將每一個(gè)文本單獨(dú)對(duì)應(yīng)圖像形成多個(gè)數(shù)據(jù)。
模型在Ubuntu 18.04.5 LTS環(huán)境下,基于Python 3.6、Keras 2.3.1、TensorFlow 1.15.1實(shí)現(xiàn)。實(shí)驗(yàn)平臺(tái)硬件CPU為Intel CoreTM i5-6500,內(nèi)存為8 GB,同時(shí)使用NVIDIA GeForce RTX 2080Ti(12 GB)GPU對(duì)三個(gè)數(shù)據(jù)集分別進(jìn)行模型訓(xùn)練。訓(xùn)練時(shí)參照相關(guān)工作[9]中的實(shí)驗(yàn)設(shè)置:每個(gè)Transformer塊的注意力頭個(gè)數(shù)設(shè)置為8;所有注意力頭的隱藏層大小設(shè)置為256。模型采用端到端方式進(jìn)行學(xué)習(xí),一次訓(xùn)練總輪次為50輪,使用學(xué)習(xí)率λ=0.000 1的Adam優(yōu)化算法來(lái)訓(xùn)練網(wǎng)絡(luò),并且在第30、40輪分別降低學(xué)習(xí)率為原來(lái)的10%,并用交叉熵?fù)p失函數(shù)判斷訓(xùn)練的優(yōu)劣。為了能在本文實(shí)驗(yàn)環(huán)境下及時(shí)調(diào)整訓(xùn)練參數(shù),訓(xùn)練時(shí)選擇在每個(gè)輪次結(jié)束后進(jìn)行一次模型驗(yàn)證。
測(cè)試階段每張掩膜圖像對(duì)應(yīng)多個(gè)輸入文本,形成多個(gè)數(shù)據(jù)作為一個(gè)批次輸入。測(cè)試時(shí)使用兩個(gè)指標(biāo)用于評(píng)估基于文本的實(shí)例分割模型的性能:a)交并比,表示所有測(cè)試樣本上預(yù)測(cè)掩膜和真實(shí)掩膜的交叉區(qū)域除以合并區(qū)域所得分?jǐn)?shù);b)prec@X,表示交并比分?jǐn)?shù)高于給定閾值X的預(yù)測(cè)掩膜數(shù)量占預(yù)測(cè)總量的比例,其中X∈{0.5,0.6,0.7,0.8,0.9}。
2.3 消融實(shí)驗(yàn)
為驗(yàn)證局部特征生成模塊和解碼修正模塊對(duì)模型精度的真實(shí)影響,本文在RefCOCO數(shù)據(jù)集上進(jìn)行以下步驟的消融實(shí)驗(yàn):
a)在本文環(huán)境下重新進(jìn)行基準(zhǔn)模型VLT的訓(xùn)練并進(jìn)行測(cè)試得到結(jié)果1。與本文提出的完整模型測(cè)試結(jié)果進(jìn)行比較。結(jié)果如表1中實(shí)驗(yàn)1和5的數(shù)據(jù)對(duì)比,精度提升了2.87%。
b)只去除模型細(xì)化模塊。對(duì)比表1中實(shí)驗(yàn)2、5發(fā)現(xiàn),雖然總體的交并比只提升了0.3%,但是prec@0.9的指標(biāo)上升了1.26%,因此細(xì)化模塊對(duì)模型精度提升特別是在邊緣細(xì)節(jié)起到了重要作用。
結(jié)合上述a)b)兩個(gè)消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文模型的局部特征生成模塊和解碼細(xì)化模塊對(duì)模型精度的提升均起到了促進(jìn)作用。此外,為了驗(yàn)證局部特征生成模塊中匹配特征Fmq的隱藏層參數(shù)被設(shè)置為32層的合理性,額外進(jìn)行了如表1中3、4所示的兩個(gè)消融實(shí)驗(yàn),從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),層數(shù)16~32比8~16的增速開(kāi)始放緩,因此在充分考慮模型性能和計(jì)算成本的情況下,選擇32作為隱藏層參數(shù)較為合理。
2.4 與其他算法對(duì)比
將提出的方法在三個(gè)數(shù)據(jù)集上與一系列模型參數(shù)量大小相近的主流算法進(jìn)行了比較。由于設(shè)備限制本文無(wú)法復(fù)現(xiàn)得到基準(zhǔn)模型VLT[11]的最好結(jié)果,所以直接采用原文結(jié)果進(jìn)行對(duì)比。如表2所示本文提出的方法在所有數(shù)據(jù)集的testA、testB或test測(cè)試集都取得優(yōu)于對(duì)比的其他方法的實(shí)驗(yàn)結(jié)果。相比于本文的基準(zhǔn)模型且為對(duì)比算法中效果第二的VLT模型,在RefCOCO數(shù)據(jù)集以及較復(fù)雜的RefCOCO+數(shù)據(jù)集上性能增益達(dá)到1%左右。而在引用表達(dá)式中更復(fù)雜、平均長(zhǎng)度更長(zhǎng)的G-ref數(shù)據(jù)集上,本文方法實(shí)現(xiàn)了7.5%左右的精度提升。對(duì)提出算法在G-ref數(shù)據(jù)集獲得較大提升效果進(jìn)行分析,提出以下假設(shè):G-ref數(shù)據(jù)集的文本表達(dá)式長(zhǎng)度更長(zhǎng),意味著其描述更加詳細(xì),則會(huì)增大名詞出現(xiàn)的概率,本文方法也能更好地獲取局部特征表示,進(jìn)而也提升了模型的性能。這也進(jìn)一步驗(yàn)證了本文提出的局部特征生成方法的有效性和可行性。
2.5 定性分析
如圖5所示,將本模型與部分對(duì)比模型的結(jié)果可視化進(jìn)行比較。從四種模型預(yù)測(cè)結(jié)果的整體對(duì)比可以觀察到本文模型和VLT模型的預(yù)測(cè)結(jié)果在邊緣部分表現(xiàn)得更加平滑,與真實(shí)預(yù)測(cè)結(jié)果也更相近。而相較于VLT模型,本文模型加入了局部特征提取模塊,使得模型能獲得更多的關(guān)聯(lián)性特征,在邊緣細(xì)節(jié)部分實(shí)現(xiàn)了更好的預(yù)測(cè),更貼近于真實(shí)預(yù)測(cè)結(jié)果。上述可視化對(duì)比證明了本模型的優(yōu)越性。
圖6展示了模型消融實(shí)驗(yàn)的可視化結(jié)果,驗(yàn)證了本文提出的模型具有顯著優(yōu)勢(shì)。參照表1,由于單獨(dú)添加解碼修正模塊后IoU的提升僅為0.3%,可視化后無(wú)法明顯觀測(cè)到改變,所以將兩個(gè)模塊作為一個(gè)整體進(jìn)行可視化結(jié)果對(duì)比。對(duì)比四個(gè)示例的預(yù)測(cè)掩碼(c)和(d)可以發(fā)現(xiàn),前三張圖像在邊緣地區(qū)去除局部模塊和修正模塊后的預(yù)測(cè)圖像均存在不同程度的瑕疵,而第四張圖像(d)比(c)邊緣更加平滑。此外,從示例2、3可以發(fā)現(xiàn),當(dāng)有物體遮擋時(shí)(d)的預(yù)測(cè)掩膜質(zhì)量也高于(c),說(shuō)明當(dāng)存在物體遮擋時(shí),
本文提出的模型
表現(xiàn)出了一定的魯棒性。上述兩個(gè)比較證明了本文模型預(yù)測(cè)掩膜邊緣更加平滑,同時(shí)也能在一定程度上應(yīng)對(duì)物體遮擋帶來(lái)的干擾。
3 結(jié)束語(yǔ)
本文提出了一種具體的名詞引導(dǎo)局部特征提取的深度神經(jīng)網(wǎng)絡(luò)模型NgLFNet,通過(guò)關(guān)鍵名詞提取和局部特征生成模塊來(lái)產(chǎn)生局部特征。同時(shí),在特征融合階段與文本和全局圖像特征結(jié)合,使融合特征中包含更多細(xì)節(jié)。引入多頭交叉注意力機(jī)制進(jìn)一步得到局部特征中文本唯一指定物體的細(xì)節(jié)特征,目的是修正所得結(jié)果從而獲得更好的掩膜效果。實(shí)驗(yàn)結(jié)果驗(yàn)證了此方法的有效性,雖然該方法表現(xiàn)出了優(yōu)異的性能,但也存在一些不足,例如:a)名詞提取模塊對(duì)輸入表達(dá)式中的名詞判斷還存在誤差;b)特征融合中的冗余比較明顯。后續(xù)也將著手在這兩個(gè)方面進(jìn)行研究和改進(jìn)。
參考文獻(xiàn):
[1]邱爽,趙耀,韋世奎.圖像指代分割研究綜述[J].信號(hào)處理,2022,38(6):1144-1154.(Qiu Shuang,Zhao Yao,Wei Shikui.A survey of referring image segmentation[J].Journal of Signal Processing,2022,38(6):1144-1154.)
[2]魏慶為,張麗紅.基于文本表達(dá)的指向性目標(biāo)分割方法研究[J].測(cè)試技術(shù)學(xué)報(bào),2022,36(1):42-47,59.(Wei Qingwei,Zhang Lihong.Research on referring expression segmentation method based on text expression[J].Journal of Test and Measurement Techno-logy,2022,36(1):42-47,59.)
[3]Hu Ronghang,Rohrbach M,Darrell T.Segmentation from natural language expressions[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:108-124.
[4]Liu Chenxi,Lin Zhe,Shen Xiaohui,Yang Jimei,et al.Recurrent multimodal interaction for referring image segmentation[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:1280-1289.
[5]Li Ruiyu,Li Kaican,Kuo Yichun,et al.Referring image segmentation via recurrent refinement networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5745-5753.
[6]Margffoy-Tuay E,Pérez J C,Botero E,et al.Dynamic multimodal instance segmentation guided by natural language queries[C]//Proc of the European Conference on Computer Vision.Berlin:Springer,2018:656-672.
[7]Ye Linwei,Rochan M,Liu Zhi,et al.Cross-modal self-attention network for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:10494-10503.
[8]Hu Zhiwei,F(xiàn)eng Guang,Sun Jiayu,et al.Bi-directional relationship inferring network for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:4424-4433.
[9]Shi Hengcan,Li Hongliang,Meng F,et al.Key-word-aware network for referring expression image segmentation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:38-54.
[10]Yu Licheng,Lin Zhe,Shen Xiaohui,et al.MAttNet:modular attention network for referring expression comprehension[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1307-1315.
[11]Ding Henghui,Liu Chang,Wang Suchen,et al.Vision-language transformer and query generation for referring segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:16301-16310.
[12]Yang Sibei,Xia Meng,Li Guanbin,et al.Bottom-up shift and reaso-ning for referring image segmentation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:11261-11270.
[13]Kazemzadeh S,Ordonez V,Matten M,et al.ReferItGame:referring to objects in photographs of natural scenes[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2014:787-798.
[14]Nagaraja V K,Morariu V I,Davis L S.Modeling context between objects for referring expression understanding[C]//Proc of European Confe-rence on Computer Vision.Cham:Springer,2016:792-807.
[15]Huang Shaofei,Hui Tianrui,Liu Si,et al.Referring image segmentation via cross-modal progressive comprehension[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:10485-10494.
[16]Hui Tianrui,Liu Si,Huang Shaofei,et al.Linguistic structure guided context modeling for referring image segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:59-75.
[17]Luo Gen,Zhou Yiyi,Sun Xiaoshuai,et al.Multi-task collaborative network for joint referring expression comprehension and segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10031-10040.
[18]Feng Guang,Hu Zhiwei,Zhang Lihe,et al.Encoder fusion network with co-attention embedding for referring image segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2021:15501-15510.
[19]Luo Gen,Zhou Yiyi,Ji Rongrong,et al.Cascade grouped attention network for referring expression segmentation[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:1274-1282.