摘" 要: 針對(duì)復(fù)雜圖像邊緣檢測(cè)任務(wù)中多尺度特征提取困難和多尺度特征利用率低的問(wèn)題,提出一種基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)模型。該模型首先采用擅長(zhǎng)根據(jù)全局遠(yuǎn)程依賴(lài)關(guān)系進(jìn)行建模的Transformer特征提取主干——PVT網(wǎng)絡(luò),取代傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),解決多尺度特征利用率低的問(wèn)題;其次,為了充分考慮跨層間上下文特征交互問(wèn)題,設(shè)計(jì)了一個(gè)專(zhuān)門(mén)用來(lái)建模和轉(zhuǎn)移上下文知識(shí)的模塊,用于探索更多顯著邊緣的判別信息;最后,設(shè)計(jì)了一個(gè)基于注意力機(jī)制的多尺度特征增強(qiáng)模塊,通過(guò)充分挖掘檢測(cè)對(duì)象的多層次和多尺度特征信息,實(shí)現(xiàn)對(duì)邊緣的預(yù)測(cè),提高模型邊緣檢測(cè)精度。而且,模型的特征求和與拼接過(guò)程不占顯存也不占內(nèi)存,加快了模型的推理速度。在BSDS500和BIPED兩個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),在BSDS500數(shù)據(jù)集上邊緣檢測(cè)的ODS值達(dá)到0.796;在BIPED數(shù)據(jù)集上邊緣檢測(cè)的ODS值達(dá)到了0.846,實(shí)驗(yàn)結(jié)果表明該算法在性能上優(yōu)于對(duì)比模型。
關(guān)鍵詞: 邊緣檢測(cè); Transformer; 多尺度特征提?。?卷積神經(jīng)網(wǎng)絡(luò); PVT; 多尺度特征增強(qiáng)
中圖分類(lèi)號(hào): TN911.23?34; TP391" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " 文章編號(hào): 1004?373X(2024)19?0131?08
Research on Transformer edge detection algorithm based on pyramid structure
DUAN Xuyan1, YU Fuxing1, 2, SUO Yina1, 2
(1. School of Artificial Intelligence, North China University of Science and Technology, Tangshan 063210, China;
2. Hebei Key Laboratory of Industrial Intelligent Perception, Tangshan 063210, China)
Abstract: In view of the difficult multi?scale feature extraction and low utilization rate of multi?scale features in the task of complex image edge detection, a Pyramid?structured Transformer edge detection model is proposed. In this model, the Transformer feature extraction trunk named PVT (pyramid vision transformer) network, which is good at modeling based on global long?range dependency relationships, is adopted to replace the traditional convolutional neural network (CNN), so as to improve the utilization rate of multi?scale features. A module specifically designed for modeling and transferring context knowledge is designed to explore more discriminant information of significant edges, so as to take account of the cross?layer context feature interaction between layers fully. A multi?scale feature enhancement module (MSFEM) based on the attention mechanism (AM) is designed to achieve the prediction of edges by fully exploring the multi?level and multi?scale feature information of the objects under detection, and to increase the edge detection accuracy of the model. Moreover, the feature summing and stitching process of the model does not occupy video memory nor memory, and speeds up the model inference speed. A large number of experiments were carried out on the two public datasets BSDS500 and BIPED. The ODS (optimal dataset scale) value of edge detection on the dataset BSDS500 reached 0.796; and on the dataset BIPED, the ODS value of edge detection reached 0.846. The experimental results show that the proposed algorithm is superior to the bechmark model in performance.
Keywords: edge detection; Transformer; multi?scale feature extraction; CNN; PVT; multi?scale feature enhancement
0" 引" 言
邊緣檢測(cè)作為計(jì)算機(jī)視覺(jué)的基礎(chǔ)任務(wù)之一,通過(guò)降低待處理數(shù)據(jù)量來(lái)簡(jiǎn)化分析過(guò)程,保留關(guān)鍵信息,在多個(gè)領(lǐng)域如計(jì)算機(jī)視覺(jué)和圖像處理等任務(wù)中極為重要。因此,對(duì)邊緣檢測(cè)技術(shù)的研究也在不斷深入。
由早期利用手工特征挖掘低層次視覺(jué)線索到最近的深度學(xué)習(xí)模型,邊緣檢測(cè)算法層出不窮。早期方法依賴(lài)亮度、顏色、紋理和梯度等局部特征,如Robert[1]、Sobel[2]、Prewitt[3]和Canny[4]等算子;基于信息理論方法包括gPbowl?ucm[5]和SCG[6]算法或結(jié)構(gòu)化方法SE[7]算法。雖然傳統(tǒng)方法也在不斷進(jìn)步,但仍存在一些根本性限制。深度學(xué)習(xí)的發(fā)展推動(dòng)了邊緣檢測(cè)技術(shù)的進(jìn)步。2015年,DeepEdge[8]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)進(jìn)行端到端邊緣檢測(cè),但未充分利用高層語(yǔ)義信息。同年,HED[9]算法通過(guò)全卷積網(wǎng)絡(luò)和VGG16框架實(shí)現(xiàn)精確的圖像級(jí)邊緣映射。隨后,基于CNN的深度條件隨機(jī)域立體匹配[10]、多尺度運(yùn)動(dòng)目標(biāo)檢測(cè)[11]和端到端邊緣保留網(wǎng)絡(luò)中[12]的應(yīng)用不斷涌現(xiàn)。2019年雙向級(jí)聯(lián)網(wǎng)絡(luò)[13]通過(guò)在所有CNN層施加邊緣監(jiān)督,雖然提升了多尺度特征提取,但仍以VGG16為基礎(chǔ),存在一定的局限性。
2020年以前,邊緣檢測(cè)主要使用如ResNet和VGG的傳統(tǒng)神經(jīng)網(wǎng)絡(luò),但這些基于CNN的算法受限于結(jié)構(gòu)設(shè)計(jì),主要捕捉局部特征,難以處理長(zhǎng)距離空間關(guān)系,導(dǎo)致在自然場(chǎng)景中邊緣定位不夠精細(xì)。自2020年起,Transformer[14]因其能捕獲長(zhǎng)距離依賴(lài)和關(guān)鍵邊緣信息的自注意力機(jī)制,提升了邊緣檢測(cè)的準(zhǔn)確性和真實(shí)性,對(duì)CNN在計(jì)算機(jī)視覺(jué)領(lǐng)域的主導(dǎo)地位構(gòu)成挑戰(zhàn)。
因此,為解決上述基于傳統(tǒng)CNN的邊緣檢測(cè)算法在多尺度特征提取利用率低的問(wèn)題,本文提出一種基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)算法。該模型摒棄了傳統(tǒng)基于CNN的特征提取技術(shù),轉(zhuǎn)而采用擅長(zhǎng)捕獲長(zhǎng)距離遠(yuǎn)程依賴(lài)的上下文信息的特征提取主干Transformer結(jié)構(gòu)——PVT[15]網(wǎng)絡(luò),解決了傳統(tǒng)CNN多尺度特征利用率低的問(wèn)題;接著,設(shè)計(jì)了一個(gè)處理跨層上下文特征交互問(wèn)題的知識(shí)遷移模塊,以便提取出更為關(guān)鍵的邊緣判別信息。此外,從模型優(yōu)化的角度,還設(shè)計(jì)了一個(gè)依托于注意力機(jī)制的多尺度特征增強(qiáng)模塊,該模塊深入分析檢測(cè)目標(biāo)的多層級(jí)和多維度特征,不但實(shí)現(xiàn)了對(duì)邊緣的更精準(zhǔn)預(yù)測(cè),還能規(guī)避金字塔結(jié)構(gòu)重復(fù)邊緣提取的問(wèn)題。值得一提的是,模型在進(jìn)行特征求和與拼接的過(guò)程中,做到了既不占用顯存也不消耗內(nèi)存,這大大加快了模型的推理速度,提高了整體的運(yùn)行效率。
1" 本文方法
本文提出基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)網(wǎng)絡(luò)模型,如圖1所示,包括特征提取模塊(Pyramid Vision Transformer, PVT)、知識(shí)遷移模塊(Knowledge Transfer Module, KTM)、多尺度特征增強(qiáng)模塊(Multi Scale Feature Enhancement Block, MSFEB)。
1.1" 多尺度特征提取
在許多視覺(jué)任務(wù)中,提取和融合多尺度特征是至關(guān)重要的基礎(chǔ)工作。本文采用的是基于金字塔結(jié)構(gòu)的Transformer特征提取主干結(jié)構(gòu)——PVT結(jié)構(gòu),用于提取不同分辨率的多尺度圖像特征。PVT是基于Vision Transformer的一種強(qiáng)大的視覺(jué)模型,它通過(guò)結(jié)合Transformer架構(gòu)和金字塔式的特征處理方法,能夠有效地處理多尺度的視覺(jué)信息。
PVT的具體結(jié)構(gòu)如圖2所示。首先,圖像進(jìn)入輸入層被分割成固定大小的小塊,這些小塊被展平并線性嵌入到一個(gè)高維空間中;然后,它使用一個(gè)分層的金字塔結(jié)構(gòu)來(lái)逐步降低特征的空間分辨率,同時(shí)增加感受野。PVT網(wǎng)絡(luò)的每個(gè)層級(jí)都包含一組自注意力和前饋網(wǎng)絡(luò),用于提取特征。在每個(gè)層級(jí)中,自注意力機(jī)制被用來(lái)捕捉圖像塊之間的全局依賴(lài)關(guān)系。這一操作允許模型學(xué)習(xí)到跨空間位置的特征交互。在自注意力層之后是前饋網(wǎng)絡(luò),它對(duì)特征進(jìn)行非線性變換,增強(qiáng)模型的表達(dá)能力。同時(shí),PVT的層次結(jié)構(gòu)允許模型在不同的抽象層次上捕捉圖像特征,從而更好地處理多尺度的視覺(jué)信息。
本文采用金字塔結(jié)構(gòu)的PVT網(wǎng)絡(luò)作為本模型邊緣檢測(cè)任務(wù)的主干網(wǎng)絡(luò),其輸入大小設(shè)置為3×352×352。如圖2所示,將PVT設(shè)計(jì)成由4個(gè)編碼器組成,記為[Ti=i∈1,2,3,4],可以生成具有全局遠(yuǎn)程依賴(lài)關(guān)系的四階段全局基本特征,記為[fit∈Rci×hi×wi],其中[ci∈64,128,320,512],[hiwi=3252i+1]。為了提高計(jì)算效率,通過(guò)卷積層將[fiti∈1,3,4]的通道數(shù)統(tǒng)一為32,生成[fit∈Rc×hi×wi],其中[c]為32。
值得注意的是,對(duì)于[f2t],不僅將其通道數(shù)減少到32,還將其分辨率從44×44調(diào)整到22×22,以便在KTM中進(jìn)行后續(xù)處理,生成[f2t∈R32×22×22]。對(duì)于最低層特征[f1t]和最高層特征[f4t],采用通道和空間注意力機(jī)制的集成者進(jìn)行局部增強(qiáng)。此外,采用KTM來(lái)激活[f2t]和[f3t]的跨層上下文交互,生成[fKTM]的判別特征。
1.2" 知識(shí)遷移
由于PVT提取的基本特征具有全局遠(yuǎn)程依賴(lài)性,然而僅考慮局部增強(qiáng)是不夠的,還要考慮其層與層之間特征的跨層上下文交互,以探索更多顯著邊緣的判別信息,來(lái)補(bǔ)充其全局信息并適應(yīng)自然圖像中的各種復(fù)雜場(chǎng)景。換句話(huà)說(shuō),希望能夠突出不同通道間不同特征的突出區(qū)域,因此,本文引入一個(gè)知識(shí)遷移模塊用于探索跨層特征間的上下文交互。KTM基于注意力機(jī)制對(duì)兩個(gè)不同尺度特征的語(yǔ)境相關(guān)知識(shí)進(jìn)行建模,并將這些知識(shí)轉(zhuǎn)移到原始特征上,生成更多的判別特征。在本文中,采用KTM增強(qiáng)[f1t]層和[f2t]層特征的上下文交互,以及[f3t]層和[f4t]層特征的上下文交互,對(duì)這些特征的乘積以及和兩種類(lèi)型組合的上下文相關(guān)知識(shí)進(jìn)行建模,并將這些知識(shí)轉(zhuǎn)移到原始特征上,以生成更多的判別特征。最后,本文使用邊緣預(yù)測(cè)器從上述模塊的輸出生成特征映射。KTM的詳細(xì)結(jié)構(gòu)如圖3所示。
接下來(lái),詳細(xì)介紹KTM的兩個(gè)組成部分,即上下文關(guān)聯(lián)知識(shí)建模和知識(shí)轉(zhuǎn)移。
1.2.1" 上下文關(guān)聯(lián)知識(shí)建模
在邊緣檢測(cè)任務(wù)中,兩個(gè)層特征可以揭示兩個(gè)特征中共存的重要信息,有利于協(xié)同識(shí)別目標(biāo)。兩個(gè)特征的和可以全面捕獲兩個(gè)特征所包含的信息而不遺漏,有利于細(xì)化邊緣。特別是對(duì)于本文的框架,[f1t]和[f2t]的乘積和以及[f3t]和[f4t]的乘積和在一定程度上是互補(bǔ)的。因此,這里采用自注意力機(jī)制分別對(duì)[f1t]和[f2t]的乘積和以及[f3t]和[f4t]的乘積和之間的上下文相關(guān)知識(shí)進(jìn)行建模。
如上文1.1節(jié)所述,將[f1t]、[f2t]、[f3t]和[f4t]的大小統(tǒng)一為32×22×22。為方便起見(jiàn),將[f1t]、[f2t]、[f3t]和[f4t]的大小表示為[c]×[h]×[w]。在這里,將[f1t]和[f2t]的乘積和分別記為[fpro1∈Rc×h×w]和[fsum1∈Rc×h×w],將[f3t]和[f4t]的乘積和分別記為[fpro2∈Rc×h×w]和[fsum2∈Rc×h×w]。為了降低計(jì)算成本,對(duì)[fpro1]、[fpro2]、[fsum1]和[fsum2]執(zhí)行通道數(shù)為[c2]的卷積層,生成4個(gè)新特征[fpro1, fsum1∈R(c2)×h×w]和[fpro2, fsum2∈R(c2)×h×w]。然后,對(duì)[fsum1]進(jìn)行重構(gòu)和轉(zhuǎn)置得到[fQ1∈R(hw)×(c2)],對(duì)[fpro1]進(jìn)行重構(gòu)得到[fK1∈R(c2)×(hw)],對(duì)[fsum2]和[fpro2]進(jìn)行同樣的處理,得到[fQ2]和[fK2]。對(duì)[fQ1]和[fK1]之間的上下文相關(guān)知識(shí)[C∈Rhw×hw]建模的詳細(xì)過(guò)程如下,對(duì)[fQ2]和[fK2]的上下文相關(guān)知識(shí)的建模操作與之相同。
[C1=softmaxfQ1?fK1C2=softmaxfQ2?fK2] (1)
式中:softmax(·)為softmax激活函數(shù);“?”為矩陣乘法。
通過(guò)這種方法,建立了[fpro]中共存的顯著邊緣信息與[fsum]的綜合特征之間的像素依賴(lài)關(guān)系模型,有效地避免了邊緣特征的缺失。
1.2.2" 知識(shí)遷移
在[f1t]、[f2t]、[f3t]和[f4t]上使用卷積層生成4個(gè)新的特征[f1t, f2t, f3t, f4t∈Rc×h×w],然后對(duì)它們進(jìn)行重構(gòu)得到[fv1, fv2, fv3, fv4∈Rc×hw]。將建模后的知識(shí)[C]轉(zhuǎn)移到[fv1]、[fv2]、[fv3]和[fv4],生成信息轉(zhuǎn)移特征[f1tsf, f2tsf, f3tsf, f4tsf∈Rc×h×w]如下:
[f1tsf=Rfv1?TC1f2tsf=Rfv2?TC1f3tsf=Rfv3?TC2f4tsf=Rfv4?TC2] (2)
式中:[R(·)]為重塑矩陣;[T(·)]為轉(zhuǎn)置矩陣。
接著使用一個(gè)可訓(xùn)練權(quán)值,通過(guò)殘差連接自適應(yīng)融合[f1tsf]和[f1t],并對(duì)[f2tsf]和[f2t]進(jìn)行同樣的處理,生成[f1tsf, f2tsf∈Rc×h×w]。對(duì)[f3tsf]和[f4tsf]同樣處理生成[f3tsf, f4tsf∈Rc×h×w]。最后,采用元素求和與卷積層對(duì)交叉層次的[f1tsf]和[f2tsf]進(jìn)行卷積,[f3tsf]和[f4tsf]進(jìn)行相同操作,得到KTM的判別輸出特征[fKTM1∈Rc×h×w]和[fKTM2∈Rc×h×w]。
綜上所述,[fKTM1]繼承了[f1t]和[f2t]兩種組合的性質(zhì),同樣,[fKTM2]繼承了[f3t]和[f4t]兩種組合的性質(zhì),因此它們具有同時(shí)識(shí)別和闡述邊緣的能力。這有利于本文的網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合多尺度特征增強(qiáng)進(jìn)行更好的邊緣對(duì)象推斷。
1.3" 多尺度特征增強(qiáng)
為了豐富本模型學(xué)習(xí)的多尺度特征表示,本文設(shè)計(jì)了一個(gè)多尺度特征增強(qiáng)模塊,如圖4所示。
MSFEB模塊不使用相對(duì)更深層的CNN或明確的多尺度邊緣映射來(lái)生成多尺度特征,而是先利用深度卷積和ReLU操作、并行的卷積濾波器,接著利用CA、SA和1×1的卷積做了殘差,這樣構(gòu)成多尺度特征增強(qiáng)模塊效果比較好。與之前引入更深層次網(wǎng)絡(luò)或者明確融合多個(gè)邊緣檢測(cè)的策略相比,MSFEB模塊巧妙地避免了對(duì)圖像金字塔的重復(fù)邊緣檢測(cè)問(wèn)題。這樣的方法支持在網(wǎng)絡(luò)不同層次學(xué)習(xí)多尺度表示,并且能夠有效地檢測(cè)邊緣,使得邊緣特征能夠克服不同尺度問(wèn)題從而很好地被描述出來(lái)。
在KTM中得到的特征[fKTM],經(jīng)過(guò)以下操作得到MSFEB的輸出特征,計(jì)算過(guò)程如下:
[F'=DConvReLUfKTMF'1=DConvReLUF'F'2=DConvReLUF'F'3=DConvReLUF'F=F'+F'1+F'2+F'3F=SACAFFMSFEB=F+Conv1fKTM] (3)
與以往基于CNN的方法不同的是,本模型通過(guò)構(gòu)建MSFEB來(lái)高效地學(xué)習(xí)多尺度表示,增強(qiáng)了卷積層中學(xué)習(xí)的多尺度表示,避免了金字塔結(jié)構(gòu)對(duì)多個(gè)輸入圖像的重復(fù)計(jì)算問(wèn)題,實(shí)現(xiàn)了在效率和精度之間取得更好的平衡。
1.4" 損失函數(shù)
損失函數(shù)是一種評(píng)估模型預(yù)測(cè)準(zhǔn)確性的工具,其核心作用是計(jì)算模型預(yù)測(cè)結(jié)果與真實(shí)情況之間的偏差。這種函數(shù)的值總是大于或等于零,并且通常用符號(hào)[LY, f(x)]來(lái)表示,其中[Y]代表真實(shí)值,[f(x)]代表預(yù)測(cè)值。這個(gè)函數(shù)的數(shù)值越低,意味著模型的預(yù)測(cè)結(jié)果與實(shí)際情況越接近,表明模型具有更好的穩(wěn)健性和可靠性。簡(jiǎn)而言之,損失函數(shù)是判斷模型性能的一個(gè)重要指標(biāo),其數(shù)值的最小化是優(yōu)化模型的目標(biāo)之一。本文網(wǎng)絡(luò)的訓(xùn)練帶有兩種類(lèi)型的損失。本模型將總損失[Lsum]表示為:
[Lsum=s=1Swside?Ls+wfuse?LP,Y] (4)
式中:[Ls]為二值交叉熵?fù)p失;[P]為最終的邊緣預(yù)測(cè)。
二值交叉熵?fù)p失定義為:
[Ls=-1ni=1nyi?logp(yi=1)+" " " " " " " (1-yi)?log(1-p(yi=1))] (5)
式中:[n]是樣本數(shù)量;[yi]是第[i]個(gè)樣本的二元標(biāo)簽值0或1(groundtruth);[p(yi=1)]是模型對(duì)第[i]個(gè)樣本的預(yù)測(cè)值,即模型預(yù)測(cè)第[i]個(gè)樣本標(biāo)簽值為1的概率。
針對(duì)不同標(biāo)注器之間的邊緣標(biāo)注不一致的問(wèn)題,本模型還引入了閾值[γ]進(jìn)行損失計(jì)算。設(shè)[Y=yj, j=1,2,…,Y, yj∈(0,1)],定義[Y+=yj,yjgt;γ]和[Y-=yj,yj=0],在損耗計(jì)算中只考慮對(duì)應(yīng)于[Y+]和[Y-]的像素。因此本模型將[L?]定義為:
[LP, Y=-αj∈Ylog1-pj-βj∈Y+logpj] (6)
式中:[P=pj, j=1,2,…,P, pj∈0,1]為預(yù)測(cè)邊緣映射;[α=λ?Y+ Y++Y-]為平衡邊緣;[β=Y- Y++Y-]為非邊緣像素;[λ]為控制正值樣本相對(duì)于負(fù)值樣例的權(quán)重。
2" 實(shí)驗(yàn)準(zhǔn)備
2.1" 數(shù)據(jù)集
數(shù)據(jù)集對(duì)邊緣檢測(cè)研究至關(guān)重要,本文通過(guò)BSDS500和BIPED兩個(gè)公開(kāi)數(shù)據(jù)集驗(yàn)證模型的泛化性。BSDS500包含500張自然場(chǎng)景圖像,分為200張訓(xùn)練集、200張測(cè)試集和100張驗(yàn)證集,圖像經(jīng)手工精細(xì)標(biāo)注。BIPED含250張1 280×720像素戶(hù)外圖像,分為200張訓(xùn)練集和50張測(cè)試集,提供多樣真實(shí)場(chǎng)景。為滿(mǎn)足深度學(xué)習(xí)需求,通過(guò)翻轉(zhuǎn)、縮放和旋轉(zhuǎn)增強(qiáng)數(shù)據(jù)集,共得到40 000幅圖像。
2.2" 參數(shù)設(shè)定
本模型實(shí)驗(yàn)運(yùn)行環(huán)境是在一臺(tái)Windows 11操作系統(tǒng),Intel? CoreTM i7?12700H,RAM 16 GB,NVIDIA RTX 3090 32 GB內(nèi)存的計(jì)算機(jī)上進(jìn)行的。本文模型是基于PyTorch 1.6深度學(xué)習(xí)框架,使用Python 3.9進(jìn)行編程實(shí)現(xiàn)的。采用SGD優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在ImageNet上預(yù)先訓(xùn)練的PVT初始化主干。把初始學(xué)習(xí)速率設(shè)置為1×10-6,動(dòng)量設(shè)置為0.9,重量衰減設(shè)置為2×10-4,將所有實(shí)驗(yàn)的批大小設(shè)置為10。在每10 000次迭代后,學(xué)習(xí)速率將降低10倍。本文模型分別為BSDS500訓(xùn)練20 000次迭代,為BIPED訓(xùn)練80 000次迭代。[Wside]和[Wfuse]分別設(shè)為0.5和1.1。
2.3" 評(píng)價(jià)指標(biāo)
為了與其他工作進(jìn)行公平的比較,本文進(jìn)行了邊緣檢測(cè)性能的評(píng)估,包括全局最優(yōu)數(shù)據(jù)集尺度(Optimal Dataset Scale, ODS)、單張圖像最優(yōu)尺度(Optimal Image Scale, OIS)和平均精度(Average Precision, AP)3個(gè)常用評(píng)價(jià)指標(biāo)[16]。
為了方便評(píng)估模型的性能,本文將邊緣的概率圖通過(guò)設(shè)定閾值轉(zhuǎn)換為二值化的邊緣圖。其中,ODS表示整個(gè)數(shù)據(jù)集設(shè)置相同閾值時(shí)的[F]?Score,OIS表示每張圖像獨(dú)立設(shè)置最優(yōu)閾值時(shí)的[F]?Score。這兩種閾值設(shè)定方法分別得到相應(yīng)的[F]?Score值,[F]?Score值越高,表示模型在邊緣檢測(cè)上的能力就越優(yōu)秀。在計(jì)算ODS和OIS兩個(gè)評(píng)價(jià)指標(biāo)時(shí),本文也借鑒非極大值抑制運(yùn)算來(lái)消除冗余的邊緣信息,從而保留更加重要的邊緣信息結(jié)果。[F]?Score計(jì)算公式如下:
[Precision=TPTP+FPRecall=TPTP+FNF?Score=2×Precision×RecallPrecision+Recall] (7)
精確率(Precision)指的是被正確識(shí)別為邊緣的像素點(diǎn)占所有被檢測(cè)出的像素點(diǎn)的比例,而召回率(Recall)則是指被成功檢測(cè)出的邊緣像素點(diǎn)占實(shí)際所有邊緣像素點(diǎn)的比例。
平均準(zhǔn)確率的計(jì)算公式如下:
[AP=01PRdR] (8)
式中:[P]為精度;[R]為召回率。
因此可知,對(duì)于[PR]曲線來(lái)說(shuō),AP值越趨近于1,準(zhǔn)確率越高。
3" 實(shí)驗(yàn)結(jié)果與分析
本文將通過(guò)兩種不同的方法來(lái)衡量所提出的基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)算法的性能:定量分析和定性分析。
3.1" 定量分析
為驗(yàn)證本文所提出的基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)算法的優(yōu)越性,采用三種評(píng)價(jià)指標(biāo),即ODS、OIS和AP,在BSDS500和BIPED兩個(gè)數(shù)據(jù)集上對(duì)本文模型的性能進(jìn)行定量分析。將相對(duì)主流且應(yīng)用廣泛的優(yōu)秀算法與本文模型進(jìn)行對(duì)比,在BSDS500數(shù)據(jù)集上分別與包括兩種多尺度融合邊緣檢測(cè)算法:HFL[17]和HED[9]、兩種基于全監(jiān)督學(xué)習(xí)的邊緣檢測(cè)算法:Deep Contour[18]和ResNet50?cob[19]以及三種傳統(tǒng)邊緣檢測(cè)算法SCG[6]、PMI[20]和OEF[21]進(jìn)行對(duì)比。在BIPED數(shù)據(jù)集上分別與CED[19]、HED[9]和RCF[22]三種算法進(jìn)行比較??傮w而言,本文提出的基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)算法展現(xiàn)出了優(yōu)秀的性能。為了確保比較的公正性,所有參與比較的算法所得到的邊緣檢測(cè)圖像,要么是由算法的開(kāi)發(fā)者公開(kāi)分享的,要么是直接通過(guò)其源代碼生成的,且這些圖像都是在相同的系統(tǒng)環(huán)境下進(jìn)行評(píng)估的。
表1和表2分別給出了不同算法在BSDS500和BIPED兩個(gè)數(shù)據(jù)集上的ODS、OIS和AP三個(gè)評(píng)價(jià)指標(biāo)的對(duì)比結(jié)果。
具體來(lái)說(shuō),以在BSDS500數(shù)據(jù)集中為例詳細(xì)分析,在ODS這個(gè)評(píng)價(jià)標(biāo)準(zhǔn)上,本文模型相較于兩個(gè)多尺度融合算法HFL和HED,分別實(shí)現(xiàn)了0.029和0.008的提高;在OIS評(píng)價(jià)標(biāo)準(zhǔn)上,本文模型相較于HFL和HED算法分別實(shí)現(xiàn)了0.033和0.013的提高;同時(shí)在AP指標(biāo)上也表現(xiàn)出了提升。同樣,在表2也給出了本文模型與其他三種算法在BIPED數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù)對(duì)比,本文模型同樣優(yōu)于對(duì)比模型。這一實(shí)驗(yàn)結(jié)果顯著地體現(xiàn)了本文算法在處理具有挑戰(zhàn)性的數(shù)據(jù)集方面相較于對(duì)比模型的優(yōu)異性能。此外,這也間接證實(shí)了該算法在處理自然場(chǎng)景中的數(shù)字圖像任務(wù)時(shí),得益于其出色的多尺度上下文信息捕捉和整合能力,以及所采用的多尺度特征增強(qiáng)策略,能夠顯著提升模型的整體效能。
3.2" 定性分析
圖5和圖6分別給出了本文基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)算法在BSDS500和BIPED兩個(gè)數(shù)據(jù)集上與其他優(yōu)秀邊緣檢測(cè)結(jié)果對(duì)比圖。以圖5在BSDS500數(shù)據(jù)集上本文模型與其他7種算法的視覺(jué)直觀對(duì)比圖為例來(lái)展開(kāi)分析,從邊緣檢測(cè)結(jié)果圖像對(duì)比中可以明顯觀察到,本文提出的算法與真實(shí)標(biāo)簽的相似度極高,這一現(xiàn)象反映出該算法在檢測(cè)性能上表現(xiàn)出色。進(jìn)一步審視這些圖像,可以發(fā)現(xiàn)本文模型在捕捉物體邊緣的精確性和完整性方面,相較于其他邊緣檢測(cè)模型展現(xiàn)出了顯著的優(yōu)越性。
具體來(lái)說(shuō),在第2行的輪船圖像和第4行包含多個(gè)人物的圖像中,盡管存在尺度多樣性的復(fù)雜情況,本文提出的基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)算法依然展現(xiàn)出了優(yōu)異的性能。該算法在檢測(cè)和識(shí)別不同尺度物體的邊緣時(shí),其結(jié)果與真實(shí)標(biāo)簽的一致性更高。相較之下,其他算法可能會(huì)因?yàn)槲矬w尺度的變化而受到影響,或者由于缺乏足夠的語(yǔ)義信息而無(wú)法達(dá)到同樣的檢測(cè)精度。例如,HFL和HED等基于CNN的算法以及一些傳統(tǒng)邊緣檢測(cè)算法SCG、PMI和OEF,對(duì)于尺度不一的目標(biāo)物體檢測(cè)識(shí)別邊緣的效果較差。圖像的第3行展示了建筑墻面的邊緣檢測(cè)效果,結(jié)果揭示了本文模型即便在建筑墻面造成的輕微陰影導(dǎo)致邊界較弱的情況下,依然能夠完整且精確地識(shí)別出邊緣信息。這一點(diǎn)突出了本文模型的高魯棒性。相比之下,其他對(duì)比算法不是未能完整地識(shí)別出邊緣,就是在邊緣識(shí)別的準(zhǔn)確性上不如本文模型表現(xiàn)出色。在第1行所呈現(xiàn)的圖像里,可以看到本文模型在邊緣檢測(cè)任務(wù)中對(duì)單一顯著物體的邊界進(jìn)行了準(zhǔn)確捕捉和劃分。這與某些其他算法相比,它們?cè)谶吘墮z測(cè)時(shí)可能會(huì)出現(xiàn)邊界不連貫的問(wèn)題。總結(jié)來(lái)說(shuō),得益于算法中多尺度特征提取組件所提供的豐富上下文信息,以及實(shí)施的多尺度特征增強(qiáng)策略,本文模型能夠有效地區(qū)分物體邊界,在處理具有挑戰(zhàn)性的自然場(chǎng)景時(shí)表現(xiàn)出色。
4" 結(jié)" 論
針對(duì)傳統(tǒng)CNN邊緣檢測(cè)算法多尺度特征提取和利用率低的問(wèn)題,本文提出了一種用于多尺度圖像特征提取的基于金字塔結(jié)構(gòu)的Transformer邊緣檢測(cè)算法。使用了基于Transformer的多尺度特征提取器,比以往端到端的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)提取的特征更能捕獲長(zhǎng)距離遠(yuǎn)程依賴(lài)的上下文信息,解決了多尺度特征提取困難和利用率低的問(wèn)題,增強(qiáng)了本文網(wǎng)絡(luò)模型的魯棒性;通過(guò)上下文關(guān)聯(lián)知識(shí)建模和知識(shí)遷移產(chǎn)生更多的判別特征,把金字塔結(jié)構(gòu)的四個(gè)特征進(jìn)行聚合;通過(guò)對(duì)提取到的多尺度特征進(jìn)行增強(qiáng),充分挖掘檢測(cè)對(duì)象的多層次和多尺度特征,實(shí)現(xiàn)對(duì)邊緣的預(yù)測(cè),得到了比以往方法更精細(xì)的邊緣圖像,從而取得很好的檢測(cè)效果。本文模型在兩個(gè)公開(kāi)邊緣檢測(cè)數(shù)據(jù)集上與7種常見(jiàn)邊緣檢測(cè)方法進(jìn)行了比較,表現(xiàn)出了優(yōu)秀的邊緣檢測(cè)性能。
注:本文通訊作者為索依娜。
參考文獻(xiàn)
[1] SUN R, LEI T, CHEN Q, et al. Survey of image edge detection [J]. Frontiers in signal processing, 2022, 2: 826967.
[2] JING J F, LIU S J, WANG G, et al. Recent advances on image edge detection: A comprehensive review [J]. Neurocomputing, 2022, 503: 259?271.
[3] RAHMAWATI S, DEVITA R, ZAIN R H, et al. Prewitt and Canny methods on inversion image edge detection: An evaluation [C]// Journal of physics: Conference series, 2021, 1933(1): 012039.
[4] 李志遠(yuǎn),王光輝.基于傳統(tǒng)邊緣算子的車(chē)道線識(shí)別研究[J].現(xiàn)代電子技術(shù),2024,47(7):61?65.
[5] 李翠錦,瞿中.基于深度學(xué)習(xí)的圖像邊緣檢測(cè)算法綜述[J].計(jì)算機(jī)應(yīng)用,2020,40(11):3280?3288.
[6] TIAN B, WEI W. Research overview on edge detection algorithms based on deep learning and image fusion [J]. Security and communication networks, 2022(1): 1155814.
[7] PENG C, YANG M Q, ZHENG Q H, et al. A triple?thresholds pavement crack detection method leveraging random structured forest [J]. Construction and building materials, 2020, 263: 120080.
[8] BERTASIUS G, SHI J B, TORRESANI L. DeepEdge: A multi?scale bifurcated deep network for top?down contour detection [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 4380?4389.
[9] 劉超超,司亞超.引入注意力機(jī)制的整體嵌套邊緣檢測(cè)網(wǎng)絡(luò)[J].河北建筑工程學(xué)院學(xué)報(bào),2023,41(2):222?228.
[10] WANG Z, ZHU S Q, LI Y H, et al. Convolutional neural network based deep conditional random fields for stereo matching [J]. Journal of visual communication and image representation, 2016, 40: 739?750.
[11] YU Z, FENG C, LIU M Y, et al. CASENet: Deep category?aware semantic edge detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 1761?1770.
[12] WANG X, MA H M, CHEN X Z, et al. Edge preserving and multi?scale contextual neural network for salient object detection [J]. IEEE transactions on image processing, 2018, 27(1): 121?134.
[13] HE J Z, ZHANG S L, YANG M, et al. BDCN: Bi?directional cascade network for perceptual edge detection [J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 44(1): 100?113.
[14] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017. [S.l.: s.n.], 2017: 5998?6008.
[15] LI G Y, BAI Z, LIU Z, et al. Salient object detection in optical remote sensing images driven by transformer [J]. IEEE transactions on image processing, 2023, 32: 5257?5269.
[16] 肖揚(yáng),周軍.圖像邊緣檢測(cè)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(5):40?54.
[17] BERTASIUS G, SHI J B, TORRESANI L. High?for?low and low?for?high: Efficient boundary detection from deep object features and its applications to high?level vision [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 504?512.
[18] SHEN W, WANG X G, WANG Y, et al. DeepContour: A deep convolutional feature learned by positive?sharing loss for contour detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 3982?3991.
[19] MANINIS K K, PONT?TUSET J, ARBELáEZ P A, et al. Convolutional oriented boundaries [C]// Proceedings of the 14th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2016: 580?596.
[20] ISOLA P, ZORAN D, KRISHNAN D, et al. Crisp boundary detection using pointwise mutual information [C]// Proceedings of 13th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2014: 799?814.
[21] HALLMAN S, FOWLKES C C. Oriented edge forests for boundary detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 1732?1740.
[22] WANG X H, LI S, CHEN C, et al. Data?level recombination and lightweight fusion scheme for RGB?D salient object detection [J]. IEEE transactions on image processing, 2021, 30: 458?471.
[23] 楊紅菊,王昱蓉.FMLED:細(xì)粒度級(jí)多尺度特征表示的輕量級(jí)邊緣檢測(cè)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2023,44(4):812?817.
[24] ARBELAEZ P, MAIRE M, FOWLKES C C, et al. Contour detection and hierarchical image segmentation [J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(5): 898?916.
[25] SORIA X, RIBA E, SAPPA A D. Dense extreme inception network: Towards a robust CNN model for edge detection [C]// 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE, 2020: 1912?1921.
作者簡(jiǎn)介:段續(xù)延(1993—),女,河北唐山人,碩士研究生,研究方向?yàn)閳D像處理。
于復(fù)興(1979—),男,河北唐山人,碩士研究生,副教授,研究方向?yàn)閳D像處理。
索依娜(1980—),女,河北秦皇島人,碩士研究生,副教授,研究方向?yàn)閳D像處理。
收稿日期:2024?04?03" " " " " "修回日期:2024?04?26