亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)DeepLabv3+網(wǎng)絡(luò)的圖書書脊分割算法

        2024-01-09 02:46:44姬曉飛張可心唐李榮
        計(jì)算機(jī)應(yīng)用 2023年12期
        關(guān)鍵詞:書脊池化條形

        姬曉飛,張可心,唐李榮

        改進(jìn)DeepLabv3+網(wǎng)絡(luò)的圖書書脊分割算法

        姬曉飛*,張可心,唐李榮

        (沈陽航空航天大學(xué) 自動(dòng)化學(xué)院,沈陽 110136)(?通信作者電子郵箱jixiaofei7804@126.com)

        圖書定位是實(shí)現(xiàn)圖書館智能化發(fā)展的重要技術(shù)之一,精確的書脊分割算法成為實(shí)現(xiàn)該目標(biāo)的一大難題。基于以上情況,提出改進(jìn)DeepLabv3+網(wǎng)絡(luò)的圖書書脊分割算法,以解決圖書密集排列、圖書存在傾斜角度和書脊紋理極相似等情況下的書脊分割難點(diǎn)。首先,為了提取圖書圖像更密集的金字塔特征,將原始DeepLabv3+網(wǎng)絡(luò)中的空洞金字塔池化(ASPP)替換為多空洞率、多尺度的DenseASPP (Dense Atrous Spatial Pyramid Pooling)模塊;其次,針對(duì)原始DeepLabv3+網(wǎng)絡(luò)對(duì)大長(zhǎng)寬比的目標(biāo)對(duì)象分割邊界不敏感的問題,在DenseASPP模塊的支路加入條形池化(SP)模塊以增強(qiáng)書脊的長(zhǎng)條形特征;最后,參考ViT (Vision Transformer)中的多頭自注意(MHSA)機(jī)制,提出一種全局信息增強(qiáng)的自注意模塊,以增強(qiáng)網(wǎng)絡(luò)獲取長(zhǎng)距離特征的能力。將所提算法在開源數(shù)據(jù)庫上進(jìn)行對(duì)比測(cè)試,實(shí)驗(yàn)結(jié)果表明,與原始DeepLabv3+網(wǎng)絡(luò)分割算法相比,所提算法在近豎直書脊數(shù)據(jù)庫上的平均交并比(MIoU)提升了1.8個(gè)百分點(diǎn);在傾斜書脊數(shù)據(jù)庫上的MIoU提升了4.1個(gè)百分點(diǎn),達(dá)到了93.3%。以上驗(yàn)證了所提算法實(shí)現(xiàn)了有一定傾斜角度的、密集的和大長(zhǎng)寬比的書脊目標(biāo)的精確分割。

        書脊分割;智能圖書館;DeepLabv3+網(wǎng)絡(luò);DenseASPP;自注意機(jī)制

        0 引言

        隨著信息化社會(huì)的發(fā)展,讀者數(shù)與館藏量的增加使圖書館傳統(tǒng)查找圖書的方式無法滿足讀者高效獲取圖書的需求,基于圖像處理的圖書自動(dòng)定位方法已經(jīng)成為研究熱點(diǎn)。對(duì)于在架圖書,只有書脊部分可以被觀察到,因此每本圖書書脊的分割是對(duì)圖書實(shí)現(xiàn)精確定位的前提。本文旨在解決在架圖書書脊圖像的分割問題,其中主要的挑戰(zhàn)是:1)圖書擺放數(shù)量較多,屬于密集對(duì)象;2)由于書籍的薄厚不一致,導(dǎo)致書脊具有差別較大的長(zhǎng)寬比;3)相同系列書籍的排放,在紋理上具有極高的重復(fù)或者相似性,難以區(qū)分邊界;4)拍攝角度或者圖書的傾斜擺放使圖像中的書籍呈不同的傾斜角度。

        基于傳統(tǒng)圖像處理的方法主要依靠人工提取特征送入分類器實(shí)現(xiàn),如顏色、紋理和尺度不變特征變換等特征與支持向量機(jī)(Support Vector Machine, SVM)的配合使用。對(duì)于密集排列圖書的分割,最大困難是邊緣部分的分割。Tabassum等[1]和康洪雷等[2]直接通過霍夫直線檢測(cè)或LSD(Line Segment Detection)線段檢測(cè)提取書脊兩側(cè)直線;崔晨等[3]提出了一種基于文本檢測(cè)的書脊區(qū)域粗選方法,利用相似字符提取候選書脊圖像的方向梯度直方圖特征輸入SVM進(jìn)行判斷;Nevetha等[4]提出一種帶有若干啟發(fā)式規(guī)則的線段檢測(cè)器獲取書脊邊緣。這些傳統(tǒng)方法受限于手工提取特征的單一性,容易受到密集排列書脊高紋理區(qū)域的相似性和邊界模糊性的影響,產(chǎn)生錯(cuò)誤的分割線,魯棒性差。

        近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在計(jì)算機(jī)視覺領(lǐng)域,包括圖像分類[5]、目標(biāo)檢測(cè)[6]和語義分割[7]等取得了較好的表現(xiàn)。分割的準(zhǔn)確性由局部特征(顏色和強(qiáng)度)和全局特征(紋理和背景)決定。在不同的CNN變體中,對(duì)稱編碼器-解碼器體系結(jié)構(gòu)命名法U-Net[8]具有突出的細(xì)分潛力。它主要由一系列連續(xù)的卷積層和下采樣層組成,通過收縮路徑捕獲上下文語義信息,然后在解碼器中,用編碼器的橫向連接對(duì)粗粒度深特征和細(xì)粒度淺特征映射進(jìn)行上采樣,以生成精確的分割映射。為了進(jìn)一步提高分割性能,隨后出現(xiàn)了多種U-Net的變體,如UNet++[9]和Res-UNet[10]。但是這種體系結(jié)構(gòu)的感受野大小存在限制,使深度模型無法捕獲足夠的上下文信息,導(dǎo)致在邊界等復(fù)雜區(qū)域分割失敗。為了緩解這個(gè)問題,Chen等[11]提出了DeepLab網(wǎng)絡(luò),引入了一種使用上采樣濾波器的新型卷積操作,即膨脹卷積,以擴(kuò)大濾波器的視野,吸收更大的上下文而不增加計(jì)算量。其次,該網(wǎng)絡(luò)為了能夠捕捉更精細(xì)的細(xì)節(jié),采用條件隨機(jī)場(chǎng)細(xì)化分割結(jié)果。在此基礎(chǔ)上,為了提取目標(biāo)的多尺度特征,Chen等[12]又提出DeepLabv2,該網(wǎng)絡(luò)使用空洞金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模塊實(shí)現(xiàn)對(duì)多尺度對(duì)象的分割,ASPP模塊通過探測(cè)具有不同采樣率的多個(gè)膨脹卷積的特征映射獲取多尺度的信息表示。隨后,DeepLabv3[13]設(shè)計(jì)了一個(gè)帶有膨脹卷積的編碼器-解碼器架構(gòu),以獲得更清晰的對(duì)象邊界,利用深度可分離卷積提高計(jì)算效率。Chen等[14]提出了DeepLabv3+網(wǎng)絡(luò)模型,通過添加一個(gè)簡(jiǎn)單有效的解碼器模塊擴(kuò)展DeepLabv3,以提高分割性能。Deeplab系列網(wǎng)絡(luò)經(jīng)過一系列優(yōu)化,得到了令人滿意的分割效果,成為目前語義分割領(lǐng)域的主流網(wǎng)絡(luò)之一;但由于局部性和權(quán)值共享的歸納偏差[15],它們不可避免地在學(xué)習(xí)遠(yuǎn)程依賴性和空間相關(guān)性方面存在約束,導(dǎo)致復(fù)雜結(jié)構(gòu)的次優(yōu)分割。

        與CNN相比,ViT(Vision Transformer)網(wǎng)絡(luò)[16]具備了學(xué)習(xí)長(zhǎng)距離特征和全局信息的能力,在圖像分割任務(wù)上表現(xiàn)突出;盡管ViT可以捕捉全局上下文信息和長(zhǎng)距離信息,但在捕捉低級(jí)像素信息方面較弱,無法較好完成精確的分割任務(wù)。為了避免ViT的高內(nèi)存需求,Swin Transformer[17]提出了一種具有非重疊窗口的局部計(jì)算的分層ViT。結(jié)合高效的CNN和強(qiáng)大的ViT,研究人員又提出了如Trans-UNet[18]和TransDeepLab[19]等網(wǎng)絡(luò)。此類方法使用Transformer重構(gòu)一個(gè)經(jīng)典的CNN,但增加了模型的復(fù)雜性。文獻(xiàn)[20]中證明,ViT網(wǎng)絡(luò)的優(yōu)越性表現(xiàn)一部分原因是引入了多頭自注意(Multi-Headed Self-Attention, MHSA)機(jī)制,而MHSA能夠?qū)斎氲奶卣魅纸!?/p>

        綜合考慮CNN和ViT的優(yōu)勢(shì),本文提出了改進(jìn)DeepLabv3+網(wǎng)絡(luò)的圖書書脊分割算法,此算法兼具了CNN出色的低級(jí)像素處理能力和ViT對(duì)全局信息建模的能力,在書籍分割中表現(xiàn)出了優(yōu)異的效果。

        本文的主要工作如下:

        1)針對(duì)分布密集的目標(biāo),使用DenseASPP(Dense Atrous Spatial Pyramid Pooling)結(jié)構(gòu)取代ASPP網(wǎng)絡(luò)。在密集目標(biāo)分割任務(wù)上有更好的效果。

        2)引入條形池化(Strip Pooling, SP)模塊,保留書脊的長(zhǎng)條形特征。

        3)參考ViT中的MHSA機(jī)制搭建自注意機(jī)制,并應(yīng)用至CNN,增強(qiáng)特征的上下文信息。

        1 本文算法

        本文算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中為膨脹率。

        圖1 本文算法的網(wǎng)絡(luò)結(jié)構(gòu)

        本文網(wǎng)絡(luò)遵循DeepLabv3+的原始框架,骨干網(wǎng)絡(luò)選用MobileNetV2。將書籍圖像輸入MobileNetV2進(jìn)行特征提取,對(duì)MobileNetV2的中間3層的特征圖進(jìn)行上采樣融合,將融合結(jié)果作為淺層特征。同時(shí),將MobileNetV2的最后一層輸出送入DenseASPP模塊。在編碼階段,本文利用DenseASPP模塊取代ASPP模塊,以產(chǎn)生更大的接受域,生成更密集的圖像特征。對(duì)于書脊長(zhǎng)寬比較大的情況,在DenseASPP模塊中引入條形池化模塊保留長(zhǎng)條形的圖像特征。最后,DenseASPP模塊產(chǎn)生的特征經(jīng)過1×1卷積操作實(shí)現(xiàn)通道壓縮,送入自注意模塊得到深層特征。在譯碼階段,對(duì)淺層特征層利用1×1卷積調(diào)整通道數(shù),送入自注意模塊,與深層特征進(jìn)行拼接,隨后進(jìn)行兩次卷積和一次上采樣操作,得到最終的預(yù)測(cè)結(jié)果。

        1.1 DenseASPP模塊

        針對(duì)書籍圖像這種密集型分割任務(wù),本文引入DenseASPP模塊以生成更密集的特征。它的結(jié)構(gòu)如圖1所示,空洞卷積層以級(jí)聯(lián)方式組織,膨脹率小的層在上部,膨脹率大的層在下部,每一層的膨脹率逐層增加。將每一層的輸出、輸入的特征圖和較低層的所有輸出拼接(Contact),并將這些拼接的特征圖送入下一層。DenseASPP模塊的最終輸出是由多空洞率、多尺度的卷積生成的特征圖。通過一系列的空洞卷積,較后層次的神經(jīng)元獲得越來越大的感受野,避免了ASPP[12]的核退化問題。與ASPP相比,DenseASPP模塊將所有空洞卷積層堆疊在一起,并進(jìn)行緊密的拼接。這種變化主要帶來以下兩個(gè)好處:

        1)更密集的特征金字塔。

        密集抽樣規(guī)模 DenseASPP模塊可以對(duì)不同規(guī)模的輸入進(jìn)行采樣,使用緊密的連接實(shí)現(xiàn)不同膨脹率的不同層次的集成。

        2)更大的接受域。

        膨脹卷積在ASPP中并行工作,而4個(gè)分支在前饋過程中不共享任何信息。相反,DenseASPP模塊中的空洞卷積層通過跳層連接共享信息。小膨脹率和大膨脹率的層之間相互依賴,其中前饋過程不僅構(gòu)成了一個(gè)更密集的特征金字塔,也產(chǎn)生了一個(gè)更大的過濾器感知更大的上下文。

        1.2 條形池化

        在DenseASPP模塊中引入條形池化模塊,如圖2所示。它的核心思想是在空間維度上應(yīng)用了一個(gè)長(zhǎng)條狀的池化卷積核,從而增強(qiáng)捕獲長(zhǎng)距離信息的能力,保留書脊的長(zhǎng)條形特征。它的水平、豎直方向的池化計(jì)算公式分別為:

        結(jié)合圖2,利用式(1)(2)對(duì)輸入張量中的某一像素所在行和列的局部特征值進(jìn)行平均條形池化,得到虛線框內(nèi)最前面的兩個(gè)橫縱條形塊兩部分,對(duì)它們分別進(jìn)行一維卷積操作,將得到的結(jié)果進(jìn)行上采樣至輸入張量大小,然后進(jìn)行特征融合,經(jīng)過卷積、Sigmoid環(huán)節(jié)后與輸入張量按像素相乘得到輸出張量。在上述過程中,實(shí)現(xiàn)了輸出張量中的每個(gè)位置均與輸入張量中的位置建立關(guān)系。輸出張量中以虛線框最右側(cè)的正方形連接到與它具有相同水平或垂直坐標(biāo)的所有位置,實(shí)現(xiàn)了長(zhǎng)條信息的保留。

        圖2 條形池化過程

        1.3 自注意模塊

        圖3 自注意模塊

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集

        2.2 實(shí)驗(yàn)設(shè)計(jì)

        在實(shí)現(xiàn)細(xì)節(jié)上,算法基于PyTorch庫實(shí)現(xiàn),并在單個(gè)NVIDIA RTX 3060 GPU上進(jìn)行訓(xùn)練,處理器為12th Gen Intel Core i5-12400F,批次大小為4(資源限制),初始學(xué)習(xí)率為0.05,使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)作為優(yōu)化方法。采用Dice損失和交叉熵?fù)p失作為目標(biāo)函數(shù),采用L2范數(shù)進(jìn)行模型正則化。使用旋轉(zhuǎn)和翻轉(zhuǎn)技術(shù)作為數(shù)據(jù)增強(qiáng)方法,使得訓(xùn)練集多樣化。分割模型訓(xùn)練分為兩個(gè)部分:1)不考慮正負(fù)樣本的平衡關(guān)系進(jìn)行全網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練的損失如圖4所示;2)當(dāng)訓(xùn)練到損失值基本不下降后,即1 800次左右,將正負(fù)樣本損失比重設(shè)置為1∶8,啟用focal loss繼續(xù)訓(xùn)練。本文采用平均交并比(Mean Intersection over Union, MIoU)指標(biāo)評(píng)價(jià)在測(cè)試集上的分割效果。

        其中:為類數(shù),包含一個(gè)背景;表示真實(shí)標(biāo)簽,表示預(yù)測(cè)標(biāo)簽;為真正例(預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽相同,均為書脊區(qū)域);為假負(fù)例(預(yù)測(cè)結(jié)果為非書脊區(qū)域,真實(shí)標(biāo)簽為書脊區(qū)域);為假正例(預(yù)測(cè)結(jié)果為書脊區(qū)域,真實(shí)標(biāo)簽為非書脊區(qū)域);表示預(yù)測(cè)區(qū)域與手工標(biāo)記區(qū)域的平均交并比。

        2.3 評(píng)估結(jié)果

        2.3.1本文算法的有效性驗(yàn)證

        為了驗(yàn)證本文算法的有效性,對(duì)以上改進(jìn)操作逐一進(jìn)行實(shí)驗(yàn)測(cè)試。實(shí)驗(yàn)基于DeepLabv3+的原始網(wǎng)絡(luò)展開,骨架網(wǎng)絡(luò)選用MobileNetV2,學(xué)習(xí)率為0.002 5,使用相同的線性衰減率,訓(xùn)練次數(shù)為3 000,且不啟用focal loss訓(xùn)練,對(duì)全測(cè)試集(包含近豎直測(cè)試集與傾斜數(shù)據(jù)集)進(jìn)行統(tǒng)計(jì)。

        1)DenseASPP有效性驗(yàn)證。

        在DeepLabv3+網(wǎng)絡(luò)框架中分別使用DenseASPP模塊與ASPP模塊得到分割結(jié)果分別為91.2%,89.3%。使用DenseASPP模塊替換ASPP模塊后,該網(wǎng)絡(luò)分割的準(zhǔn)確率提高了1.9個(gè)百分點(diǎn),驗(yàn)證了DenseASPP模塊的優(yōu)勢(shì)。

        為了降低模型的復(fù)雜度,本文選用大小為3的卷積核和不同膨脹率構(gòu)成空洞卷積層,不同層之間進(jìn)行級(jí)聯(lián),DenseASPP模塊的網(wǎng)絡(luò)層數(shù)對(duì)分割效果的影響,實(shí)驗(yàn)結(jié)果見表1。

        表1DenseASPP模塊的網(wǎng)絡(luò)層數(shù)對(duì)分割效果的影響

        Tab.1 Influence of number of network layers of DenseASPP module on segmentation effect

        從表1可知,當(dāng)網(wǎng)絡(luò)層數(shù)較低或者較高時(shí),對(duì)準(zhǔn)確率均存在一定的影響。當(dāng)網(wǎng)絡(luò)層數(shù)較低時(shí),細(xì)節(jié)信息較少,特征不明顯,因此準(zhǔn)確率不高;當(dāng)網(wǎng)絡(luò)層數(shù)較高時(shí),會(huì)出現(xiàn)過擬合的現(xiàn)象,導(dǎo)致準(zhǔn)確率降低。

        2)自注意模塊有效性驗(yàn)證。

        實(shí)驗(yàn)分別在Xception和MobileNetV2兩種骨架網(wǎng)絡(luò)上進(jìn)行,保留DeepLabv3+網(wǎng)絡(luò)原始框架(DenseASPP模塊代替ASPP模塊),只增加自注意模塊,結(jié)果如表2所示。

        圖5分別展示了經(jīng)過MobileNetV2骨架特征提取后,自注意模塊使用前后,對(duì)書脊上下文特征的影響。相較于圖5(a),圖5(b)得到的書脊特征更清晰。綜上,依據(jù)表2和圖5的結(jié)果,不論采用哪種的特征提取網(wǎng)絡(luò)骨架,在引入自注意模塊后,準(zhǔn)確率均上升,驗(yàn)證了自注意模塊可以關(guān)聯(lián)全局信息,在分割任務(wù)中發(fā)揮重要的作用。

        表2引入自注意模塊前后的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%

        Tab.2 Comparison of experimental results before and after introduction of self-attention module unit:%

        圖5 加入自注意模塊前后的特征可視化對(duì)比

        3)條形池化模塊有效性驗(yàn)證。

        利用DeepLabv3+網(wǎng)絡(luò)原始框架(DenseASPP模塊代替ASPP模塊),比較有無條形池化模塊在書脊分割上的差異,以驗(yàn)證條形池化模塊的應(yīng)用價(jià)值。引入條形池化模塊前后,深層特征和淺層特征融合得到的特征可視化結(jié)果如圖6所示。

        圖6 加入條形池化模塊前后的特征可視化對(duì)比

        相較于圖6(a),圖6(b)在加入條形池化模塊后,使書脊的長(zhǎng)條特征得到了增強(qiáng),但受環(huán)境的影響,如書架橫欄等,也會(huì)被條形池化模塊增強(qiáng)特征,因此可能會(huì)出現(xiàn)一些無關(guān)特征。在總體框架中可利用自注意模塊抑制無關(guān)特征,這也驗(yàn)證了自注意模塊的重要性。

        2.3.2不同算法對(duì)比結(jié)果

        在進(jìn)行不同網(wǎng)絡(luò)分割算法的比較時(shí),將書脊庫劃分為近豎直書脊數(shù)據(jù)庫和傾斜書脊數(shù)據(jù)庫,其中訓(xùn)練集采用傾斜、近豎直混合數(shù)據(jù)進(jìn)行訓(xùn)練。為了考察書脊的傾斜給各類算法帶來的影響,分別在近豎直與傾斜兩組測(cè)試數(shù)據(jù)庫上進(jìn)行對(duì)比。不同網(wǎng)絡(luò)分割算法的對(duì)比測(cè)試結(jié)果見表3。

        表3不同網(wǎng)絡(luò)分割算法在開源數(shù)據(jù)庫上的測(cè)試結(jié)果

        Tab.3 Test results of different network segmentation algorithms on open-source database

        注:*代表相應(yīng)文獻(xiàn)提供開源代碼和默認(rèn)參數(shù)在本文數(shù)據(jù)集上進(jìn)行重新訓(xùn)練得到的測(cè)試結(jié)果。

        1)近豎直書脊測(cè)試結(jié)果。

        從表3可以看出,本文算法在近豎直書脊數(shù)據(jù)庫上表現(xiàn)較好。其中,Mask R-CNN(Mask Region-based CNN)使用了區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN),該網(wǎng)絡(luò)只能生成規(guī)模、尺寸不同的矩形框,但由于書籍的密集性導(dǎo)致此類方法的分割效果不佳。DeepLabv3+網(wǎng)絡(luò)沒有對(duì)單個(gè)目標(biāo)設(shè)計(jì)全卷積特征提取網(wǎng)絡(luò),這使得該算法在對(duì)長(zhǎng)寬比例差異大的對(duì)象進(jìn)行檢測(cè)和分割時(shí)效果較差,而且在目標(biāo)密集分布的情況下更突顯。本文對(duì)DeepLabv3+網(wǎng)絡(luò)進(jìn)行改進(jìn),雖然在一定程度上增加了模型的復(fù)雜度,但同時(shí)大幅增強(qiáng)了分割算法對(duì)書脊特征的表征能力,在近豎直書脊數(shù)據(jù)庫上的測(cè)試結(jié)果也驗(yàn)證了本文算法對(duì)于書脊分割的優(yōu)勢(shì)。

        2)傾斜書脊測(cè)試結(jié)果。

        從表3中在傾斜書脊數(shù)據(jù)庫的測(cè)試結(jié)果可以看出,Mask R-CNN在傾斜書脊方面的應(yīng)用效果較差。改進(jìn)Mask R-CNN算法[22]采用Mask R-CNN與旋轉(zhuǎn)特征提取方法(Rotation Feature Extraction, RFE)結(jié)合的算法,使用旋轉(zhuǎn)區(qū)域生成網(wǎng)絡(luò)(Rotation Region Proposal Network, RRPN)替換RPN,除了大小、比例外,引入一個(gè)角度參數(shù)優(yōu)化Mask R-CNN。該方法可有效地避免RPN帶來的角度適應(yīng)性問題,取得了優(yōu)于本文算法的檢測(cè)準(zhǔn)確率,但它大幅增加了學(xué)習(xí)參數(shù)的數(shù)量,提高了模型的復(fù)雜度,在近豎直書脊數(shù)據(jù)庫上表現(xiàn)較差。

        綜上所述,本文算法在書脊分割上有較好的表現(xiàn)。與原始DeepLabv3+網(wǎng)絡(luò)分割算法相比,在相同的特征提取網(wǎng)絡(luò)和相同訓(xùn)練次數(shù)下,所提算法在近豎直書脊數(shù)據(jù)庫上的平均交并比(MIoU)提升了1.8個(gè)百分點(diǎn);在傾斜書脊數(shù)據(jù)庫上的平均交并比提升了4.1個(gè)百分點(diǎn),達(dá)到了93.3%。在相同操作系統(tǒng)下,相較于Mask R-CNN系列,訓(xùn)練參數(shù)更少,但性能大幅提高。在相同數(shù)據(jù)集下,文獻(xiàn)[21]測(cè)試了不同分割算法下的分割效果。其中FCN(Fully Convolutional Network)模型結(jié)構(gòu)包括FCN32s、FCN16s等結(jié)構(gòu),32s即從32倍下采樣的特征圖恢復(fù)至輸入大小,16s則從16倍下采樣恢復(fù)至輸入大小。理論上,該數(shù)字越小,網(wǎng)絡(luò)使用的反卷積層進(jìn)行上采樣的操作越多,對(duì)應(yīng)的模型結(jié)構(gòu)更復(fù)雜,理論分割效果更精細(xì)。具體的測(cè)試結(jié)果為:FCN16s、FCN32s、SegNet、U-Net和DeepLabv3的分割效果(采用MIoU指標(biāo))分別為0.816 0、0.819 3、0.866 0、0.875 0和0.918 6。其中DeepLabv3表現(xiàn)效果最佳,進(jìn)一步驗(yàn)證了其他分割算法對(duì)長(zhǎng)條形特征目標(biāo)的適用性較差,突出了Deeplab系列網(wǎng)絡(luò)的優(yōu)越性。

        圖7為不同算法的分割效果。DeepLabv3+網(wǎng)絡(luò)的分割效果如圖7(a)所示,它在密集目標(biāo)中效果較好,但存在邊界分割不清的問題。如圖7(b)所示,Mask R-CNN在近豎直的目標(biāo)上表現(xiàn)一般,且遭遇傾斜目標(biāo)時(shí)容易被相鄰目標(biāo)干擾,甚至出現(xiàn)大量漏檢現(xiàn)象。本文算法分割效果如圖7(c)所示,該算法對(duì)密集、具有一定傾斜的目標(biāo)分割效果較穩(wěn)定,尤其對(duì)于相鄰目標(biāo)的掩膜預(yù)測(cè)有更高的隔離性,不會(huì)出現(xiàn)其他算法中相鄰目標(biāo)相互影響的情況,有效地提高了分割的準(zhǔn)確率。

        圖7 不同算法的分割效果

        3 結(jié)語

        本文提出了一種DeepLabv3+改進(jìn)網(wǎng)絡(luò)的圖書書脊分割算法,用于分割密集排列且?guī)в幸欢▋A斜角度的書脊圖像。本文還提出了一個(gè)即插即用的增強(qiáng)全局信息的自注意模塊;使用DenseASPP模塊替換ASPP模塊提取更密集、更廣范圍的書脊特征;在DenseASPP模塊的支路上插入條形池化模塊,增強(qiáng)書脊的長(zhǎng)條特性。實(shí)驗(yàn)結(jié)果表明,本文算法可以增強(qiáng)原網(wǎng)絡(luò)對(duì)密集、大長(zhǎng)寬比和傾斜目標(biāo)的分割效果,相較于其他算法具有較大的優(yōu)勢(shì)。同時(shí)本文算法也可以擴(kuò)展到航拍的規(guī)則目標(biāo)分割、密集目標(biāo)分割等場(chǎng)景。下一步將進(jìn)一步研究提升分割算法對(duì)拍攝角度差異的適應(yīng)性。

        [1] TABASSUM N, CHOWDHURY S, HOSSEN M K, et al. An approach to recognize book title from multi-cell bookshelf images [C]// Proceedings of the 2017 IEEE International Conference on Imaging, Vision & Pattern Recognition. Piscataway: IEEE, 2017:1-6.

        [2] 康洪雷,牛連強(qiáng),馮庸,等.基于視覺的錯(cuò)序在架圖書檢測(cè)系統(tǒng)[J].軟件工程,2018,21(4):18-22.(KANG H L, NIU L Q, FENG Y, et al. A vision-based system to detect books with incorrect sequence on shelf [J]. Software Engineering, 2018, 21(4):18-22.)

        [3] 崔晨,任明武.一種基于文本檢測(cè)的書脊定位方法[J].計(jì)算機(jī)與數(shù)字工程,2020,48(1):178-182,251.(CUI C, REN M W. A spine location method based on text detection [J]. Computer and Digital Engineering, 2020, 48(1): 178-182,251.)

        [4] NEVETHA M P, BARSKAR A. Automatic book spine extraction and recognition for library inventory management [C]// Proceedings of the 3rd International Symposium on Women in Computing and Informatics. New York: ACM, 2015:44-48.

        [5] U?KUN F A, ?ZER H, NURBA? E, et al. Direction finding using convolutional neural networks and convolutional recurrent neural networks [C]// Proceedings of the 2020 28th Signal Processing and Communications Applications Conference. Piscataway: IEEE, 2020:1-4.

        [6] CAI W, HU D. QRS complex detection using novel deep learning neural networks [J]. IEEE Access, 2020, 8: 97082-97089.

        [7] SAXENA N, K B N, RAMAN B. Semantic segmentation of multispectral images using Res-Seg-net model [C]// Proceedings of the 2020 IEEE 14th International Conference on Semantic Computing. Piscataway: IEEE, 2020:154-157.

        [8] ZHANG Z, LIU Q, WANG Y. Road extraction by deep residual U-Net [J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5): 749-753.

        [9] ZHOU Z, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: a nested U-Net architecture for medical image segmentation [EB/OL]. (2018-07-18)[2022-12-18]. https://arxiv.org/pdf/1807.10165.pdf.

        [10] CAO K, ZHANG X. An improved Res-UNet model for tree species classification using airborne high-resolution images [J]. Remote Sensing, 2020, 12(7): 1128.

        [11] CHEN L-C, PAPANDREOU G, KOKKINOS I. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. (2014-12-22)[2022-12-18]. https://arxiv.org/ pdf/1412. 7062.pdf.

        [12] CHEN L-C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848.

        [13] CHEN L-C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. (2017-06-05)[2022-12-18]. https://arxiv.org/pdf/1706.05587.pdf.

        [14] CHEN L-C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [EB/OL]. (2018-08-22)[2022-12-18]. https://arxiv.org/pdf/1802.02611.pdf.

        [15] XIE Y, ZHANG J, SHEN C, et al. CoTr: efficiently bridging CNN and Transformer for 3D medical image segmentation [C]// Proceedings of the 2021 International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2021: 171-180.

        [16] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2020-10-22)[2022-12-18]. https://arxiv.org/pdf/2010. 1192 9v2.pdf.

        [17] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows [EB/OL]. (2021-08-17)[2022-12-18]. https://arxiv.org/pdf/2103.14030v2.pdf.

        [18] CHEN J, LU Y, YU Q, et al. TransUNet: Transformers make strong encoders for medical image segmentation [EB/OL]. (2021-02-08)[2022-12-18]. https://arxiv.org/pdf/2102.04306v1.pdf.

        [19] AZAD R, HEIDARI M, SHARIATNIA M, et al. TransDeepLab: convolution-free Transformer-based DeepLabv3+ for medical image segmentation [EB/OL]. (2022-08-01)[2022-12-18]. https://arxiv.org/pdf/2208.00713.pdf.

        [20] SRINIVAS A, LIN T-Y, PARMAR N, et al. Bottleneck Transformers for visual recognition [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2021: 16514-16524.

        [21] 曾文雯,楊陽,鐘小品.一種用于在架圖書書脊語義分割的山字形網(wǎng)絡(luò)[J].圖像與信號(hào)處理, 2020, 9(4): 218-225.(ZENG W W, YANG Y, ZHONG X P. A mountain-shaped network for semantic segmentation of books spines on-shelves [J]. Image and Signal Processing, 2020, 9(4): 218-225.)

        [22] 曾文雯,楊陽,鐘小品. 基于改進(jìn)Mask R-CNN的在架圖書書脊圖像實(shí)例分割方法[J].計(jì)算機(jī)應(yīng)用研究, 2021,38(11):3456-3459,3505.(ZENG W W, YANG Y, ZHONG X P. Improved Mask R-CNN based instance segmentation method for spine image of books on shelves [J]. Application Research of Computers, 2021, 38(11):3456-3459,3505.)

        Book spine segmentation algorithm based on improved DeepLabv3+ network

        JI Xiaofei*, ZHANG Kexin, TANG Lirong

        (,,110136,)

        The location of books is one of the critical technologies to realize the intelligent development of libraries, and the accurate book spine segmentation algorithm has become a major challenge to achieve this goal. Based on the above solution, an improved book spine segmentation algorithm based on improved DeepLabv3+ network was proposed, aiming to solve the difficulties in book spine segmentation caused by dense arrangement, skew angles of books, and extremely similar book spine textures. Firstly, to extract more dense pyramid features of book images, the Atrous Spatial Pyramid Pooling (ASPP) in the original DeepLabv3+ network was replaced by the multi-dilation rate and multi-scale DenseASPP (Dense Atrous Spatial Pyramid Pooling) module. Secondly, to solve the problem of insensitivity of the original DeepLabv3+ network to the segmentation boundaries of objects with large aspect ratios, Strip Pooling (SP) module was added to the branch of the DenseASPP module to enhance the strip features of book spines. Finally, based on the Multi-Head Self-Attention (MHSA) mechanism in ViT (Vision Transformer), a global information enhancement-based self-attention mechanism was proposed to enhance the network’s ability to obtain long-distance features. The proposed algorithm was tested and compared on an open-source database, and the experimental results show that compared with the original DeepLabv3+ network segmentation algorithm, the proposed algorithm improves the Mean Intersection over Union (MIoU) by 1.8 percentage points on the nearly vertical book spine database and by 4.1 percentage points on the skewed book spine database, and the latter MIoU of the proposed algorithm achieves 93.3%. The above confirms that the proposed algorithm achieves accurate segmentation of book spine targets with certain skew angles, dense arrangement, and large aspect ratios.

        book spine segmentation; intelligent library; DeepLabv3+ network; DenseASPP (Dense Atrous Spatial Pyramid Pooling); self-attention mechanism

        This work is partially supported by Key Projects of Liaoning Provincial Department of Education (LJKZZ20220033).

        JI Xiaofei, born in 1978, Ph. D., associate professor. Her research interests include video analysis and processing, pattern recognition.

        ZHANG Kexin, born in 1996, M. S. candidate. Her research interests include image processing, video analysis and processing.

        TANG Lirong, born in 2000, M. S. candidate. His research interests include image processing, video analysis and processing.

        TP391.1

        A

        1001-9081(2023)12-3927-06

        10.11772/j.issn.1001-9081.2022121887

        2022?12?22;

        2023?03?21;

        2023?03?22。

        遼寧省教育廳重點(diǎn)攻關(guān)項(xiàng)目(LJKZZ20220033)。

        姬曉飛(1978—),女,遼寧鞍山人,副教授,博士,主要研究方向:視頻分析與處理、模式識(shí)別;張可心(1996—),女,遼寧錦州人,碩士研究生,主要研究方向:圖像處理、視頻分析與處理;唐李榮(2000—),男,四川南充人,碩士研究生,主要研究方向:圖像處理、視頻分析與處理。

        猜你喜歡
        書脊池化條形
        書脊畫畫
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計(jì)
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        各式各樣的復(fù)式條形統(tǒng)計(jì)圖
        條形鐵皮自動(dòng)折邊機(jī)構(gòu)設(shè)計(jì)
        活力(2019年19期)2020-01-06 07:35:54
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
        能裝訂書脊的訂書機(jī)
        能對(duì)書脊裝訂的訂書機(jī)
        某沿海電廠全封閉條形煤場(chǎng)和圓形煤場(chǎng)的技術(shù)和經(jīng)濟(jì)性比較
        午夜福利一区在线观看中文字幕| www.日本一区| 日本红怡院东京热加勒比| 国产一区二区三区视频在线观看 | 99精品国产av一区二区| 麻豆国产精品一区二区三区| 亚洲av永久无码天堂网小说区 | 精品免费福利视频| 国产丝袜美腿诱惑在线观看| 亚洲精品视频中文字幕| 亚洲av综合a色av中文| 97se在线| 日韩精品不卡一区二区三区| 中文字幕精品人妻在线| 无码人妻精品一区二区| 色婷婷综合激情| 中文字幕精品乱码一区| 日日噜噜夜夜狠狠视频| 无码精品日韩中文字幕| 91国在线啪精品一区| av国产免费在线播放| 精品久久久久久无码中文野结衣| 成午夜福利人试看120秒| 毛片亚洲av无码精品国产午夜| 国产美女在线精品免费观看网址| 中文字幕大乳少妇| 国产黑丝美女办公室激情啪啪| 内射人妻视频国内| 久久精品国波多野结衣| 大红酸枝极品老料颜色| 亚洲狠狠婷婷综合久久久久 | 97色在线视频| 免费看黄在线永久观看| 色窝窝亚洲av网在线观看| 人人玩人人添人人澡| 在线你懂| 国产乱人精品视频av麻豆网站| 成人国内精品久久久久一区| 连续高潮喷水无码| 狠狠综合久久av一区二区三区| 日韩av无码久久一区二区|