亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于熱圖感知的復(fù)雜場(chǎng)景港口箱號(hào)檢測(cè)算法

        2023-11-13 01:37:30陳平平林鍵輝黃勝秋涂橋橋
        無(wú)線電工程 2023年11期
        關(guān)鍵詞:區(qū)域檢測(cè)

        游 索,陳平平*,林鍵輝,黃勝秋,涂橋橋

        (1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 350003;2.華輝建工集團(tuán)有限公司,福建 福州 350800;3.福建省順天億建設(shè)有限公司,福建 龍巖 364105;4.福建領(lǐng)航園林工程有限公司,福建 廈門(mén) 361023)

        0 引言

        隨著文字識(shí)別場(chǎng)景的日益復(fù)雜,對(duì)自然場(chǎng)景下文字識(shí)別的需求也愈發(fā)強(qiáng)烈。場(chǎng)景文字識(shí)別(Scene Text Recognition, STR)成為研究熱點(diǎn),它是OCR的子問(wèn)題,主要任務(wù)是將自然場(chǎng)景中的文字提取出來(lái)并轉(zhuǎn)化成字符形式。相較于傳統(tǒng) OCR 技術(shù),STR 具有更多的挑戰(zhàn),例如字體多樣性、多尺度、任意形狀、光照、背景和模糊等[1]。

        雖然近年來(lái)深度學(xué)習(xí)在STR中的應(yīng)用有效解決了上述問(wèn)題,但針對(duì)特定的應(yīng)用場(chǎng)景,這些通用的STR算法無(wú)法很好地解決文本識(shí)別問(wèn)題。本文面向集裝箱運(yùn)輸及管理的自動(dòng)化和智能化需求,旨在設(shè)計(jì)一個(gè)高效的集裝箱箱號(hào)的文字檢測(cè)算法。

        為了構(gòu)建更加精準(zhǔn)、高效的檢測(cè)網(wǎng)絡(luò),基于已有的文本檢測(cè)和識(shí)別研究,同時(shí)利用集裝箱箱號(hào)空間排布和字符分布等特征,創(chuàng)新性地提出了一種基于熱圖感知的集裝箱箱號(hào)檢測(cè)識(shí)別算法,能夠在箱號(hào)傾斜、字符不清晰等背景復(fù)雜的港口集裝箱圖像中精準(zhǔn)地檢測(cè)圖像中的箱號(hào),解決了該場(chǎng)景下的算法難點(diǎn)和應(yīng)用的技術(shù)瓶頸。首先,設(shè)計(jì)了融合卷積塊注意力機(jī)制(Convolutional Block Attention Module,CBAM)[2]的MobileNetV3[3]輕量級(jí)網(wǎng)絡(luò)對(duì)箱號(hào)框進(jìn)行初定位,充分利用初定位網(wǎng)絡(luò)高效地檢測(cè)出矩形箱號(hào)框;接著提出像素級(jí)字符區(qū)域自適應(yīng)網(wǎng)絡(luò)(Pixel-level Character Region Adaptive Module,PCAM) ,用于初定位箱號(hào)優(yōu)化,PCAM利用基于Transformer[4]自適應(yīng)網(wǎng)絡(luò)得到圖像的字符級(jí)別熱圖,通過(guò)最小二乘法算法結(jié)合圖像形態(tài)學(xué)處理方法,得到精準(zhǔn)的任意方向箱號(hào)區(qū)域。實(shí)驗(yàn)結(jié)果表明,能夠達(dá)到97.5%的箱號(hào)定位準(zhǔn)確率,滿足實(shí)際應(yīng)用的實(shí)時(shí)性,為集裝箱箱號(hào)的精準(zhǔn)檢測(cè)提供了新思路。

        1 相關(guān)工作

        集裝箱箱號(hào)的檢測(cè)總體可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法,其中常用的傳統(tǒng)箱號(hào)檢測(cè)方法有基于數(shù)學(xué)形態(tài)學(xué)、基于邊緣特征和基于最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions,MSER)。王炎等[5]提出了一種基于數(shù)學(xué)形態(tài)學(xué)的箱號(hào)定位方法,利用膨脹、腐蝕等基本運(yùn)算處理圖像,通過(guò)改進(jìn)形態(tài)學(xué)結(jié)構(gòu)元素對(duì)箱號(hào)進(jìn)行定位。黃深廣等[6]提出基于字符邊緣特征的定位方法,利用字符的邊緣特征信息對(duì)集裝箱號(hào)進(jìn)行定位。王冬云等[7]提出了一種基于導(dǎo)向?yàn)V波Retinex和自適應(yīng)Canny的圖像邊緣檢測(cè)算法細(xì)化圖像邊緣。沈寒蕾等[8]利用一種最大穩(wěn)定極值區(qū)域的方法,通過(guò)灰度化的方法得到圖像最大S穩(wěn)定極值區(qū)域,再進(jìn)行后處理,完成對(duì)集裝箱號(hào)定位。上述傳統(tǒng)的圖像學(xué)處理方法對(duì)背景較復(fù)雜的圖像進(jìn)行檢測(cè)有一定的局限性,且檢測(cè)速度相對(duì)較低。隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法無(wú)論是在檢測(cè)精度還是在速度上都有著出色的效果。利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征用于分類(lèi)問(wèn)題,比較經(jīng)典的目標(biāo)檢測(cè)網(wǎng)絡(luò)有SSD[9]、R-CNN[10]、Fast R-CNN[11]等。2015年,Redmon等[12]提出了YOLO目標(biāo)檢測(cè)算法,用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像特征提取,用回歸的思想做分類(lèi)問(wèn)題,有著較高的檢測(cè)速度和準(zhǔn)確率。崔循[13]將YOLOv3[14]用于集裝箱箱號(hào)的檢測(cè);劉岑等[15]通過(guò)修改YOLOv3網(wǎng)絡(luò),將輸入改為單通道,都有著較好于傳統(tǒng)方法的檢測(cè)效果。

        在集裝箱箱號(hào)的檢測(cè)中,無(wú)論是傳統(tǒng)圖像處理方法,還是深度學(xué)習(xí),在解決箱號(hào)的初定位之后,由于實(shí)地檢測(cè)時(shí)拍攝角度或者集裝箱??糠较虻牟淮_定,都不可避免地要對(duì)初定位區(qū)域的箱號(hào)字符進(jìn)行傾斜校正處理,達(dá)到最佳的檢測(cè)效果,以滿足后續(xù)識(shí)別的要求。常用的傾斜校正方法有基于投影分析法[16]、基于分塊質(zhì)心法[17]、基于Hough變換法[18]和基于最小外接矩形法[19]。以上方法對(duì)長(zhǎng)串字符的傾斜校正都依賴(lài)于單個(gè)字符在圖像中的具體位置,位置的獲取基本上是通過(guò)圖像二值化獲得字符所在的連通區(qū)域來(lái)實(shí)現(xiàn)。然而在實(shí)際的箱號(hào)檢測(cè)中,用圖像二值化獲取字符位置的方法魯棒性能較差。因?yàn)樵趯?shí)地拍攝時(shí),很容易遇到光線不均的問(wèn)題,運(yùn)用二值化時(shí)強(qiáng)光或者背光的區(qū)域會(huì)被當(dāng)成字符。此外,在初定位的箱號(hào)區(qū)域內(nèi),除了目標(biāo)字符外,還有距離目標(biāo)字符非常近的干擾字符,當(dāng)初定位框比較大時(shí),其他位置的字符,如公司logo、箱型尺寸等文本信息也會(huì)框進(jìn)來(lái),進(jìn)而影響傾斜校正的結(jié)果。

        2 主要方法

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本文設(shè)計(jì)了一種由融合CBAM的MobileNetV3輕量級(jí)初定位網(wǎng)絡(luò)和PCAM模塊組成的箱號(hào)檢測(cè)網(wǎng)絡(luò),如圖1所示。對(duì)于采集的箱號(hào)文本圖像,首先由箱號(hào)初定位網(wǎng)絡(luò)輸出該文本的初定位矩形框。但是該階段輸出的箱號(hào)框往往會(huì)出現(xiàn)多框、漏框及框不準(zhǔn)等情況,需對(duì)候選框進(jìn)行優(yōu)化。為了解決這些問(wèn)題,進(jìn)一步提出了PCAM,通過(guò)挖掘箱號(hào)字符熱圖信息,引入最小二乘算法,最終得到優(yōu)化后的四邊形箱號(hào)框。

        圖1 系統(tǒng)流程Fig.1 System flowchart

        2.2 融合CBAM的MobileNetV3輕量級(jí)網(wǎng)絡(luò)

        為了提高箱號(hào)初定位階段的算法實(shí)時(shí)性,采用MobileNetV3作為網(wǎng)絡(luò)主干,以特征金字塔結(jié)構(gòu)(Feature Pyramid Network, FPN)為基礎(chǔ),加入CBAM注意力模塊來(lái)平衡檢測(cè)速度和精度。

        設(shè)計(jì)的融合CBAM的MobileNetV3輕量級(jí)網(wǎng)絡(luò),主干輸出3個(gè)尺度的箱號(hào)文本特征圖,圖像尺寸分別為13 pixel×13 pixel、26 pixel×26 pixel、52 pixel×52 pixel。然后通過(guò)FPN,將箱號(hào)特征圖進(jìn)行多尺度特征融合。接著將融合得到的3個(gè)特征圖輸入到CBAM注意力機(jī)制模塊。通過(guò)卷積進(jìn)行特征圖的平滑處理,得到通道數(shù)為21的3種不同尺度箱號(hào)特征圖。最后通過(guò)網(wǎng)絡(luò)的檢測(cè)頭以及非極大值抑制,得到箱號(hào)框。融合CBAM的MobileNetV3網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖2 融合CBAM的MobileNetV3輕量級(jí)的箱號(hào)初定位網(wǎng)絡(luò)Fig.2 MobileNetV3 lightweight coarse positioning network fused with CBAM

        2.3 PCAM模塊

        針對(duì)箱號(hào)字符呈直線排布的規(guī)律,提出了PCAM,如圖3所示。

        具體而言,PCAM設(shè)計(jì)了一個(gè)基于Transformer的字符熱圖生成網(wǎng)絡(luò),預(yù)測(cè)圖像中每一個(gè)字符熱圖信息,并利用熱圖非剛性邊界真值區(qū)的域像素值大小關(guān)系,獲取字符中心點(diǎn)的位置,然后對(duì)中心點(diǎn)進(jìn)行直線擬合,得到擬合直線與目標(biāo)箱號(hào)字符所在像素組成的連通域,并將此區(qū)域作為最終目標(biāo)箱號(hào)區(qū)域。

        圖3 PCAMFig.3 PCAM

        2.3.1 字符熱圖生成網(wǎng)絡(luò)

        字符熱圖生成網(wǎng)絡(luò)的目標(biāo)是精確定位自然圖像中的每個(gè)字符區(qū)域,以更好地找到字符的中心點(diǎn)。為此,本文訓(xùn)練的數(shù)據(jù)集采用合成文本(Synthtxt)[20]數(shù)據(jù)集,獲取圖像中每一個(gè)文本的熱圖標(biāo)簽再進(jìn)行訓(xùn)練。在PCAM中,利用基于Transformer的字符熱圖生成網(wǎng)絡(luò),生成單字符熱圖。將Swin Transformer[21]作為主干網(wǎng)絡(luò),分別得到原圖1/4、1/8、1/16、1/32 pixel大小的特征圖{C1、C2、C3、C4}。這些特征圖通過(guò)FPN結(jié)構(gòu)融合得到特征圖{P1、P2、P3}:

        式中:ReLU()表示激活函數(shù),Bn()表示標(biāo)準(zhǔn)化,Conv()表示卷積核為3×3的卷積層,UpSample()為2倍上采樣層。

        特征圖{P2、P3、C4}經(jīng)過(guò)卷積平滑操作和上采樣,得到P1相同尺寸的128維特征圖,P1只進(jìn)行卷積平滑操作。然后將{P1,P2,P3,C4}通道連接在一起得到通道數(shù)為512的特征圖F:

        F=Concat(P1,P2,P3,C4)。

        (4)

        此時(shí)特征圖F已經(jīng)具有了高層和底層相融合的豐富語(yǔ)義信息,然后將F輸入卷積預(yù)測(cè)頭得到字符級(jí)別熱圖。字符熱圖生成網(wǎng)絡(luò)整體結(jié)構(gòu)如圖4所示。

        圖4 字符熱圖生成網(wǎng)絡(luò)Fig.4 Character heatmap generating network

        2.3.2 基于最小二乘法的箱號(hào)精準(zhǔn)定位算法

        由字符熱圖生成網(wǎng)絡(luò)輸出的文本區(qū)域,每個(gè)像素值的大小能夠反映其對(duì)應(yīng)文本中心坐標(biāo)的概率大小,其中字符中心坐標(biāo)像素的值大于等于其四周像素值。為了對(duì)箱號(hào)直線區(qū)域進(jìn)行擬合,本文設(shè)計(jì)像素遍歷算法,利用字符熱圖生成網(wǎng)絡(luò)輸出的熱圖,將初定位預(yù)選框內(nèi)每一個(gè)字符的中心點(diǎn)標(biāo)記出來(lái),如圖5所示。

        圖5 字符中心點(diǎn)示例Fig.5 Example of character center point

        上述過(guò)程充分利用了文本熱圖區(qū)域分?jǐn)?shù)據(jù),得到了字符中心點(diǎn)的坐標(biāo)。為了能將初定位網(wǎng)絡(luò)輸出的預(yù)選框內(nèi)呈直線排布的字符連接在一起,滿足最后連通域選取箱號(hào)區(qū)域的要求,采取最小二乘法擬合的方法。

        設(shè)直線方程y=ax+b,根據(jù)最小二乘法的原理,擬合出來(lái)的直線與輸入的每一個(gè)點(diǎn)的距離平方和最小,其目標(biāo)函數(shù)為:

        (5)

        當(dāng)F最小時(shí),對(duì)目標(biāo)函數(shù)求偏導(dǎo),參數(shù)a、b滿足:

        (6)

        可得方程組:

        (7)

        解上述方程組得到a、b的值,即得到擬合的直線。箱號(hào)精準(zhǔn)定位過(guò)程示例如圖6所示,其中矩形框?yàn)槌醵ㄎ痪W(wǎng)絡(luò)輸出的檢測(cè)框。通過(guò)最小二乘法擬合直線后,在圖6(b)即文本區(qū)域分圖像內(nèi),將直線所在的像素點(diǎn)設(shè)置為255,然后對(duì)該圖進(jìn)行圖像二值化處理,接著通過(guò)連通域法,將直線所在的連通域選取出來(lái),連通域采取8鄰接規(guī)則。最后通過(guò)最小外接矩形算法,得到目標(biāo)連通區(qū)域的最小外接矩形4個(gè)頂點(diǎn)的坐標(biāo),即為最后箱號(hào)精準(zhǔn)定位的結(jié)果。

        在實(shí)際的集裝箱號(hào)檢測(cè)中,字符方向的直線擬合往往會(huì)受到干擾字符的影響,特別是檢測(cè)傾斜橫排集裝箱號(hào),初定位網(wǎng)絡(luò)可能會(huì)框到多余的干擾字符。為擬合目標(biāo)字符方向上的最佳直線、消除目標(biāo)外字符的干擾,本文采取二次擬合的方案。具體方法為:在第一次擬合后,分別計(jì)算每一個(gè)參與擬合的點(diǎn)到擬合直線的距離,得到距離最小的4個(gè)像素點(diǎn)后再次擬合(若初定位網(wǎng)絡(luò)輸出矩形框內(nèi)中心坐標(biāo)點(diǎn)≤4,則不進(jìn)行二次擬合)。圖7為擬合一次與二次擬合過(guò)程效果對(duì)比的一個(gè)示例,圖7(a)的矩形框?yàn)槌醵ㄎ痪W(wǎng)絡(luò)檢測(cè)矩形框,其中上排為一次擬合,下排為二次擬合。通過(guò)實(shí)際的檢測(cè)統(tǒng)計(jì),二次擬合相比只擬合一次,可取得更好的直線擬合效果,獲得更加精準(zhǔn)的箱號(hào)檢測(cè)效果。

        圖7 一次擬合與二次擬合對(duì)比Fig.7 Comparison of primary and secondary fitting

        3 實(shí)驗(yàn)結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文實(shí)驗(yàn)實(shí)測(cè)樣本均采集于福建江陰港口,來(lái)源于人工多角度隨機(jī)拍攝和攝像頭定點(diǎn)拍攝的1 500張照片。所測(cè)試樣本包含了晝、夜樣本,分辨率為1 920 pixel×1 080 pixel,排列方式有橫排和豎排2種,且包含了不同的集裝箱箱型、光照條件、傾斜角度、不同箱號(hào)大小以及不同的自然環(huán)境下的樣本,每一張圖片有箱號(hào)目標(biāo)數(shù)量1~5個(gè)不等,共4 290個(gè)箱號(hào)個(gè)體。

        3.2 實(shí)驗(yàn)環(huán)境

        本次測(cè)試的實(shí)驗(yàn)硬件環(huán)境為 Intel i7-3770 CPU @3.40 GHz ,內(nèi)存16 GB RAM,GPU 為NVIDIA 3060Ti,軟件環(huán)境為 Ubuntu 18.04 操作系統(tǒng),使用PyCharm編譯工具。

        3.3 實(shí)驗(yàn)結(jié)果分析

        為測(cè)試箱號(hào)初定位融合CBAM的MobileNetV3輕量級(jí)網(wǎng)絡(luò)的表現(xiàn),在現(xiàn)有數(shù)據(jù)集基礎(chǔ)上,本文網(wǎng)絡(luò)同經(jīng)典目標(biāo)檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn),并選用平均精準(zhǔn)度均值(mAP)和平均定位速度作為評(píng)價(jià)指標(biāo)來(lái)衡量不同算法的綜合性能。箱號(hào)初定位與其他算法對(duì)比結(jié)果如表1所示。

        由表1可以看出,融合CBAM的MobileNetV3輕量級(jí)網(wǎng)絡(luò)在mAP和平均定位速度2個(gè)指標(biāo)上都比YOLOv3和Faster R-CNN高,mAP達(dá)到了91.7%、速度達(dá)到了44.3 幀/秒;盡管精度略遜色于YOLOv5,但是在速度上與之相比提高了4.7 幀/秒,可見(jiàn)本文初定位網(wǎng)絡(luò)在保證檢測(cè)速度的同時(shí),確保了初定位基本的精度要求。

        表1 不同算法初定位準(zhǔn)確率和速度對(duì)比Tab.1 Comparison of coarse positioning accuracy and speed of different algorithms

        為了驗(yàn)證本文提出的箱號(hào)檢測(cè)算法及整體識(shí)別算法性能,其中檢測(cè)部分與YOLOv3、YOLOv5、Faster R-CNN、文獻(xiàn)[22]的基于最大穩(wěn)定極值區(qū)域(MSER)和連通域分析方法進(jìn)行對(duì)比。

        對(duì)于定位準(zhǔn)確率的計(jì)算,本文對(duì)目標(biāo)箱號(hào)區(qū)域做了四邊形的標(biāo)注,當(dāng)預(yù)測(cè)框與四邊形標(biāo)注框的交并比值大于0.7時(shí),認(rèn)為定位成功。定位準(zhǔn)確率為定位成功數(shù)與箱號(hào)框總數(shù)的比值, 具體實(shí)驗(yàn)結(jié)果如表2所示。

        表2 不同算法定位準(zhǔn)確率和速度對(duì)比Tab.2 Comparison of positioning accuracy and speed of different algorithms

        由表2可以看出,本文的定位準(zhǔn)確率相比YOLOv3、YOLOv5、Faster R-CNN和文獻(xiàn)[22]都高,高達(dá)98.1%,說(shuō)明本文定位算法具有較好的自適應(yīng)能力。原因在于本文采用基于熱圖感知的精確后處理方法,能夠輸出任意方向的矩形框,可以有效排除箱號(hào)傾斜下非箱號(hào)區(qū)域字符的干擾。而YOLOv3、YOLOv5和Faster R-CNN只能輸出平行于圖像邊界的矩形框,即使檢測(cè)框能夠覆蓋所有箱號(hào)區(qū)域,卻因?yàn)闄z測(cè)過(guò)多的背景和干擾字符而導(dǎo)致定位失敗;而文獻(xiàn)[22]采用MSER方法對(duì)于不同傾斜且多光照背景下箱號(hào)定位容易失敗。從平均速度來(lái)看,由于加入了熱圖感知優(yōu)化部分導(dǎo)致速度有一定程度的下降,但是本文算法滿足實(shí)際應(yīng)用中的實(shí)時(shí)性要求,箱號(hào)檢測(cè)結(jié)果展示如圖8所示。

        圖8 本文箱號(hào)檢測(cè)結(jié)果展示Fig.8 Display of the container code detection results

        4 結(jié)束語(yǔ)

        本文提出了一種熱圖感知的集裝箱箱號(hào)檢測(cè)識(shí)別算法,利用融合CBAM的輕量級(jí)網(wǎng)絡(luò)高效地檢測(cè)出矩形箱號(hào)框,同時(shí)結(jié)合Transformer利用圖像中字符的熱圖以及圖像形態(tài)學(xué)處理方法,得到精準(zhǔn)的任意方向箱號(hào)區(qū)域。實(shí)驗(yàn)結(jié)果表明, 相比目前主流的文本識(shí)別算法有著明顯的精度提升, 并且魯棒性好、檢測(cè)速度高,可滿足實(shí)際場(chǎng)景的應(yīng)用需求。此外,將進(jìn)一步考慮實(shí)現(xiàn)端到端的箱號(hào)檢測(cè)識(shí)別算法,從而優(yōu)化在實(shí)際項(xiàng)目中的部署。

        猜你喜歡
        區(qū)域檢測(cè)
        永久基本農(nóng)田集中區(qū)域“禁廢”
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        分割區(qū)域
        “幾何圖形”檢測(cè)題
        “角”檢測(cè)題
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)于四色猜想
        分區(qū)域
        中文字幕无码中文字幕有码 | 天天影视色香欲综合久久| 福利一区在线观看| 亚洲精品中文字幕不卡在线| 少妇一级aa一区二区三区片| 国产偷拍自拍在线观看| 亚洲女人的天堂网av| 国产精品美女久久久免费 | 久久亚洲av无码西西人体| 国产自偷自偷免费一区| 男人天堂网在线视频| 九九在线精品视频xxx| 一区二区三区熟妇人妻18| 日本亚洲视频免费在线看 | 一级a免费高清免在线| 国产精品白浆无码流出| 国产在线观看网址不卡一区| 在线观看亚洲视频一区二区| 国产香蕉一区二区三区在线视频| 国产办公室秘书无码精品99| 男女后进式猛烈xx00动态图片| 无码中文字幕人妻在线一区二区三区| 国产精品亚洲专区无码web| 97人妻无码免费专区| 中文字幕亚洲乱码熟女1区2区| 亚洲最近中文字幕在线| 亚洲av无码专区在线观看成人| 久久亚洲私人国产精品| 久久亚洲国产中v天仙www| 亚洲日韩精品AⅤ片无码富二代| 国产一区二区白浆在线观看| 色呦呦九九七七国产精品| 天天躁夜夜躁狠狠躁2021| 欧美老熟妇欲乱高清视频| 无码精品一区二区三区超碰| 国产优质女主播在线观看| 高清中文字幕一区二区三区| 国99精品无码一区二区三区| 私人毛片免费高清影视院| 大地资源网最新在线播放| 高潮喷水无遮挡毛片视频|