亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        集裝箱重量字符實時視覺識別方法

        2022-12-30 01:43:00萬志偉
        港口裝卸 2022年6期

        涂 錚 萬志偉

        1 武漢港迪智能技術(shù)有限公司 2 武漢理工大學自動化學院

        1 引言

        集裝箱箱面上的重量字符是集裝箱的重要信息,自動提取并識別該信息可以有效提升集裝箱碼頭作業(yè)的自動化的水平。當前集裝箱面文本識別中較成熟的為箱號識別。王炎等提出了一種基于數(shù)學形態(tài)學的箱號快速定位算法,該方法在獲取少量的箱號先驗知識后,能在單一場景下以較快的速度完成定位任務(wù)[1];沈寒蕾等使用最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions,MSER)方法對集裝箱號進行定位,能夠在單一場景下完成定位任務(wù)[2];黃深廣等提出了一種基于字符邊緣和顏色等先驗信息的多特征箱號定位算法,通過多種定位方式實現(xiàn)多個場景下的高精度箱號區(qū)域定位,但未達到實時性的要求[3]。在字符識別領(lǐng)域,陳永煌提出了一種模板匹配和特征匹配互補方法來進行箱號識別,準確率高低很大程度上取決于字符分割的效果[4];羅輝武等提出基于結(jié)構(gòu)特征和灰度特征的字符識別方法,結(jié)構(gòu)的丟失容易引起識別的錯誤,難以適應(yīng)箱號磨損等特殊情況[5];吳曉軍等提出基于邊緣幾何特征的高性能模板匹配算法,邊緣特征不具有魯棒性,難以實際應(yīng)用[6]。

        隨著視覺識別算法的研究深入,基于深度學習的文本識別方法在箱號定位方面應(yīng)用增多。崔循等提出了1種基于改進Faster R-CNN的集裝箱箱號定位算法,完成了較為精確的箱號區(qū)域定位,但過程存在大量冗余的計算,在復(fù)雜環(huán)境下無法有效地達到實時性的要求[7];Verma等提出了一種空間變換網(wǎng)絡(luò)(Spatial Transformer Network,STN)結(jié)合連通圖文本檢測器的箱號識別方法,識別率較高,但無法適應(yīng)一些惡劣的工業(yè)環(huán)境[8];張紹明等通過目標檢測算法對集裝箱前門圖像進行處理,獲取箱面上所有的文字,配合級聯(lián)決策樹提取箱號區(qū)域,但級聯(lián)決策樹并不適用于集裝箱側(cè)門和后門圖像[9]。箱號識別方面,陳力暢嘗試在字符分割后采用卷積神經(jīng)網(wǎng)絡(luò)進行字符識別,具有較高的識別準確率,但需要保證前期分割的正確率[10];Wu等針對集裝箱箱號字符排列緊湊難以分割的情況,通過對灰度圖像使用水平高通濾波器定位箱號區(qū)域,隨后經(jīng)過連通域分析分離出單字符塊和多字符塊,分別采用模板匹配法和隱馬爾可夫模型進行識別,但人工設(shè)計特征過多,適應(yīng)性不強[11];Yoon等提出了同時采集多個視圖的集裝箱圖像來進行箱號識別,結(jié)合一種特征級和決策級融合的方法解決了字符丟失和字符粘連的問題,但是其單視圖箱號識別率并不高,并且算法的整體計算量較大[12]。

        然而,現(xiàn)有箱號識別技術(shù)難以直接應(yīng)用于重量字符的識別,因為重量字符相較于箱號信息,存在3個不同的特性:背景復(fù)雜,有大量的文字干擾;由于實際拍攝角度受限,存在多種拍攝角度的圖像,需要進行特殊處理;一般的識別系統(tǒng)不能獲得所需的文本結(jié)果,需要特殊的后處理才能得到最終所需的信息。為此提出了改進的DBNet(Differentiable Binarization Net,可微分二值化網(wǎng)絡(luò))來完成重量字符檢測任務(wù)[13],改進的SAR(Show Attend Read,注意力識別方法)來完成重量字符識別任務(wù)[14],通過專門設(shè)計的后處理方法將識別結(jié)果合并,得到最終所需的集裝箱重量、容積等信息。

        2 集裝箱重量字符識別算法

        2.1 設(shè)計思路

        為對堆場作業(yè)區(qū)集裝箱后箱面的重量容積等字符進行識別,集裝箱后箱面的仰拍和俯拍圖像見圖1。

        圖1 集裝箱后箱面圖像

        其中可識別文字信息由標記框給出,以圖1(a)為例,需要識別的字段為:總重(GROSS WT)、皮重(TARE WT)、負荷量(PAYLOAD)以及容積(CUBE)。經(jīng)過樣本分析后,總結(jié)樣本特性為:

        (1)數(shù)據(jù)圖像主要有2大類型,分別為俯拍視角和仰拍視角。

        (2)重量會使用2種不同的單位進行描述,2個不同單位的數(shù)據(jù)排布在1行或2行。

        (3)容積信息不一定存在,如圖1(b)所示。

        (4)各部分信息之間存在關(guān)系,例如在單位一致的前提下,總重等于皮重加上負荷量。

        通過分析發(fā)現(xiàn),堆場作業(yè)區(qū)集裝箱后箱面的文字信息眾多,存在大量非感興趣區(qū)域的文字干擾,拍攝角度存在多樣性。為了得到最終重量信息,需要設(shè)計一個后處理的模塊。根據(jù)以上條件,設(shè)計了集裝箱重量字符實時視覺識別方法(見圖2)。

        圖2 集裝箱重量字符實時視覺識別方法流程

        其中,輕量化的文本檢測器選用改進的DBNet,實現(xiàn)集裝箱重量和容積字符的檢測。DBNet采用多任務(wù)學習形式,使得其能夠在保證精度的前提下仍能夠保證速度,因其直接使用一個分數(shù)圖進行預(yù)測和簡單的后處理。

        針對輕量化文本識別網(wǎng)絡(luò),經(jīng)典的文本識別網(wǎng)絡(luò)如Shi等提出的用于單行文本的識別網(wǎng)絡(luò),雖然速度方面表現(xiàn)非常優(yōu)秀,但精度不夠[15];調(diào)研了Yu等提出的高精度網(wǎng)絡(luò),給高精度文本識別任務(wù)提供了解決方案,但由于需要識別的重量字符圖像多,使用該網(wǎng)絡(luò)帶來大量資源負擔[16]。最終選定了改進的帶有二維注意力的SAR網(wǎng)絡(luò)來實現(xiàn)集裝箱重量字符識別。

        在完成對圖像的文本檢測和識別任務(wù)之后,使用聚類后處理模塊將表示同一信息的2個不同單位的識別結(jié)果合并,并通過結(jié)果是否相同、總重與皮重、負荷量等先驗知識進行判別。如果信息不統(tǒng)一或發(fā)現(xiàn)明顯誤差,則表示識別結(jié)果不合理,此時需要進行人工操作,否則認定是合理的重量識別結(jié)果。

        2.2 輕量化文本檢測網(wǎng)絡(luò)設(shè)計

        Ding等設(shè)計的多個卷積多路計算網(wǎng)絡(luò)結(jié)構(gòu),復(fù)雜的結(jié)構(gòu),可以增加訓練時網(wǎng)絡(luò)的復(fù)雜度,從而提升網(wǎng)絡(luò)的表達能力,獲取更好性能,而在網(wǎng)絡(luò)推理時,將網(wǎng)絡(luò)結(jié)構(gòu)中多路的多個卷積算子進行融合,達到同等計算結(jié)果下輕量化網(wǎng)絡(luò)的目的,這個過程稱為網(wǎng)絡(luò)的結(jié)構(gòu)重參數(shù)[18]。將結(jié)構(gòu)重參數(shù)方法引入輕量化DBNet網(wǎng)絡(luò),能夠在不增加網(wǎng)絡(luò)參數(shù)和計算復(fù)雜度的情況下,提升精度。網(wǎng)絡(luò)在訓練后,由于網(wǎng)絡(luò)中存在許多冗余連接,利用通道剪枝移除這些冗余連接,使其不再參與到網(wǎng)絡(luò)的計算中,可以起到輕量化網(wǎng)絡(luò)的作用。最后,訓練數(shù)據(jù)的擴充是可以在無損速度的前提下提升精度的策略,通過研究數(shù)據(jù)進行特定的數(shù)據(jù)擴充,可以明顯提升模型的魯棒性。

        2.2.1 模型結(jié)構(gòu)重參數(shù)

        該方法所使用的ResNet(Deep Residual Learning for Image Recognition,結(jié)構(gòu)重參數(shù)的殘差連接網(wǎng)絡(luò))主要由圖3所示的模塊結(jié)構(gòu)圖組成[17]。

        圖3 結(jié)構(gòu)重參數(shù)模塊

        其中圖3(a)為模型訓練階段的卷積模塊,在傳統(tǒng)的卷積模塊中加入了identity的殘差結(jié)構(gòu)和1×1 conv的殘差結(jié)構(gòu),而在模型推理階段又通過算子融合策略將所有的網(wǎng)絡(luò)層都轉(zhuǎn)換為3×3 conv,這里可以使得整個網(wǎng)絡(luò)均是由3×3 conv和Relu堆疊而成,易于模型的推理和加速。在算子融合階段,分為以下3個步驟實現(xiàn)。

        (1)通過公式(1)將殘差塊中的卷積層和BN層進行融合。

        (1)

        式中,Wi為融合前卷積的權(quán)重;W′i為融合后卷積的權(quán)重;γi和βi分別為BN層的尺度因子和偏移因子;σi和μi為BN層統(tǒng)計的方差和均值;bi為融合前卷積的偏置;b′i為融合后卷積的偏置。

        (2)融合后的卷積層轉(zhuǎn)換為3×3 conv。由于整個殘差塊中可能包含1×1 conv分支和identity兩種分支,對于1×1 conv分支而言,整個轉(zhuǎn)換過程就是利用3×3的卷積核替換1×1的卷積核,即將1×1卷積核中的數(shù)值移動到3×3卷積核的中心點即可;對于identity分支而言,該分支并沒有改變輸入的特征映射的數(shù)值,通過設(shè)置一個3×3的通道分離卷積核,保持了原來的數(shù)值。

        (3)合并殘差分支中的3×3 conv。即將所有分支的權(quán)重W和偏置B疊加起來,從而獲得一個融合之后的3×3 conv網(wǎng)絡(luò)層(見圖3(b))。

        2.2.2 通道剪枝

        Liu等使用通道剪枝的方法對網(wǎng)絡(luò)進行輕量化,通道剪枝是通過對卷積的通道數(shù)進行壓縮來達到減少參數(shù)量和計算量的目的[19]。具體來說,對BN中γ參數(shù)加入L1約束來產(chǎn)生稀疏通道,指導(dǎo)去除對輸出影響小的通道,完成幾乎無損的剪枝效果。原理在于γ參數(shù)值越小,說明這一個通道的所占輸出的比例小,因此可以去除。但是如果γ的多個通道在同一個BN層中值很接近時,刪除就會帶來網(wǎng)絡(luò)精度的很大影響。因此使用L1范數(shù)來稀疏化γ值。加入L1約束后的網(wǎng)絡(luò)訓練過程中的損失為:

        Loss′=∑Loss(f(x,w),y)+λ∑g(γ)

        (2)

        式中,g(γ)代表對γ使用L1范數(shù);Loss(f(x,w),y)代表原網(wǎng)絡(luò)的輸出f(x,w)和標簽y之間的損失;Loss′代表改動后的損失。

        為了將通道剪枝應(yīng)用至ResNet18基礎(chǔ)網(wǎng)絡(luò)上,設(shè)計了圖4所示的2種結(jié)構(gòu)。其中圖4(a)和圖4(b)分別用于替代普通的需要剪枝的卷積基礎(chǔ)模塊和帶shortcut的瓶頸層形式。其中slim conv代表后續(xù)剪枝操作的卷積算子。

        圖4 通道剪枝模塊

        可以發(fā)現(xiàn)設(shè)計的瓶頸層與原始ResNet的瓶頸層不同,如此設(shè)計的原因在于,在去除當前卷積的輸出濾波器數(shù)目時,需要同時去除后續(xù)連接的下一個卷積的輸入濾波器數(shù)目。為了能夠成功完成通道剪枝,匹配各處的濾波器通道數(shù),在設(shè)計通道剪枝模塊時,采用的均是slim conv后接一個普通conv的方式。

        2.2.3 針對性數(shù)據(jù)增強方法

        合適的數(shù)據(jù)增強方法由于僅在訓練時使用,因此可以在無損模型速度和參數(shù)量的前提下提升模型的精度。針對集裝箱重量字符檢測提出了以下幾種數(shù)據(jù)增強方法。

        (1)為了模擬光照以及拍攝條件的變化,添加了對比度、亮度、銳度、高斯模糊等數(shù)據(jù)增強。

        (2)為了模擬拍攝角度的變化,添加了左右翻轉(zhuǎn)、插值、仿射變換、縮放等數(shù)據(jù)增強。

        (3)為了模擬多種分辨率的測試圖像,添加了多分辨率訓練策略,設(shè)置為512、768、1 024。

        2.3 輕量化文本識別網(wǎng)絡(luò)設(shè)計

        2.3.1 輕量化特征提取網(wǎng)絡(luò)

        輕量化網(wǎng)絡(luò)設(shè)計中,使用更緊湊的特征提取網(wǎng)絡(luò)結(jié)構(gòu)可以有效的降低網(wǎng)絡(luò)復(fù)雜度,減小網(wǎng)絡(luò)計算量和參數(shù)量,從而達到輕量化網(wǎng)絡(luò)的目的。

        MobilenetV3[20]結(jié)合了MobilenetV1和MobilenetV2中設(shè)計的經(jīng)驗,利用深度可分離卷積搭配1×1的點卷積來降低網(wǎng)絡(luò)的計算量,同時保持通道信息之間的交互,有效降低了網(wǎng)絡(luò)的復(fù)雜度,最終利用神經(jīng)網(wǎng)絡(luò)搜索技術(shù)和倒殘差的瓶頸層結(jié)構(gòu)找到最佳的神經(jīng)網(wǎng)絡(luò)架構(gòu)。在本項目使用的輕量化識別網(wǎng)絡(luò)SAR中,使用了MobileNetV3進行網(wǎng)絡(luò)的特征提取,同時在RNN部分,使用了門結(jié)構(gòu)更少的GRU結(jié)構(gòu)代替LSTM結(jié)構(gòu),以減少網(wǎng)絡(luò)的計算量。

        2.3.2 針對性數(shù)據(jù)增強方法

        集裝箱重量字符在拍攝時普遍存在傾斜和畸變,采用隨機扭曲,隨機仿射變化等方法進行數(shù)據(jù)增強來模擬拍攝角度變化帶來的影響。

        集裝箱重量字符在拍攝時,可能存在移動導(dǎo)致的模糊情況,因此在數(shù)據(jù)增強中加入了隨機運動模糊。

        2.4 后處理模塊設(shè)計

        首先對需要識別的重量字符進行單位以及名稱的統(tǒng)計,為簡化分類,字母大小寫不區(qū)分,分類如下:

        (1)總重:MAX GROSS、GROSS WT、MGW。

        (2)負荷:PAYLOAD。

        (3)皮重:TARE WT、TARE。

        (4)容積:CUBE。

        其中,總重、負荷以及皮重的單位相同,包含kgs、lbs、lb、kg,其中1 kg=2.20462262185 lb。容積的單位為m3以及ft3,其中1 m3=35.341 ft3。僅僅得到單獨的識別結(jié)果無法進行應(yīng)用。因此,通過總結(jié)和分析數(shù)據(jù),提出了中位線延展合并方法,用于得到最終結(jié)果,并通過先驗知識糾錯來保證方法的有效性。

        2.4.1 中位線延展合并

        根據(jù)2類不同重量字符分布來進行合并。圖5(a)和圖5(b)分別代表同類型數(shù)據(jù)是2行和1行分布情況。根據(jù)這個數(shù)據(jù)特性,使用中位線延展合并方法,首先獲取屬性關(guān)鍵字,如MAX GROSS等,然后根據(jù)識別框的4個點坐標,獲取中位線信息,并將其向右側(cè)延展,聚類離其歐式距離最短的2個識別框。將結(jié)果進行合并,得到所需屬性的值。

        圖5 中位線延展合并示意圖

        2.4.2 先驗知識糾錯

        先驗知識是通過數(shù)據(jù)總結(jié)獲取的,采用以下4點先驗知識進行重量信息識別結(jié)果的糾錯,在錯誤時交由人工判斷處理。

        (1)不同單位的同一屬性換算結(jié)果應(yīng)當相同。

        (2)總重信息應(yīng)當?shù)扔谪摵膳c皮重的和。

        (3)皮重信息應(yīng)當小于負荷量。

        (4)單位應(yīng)當匹配屬性,例如重量的單位不應(yīng)為m3。

        3 測試及分析比較

        對輕量化文本檢測網(wǎng)絡(luò)、輕量化文本識別網(wǎng)絡(luò)、整體方法進行測試及分析比較。

        3.1 集裝箱重量字符檢測

        3.1.1 數(shù)據(jù)集及評價指標

        測試中使用的數(shù)據(jù)集包含5 641張不同分辨率下的圖像,其中仰視拍攝的圖像3 021張,俯視拍攝的圖像2 620張,通過將所有圖像進行隨機9∶1比例的劃分,得到5 077張訓練數(shù)據(jù)集和564張測試數(shù)據(jù)集。

        評價指標包含精確率、召回率、F1分數(shù)以及FPS(Frames Per Second,每秒識別幀數(shù))指標。各個算法的基礎(chǔ)骨干網(wǎng)絡(luò)采用ResNet18,推理圖像的分辨率設(shè)置為長邊736,閾值設(shè)置為0.3,得到一個預(yù)測為正確的TP(True Positve,正類)設(shè)置為預(yù)測框,預(yù)測框與GT(Ground Truth,真值)的交并比達到0.5即可。

        3.1.2 測試結(jié)果

        測試結(jié)果見表1,對比各算法的性能可以得出以下結(jié)論。

        表1 各檢測算法檢測性能對比表

        (1)重參數(shù)可以有效提升模型性能,在重參數(shù)融合BN和支路卷積后提升模型速度19.2%,F(xiàn)1值提升4.5。

        (2)通道剪枝通過對一個大網(wǎng)絡(luò)進行剪枝可以有保留模型性能,模型速度提升17%,F(xiàn)1值提升2.5。

        (3)重參數(shù)+通道剪枝比僅通道剪枝性能更好,模型速度提升27%,性能提升2.8。

        (4)加入數(shù)據(jù)增強后,模型性能得到了無損推理速度的提升。相比較基線DBNet F1值提升了5.8,速度提升了27%。

        總結(jié)以上4點可以得知,重參數(shù)+通道剪枝+數(shù)據(jù)增強,達到了最高的精度和推理速度,證實了數(shù)據(jù)增強和訓練策略的有效性。

        3.2 集裝箱重量字符識別

        3.2.1 數(shù)據(jù)集及評價指標

        測試數(shù)據(jù)集是從上述重量字符數(shù)據(jù)集上進行裁剪獲取的,總共包含81 920張數(shù)據(jù),同樣根據(jù)9∶1的比例劃分得到73 728張訓練數(shù)據(jù)和8 192張測試數(shù)據(jù)。

        設(shè)置訓練圖像分辨率為32×128,評價指標包含精度和FPS指標。推理時采用貪心解碼方法,即選中置信度最高的結(jié)果進行輸出,得到一個TP需要滿足識別文本結(jié)果與GT的結(jié)果完全一致。

        3.2.2 測試結(jié)果

        測試結(jié)果見表2。其中,輕量化特征提取網(wǎng)絡(luò)+數(shù)據(jù)增強,是在原始SAR算法上更換了輕量化特征提取網(wǎng)絡(luò)并加上了數(shù)據(jù)增強的結(jié)果。通過實驗對比,可以發(fā)現(xiàn)兩者之間的精度差距極小,僅有0.4,F(xiàn)PS提升了42%,滿足了設(shè)計要求,達到了精度和速度的均衡。

        表2 各模型識別性能對比表

        3.3 整體識別結(jié)果

        對整體識別流程進行實驗,該部分將會結(jié)合后處理模塊。

        3.3.1 數(shù)據(jù)集及評價指標

        測試數(shù)據(jù)集仍然是重量字符數(shù)據(jù)集,包含5 641張不同分辨率下的圖像,其中仰視拍攝的圖像3 021張,俯視拍攝的圖像2 620張,此時所有數(shù)據(jù)作為測試數(shù)據(jù)。

        評價指標包含精度和FPS指標。當所有重量字符信息正確時,認定為一次識別成功的TP。

        3.3.2 測試結(jié)果

        測試結(jié)果見表3。仰視拍攝的圖像的重量信息可以有效的進行識別并獲取,準確率達到97.6%,每秒可以識別20張圖像。俯視拍攝的圖像由于存在遮擋等問題,模型表現(xiàn)不如仰視拍攝的圖像。尤其當拍攝俯角過大時,更加難以識別。

        表3 重量信息識別實驗結(jié)果

        4 結(jié)語

        通過將輕量化改進的DBNet、SAR以及后處理過程組合,提出集裝箱重量字符識別方法,完成了集裝箱重量、容積等信息的獲取和識別。其研究重點是對該方法的各個模塊進行輕量化改進,并保證或提升了各個模塊對于重量字符對象的識別精度等性能指標。該方法對于提升集裝箱碼頭作業(yè)的自動化程度有一定支撐作用。

        国产在线91观看免费观看| 国产日韩欧美一区二区东京热| 男人的天堂无码动漫av| 少妇人妻在线视频| 日韩美无码一区二区三区| 中文字幕人妻互换激情| 久久久久亚洲av无码专区首| 无码国产午夜福利片在线观看| 亚洲AV无码未成人网站久久精品| 国产成人亚洲精品一区二区三区| 国产成人av无码精品| 久久夜色精品国产噜噜亚洲av| 免费无码中文字幕A级毛片| 亚洲精品国产第一区三区| 亚洲国产精品18久久久久久| 天天爽夜夜爽夜夜爽| 亚洲一区二区自拍偷拍| 国产亚洲av夜间福利在线观看| 天天夜碰日日摸日日澡性色av| 日本午夜免费福利视频| 天天摸天天做天天爽天天舒服| 亚洲色欲久久久综合网| 亚洲一区视频中文字幕| 亚洲国产精品无码久久一区二区| 男男车车的车车网站w98免费| 亚洲网站免费看| 日韩在线一区二区三区中文字幕| 成人特黄a级毛片免费视频| 成人区人妻精品一区二区不卡网站 | 久久天堂精品一区专区av| 少妇被猛烈进入到喷白浆| 国产伦精品一区二区三区免费| 北岛玲中文字幕人妻系列 | 亚洲成a人片在线观看高清| 国产精品亚洲精品一区二区| 欧美巨鞭大战丰满少妇| 久久99久久99精品免观看 | 美女黄18以下禁止观看| 国产av一区二区三区国产福利| 中文字幕无码乱人伦| 国产乱人伦av在线无码|