亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多重感受野UNet的儀表圖像分割方法

2022-03-22 03:34:38史瑞資劉彥北肖志濤

計算機工程與設計 2022年3期

耿磊，史瑞資，劉彥北,3，肖志濤，吳駿，張芳

(1.天津工業(yè)大學生命科學學院，天津 300387；2.天津工業(yè)大學電子與信息工程學院，天津 300387；3.天津工業(yè)大學天津光電檢測技術與系統(tǒng)重點實驗室，天津 300387)

0 引言

相較于數(shù)顯式儀表，指針式儀表能夠在多粉塵、強磁場和極寒環(huán)境下工作，具有穩(wěn)定耐用的優(yōu)點。因此，在未來很長一段時間內，指針式儀表在工業(yè)生產和監(jiān)測中仍將處于不可替代的地位。在粉塵車間、藥廠等易燃易爆的場所，出于安全考慮，指針式儀表的讀數(shù)不適合由人工完成。而自動化讀數(shù)的方法能夠避免操作人員進入危險環(huán)境，并且具有高效和實時的優(yōu)點，因此擁有廣闊的工業(yè)應用前景。

儀表自動化讀數(shù)分為儀表檢測、圖像分割、儀表讀數(shù)3部分。其中，儀表檢測和儀表讀數(shù)的方法相對成熟，但圖像分割面臨諸多困難，如：細小且密集的刻度線不易分割、分割效果易受環(huán)境光照強度變化影響等。特別是當光照強度不同時，傳統(tǒng)的圖像分割算法需要不斷調節(jié)分割閾值才能實現(xiàn)有效分割，十分不利于自動讀數(shù)[1]。

卷積神經網(wǎng)絡具有很強的泛化能力，能夠自適應分割不同亮度的儀表，解決了人為調節(jié)分割閾值的問題，但現(xiàn)有語義分割算法不能良好分割具有細小且密集刻度線的指針式儀表圖像。

為了解決上述問題，本文提出了基于多重感受野UNet的儀表圖像分割方法，由于多尺度感受野是通過多尺度空洞卷積實現(xiàn)的，因此模型被稱為MacuNet(multi-scale atrous convolutional neural network based on UNet)。實驗結果表明，該模型有效泛化于不同光照強度下拍攝的儀表圖像，并增強了網(wǎng)絡對密集刻度線的逐像素點分類能力。

本文的貢獻可總結為：

(1)本文針對指針式儀表圖像，對細小且密集目標的分割問題進行了研究，提出了MacuNet，該模型能夠有效融合高級和低級特征；

(2)本文提出的MacuNet在編碼器和解碼器之間串聯(lián)空洞融合模塊，使得模型更適合編碼和解構低級語義特征。本文將編碼器各層級的特征與對應的解碼器解構的特征相融合，提高了網(wǎng)絡對多尺度特征的融合能力，從而強化了模型逐像素點預測的準確率；

(3)本文通過廣泛的實驗驗證了提出模型的有效性。該模型提升了語義分割方法對細小且密集目標分割的效果，同時解決了對于不同光照強度下拍攝的指針式儀表圖像分割需要調整閾值的問題。

1 相關工作

近年來，基于深度學習的圖像語義分割算法被廣泛應用在工業(yè)生產中[2]。FCN[3]、PixelNet[4]、UNet[5]、Deeplab[6]等經典的圖像語義分割算法相繼被提出，它們都具有泛化能力強、分割效果好的特點。本文提出了基于UNet的強化淺層特征并融合深層特征的方法，旨在提高模型對密集細小刻度線的逐像素點分類準確率。

對于不同數(shù)據(jù)，采用不同的編碼器能夠取得良好的分割效果。編碼-解碼結構[7]是常見的基于端到端的深度學習模型框架。編碼器主要采用卷積、Max Pooling和Batch Normalization[8]等操作對輸入圖像編碼，編碼操作有利于提取圖像深層特征，它的特征提取能力決定了后續(xù)解碼的效果。解碼器采用卷積、ReLU[9]和上采樣等操作對來自于編碼器的特征圖解碼。UNet采用自編碼結構，對圖像進行編碼-解碼操作。其中，編碼器通常采用ResNet[10]以及Vanilla編碼器[11]，由ResNet構建的編碼器對于深層特征提取效果明顯，但隨著網(wǎng)絡加深，網(wǎng)絡感受野愈發(fā)變大，導致ResNet不能更好地提取小且密集目標的特征，進而影響逐像素點分類的準確性。同時，過深的網(wǎng)絡意味著計算量的增加，不利于訓練。Vanilla自編碼器的編碼部分由三層網(wǎng)絡結構組成，它是一種有損編碼器，通過Adam優(yōu)化器[12]和均方誤差損失函數(shù)使得模型學習壓縮表征。這種編碼器網(wǎng)絡層次少，能很好地對圖像的淺層信息編碼，但不利于采集更深層的高級語義信息。

2 提出的方法

2.1 MacuNet

現(xiàn)有的經典卷積神經網(wǎng)絡模型不能有效分割具有細小密集刻度線的指針儀表。使用ResNet這類深層網(wǎng)絡，會使得網(wǎng)絡感受野過大，導致特征圖中的邊緣信息損失嚴重，甚至引起目標的完全丟失[13]；使用Vanilla模塊作為編碼器又會使得網(wǎng)絡過淺，導致深層特征不能良好提取深層特征，不利于解碼。因此本文不能單純使用ResNet或Vanilla模塊作為編碼器。同時，考慮到空洞卷積能夠在不增加計算量的前提下提高網(wǎng)絡感受野，這種特性有助于改善深層網(wǎng)絡對細小且密集目標信息丟失的問題，本文提出了MacuNet。

對于像素級分割任務來說，降采樣操作會丟失細節(jié)信息，使得網(wǎng)絡對于細小目標的邊緣信息獲取能力降低。高階語義特征有助于提升逐像素點分類準確性，但這意味著模型需要建立在較深的網(wǎng)絡結構上。深層網(wǎng)絡結構導致了模型感受野的提高，不利于分割細小密集的刻度線，這是由于小目標與淺層特征聯(lián)系緊密，因此獲取豐富的低級特征信息對于小目標圖像分割具有重要意義[14]。為此，本文考慮有針對地改進網(wǎng)絡模塊，提高模型對于細小密集目標的逐像素點分類能力，進而設計了MacuNet網(wǎng)絡模型，模型結構如圖1所示。

圖1 MacuNet網(wǎng)絡模型

本文要解決的問題是提升網(wǎng)絡對于細小且密集刻度線特征的提取能力，從而實現(xiàn)有效分割。由于自編碼器結構有利于建模和解構多尺度特征，通過對編解碼器的改造容易實現(xiàn)不同尺度特征的有效融合從而提升分割效果，因此本文采用自編碼器作為網(wǎng)絡的基礎結構。有效的邊緣信息往往保留在淺層特征中[15]，因此編碼器不能采用過深的網(wǎng)絡，以防止隨著網(wǎng)絡加深模型感受野變大，導致其對于淺層特征的采樣丟失嚴重。矛盾的是，使用較淺的網(wǎng)絡模型又不能獲取豐富的高層語義信息，進而影響逐像素點分類性能。因此，為了在更好地保留低級特征的同時又不犧牲豐富的高層語義信息，本文將Vanilla編碼器改造為只有4次下采樣過程的編碼器，通過這種方式，淺層特征被更好地保留。具體地，改進后的Vanilla包括4個卷積網(wǎng)絡模塊。每個卷積模塊由3×3卷積核構成，在每個卷積核后都進行Batch-Normalization和ReLU操作，從而更好地建模低層特征，最后進行2×2 Max Pooling操作。Max Pooling操作將特征圖中的邊緣和細節(jié)填充，增大了目標在整張?zhí)卣鲌D中的占比，有助于提升模型的最終分割效果。為了解決淺層網(wǎng)絡不能很好挖掘高階特征的問題，本文設計在改造的Vanilla編碼器輸出端插入空洞融合[16]模塊，該模塊采用將3個空洞卷積級聯(lián)的方式，使得模型在獲取豐富感受野的同時捕獲更深層的高階語義信息，這彌補了模型在編碼階段的采樣不足，同時又避免了由于感受野過大導致的模型對于特征圖中細節(jié)信息遺漏的問題。具體地，二維信號中，對于每一個位置i，有一個輸出y和一個濾波器ω，給定特征圖x，空洞卷積的采樣過程可用式(1)表示為

(1)

式中：r表示對輸入信號進行采樣的步長，ω[k] 為濾波器上第k個位置的權重。

當使用空洞卷積時，膨脹率越大卷積核中的有效權重越少。當膨脹率足夠大時，只有卷積核最中間的權重有效，此時的卷積核即退化成了1×1的卷積核，并不能獲取到全局的上下文信息，因而影響模型的分割能力。為了解決這一問題，本文設計了空洞融合模塊，該模塊的存在避免了膨脹率的影響，使得網(wǎng)絡能夠將多尺度上下文信息充分聚合，從而有效提升模型對于細小且密集刻度線的分割效果。空洞融合模塊的詳細結構如圖2所示。

圖2 空洞融合模塊詳細結構

具體地，該模塊采用將不同空洞率(空洞率指在常規(guī)卷積核中的相鄰兩權重之間插入零的個數(shù)。通常，空洞率=

時，相鄰兩個權重間插入0的個數(shù)為

-1，當

=1時，空洞卷積核為常規(guī)卷積)的空洞卷積核串聯(lián)的方法增大密集運算，在減小因稀疏性造成的特征丟失的同時做到特征互補并融合。在空洞融合模塊的計算過程中，

表示經

級空洞卷積核串聯(lián)后，

位置的輸出結果，其表達式為

(2)

該公式中的變量同式(1)，其中，ωn[k] 表示第n個卷積核中k位置的權重。

這3個卷積核的空洞率按照先增后減的方式組合，使得第二個卷積核彌補了第一個卷積核由于空洞引起的特征稀疏。同樣，第三個卷積核彌補了第一、第二個卷積核的特征丟失，而三者串聯(lián)又可以補全第三個卷積核的采樣稀疏?？斩慈诤夏K整體上加大了網(wǎng)絡深度，同時又豐富了感受野，使得模型能更好地編碼高級和低級語義特征。由此，模型完成了對輸入圖像的有效編碼。

特征圖的解碼是模型將編碼器生成的特征圖通過上采樣等操作恢復至原始圖像尺寸，并最終實現(xiàn)圖像分割的過程。具體地，將編碼器生成的特征圖通過雙線性內插的方法，使得生成的特征圖尺寸與對應位置編碼器生成的特征圖尺寸相同，并使用3×3的卷積將新生成的特征圖融合，這個過程即完成了一次解碼。重復這一解碼過程，直至特征圖尺寸恢復至原圖像大小，模型即表達出最終的分割結果。

2.2 損失函數(shù)

(3)

3 實驗

本章，基于指針式儀表數(shù)據(jù)集，將MacuNet與其它方法進行了廣泛對比，分析了實驗結果并展示了最終的測試結果。

3.1 評估指標

本文對分割出的圖像采用目測評估法和定量指標進行評定，進而對訓練出的模型進行評估。目測評估法主要是通過觀察測試結果中細密刻度線、背景、指針的分割效果來實現(xiàn)。定量指標評定法是以平均交并比mIOU(mean intersection over union)和像素準確率PA(pixel accuracy)為評估指標。設網(wǎng)絡輸出包含n+1類(其中包含背景類別)，pij表示本屬于第i類卻被分到第j類的像素數(shù)量，若i=j，則pij表示分類正確的正例數(shù)量。

(1)mIOU按類計算數(shù)據(jù)標注與網(wǎng)絡分割結果之間的交并比的平均值，其表達式如下所示

(4)

(2)PA計算正確分類的像素與所有像素數(shù)的比值，其表達式如下所示

(5)

本文按照相同的訓練策略，在同一硬件環(huán)境下進行如下實驗：①與現(xiàn)有的經典網(wǎng)絡進行對比；②對比不同空洞率的空洞卷積對分割效果的影響。

3.2 數(shù)據(jù)集和預處理

本文采集最常見的指針式溫濕度計圖像作為原始數(shù)據(jù)集，將原始數(shù)據(jù)經過旋轉、裁剪等操作進行數(shù)據(jù)擴充，得到由2826張圖像組成的數(shù)據(jù)集。其中，訓練集共2253張，測試集共573張，這些圖片的分辨率均為400×400像素。數(shù)據(jù)集中分布的具有不同亮度且包含明暗分界線的圖像有助于提升模型對同種圖像的泛化能力。本文選取了光照強度不同、具有明暗分界線的圖像作為示例，這些示例如圖3所示。

圖3 數(shù)據(jù)集中包含的圖像示例

獲取到上述數(shù)據(jù)后，本文使用標注工具對數(shù)據(jù)進行標注。標注的原理是將原始圖像中的刻度線和指針使用外接矩形框出，將這些外接矩形的坐標保存到文本文檔中。之后，通過將外接矩形進行填充并與400×400像素的純黑色圖像融合得到初始標注圖。最后，將標注圖轉換為單通道的灰度圖，并剔除掉colormap得到最終使用的標注圖。

3.3 圖像分割方法對比與實驗分析

本文按照相同的訓練策略，在同一硬件環(huán)境下進行如下實驗：與現(xiàn)有的經典網(wǎng)絡進行對比；對比不同空洞率的空洞卷積對分割效果的影響。通過對比實驗結果可知，本文的MacuNet在mIOU和PA指標上實現(xiàn)了明顯的提升。本文模型預測結果的mIOU和PA分別為0.8088和0.9902，相比較改進前的UNet，分別提升了0.149和0.019。此外，本文還與現(xiàn)有的經典分割網(wǎng)絡：Deeplabv3+、RefineNet[17]以及ResNet50-PSPNet[18]做了對比實驗。本文的模型通過自編碼機制實現(xiàn)高階和低階語義信息編碼，并通過空洞卷積實現(xiàn)模型的多重感受野互補，有效融合了淺層和深層的特征。

由于Deeplabv3+模型自編碼系統(tǒng)存在過度編碼高層語義信息的缺陷，模型缺乏對淺層信息的有效提取，導致其不能對細密刻度線等特征有效編碼，因此逐像素點分類能力較差；UNet在對圖像編解碼的過程中，不能有效融合淺層特征和高級語義信息，導致模型的預測結果出現(xiàn)較為明顯的錯分類現(xiàn)象。PSPNet采用池化和卷積操作，使得模型更傾向于表達深層語義信息，這導致模型對表層信息提取不足，不能有效表征包含密集細小刻度線的低級特征，因此不適于分割指針式儀表。通過對比預測結果，可以很明顯地發(fā)現(xiàn)，本文模型對于指針式溫濕度儀表圖像擁有良好的預測效果。其中，MacuNet相對于UNet在本文數(shù)據(jù)集測試結果的mIOU提升了0.1518；相對于Deeplabv3+、ResNet50-PSPNet、RefineNet等經典網(wǎng)絡模型，MacuNet在mIOU上分別取得了0.137、0.1794、0.1258的提升。本文提出的模型與現(xiàn)有模型在測試集上預測結果的mIOU見表1。

表1 本文提出的模型與現(xiàn)有模型的對比實驗結果

本文提出的模型與現(xiàn)有經典模型分割結果如圖4所示。從預測結果可知，由于本文的模型充分融合了多尺度低級特征，有效學習了細密刻度線之間的特征關聯(lián)，因而有效解決了原始UNet存在的錯分類問題，對于細小刻度線表現(xiàn)出了較好的分割效果。

圖4 提出的模型與現(xiàn)有經典模型分割結果

3.4 空洞融合模塊對比實驗及分析

空洞融合模塊包含兩個參數(shù)：卷積核尺寸和卷積核空洞率。為了探討空洞融合模塊兩個參數(shù)對模型分割效果的影響，本文進行了多組對比實驗?？斩慈诤夏K在不同空洞率和不同卷積核尺寸下對模型分割效果的影響結果見表2。其中，第一列為空洞融合模塊中3個卷積單元的空洞率。需要說明的是，第一欄的3個1分別表示空洞融合模塊中的3個空洞卷積分別是空洞率為1、1、1的卷積核，即該模塊使用的是普通卷積核。第一列第二行的3個參數(shù)分別表示空洞融合模塊中3個卷積單元的空洞率分別為2、3、2，以下兩個欄的中括號的3個元素意義同此。

表2 空洞融合模塊在不同空洞率和不同卷積核尺寸下對模型分割效果的影響結果

表2第一行的“尺寸”表示空洞融合模塊中各卷積單元中卷積核的尺寸，如第二列第三行中[5,7,3]表示3個卷積核單元分別采用空洞率為5、7、3的3種空洞卷積核。第一行的三、四、五列分別表示背景、刻度線和指針的IOU值。對比表格2的結果發(fā)現(xiàn)，使用普通卷積的各項IOU數(shù)值更高，但通過對比預測圖可知，指標的數(shù)值高并不意味著分割效果好。這一現(xiàn)象表明：當卷積核的尺寸相同時，相對于單一尺度的常規(guī)卷積核，空洞卷積能夠捕獲多尺度感受野，從而更進一步提升網(wǎng)絡的分割能力。

不同空洞率的MacuNet分割結果如圖5所示，其中，圖5(a)為卷積單元的空洞率r=1時模型的預測結果，圖5(b)為卷積單元的空洞率r=[5,7,3] 時模型的預測結果。

圖5 不同空洞率的MacuNet分割結果

實驗結果表明，當r=1時，模型預測的圖像中仍存在部分像素點錯分類的現(xiàn)象。因此，采用不同空洞率的空洞卷積有助于提升模型逐像素點分類準確率，整體圖像的分割結果如圖6所示。

圖6 整體圖像的分割結果

同時，本文還統(tǒng)計了不同空洞率的卷積單元和原始UNet網(wǎng)絡在測試集的PA，對比結果如圖7所示。

圖7 不同空洞率的卷積單元和原始UNet網(wǎng)絡對于測試數(shù)據(jù)預測的PA

由實驗結果可知，相較于UNet網(wǎng)絡，本文提出的模型更好地提取了細密刻度線的信息，將包含豐富細節(jié)和邊緣信息的低級特征和有助于提升逐像素點分類性能的高級語義特征有效融合，因而本文提出的模型在PA收斂后的像素點預測準確率明顯高出原始的UNet網(wǎng)絡。

之后，本文的模型預測了在不同光照強度下采集的同種指針儀表數(shù)據(jù)。實驗結果表明該模型能夠有效分割不同亮度的同種指針儀表，驗證了模型的泛化能力。在不同光照強度下采集的圖像及其預測結果如圖8所示。其中，圖8(a)中的3張圖像是3種光照強度下采集的原始圖像，圖8(b)中的3張圖像分別是與圖8(a)對應的模型預測結果，圖8(c)中的3張圖像分別是與之對應的傳統(tǒng)(閾值分割)方法分割結果。可以看到，當圖像的亮度相差不大時，閾值分割方法對于小刻度線的分割會出現(xiàn)鋸齒，這不利于后期對指針和刻度線的擬合，從而影響讀數(shù)；當圖像的亮度相差較大(如圖8(a)中的1、3兩張圖像)時，傳統(tǒng)算法在不調節(jié)閾值時，分割效果較差。而本文提出的模型不但可以良好地解決這些問題，還能夠有效抑制并不需要的字符等背景信息的表達。

圖8 在不同光照強度下采集的圖像及其預測結果

3.5 MacuNet在其它數(shù)據(jù)集的實驗及分析

最后，為了進一步驗證該模型對密集小目標的分割能力，本文嘗試在另一種指針式儀表數(shù)據(jù)集(后文稱為“復雜型指針式儀表數(shù)據(jù)集”)進行訓練并測試。該數(shù)據(jù)集中的儀表圖像具有更為復雜的背景圖案，這些圖案易對分割產生較大干擾。復雜型指針儀表數(shù)據(jù)集的示例如圖9所示。從示例圖中可以看到，該數(shù)據(jù)集中的刻度線具有更為復雜的綠色背景，且指針的寬度接近于刻度線。

圖9 復雜型指針儀表數(shù)據(jù)集的示例

接下來，本文分別使用傳統(tǒng)算法(基于閾值分割的算法)和MacuNet對測試集中的圖像進行預測。預測結果如圖10所示，其中每一行從左至右依次是：原圖、對應MacuNet分割結果以及基于閾值分割的傳統(tǒng)算法分割結果。

圖10 基于閾值分割的算法和MacuNet預測結果

圖10中的第一、二、三行實驗結果分別表明：當使用傳統(tǒng)閾值分割方法對該儀表圖像分割時，在不調節(jié)分割閾值的情況下，算法錯誤分割表盤上的字符，而沒有分割出刻度線和指針等有用信息；算法將表盤上明暗交界線錯誤分割，嚴重影響分割效果；對于背景復雜的刻度線，算法存在對背景錯誤分割而不能正確分割有效目標，即不能有效分割刻度線和指針的問題，并且算法將表盤中細長條形背景圖案分割，該圖案易與該數(shù)據(jù)集中同樣具有細長特征的指針混淆，嚴重干擾后續(xù)的圖像處理及讀數(shù)等操作。而本文提出的MacuNet模型能夠有效解決上述問題，且分割效果較好。上述實驗結果表明，MacuNet同樣能夠泛化同類別的復雜型指針式儀表數(shù)據(jù)集，并取得良好的分割效果。

4 結束語

本文提出了一種基于UNet的針對細小且密集目標的圖像分割方法。本文引入了空洞融合模塊，改進了單純過深或過淺的網(wǎng)絡對圖像特征提取的過度或不足，提升了網(wǎng)絡對全局信息和高階語義信息的融合能力，從而提升了網(wǎng)絡對密集細小目標的逐像素點分類準確率，實現(xiàn)了對指針式儀表圖像分割效果的提升，并且模型能夠有效泛化于在不同光照強度下采集的同種指針式儀表圖像。本文針對兩種指針式儀表數(shù)據(jù)集進行了一系列的對比實驗，借此驗證本文提出模型的實際分割能力和對于同類別指針式儀表圖像的泛化能力。盡管本文提出的方法在分割包含密集細小刻度線的指針式儀表圖像上具有較好的性能，但模型對于亮度相差較大的圖像泛化能力不夠強，因此，如何改進網(wǎng)絡結構使得模型的泛化能力進一步增強，對于未來將模型部署在嵌入式設備上具有重要意義。