苗保明,陳 煒,吳 航,余 明,韓思齊
(1.天津理工大學天津市先進機電系統(tǒng)設計與智能控制重點實驗室,天津 300384;2.天津理工大學機電工程國家級實驗教學示范中心,天津 300384;3.軍事科學院系統(tǒng)工程研究院,天津 300161;4.南開大學人工智能學院,天津 300381)
手術器械機器視覺識別是人工智能在醫(yī)療領域的典型應用,如器械護士機器人、手術流程分割等,是未來的發(fā)展趨勢。高質量的視覺圖像能夠為手術器械的檢測、分類等任務提供更多有效的特征信息,提高識別的準確率。然而手術器械視覺圖像在采集、壓縮和傳輸過程中容易受到環(huán)境噪聲的干擾,如高斯噪聲和椒鹽噪聲等,這些干擾會導致圖像內容和色彩發(fā)生扭曲或退化,從而對視覺任務產(chǎn)生負面影響。圖像去噪算法能夠有效地去除噪聲信息,從而提升圖像質量。該算法旨在準確地去除噪聲信息,同時保留圖像的細節(jié)特征不被破壞,因此如何更好地平衡這2 個方面成為該領域眾多研究人員追求的目標。
目前,人們嘗試了許多方法去除圖像噪聲,主要包括傳統(tǒng)的去噪方法和基于深度學習的去噪方法。傳統(tǒng)的去噪方法包括中值濾波去噪和小波變換去噪等。屈正庚等[1]提出了自適應中值濾波方法,該方法能夠根據(jù)噪聲大小自適應調整濾波模板的尺寸,具有很好的去噪效果。傅偉等[2]在小波去噪和小波域隱馬爾可夫模型的基礎上引入了方差不變性變換來調整原始圖像的噪聲模型為高斯噪聲模型,將圖像分解為不同頻率的不同子帶,并使用隱馬爾可夫樹模型來規(guī)劃小波系數(shù)的邊緣分布,使得圖像保留了更多的邊緣信息。謝玉霞等[3]將小波去噪方法用于去除體表胃電中的高頻噪聲,從而有效地改善了信噪比及提高了信號的分辨力。然而傳統(tǒng)的去噪方法仍存在不足,如中值濾波用于去除復雜的噪聲時容易破壞圖像特征的幾何形狀;小波變換去噪的方向性較弱,只能捕捉有限的方向信息等。
基于深度學習的去噪方法具有更好的擬合噪聲分布等優(yōu)點,因此受到了更多的關注。Zhang 等[4]提出了快且靈活的去噪卷積神經(jīng)網(wǎng)絡(fast and flexible denoising convolutional neural network,F(xiàn)FDNet),該網(wǎng)絡將可調噪聲水平圖作為輸入,能夠處理不同級別的噪聲以及空間變化噪聲。Kim 等[5]提出了分組殘差密集網(wǎng)絡,該網(wǎng)絡級聯(lián)了多個具有殘差結構的分組殘差密集塊,圖像去噪的性能得到明顯提高。此外,還有一些去噪方法將去噪過程劃分為多個具有不同任務的階段。如Tian 等[6]提出了一個由多模塊組成的注意力引導去噪網(wǎng)絡,該網(wǎng)絡能夠在去除較復雜噪聲的同時增強了模型的表達能力,并生成干凈的圖像。Zhang 等[7]提出了雙任務互補網(wǎng)絡,該網(wǎng)絡能夠在去除噪聲的同時保留更多的細節(jié)特征。Tian等[8]提出了一個聯(lián)合小波變換的三階段去噪網(wǎng)絡,該網(wǎng)絡能夠實現(xiàn)參數(shù)的動態(tài)調節(jié)、噪聲抑制和圖像重建。
然而,大多數(shù)基于深度學去噪方法往往具有龐大的參數(shù)量,且在噪聲去除和細節(jié)保留任務上仍有很大的提升空間。因此,本研究提出一種基于深度學習的手術器械視覺圖像高斯與椒鹽噪聲去除方法,通過構建輕量級多任務漸進式網(wǎng)絡去除圖像噪聲,減少去噪模型的算力消耗和內存占用。
輕量級多任務漸進式網(wǎng)絡主要由3 個部分組成:多特征融合編碼器解碼器網(wǎng)絡、注意力引導網(wǎng)絡和細節(jié)恢復漸進式網(wǎng)絡。輕量級多任務漸進式網(wǎng)絡的結構如圖1 所示。首先,將噪聲圖像輸入到多特征融合編碼器解碼器網(wǎng)絡中,用于噪聲信息的預測,并將預測的噪聲信息從圖像中去除,得到粗粒度去噪圖像。然后,將粗粒度去噪圖像輸入到注意力引導網(wǎng)絡中,以去除圖像殘余噪聲。最后,由細節(jié)恢復漸進式網(wǎng)絡對無噪聲圖像中的細節(jié)特征進行恢復。
圖1 輕量級多任務漸進式網(wǎng)絡的結構圖
多特征融合編碼器解碼器網(wǎng)絡主要由編碼器、多尺度擴張卷積模塊和解碼器組成。其中,多尺度擴張卷積模塊由多個分支的擴張卷積組成,將來自不同擴張卷積的特征圖合并,然后輸入到1×1 卷積層。該模塊可以有效地捕捉噪聲的語義信息,以彌補由于編碼器連續(xù)下采樣導致的圖像紋理損失。此外,在多特征融合編碼器解碼器網(wǎng)絡中還加入了多個跳躍連接用來捕獲不同的特征。
注意力引導網(wǎng)絡由稀疏塊(sparse block,SB)、特征增強塊(feature enhancement block,F(xiàn)EB)、注意力塊(attention block,AB)和重建塊(reconstruction block,RB)4 個模塊組成,其中,稀疏塊使用擴張卷積和標準卷積來擴大感受野,以提高圖像去噪的性能和效率。特征增強塊通過長路徑集成注意力引導網(wǎng)絡的全局和局部特征,以增強算法模型的表達能力。假設IN和IR分別表示輸入噪聲圖像和預測殘差圖像,則稀疏塊可表示為
式中,OSB為稀疏塊的輸出,并將結果輸入到特征增強塊中;fSB為稀疏塊的函數(shù)。特征增強塊可表示為
式中,fFEB為特征增強塊的函數(shù)。注意力塊用來降低圖像背景特征提取的難度,其表達式為
式中,fAB為注意力塊的函數(shù);IR為注意力塊的輸出。重建塊主要用于無噪聲圖像的重構,其表達式為
式中,Iclear為預測的干凈圖像。
細節(jié)恢復漸進式網(wǎng)絡由多通道密集注意力漸進塊組成,并且使用跳躍連接來獲取不同的特征。多通道密集注意力漸進塊的結構如圖2 所示。注意力機制具有關注有效信息和忽略無效信息等優(yōu)點,因此在通道密集注意力模塊[7]的基礎上增加并行結構,形成并行通道密集注意力模塊,如圖3 所示。并行通道密集注意力模塊主要由3 個并行式注意力模塊組成,可以使模型在訓練過程中更有效地進行特征融合和梯度下降。細節(jié)恢復漸進式網(wǎng)絡由6 個循環(huán)階段組成,每個階段對應多通道密集注意力漸進塊,以實現(xiàn)與其他階段的參數(shù)共享。
圖2 多通道密集注意力漸進塊的結構圖
圖3 通道密集注意力模塊和并行通道密集注意力模塊
為了減少去噪模型的參數(shù)量和推理算力,將細節(jié)恢復漸進式網(wǎng)絡中的常規(guī)卷積替換為深度可分離卷積。假設網(wǎng)絡的輸入特征圖為DF×DF×M,輸出特征圖為DF×DF×N,卷積核的大小為DK×DK×M×N。其中,DF為特征圖的長、寬尺寸,DK為卷積核的長、寬尺寸,M、N 分別為輸入通道數(shù)和輸出通道數(shù)。卷積步長和填充均為1,以使輸出特征圖的長、寬尺寸與特征圖相同,則普通卷積的計算量為
深度可分離卷積將普通卷積分解為深度卷積和點卷積,深度卷積的大小為DK×DK×1×M,點卷積的大小為1×1×M×N,則深度卷積的計算量為
點卷積的計算量為
深度可分離卷積的計算量為
計算公式(8)和公式(5)的比值表示如下:
公開的訓練數(shù)據(jù)集為用于去除高斯噪聲的Waterloo Exploration 數(shù)據(jù)集[9]和用于去除椒鹽噪聲的BSD432 數(shù)據(jù)集[10],其中,Waterloo Exploration 數(shù)據(jù)集包含3 859 張彩色圖像,BSD432 數(shù)據(jù)集包含432 張彩色圖像。測試集為CBSD68[11]和Kodak24[12]圖像噪聲數(shù)據(jù)集。其中,CBSD68 數(shù)據(jù)集和Kodak24 數(shù)據(jù)集分別包含68 和24 張圖像。
由于手術器械噪聲數(shù)據(jù)集的缺乏,本文基于BW-I 型腹部外科手術器械包構建了手術器械噪聲數(shù)據(jù)集。該數(shù)據(jù)集包括噪聲水平為50 的高斯噪聲圖像和噪聲比例為10%的椒鹽噪聲圖像,共10 種手術器械類別,每個類別有260 張256×256 像素的彩色圖像,共有2 600 張圖像。10 種類別的手術器械分別為丁字式開口器、止血鉗、腸鉗、持針器、組織鑷、帕巾鉗、舌鉗、手術剪、海綿鉗、組織剪。部分手術器械的噪聲圖像如圖4 所示。
圖4 部分手術器械的噪聲圖像
所提出的方法的訓練過程在工作站上進行,工作站的基本配置:CPU 為Intel Xeon E5-2678 V3、2.5 GHz,內存為128 GiB,操作系統(tǒng)為Ubuntu18.04,CUDA 版本為11.4,并帶有2 個NVIDIA GeForce 3090 顯卡,PyTorch 版本為3.10。
對于高斯噪聲圖像,使用Adam 優(yōu)化器對所提出的方法進行70 次的迭代訓練,批量大小為32。初始學習率為0.001,并在迭代次數(shù)為30~60 時乘以0.1進行衰減。對于椒鹽噪聲圖像,使用Adam 優(yōu)化器對所提出的方法進行50 次的迭代訓練,批量大小為128。初始學習率為0.001,并在迭代次數(shù)為30 時乘以0.1 進行衰減。
峰值信噪比(peak signal-to-noise ratio,PSNR)被廣泛用于衡量不同去噪方法的性能,數(shù)值越大表示去噪圖像越接近真值圖像,去噪效果更優(yōu)。因此本研究采用PSNR 來評估模型的去噪效果。
在高斯噪聲圖像去噪實驗中,將本文所提出的方法與經(jīng)典去噪方法進行比較,經(jīng)典去噪方法包括去噪卷積神經(jīng)網(wǎng)絡[13](denoising convolutional neural networks,DnCNN)、FFDNet[4]和圖像恢復卷積神經(jīng)網(wǎng)絡(image restoration convolutional neural networks,IRCNN)[14]。高斯噪聲水平σ 分別設置為15、25、35、50。實驗結果見表1,可以看出,在CBSD68 數(shù)據(jù)集上,當噪聲水平為35 時本文所提出的方法的PSNR與DnCNN 方法相同,均優(yōu)于其他方法。高斯噪聲圖像的去噪結果如圖5 所示,可以看出,本文所提出的方法的去噪效果要優(yōu)于對比的方法。
表1 高斯噪聲圖像去噪實驗中本文所提出的方法與經(jīng)典方法的PSNR 比較
圖5 在CBSD68 數(shù)據(jù)集上,噪聲水平為25 的高斯噪聲去噪結果的直觀比較
類似地,在椒鹽噪聲圖像去噪實驗中,將本文所提出的方法與經(jīng)典去噪方法進行比較,經(jīng)典去噪方法包括基于克里金插值濾波器的自適應決策(adaptive decision based Kriging interpolation filter,ADKIF)[15]、非局部轉換濾波器卷積神經(jīng)網(wǎng)絡(non-local switching filter convolutional neural network,NLSF-CNN)[16]、自適應切薩羅均值濾波器(adaptive Cesáro mean filter,ACmF)[17]、改進型自適應加權均值濾波器(improved adaptive weighted mean filter,IAWMF)[18]、不同的自適應修正里斯平均值濾波器(different adaptive modified Riesz mean filter,DAMRmF)[19]。椒鹽噪聲的噪聲比例分別為10%、20%、30%、50%。實驗結果見表2,可以看出,與經(jīng)典方法相比本文所提出的方法的去噪效果更好。椒鹽噪聲圖像去噪結果的直觀比較如圖6所示,可以看出,相比其他方法,本文所提出的方法在去除噪聲的同時保留了更多的細節(jié)特征。
表2 在CBSD68 數(shù)據(jù)集上,椒鹽噪聲圖像去噪實驗中本文所提出的方法與經(jīng)典方法的PSNR 比較
圖6 在CBSD68 數(shù)據(jù)集上,噪聲比例為30%時椒鹽噪聲圖像去噪結果的直觀比較
在手術器械噪聲數(shù)據(jù)集上對所提出的方法進行實驗驗證,并使用PSNR 作為評價指標。實驗結果表明,對于高斯噪聲圖像和椒鹽噪聲圖像,所提出的方法的PSNR 分別為28.69 和43.41。
然后,使用經(jīng)典的ResNet-18 模型和ResNet-34模型分別在噪聲數(shù)據(jù)集和去噪數(shù)據(jù)集上進行分類實驗,比較模型分類性能的變化,實驗結果見表3。由表3 可以看出,對于高斯噪聲圖像,ResNet-18 模型的分類準確率為66.76%,比在無噪聲數(shù)據(jù)集上降低了18.37%,去噪后模型的準確率為81.59%,提升了14.83%;ResNet-34 模型的分類準確率為69.68%,比在無噪聲數(shù)據(jù)集上降低了19.78%,去噪后模型的準確率為83.67%,提升了13.99%。對于椒鹽噪聲圖像,ResNet-18 模型的分類準確率為65.01%,比在無噪聲數(shù)據(jù)集上減少了20.12%,去噪后模型的準確率為82.22%,提升了17.21%;ResNet-34 模型的分類準確率為70.55%,比在無噪聲數(shù)據(jù)集上減少了18.91%,去噪后模型的準確率為87.46%,提升了16.91%。
表3 ResNet-18 模型和ResNet-34 模型分別在無噪聲數(shù)據(jù)集、噪聲數(shù)據(jù)集和去噪數(shù)據(jù)集上的分類準確率
由實驗結果可知,模型在去噪數(shù)據(jù)集上的分類表現(xiàn)要明顯優(yōu)于噪聲數(shù)據(jù)集,這表明了手術器械視覺圖像去噪的必要性和本文所提方法的優(yōu)秀去噪能力。
在手術器械噪聲數(shù)據(jù)集上,本文所提出的方法去噪效果的直觀比較如圖7 所示,可以看出,相比于噪聲圖像,去噪圖像的質量得到明顯提升。
圖7 在手術器械噪聲數(shù)據(jù)集上,本文所提出的方法去噪效果的直觀比較
首先,對所提出的并行通道密集注意力模塊相較于通道密集注意力模塊的去噪效果進行實驗分析。在CBSD68 數(shù)據(jù)集上,分別對噪聲水平為15 的高斯噪聲圖像和噪聲比例為10%的椒鹽噪聲圖像進行去噪實驗,結果見表4。由表4 可以看出,對于高斯噪聲和椒鹽噪聲,并行通道密集注意力模塊的去噪效果更優(yōu)。
表4 在CSBD68 數(shù)據(jù)集上,注意力模塊對于不同噪聲的去噪效果(PSNR)比較
其次,在CBSD68 數(shù)據(jù)集上,對所提出的方法的輕量化效果進行實驗驗證,其中高斯噪聲水平為15。實驗結果見表5,可以看出,輕量化后PSNR 稍有下降,但參數(shù)量和浮點運算數(shù)(floating point operations,F(xiàn)LOPs)分別減少了約27.27%和29.81%。若使用模型的FLOPs 變化來計算壓縮率,則壓縮率約為29.81%。這表明輕量化的去噪方法具有更少的算力消耗和內存占用。
表5 輕量化前后效果比較
本文提出了一種基于深度學習的手術器械視覺圖像高斯與椒鹽噪聲去除方法,將圖像的去噪過程分為粗粒度噪聲去除、細粒度噪聲去除和圖像細節(jié)特征恢復3 個階段,能夠在漸進式去除噪聲的同時恢復圖像細節(jié)特征。在公開數(shù)據(jù)集上的實驗結果表明,本文所提出的方法取得了優(yōu)秀的去噪效果。在手術器械噪聲數(shù)據(jù)集上的實驗結果表明,ResNet-18模型和ResNet-34 模型在采用本文所提出的方法去噪的圖像上取得了更優(yōu)秀的分類表現(xiàn)。最后,對并行通道注意力模塊和輕量化效果進行了實驗分析,結果表明并行通道注意力模塊能更好地提升模型性能,并且輕量化后的去噪方法具有更少的算力消耗和內存占用。但本研究也存在以下局限性:一是本研究僅使用了輕量化網(wǎng)絡設計,去噪網(wǎng)絡的輕量化水平有限;二是本研究僅針對手術器械視覺圖像的高斯噪聲和椒鹽噪聲展開研究,而這并不能完全模擬未來臨床應用場景中的真實噪聲,存在一定的局限性。下一步將對更加貼近臨床應用場景的更多噪聲種類進行研究,并與其他輕量化方法(如剪枝、參數(shù)量化等)相結合,以期建立一個易于部署應用且性能優(yōu)秀的去噪網(wǎng)絡。