文章編號:2096-1472(2024)03-0052-06
DOI:10.19644/j.cnki.issn2096-1472.2024.003.011
摘"要:針對傳統(tǒng)牙齒比色方法準確率低和效率低等問題,提出一種基于殘差網(wǎng)絡改進的牙齒顏色分類模型。該模型通過融合多層卷積結果以及引入壓縮與激勵注意力機制模塊的方式,使網(wǎng)絡能學習到更多的圖像顏色特征?;诘湫脱例X所建數(shù)據(jù)集進行顏色分類實驗,在該數(shù)據(jù)集上對文中模型與GoogleNet、MobileNet-V1、ResNet-34和ResNet-50等模型進行顏色分類預測結果比較。實驗結果表明,文中模型優(yōu)于傳統(tǒng)模型,預測分類準確度達到91.16%,有效提高了牙齒顏色分類準確率和效率。
關鍵詞:牙齒比色;顏色分類;深度學習;ResNet-18網(wǎng)絡
中圖分類號:TP751.2""文獻標志碼:A
A Tooth Color Classification Model Improved by Residual Network
LIU Bowen1, BU Yang2, ZOU Duohong3, LI Jianlang1
(1.School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;
2.Shanghai Institute of Optics and Fine Mechanics, Chinese Academy of Sciences, Shanghai 201899, China;
3.Shanghai Ninth People's Hospital, Shanghai Jiao Tong University School of Medicine, Shanghai 200011, China)
2385836330@qq.com; buyang@siom.ac.cn; zouduohongyy@163.com; lijianlang@usst.edu.cn
Abstract: This paper proposes an improved tooth color classification model based on residual network to increase the accuracy and efficiency of traditional tooth colorimetric methods. This model enables the network to learn more image color features by fusing multilayer convolutional results and by introducing Squeeze-and-Excitation (SE) attention mechanism module. Color classification experiments are conducted on a typical teeth dataset, on which the color classification prediction results of the proposed model are compared with those of GoogleNet, MobileNet-V1, ResNet-34 and ResNet-50. The experimental results show that the proposed model is better than the traditional models, and the prediction classification accuracy reaches 91.16%, which effectively improves the accuracy and efficiency of tooth color classification.
Key words: tooth colorimetry; color classification; deep learning; ResNet-18 network
0""引言(Introduction)
牙體缺損和牙齒病變是口腔常見病[1]。常見的應對方法是采用烤瓷修復體對患者牙齒進行修復[2]。準確識別牙齒顏色是牙齒比色領域面臨的挑戰(zhàn)[3],牙齒修復體顏色與牙齒形態(tài)協(xié)調(diào)匹配對于患者口腔中牙齒修復與治療具有重要意義[4]。
色彩識別與匹配是修復體重建的關鍵[5],直接影響牙齒修復體的視覺效果。臨床常用的比色方法是人工視覺比色法或儀器比色法。人工視覺比色法受主觀因素影響較多,比色準確性、一致性較差[6]?;谏扔嫽蚍止夤舛扔嫷膬x器比色法,一般選取患者牙齒的某點或整面進行測量,但由于牙齒的表面顏色非常復雜,因此該方法的比色效率較低且準確性較差。
數(shù)字化比色是一種具有快速量化且不受環(huán)境干擾等優(yōu)點的比色方法。加拿大Cynovad公司生產(chǎn)的基于RGB系統(tǒng)的ShadeScan比色儀[7],通過分光光度計獲取牙齒表面顏色信息。根據(jù)KIM-PUSATERI等[8]的研究表明,該儀器的準確率為66.8%,對牙齒顏色評估不夠準確。董磊[9]設計了一種基于K近領域法的顏色分類方法,但該方法分類不均衡且計算較為復雜,準確性較低。
本文將牙齒比色問題轉(zhuǎn)換為圖像分類問題,建立ResNet-18神經(jīng)網(wǎng)絡完成工作。為了提高模型性能,提出一種新型的殘差結構,在殘差模塊中引入卷積層和非線性函數(shù)。改進后的模型準確度和效率均有所提升,能夠高效且準確地獲得牙齒顏色比色結果。
1""模型構建(Model building)
1.1""ResNet-18
卷積神經(jīng)網(wǎng)絡能夠提取圖像中顏色更深層次的數(shù)據(jù)特征,彌補人類對于圖像中顏色特征認識不足的缺陷[10],并且隨著網(wǎng)絡深度的增加,網(wǎng)絡學習能力會逐漸增強,因此訓練結果會越來越好。但是實際結果并非如此,隨著卷積神經(jīng)網(wǎng)絡達到一定深度時,其訓練過程中會出現(xiàn)梯度消失、梯度爆炸等問題,導致網(wǎng)絡無法收斂,網(wǎng)絡訓練精度隨著網(wǎng)絡層數(shù)增加而降低。深度殘差網(wǎng)絡(Deep residual network, ResNet)是一種經(jīng)典的卷積神經(jīng)網(wǎng)絡模型,具有深層網(wǎng)絡結構和殘差連接的特點。由于其他網(wǎng)絡模型缺少跳躍連接這類獨特的結構,或是因網(wǎng)絡層次不夠深,導致其顏色特征提取能力有限。相比之下,ResNet-18模型可以通過殘差連接的方式緩解梯度消失的問題[11],使得模型在訓練過程中能夠更好地學習到圖像中的顏色特征,故對顏色特征具有更好的提取能力。
ResNet-18網(wǎng)絡主要是由多個殘差模塊堆疊而成,由于傳統(tǒng)卷積網(wǎng)絡無法獲得完全擬合的恒等映射函數(shù)H(x)=x,導致隨著網(wǎng)絡深度增加而出現(xiàn)梯度消失或梯度爆炸等現(xiàn)象[12],因此在某些任務上無法取得很好的效果。ResNet-18網(wǎng)絡的優(yōu)點在于結構中的殘差模塊通過引入短路連接(Shortcut Connection)實現(xiàn)輸入端與輸出端的跨層連接,該方法可以實現(xiàn)讓輸入信息跳過一層或多層,然后使輸入信息到達網(wǎng)絡更深層進行恒等映射,之后與基礎映射通過卷積操作相加。假設輸入圖像為x,輸出圖像為H(x),中間部分通過卷積操作輸出的圖像為F(x),那么最后輸出的結果為H(x)=F(x)+x。當網(wǎng)絡中某層殘差模塊難以訓練,網(wǎng)絡學不到新的信息時,即F(x)=0,那么殘差模塊只做恒等映射,即H(x)=x,這樣可以避免梯度消失或梯度爆炸問題的產(chǎn)生,不會導致網(wǎng)絡因?qū)哟渭由疃鵁o法收斂[13]。殘差模塊圖如圖1所示。
1.2""注意力機制模塊
ResNet-18網(wǎng)絡雖然在計算資源有限的情況下可以進行高效的訓練和推理[14],但是在處理牙齒顏色分類這種顏色特征并不顯著的分類任務時,其能力有限,分類效果不夠理想,因此需要改進模型以此提高模型性能。壓縮與激勵(Squeeze-and-Excitation, SE)注意力機制模塊可以通過學習每個通道的權重,提高網(wǎng)絡對顏色特征的感知和表達能力[15]。SE注意力機制模塊還可以自適應地調(diào)整特征圖的通道權重,對于光照和顏色變化具有魯棒性,能提高模型的魯棒性和泛化能力[16]。文章采用ResNet-18和SE注意力機制模塊結合的方式提高網(wǎng)絡的性能,以此增強網(wǎng)絡模型對顏色特征的提取能力。
SE模塊又稱壓縮和激進模塊,模塊流程圖如圖2所示,該模塊由壓縮(Squeeze)和激進(Excitation)兩個模塊組成[17],然后通過壓縮、激勵、重構操作得到一個1×1×C的權重矩陣,通過該矩陣與原圖相乘,使圖像的不同位置獲得不同的權重,實現(xiàn)對圖像特征信息的篩選[18]。
首先,通過全局平均池化將每個通道的二維特征(H×W)壓縮為一個實數(shù),使特征圖從(H,W,C)轉(zhuǎn)變?yōu)椋?,1,C),得到每個通道的全局特征,如公式(1)所示:
1.3""殘差模塊的改進
殘差模塊采用了一種非常有效的結構,其獨特的跳躍連接方式可以完美地解決梯度消失問題[19]。但該模塊也存在一些局限性,例如模塊設計較為簡單,主要捕捉圖像的局部細節(jié),因此提取到的特征多樣性受限,故模型在處理復雜任務時性能有所不足。在牙齒顏色多分類任務中,不同顏色牙齒之間的差異通常不夠明顯,因此標準的殘差結構難以實現(xiàn)出色的性能。為了解決這一問題,提高模型的分類能力,本文設計了一種新的殘差模塊(圖3)。該模塊在特征提取分支中引入了更多的卷積層,每層之后跟隨一個ReLU激活函數(shù),這種方式有效增強了模型的非線性表征。首先將不同層次的卷積結果逐層相加,以此獲得圖像中的高級特征信息;其次將疊加后的特征信息通過SE注意力機制模塊抑制無用特征信息;最后將SE注意力機制模塊輸出的特征圖與原始輸入相加,實現(xiàn)殘差結構的跳躍連接作用。改進后的ResNet-18網(wǎng)絡結構圖如圖4所示。
由圖3可知,輸入x經(jīng)過第一層卷積運算,輸出為y1,公式如下:
公式(4)和公式(6)中,i和j表示輸入、輸出的特征圖索引,m和n表示卷積核的索引。
第二層卷積輸出的結果y2同樣經(jīng)過ReLU激活函數(shù)和卷積層依次得到y(tǒng)3、y4和y5,最后將y2、y3、y4和y5相加,將相加后的結果通過SE注意力機制模塊,增強特征圖中有用的特征信息,抑制無用的特征信息,公式如下:
yout=y2+y3+y4+y5(7)
將yout與公式(3)中的sC相乘,即得到y(tǒng)out,通過SE注意力機制模塊后輸出的結果如下:
yout=sCyout(8)
2""實驗與分析(Experiment and analysis)
2.1""數(shù)據(jù)集
本文使用的實驗數(shù)據(jù)均在自然光照明下拍攝??紤]到患者牙齒顏色的實際情況,數(shù)據(jù)集共包含27種不同顏色牙齒的圖片,每張圖片均由口腔醫(yī)生拍攝患者牙齒所得,口腔醫(yī)生參考對比牙齒比色板后(圖5),給出牙齒符合的色號,口腔醫(yī)生比色過程如圖6所示。牙齒比色板由27種色號組成,不同色號牙齒之間的區(qū)別體現(xiàn)在明度和色調(diào)上,牙齒比色板有5個明度等級,圖5中,從左到右的明度逐漸降低,伴隨著色調(diào)也逐漸加深,最左側的牙齒又亮又白,而最右側的牙齒又黃又暗。
本文實驗數(shù)據(jù)集如圖7所示,標簽分為27類,對應牙齒比色板上27種色號,每顆牙齒的標簽均由口腔醫(yī)生參照牙齒比色板給出。由于神經(jīng)網(wǎng)絡需要使用大量數(shù)據(jù)進行訓練學習,因此需要先對現(xiàn)有圖片進行數(shù)據(jù)增強。實驗人員采用旋轉(zhuǎn)、翻轉(zhuǎn)以及添加椒鹽噪聲等方式擴充數(shù)據(jù)集,以提高網(wǎng)絡模型的泛化能力。數(shù)據(jù)集共包含16 000余張圖片,每一類顏色約有600余張圖片,每張圖片的分辨率為256×256,實驗樣本按8∶2的比例分為訓練集和驗證集。
2.2""實驗環(huán)境及超參數(shù)設置
實驗環(huán)境基于Windows 10操作系統(tǒng),處理器為11th Gen Intel(R) Core(TM) i7-11800H @ 2.30 GHz,GPU為NVIDIA GeForce RTX 3060,顯存大小為6 GB,編程語言為Python 3.8.13,采用PyTorch 1.12.1進行訓練學習。使用交叉熵損失函數(shù)計算預測值與真實值之間的誤差,采用隨機梯度下降優(yōu)化器對神經(jīng)網(wǎng)絡的數(shù)值參數(shù)及權重進行更新[20],學習率為0.01,每5個epoch更新一次學習率,epoch設置為20,batchsize設置為32。
2.3""評價指標
為了分析模型對每一種牙齒顏色的預測精度,選擇準確率作為模型的整體指標,并選擇精確率、召回率和F1值作為每一類顏色的分類指標。對于第i類顏色,計算4個指標。
(1)準確率(Accuracy):正確預測的樣本數(shù)量與總樣本數(shù)量之間的比率,如公式(10)所示:
其中:真陽性(TPi)表示預測的類別與真實的類別都是第i類;假陽性(FPi)表示預測的類別是第i類,但真實的樣本類別不是第i類;假陰性(FNi)表示預測的類別不是第i類,但真實的類別是第i類。
雖然本研究以準確率作為評價模型總體性能的指標,但是并不局限于某一類別的分類精度,故結合精確率、召回率及F1值共同評估模型對不同類別牙齒顏色的分類能力,從而對模型進行全面且客觀的評估。
2.4""實驗結果與分析
為了研究該模型在牙齒顏色分類數(shù)據(jù)集上的分類能力,設計了4組消融對比實驗,使用ResNet-34、ResNet-50、GoogleNet及MobileNet-V1作為對照組。
為了體現(xiàn)模型的訓練效果,采取控制變量法,不同的算法均在同一機器上運行,避免造成不同算力對準確率、精確率、召回率和F1值結果產(chǎn)生差異,取每種算法的20個epoch中準確率最佳的一輪模型用于與其他算法進行結果比較。
2.4.1""未引入SE注意力機制模塊
ResNet-18模型與本文模型在牙齒顏色分類數(shù)據(jù)集上的分類指標如表1所示。本文模型僅在殘差網(wǎng)絡中改換了每一個殘差模塊結構,模型的準確率提升了3.98%,精確率提高了4.23%,召回率提高了4.03%,F(xiàn)1值提高了4.13%,證明改進后的殘差結構可以從牙齒顏色分類數(shù)據(jù)集上提取更深層次的顏色特征信息,從而提升模型的分類性能。
由圖8(a)可知,本文模型相較于傳統(tǒng)的ResNet-18模型在曲線收斂之后可以達到更高的準確率,表明本文模型在驗證過程中可以達到更高的性能水平。由圖8(b)可知,本文模型在第5輪之后仍然可以持續(xù)降低損失,表明可以提取到更深層次的顏色特征信息,并通過繼續(xù)訓練進一步提高對顏色特征信息的擬合能力,為牙齒顏色分類任務帶來了顯著的改進。
2.4.2""引入SE注意力機制模塊
SEResNet-18模型與本文模型在牙齒顏色分類數(shù)據(jù)集上的分類指標如表2所示。為避免SE注意力機制模塊插入位置對模型性能的影響,SE注意力機制模塊皆在特征提取支干的末端插入,以此對比不同模型的性能。由表2可知,在ResNet-18模型的基礎上引入SE注意力機制模塊后,模型的性能并沒有提升,表明原殘差結構對特征信息的提取能力較弱,故引入SE注意力機制模塊并不能增強模型對顏色特征信息的學習能力。本文模型的各項指標相較于SEResNet-18模型均提升了8%左右,表明本文模型的殘差模塊能夠提取豐富的顏色特征信息,可以通過SE注意力機制模塊加強學習有用的特征信息,故模型的分類性能得以提升。
由圖9可知,本文模型在損失曲線和準確率曲線上的結果都優(yōu)于引入SE注意力機制模塊的ResNet-18模型,表明本文模型性能的提升并非僅依賴SE注意力機制模塊,而是得益于本文在特征提取架構上的設計創(chuàng)新,從而驗證了本文模型在結構設計上的有效性,尤其是在特征提取能力方面的顯著改進。
2.4.3""本文模型與深度殘差卷積網(wǎng)絡對比
本文模型與深度殘差卷積網(wǎng)絡對比的分類指標如表3所示。由表3可知,單純增加殘差模塊加深網(wǎng)絡的深度并不能提升模型的性能。雖然殘差結構可以避免梯度消失和梯度爆炸的現(xiàn)象發(fā)生,但是在特征提取支干上的能力不足,所以模型提取不到足夠的特征信息,證明單純增加殘差模塊的數(shù)量并不能提升網(wǎng)絡的性能。本文模型在殘差模型的特征提取支干上增加了卷積的層數(shù),并將多層卷積結果融合,使其可以提取到圖像中更抽象的顏色特征信息,故改善后的模型性能相較于傳統(tǒng)殘差網(wǎng)絡的性能顯著提升。
由圖10(a)和圖10(b)可知,在傳統(tǒng)的ResNet模型中,隨著網(wǎng)絡的深度增加,并不能使驗證的準確率得以提高,表明單純地增加網(wǎng)絡的層數(shù)會使模型對牙齒顏色分類任務產(chǎn)生過擬合,從而在牙齒顏色分類任務上得不到很好的效果。相比之下,本文模型在牙齒顏色分類任務上所表現(xiàn)的性能不僅優(yōu)于其他傳統(tǒng)的ResNet模型,而且擁有更低的損失值,表明本文模型對牙齒顏色分類任務來說作用是有效且顯著的。
2.4.4""本文模型與其他模型的對比
本文模型與其他模型的對比結果如表4所示。由表4可知,殘差網(wǎng)絡的性能要稍優(yōu)于GoogleNet與MobileNet-V1,再次證明殘差模塊的優(yōu)越性。表4中,本文模型獲得的準確率為91.16%,是7種模型中性能最好的,證明改進后的模型可以更好地學習牙齒顏色的特征信息。
2.5""不同模型的結果對比
圖11為不同模型對4個測試樣本的分類結果對比,GroundTruth為口腔醫(yī)生根據(jù)圖5的牙齒比色板所給出的色號意見,圖中的0M1、4M3等指代牙齒比色板上相應色號所對應的牙齒。
3""結論(Conclusion)
本文提出一種基于殘差網(wǎng)絡改進的牙齒顏色分類模型,它首先在殘差結構的特征提取支干上加入了更多的卷積層,增強了殘差模塊的特征提取能力;其次將多層卷積結果融合,使提取到的特征更抽象,提升了圖像特征信息的多樣性;最后引入SE注意力機制模塊關注各種顏色的不同通道之間的聯(lián)系,從而快速地尋找出關鍵顏色所在區(qū)域并提取出特征信息,增強了網(wǎng)絡對于顏色通道的感知和表達能力。實驗結果表明,通過深度學習的方法可以獲得較高的牙齒顏色分類準確率,并且能快速、量化和高準確度地對多顆牙齒顏色進行識別與匹配。
參考文獻(References)
[1] 諸葛通人. 研究口腔修復患者牙體缺損、牙列缺失和牙列缺損的臨床特點[J]. 中國衛(wèi)生標準管理,2018,9(4):54-55.
[2] 陳宏麗. 電腦比色儀與目測法比色在牙體修復中的比較[J]. 中國醫(yī)療器械信息,2018,24(4):15-16.
[3] 張浩霖,金作林. 透明保持器對牙齒顏色的影響[J]. 口腔醫(yī)學,2020,40(12):1103-1106.
[4] MOUSSA R. Dental shade matching:recent technologies and future smart applications[J]. Athenaeum scientific publishers,2021,2103(1):1-10.
[5] 丁秀琴,黃曉峰. 復合樹脂與聚合瓷在牙體缺損后修復術中的應用對比[J]. 中國醫(yī)藥導報,2013,10(28):34-36.
[6] HAMP-KAUTZ V,SALEHI A,SENGER B,et al. A comparative in vivo study of new shade matching procedures[J]. International journal of computerized dentistry,2020,23(4):317-323.
[7] 張新媛,吳效民. 口腔比色技術的發(fā)展及現(xiàn)狀[J]. 口腔頜面修復學雜志,2012,13(2):121-123.
[8] KIM-PUSATERI S,BREWER J D,DAVIS E L,et al. Reliability and accuracy of four dental shade-matching devices[J]. The Journal of prosthetic dentistry,2009,101(3):193-199.
[9] 董磊. 數(shù)字式高分辨比色儀的研制[D]. 西安:西安石油大學,2020.
[10] 張?zhí)砀?,鐘舜聰,連超銘,等. 基于深度學習特征融合的視網(wǎng)膜圖像分類[J]. 激光與光電子學進展,2020,57(24):266-273.
[11] 管淑賢,葛萬成. 基于ResNet18的減速帶識別及其環(huán)境影響研究[J]. 通信技術,2021,54(3):597-603.
[12] 李嘉琪,全星日. 基于改進ResNet50的心音分類算法研究[J]. 電腦知識與技術,2022,18(21):76-78.
[13] 趙洋,梁迎春,許軍,等. 改進ResNet18網(wǎng)絡模型的花卉識別[J]. 計算機技術與發(fā)展,2022,32(7):167-172.
[14] 張垚鑫,朱榮光,孟令峰,等. 改進ResNet18網(wǎng)絡模型的羊肉部位分類與移動端應用[J]. 農(nóng)業(yè)工程學報,2021,37(18):331-338.
[15] 何彥弘,徐怡寧,傅嘉琪,等. 基于改進Resnet18的垃圾分類收運監(jiān)管方法研究[J]. 軟件工程,2023,26(1):24-33.
[16] 傅繼彬,曹玉笠. 基于門控卷積和SENet的雙判別生成對抗網(wǎng)絡圖像修復模型 [J]. 計算機應用,2023,43(增刊1):212-216.
[17] 陳可心,喬煥,方玲玲. 基于SENet和GBDT的改進CNN視網(wǎng)膜疾病多分類[J]. 計算機系統(tǒng)應用,2023,32(8):286-294.
[18] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-excitation networks[J]. IEEE transactions on pattern analysis and machine intelligence,2020,42(8):2011-2023.
[19] 劉寧,孫萍,馮宇平,等. 基于ResNet18與膠囊網(wǎng)絡結合的人臉表情識別[J]. 青島科技大學學報(自然科學版),2023,44(5):109-114.
[20] 趙杰,李絮,申通. 基于SENet注意力機制和深度殘差網(wǎng)絡的腹部動脈分割[J]. 科學技術與工程,2022,22(22):9529-9536.
作者簡介:
劉博文(1998-),男,碩士生。研究領域:圖像處理,深度學習。
步"揚(1973-),男,博士,教授。研究領域:光學精密檢測技術。本文通信作者。
鄒多宏(1977-),男,博士,教授。研究領域:智能檢測,牙槽骨骨增量和牙齒種植工作。
李建郎(1970-),男,博士,教授。研究領域:新型光纖,固體激光器技術。
收稿日期:2023-06-20
基金項目:國家重點研發(fā)計劃(2020YFB2007504);上海市地方高校能力建設項目(22010503200);國家自然科學基金面上項目(61975217)