摘" 要: 針對口腔醫(yī)療資源緊缺和齲齒治療效率不足的問題,提出一種改進YOLOv7的齲齒圖像檢測算法,旨在協(xié)助醫(yī)生進行更有效的醫(yī)療診斷,同時增強患者對預(yù)防齲齒的意識。首先,在YOLOv7算法的主干網(wǎng)絡(luò)引入ECA?MobileOne網(wǎng)絡(luò)模塊代替原有的ELAN模塊,降低模型參數(shù)量,提高對小目標齲齒特征的有效提??;其次,在特征圖輸出層采用自適應(yīng)特征融合(ASFF),自適應(yīng)地學習各尺度特征圖在融合時的空間權(quán)重,充分獲取口腔圖像中不同尺度下的關(guān)鍵特征,提高檢測的全局性和準確性;另外,采用soft?NMS算法替換原有的非極大值抑制算法(NMS),在牙齒異位或重疊等情況下能更有效地提升檢測效果。使用在保定市第二醫(yī)院口腔科采集的口腔照片數(shù)據(jù)集進行實驗,結(jié)果顯示,改進后的算法mAP達到93.4%,相較于原始YOLOv7算法提高了5.5%,并且與當前主流算法相比,具有一定的先進性,為促進口腔健康的整體改善提供了新的技術(shù)支持。
關(guān)鍵詞: 齲齒檢測; MobileOne; 自適應(yīng)特征融合; YOLOv7; soft?NMS; 圖像檢測
中圖分類號: TN911.1?34; TP391" " " " " " " " " 文獻標識碼: A" " " " " " " " " nbsp; 文章編號: 1004?373X(2024)17?0079?09
Improved YOLOv7 algorithm for caries image detection
FAN Xiaocong1, YAO Jingfa2, TENG Guifa1, MA Yongping3
(1. School of Information Science and Technology, Hebei Agricultural University, Baoding 071000, China;
2. Department of Software Engineering, Hebei Software Institute, Baoding 071000, China;
3. Stomatology Department of Baoding No. 2 Hospital of Hebei Province, Baoding 071000, China)
Abstract: In view of the shortage of oral healthcare resources and the inefficiency in caries treatment, a scheme of an improved YOLOv7 algorithm for caries image detection is proposed to assist doctors in making more effective medical diagnosis, and assist patients in enhancing their awareness of caries prevention. The network module ECA?MobileOne is introduced into the backbone layer of YOLOv7 algorithm instead of the original module ELAN, so as to reduce the number of model parameters and improve the feature extraction of little caries (little objects). An adaptive spatial feature fusion (ASFF) is used in the output layer of feature map to adaptively learn the spatial weight of the feature maps of different scales in the process of fusion, and fully acquire the key features of different scales of the oral cavity image, so as to improve the global nature and accuracy of the detection. In addition, the soft?NMS algorithm is used to replace the original NMS (non?maximum suppression) algorithm, so as to improve the detection effect more effectively in the case of teeth ectopic or overlapping. Experiments were conducted based on an oral photograph dataset collected from the stomatology department of Baoding No. 2 Hospital. The results show that the improved algorithm achieved an mAP (mean average precision) of 93.4%, which was 5.5% higher in comparison with that of the original YOLOv7 algorithm. It can be seen that the improved algorithm is advanced in comparison with the current mainstream algorithms, and can provide technical support for the overall improvement of oral health.
Keywords: caries detection; MobileOne; ASFF; YOLOv7; soft?NMS; image detection
0" 引" 言
隨著社會的不斷發(fā)展,人們的物質(zhì)生活水平不斷提高,口腔問題也越來越受到人們和政府的重視??谇患膊》N類繁多,在全球口腔疾病的類別中,最為常見的是齲齒和牙周病。齲齒俗稱蟲牙或蛀牙,是一種由牙菌斑中的微生物引起的局部牙體硬組織疾病,與心血管疾病和惡性腫瘤并列為三大非傳染性疾病[1]。根據(jù)衛(wèi)生部發(fā)布的第四次中國口腔健康流行病學調(diào)查報告[2]顯示,我國兒童乳牙平均患齲率為62.1%,青少年恒牙平均患齲率為41.5%,中老年人恒牙平均患齲率為94.2%,這表明齲齒在我國口腔健康問題中占據(jù)著重要地位。未經(jīng)及時治療的齲齒有可能沿牙根向更深層組織擴散,進而引發(fā)根尖周炎、頜骨骨髓炎、間隙感染,甚至導(dǎo)致全身性感染。因此,加強口腔中齲齒的檢測并及時終止齲齒病變,對于維護整體口腔健康至關(guān)重要。
近年來,一些先進的成像技術(shù)和計算機輔助診斷(CAD)系統(tǒng)已經(jīng)在齲齒檢測和預(yù)防方面取得了一些進展,如基于熒光效應(yīng)的齲齒診斷技術(shù)[3],創(chuàng)建和分析三維數(shù)字牙模型幫助醫(yī)生更全面地了解牙齒表面的微小變化,或者使用圖像分割和圖像分類兩個獨立步驟的算法實現(xiàn)齲齒的識別[4]。但是目前最突出有效的方法是通過深度學習算法構(gòu)建目標檢測器進行精準的齲齒識別。文獻[5]提出一種基于遷移學習和模型融合技術(shù)的齲齒檢測網(wǎng)絡(luò)(MDfuseNet),在根尖周X光片上進行檢測,模型準確率達到97.08%。文獻[6]采用CNN MobileNetv2網(wǎng)絡(luò)在裁剪的全景X光片中檢測第三磨牙是否有齲壞情況,實驗顯示模型的準確度達到了87%。文獻[7]采用級聯(lián)的ResNet網(wǎng)絡(luò)在根尖周X光片中進行齲齒和根尖周炎的自動化診斷,[F1]分別為82.9%和82.8%,模型的表現(xiàn)優(yōu)于年輕醫(yī)生的診斷結(jié)果。文獻[8]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對口腔照片中的齲齒進行檢測,實驗結(jié)果表明,CNN能夠正確檢測92.5%病例的齲齒。文獻[9]根據(jù)SSD算法的特點,開發(fā)了一種卷積神經(jīng)網(wǎng)絡(luò)判斷口腔照片中是否存在齲齒并對齲齒位置進行定位,結(jié)果表明,模型達到了64.6%的定位精度。文獻[10]對Faster R?CNN、YOLOv3、RetinaNet、SSD四種算法在檢驗通過智能手機拍攝的口腔照片中是否存在齲齒進行了比較,研究表明,YOLOv3和Faster R?CNN算法模型在通過智能手機圖像診斷齲齒方面的臨床應(yīng)用前景廣闊。
但是總體而言,目前大多數(shù)研究主要聚焦于通過X光片檢測齲齒??谇籜光片需要經(jīng)專業(yè)培訓的醫(yī)療人員使用專業(yè)的設(shè)備進行拍攝,在醫(yī)療資源緊缺的地區(qū),醫(yī)護人員的專業(yè)培訓和昂貴的設(shè)備增加了口腔X光片獲取的難度,制約了口腔健康水平的改善。目前有關(guān)手機拍攝的口腔照片的齲齒檢測研究還比較少,其檢測精度不夠高,模型不夠輕量化,不利于后續(xù)在移動設(shè)備的部署。因此構(gòu)建準確的、輕量化的口腔齲齒診斷系統(tǒng),用來協(xié)助醫(yī)生進行更有效的醫(yī)療診斷,減少醫(yī)生工作量,提高患者對預(yù)防齲齒的意識是非常有必要的。
口腔環(huán)境復(fù)雜,對口腔中的齲齒進行檢測時存在以下問題:在部分口腔圖像中,齲齒目標區(qū)域較小且數(shù)量眾多,分布位置較為分散,牙齒可能存在異位或重疊等情況;另外,齲齒的檢測容易受到牙漬、牙髓炎等因素的干擾,從而使得算法的穩(wěn)定性和準確性受到影響。齲齒檢測算法后續(xù)在移動設(shè)備部署的需求等也都加大了齲齒檢測的難度。
針對上述問題,本文采用YOLOv7算法并進行改進,在YOLOv7的主干網(wǎng)絡(luò)中引入ECA?MobileOne網(wǎng)絡(luò)模塊,提高對小目標齲齒特征的有效提取,減少模型參數(shù)量以滿足后續(xù)在移動設(shè)備的部署需求;在YOLOv7頭部網(wǎng)絡(luò)的特征圖輸出模塊采用自適應(yīng)特征融合(ASFF),自適應(yīng)地學習各尺度特征圖在融合時的空間權(quán)重,充分利用口腔圖像中不同尺度下的關(guān)鍵特征,提高檢測的全局性和準確性;后處理過程采用soft?NMS算法替換原有的非極大值抑制算法(NMS),調(diào)整候選框之間的重疊度,更精細地控制最終輸出的目標框,改善漏檢和誤檢等問題。在保定市第二醫(yī)院口腔科采集的口腔照片數(shù)據(jù)集上進行訓練與測試,并與其他常用目標檢測模型進行齲齒檢測效果對比,以期為口腔問題的改善提供一種新思路。
1" YOLOv7目標檢測算法
基于深度學習的目標檢測算法主要分為單階段目標檢測算法和兩階段目標檢測算法,作為單階段目標檢測經(jīng)典算法,YOLO憑借其較快的運行速度,常被用于系統(tǒng)實時檢測。2022年7月提出的YOLOv7[11]算法無論是在實時性還是準確率上都取得了相對較好的效果。鑒于口腔照片中的齲齒檢測算法需要同時滿足實時性和準確性要求,本文選擇YOLOv7算法作為齲齒檢測的基礎(chǔ)算法模型。
YOLOv7網(wǎng)絡(luò)由輸入層、主干網(wǎng)絡(luò)和頭部三部分組成。輸入層的主要作用是對圖像預(yù)處理,以滿足主干網(wǎng)絡(luò)的輸入大小要求。主干網(wǎng)絡(luò)的主要作用是提取不同尺度的圖像特征。主干網(wǎng)絡(luò)由若干CBS模塊、ELAN模塊和MP模塊組成,其中,ELAN模塊是一個高效的網(wǎng)絡(luò)結(jié)構(gòu),采用梯度路徑策略進行設(shè)計,使網(wǎng)絡(luò)學習到更多的特征。頭部主要用于對特征進行解碼和分類,并輸出目標檢測的結(jié)果。頭部主要工作流程為將經(jīng)過上采樣輸出的三個特征圖分別通過三個REPConv和卷積層輸出三個不同大小、未經(jīng)處理的預(yù)測結(jié)果。另外,NMS算法是YOLOv7算法后處理的一個重要步驟。NMS算法的作用是抑制重疊的邊界框,從而提高檢測結(jié)果的準確性。
2" 改進YOLOv7目標檢測算法
為了提高齲齒檢測精度,減少模型參數(shù)量,本文對YOLOv7算法做出如下改進:首先,在YOLOv7的Backbone層引入ECA?MobileOne網(wǎng)絡(luò)模塊,替換原有的ELAN模塊,改善YOLOv7算法中存在著大量的冗余特征、檢測延遲性高等問題;其次,YOLOv7算法采用直接銜接或者直接相加等方式輸出多層特征,但是高層包含低層特征,直接銜接或者直接相加等方式不能充分利用不同尺度特征。因此在Head層的特征圖輸出模塊引入ASFF,自適應(yīng)地學習每個尺度的空間權(quán)重,充分融合不同尺度特征;最后,采用soft?NMS算法替換原有的非極大值抑制算法(NMS),在牙齒異位或重疊等情況下能有效提升檢測效果,改善齲齒漏檢和誤檢等問題。
改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2.1" 融入ECA?MobileOne網(wǎng)絡(luò)模塊
針對YOLOv7算法中存在著大量的冗余特征、檢測延遲性高等問題,以及口腔照片齲齒檢測算法后續(xù)在移動手持設(shè)備上的部署需求,將具有網(wǎng)絡(luò)復(fù)雜度低、實時性高特點的MobileOne網(wǎng)絡(luò)引入到Y(jié)OLOv7的Backbone層,以優(yōu)化齲齒特征的提取過程。通過觀察數(shù)據(jù)集中齲齒口腔圖像,發(fā)現(xiàn)部分口腔圖像中,齲齒分布范圍較小、數(shù)量較多,且分布位置較為分散,提取到的特征信息十分有限,容易發(fā)生齲齒漏檢和誤檢等問題。為增強網(wǎng)絡(luò)對通道的學習能力,將通道注意力機制ECA添加到MobileOne模塊后形成ECA?MobileOne網(wǎng)絡(luò)模塊,取代YOLOv7網(wǎng)絡(luò)Backbone層的ELAN模塊,以提高對小目標齲齒特征的有效提取。
1) MobileOne網(wǎng)絡(luò)模塊
MobileOne[12]是2022年蘋果公司(Apple Inc.)提出的用于移動設(shè)備的新型輕量化神經(jīng)網(wǎng)絡(luò),主要用于解決大量計算造成的精度下降和預(yù)測延遲等問題,其變體在移動設(shè)備上的推理時間低于1 ms,相比MobileNetv3和ShuffleNetv2等目前較為主流的輕量化神經(jīng)網(wǎng)絡(luò),準確度也略占優(yōu)勢,可應(yīng)用到圖像分類、目標檢測和語義分割領(lǐng)域。
MobileOne模型基于MobileNetv1設(shè)計,由大量MobileOne Block構(gòu)成,MobileOne Block結(jié)構(gòu)如圖2所示。左側(cè)部分是由深度卷積和點卷積組成的完整結(jié)構(gòu)塊,深度卷積是分組卷積,組的數(shù)量與輸入通道數(shù)相同,深度卷積模塊最左側(cè)分支是1×1卷積,中間分支是過參數(shù)化的3×3卷積,最右側(cè)分支是一個包含BN層的跳躍連接。1×1卷積和3×3卷積都是深度卷積。點卷積由過參數(shù)化的1×1卷積和包含BN層的跳躍連接兩條分支構(gòu)成,其主要功能是自由改變輸出通道的數(shù)量,并且和深度卷積輸出特征圖通道融合。在模型訓練階段,MobileOne由如圖2所示的神經(jīng)網(wǎng)絡(luò)塊堆疊而成,以提取更多特征。在模型訓練結(jié)束后,將多分支結(jié)構(gòu)進行重參數(shù)化為單分支結(jié)構(gòu),使模型更加簡單,參數(shù)量減少,推理速度更快。
2) ECA注意力機制
注意力機制是指通過對感興趣的局部信息聚焦,使網(wǎng)絡(luò)更加關(guān)注齲齒區(qū)域,從而提高對小目標檢測的準確率。通道注意力機制已被證明在改善深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)性能方面有巨大潛力。然而,目前的方法為了實現(xiàn)更好的性能大多致力于開發(fā)更復(fù)雜的注意力機制模塊,這不可避免地增加了模型的復(fù)雜性。為了解決性能和復(fù)雜性之間的矛盾,本文引入ECA通道注意力機制,該模塊只增加少量的參數(shù),便可獲得明顯的性能增益。
如圖3所示為ECA注意力機制結(jié)構(gòu)[13],圖中的[W]和[H]分別為輸入圖像的寬度和高度,[C]為特征圖通道數(shù)。為了避免SE注意力機制中的降維操作,采用全局平均池化對特征圖的空間維度進行壓縮,然后使用大小為[K]的一維卷積核替代兩層卷積層,以確定跨通道信息交流的覆蓋范圍。最后,通過將壓縮后的特征圖與原始特征圖相乘,完成了特征圖的重新校準,實現(xiàn)了網(wǎng)絡(luò)對重要特征的選擇性強調(diào),同時抑制了無用特征。一維卷積核大小[K]與通道數(shù)[C]成正比關(guān)系,如公式(1)所示:
[K=φC=lbCγ+bγodd] (1)
ECA注意力機制采用一維卷積,有效避免了全連接層降維帶來的副作用。自適應(yīng)卷積核大小[K]通過交互相鄰?fù)ǖ佬畔?,能夠有效捕獲口腔圖像中容易被忽略漏檢的小目標齲齒。ECA注意力機制通過跨信道的信息交互,在不明顯增加內(nèi)存開銷和網(wǎng)絡(luò)深度的情況下,避免了口腔圖像中非目標冗余特征的學習,同時兼顧有效特征,可以有效增強口腔圖像中齲齒的檢測性能。
2.2" 添加自適應(yīng)特征融合(ASFF)
與其他目標檢測模型類似,YOLOv7也采用直接銜接或者直接相加等方式輸出多層特征,但是高層包含低層特征,直接銜接或者直接相加等方式不能充分利用不同尺度特征,并且口腔圖像是復(fù)雜的,會產(chǎn)生特征冗余和背景噪聲干擾,因此本文采用一種自適應(yīng)特征融合方法[14](ASFF),自適應(yīng)地學習每個尺度的空間權(quán)重,以實現(xiàn)圖像多尺度特征的充分融合。ASFF結(jié)構(gòu)如圖4所示。
假設(shè)YOLOv7輸出的三個特征圖分別為F1、F2、F3,則三個特征圖的分辨率和通道數(shù)均不同,其分辨率分別為原始圖像的[18]、[116]和[132]。因此,每個尺度的特征層需要采用相應(yīng)的上采樣或下采樣策略以及1×1卷積進行調(diào)整,確保不同尺度特征圖在后續(xù)處理中能夠協(xié)同工作。
以ASFF?1為例。對于F2,首先經(jīng)過1×1卷積操作,得到與F1相同的通道數(shù),然后再進行兩次插值操作調(diào)整尺度大?。煌?,對于F3,先經(jīng)過1×1卷積操作調(diào)整通道數(shù),再進行四次插值操作調(diào)整尺度大小。最后對F1、F2和F3加權(quán)融合得到ASFF?1,具體過程如公式(2)所示:
[ASFF?1=α1ij?F1→1ij+β1ij?F2→1ij+γ1ij?F3→1ij] (2)
式中:[F2→1ij]和[F3→1ij]表示經(jīng)過尺度變換后,與F1層通道數(shù)和分辨率相同的[i,j]處的特征向量;[α1ij]、[β1ij]和[γ1ij]表示三個不同特征層第一層的空間融合權(quán)重。這些權(quán)重通過網(wǎng)絡(luò)自適應(yīng)學習得到,并且[α1ij]、[β1ij]、[γ1ij∈[0,1]],三者滿足如下關(guān)系式:
[α1ij+β1ij+γ1ij=1] (3)
定義[α1ij]、[β1ij]、[γ1ij]三者的值如式(4)~式(6)所示:
[α1ij=eλ1αijeλ1αij+eλ1βij+eλ1γij] (4)
[β1ij=eλ1βijeλ1αij+eλ1βij+eλ1γij] (5)
[γ1ij=eλ1γijeλ1αij+eλ1βij+eλ1γij] (6)
2.3" 改進非極大值抑制算法(soft?NMS)
YOLOv7模型默認采用NMS算法作為模型的后處理算法,傳統(tǒng)的NMS算法是通過迭代的形式篩選候選框,最大得分框不斷地與其他框做IoU操作,如果相鄰檢測框得分大于閾值,則直接設(shè)置為零。傳統(tǒng)NMS算法的分數(shù)重置函數(shù)如公式(7)所示:
[si=si," " " IoUM,bilt;Nt0," " " IoUM,bi≥Nt] (7)
若采用傳統(tǒng)的NMS算法,在密集擁擠的場景中,如口腔中牙齒異位、牙齒重疊時,超過閾值的相鄰檢測框的分數(shù)被強制歸為零,則將導(dǎo)致對齲齒的檢測失敗,從而降低算法的檢測精確率。另外,NMS算法的閾值也很難確定,若設(shè)置過小,會出現(xiàn)檢測框誤刪的情況,若設(shè)置過大,則易出現(xiàn)誤檢等問題。
因此,本文引入soft?NMS算法進行改進。soft?NMS算法[15]通過修改得分重置函數(shù),為高于閾值的相鄰檢測框設(shè)置懲罰函數(shù),以降低這些檢測框的分數(shù),而不是將其歸零。因此對于一些高分檢測框,即使在非極大值抑制階段降低了分數(shù),也可以在后續(xù)計算中作為正確的檢測框,有效提高檢測精度和召回率。
Soft?NMS算法有線性加權(quán)和高斯加權(quán)兩種方式,線性加權(quán)如式(8)所示。在線性加權(quán)方式中,當一個邊界框與具有最高得分的邊界框重疊超過某個閾值時,該邊界框的得分會根據(jù)重疊程度線性減少,具有不連續(xù)性。高斯加權(quán)使用高斯函數(shù)來減少重疊邊界框的得分,當兩個邊界框的重疊程度很高時,得分的減少會比線性加權(quán)更加平緩。因此本文采用高斯加權(quán)解決連續(xù)性問題,高斯加權(quán)如式(9)所示:
[si=si," " IoU(M,bi)lt;Ntsi1-IoU(M,bi)," " IoU(M,bi)≥Nt] (8)
[si=sie-IoUM,bi2σ] (9)
2.4" 整體檢測流程圖
本文采用改進后的YOLOv7算法進行齲齒檢測,整體檢測流程如圖5所示。
首先,通過采集口腔圖像,獲取包含齲齒的數(shù)據(jù)集;隨后,對改進的YOLOv7算法進行訓練,使其能夠準確地識別口腔圖像中的齲齒。在訓練過程中為了最大限度地恢復(fù)真實的口腔內(nèi)部圖像,采用數(shù)據(jù)增強手段對訓練集進行增強,提高模型的魯棒性和泛化能力;接著對特征圖進行預(yù)測,通過模型對圖像中的齲齒目標進行有效識別,準確地定位和識別齲齒的位置和形狀;最后,采用soft?NMS算法對模型生成的目標候選框進行處理,優(yōu)化檢測結(jié)果。soft?NMS算法通過調(diào)整候選框之間的重疊度,更精細地控制最終輸出的目標框,提高檢測結(jié)果的準確性。
3" 實驗與結(jié)果分析
3.1" 數(shù)據(jù)集
3.1.1" 數(shù)據(jù)集采集
本文實驗數(shù)據(jù)使用了在保定市第二醫(yī)院口腔科采集的包含800張齲齒口腔照片的數(shù)據(jù)集,用于拍攝的手機類型包括Honor 10X和HUAWEI Mate 40,拍攝之前未對拍攝過程中的照明條件、分辨率和曝光率等條件進行設(shè)置,所有圖像都是用智能手機拍攝的,未使用專業(yè)設(shè)備如反射器等。在拍攝時,患者盡可能要求平躺,張開口上頜咬合面與地板成90°~120°,對口腔中包含有齲齒的區(qū)域進行拍攝,拍攝上牙時,將手機攝像頭放在盡可能低的位置,從下到上拍攝;拍攝下牙時,采用從上到下拍攝。拍攝時,也借助常見工具,例如開口器進行輔助。
本文數(shù)據(jù)集來源于臨床診斷,并經(jīng)過脫敏處理,取得患者同意。根據(jù)牙齒的形態(tài)特點及其功能的不同,牙齒可分為切牙、尖牙、前磨牙和后磨牙[16],位于中間的8顆是切牙,牙冠較薄,主要用于切割食物;切牙外側(cè)是尖牙,牙冠較為尖利,主要用于撕碎食物并送至口腔內(nèi)部;尖牙外側(cè)較為粗大的是磨牙,磨牙分為前磨牙和后磨牙,主要用于磨碎食物,幫助消化吸收。本文所采集數(shù)據(jù)集包含所有類別,且每種類別數(shù)量均勻。圖片的標簽數(shù)據(jù)是在專業(yè)醫(yī)生的指導(dǎo)下采用LabelImg工具所標注的,LabelImg是開源的圖像標注工具,常用作圖像檢測、分割和分類任務(wù)的標注,標簽文件以XML格式保存。
3.1.2" 數(shù)據(jù)預(yù)處理
將在保定市第二醫(yī)院口腔科采集的包含800張齲齒口腔照片的數(shù)據(jù)集劃分為訓練集、測試集、驗證集,按6∶2∶2進行隨機劃分,其中訓練集480張、測試集160張、驗證集160張。
由于口腔圖像的復(fù)雜性,齲齒的病變區(qū)域和正常區(qū)域之間可能沒有足夠的對比,易受到牙漬、牙髓炎等其他干擾因素的影響,因此,為了最大限度地恢復(fù)真實的口腔內(nèi)部圖像,采用數(shù)據(jù)增強手段對訓練集進行增強,提高訓練模型的泛化能力。圖像增強手段包括90°旋轉(zhuǎn)、180°旋轉(zhuǎn)、翻轉(zhuǎn)、調(diào)亮、調(diào)暗以及給圖像添加高斯噪聲等六種方式。通過數(shù)據(jù)增強方式,訓練集擴充到3 360張,驗證集和測試集保持不變。
3.2" 實驗平臺
本文使用的實驗平臺為 Ubuntu 20.04 LTS操作系統(tǒng),CPU為Intel[?] Xeon[?] Gold 6248R,顯卡為NVIDIA GeForce RTX 3090,運行內(nèi)存為24 GB,深度學習框架PyTorch 版本為1.13.1,CUDA版本為11.7。
3.3" 評價指標
本文通過精確率([P])、召回率([R])、[F1]得分([F1])、平均精度的均值(mAP)和平均檢測時間對齲齒的檢測性能進行評估,具體如式(10)~式(14)所示。
[P=TPTP+FP×100%] (10)
[R=TPTP+FN×100%] (11)
[F1=2PRP+R×100%] (12)
[AP=01PRdR×100%] (13)
[mAP=1ni=1nAPi×100%] (14)
式中:精確率[P]表示所有預(yù)測為齲齒的結(jié)果中,正確預(yù)測的比率;召回率[R]表示所有真正為齲齒的樣本中,被正確預(yù)測為齲齒的概率;[F1]得分表示精確率[P]和召回率[R]的綜合性能;平均精度的均值(mAP)衡量每類牙齒齲齒檢測率的平均好壞程度。
3.4" 網(wǎng)絡(luò)訓練結(jié)果分析
將YOLOv7算法與改進YOLOv7算法采用相同的實驗平臺進行實驗,對損失函數(shù)的收斂性和迭代過程中的mAP值變化進行對比驗證。圖6a)為兩種網(wǎng)絡(luò)mAP變化曲線,顯示了本文改進的YOLOv7算法能夠顯著提高對齲齒的檢測性能。圖6b)為損失函數(shù)值變化曲線,從圖中可以看出,兩種網(wǎng)絡(luò)都隨著迭代次數(shù)的增加最終處于一個收斂的狀態(tài),但改進YOLOv7算法的損失函數(shù)值明顯比YOLOv7算法的損失函數(shù)值要小,穩(wěn)定性也更高。
3.5" 消融實驗
為了驗證本文提出的改進方法對齲齒檢測效果的提升,在YOLOv7算法的基礎(chǔ)上進行了消融實驗,每一組實驗都采用相同的訓練策略,并設(shè)置相同的超參數(shù),實驗結(jié)果如表1所示。
從表1中可以看出,每一種改進方法都提升了齲齒的檢測效果。將ECA注意力機制添加到Y(jié)OLOv7算法主干網(wǎng)絡(luò)中,齲齒檢測精確率提高了1.8%,參數(shù)量幾乎沒有增加,這是因為ECA注意力機制結(jié)構(gòu)中的自適應(yīng)卷積核大小交互相鄰?fù)ǖ佬畔ⅲ沟肊CA機制在不明顯增加內(nèi)存開銷的情況下,能夠有效捕獲口腔圖像中容易被忽略漏檢的小目標齲齒。用MobileOne模塊替換YOLOv7算法主干網(wǎng)絡(luò)的ELAN模塊,平均檢測時間減少了43%,參數(shù)量減少了79%,精確率和mAP也均有增加。其原因在于模型訓練結(jié)束后,MobileOne將多分支結(jié)構(gòu)進行重參數(shù)化為單分支結(jié)構(gòu),使模型更加簡單,參數(shù)量減少,推理速度更快。將ECA注意力機制添加到MobileOne模塊之后形成ECA?MobileOne網(wǎng)絡(luò)模塊,替換YOLOv7算法主干網(wǎng)絡(luò)的ELAN模塊,mAP比原始YOLOv7算法mAP提高了2.6%,參數(shù)量減少了77%。ECA注意力機制和MobileOne網(wǎng)絡(luò)模塊使模型展現(xiàn)出協(xié)同作用,提供了更高水平的性能。在頭部輸出層添加ASFF后,mAP提高了1.7%,檢測時間和模型參數(shù)量略有增加,都在允許范圍之內(nèi)。采用soft?NMS函數(shù)替代原有的NMS算法,mAP提高了1.2%,模型參數(shù)量幾乎不變,準確率達到95.1%。這是因為soft?NMS算法代碼容易實現(xiàn),不增加計算量,并且soft?NMS算法通過調(diào)整候選框之間的重疊度,可更精細地控制最終輸出的目標框。
3.6" 對比實驗
3.6.1" 注意力機制對比實驗
為驗證YOLOv7算法引入ECA注意力機制的有效性,將YOLOv7算法中分別引入ECA注意力機制、CBAM注意力機制和SE注意力機制進行對比實驗,實驗結(jié)果如表2所示。
從實驗結(jié)果可以看出,CBAM注意力機制相較于通道注意力機制對齲齒特征的提取能力較弱。SE和ECA都是通道注意力機制,但相比之下,ECA注意力機制通過引入一維卷積層來提高通道注意力,從而更高效地捕捉關(guān)鍵特征。因此在齲齒檢測過程中,將ECA注意力機制引入YOLOv7算法中,在增加的參數(shù)量較少的情況下,提升了齲齒檢測準確率。
3.6.2" 輕量化神經(jīng)網(wǎng)絡(luò)對比實驗
為評估MobileOne網(wǎng)絡(luò)模塊對模型輕量化的影響,分別用MobileOne、MobileNetv3、ShuffleNetv2網(wǎng)絡(luò)替換YOLOv7算法的ELAN模塊,并在齲齒數(shù)據(jù)集上進行訓練對比,檢測性能如表3所示。
YOLOv7算法引入MobileOne網(wǎng)絡(luò)模塊后,參數(shù)量減少了79%,平均檢測時間減少43%,并且準確率、mAP以及[F1]值均高于其他兩種模型。YOLOv7算法的主干網(wǎng)絡(luò)中引入MobileOne網(wǎng)絡(luò)模塊,目標檢測性能明顯提升,可實現(xiàn)模型輕量化快速檢測。
3.6.3" 與其他算法對比實驗
為了更全面地驗證改進后的YOLOv7算法檢測齲齒的性能,將其與9種主流的目標檢測算法SSD、Faster R?CNN、YOLOv3、YOLOv5s、YOLOv7、YOLOv7?tiny、RTMDet?tiny、PP?YOLOEs、YOLOv8進行對比,實驗結(jié)果見表4。
從表4中可以看出,雖然改進YOLOv7算法與YOLOv5s、YOLOv7?tiny、RTMDet?tiny和PP?YOLOEs算法相比,參數(shù)量略有增加,但是其mAP明顯優(yōu)于其他算法。與其他9種目標檢測算法相比,mAP分別提高了7.9%、8.9%、8%、7.7%、5.5%、13.8%、4%、12%、9.7%。在齲齒檢測精確率和權(quán)值大小的綜合考量方面較其他算法有明顯優(yōu)勢,可以有效實現(xiàn)口腔中的齲齒檢測,使得在移動設(shè)備上的部署變得更為可行。
3.6.4" 不同類別牙齒檢測對比
為了進一步驗證改進YOLOv7算法對四種不同類別牙齒的齲齒檢測性能,將改進的YOLOv7算法對四種不同類別牙齒的齲齒檢測性能與SSD、Faster R?CNN、YOLOv3、YOLOv5s、RTMDet?tiny、PP?YOLOEs、YOLOv7、YOLOv7?tiny和YOLOv8進行了比較,數(shù)據(jù)集和實驗環(huán)境保持不變,實驗結(jié)果如圖7所示。
從圖7中可以看出,相比其他檢測模型,本文提出的改進YOLOv7算法對四種不同類別牙齒的齲齒檢測性能均表現(xiàn)出色,切牙的齲齒檢測AP為94.7%,尖牙的齲齒檢測AP為93.7%,前磨牙的齲齒檢測AP為92.9%,后磨牙的齲齒檢測AP為92.4%。結(jié)果進一步證實了本文提出的改進YOLOv7算法對每一種牙齒的齲齒檢測性能都有顯著提高,表明改進策略是行之有效的。
3.7" 實驗結(jié)果可視化分析
為了更直觀地感受改進YOLOv7算法的效果,圖8展示了YOLOv7算法與改進YOLOv7算法對不同類別牙齒檢測的結(jié)果。
圖8第一行為切牙的檢測對比圖,第二行和第三行為尖牙的檢測對比圖,第四行和第五行為磨牙的檢測對比圖,第六行是既有尖牙又有磨牙的檢測對比圖。從第六行的圖片可以看出,有多個牙患有齲齒時,改進YOLOv7算法能更好地減少檢測時出現(xiàn)漏檢等情況。從第三行、第五行的圖片可以看出,YOLOv7算法易受牙漬等因素的影響,改進YOLOv7算法更容易剔除這些影響,精準識別出齲齒,抗干擾性更強,魯棒性更高。從圖8可以看出,相較于YOLOv7算法,改進YOLOv7算法對每種類別牙齒的齲齒檢測能力均有所提升,有效地減少了漏檢和誤檢發(fā)生的次數(shù)。
4" 結(jié)" 語
深度學習在齲齒檢測領(lǐng)域的應(yīng)用為口腔醫(yī)學帶來了新的機遇,利用目標檢測算法實現(xiàn)對齲齒的自動化檢測,不僅有助于節(jié)約醫(yī)療資源,降低醫(yī)療成本,還提高了治療效率和人們對齲齒預(yù)防的意識。本文提出的改進YOLOv7算法旨在精準地檢測口腔照片中的齲齒。在YOLOv7算法的主干網(wǎng)絡(luò)中引入ECA?MobileOne網(wǎng)絡(luò)模塊,減少了模型的參數(shù)量,提高了齲齒特征提取能力,進而提升小目標齲齒檢測效果。在頭部輸出層引入了自適應(yīng)特征融合,這使得模型自適應(yīng)地學習各尺度特征圖在融合時的空間權(quán)重,充分利用不同尺度的特征信息,從而提高了齲齒檢測的全局性和準確性。在后處理算法引入了soft?NMS算法替換原有的NMS算法,更好地調(diào)整了候選框之間的重疊度,有效改善了齲齒漏檢和誤檢的問題。實驗結(jié)果表明,改進后的YOLOv7算法對齲齒檢測的精確率更高,召回率也提高,漏檢和誤檢情況減少,模型大小滿足后續(xù)在移動設(shè)備的部署需求。為迅速普及和實施口腔醫(yī)療技術(shù)提供了可行性,為提升口腔健康水平做出了積極的貢獻。
注:本文通訊作者為姚竟發(fā)、滕桂法。
參考文獻
[1] FRENCKEN J E. The ART approach using glass?ionomers in relation to global oral health care [J]. Dental materials, 2009, 26(1): 1?6.
[2] 馮希平.中國居民口腔健康狀況:第四次中國口腔健康流行病學調(diào)查報告[C]//2018年中華口腔醫(yī)學會第十八次口腔預(yù)防醫(yī)學學術(shù)年會論文匯編.西安:中華口腔醫(yī)學會,2018:14.
[3] 曾泰.基于熒光效應(yīng)的齲齒檢測系統(tǒng)的設(shè)計與實現(xiàn)[D].重慶:重慶大學,2021.
[4] PATIL S, KULKARNI V, BHISE A. Algorithmic analysis for dental caries detection using an adaptive neural network architecture [J]. Heliyon, 2019, 5(5): e01579.
[5] 張蓓蕾,畢錦桐,郭宇佳,等.基于遷移學習和模型融合的齲齒檢測[J].天津科技大學學報,2023,38(5):49?56.
[6] VINAYAHALINGAM S, KEMPERS S, LIMON L, et al. Classification of caries in third molars on panoramic radiographs using deep learning [J]. Scientific reports, 2021, 11(1): 12609.
[7] LI S H, LIU J L, ZHOU Z R, et al. Artificial intelligence for caries and periapical periodontitis detection [J]. Journal of dentistry, 2022, 122: 104107.
[8] KUHNSCH J, MEYER O, HESENIUS M, et al. Caries detection on intraoral images using artificial intelligence [J]. Journal of dental research, 2021, 101(2): 158?165.
[9] ZHANG X, LIANG Y, LI W, et al. Development and evaluation of deep learning for screening dental caries from oral photographs [J]. Oral diseases, 2022, 28(1): 173?181.
[10] THANH M T G, VAN TOAN N, NGOC V T N, et al. Deep learning application in dental caries detection using intraoral photos taken by smartphones [J]. Applied sciences, 2022, 12(11): 5504.
[11] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag?of?freebies sets new state?of?the?art for real?time object detectors [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7464?7475.
[12] VASU P K A, GABRIEL J, ZHU J, et al. MobileOne: An improved one millisecond mobile backbone [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7907?7917.
[13] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713?13722.
[14] ZHANG R, SHI Y X, YU X Z. Pavement crack detection based on deep learning [C]// 2021 33rd Chinese Control and Decision Conference (CCDC). New York: IEEE, 2021: 7367?7372.
[15] BODLA N, SINGH B, CHWLLAPPA R, et al. Soft?NMS: Improving object detection with one line of code [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 5561?5569.
[16] 陳世賢.法齒學概論[M].北京:北京大學出版社,1992.