汪冰清 王勝
摘 要:牙齒健康問題是目前最主要的口腔問題之一,牙齒疾病具有發(fā)病率高覆蓋面廣的特點,影響國民生活質量。傳統(tǒng)的檢測方法包括視診、探診、X線片等。對牙齒甚至身體傷害大。將現(xiàn)今熱門的機器視覺技術應用于口腔疾病診斷,創(chuàng)新設計基于機器視覺模式識別的口腔診斷算法。為了精確的診斷口腔疾病,設計了一種基于卷積神經(jīng)網(wǎng)絡的口腔牙齒疾病診斷系統(tǒng)。該系統(tǒng)利用傳感器攝像頭采集口腔圖像,并使用GoogLeNet網(wǎng)絡模型對圖像進行特征提取與識別。
關鍵詞:牙齒健康;識別系統(tǒng)
一、深度學習的優(yōu)勢
深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡,它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本。深度學習是無監(jiān)督學習的一種。深度學習的概念源于人工神經(jīng)網(wǎng)絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學習的概念由Hinton等人于2006年提出。基于深信度網(wǎng)(DBN)提出非監(jiān)督貪心逐層訓練算法,為解決深層結構相關的優(yōu)化難題帶來希望,隨后提出多層自動編碼器深層結構。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡是第一個真正多層結構學習算法,它利用空間相對關系減少參數(shù)數(shù)目以提高訓練性能。用更多的數(shù)據(jù)或是更好的算法來提高學習算法的結果。對某些應用而言,深度學習在大數(shù)據(jù)集上的表現(xiàn)比其他機器學習(ML)方法都要好這些又如何轉化為現(xiàn)實生活中的情形呢?深度學習更適合無標記數(shù)據(jù),因而它并不局限于以實體識別為主的自然語言處理(NLP)領域。
二、卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)是一種多層監(jiān)督學習神經(jīng)網(wǎng)絡,具有極強的適應性,善于挖掘數(shù)據(jù)局部特征和組合高級語義信息進行分類。該網(wǎng)絡包括卷積層、激勵層、池化和全連接層。卷積層和池化層是實現(xiàn)卷積神經(jīng)網(wǎng)絡特征提取功能的核心模塊;采用梯度下降法最小化損失函數(shù),對網(wǎng)絡中的權重參數(shù)逐層反向調節(jié),通過多次的迭代訓練提高網(wǎng)絡的精度。
(一)卷積層。卷積層是一種特殊的神經(jīng)元網(wǎng)絡層,是用卷積核通過卷積運算掃描圖像,從而獲得相應特征,其具有局部感受和權值共享的特性。卷積層的輸出公式為:yi=∑ikij*xi+bi,此式中:yi為卷積層輸出;kij為卷積核;*為卷積運算;xi為輸入圖像;bi為偏置項。在卷積神經(jīng)網(wǎng)絡中,層與層之間的神經(jīng)元節(jié)點不再是全連接形式,而是利用層間局部空間相關性將相鄰每一層的神經(jīng)元節(jié)點只與它相近的上層神經(jīng)元節(jié)點連接,即局部感受,從而降低了神經(jīng)網(wǎng)絡架構的參數(shù)規(guī)模。卷積層具有共享權重機制,每個卷積核參數(shù)重復作用于整個感受野中,對輸入圖像進行卷積,卷積結果構成了輸入圖像的特征圖。此機制不僅能提取圖像特征,而且降低了卷積神經(jīng)網(wǎng)絡模型參數(shù)量。
(二)激勵層。激勵層是卷積層輸出后的非線性單元。由于多層神經(jīng)網(wǎng)絡模型具有高度非線性,而卷積層是一個線性的計算過程,為保證非線性需引入一個激勵層(即非線性單元)。激勵層計算公式為:f=σ(yi),此式中:yi為卷積層輸出;激勵函數(shù)σ為輸入和輸出的映射關系。為了讓模型更快速的學習,在激勵層中引入修正單元。常用的修正函數(shù)包括Logistic函數(shù)、tanh函數(shù)、Sigmoid函數(shù)、ReLU函數(shù)等。
(三)池化層。池化層也稱做下采樣,其要功能是對特征圖進行特征壓縮。通過選擇原來某個區(qū)域的最大值或平均值代替那個區(qū)域,達到對特征圖壓縮的目的。池化層采用Maxpool方法,其計算公式為:yj=f(1/n∑jxj+b),此式中:yj為池化層輸出;n表示從卷積層到池化層的窗口大小;xj為n×n大小的區(qū)域;bj為偏置項。由于池化層大幅減小了輸入特征圖的空間維度,從而使得權重參數(shù)的數(shù)目減少了75%,降低了計算成本,并且可以控制系統(tǒng)過擬合。
(四)全連接層
在全連接層中,神經(jīng)元節(jié)點是線性一維排列結構,層與層各神經(jīng)元節(jié)點之間相互連接。全連接層輸出公式為:
此式中:xj為上層神經(jīng)元傳來的輸入信號;wij為從神經(jīng)元j到神經(jīng)元i的連接權重;θi為閾值;f為激活函數(shù)。由于最后一層的池化層,輸出為圖像各個區(qū)域的高級特征,所以需要全連接層將這些非線性特征,以簡易的方式進行組合,利用Softmax或支持向量機(SVM)分類器對輸入圖像進行分類。
三、GoogLeNet解析
由于采用增加神經(jīng)網(wǎng)絡的深度的方法,來提升網(wǎng)絡識別分類的性能,易造成網(wǎng)絡復雜度增加和梯度消失等問題,為了解決上述問題,提出了GoogLeNet網(wǎng)絡,通過增加網(wǎng)絡的寬度的方法,來提升網(wǎng)絡性能。該網(wǎng)絡是一個22層的深度網(wǎng)絡GoogLeNet網(wǎng)絡的寬網(wǎng)絡是一個22層的深度網(wǎng)絡,像素感應大小是224×224,采用了RGB彩色三通道。GoogLeNet網(wǎng)絡模型的核心單元是Inception模塊,模塊結構框圖如圖2所示。Inception模塊的由4個并行支路組成,支路1采用1×1卷積進行特征提取;支路2采用1×1和3×3卷積的串行連接;支路3采用1×1和5×5卷積的串行連接,1×1卷積降低輸入的特征通道和減少參數(shù)量,3×3和5×5卷積用于增大對圖像的感受野;支路4采用3×3最大池化和1×1卷積,最大池化改變輸入的特征排列,1×1卷積進行特征提取,最后將4個并行線路得到的特征圖在通道維度上拼接起來。
四、智能口腔疾病檢測系統(tǒng)
智能口腔檢測系統(tǒng)是以圖像顯示為核心,使用圖像顯示模塊完成圖像數(shù)據(jù)的實時顯示以及瞬時抓取,并通過WiFi模塊實現(xiàn)無線傳輸,實現(xiàn)對口腔牙齒圖像進行處理及分類等功能。該系統(tǒng)主要由控制器模塊,圖像采集模塊、圖像顯示模塊、圖像存儲與傳輸模塊、圖像檢測平臺和電源模塊組成。
五、結語
牙齒健康不僅僅是解除了牙齒疾病的困擾,更重要的是它體現(xiàn)了一個人的修為、涵養(yǎng),而且是自信與活力的源泉。通過日常檢測牙齒檢查獲取個人牙齒的健康狀況等信息,并生成圖像后,同時可根據(jù)已獲得的牙齒圖像等信息遠程連接牙科醫(yī)生,實現(xiàn)對牙齒疾病的早期診斷早期預防。為了便于用戶可以更好的了解牙齒健康常識。另外,未來將在大量搜集的圖像數(shù)據(jù)基礎上設計算法,自動分析牙齒健康狀況并給與反饋。