柯文馳,李莎,李睿
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
災(zāi)難遇害者識別(DVI)是法醫(yī)學(xué)中的一項(xiàng)重要研究課題。在大型災(zāi)難事故中,通常伴隨有火災(zāi)、爆炸等極端條件。此時(shí)遇難者的軟性組織不可用時(shí),傳統(tǒng)的同一認(rèn)定方法如DNA 檢測、指紋和人臉識別等方法有較大困難且不準(zhǔn)確。自然牙齒是脊椎動(dòng)物中最耐用的器官,具有很好的防腐性和抗降解性,在極端條件下也能夠保存下來。在一些極端災(zāi)難事件中,牙齒是鑒定遇難者的唯一方法[1]。采用牙齒解剖形態(tài)標(biāo)志以及頜面部骨性標(biāo)志的口腔影像學(xué)資料進(jìn)行法醫(yī)學(xué)同一認(rèn)定越來越受到國際法科學(xué)界的認(rèn)可。
21 世紀(jì)的多次重大群體性死亡事件中,依靠牙齒進(jìn)行個(gè)體識別均發(fā)揮了重要作用[2]。但是現(xiàn)行的DVI系統(tǒng)主要依靠人工進(jìn)行識別,速度慢效率低。在2004年的印尼海嘯事件中,對遇難者的身份識別絕大多數(shù)都是由牙齒匹配確認(rèn),但是身份認(rèn)定工作耗費(fèi)了數(shù)年才基本完成。正是由于基于牙齒的DVI 系統(tǒng)的匹配準(zhǔn)確率高、速度慢的這一特點(diǎn)。迫切的需要一種快速的比對方法,因此采用計(jì)算機(jī)圖形圖像技術(shù)進(jìn)行輔助識別具有極其重要的作用。
相關(guān)研究人員設(shè)計(jì)出了很多DVI 系統(tǒng),例如:基于根尖片的方法[3]、基于咬翼片的方法[4]、基于全景片的方法[5]。這些DVI 系統(tǒng)主要是利用傳統(tǒng)的計(jì)算機(jī)視覺方法人工設(shè)計(jì)提取特征,并設(shè)計(jì)一套特征比對方法來對個(gè)體進(jìn)行識別。傳統(tǒng)圖形圖像算法的存在著一定的局限性。人為設(shè)計(jì)的特征提取方法不具有泛用性。大多數(shù)DVI 系統(tǒng)針對于牙齒修復(fù)體設(shè)計(jì)[6],在沒有在牙齒治療的個(gè)體,DVI 系統(tǒng)會(huì)失效。并且這些系統(tǒng)都運(yùn)行在小樣本的環(huán)境下,取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果,但在更大數(shù)據(jù)集上則無法工作。
隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)已經(jīng)成為了一種跨多學(xué)科的前沿技術(shù)潮流。如何將深度學(xué)習(xí)技術(shù)應(yīng)用到各個(gè)學(xué)科上,已經(jīng)成為一個(gè)非常重要主題。深度學(xué)習(xí)應(yīng)用在計(jì)算機(jī)視覺中,產(chǎn)生了許多重要的應(yīng)用,如人臉識別技術(shù)。人臉識別技術(shù)廣泛應(yīng)用于常見的可獲取人臉的身份驗(yàn)證場景,在鐵路、安防等領(lǐng)域已經(jīng)投入實(shí)際使用。
鑒于深度學(xué)習(xí)在人臉識別領(lǐng)域取得的成果,本文運(yùn)用深度學(xué)習(xí)算法,提出了一種通過牙齒全景曲斷片來進(jìn)行人類身份認(rèn)定的方法。這種方法能夠避免傳統(tǒng)方法中的特征設(shè)計(jì),使用卷積神經(jīng)網(wǎng)絡(luò)來提取牙齒特征,提高泛用性。對牙齒圖像全局進(jìn)行特征抽取,不針對單一類型牙齒修復(fù)體進(jìn)行設(shè)計(jì),增強(qiáng)了系統(tǒng)的穩(wěn)定性和準(zhǔn)確率。
本實(shí)驗(yàn)采用牙齒全景曲斷片(PDR)作為主要的研究材料,如圖1 所示。牙齒全景曲斷片是一種常見的X 光片。全景曲斷片清晰完整的顯示了上頜骨、下頜骨,人類醫(yī)師可以通過全景片觀察到全口牙齒的狀況。拍攝全景片是口腔治療前一個(gè)非常重要的環(huán)節(jié),大部分口腔治療都會(huì)產(chǎn)生全景片。全景曲斷片的可供收集使用的數(shù)量非常大??谇恢委煶掷m(xù)時(shí)間長,病人會(huì)定期復(fù)查,而口腔治療的全過程都會(huì)產(chǎn)生全景曲斷片。對于同一認(rèn)定來說,每個(gè)病人至少應(yīng)該存在2 個(gè)不同時(shí)期的認(rèn)定樣本。
數(shù)據(jù)越多,深度學(xué)習(xí)能從中學(xué)習(xí)到的高維信息越多。大量的數(shù)據(jù)會(huì)極大的提高網(wǎng)絡(luò)的準(zhǔn)確率和泛化能力。因此,本實(shí)驗(yàn)一共收集了2096 人,共計(jì)5211 張口腔全景曲斷片。因未成年人的牙齒全景片為混合牙列,全景片會(huì)在短時(shí)間內(nèi)變化巨大。為了簡化實(shí)驗(yàn),本次采用的數(shù)據(jù)均為16 歲以上牙齒萌發(fā)完成的成年人。實(shí)驗(yàn)數(shù)據(jù)收集自四川大學(xué)口腔醫(yī)院。所有全景片按人進(jìn)行加標(biāo)簽分類。取出其中96 人(294 張全景片)作為測試集。整個(gè)數(shù)據(jù)集平均每人不同時(shí)間拍攝的全景片2-3 張。
(1)數(shù)據(jù)預(yù)處理
對于每一張全景片,都會(huì)有一定的差別,在拍攝時(shí)不同的輻射劑量,會(huì)造成圖像明暗上存在差異。拍攝者在拍攝時(shí)的角度,會(huì)使得最終生成的圖像呈現(xiàn)出在一定范圍內(nèi)的變形。若不對這些圖片進(jìn)行針對性調(diào)整,則會(huì)對實(shí)驗(yàn)結(jié)果造成影響。還有部分圖片會(huì)存在一些無關(guān)標(biāo)記,這些標(biāo)記是為了方便人類醫(yī)師閱片,對于深度學(xué)習(xí)來說,這些標(biāo)記是無關(guān)的,故裁剪掉。本實(shí)驗(yàn)針對性設(shè)計(jì)了一套圖像預(yù)處理方法。
處理方法如下:
經(jīng)過上述處理方式后,最終將圖片全部調(diào)整到256×256 尺寸的灰度圖,如圖1 所示。
(2)算法
①總體框架
如圖2 所示,算法利用牙齒的全景片作為輸入,經(jīng)過圖像預(yù)處理后,將數(shù)據(jù)集分割為訓(xùn)練集和測試集合。在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練階段,進(jìn)行分類訓(xùn)練。訓(xùn)練完成后,抽取出特征向量與庫中所有注冊數(shù)據(jù)進(jìn)行相似度計(jì)算,選取具有最高相似度的。
圖2 算法流程圖
同傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法相比深度學(xué)習(xí)最大的特點(diǎn)在于深度。受限制于設(shè)備運(yùn)算能力的限制,早期常常是淺層神經(jīng)網(wǎng)絡(luò),但淺層神經(jīng)網(wǎng)絡(luò)效果并不理想。隨著運(yùn)算能力的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)逐漸加深。深度神經(jīng)網(wǎng)絡(luò)在采用大量數(shù)據(jù)進(jìn)行訓(xùn)練后模型的效果遠(yuǎn)超傳統(tǒng)方法。基于這個(gè)原因,本實(shí)驗(yàn)網(wǎng)絡(luò)架構(gòu)直接基于AlexNet[7]網(wǎng)絡(luò)設(shè)計(jì)。
網(wǎng)絡(luò)架構(gòu)如圖3,網(wǎng)絡(luò)一共有11 層,前7 層為卷積層,后4 層為全連接層。激活函數(shù)使用ReLU。網(wǎng)絡(luò)輸入沿用AlexNet 網(wǎng)絡(luò)中使用的256×256。第2、4、7 層卷積層后跟池化層,池化操作,全部采用最大池化。使用池化操作能夠利用局部相關(guān)性減少數(shù)據(jù)冗余,控制過擬合。當(dāng)數(shù)據(jù)輸入卷積層,不同的卷積核會(huì)捕捉到不同的局部信息。經(jīng)過圖像在全連接層將這些信息進(jìn)行綜合,從而得到全局的信息。全局信息經(jīng)過恰當(dāng)?shù)膲嚎s過后行成表征整幅圖像的特征向量。在后續(xù)的深度學(xué)習(xí)發(fā)展中,Local Response Norm Layer(LRN 層)并無必要[8]。本實(shí)驗(yàn)中去除掉了最后一層的LRN 層。在AlexNet 中使用的11×11、5×5 步長卷積核運(yùn)算量大,使用3×3 步長的小卷積核來替換能夠取得相同的效果,并能夠顯著降低運(yùn)算量。所以本研究用3×3 替換了AlexNet 的大卷積核。更詳細(xì)的參數(shù)見表1。
表1 網(wǎng)絡(luò)架構(gòu)參數(shù)
圖3 網(wǎng)絡(luò)架構(gòu)圖
本實(shí)驗(yàn)使用了PyTorch 1.4.0 的深度學(xué)習(xí)框架,利用OpenCV 進(jìn)行圖像處理。訓(xùn)練使用設(shè)備為NVIDIA RTX2070 Super,使用的隨機(jī)梯度下降算法(SGD)進(jìn)行訓(xùn)練。初始學(xué)習(xí)率為0.001,每20000 次迭代學(xué)習(xí)率折半,到80000 次迭代時(shí)停止。Batch 值為16。
④特征提取與相似度計(jì)算
因?yàn)锳lexNet 設(shè)計(jì)之初只是為了解決分類問題。對于身份認(rèn)證這類問題需要針對做一定的修改。在人臉識別中,為每一個(gè)人分配一個(gè)類別是不可能的,一方面由于分類類別數(shù)過于龐大會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練困難,另一方面搜集所有人的數(shù)據(jù)的代價(jià)也是難以承受的。所以常規(guī)做法是用一個(gè)特征向量來代表一張圖像所包含的信息。通過計(jì)算兩人圖像的相似度,來區(qū)兩者是否為同一人。
在本實(shí)驗(yàn)中第二層全連接設(shè)為特征層,將該層單獨(dú)從網(wǎng)絡(luò)中抽取出來。匹配時(shí),任意計(jì)算任意兩人的余弦相似度:
當(dāng)獲取到了足夠的數(shù)據(jù),訓(xùn)練出的網(wǎng)絡(luò)模型能夠?qū)D像的特征表征得足夠好??梢酝ㄟ^設(shè)定一個(gè)容忍的識別率來獲取認(rèn)定閾值。這樣只需將任意兩張全景片輸入網(wǎng)絡(luò)得到特征向量,計(jì)算兩者余弦相似度,當(dāng)其相似度超過閾值時(shí)即為同一人。相比于人工的同一認(rèn)定,速度會(huì)大大提高。
(3)測試方法
測試集中包含96 人,共294 張全景片。采用Top1/Top5 測試,對測試集中的數(shù)據(jù)進(jìn)行劃分。在每個(gè)樣本中抽取一張全景片組成原型圖像集合(gallary set){X},剩下的全景片作為測試圖像集合(Prob set){X'}。對任意的一張全景片Xl'abel,同原型圖像集合中所有的全景片進(jìn)行相似度計(jì)算,并排序。在Top5 測試中,選取相似度最高的前五個(gè)全景片Xtop5= {X1th_label,X2th_label,X3th_label,X4th_label,X5th_label},若該集合與全景片Xl'abel中標(biāo)簽滿足(i)th_label= =label(i=1,2,3, 4,5),則視為認(rèn)定成功。Top1 同理。
通過使用Grid-Cam 方法生成了神經(jīng)網(wǎng)絡(luò)的關(guān)注區(qū)域(圖X)??梢钥吹?,網(wǎng)絡(luò)的重點(diǎn)關(guān)注區(qū)域是牙齒部分,這與人類醫(yī)師的關(guān)注的重點(diǎn)區(qū)域是一致的。
圖4 網(wǎng)絡(luò)關(guān)注區(qū)域
在測試集上,全景片通過神經(jīng)網(wǎng)絡(luò)抽取特征后,取得特征向量,進(jìn)行Top1/Top5 測試,Top1 準(zhǔn)確率為80.30%,Top5 識別率85.86%。
本次研究中,由于數(shù)據(jù)量的限制,并沒有達(dá)到深度學(xué)習(xí)在人臉識別上的準(zhǔn)確率。但是在2000 人左右的數(shù)據(jù)集上訓(xùn)練已經(jīng)有了80.30%的識別率。但是深度學(xué)習(xí)具有良好的可擴(kuò)展性,后續(xù)收集到更多的數(shù)據(jù)之后,可以通過遷移學(xué)習(xí)繼續(xù)訓(xùn)練,能夠不斷的提高準(zhǔn)確度。使用本方法,避免了人為設(shè)置特征的困難,也不會(huì)因?yàn)獒槍π迯?fù)體設(shè)計(jì)產(chǎn)生修復(fù)體消失后無法匹配的情況。相比于傳統(tǒng)的方法更不易失效,具有更強(qiáng)的魯棒性。
可以預(yù)見,通過深度學(xué)習(xí)進(jìn)行牙齒同一認(rèn)定,有著極大的可能會(huì)替代傳統(tǒng)方法,成為齒科身份識別的主流。并且隨著數(shù)據(jù)的增多有著接近人工識別的潛力。對于本文中使用的深度學(xué)習(xí)模型,通過不斷的迭代修改,還有著準(zhǔn)確率進(jìn)一步提升的可能性。