楊 敏, 牟 麗, 付一鳴
(1.中南財經(jīng)政法大學(xué)刑事司法學(xué)院, 湖北武漢 430073; 2.司法鑒定技術(shù)應(yīng)用與社會治理學(xué)科創(chuàng)新基地, 湖北武漢 430073)
工具痕跡常出現(xiàn)在不同類型的犯罪現(xiàn)場上,具有明顯穩(wěn)定、不容易被破壞和容易提取等特點,在提供偵查方向和線索以及法庭科學(xué)證據(jù)方面有著不可忽視的作用。一直以來,工具痕跡的檢驗鑒定主要依賴于檢驗人員的經(jīng)驗,無法對痕跡檢驗鑒定過程作定量描述,檢驗過程和結(jié)果缺乏穩(wěn)定性和可靠性[1]。工具痕跡定量化檢驗是一個國際化問題,其檢驗結(jié)果的可靠性和穩(wěn)定性是相關(guān)從業(yè)人員追求的目標[2]。國內(nèi)外一些學(xué)者針對工具痕跡定量化、自動化檢驗技術(shù)做了較多有益研究。在這些研究中,其核心任務(wù)是痕跡特征的定量化表示[3],然后使用傳統(tǒng)的機器學(xué)習(xí)技術(shù)對定量化的痕跡特征進行學(xué)習(xí)和識別[4]。
近年來,基于深度卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)在大規(guī)模圖像分類、自然語言處理等領(lǐng)域的應(yīng)用獲得顯著成果,引發(fā)了全球?qū)谏疃葘W(xué)習(xí)的人工智能技術(shù)的研究熱潮。深度卷積神經(jīng)網(wǎng)絡(luò)是從神經(jīng)網(wǎng)絡(luò)技術(shù)的基礎(chǔ)上發(fā)展起來的,它具有比神經(jīng)網(wǎng)絡(luò)更多數(shù)量和更深程度的層,能夠直接從數(shù)據(jù)中自動學(xué)習(xí)數(shù)據(jù),不需要預(yù)先對數(shù)據(jù)進行特征規(guī)劃。深度學(xué)習(xí)已超出神經(jīng)網(wǎng)絡(luò)的大腦的學(xué)習(xí)機制,而更多的是從信息論、概率論、線性代數(shù)和數(shù)值優(yōu)化等領(lǐng)域獲得靈感。
深度卷積神經(jīng)網(wǎng)絡(luò)對圖像數(shù)據(jù)進行學(xué)習(xí)識別時,不必要做圖像特征工程,直接把圖像輸入到網(wǎng)絡(luò),由網(wǎng)絡(luò)對圖像數(shù)據(jù)進行學(xué)習(xí)并提取圖像特征,可以達到優(yōu)秀的學(xué)習(xí)效果。從工具痕跡圖像提取有效的特征表示是一件比較困難的工作,然而使用深度學(xué)習(xí)技術(shù)處理工具痕跡圖像,可讓深度學(xué)習(xí)的網(wǎng)絡(luò)模型自動提取痕跡圖像的特征并進行學(xué)習(xí),不需要在學(xué)習(xí)之前預(yù)先設(shè)計特征提取算法提取痕跡圖像特征,從而能夠提升工作效率和降低工作難度。
本文利用遷移學(xué)習(xí)的思想,對深度卷積神經(jīng)網(wǎng)絡(luò)VGG16經(jīng)典模型進行微調(diào)后對斷線鉗、鋼絲鉗和螺絲刀三類工具制作的2 800個樣本進行學(xué)習(xí)和識別,獲得較好的實驗效果。
一般來講,深度學(xué)習(xí)的網(wǎng)絡(luò)模型的層越“深”,即網(wǎng)絡(luò)的層數(shù)越多,所需要的訓(xùn)練數(shù)據(jù)量就越大。小數(shù)據(jù)訓(xùn)練集不足以把深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練得完全收斂,只有大數(shù)據(jù)訓(xùn)練集才能夠訓(xùn)練好深度學(xué)習(xí)網(wǎng)絡(luò),使之具有較好的收斂性和泛化能力,如2012年獲得ILSVRC比賽冠軍的深度卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet使用了ImageNet項目提供的1 500萬張共22 000類的標注過的大圖像數(shù)據(jù)集進行訓(xùn)練[5]。目前國內(nèi)外,在工具痕跡檢驗鑒定研究和應(yīng)用中,無法收集到如此大量的痕跡圖像樣本,已經(jīng)標注的工具痕跡樣本更是有限,即使通過數(shù)據(jù)增強方法如重復(fù)的K折驗證也根本不足以驅(qū)動深度卷積網(wǎng)絡(luò)的訓(xùn)練。一個經(jīng)典的深度卷積網(wǎng)絡(luò)被一個小數(shù)據(jù)訓(xùn)練集來訓(xùn)練,會產(chǎn)生嚴重的過擬合問題,因此,直接使用一個較小的工具痕跡數(shù)據(jù)集來訓(xùn)練一個深度學(xué)習(xí)網(wǎng)絡(luò)是一件沒有實際意義的工作。
在計算機視覺領(lǐng)域,對于不同的識別任務(wù),深度卷積神經(jīng)網(wǎng)絡(luò)模型的底層學(xué)習(xí)都是相同的,因為在底層學(xué)習(xí)的都是泛化能力很強的低級語義特征如邊緣和顏色信息。深度卷積神經(jīng)網(wǎng)絡(luò)不管是學(xué)習(xí)動物圖像還是醫(yī)療影像,底層處理的特征都是一樣的。也就是說,使用動物圖像數(shù)據(jù)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)可以用來處理醫(yī)療影像,這種能力稱為遷移學(xué)習(xí)[6]。因此,可以使用通過ImageNet數(shù)據(jù)集訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型對工具痕跡圖像進行分類。
本文選擇深度卷積神經(jīng)網(wǎng)絡(luò)VGG16經(jīng)典模型,對該模型進行微調(diào)后再對工具痕跡圖像數(shù)據(jù)集進行識別分類實驗。VGG16是在AlexNet模型的基礎(chǔ)上發(fā)展而來,在2014年的ILSVRC比賽中其學(xué)習(xí)能力和識別分類成績表現(xiàn)優(yōu)異。該模型由5個卷積塊和3個全連接層構(gòu)成,其中每個卷積塊包含2~3個卷積層和一個最大池化層,而全連接層與AlexNet一致。VGG16模型所有的卷積核均為3×3的窗口尺寸,參數(shù)總量比AlexNet小很多,如此,通過減小卷積核尺寸大小和增加卷積層數(shù)量能夠提取圖像中更為抽象、精細的特征。
VGG16深度卷積網(wǎng)絡(luò)是由巨大的訓(xùn)練數(shù)據(jù)樣本訓(xùn)練完成,具有相當高的泛化能力,可以識別1 000個動物類別。為了能夠讓VGG16模型應(yīng)用到工具痕跡,需要對該模型進行修改以適應(yīng)當前的目標任務(wù)。VGG16模型識別1 000個類別時,其全連接層特別大,而使之應(yīng)用到工具痕跡識別中,如需要識別10類工具,則需要對VGG16模型中的全連接層進行替換和修改,修改后的VGG16模型如圖1所示。
圖1 修改后的VGG16模型示意圖
把VGG16模型應(yīng)用到工具痕跡識別時,需要使用工具痕跡圖像數(shù)據(jù)集訓(xùn)練修改后的VGG16模型。模型只修改了全連接層,因此訓(xùn)練修改后的模型只須訓(xùn)練全連接層,而卷積層不需要重新訓(xùn)練。因此,在訓(xùn)練修改后的模型時,務(wù)必對預(yù)訓(xùn)練好的卷積層進行凍結(jié),以防破壞了VGG16之前學(xué)到的全部參數(shù)。本文處理工具痕跡圖像的算法分兩步:第一步使用預(yù)訓(xùn)練的VGG16卷積層提取具有很強泛化能力的工具痕跡特征;第二步訓(xùn)練新的全連接層,然后對同一類別不同個體的工具痕跡進行識別分類,以及對不同類別不同個體的工具痕跡進行識別分類。
選擇10個沒使用過的刀口寬為6 mm的同型螺絲刀、刃口長25 mm的同型鋼絲鉗和8個刃口長30 mm的同型斷線鉗作為實驗工具(如圖2)。鉛是一種延展性好、硬度低的金屬材料,對工具痕跡特征具有較好的反映性,在實驗中常用來作為制作工具痕跡的承痕客體。本文選用鉛片和直徑為5 mm的鉛絲作為制作痕跡的實驗客體材料。
圖2 3種實驗工具
在自制的螺絲刀線條痕跡制作裝置(如圖3)上完成螺絲刀線條痕跡樣本制作。螺絲刀固定在裝置的夾具上,可以通過裝置調(diào)節(jié)螺絲刀口與鉛片之間的距離和接觸角度,所有螺絲刀制作痕跡樣本時的接觸前角設(shè)定為45度。每個螺絲刀制作100個痕跡樣本,10個螺絲刀共制作1 000個樣本。在自制的剪切痕跡制作定位裝置(如圖4)上完成鋼絲鉗剪切痕跡樣本制作,鋼絲鉗的剪切刃口位置由裝置進行精確定位。每個鋼絲鉗制作100個痕跡樣本,十個鋼絲鉗共制作1 000個樣本。斷線鉗具有2級杠桿結(jié)構(gòu),在制作痕跡樣本時,其刃口在2級杠桿帶動下產(chǎn)生位移,會造成剪切刃定位誤差,實驗中刃口剪切位置定位精度誤差在1.5 mm以內(nèi)。每個斷線鉗制作100個痕跡樣本,8個斷線鉗共制作800個樣本。所有制作的剪切痕跡樣本中,選擇同個刃側(cè)面對應(yīng)的剪切坡面作為實驗痕跡樣本。
圖3 自制的痕跡制作裝置
圖4 自制的剪切痕跡制作定位裝置
所有實驗痕跡樣本由一位經(jīng)驗豐富的痕跡檢驗人員使用視頻顯微鏡進行2D圖像數(shù)據(jù)采集。圖像采集的放大倍率為15倍,分辨率為1 024×768像素,光源的強度和照射角度無特別要求,只需保證采集的圖像清晰即可。
使用 Photoshop CS5對采集的圖像進行裁切。對于螺絲刀線條痕跡,靠近痕跡起始部位沿著痕跡整個寬度方向裁切圖像,把裁切的圖像保存大小為250×720(像素);對于剪切痕跡,只保留痕跡半圓形坡面區(qū)域,把裁切的圖像保存大小為250×720 (像素)。裁切的圖像均按照工具類型和類別進行標記,保存到實驗數(shù)據(jù)集。
上文所述的螺絲刀、鋼絲鉗和斷線鉗制作的痕跡所構(gòu)建的實驗數(shù)據(jù)集大小的70%作為訓(xùn)練數(shù)據(jù)集,30%作為交叉驗證數(shù)據(jù)集。使用微調(diào)后的VGG16模型在訓(xùn)練數(shù)據(jù)集上進行訓(xùn)練學(xué)習(xí),再使用訓(xùn)練后的模型對交叉驗證數(shù)據(jù)集進行痕跡識別。在訓(xùn)練中,設(shè)置批量梯度下降參數(shù)batch_size=20,對于單個類別工具的數(shù)據(jù)集完整訓(xùn)練一個輪次(epoch)需要35次迭代,共完成50個輪次的計算。螺絲刀線條痕跡、鋼絲鉗剪切痕跡和斷線鉗剪切痕跡數(shù)據(jù)集的訓(xùn)練和驗證測試的準確率曲線分別如圖5~圖7所示,三類工具痕跡綜合數(shù)據(jù)集的訓(xùn)練和驗證測試準確率曲線如圖8所示。4個實驗(4個數(shù)據(jù)集)的驗證測試最大識別準確率如表1所示。
圖5 螺絲刀線條痕跡數(shù)據(jù)集的識別率
圖6 鋼絲鉗剪切痕跡數(shù)據(jù)集的識別率
圖7 斷線鉗剪切痕跡數(shù)據(jù)集的識別率
圖8 3種工具痕跡綜合數(shù)據(jù)集的識別率
表1 4個數(shù)據(jù)集上的最大識別率
從圖5~圖8的訓(xùn)練和測試曲線可看出,訓(xùn)練集的曲線在收斂域中的識別準確率比較高,說明微調(diào)后的VGG16模型在數(shù)據(jù)集上欠擬合風(fēng)險小,驗證集的曲線整體處于訓(xùn)練曲線之上,驗證集的識別準確率高于訓(xùn)練集,說明模型的泛化性好,過擬合風(fēng)險小。
從實驗結(jié)果可知,本文方法對螺絲刀線條痕跡的最大識別準確率為98.6%,對鋼絲鉗剪切痕跡的最大識別準確率為99.6%,對斷線鉗剪切痕跡的最大識別準確率為88.3%。螺絲刀線條痕跡和鋼絲鉗剪切痕跡的識別準確率均達到98%以上,而斷線鉗剪切痕跡的識別準確率不足90%,說明工具痕跡制作時的定位誤差對痕跡特征變化有一定影響。螺絲刀和鋼絲鉗在制作痕跡樣本時都由裝置固定和精確定位,所有制作的樣本均由工具的同一部位制作形成,制作的樣本痕跡具有較高的一致性。斷線鉗制作痕跡時沒有使用定位裝置,其二級杠桿結(jié)構(gòu)在痕跡制作時給工具定位帶來一定誤差,制作的樣本痕跡具有較差的一致性。本方法對螺絲刀線條痕跡、鋼絲鉗剪切痕跡和斷線鉗剪切痕跡綜合數(shù)據(jù)集的最大識別準確率為95.5%,該實驗效果相比較單獨的螺絲刀痕跡和鋼絲鉗痕跡分類實驗的效果略差,但遠遠好于斷線鉗痕跡的實驗效果,這說明3種痕跡的類間差別較大具有可分性。
本文使用了與文獻[4]相同的實驗數(shù)據(jù)集,但本文方法的實驗結(jié)果總體好于文獻[4]的實驗結(jié)果,可見深度卷積神經(jīng)網(wǎng)絡(luò)模型的識別能力更強且不需要做特征工程。
本文運用了遷移學(xué)習(xí)的思想,對深度卷積神經(jīng)網(wǎng)絡(luò)VGG16經(jīng)典模型進行微調(diào)后,用于工具痕跡的比對檢驗。完成了2 000個精確定位條件下制作的螺絲刀線條痕跡和鋼絲鉗剪切痕跡以及800個非精確定位條件下制作的斷線鉗剪切痕跡數(shù)據(jù)集的4組實驗。實驗結(jié)果表明,本方法對工具精確定位條件下形成的線條痕跡(螺絲刀線條痕跡)和類線條痕跡(鋼絲鉗剪切痕跡),均有較好的識別能力,對具有一定定位誤差的痕跡(斷線鉗剪切痕跡)也有不錯的識別效果。使用深度卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行識別分類的最顯著的優(yōu)點即不必對痕跡數(shù)據(jù)做特征工程,對痕跡圖像數(shù)據(jù)采集時的光照條件要求也不高。本方法對工具痕跡定量化檢驗鑒定具有一定借鑒意義,要想將其應(yīng)用到實際工作中,還需要使用更大的工具痕跡數(shù)據(jù)集對深度卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,降低模型的過擬合風(fēng)險和增強其泛化能力。