錢金婧 楊志超 浙江警察學院
血液因其具有穩(wěn)定性、客觀性、主體唯一性等特性,在公安工作中承擔著十分重要的角色,在犯罪現(xiàn)場復(fù)原、人員同一認定、案發(fā)時間認定等方面都發(fā)揮著重要作用。在犯罪現(xiàn)場勘察中,對于現(xiàn)場類血液體的殘留,或血液附著客體的原因致使血液分布不明顯而影響現(xiàn)場勘察效率的情況時有發(fā)生。此外,傳統(tǒng)的血液識別往往以采樣試劑檢測和暗室熒光顯色,前者對血跡本身有不可逆的破壞作用,后者顯色時間短且需營造暗室環(huán)境,適用場所有所局限。在信息化科技化的現(xiàn)代社會中,利用計算機技術(shù)來突破傳統(tǒng)血液識別方式的局限,是目前基層警務(wù)實踐的一大需求。
目前,運用計算機技術(shù)來分類識別不同事物在公安工作中已有實踐先例,比如車輛識別、人臉識別等。本實驗?zāi)康脑谟趯崿F(xiàn)對犯罪現(xiàn)場中類血痕跡的識別分類,利用高光譜成像儀能夠不破壞樣品的特征,采集類血痕跡在犯罪現(xiàn)場客體上的高光譜數(shù)據(jù),再利用機器學習(Machine Learning)中的支持向量機(SVM)算法,對類血樣品在客體上高光譜數(shù)據(jù)進行訓練建模,以實現(xiàn)基于SVM算法的血液、非血液二元輸出分類器,從而克服傳統(tǒng)血液識別方法對犯罪現(xiàn)場痕跡破環(huán)、樣品提取不全面等局限,實現(xiàn)非接觸、無損、全方位、高效地識別現(xiàn)場血痕,為基層警務(wù)實戰(zhàn)提供經(jīng)驗。
自1995年,通過機器學習分析有限樣本的方法被提出后,相關(guān)領(lǐng)域便成為研究熱點,目前,國內(nèi)外已有通過計算機技術(shù)對圖像、聲音等進行自動識別分類的能力。本實驗主要通過機器學習中的SVM算法對類血液體的高光譜數(shù)據(jù)進行訓練建模,從而實現(xiàn)計算機對血液的自動識別分類,如圖1所示。
高光譜成像是將光譜信息與數(shù)字成像信息相融合的一項對物質(zhì)進行多維信息獲取的綜合技術(shù),對于實際影像中每個單位點,突破傳統(tǒng)成像得到黑白或RGB數(shù)據(jù),高光譜相機能夠在同一點位獲取上百個連續(xù)的光譜波段下的光譜信息數(shù)據(jù),并且包含了數(shù)字成像信息數(shù)據(jù),最終獲得的是數(shù)據(jù)立方,從而根據(jù)不同物質(zhì)在不同光譜下的光譜信息與特性不同可以實現(xiàn)對物質(zhì)進行分類。
本實驗使用的美國Headwall Photonics公司生產(chǎn)的Hyperspec VNIR-E系列高光譜成像儀自帶的圖像分析軟件,只能對識別的影像數(shù)據(jù)進行簡單的預(yù)處理,對于所得數(shù)據(jù)的進一步加工往往還需要其他軟件的輔助。因此本實驗還采用了美國Exelis公司在2013年發(fā)布的遙感圖像處理軟件ENVI 5.1版本,對所得高光譜信息進行深度處理加工,該版本對傳感器的兼容性強、波譜庫數(shù)據(jù)多、數(shù)據(jù)處理效率較高,相對于其他軟件具有突出優(yōu)勢。
SVM(Support Vector Machine,支持向量機)是機器學習的算法之一,主要通過對已知樣本中不斷訓練調(diào)整參數(shù),并根據(jù)所訓練出來的模型對未知數(shù)據(jù)進行預(yù)測。相對于傳統(tǒng)的機器學習算法,SVM加入了核函數(shù)、泛化誤差、VC維等,能夠?qū)崿F(xiàn)對高光譜成像數(shù)據(jù)這類多維數(shù)據(jù)樣本、非線性數(shù)據(jù)樣本、小樣本等情況進行訓練建模,實現(xiàn)樣本分類。本實驗采用了臺灣大學林智仁教授團隊開發(fā)的LIBSVM算法,其所包含的需要自主調(diào)解的參數(shù)較少,具有程序小、運算速度快、應(yīng)用范圍廣等特點。
本實驗主要對LIBSVM算法中的訓練集百分比、參數(shù)c、參數(shù)g、降維數(shù)進行變量控制分析,從而得出最優(yōu)的分類模型。其中訓練集百分比是指訓練模型中訓練集的數(shù)據(jù)量;參數(shù)c(cost)影響SVM算法中的模型學習速度,即模型擬合速率;參數(shù)g(gamma)影響SVM算法中數(shù)據(jù)處理分類的多維度空間;降維數(shù)是指對數(shù)據(jù)進行降維數(shù)量級。
本實驗基于高光譜成像系統(tǒng)掃描生成客體的影像信息數(shù)據(jù),并對光譜數(shù)據(jù)進行訓練建模并預(yù)測實驗結(jié)果,通過SVM對圖像進行分類能夠直接對高維的光譜影像數(shù)據(jù)進行處理,不需要將數(shù)據(jù)轉(zhuǎn)換為降維數(shù)據(jù),直接避免了對數(shù)據(jù)的破壞,保證了光譜信息的充分性與全面性。
1.樣本
血跡、指甲油、醬油、紅藥水、辣椒油。
2.器材
美國Headwall Photonics公司生產(chǎn)的Hyperspec VNIR-E系列高光譜成像儀及其配套設(shè)施。
3.軟件
ENVI 5.1、MATLAB R2016a。
1.獲取實驗樣本
提取新鮮血液,并將其滴至干凈的白色瓷磚表面,將指甲油、醬油、紅藥水、辣椒油各一滴從左至右滴至白色瓷磚表面靜置,獲得實驗樣本,如圖2所示。
2.高光譜成像
打開高光譜成像儀及其配套設(shè)備,調(diào)節(jié)光圈、入射光強度、角度,調(diào)整光源強度以及曝光時間,使成像畫面最亮的位置飽和值接近于85%,將實驗樣本置于白板上,再次調(diào)節(jié)光圈至最大,調(diào)整鏡頭的調(diào)焦環(huán),直至出現(xiàn)邊緣銳利的明暗條紋,蓋住鏡頭,封閉外界光源,拍攝目標樣本,獲得40納米至1000納米連續(xù)波段光源下的光譜影像。
3.高光譜影像區(qū)域選擇,提取數(shù)據(jù)
將高光譜影像導入ENVI軟件,選擇每種液體圖像中間濃度較高的區(qū)域作為實驗區(qū)域,提取所選區(qū)域的高光譜數(shù)據(jù)信息,繪制光譜平均值曲線,如圖4所示第1至5條曲線分別代表了血跡、指甲油、醬油、紅藥水、辣椒油這5種物質(zhì)的平均光譜曲線。導出5種樣品物質(zhì)的高光譜數(shù)據(jù)的txt文檔轉(zhuǎn)換為csv文件,刪減無關(guān)數(shù)據(jù)并對5種樣品數(shù)據(jù)進行1至5標號以及數(shù)據(jù)合并,得到適合MATLAB運行的一個數(shù)據(jù)文件。
4.數(shù)據(jù)預(yù)處理
將數(shù)據(jù)文件導入MATLAB軟件轉(zhuǎn)化為數(shù)據(jù)矩陣的形式導出到系統(tǒng)中,再對數(shù)據(jù)矩陣進行中的數(shù)據(jù)進行分類,數(shù)據(jù)與標簽分離,生成data(6960×184)與lable(6960×1)兩個數(shù)據(jù)文件,再對data數(shù)據(jù)文件進行無量綱化與同趨化處理。
5.建立SVM模型與分析
導入數(shù)據(jù)文件,分別將訓練集百分比、參數(shù)c、參數(shù)g、降維數(shù)比作為唯一變量,觀察分析SVM算法構(gòu)建的模型在該實驗中的準確率影響因素。
(1)訓練集百分比作為變量
設(shè)置參數(shù)c為100,參數(shù)g為0.001,不降維,改變訓練集在整個數(shù)據(jù)矩陣中的百分比,以0.5%為間隔,從10%至1%遞減,記錄,如表1所示。得到不同訓練集百分比的測試準確率曲線圖,如圖5所示。
?
(2)參數(shù)c作為變量
設(shè)置訓練集百分比5%,參數(shù)g為0.001,不降維,改變參數(shù)c,以10為倍數(shù),從1至1010逐級增大,記錄不同參數(shù)c下的的測試數(shù)據(jù)分類準確率,如表2所示。得到不同參數(shù)c的測試準確率曲線圖,如圖6所示。
images/BZ_66_1333_2220_1370_2240.pngimages/BZ_66_1372_2220_1391_2240.pngimages/BZ_66_1333_2245_1351_2263.pngimages/BZ_66_1352_2244_1391_2263.pngimages/BZ_66_1334_2276_1370_2295.pngimages/BZ_66_1371_2276_1390_2295.pngimages/BZ_66_1333_2300_1371_2319.pngimages/BZ_66_1372_2300_1390_2318.png
(3)參數(shù)g作為變量
設(shè)置訓練集百分比為5%,參數(shù)c為10000,不降維,改變參數(shù)g,以10為倍數(shù),從1至10-9逐級減小,記錄不同參數(shù)g下的的測試數(shù)據(jù)分類準確率,如表3所示。得到不同參數(shù)g的測試準確率曲線,如圖7所示。
?
(4)降維數(shù)作為變量
根據(jù)前三組實驗得到相對最優(yōu)參數(shù),設(shè)置訓練集百分比5%,參數(shù)c為10000,參數(shù)g為0.000001,將數(shù)據(jù)進行降維處理,以15維為間隔,從5維至170維逐級遞增訓練建模,記錄不同降維處理下的測試準確率,結(jié)果如表4所示。得到不同降維處理下的測試準確率曲線圖,如圖8所示。
?
SVM算法能夠有效構(gòu)建血液與非血液二元輸出分類器,識別分類準確率可達99.946%。其中,在固定其他變量的情況下,改變參與數(shù)據(jù)集的訓練集百分比以及降維程度,對模型測試準確率影響較小,準確率整體較高;設(shè)置參數(shù)c、參數(shù)g過大或者過小都會使模型測試準確率降低。
本次實驗主要在于探索SVM算法能否實現(xiàn)對類血液體的高光譜數(shù)據(jù)分析,從而實現(xiàn)對血液樣本的分類識別,仍處于初步研究,因此實驗設(shè)置的樣本條件都為最優(yōu)選擇。實驗結(jié)果也證實了SVM算法能夠通過分析類血液體的高光譜數(shù)據(jù),有效構(gòu)建血液與非血液二元分類器。
本次實驗成功的原因主要有四個方面,一是本實驗采取的類血液體辣椒油、紅藥水等與血液在可見光和近紅外區(qū)的光譜特征差異明顯,為二元分類識別提供了良好的條件;二是本次實驗中類血液體的承載客體單一,也為分類識別提供了良好的基礎(chǔ);三是本實驗在感興趣區(qū)域選擇時,為實驗者手動選取液體影像中圖像較為飽和的中間區(qū)域,一定程度上縮減了數(shù)據(jù)的部分現(xiàn)實可能誤差;四是SVM算法本身的模型優(yōu)化目標為大邊界、高準確率,直觀印證了本實驗實現(xiàn)血液與非血液二元分類器的訴求。
本實驗在類血液體種類、類血液體承載客體種類、類血液體在客體上的存留時間等方面還可以開展進一步拓展研究。高光譜數(shù)據(jù)中的多維信息通過特定算法進行分類識別后,結(jié)合虛擬現(xiàn)實增強技術(shù),對于犯罪現(xiàn)場的還原構(gòu)建也有著相當可觀的前景。
目前,高光譜設(shè)備在基層公安還未實現(xiàn)大范圍普及,但自動化檢測無疑在公安現(xiàn)場勘驗中具有較大的發(fā)展空間。