孫威,劉懷策,劉金坤,劉玉海,李浩,蔡能斌,陳蕊麗
(1.中國人民公安大學(xué) 偵查學(xué)院,北京 100038;2.深圳市中達瑞和科技有限公司,廣東 深圳 518108; 3.鄭州市公安局刑事科學(xué)技術(shù)研究所,河南 鄭州 450016;4.上海市現(xiàn)場物證重點實驗室,上海 200083)
準(zhǔn)確推斷暴力流血案件的發(fā)生時間是公安實踐中案件偵破的重點[1]。血跡從離開人體后在自然環(huán)境中暴露的時間與案發(fā)時間以及受害者的死亡時間相吻合。所以,精確預(yù)測血跡的陳舊度有助于刑事技術(shù)人員間接推斷被害人死亡時間。光譜技術(shù)較多地應(yīng)用在血跡陳舊度的預(yù)測上[2-6]。高茜鈺等[7]利用紫外可見反射光譜實現(xiàn)了不同環(huán)境載體條件下8 h內(nèi)血跡陳舊度預(yù)測。戎念慈等[8]運用可見光-近紅外多光譜系統(tǒng),建立的融合模型對0~2 d和2~20 d的血液樣本進行預(yù)測的平均誤差分別為 0.053 d 和0.442 d。本文應(yīng)用高光譜成像技術(shù),分別針對全波段和特征波段,結(jié)合偏最小二乘回歸,建立血跡陳舊度的預(yù)測模型,得到穩(wěn)定性較高、適用性較廣以及平均誤差較小的血跡陳舊度預(yù)測方法。
志愿者左手下中指末稍靜脈血。
SHIS-N220凝視型高光譜成像儀;BaSO4白板(作為漫反射標(biāo)準(zhǔn)參照板)。
實驗樣本來源于6名志愿者,年齡分布在19~78周歲,其中男、女性各3名。采血部位經(jīng)消毒棉消毒后,用一次性采血針分別采集6名志愿者左手中指末梢靜脈血各2份,經(jīng)膠頭滴管分別取25 μL血液均勻涂布于1/4大小的 A4紙張的中心部位,共得到12份血跡樣本。為了更加貼近真實的犯罪現(xiàn)場,12份血跡樣本不做任何處理,自然暴露在同一實驗室環(huán)境中。最后,隨機將12份血跡樣本分為兩部分,其中8份作為訓(xùn)練集,4份作為測試集。
啟動高光譜成像儀,預(yù)熱10 min,使系統(tǒng)各參數(shù)快速達到穩(wěn)定的狀態(tài)。預(yù)熱結(jié)束后,調(diào)節(jié)相機高度和光圈大小,使得待測血樣成像清晰。先基于標(biāo)準(zhǔn)BaSO4白板進行光源標(biāo)定,以檢出當(dāng)前環(huán)境最佳曝光時間和系統(tǒng)透過率最大的波段值。設(shè)置采集波段范圍為450~950 nm,間隔通道5 nm,目標(biāo)灰度值130,并設(shè)置自動曝光。另外,為降低雜散光的干擾,整個采集過程均在黑暗環(huán)境中進行,并以漫反射的方式每間隔1 h分別采集12個樣本在0~10 h的血跡高光譜圖像,每個樣本采集11次,共得到132份高光譜數(shù)據(jù)。每份高光譜數(shù)據(jù)含有101張血跡圖像,共13 332張血跡高光譜圖像。采集過程中新鮮血液、半凝固、完全凝固三種狀態(tài)下血跡高光譜偽彩色圖像見圖1。
圖1 三種狀態(tài)下血跡高光譜偽彩色圖
模型評價標(biāo)準(zhǔn):使用決定系數(shù)(R2)和平均絕對誤差(MAE)作為模型預(yù)測精度的評價指標(biāo),平均絕對誤差越小模型的預(yù)測能力越好;R2越接近1,模型越穩(wěn)定。好的校正模型和驗證模型對應(yīng)較低的MAE的值和接近于1的R2的值[9]。式(1)和式(2)分別是R2和MAE的計算公式:
(1)
(2)
偏最小二乘法(PLS)集成了主成分分析(PCA)、典型相關(guān)分析(CCA)和線性相關(guān)分析(LCA)的優(yōu)點,其突出特點是可以解決自變量之間的多重相關(guān)性問題。相對于PCA,PLS提取的若干主成分既包含了原輸入變量矩陣的絕大部分信息,剔除了相互重疊的冗余信息,同時也充分考慮了主成分對輸出變量矩陣的解釋能力[10]。
(3)
(4)
2.1.1 反射率計算 現(xiàn)有文獻馮穎[15]對于血跡反射率的計算多使用ENVI 軟件,在不同陳舊度的血跡樣本中選取含有一定數(shù)量像元的感興趣區(qū)域(ROI),或者一定數(shù)量的感興趣點,然后求選定像元對應(yīng)的光譜反射率數(shù)值的平均值,得到不同遺留時間下的平均反射率光譜曲線。但是由于每一份血液樣本厚薄不勻,并且邊緣和中心的凝結(jié)速度也不一致,更不是一個規(guī)則面,所以整個血跡面的光譜曲線差異非常大,不像其他樣本的采樣,可以通過取得中心的一點或者一個區(qū)域,就可以基本代表整體樣本的信息。所以,決定從樣本圖中扣取整個血跡面,然后計算平均光譜來研究血液隨時間的變化趨勢。
由于血跡和背景占據(jù)不同的灰度級范圍,故可基于灰度值對血跡圖像進行閾值分割,從而區(qū)分黑色的血跡和白色的背景,同時由于受雜質(zhì)的影響,閾值分割后,還需經(jīng)形態(tài)學(xué)處理,來剔除干擾物質(zhì)的影響[16],具體處理后的結(jié)果見圖2。
2.1.2 標(biāo)準(zhǔn)正態(tài)變換校正 由于血跡高光譜圖像在采集過程中受到基線漂移和散射作用的影響,相同陳舊度的12個樣本的血跡反射率存在明顯差異,見圖3a。同時,為了克服不同波段下光源強度分布不均勻的影響,故對所有血跡反射率光譜進行標(biāo)準(zhǔn)正態(tài)變換校正(SNV)預(yù)處理,見圖3b,經(jīng)SNV處理后,相同時間采集的不同樣本反射率曲線差異明顯縮小[17]。
圖3 陳舊度為6 h的12個血跡樣本SNV處理前后對照圖
PLS的基本思路是逐步回歸,即在充分保證提取的主成分對輸入和輸出變量矩陣的解釋能力的前提下,逐步分解輸入和輸出變量矩陣,直到滿足實際問題的應(yīng)用需求為止。PLS因其適用于自變量的維度大于觀測值的個數(shù)的情況,故PLS常被用于連續(xù)光譜的分析[11]。PLS的特點和優(yōu)點為該方法結(jié)合高光譜成像技術(shù)預(yù)測血跡陳舊度成為可能。
首先將12個血跡樣本隨機分成兩部分,其中8個樣本用于構(gòu)建預(yù)測模型,4個樣本用于構(gòu)建校正模型。見圖4,在全部的12個血跡樣本中,隨機選取的血跡樣本10,其在450~540 nm波段內(nèi),血跡反射率數(shù)值快速下降,不同陳舊度的血跡反射率譜圖重疊嚴(yán)重,血跡反射率隨時間變化的特征并不明顯。在540~600 nm和810~950 nm波段內(nèi),血跡反射率譜圖呈略微上升趨勢,但譜圖同樣相互重疊,不同陳舊度的血跡無明顯區(qū)分。但是在600~800 nm 波段范圍內(nèi),同一波段下的血跡原始光譜反射率數(shù)值隨時間的增大不斷減少,整體呈先上升后下降的趨勢,且特征穩(wěn)定。故決定選取600~800 nm 為特征波段,然后分別基于全波段光譜和選取的特征波段光譜為自變量,以PLS算法建立血跡陳舊度的高光譜預(yù)測模型。最后,綜合比較分析該模型與基于主成分回歸(PCR)、支持向量機回歸(SVM)、最小二乘支持向量機回歸(LS-SVM)算法構(gòu)建的血跡陳舊度預(yù)測模型的優(yōu)劣。
圖4 0~10 h樣本10在675 nm處原始光譜反射率曲線圖
Edelman的研究表明[18],在案發(fā)現(xiàn)場環(huán)境條件中,離開人體后,不經(jīng)任何處理的血液會被快速氧化,血液中的血紅蛋白被氧化生成新的物質(zhì),同時血液的顏色也會改變,這些因素都會引起血跡光譜反射率的變化。全波段(450~950 nm)建模預(yù)測效果見表1。
表1 血跡全波段定量分析預(yù)測效果性能指標(biāo)
表2 血跡特征波段定量分析預(yù)測效果性能指標(biāo)
(1)在相同的實驗環(huán)境下,對于全部的12個樣本,每間隔1 h采集1次高光譜數(shù)據(jù),分別采集了12個樣本在0~10 h共計11個時間節(jié)點的132張高光譜圖像。隨著時間的增加,同一波段下,不同陳舊度血跡反射光譜數(shù)值在600~800 nm波段不斷減小。
(2)選取600~800 nm為特征波段,分別基于主成分回歸、支持向量機回歸、最小二乘支持向量機回歸和偏最小二乘回歸算法,對血跡反射率數(shù)值進行回歸分析,偏最小二乘法構(gòu)建的預(yù)測模型,R2均接近于1,平均絕對誤差MAE均較小,具有最高的預(yù)測精度和穩(wěn)定性,可為刑事技術(shù)人員快速確定案發(fā)時間和被害人死亡時間提供依據(jù)。