王相臣,王帥帥
(中國(guó)刑警學(xué)院 遼寧沈陽(yáng) 110035)
筆跡字間距特征量化檢驗(yàn)的統(tǒng)計(jì)方法
王相臣,王帥帥
(中國(guó)刑警學(xué)院 遼寧沈陽(yáng) 110035)
字間距特征是筆跡中可以進(jìn)行客觀測(cè)量的一類特征,對(duì)字間距特征的比對(duì)檢驗(yàn)可以轉(zhuǎn)化為雙樣本均值和方差的一致性檢驗(yàn)問題。借助概率論和數(shù)理統(tǒng)計(jì)中的假設(shè)檢驗(yàn)和方差分析等方法判斷檢材與樣本的字間距特征是否具有顯著性差別,從而實(shí)現(xiàn)對(duì)字間距特征的量化檢驗(yàn),并通過小樣本實(shí)驗(yàn)對(duì)該方法進(jìn)行實(shí)驗(yàn)研究,經(jīng)實(shí)驗(yàn)分析從10個(gè)樣本中排除掉7個(gè)樣本并保留了目標(biāo)樣本,從而證明了該方法的可行性。
筆跡;字間距特征;量化;假設(shè)檢驗(yàn)
筆跡特征是個(gè)人書寫技能和書寫習(xí)慣的表現(xiàn),是認(rèn)識(shí)個(gè)人筆跡特性的客觀依據(jù)。由于筆跡具有反映性、自身同一性和總體特殊性等特性,目前,筆跡檢驗(yàn)鑒定專家主要通過個(gè)人經(jīng)驗(yàn)來(lái)分析筆跡特征,進(jìn)行定性判斷,并最終做出鑒定意見。這種檢驗(yàn)鑒定方法在鑒定的客觀性和科學(xué)性上存在一定不足,不同專家會(huì)因個(gè)人經(jīng)驗(yàn)和認(rèn)識(shí)上的差別對(duì)同一案件的筆跡特征有不同認(rèn)識(shí),最終可能導(dǎo)致作出的鑒定意見的差異。如何提高筆跡檢驗(yàn)鑒定的客觀性和科學(xué)性也是筆跡檢驗(yàn)領(lǐng)域現(xiàn)階段亟需解決的難題。目前,DNA鑒定技術(shù)已經(jīng)可以較好地使用概率表達(dá)其檢驗(yàn)鑒定的可信度,其完整的量化體系與技術(shù)方法,給整個(gè)法庭科學(xué)檢驗(yàn)帶來(lái)了革命性的變化[1]。在這種背景下,筆跡的量化檢驗(yàn)鑒定受到人們的重視。本文借助計(jì)算機(jī)軟件和數(shù)理統(tǒng)計(jì)學(xué)相關(guān)方法,針對(duì)筆跡的字間距特征進(jìn)行量化檢驗(yàn)方法研究。在客觀精確測(cè)量字間距特征數(shù)據(jù)的基礎(chǔ)上對(duì)相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,有效解決這一特征的量化檢驗(yàn)問題。
數(shù)理統(tǒng)計(jì)中對(duì)正態(tài)總體的假設(shè)檢驗(yàn)一般是對(duì)總體均值和方差的檢驗(yàn)。對(duì)于未知來(lái)源的兩個(gè)樣本,若分別對(duì)其均值和方差的一致性進(jìn)行檢驗(yàn),并分別得出肯定原假設(shè)的結(jié)論,則認(rèn)為兩個(gè)樣本沒有顯著差異,具有相同的分布規(guī)律。由于不同人筆跡的字間距大小在一定范圍內(nèi)保持相對(duì)穩(wěn)定,理論上是符合正態(tài)分布的,這一點(diǎn)經(jīng)過小樣本實(shí)驗(yàn)得到了證明。因此,對(duì)來(lái)源未知的筆跡材料的字間距特征進(jìn)行統(tǒng)計(jì)分析,實(shí)質(zhì)上可轉(zhuǎn)化為對(duì)檢驗(yàn)和樣本的假設(shè)檢驗(yàn)問題 ,即:原假設(shè)是否成立。在精確測(cè)得檢材和樣本筆跡字間距數(shù)據(jù)的基礎(chǔ)上進(jìn)行假設(shè)分析,判斷兩者在一定的顯著性水平上是否具有顯著性差異。
假設(shè)檢驗(yàn)中對(duì)兩正態(tài)總體方差的假設(shè)檢驗(yàn)分為雙邊檢驗(yàn)和單邊檢驗(yàn),又根據(jù)樣本總體均值已知和未知存在不同的檢驗(yàn)統(tǒng)計(jì)量。刑事技術(shù)中極少使用單邊檢驗(yàn),常使用雙邊檢驗(yàn)。同時(shí),只有在樣本量足夠大時(shí),根據(jù)中心極限定理可以獲得樣本總體均值,但實(shí)踐中很難實(shí)現(xiàn)。因此,對(duì)于總體均值未知的兩正態(tài)總體方差的假設(shè)檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量為:, 其中S=為檢材字間距方差,為樣本字間距方差,n1為檢材字間距數(shù)量,n2為樣本字間距數(shù)量,顯著水平為α下雙邊檢驗(yàn)拒絕域W為:
對(duì)兩正態(tài)總體均值的假設(shè)檢驗(yàn)也分為雙邊檢驗(yàn)和單邊檢驗(yàn),又根據(jù)樣本總體方差已知和未知選擇不同的檢驗(yàn)統(tǒng)計(jì)量。刑事技術(shù)中極少使用單邊檢驗(yàn),常使用雙邊檢驗(yàn)。同時(shí),也很難擁有足夠多樣本實(shí)現(xiàn)對(duì)樣本總體方差的估計(jì)。因此,對(duì)于方差未知且方差相等的兩個(gè)正態(tài)總體的均值常使用T檢驗(yàn)法,其檢驗(yàn)統(tǒng)計(jì)量T為:
當(dāng)待檢樣本有多組時(shí),對(duì)多個(gè)正態(tài)總體均值的假設(shè)檢驗(yàn),使用上述雙樣本T檢驗(yàn)方法會(huì)極大增加工作量,特別是涉及樣本間兩兩比較時(shí),弊端尤為突出。因此當(dāng)樣本量多于兩組時(shí),使用方差分析對(duì)均值進(jìn)行一致性檢驗(yàn)會(huì)更加方便快捷。假設(shè)有a組數(shù)據(jù)用i表示,第i組有個(gè)數(shù)據(jù)用j表示,方差分析的檢驗(yàn)統(tǒng)計(jì)量Leneve F(和方差的假設(shè)檢驗(yàn)中的F不同)為:其中為組間離差平方和,為組內(nèi)離差平方和,總體均值,單樣本均值,為第i組的第j個(gè)測(cè)量值,n為總數(shù)據(jù)量,在顯著水平α下,拒絕域?yàn)镕≥Fα(a-1,n-a)[3]。
進(jìn)行假設(shè)檢驗(yàn)通常按照以下步驟進(jìn)行:
1.提出原假設(shè)。通常原假設(shè)表示的內(nèi)容為“在給定的顯著性水平上兩個(gè)樣本所來(lái)自的總體不存在顯著性差異”,即H0∶μ1=μ2或σ1=σ2,相應(yīng)的,對(duì)應(yīng)假設(shè)即為H0∶μ1≠μ2或σ1≠σ2。
2.選擇統(tǒng)計(jì)量。根據(jù)檢驗(yàn)內(nèi)容選擇合適的統(tǒng)計(jì)量,若進(jìn)行方差齊性檢驗(yàn)選擇F統(tǒng)計(jì)量,若檢驗(yàn)均值選擇T統(tǒng)計(jì)量或方差分析。一般先進(jìn)行方差齊性檢驗(yàn),對(duì)方差齊的樣本再進(jìn)行均值檢驗(yàn)。
3.計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和概率值。觀測(cè)值即為根據(jù)實(shí)際數(shù)據(jù)和統(tǒng)計(jì)量計(jì)算方法得到的具體數(shù)值,根據(jù)對(duì)應(yīng)的概率分布類型確定對(duì)應(yīng)的概率值。
4.給定顯著性水平,做出決策。通常進(jìn)行檢驗(yàn)假設(shè)選擇顯著性水平為0.05、0.01或0.001,顯著性水平越低,置信度就越高,結(jié)果越可靠。
在進(jìn)行假設(shè)分析時(shí),首先對(duì)待檢檢材和樣本字間距進(jìn)行方差齊性檢驗(yàn),當(dāng)兩者滿足σ1=σ2時(shí)再分析均值是否一致,如果均值檢驗(yàn)的結(jié)果也接受原假設(shè),則可以認(rèn)為檢材和樣本字間距表現(xiàn)一致的分布規(guī)律。
依據(jù)以上統(tǒng)計(jì)學(xué)原理,設(shè)計(jì)模擬實(shí)驗(yàn),并且只從字間距特征的假設(shè)檢驗(yàn)角度進(jìn)行統(tǒng)計(jì)分析。
組織10名參與者,使用白色標(biāo)準(zhǔn)A4紙和同一品牌、型號(hào)的中性筆,全部以紙張為襯墊物進(jìn)行正常書寫,書寫內(nèi)容由21個(gè)文字組成,為了保證結(jié)果的客觀并真實(shí)反映書寫人的書寫特點(diǎn),要求對(duì)書寫內(nèi)容重復(fù)書寫6遍,每個(gè)人的書寫內(nèi)容作為一個(gè)樣本共10個(gè)樣本。在10名參與者中隨機(jī)抽取一人(樣本7的書寫者),在相同條件下書寫相同內(nèi)容一遍,作為檢材。本次實(shí)驗(yàn)的目標(biāo)樣本為樣本7。
將待測(cè)筆跡文件在600dpi分辨率下掃描,首先對(duì)掃描圖片進(jìn)行二值化處理,再計(jì)算二值化圖片中組成每個(gè)字的所有像素點(diǎn)的幾何中心點(diǎn)作為文字的質(zhì)心,如圖1所示為計(jì)算部分文字質(zhì)心的處理結(jié)果,紅點(diǎn)為單字質(zhì)心坐標(biāo)點(diǎn),并會(huì)輸出該點(diǎn)在圖片中的精確坐標(biāo)。以上操作借助MATLAB計(jì)算機(jī)軟件實(shí)現(xiàn)。再使用距離公式計(jì)算相鄰字之間的距離即為相鄰字的字間距。
圖1 部分字跡質(zhì)心處理結(jié)果
實(shí)驗(yàn)樣本中每人對(duì)書寫內(nèi)容書寫了6遍,得到6組數(shù)據(jù),每組21個(gè)字形成20個(gè)字間距數(shù)據(jù),將6×20個(gè)字間距作為樣本數(shù)據(jù),同時(shí)計(jì)算出檢材的字間距,部分?jǐn)?shù)據(jù)如圖2所示。經(jīng)正態(tài)性檢驗(yàn),確認(rèn)了各組數(shù)據(jù)均為正態(tài)總體的猜想。
1.方差的假設(shè)檢驗(yàn)過程。首先進(jìn)行方差齊性檢驗(yàn)。假設(shè)顯著性水平α=0.05,檢材和樣本的方差齊。檢驗(yàn)統(tǒng)計(jì)量拒絕域?yàn)椋篧=(F≦0.55∪F≧1.82)。分別計(jì)算各個(gè)樣本與檢材的檢驗(yàn)統(tǒng)計(jì)量觀察值f,結(jié)果如表1所示:
圖2 部分實(shí)驗(yàn)數(shù)據(jù)
表1 檢驗(yàn)統(tǒng)計(jì)量F值
可以看出樣本1、4、5、10的統(tǒng)計(jì)量F值在拒絕域內(nèi),因此排除原假設(shè)H0,認(rèn)為與檢材方差不齊,直接舍去;樣本2、3、6、7、8、9的統(tǒng)計(jì)量F值在拒絕域外,因此接受原假設(shè),認(rèn)為這六組樣本方差一致。對(duì)方差一致的六組樣本再進(jìn)行均值的一致性檢驗(yàn)。
2.均值的假設(shè)檢驗(yàn)過程。假設(shè)顯著性水平α=0.05,檢材和樣本的均值一致。方差未知且相等時(shí),均值檢驗(yàn)統(tǒng)計(jì)量,拒絕域?yàn)椋篧=(∣T∣≥1.974)。 分別計(jì)算剩余樣本與檢材的均值檢驗(yàn)統(tǒng)計(jì)量觀察值T,結(jié)果如表2所示:
表2 檢驗(yàn)統(tǒng)計(jì)量T值
可以看出樣本2、6、9與檢材的均值檢驗(yàn)統(tǒng)計(jì)量T值在拒絕域內(nèi),因此排除原假設(shè),認(rèn)為均值不一致。同時(shí),認(rèn)為樣本3、7、8與檢材服從相同的正態(tài)分布。
除T檢驗(yàn)外,使用第二部分中介紹的方差分析的方法進(jìn)行均值的一致性檢驗(yàn)在樣本數(shù)量較多時(shí)更加方便,這里可以借助數(shù)據(jù)分析處理軟件SPSS進(jìn)行操作。先將數(shù)據(jù)導(dǎo)入軟件內(nèi)并進(jìn)行分組,選擇單因素方差分析,根據(jù)數(shù)據(jù)分析的需求設(shè)置好相關(guān)參數(shù)。在假設(shè)樣本方差一致時(shí),常用的分析方法有LSD法和S-N-K法,其中LSD法又叫最小顯著性差異法是比較靈敏的方法,會(huì)將所有組別的數(shù)據(jù)都進(jìn)行比較,S-N-K法是比較穩(wěn)健的方法,并且可以有效劃分相似子集。實(shí)驗(yàn)中將兩種常用方法都進(jìn)行選擇。
將與檢材方差一致的樣本數(shù)據(jù)和檢材數(shù)據(jù)導(dǎo)入SPSS軟件內(nèi),將檢材組別設(shè)為0,樣本組別設(shè)為對(duì)應(yīng)的樣本號(hào),設(shè)置顯著性水平α=0.05,勾選LSD和S-N-K兩種方法后,點(diǎn)擊確定進(jìn)行檢驗(yàn)。
方差分析的檢驗(yàn)結(jié)果如表3所示,檢驗(yàn)統(tǒng)計(jì)量F=340.443,顯著性水平sig=0.00<0.05,說明各組之間存在差異。具體的內(nèi)容如表4和表5所示。表4為L(zhǎng)SD法的檢驗(yàn)結(jié)果,可以看出所有組別的數(shù)據(jù)兩兩之間進(jìn)行了多重比較。第一部分為檢材和各樣本之間的兩兩比較,可以看出:平均值左上角帶*號(hào)的樣本3、7、8的顯著性sig值均大于0.05,認(rèn)為均值無(wú)顯著差異。表5為S-N-K法的檢驗(yàn)結(jié)果,該方法將不同樣本劃分為不同的子集,相似度高的樣本在同一子集內(nèi)。結(jié)果顯示:檢材與樣本7被劃分為一組,同時(shí)檢材和樣本3和樣本8也被劃分為一組,說明檢材和樣本3、7、8均值無(wú)顯著差異,也說明樣本3和樣本8均值一致,但卻與樣本7不一致。方差分析和T檢驗(yàn)對(duì)均值的檢驗(yàn)結(jié)果一致。
表3 方差分析結(jié)果
表4 LSD法檢驗(yàn)結(jié)果
6 0 5.80283.29800 .000 5.2178 6.3879 2 4.00817.15929 .000 3.6955 4.3209 3 5.59742.15929 .000 5.2847 5.9101 7 6.13767.15929 .000 5.8250 6.4504 8 5.64500.15929 .000 5.3323 5.9577 9 4.66492.15929 .000 4.3522 4.9776 7 LSD 0 -.33483 .29800 .262 -.9199 .2502 2 -2.12950.15929 .000 -2.4422 -1.8168 3 -.54025.15929 .001 -.8530 -.2275 6 -6.13767.15929 .000 -6.4504 -5.8250 8 -.49267.15929 .002 -.8054 -.1800 9 -1.47275.15929 .000 -1.7855 -1.1600 8 0 .15783 .29800 .597 -.4272 .7429 2 -1.63683.15929 .000 -1.9495 -1.3241 3 -.04758 .15929 .765 -.3603 .2651 6 -5.64500.15929 .000 -5.9577 -5.3323 7 .49267.15929 .002 .1800 .8054 9 -.98008.15929 .000 -1.2928 -.6674 9 0 1.13792.29800 .000 .5529 1.7229 2 -.65675.15929 .000 -.9695 -.3440 3 .93250.15929 .000 .6198 1.2452 6 -4.66492.15929 .000 -4.9776 -4.3522 7 1.47275.15929 .000 1.1600 1.7855 8 .98008.15929 .000 .6674 1.2928*.平均值差的顯著性水平 0.05。
表5 S-N-K法檢驗(yàn)結(jié)果
Student-Newman-Keuls多重比較法 12.8233 sig .109 .587 1.000 1.000 1.000 2 120 8.8152 6 120
在上述分析過程中,先對(duì)檢材和10個(gè)待檢樣本進(jìn)行方差的一致性檢驗(yàn),在顯著性水平α=0.05下,通過計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值及其拒絕域來(lái)對(duì)比檢材和樣本方差之間的差異,結(jié)果顯示在顯著性水平α=0.05下,樣本2、3、6、7、8、9與檢材方差沒有顯著差異,樣本1、4、5、10與檢材方差存在顯著差異,因此予以排除。再對(duì)和檢材方差一致的樣本進(jìn)行均值的一致性檢驗(yàn),這里有兩種方法:第一種適合雙樣本之間的兩兩比較,在顯著性水平α=0.05下,通過計(jì)算檢驗(yàn)統(tǒng)計(jì)量T值及其拒絕域來(lái)分析檢材和樣本均值的一致性,結(jié)果顯示在顯著性水平α=0.05下,樣本3、7、8與檢材均值沒有顯著差異,樣本2、6、9與檢材均值存在顯著差異,予以排除;第二種方法適合待比對(duì)樣本數(shù)量為多組時(shí)使用,借助計(jì)算機(jī)軟件SPSS來(lái)進(jìn)行,設(shè)置顯著性水平α=0.05及其他參數(shù)開始分析,常用的LSD法和S-N-K法分析結(jié)果均顯示,在顯著性水平α=0.05下,樣本3、7、8與檢材均值沒有顯著差異,樣本2、6、9與檢材均值存在顯著差異,與第一種方法的檢驗(yàn)結(jié)果一致。經(jīng)過整個(gè)統(tǒng)計(jì)分析可以看出,檢材數(shù)據(jù)和樣本3、7、8數(shù)據(jù)具有相同的分布規(guī)律,從而縮小了檢驗(yàn)鑒定的范圍,其中方差分析中S-N-K法特有的分組功能將檢材和目標(biāo)樣本(樣本7)單獨(dú)列為一組,雖直接確定兩者來(lái)自同一正態(tài)總體具有較大風(fēng)險(xiǎn),但具有一定參考意義。
字間距特征是筆跡特征之一,使用統(tǒng)計(jì)學(xué)分析方法可以很好的判斷檢材和樣本字間距特征是否具有顯著差別。這種筆跡特征的量化方法相對(duì)于傳統(tǒng)的憑借鑒定人個(gè)人經(jīng)驗(yàn)主觀認(rèn)識(shí)筆跡特征具有更加的科學(xué)、客觀和可靠的優(yōu)點(diǎn)。本文只研究了筆跡的字間距特征,若對(duì)筆跡中其他可測(cè)量的特征也使用這種方法進(jìn)行統(tǒng)計(jì)研究,可為筆跡量化檢驗(yàn)提供更多的量化依據(jù),從而為全面實(shí)現(xiàn)筆跡量化檢驗(yàn)鑒定提供更多的統(tǒng)計(jì)學(xué)方法,這有待于進(jìn)一步深入的探索研究。
[1]王相臣,胡 鑫.物證檢驗(yàn)鑒定的數(shù)學(xué)原理與方法研究[J].中國(guó)刑警學(xué)院學(xué)報(bào),2016,(3):27.
[2]許伯生,張 穎.概率論與數(shù)理統(tǒng)計(jì)[M].北京:清華大學(xué)出版社,2014:89.
[3]管 宇.實(shí)用多元統(tǒng)計(jì)分析[M].浙江:浙江大學(xué)出版社,2011:35.
A Statistical Method on Quantitative Examination of Word Spacing Feature in Handwriting
WANG Xiang-chen WANG Shuai-shuai
Word spacing feature is one of characteristics which can be measured objectively in handwriting.The comparative testing of double samples on word spacing feature can be converted to the problem of statistics theories with two-sample average and variance testing at the same time.By means of hypothesis test and variance analysis in probability theory and mathematical statistics,the experiment with small samples is made to test whether there is a significant difference between the word space features of two samples.The quantitative examination of handwriting word spacing feature is made.7 samples are excluded from the 10 samples and the target samples are retained.The feasibility of this method is proved by experiments.
handwriting;word spacing feature;quantitative examination;hypothesis test
D918.921 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-5612(2017)04-0087-07
(責(zé)任編輯:吳良培)
中國(guó)刑事警察學(xué)院研究生創(chuàng)新能力提升重點(diǎn)項(xiàng)目(2017jkf030)
2017-05-10
王相臣,(1964- ),男,黑龍江哈爾濱人,中國(guó)刑事警察學(xué)院文件檢驗(yàn)技術(shù)系主任、教授,研究方向:文件檢驗(yàn);王帥帥,(1992- ),男,河南洛陽(yáng)人,中國(guó)刑事警察學(xué)院碩士生,研究方向:文件檢驗(yàn)。