韓虹 孫鵬 王運(yùn)宏 單大國(guó)
1. 中國(guó)刑事警察學(xué)院 2. 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室
簽名字跡是最常用的身份認(rèn)證方法,確認(rèn)簽名的真實(shí)性對(duì)于防止詐騙、檢驗(yàn)文件真?zhèn)巍⑸矸輽z查有著十分重要的作用。大多數(shù)民事案件中,委托簽名字跡檢驗(yàn)鑒定的對(duì)象大部分為印章與簽名相重疊的文件,此時(shí)需要把印章與簽名分離開,以便于后續(xù)的印章真?zhèn)舞b定和簽名字跡的同一鑒定[1]。但當(dāng)簽名筆跡與其他物質(zhì)相結(jié)合時(shí),字跡常出現(xiàn)的細(xì)節(jié)特征會(huì)因?yàn)榕c其他顏色的疊加被掩蓋,從而影響特征的正常觀察,導(dǎo)致鑒定人員忽略相關(guān)特征,最終對(duì)鑒定結(jié)果判定產(chǎn)生一定的影響。因此,將印章與簽名筆跡進(jìn)行有效分離,同時(shí)盡可能的保留筆跡的細(xì)節(jié)特征是筆跡鑒定工作重要的一部分。
印章與簽名筆跡的分離實(shí)質(zhì)上是關(guān)于圖像分割的問題,面對(duì)此類問題,通常采用閾值法來(lái)達(dá)到圖像分割的目的[2]。目前基于圖像處理的印章與簽名字跡分割法主要為閾值處理,最早的閾值處理法是由Prewitt等人[3]提出的谷底最小值法,該方法將直方圖中的局部極小值作為閾值對(duì)圖像進(jìn)行分割,但經(jīng)過實(shí)驗(yàn)后發(fā)現(xiàn),該方法并不適合直方圖中雙峰間距離寬廣的圖像,同時(shí)對(duì)于單峰圖像也不適用。Ridler[4]等人雖然對(duì)該方法進(jìn)行了改進(jìn),采用迭代的方式來(lái)確定局部極小值,但其閾值確定的原理和谷底最小值法相同,且處理結(jié)果的表現(xiàn)同樣受到待處理圖像直方圖質(zhì)量的限制。而后Kapur等人[5]提出了一維最大熵方法,引入熵概念,將圖像的灰度級(jí)概率分布分為兩類,求得每一種分布的熵并對(duì)其進(jìn)行求和,選擇合適的閾值最大化兩者之和,以獲得物體和圖片背景分布之間的最大信息,從而實(shí)現(xiàn)物體與背景之間的分割。
目前使用的閾值分割方法都是直接利用圖像的灰度直方圖信息進(jìn)行閾值確定,忽略了色彩空間中印章與簽名字跡兩類數(shù)據(jù)之間的關(guān)系,導(dǎo)致閾值處理后少量簽名筆跡數(shù)據(jù)被錯(cuò)誤劃分,從而出現(xiàn)印章與筆跡無(wú)法完全分離或筆跡細(xì)節(jié)特征丟失的現(xiàn)象,最終影響簽名字跡的比對(duì)。針對(duì)上述問題,本文提出在進(jìn)行閾值處理之前,先對(duì)印章和書寫字跡的數(shù)據(jù)進(jìn)行分類,而不是直接對(duì)圖像灰度級(jí)進(jìn)行分類,然后再結(jié)合直方圖信息,選擇合適的閾值實(shí)現(xiàn)兩者之間的分割。該方法的具體流程如圖1所示。
線性判別分析是一種有監(jiān)督學(xué)習(xí)的降維技術(shù),在人臉檢測(cè)、人臉識(shí)別、目標(biāo)跟蹤和檢測(cè)中得以廣泛應(yīng)用,因?yàn)樵谶M(jìn)行模式識(shí)別過程中總是面臨著數(shù)據(jù)維數(shù)過高的問題,這些高維特征是具有相關(guān)性的或是冗余的,往往可以嵌入某個(gè)低維空間中,所以對(duì)數(shù)據(jù)進(jìn)行降維是進(jìn)行圖像處理過程中的一個(gè)重要步驟[6]。由于本文討論的問題僅限于印章和簽名字跡的兩類數(shù)據(jù),所以暫時(shí)不需要考慮對(duì)數(shù)據(jù)進(jìn)行降維,而只需要解決二分類的問題。因此,選擇使用Fisher線性判別分析來(lái)實(shí)現(xiàn)。
一張圖片中,有的顏色分量之間會(huì)呈現(xiàn)出線性相關(guān)性,而有的顏色分量之間能夠呈現(xiàn)出線性可分性[7]。對(duì)線性相關(guān)性太強(qiáng)的數(shù)據(jù)進(jìn)行Fisher線性判別很難將兩者進(jìn)行分離,經(jīng)過最終的閾值處理后仍然會(huì)呈現(xiàn)出數(shù)據(jù)被錯(cuò)誤劃分的現(xiàn)象。因此,對(duì)兩類數(shù)據(jù)進(jìn)行分類之前需要先確定適合印章數(shù)據(jù)和簽名字跡數(shù)據(jù)分離的顏色分量,減少兩類數(shù)據(jù)被錯(cuò)誤劃分的情況,達(dá)到印章和筆跡在完全分離的情況下又保留筆跡原有細(xì)節(jié)特征的要求。
圖2(a)顯示了待處理圖片的像素分布情況,可以看到,印章數(shù)據(jù)與簽名數(shù)據(jù)的B分量和G分量存在大部分重疊的現(xiàn)象,兩者具有明顯的線性相關(guān)性[8],觀察圖2(b)發(fā)現(xiàn),R和G分量的像素分布只存在少部分重疊,F(xiàn)isher線性判別分析可行性高,又因?yàn)锽分量和G分量具有高度的線性相關(guān)性,故選擇對(duì)R分量和G分量進(jìn)行數(shù)據(jù)分離。
Fisher線性判別分析通過公式(1)將數(shù)據(jù)投影到直線上,其中ω 為對(duì)兩類數(shù)據(jù)進(jìn)行分離的最佳投影向量,為實(shí)現(xiàn)印章與簽名字跡的分離,就需要使這兩類數(shù)據(jù)經(jīng)過投影后形成的新的投影點(diǎn)盡可能的遠(yuǎn),即印章數(shù)據(jù)中心 與簽名字跡數(shù)據(jù)中心 的距離最大化,而兩類數(shù)據(jù)內(nèi)部的各投影點(diǎn)距離要保持盡可能的近。因此,引入類間散度矩陣 和類內(nèi)散度矩陣Sm,通過公式(2)最大化兩者的廣義瑞利商,使得投影后印章數(shù)據(jù)與簽名字跡數(shù)據(jù)的類間散度矩陣最大且類內(nèi)散度矩陣最小。最終計(jì)算得到向量ω,如公式(3)所示:
圖2(c)是R分量和G分量經(jīng)過線性判別分析后的像素分布圖,與圖2(b)進(jìn)行對(duì)比,可以明顯看出兩類數(shù)據(jù)已被很好的分離開。在完成以上工作之后,只需要通過圖像直方圖信息確定其閾值就可以完成印章和簽名字跡分割的整個(gè)任務(wù)。
本文實(shí)驗(yàn)所用掃描儀為佳能MG2580S,文件掃描格式為PDF;所用的計(jì)算機(jī)配置為Windows 10操作系統(tǒng),CPU類型為第六代智能英特爾酷睿i5四核處理器,圖像處理編程環(huán)境為Matlab。
為保證實(shí)驗(yàn)的多樣性和可靠性,實(shí)驗(yàn)數(shù)據(jù)集按以下方法制作:首先在白紙上分別寫下“實(shí)驗(yàn)簽名”、“實(shí)驗(yàn)用字”、“筆記檢驗(yàn)”等字,將其分為A、B、C三組,每組24個(gè)樣本,對(duì)每個(gè)樣本進(jìn)行編號(hào)后進(jìn)行掃描,作為真值圖像與實(shí)驗(yàn)結(jié)果進(jìn)行比對(duì)。使用同一枚印章在制作好的筆跡樣本上進(jìn)行蓋印,確保印文與字跡有較多重疊,對(duì)蓋印后的圖片進(jìn)行掃描作為樣本,最終得到的印章簽名樣本圖像共144幅(72幅真值圖,72幅樣本),每幅圖像的大小為1800×1800。
由于本文最終是根據(jù)直方圖信息確定閾值,為了說(shuō)明本方法在分離圖像和細(xì)節(jié)保留方面的有效性,選擇同樣基于直方圖的較為經(jīng)典的谷底最小值法和一維最大熵法對(duì)樣本進(jìn)行處理,將其結(jié)果與基于線性判別分析方法進(jìn)行比對(duì)。同時(shí),引入矩陣相關(guān)系數(shù)和特征相似度(Feature Similarity,F(xiàn)SIM)對(duì)結(jié)果進(jìn)行客觀測(cè)評(píng),將評(píng)價(jià)數(shù)值繪制成折線圖,更加直觀的展示三種方法之間的優(yōu)劣,并在最后通過對(duì)評(píng)價(jià)指標(biāo)結(jié)果均值的分析證明該方法的有效性。
整個(gè)實(shí)驗(yàn)遵循控制變量原則,在相同實(shí)驗(yàn)環(huán)境下,分別使用一維最大熵法、谷底最小值法以及本文提出的基于線性判別分析的方法對(duì)原始圖像進(jìn)行處理,從三組實(shí)驗(yàn)結(jié)果中各
觀察圖3(c)列發(fā)現(xiàn),利用一維最大熵法進(jìn)行實(shí)驗(yàn)后得到的簽名字跡在筆畫粗細(xì)方面基本沒有變化,但其與印章未能實(shí)現(xiàn)完全分離。圖3(d)列的結(jié)果說(shuō)明,雖然使用谷底最小值法能夠?qū)烧叻蛛x,簽名字跡卻出現(xiàn)了筆畫變細(xì)以及偽漏白現(xiàn)象,這兩種情況對(duì)于筆跡鑒定的真實(shí)性會(huì)產(chǎn)生嚴(yán)重干擾。通過圖3(e)列可以觀察到,使用本文方法得到的簽名字跡,印章與字跡不僅能完全分離,而且分離后筆畫變細(xì)和偽漏白現(xiàn)象均得到了很好的解決。
為客觀評(píng)估提取效果,使用矩陣相關(guān)系數(shù)和FSIM對(duì)簽名字跡提取效果進(jìn)行評(píng)價(jià),并記錄其測(cè)評(píng)數(shù)據(jù)值:
1. 矩陣相關(guān)系數(shù)
計(jì)算提取的印章簽名與真值簽名的相關(guān)系數(shù),用于度量其線性相關(guān)性。其數(shù)學(xué)表達(dá)式為:
2. 特征相似度
FSIM通過計(jì)算提取簽名字跡的局部相位一致性及梯度幅值的相似度,得出加權(quán)匹配后的相似度分?jǐn)?shù),值越大說(shuō)明當(dāng)前簽名字跡越接近真值簽名字跡,其數(shù)學(xué)表達(dá)式為:
觀察圖4、圖5發(fā)現(xiàn),三種方法得到的評(píng)測(cè)值變化趨勢(shì)基本一致,但利用本文方法得到的簽名字跡的評(píng)估值始終高于另外兩種方法,且波動(dòng)更加平緩,由此可見其魯棒性更高。三種方法的評(píng)價(jià)均值詳見表1,該數(shù)據(jù)同樣表明,本文方法相較于另外兩種方法有一定程度的提高。其中,矩陣相關(guān)系數(shù)比一維最大熵法提高了6%,比谷底最小值法提高了5%;FSIM系數(shù)比一維最大熵法提高了10.2%,相對(duì)于谷底最小值法提高了10.5%。由此可見,本文提出的基于線性判別分析的印章與簽名字跡分離方法的有效性和魯棒性更高。
?
本文提出了一種基于線性判別分析實(shí)現(xiàn)印章與簽名字跡分離的方法,首先分析色彩分量之間的像素分布,找到適合分離的兩個(gè)顏色分量,經(jīng)過線性判別分析完成二分類后,通過圖像直方圖信息選擇閾值進(jìn)行處理。結(jié)果表明,該方法不僅能夠?qū)崿F(xiàn)印章與簽名字跡的完全分離,還能夠保持簽名字跡的原有特征不被破壞,比直接通過直方圖選取閾值以及直接對(duì)圖像灰度級(jí)進(jìn)行分類的效果更好。未來(lái)的工作將致力于印章與簽名字跡重疊情況下提取印章的新方法。