阿依夏木·力提甫 鄢煜塵 肖進(jìn)勝 江 昊 姚渭箐
1.武漢大學(xué)電子信息學(xué)院 武漢 430072 2.新疆師范大學(xué)物理與電子工程學(xué)院 烏魯木齊 830054 3.國(guó)網(wǎng)湖北省電力有限公司信息通信公司 武漢 430077
筆跡鑒別指的是通過手寫的文字信息鑒定書寫人身份的一種文件鑒定技術(shù).它作為機(jī)器視覺與模式識(shí)別領(lǐng)域中近幾年的研究熱點(diǎn)之一,在歷史文件分析、司法嫌疑人身份識(shí)別和古代手稿分類等方面發(fā)揮著重要作用.在過去的幾十年里,筆跡專家們大都利用機(jī)器視覺技術(shù)來研究世界上主要語(yǔ)言的筆跡鑒別問題,然而小型語(yǔ)言的存在為筆跡鑒別領(lǐng)域提供了新的研究空間[1].由于每種語(yǔ)言腳本的獨(dú)特性,各語(yǔ)種的筆跡鑒別技術(shù)略有不同.因每一種語(yǔ)言都對(duì)筆跡鑒別方法提出新的挑戰(zhàn),很難有適用于所有語(yǔ)言的通用技術(shù).本文重點(diǎn)研究維吾爾文筆跡鑒別問題,并利用現(xiàn)有的IAM[2]與Firemaker[3]標(biāo)準(zhǔn)數(shù)據(jù)集驗(yàn)證本文算法的可行性.手寫文本模式有兩種:含書寫文本的筆軌跡時(shí)間序列的在線模式和僅含書寫文本圖像的離線模式,分為在線和離線的筆跡鑒別方法[4].寫作速度、角度、筆順或壓力用于在線筆跡鑒別,而與單詞、字符、行或段落相關(guān)聯(lián)的特征用于離線筆跡鑒別.本文研究的對(duì)象即為離線筆跡鑒別方法.
當(dāng)前的離線筆跡鑒別方法根據(jù)提取特征方式的不同可分為全局特征提取方法[5-6]與局部特征提取方法[7-11].全局特征提取方法把手寫筆跡看成特殊的紋理圖像,提取能夠反映手寫文本統(tǒng)計(jì)特性的全局特征作為鑒別的依據(jù).局部特征提取方法是對(duì)筆跡圖像的局部結(jié)構(gòu)、梯度、輪廓、幾何特征等進(jìn)行特征描述,并通過編碼方式將局部特征映射到公共空間形成全局特征.以往文獻(xiàn)中提出的微結(jié)構(gòu)特征[7]局部二值模式(Local binary pattern,LBP)以及局部相位量化(Local phase quantization,LPQ)[8],尺度不變特征變換(Scale-invariant feature transform,SIFT)[9-11]和高斯混合模型(Gaussian mixed model,GMM)超向量[12]都屬于局部特征提取方法.隨著深度學(xué)習(xí)算法的廣泛推廣,基于無監(jiān)督特征學(xué)習(xí)[10]、半監(jiān)督特征學(xué)習(xí)[11]和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的筆跡鑒別[4]方法也得到了發(fā)展.對(duì)于小樣本筆跡圖片,相比于全局紋理特征,筆跡的局部結(jié)構(gòu)特征更直觀、顯著、穩(wěn)定.因此,近年來大量的研究集中在基于局部結(jié)構(gòu)特征的筆跡鑒別方法上,基于碼本[13-15]的筆跡特征提取是其中較重要的關(guān)注點(diǎn).本文提出的方法是基于局部結(jié)構(gòu)特征生成碼本的方法,其主要思路是從兩份筆跡文本中提取書寫不變模式組成碼本,然后通過提取每一個(gè)碼本成員的局部特征形成全局特征.
計(jì)算機(jī)筆跡鑒別根據(jù)測(cè)試對(duì)象和特征提取的方法分為兩大類:文本獨(dú)立方法與文本依存方法.文本依存方法要求參考樣本與測(cè)試樣本的書寫內(nèi)容相同,并且主要依靠?jī)?nèi)容相同的子圖像進(jìn)行比較.雖然此種方法的鑒別準(zhǔn)確率很高,但是在實(shí)踐中基于固定文本的筆跡鑒別有一定的局限性.在文本獨(dú)立的筆跡鑒別方法中樣本的書寫內(nèi)容不受限制,比文本依存方法更具有廣泛的應(yīng)用前景.但是文本獨(dú)立方法的鑒別準(zhǔn)確性不高,并需要大量的訓(xùn)練樣本.本文有效結(jié)合文本依存和文本獨(dú)立兩種方法的優(yōu)點(diǎn),提出了一種基于混合碼本與因子分析的文本獨(dú)立筆跡鑒別算法.文中首先從二值化的原始筆跡圖像提取子圖像并用描述符標(biāo)注,引入了混合碼本的概念;然后采用方向指數(shù)直方圖法(Directional index histogram,DIH)和距離變換法(Distance transformation,DT)提取所有子圖像的特征,計(jì)算參考樣本與測(cè)試樣本中具有相同描述符的子圖像之間的距離.前期處理過程是典型的文本依存方法,然而本文關(guān)注的重點(diǎn)不在于子圖像的內(nèi)容,描述符只是為了快速檢索相同內(nèi)容的碼本成員.最后通過統(tǒng)計(jì)學(xué)中的雙因子方差分析法
(Two way analysis of variance,TW-ANOVA),把影響鑒別精度的因素分為書寫因子與字符因子,利用因子分離方法實(shí)現(xiàn)了文本獨(dú)立的筆跡鑒別分類器.在分類決策層,利用特征融合與多分類器組合的方式提高筆跡鑒別準(zhǔn)確率.在維吾爾文2016 數(shù)據(jù)集、標(biāo)準(zhǔn)的IAM 與Firemaker 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文的方法只需要極少的筆跡信息就能得到較好的鑒別結(jié)果,算法運(yùn)行時(shí)間短,并且相關(guān)技術(shù)可以應(yīng)用于其他語(yǔ)種的筆跡鑒別,具有良好的應(yīng)用前景和推廣價(jià)值.
本文其余部分的安排如下:第1 節(jié)為相關(guān)領(lǐng)域的研究現(xiàn)狀.第2 節(jié)詳細(xì)描述了基于混合碼本與因子分析的文本獨(dú)立筆跡鑒別算法的流程.第3 節(jié)給出了在維吾爾文2016數(shù)據(jù)集以及兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析.第4 節(jié)給出了結(jié)論與展望.
如前所述,筆跡鑒別需要提取特定于書寫人的筆跡特征;文本獨(dú)立的筆跡特征大致可分為兩類:基于紋理的全局特征和基于圖形的局部特征.考慮到本文提取的筆跡特征屬于局部特征提取方法,結(jié)合維吾爾文及類似文字的特點(diǎn),我們將重點(diǎn)放在相關(guān)語(yǔ)言筆跡鑒別研究中表現(xiàn)良好的研究方法.在過去的十年中,深度學(xué)習(xí)技術(shù)成功地應(yīng)用于包括筆跡鑒別在內(nèi)的許多識(shí)別任務(wù)中.自從深度學(xué)習(xí)算法成功地應(yīng)用于從筆跡數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,以往的基于手工特征的算法被稱為傳統(tǒng)的筆跡鑒別方法.
早期文獻(xiàn)[7]提出了從筆跡輪廓鏈碼中提取的微結(jié)構(gòu)特征用于筆跡識(shí)別,但微結(jié)構(gòu)特征要從由足夠篇幅的整篇文本的筆跡樣本上提取,需要的樣本字?jǐn)?shù)相對(duì)較多,不適合實(shí)際應(yīng)用.隨后,紋理描述方面的算法以其快速提取紋理特征以及計(jì)算速度快等方面的優(yōu)勢(shì)開始普遍應(yīng)用.其中,LBP 是一種灰度和旋轉(zhuǎn)不變的紋理描述符,LPQ 在處理模糊紋理方面表現(xiàn)出很強(qiáng)的魯棒性,并且在紋理分類方面優(yōu)于LBP[8].文獻(xiàn)[8]提出了基于LBP 與LPQ 的紋理描述符提取組合紋理特征的方法,并使用相異特征向量來訓(xùn)練支持向量機(jī)(Support vector machine,SVM)分類器.該方法不僅解決了基于相異度的筆跡鑒別方法中存在的問題,還證明了相異度方法優(yōu)于經(jīng)典的分類方法.鑒于局部紋理描述符在紋理分類問題中的有效性和小書寫片段在描述書寫風(fēng)格時(shí)的高鑒別能力,文獻(xiàn)[16]提出了基于三種紋理描述符,即LBP、LPQ 以及局部三元模式(Local ternary pattern,LTP)的筆跡鑒別方法.雖然文獻(xiàn)[8]和文獻(xiàn)[16]獲得了比較理想的筆跡鑒別效果,但是需要提取大量的書寫片段,由于各種筆跡具有豐富的特征,導(dǎo)致書寫片段之間存在局部特征相似性,從而造成的記憶限制.為解決此類問題,文獻(xiàn)[6]提出了一種使用袋裝離散余弦變換描述符的筆跡鑒別系統(tǒng),離散余弦變換系數(shù)通常對(duì)書寫或掃描過程中可能發(fā)生的失真具有魯棒性.
SIFT 或類似SIFT 的描述符是局部特征提取方法中最常見的一種,典型的SIFT 詞袋模型[17]已經(jīng)在文獻(xiàn)[9,18-19]中有所應(yīng)用.SIFT 描述符在圖像檢索以及圖像取證相關(guān)領(lǐng)域[12]有著強(qiáng)大的功能,但需要組合能力強(qiáng)的編碼方式.SIFT類研究工作中,文獻(xiàn)[9]通過計(jì)算不同筆跡的SIFT 特征,使用K 均值進(jìn)行聚類搭建了詞袋模型.在此基礎(chǔ)上,文獻(xiàn)[18]先用各向同性對(duì)數(shù)濾波器把手寫圖像分割成單詞區(qū)域,然后提取SIFT 特征以及相應(yīng)的尺度和方向特征.文獻(xiàn)[19]進(jìn)一步提出了從圖像中提取的一組SIFT 描述符進(jìn)行聚類來構(gòu)建局部紋理模式的碼本,然后使用輪廓方向特征和SIFT 描述符細(xì)化候選列表的文本獨(dú)立分類器.文獻(xiàn)[12]使用在腳本輪廓處密集計(jì)算的RootSIFT 描述符,并將GMM 超向量用作筆跡特征的編碼方法.該文使用樣本SVM 來訓(xùn)練特定于文檔的相似性度量,擴(kuò)展了文獻(xiàn)[19]的工作.文獻(xiàn)[20]將SIFT 和RootSIFT 描述符結(jié)合在一起組成了GMM,通過加權(quán)直方圖的評(píng)估,獲得了很高的筆跡鑒別準(zhǔn)確率.
最近幾年來,在提取局部結(jié)構(gòu)特征方面也利用基于碼本的筆跡鑒別算法.文獻(xiàn)[13]提取的碼本更注重子圖像的方向和曲率特征,并證明在預(yù)處理的過程中筆跡圖像有任何形狀變化會(huì)對(duì)鑒別準(zhǔn)確率引起比較大的影響.文獻(xiàn)[14]使用兩種有效的輪廓碼提取方法,但對(duì)于子圖像的切分要求比較嚴(yán)格.文獻(xiàn)[15]提出的集成碼本具有多個(gè)不同大小的碼本,類似于文獻(xiàn)[14]的字符碎片碼本,計(jì)算復(fù)雜度比較高.本文深入研究各語(yǔ)種文字的結(jié)構(gòu)特征,提出了基于筆跡書寫結(jié)構(gòu)切分子圖像的碼本特征.在預(yù)處理階段,高頻模式的切分工作不受窗口大小和形狀變換的影響,并且需要提取的代碼數(shù)量遠(yuǎn)比以上文獻(xiàn)少.在測(cè)試階段使用簡(jiǎn)單易行的兩種傳統(tǒng)特征提取方法,計(jì)算量相對(duì)較少,更重要的是書寫人數(shù)的增多對(duì)實(shí)驗(yàn)結(jié)果的影響較不明顯.當(dāng)書寫人數(shù)量增加時(shí),本文算法有較強(qiáng)的魯棒性.
總之,雖然上述文獻(xiàn)提及的SIFT 類描述符、離散余弦變換描述符以及其他類型的描述符都可以進(jìn)行筆跡鑒別,但是比較適合用于測(cè)試樣本上的字?jǐn)?shù)較多的筆跡鑒別任務(wù)中.在實(shí)際應(yīng)用中,經(jīng)常會(huì)面臨內(nèi)容不受限制以及樣本字?jǐn)?shù)相對(duì)較少的情況.本文算法在預(yù)處理、子圖像切分、特征提取等各個(gè)方面有一定的優(yōu)勢(shì),具有一定的參考價(jià)值和可比性.
如前所述,手工特征很難做出定義,并且特征提取過程比較復(fù)雜.傳統(tǒng)的監(jiān)督學(xué)習(xí)需要大量的標(biāo)號(hào)樣本,而無監(jiān)督的學(xué)習(xí)方法僅僅使用無標(biāo)號(hào)樣本.在文獻(xiàn)[10]中提出的是以無監(jiān)督的方式學(xué)習(xí)深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural network,DCNN)的激活特征方法.半監(jiān)督學(xué)習(xí)即從有標(biāo)號(hào)樣本和無標(biāo)號(hào)樣本中學(xué)習(xí).近年來,基于神經(jīng)網(wǎng)絡(luò)的技術(shù)也已應(yīng)用于筆跡鑒別方面[21-22].這些技術(shù)利用CNN 的優(yōu)點(diǎn)來解決自動(dòng)特征提取的問題.對(duì)筆跡鑒別任務(wù),文獻(xiàn)[22]采用了CNN 作為局部特征提取器.該方法需要對(duì)圖像進(jìn)行二值化和歸一化預(yù)處理,因此其性能取決于數(shù)據(jù)庫(kù)和預(yù)處理方法.文獻(xiàn)[21]提出了另一種策略:在從CNN 提取局部特征后,它們被用于基于GMM 超矢量編碼形成全局特征.這種組合方法比文獻(xiàn)[22]提出的方法表現(xiàn)得更好.然而,文獻(xiàn)[21]和文獻(xiàn)[22]有兩個(gè)獨(dú)立的訓(xùn)練步驟:特征提取和編碼,其中CNN 預(yù)先訓(xùn)練用于提取局部特征.也就是說,在訓(xùn)練和編碼的第2 步中,預(yù)先訓(xùn)練的CNN 系統(tǒng)是固定的,沒有更新,降低了整個(gè)系統(tǒng)的性能.因此,文獻(xiàn)[4]使用端到端的神經(jīng)網(wǎng)絡(luò)進(jìn)行筆跡鑒別,其中基于CNN 的特征提取器和基于神經(jīng)網(wǎng)絡(luò)的分類器連接并一起訓(xùn)練.雖然深度學(xué)習(xí)(Deep learning,DL)算法實(shí)現(xiàn)了自動(dòng)學(xué)習(xí)筆跡特征的優(yōu)勢(shì),但其網(wǎng)絡(luò)結(jié)構(gòu)龐大,訓(xùn)練權(quán)值多,因此需要海量的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,通常需要大量帶注釋的訓(xùn)練數(shù)據(jù).現(xiàn)實(shí)應(yīng)用中受存儲(chǔ)空間、獲取樣本時(shí)間等限制,往往存在訓(xùn)練樣本不足的問題,這將直接影響識(shí)別的準(zhǔn)確率.
本文基于DIH 和DT 等經(jīng)典算法,分別提取紋理特征和結(jié)構(gòu)特征,實(shí)現(xiàn)過程簡(jiǎn)單易行,不需要大量的訓(xùn)練樣本,對(duì)設(shè)備的要求不高,不易受到樣本數(shù)量的影響.本文為了提高筆跡鑒別效率,采取了紋理特征和結(jié)構(gòu)特征的組合分類措施[23],尤其是在樣本字?jǐn)?shù)較少,內(nèi)容不受限制的場(chǎng)合更能體現(xiàn)本文系統(tǒng)的優(yōu)越性,與深度學(xué)習(xí)方法以及以往的研究方法相比,筆跡鑒別性能有著可比性.
現(xiàn)有的大多數(shù)手寫筆跡鑒別系統(tǒng)使用統(tǒng)計(jì)或基于模型的方法確認(rèn)書寫人身份.本文提出一種將混合碼本模型和TW-ANOVA[24]相結(jié)合的方法進(jìn)一步提高鑒別性能,其流程如圖1所示.
圖1 混合碼本生成與因子分析的總流程圖Fig.1 The overall flow chart of proposed method
此流程圖主要包括三個(gè)部分:混合碼本生成、特征提取和因子分析.我們的筆跡鑒別系統(tǒng)分別由預(yù)處理軟件和測(cè)試軟件組成,其中生成碼本部分利用預(yù)處理軟件實(shí)現(xiàn),特征提取、因子分離以及分類決策過程通過測(cè)試軟件實(shí)現(xiàn).
我們首先把所有掃描好的筆跡樣本分成兩大組:參考樣本和測(cè)試樣本.在混合碼本生成部分,先對(duì)所有筆跡樣本進(jìn)行黑白化、去除各種噪聲、行線以及格線變成二值圖像:然后根據(jù)特定語(yǔ)言的書寫特點(diǎn)提取高頻子圖像,并歸一化后用描述符標(biāo)注變成代碼,建立書寫人的碼本.子圖像的切分是整個(gè)筆跡鑒別系統(tǒng)的基礎(chǔ),標(biāo)注是為了便于檢索,選擇子圖像與標(biāo)注方法將在第2.1 節(jié)描述.在特征提取層,先把所有的碼本用于建立一個(gè)參考庫(kù),然后利用數(shù)據(jù)挖掘技術(shù)檢索具有相同描述符的代碼:對(duì)于描述符匹配的子圖像分別采用加權(quán)的方向指數(shù)直方圖法和距離變換法提取特征并計(jì)算特征距離,相關(guān)內(nèi)容將在第2.2 節(jié)介紹.在因子分析部分,先把影響識(shí)別精度的因素分為書寫因子和字符因子,對(duì)碼本中的每個(gè)書寫模式進(jìn)行雙因子方差分析(TW-ANOVA),然后濾除字符因素,得到只保留書寫因素的文本獨(dú)立筆跡分類器,經(jīng)過特征融合得到書寫人排序,相關(guān)內(nèi)容將在第2.3 節(jié)介紹.
現(xiàn)代維吾爾語(yǔ)是從右向左水平書寫的規(guī)范性書面語(yǔ)言,維吾爾文書寫系統(tǒng)最顯著的特點(diǎn)是每個(gè)字母有2~6 種書寫形式,這些字母根據(jù)單詞中的位置有不同的寫法,如圖2所示.我們通過兩個(gè)維吾爾文單詞描述子圖像的選擇過程,虛線框所示的為相同子圖像.
圖2 子圖像的提取方法Fig.2 Sub-image extraction method
每個(gè)子圖像可以作為一個(gè)代碼,手寫文本上的高頻模式無論它是單詞、字母、前綴、后綴還是中綴,只要易于切分都可以被選取,所以稱之為混合碼本.從手寫圖像上切分的每一個(gè)子圖像都非常重要,我們除了注重選擇具有代表意義的高頻模式,還要盡量提取冗余子圖像增加相同子圖像的匹配概率.與以前類似的方法不同的是我們提取的子圖像經(jīng)過標(biāo)注環(huán)節(jié)包含一定的語(yǔ)義信息,這樣才能夠快速檢索相同子圖像.顯然,建立碼本的過程類似于文本依存的筆跡鑒別方法,它不僅適合于維吾爾文的書寫特點(diǎn),還可以推廣到其他語(yǔ)種.考慮到IAM 和Firemaker 等英文數(shù)據(jù)集上手寫字符數(shù)量少以及內(nèi)容不受限制等因素,我們采用的提取代碼方法類似于維吾爾文2016 數(shù)據(jù)集.所有的子圖像將組成書寫人的碼本,它是手寫圖像的關(guān)鍵因素,因?yàn)樗軌蛴行У卮碓紨?shù)據(jù).
在我們的系統(tǒng)中可以用三種方式進(jìn)行子圖像的切分和提取,分別包括矩形框、曲線框和全自動(dòng)分割框.每個(gè)子圖像的大小不一樣,利用細(xì)化算法將它們歸一化為固定64×64大小的矩陣,以確保書寫工具的獨(dú)立性.經(jīng)過歸一化處理的子圖像才會(huì)變成碼本上的一個(gè)代碼,如圖3所示.圖3 顯示了本文提出混合碼本的生成過程,包括從原始筆跡 圖像提取子圖像、標(biāo)注以及代碼本的生成過程.
圖3 碼本的生成過程Fig.3 The generation process of codebook
文本依存的筆跡鑒別方法是依靠從參考樣本與測(cè)試樣本選取的幾組相同子圖像獲得良好的識(shí)別結(jié)果.本文從識(shí)別精度、驗(yàn)證錯(cuò)誤率、穩(wěn)定性和計(jì)算速度等方面比較了典型的幾種方法,選擇了加權(quán)方向指數(shù)直方圖法(Weighted direction index histogram,WDIH)和DT[25].實(shí)驗(yàn)表明,DIH 法的計(jì)算速度與字符的筆畫點(diǎn)數(shù)成正比的,是一種鑒別正確率高、計(jì)算速度快的鑒別方法.DT 匹配法雖然對(duì)相近模式的辨別能力不是很強(qiáng),但同時(shí)也不容易把相近模式排除掉,因此實(shí)驗(yàn)結(jié)果表現(xiàn)為驗(yàn)證錯(cuò)誤率較低.這兩種方法的組合能夠提高筆跡鑒別系統(tǒng)的識(shí)別率,同時(shí)能夠保證系統(tǒng)的魯棒性.
2.2.1 加權(quán)方向指數(shù)直方圖法(WDIH)
這是一種考慮輸入圖像的形狀提取子圖像網(wǎng)格特征的模板匹配方法[26].這種方法首先把輸入圖像均勻劃分成8×8個(gè)網(wǎng)格,然后把每一個(gè)網(wǎng)格又分成 8×8 塊子區(qū)域計(jì)算四個(gè)方向上的輪廓點(diǎn)數(shù),得到輸入圖像的 8×8 個(gè)四維直方圖nijk,其中,i,j=1,2,···,8 表示網(wǎng)格位置,k=0,1,2,3表示方向,獲得的直方圖反映了子區(qū)域中的輪廓形狀.文中確定局部筆劃方向的方法為:當(dāng)輪廓點(diǎn)有一個(gè)四鄰域點(diǎn)為零時(shí),以該鄰域點(diǎn)相對(duì)當(dāng)前輪廓點(diǎn)方向的垂直方向作為筆劃方向.當(dāng)輪廓點(diǎn)有兩個(gè)四鄰域點(diǎn)為零時(shí),若這兩個(gè)鄰域是連通的,以它們的聯(lián)機(jī)方向作為筆劃方向,否則以它們聯(lián)機(jī)的垂直方向作為筆劃方向.若輪廓點(diǎn)有三個(gè)四鄰域點(diǎn)為零,則以不為零的那個(gè)鄰域點(diǎn)相對(duì)當(dāng)前輪廓點(diǎn)方向的垂直方向作為筆劃方向,四個(gè)鄰域點(diǎn)都等于零的情況則不予考慮.然后,使用均方差σ2=40 的高斯函數(shù)對(duì)nijk在 8×8 的網(wǎng)格平面上進(jìn)行空間平滑,同時(shí)采樣4×4個(gè)點(diǎn)的值作為特征,鏈碼生成 4×4×4=64 位特征向量,計(jì)算式為
式中,(xu,yv)表示采樣點(diǎn)在字符圖像中的坐標(biāo),(xi,yj)是 8×8 網(wǎng)格中心點(diǎn)的坐標(biāo),且u,v=0,1,2,3. 得到64位特征矢量f后,計(jì)算子圖像之間的距離度量d(f1,f2)并進(jìn)行書寫人識(shí)別.
下面舉例說明WDIH 特征的提取過程,如圖4所示.圖4 中輸入的子圖像是單詞“the”,首先將原始圖像均勻劃分成 8×8 個(gè)網(wǎng)格,取出一個(gè)網(wǎng)格又分成 8×8 塊子區(qū)域,并計(jì)算4 個(gè)方向上的輪廓點(diǎn)數(shù)生成方向指數(shù)直方圖,每個(gè)子圖像總共有 8×8×4 位方向指數(shù)直方圖,采樣4×4點(diǎn)后只剩下 4×4 個(gè)矩陣對(duì)應(yīng)的點(diǎn),并且只需要計(jì)算采樣點(diǎn)的值.圖4(a)中被圓圈包圍的子區(qū)域根據(jù)WDIH的特征提取規(guī)則畫出了圖4(b)中的輪廓跟蹤圖,其四個(gè)方向上的方向指數(shù)直方圖模型如圖4(c)所示.
圖4 單詞“the” 的加權(quán)方向指數(shù)直方圖Fig.4 Weighted direction index histogram of“the”
2.2.2 距離變換法(DT)
距離變換是用領(lǐng)域點(diǎn)的距離變換值來更新當(dāng)前點(diǎn)的距離值[25],領(lǐng)域是一個(gè)移動(dòng)的k×k窗口,若領(lǐng)域點(diǎn)的值加上一個(gè)權(quán)值小于窗口中心點(diǎn)的值,則用這個(gè)值更新中心點(diǎn)的距離值.對(duì)于街區(qū)距離,當(dāng)權(quán)值分別為a= 3,b= 4 時(shí),3×3窗口接近歐氏距離,變換后的距離值大約是實(shí)際值的三倍.例如,圖5所示的是數(shù)字6 及其DT 圖,其中3×3窗口網(wǎng)格中的值是相應(yīng)位置的權(quán)值.
圖5 數(shù)字“6” 的距離變換Fig.5 Distance transformation of number“6”
設(shè)兩幅圖像分別表示為f(x,y),g(x,y),并且g(x,y)的距離變換表示為gd(x,y),則兩個(gè)圖像之間的距離為
式中,Nf是圖像f中的黑點(diǎn)數(shù)量,匹配距離與方向無關(guān),用同樣的方法可以計(jì)算Dgf.
筆跡鑒別過程中單一分類器可能存在片面性,通過組合幾種分類器可以提高分類的穩(wěn)定性和準(zhǔn)確性.文中通過方向指數(shù)直方圖法和街區(qū)距離變換法的串聯(lián)組合模式進(jìn)行分類,因?yàn)榉较蛑笖?shù)直方圖法的特征才64 位,可以在盡量不遺漏疑似筆跡的情況下,先剔除大部分相似度較大的筆跡樣本,之后利用街區(qū)距離變換法對(duì)剩余的筆跡進(jìn)行分類鑒別.這樣才能盡可能地提高鑒別速度.分類器的組合算法比較多,本文采用最高序號(hào)法作為多分類器組合鑒別的決策策略,把計(jì)算出來的距離值按照與檢驗(yàn)筆跡的相似程度從高到底的序列排序.
本節(jié)分析因子分離的理論基礎(chǔ)[24],通過實(shí)驗(yàn)數(shù)據(jù)和分析驗(yàn)證因子分離的必要性和優(yōu)越性,因子分離過程是文本依存與文本獨(dú)立分類器的結(jié)合點(diǎn)和切換過程.
2.3.1 特征距離的影響因子分析
2.3.2 特征距離的雙因子顯著性假設(shè)實(shí)驗(yàn)
選取由11(N= 11)人書寫的21 個(gè)不同的單詞,共計(jì)210(M= 210)個(gè)字符,去除諸如斑點(diǎn)和網(wǎng)格線的噪聲之后,獲得歸一化的字符圖像,如圖6所示.圖6 左列為一列機(jī)打單詞,書寫人根據(jù)行頭的單詞抄寫 10 次即可;圖6上方一行數(shù)字表示單詞的編號(hào).
圖6 方差分析筆跡圖像Fig.6 Handwriting image of variance analysis
這里可以通過提取所有子圖像的方向指數(shù)特征和距離變換特征并計(jì)算特征距離來獲得方差分析結(jié)果,表1 顯示了雙因子方差分析實(shí)驗(yàn)需要的變量和公式,表2 顯示了兩種方法的實(shí)驗(yàn)結(jié)果.
表1 雙因子方差分析(TW-ANOVA)指示表Table 1 Two way analysis of variance instruction table
表2 加權(quán)方向指數(shù)直方圖法/距離變換法的TW-ANOVA 結(jié)果Table 2 Results of WDIH/DT method of TW-ANOVA
對(duì)于自由度分別為(10,2 090)和(209,2 090)的F 分布可以觀察不同α水平上的值,α與Fα(10,2 090)以及α與Fα(209,2 090)之間的關(guān)系如圖7所示.
圖7 α 與 Fα(10,2 090)和 Fα(209,2 090)之間的關(guān)系Fig.7 The relationship between α and Fα(10,2 090)and Fα(209,2 090)
為了驗(yàn)證本文算法,并與之前的研究工作進(jìn)行比較,文中使用了維吾爾文2016 數(shù)據(jù)集、英文 Firemaker 和IAM手寫文本數(shù)據(jù)集.
1)維吾爾文 2016 數(shù)據(jù)集.此數(shù)據(jù)集是由本文作者收集的維吾爾文數(shù)據(jù)集.為了收集符合研究要求的維吾爾文筆跡樣本,作者組織180 名年齡在15~70 歲之間的維吾爾民族人,并按照指定的20 個(gè)題目,在 A4 紙上隨意書寫字?jǐn)?shù)不少于50 個(gè)單詞的兩頁(yè)文字,每一份樣本分別以300 dpi的分辨率掃描,分配唯一的文件名,并以 256 灰度級(jí)及BMP格式存儲(chǔ)文件建立數(shù)據(jù)集,后來此數(shù)據(jù)集命名為維吾爾文2016數(shù)據(jù)集.該數(shù)據(jù)集的書寫人性別、年齡比例相等,包括各種教育背景的人,書寫內(nèi)容相對(duì)全面、接近于真實(shí)場(chǎng)景,基本滿足論文需求.測(cè)試過程中,把同一作者提供的兩頁(yè)文字分成兩組,分別用于訓(xùn)練和測(cè)試.
2)IAM 數(shù)據(jù)集.IAM 數(shù)據(jù)集是在手寫識(shí)別和書寫者識(shí)別等問題上最著名和廣泛使用的英文數(shù)據(jù)集之一.它包括一些300 dpi、8 位/像素灰度、內(nèi)容各異的手寫英文文本,此數(shù)據(jù)集共包括657 名作者的手稿,其中356 名作者只有一頁(yè),301 名作者至少有兩頁(yè),125 名作者至少有四頁(yè).對(duì)于包括兩頁(yè)及以上文字的樣本只保留前兩頁(yè),第1 頁(yè)用于訓(xùn)練/驗(yàn)證,第2 頁(yè)用于測(cè)試.對(duì)于只提供一頁(yè)字的作者來說,所提供的頁(yè)面大致分為兩半:前半部分用于訓(xùn)練/驗(yàn)證,后半部分用于測(cè)試.因此,356 名作者有半頁(yè)紙,其他301名作者有一頁(yè)紙用于訓(xùn)練/驗(yàn)證.
3)Firemaker 數(shù)據(jù)集.對(duì)于250 名書寫人提供的Firemaker 數(shù)據(jù)集,包括根據(jù)不同的需求收集的四個(gè)子集.本文只使用其中的第1 個(gè)子集,該子集包含使用普通手寫的文本復(fù)制頁(yè)面,每位書寫人只提供了一份樣本.同樣在我們的實(shí)驗(yàn) 中該頁(yè)面被分為兩部分,分別用作參考樣本和測(cè)試樣本.
這部分通過設(shè)計(jì)兩種實(shí)驗(yàn),分別測(cè)試代碼數(shù)量與書寫人數(shù)的變化對(duì)筆跡鑒別準(zhǔn)確率的影響.測(cè)試目的是確認(rèn)本文算法對(duì)于代碼數(shù)量的最低要求以及書寫人數(shù)的增多對(duì)鑒別精度的影響.
3.1.1 代碼數(shù)量對(duì)鑒別精度的影響實(shí)驗(yàn)
我們對(duì)來自 IAM 數(shù)據(jù)集中貢獻(xiàn)了至少兩頁(yè)的 180 名作者進(jìn)行了代碼數(shù)量對(duì)筆跡鑒別準(zhǔn)確率的影響實(shí)驗(yàn).從每一份樣本提取的代碼數(shù)量從 3 增加到 70 時(shí),參考樣本與測(cè)試樣本之間的相同子圖像數(shù)量從 0 增加到 33 ,實(shí)驗(yàn)結(jié)果如圖8所示.
圖8 子圖像數(shù)量與鑒別準(zhǔn)確率之間的關(guān)系Fig.8 Relationship between number of codes and identification accuracy
圖8 中以 WDIH 代表加權(quán)方向指數(shù)直方圖法,DT 代表距離變換法,這里TOP-1,TOP-5 分別代表1 候選和5候選書寫人.從圖8 可見,憑借從參考樣本提出來的3~5個(gè)子圖像仍然可以確定書寫人的身份,但是當(dāng)子圖像的數(shù)量大約達(dá)到 25 幅時(shí),基于子圖像的書寫人識(shí)別率相對(duì)穩(wěn)定.此外,與兩種特征提取算法相比,WDIH 方法的性能對(duì)子圖像的數(shù)量更加敏感:比起單一的算法兩種方法的結(jié)合可以有效提高筆跡鑒別準(zhǔn)確率.
3.1.2 書寫人數(shù)對(duì)鑒別精度的影響實(shí)驗(yàn)
假設(shè)從每份樣本大約提取 50 幅子圖像,并且把IAM數(shù)據(jù)集上的書寫人數(shù)量從 10 逐漸增加到 650 人時(shí),可以獲得如圖9所示的實(shí)驗(yàn)結(jié)果.
圖9 書寫人數(shù)量與鑒別準(zhǔn)確率之間的關(guān)系Fig.9 Identification accuracy with different number of writers
筆跡識(shí)別率隨著書寫人數(shù)量的增加持續(xù)下降,當(dāng)人數(shù)從10 人增加到650 人時(shí),三種方法的TOP-1 識(shí)別率從100%分別降到82%,83%和93%.在650 名書寫人的條件下,TOP-5 的表現(xiàn)比TOP-1 穩(wěn)定很多,分別下降到88%,89%和95%,相比于TOP-1 的鑒別率分別高于6%,6%和2%.對(duì)于兩個(gè)分類器的組合模式,雖然同樣隨著書寫人數(shù)量的增加而出現(xiàn)了下降的趨勢(shì),但是與單分類器相比,其鑒別性能顯著高于單個(gè)分類器,并且保持相對(duì)穩(wěn)定的值.
以上實(shí)驗(yàn)結(jié)果表明,筆跡鑒別精度很大程度上由子圖像數(shù)量與書寫人數(shù)等兩個(gè)因素決定.圖8 顯示書寫人數(shù)固定為 180 人時(shí)通過逐漸增多代碼數(shù)量的方法提高了鑒別準(zhǔn)確率.當(dāng)從每一份樣本提取的子圖像數(shù)量大概為 30~70 個(gè)時(shí),能夠保證系統(tǒng)的魯棒性,有效降低人數(shù)對(duì)于鑒別精度的影響.同樣,當(dāng)書寫人數(shù)為 650 人時(shí),若子圖像數(shù)量從50幅增加到 70~100 幅,系統(tǒng)的鑒別準(zhǔn)確率則有很大的提升空間.
根據(jù)第 3.1 節(jié)的參數(shù),本節(jié)將展示維吾爾文 2016 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.將維吾爾文數(shù)據(jù)集中的 180 份樣本人為地分成兩份筆跡,一份作為參考樣本,另一份是用于測(cè)試樣本.如上所述,為了確保測(cè)試樣本與參考樣本之間一定數(shù)量的相同子圖像,本文通過碼本中的冗余模式提高代碼之間的匹配率.因此,我們先從每個(gè)樣本中隨機(jī)提取 30~40 個(gè)子圖像生成碼本進(jìn)行測(cè)試,然后根據(jù)每份樣本的性能逐漸增加提取的子圖像數(shù)量.可見,每一份樣本的碼本包括很多冗余信息,只有參考碼本中的一部分代碼跟測(cè)試碼本上的某些代碼匹配參與測(cè)試.維吾爾文 2016 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖10所示,由圖可見代碼數(shù)量與筆跡識(shí)別率之間的關(guān)系,當(dāng)從參考樣本提取的混合子圖像數(shù)量達(dá)到70 幅時(shí),系統(tǒng)內(nèi)部代碼的實(shí)際匹配對(duì)會(huì)達(dá)到 20~25 個(gè),筆跡鑒別準(zhǔn)確率達(dá)到理想值并且保持相對(duì)穩(wěn)定.當(dāng)子圖像數(shù)量達(dá)到 100 個(gè)時(shí),系統(tǒng)的TOP-1 鑒別準(zhǔn)確率會(huì)達(dá)到100%,特征提取和測(cè)試過程大概需要 10~15 s.
圖10 維吾爾文2016 數(shù)據(jù)集的性能示意圖Fig.10 Performance on Uyghur2016 dataset
本小節(jié)對(duì)現(xiàn)有的一些筆跡鑒別技術(shù)進(jìn)行比較.本文使用應(yīng)用最為廣泛的兩種公開數(shù)據(jù)集IAM 和Firemaker 作為測(cè)試數(shù)據(jù)集.為了評(píng)估模型的魯棒性與泛化能力,將廣泛應(yīng)用于筆跡檢索任務(wù)中的評(píng)估標(biāo)準(zhǔn)有平均準(zhǔn)確率均值(Mean average precision,mAP),Soft TOP-k(TOP-k),HardTOP-k等幾種方法[11].此外,測(cè)試方法也有比較典型的幾種對(duì)比策略:一對(duì)一對(duì)比、成對(duì)對(duì)比[14]以及相異特征對(duì)比[8,16]等,其中一對(duì)一的對(duì)比法比較廣泛應(yīng)用.為了與其他文獻(xiàn)保持一致,本文測(cè)試過程采用一對(duì)一的對(duì)比策略,使用TOP-k標(biāo)準(zhǔn)用于鑒別任務(wù)中.測(cè)試過程仍然先從每個(gè)樣本中隨機(jī)抽取約 20 幅子圖像進(jìn)行測(cè)試,然后對(duì)于鑒別失敗的樣本增加子圖像,并重新測(cè)試求平均值.在評(píng)估過程中,雖然本文方法對(duì)書寫頁(yè)面的大小和書寫字符數(shù)量的多少?zèng)]有過高的要求,但是從單個(gè)樣本中提取的子圖像數(shù)量要從 20 幅逐漸增加到 45 幅反復(fù)測(cè)試.具體測(cè)試結(jié)果見表3 和表4.表3 的結(jié)果表明,本文算法在 Firemaker 數(shù)據(jù)集上的TOP-1 效果最好,TOP-10 效果與文獻(xiàn)[18]相同,均排第一.
表3 各種方法在 Firemaker 數(shù)據(jù)集上的性能對(duì)比(%)Table 3 Performance comparison on Firemaker(%)
表4 顯示本文方法在IAM 數(shù)據(jù)集中的TOP-10 性能最好,TOP-1 性能僅次于文獻(xiàn)[6]和文獻(xiàn)[18]的結(jié)果,整體上來說效果較好.其中文獻(xiàn)[13-16]采取的建立碼本方法以及紋理描述符類似于本文的混合碼本及其描述符,對(duì)于IAM 數(shù)據(jù)集,本文結(jié)果比同類研究成果高于1.9%~6.15%.文獻(xiàn)[18]把英文 MImUnipen 數(shù)據(jù)集用作訓(xùn)練數(shù)據(jù)集,使用 IAM 和 Firemaker 作為測(cè)試數(shù)據(jù)集,而本文和其他文獻(xiàn)的訓(xùn)練和測(cè)試數(shù)據(jù)集是同一個(gè)數(shù)據(jù)集.文獻(xiàn)[6]側(cè)重研究的是系統(tǒng)的魯棒性問題,筆跡掃描質(zhì)量最佳的情況下可以獲得97.2%的TOP-1 鑒別準(zhǔn)確率,但筆跡有噪聲或者歪曲的條件下,精度會(huì)下降到92.3%,同時(shí)樣本數(shù)量增多時(shí)需要重新建立基于譜回歸的核判別分析預(yù)測(cè)模型.
表4 各種方法在 IAM 數(shù)據(jù)集上的性能對(duì)比(%)Table 4 Performance comparison on IAM dataset(%)
文獻(xiàn)[27]采取一種動(dòng)態(tài)片段加權(quán)組合規(guī)則減少不一致測(cè)試片段的影響,TOP-1 筆跡鑒別率比本文結(jié)果低1.18%.
文獻(xiàn)[28]采用局部紋理特征 LBP、LTP 和 LPQ 的最佳組合模式,得到88.3% 的 TOP-1 筆跡鑒別率,比本文結(jié)果低 9.72%.
本文提出的方法在預(yù)處理階段不受窗口大小的影響,需要切分的子圖像數(shù)量相對(duì)其他方法較少,并且書寫人數(shù)的增多對(duì)實(shí)驗(yàn)結(jié)果的影響相對(duì)較不明顯,從書寫人數(shù)量增加的魯棒性來說,本文算法有一定優(yōu)勢(shì).本文還可以通過增多子圖像數(shù)量進(jìn)一步提高鑒別精度.
為了對(duì)實(shí)驗(yàn)方法和實(shí)驗(yàn)結(jié)果進(jìn)行更進(jìn)一步對(duì)比,有必要討論本文算法在不同數(shù)據(jù)集上的性能.由表3、表4 及圖10的實(shí)驗(yàn)結(jié)果可得本文在維吾爾文2016,IAM 以及Firemaker三個(gè)數(shù)據(jù)集上的測(cè)試結(jié)果如表5所示.
表5 在三個(gè)數(shù)據(jù)集上的性能對(duì)比(%)Table 5 Performance comparisons on three datasets(%)
從表5 可見基于維吾爾文的書寫人識(shí)別結(jié)果高于IAM和 Firemaker 數(shù)據(jù)集.出現(xiàn)此結(jié)果的主要原因可以歸結(jié)為以下兩點(diǎn):首先,本文作者收集的維吾爾文數(shù)據(jù)集內(nèi)容豐富,字?jǐn)?shù)充足.維吾爾文 2016 數(shù)據(jù)集上的每一位書寫者提供了兩頁(yè)維吾爾文字,預(yù)處理階段不僅能夠快速提取高頻子圖像,而且能夠提取足夠多的高頻成分.測(cè)試階段,測(cè)試樣本與參考樣本之間標(biāo)注相同的代碼數(shù)量遠(yuǎn)比IAM 和Firemaker 數(shù)據(jù)集的高.因?yàn)橐陨嫌⑽臄?shù)據(jù)集總共包括907個(gè)人的書寫樣本,有些樣本上的字?jǐn)?shù)只有4~5 行,沒有足夠多的字符.雖然預(yù)處理過程中勉強(qiáng)提取 30~50 個(gè)子圖像,但是實(shí)際匹配率很低.另外,Firemaker 數(shù)據(jù)集上的手寫稿包含的是固定內(nèi)容,有一定的片面性.預(yù)處理階段,為了盡量選取足夠多的子圖像,大部分樣本按字母或者字母碎片提取代碼.雖然這種選擇方法能夠提高實(shí)際匹配率,但是每一個(gè)子圖像攜帶的筆跡特征極少,一定程度上影響鑒別準(zhǔn)確率.其次,本文提出的方法更適合于維吾爾文字的書寫特點(diǎn)和語(yǔ)法結(jié)構(gòu).維吾爾文中字母、單詞和音節(jié)的重復(fù)頻率比較高.對(duì)于本文算法,少數(shù)子圖像足以確定書寫人的身份.
本文提出了一種用于筆跡鑒別的混合碼本模型,為了提高相同代碼之間的匹配率,此碼本包括很多冗余的子圖像.對(duì)于已生成的碼本先利用因子分析法,濾除與子圖像內(nèi)容相關(guān)的字符因素,保留了書寫因子.然后利用加權(quán)指數(shù)直方圖法和距離變換法提取特征,在分類決策層采用了兩種方法的組合模型提高了筆跡鑒別準(zhǔn)確率.此外,本文利用荷蘭文和英文數(shù)據(jù)集對(duì)該方法進(jìn)行了評(píng)估,并深入研究了碼本大小和書寫人數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響.各類實(shí)驗(yàn)結(jié)果表明,我們提出的算法對(duì)于內(nèi)容不受限制且字?jǐn)?shù)較少的樣本是非常有效的,并且通過增加碼本中的子圖像數(shù)量,可以進(jìn)一步提高筆跡鑒別效率.與 IAM 和 Firemaker 數(shù)據(jù)集相比,在維吾爾文 2016 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果非常理想,這一結(jié)果的主要原因是維吾爾文2016 數(shù)據(jù)集上的樣本內(nèi)容豐富,并且本文算法充分利用維吾爾語(yǔ)的優(yōu)勢(shì),生成的碼本上有足夠多的子圖像.子圖像數(shù)量和長(zhǎng)度是決定本文算法鑒別準(zhǔn)確率的關(guān)鍵因素.