齊艷媚,田學(xué)東,張充,李亞康
(1. 河北大學(xué) 網(wǎng)絡(luò)空間安全與計算機學(xué)院,河北 保定 071002;2. 河北大學(xué)附屬醫(yī)院 信息中心,河北 保定 071000)
漢語言文字研究的深入帶來了對文獻數(shù)字化、信息化處理的更高要求.古籍漢字多為結(jié)構(gòu)復(fù)雜、書寫風(fēng)格多樣的繁體字,加之年代久遠對字形存在形態(tài)所帶來的影響,如噪聲和斷筆等情況,導(dǎo)致傳統(tǒng)的基于內(nèi)容的圖像檢索技術(shù)和文字識別技術(shù)在對古籍漢字圖像進行檢索時,難以取得理想的結(jié)果.因此,根據(jù)古籍漢字的特點,研究、提取有效的古籍漢字圖像特征并建立相應(yīng)的匹配算法,是古籍漢字圖像檢索研究中的重點和難點.
近年來,針對古籍漢字圖像檢索的研究相對較少,可供參考的主要有脫機手寫漢字圖像的檢索與識別方法.張睿[1]和姜文[2]等介紹了方向線素法,通過抽取漢字輪廓,考察像素點的8鄰域內(nèi)像素在0°、±45°、90°4個方向上的分布情況,雖然方向線素特征同時兼顧了統(tǒng)計特征和結(jié)構(gòu)特征的優(yōu)勢,但其維數(shù)較多增加了識別難度.冉耕等[3]介紹了一種彈性網(wǎng)格法,利用彈性網(wǎng)格對圖像進行分塊,獲取彈性網(wǎng)格特征,能較好地反映漢字的結(jié)構(gòu)細節(jié)和字符特征,克服手寫漢字由于書寫風(fēng)格多樣造成的字體變形和數(shù)據(jù)采集造成的樣本變形等問題.
除了傳統(tǒng)特征提取方法,卷積神經(jīng)網(wǎng)絡(luò)也被引入到漢字識別領(lǐng)域中來.毛曉波等[4]提出一種新的卷積結(jié)構(gòu),將當(dāng)前層與前一層特征圖疊加,用于對脫機手寫漢字的識別,不但減少了參數(shù)數(shù)量,對梯度消失的問題也有所緩解.劉虹等[5]提出將余弦相關(guān)性加入卷積神經(jīng)網(wǎng)絡(luò)的算法,使卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力增強,能夠在惡劣環(huán)境下達到較高的識別效率,增強了網(wǎng)絡(luò)結(jié)構(gòu)的模式檢測能力,獲得了更快的收斂速度.郭利敏等[6]利用卷積神經(jīng)網(wǎng)絡(luò)的分類問題替代古籍漢字識別問題,通過深度學(xué)習(xí)構(gòu)建分類器,用于漢字圖像與漢字字符的分類,進而提升古籍漢字的識別率.
由于手寫漢字大多存在字體復(fù)雜多變、風(fēng)格多樣等問題,因此,在漢字圖像檢索時引入了模糊特征理論.Zhou等[7]針對筆觸的交集和交集之類的含糊區(qū)域會給手寫漢字的筆畫提取帶來困難的問題,設(shè)計了一種借助模糊區(qū)域信息來進行漢字筆畫提取的方法,首先獲取漢字骨骼上模糊區(qū)域的筆畫子段間的連接系數(shù),然后修改骨骼上的變形,檢測突然的轉(zhuǎn)折點,獲得最終行程:該方法提取的筆畫保持良好的形狀,能正確反映筆畫之間的位置關(guān)系,可用于手寫漢字的相關(guān)研究.魏瑋等[8]提出了一種模糊雙彈性網(wǎng)格的特征提取方法,在特征提取時加入了模糊特征和雙彈性網(wǎng)格劃分,能夠更有效地提取漢字“撇”和“捺”方向的特征.Mapari等[9]針對手寫化學(xué)結(jié)構(gòu)或符號難以被有效識別的問題,提出了一種基于模糊規(guī)則和SOM(self organization map)的模型,在進行模糊圖像分割時運用低模糊規(guī)則和高模糊規(guī)則方法,提高了手寫體化學(xué)符號和結(jié)構(gòu)的識別率.柴彥立[10]在模糊特征基礎(chǔ)上引入猶豫模糊集理論,融合結(jié)構(gòu)與統(tǒng)計特征,提出一種面向古籍漢字圖像檢索的猶豫模糊特征提取算法,提升了古籍漢字圖像的檢索查全率和查準(zhǔn)率.
由于古籍漢字具有結(jié)構(gòu)繁雜多變、筆畫風(fēng)格多樣、年代久遠等特點,導(dǎo)致上述方法在處理古籍漢字圖像檢索時難以取得理想效果.鑒于模糊集理論的單一隸屬度導(dǎo)致其無法完整有效地處理古籍漢字在筆畫以及結(jié)構(gòu)特征方面的信息,本文在對古籍漢字圖像檢索時引入猶豫模糊集理論[11],利用其在處理多隸屬度方面的優(yōu)勢,來適應(yīng)古籍漢字風(fēng)格多樣、結(jié)構(gòu)多變的特點,充分考慮漢字筆畫和角點的構(gòu)成特征,從多角度出發(fā),建立融合古籍漢字圖像筆畫特征和角點特征的多屬性模糊檢索模型,更好地滿足古籍漢字研究過程中專家對古籍漢字圖像檢索的實際需求.
1.交叉點;2.端點;3.拐點.圖1 古籍漢字圖像的角點特征Fig.1 Corner feature map of ancient Chinese character images
a.縱橫彈性網(wǎng)格劃分;b.規(guī)范化對角彈性網(wǎng)格劃分.圖2 古籍漢字圖像的重疊規(guī)范化雙彈性網(wǎng)格劃分Fig.2 Overlapping normalized bi-elastic mesh division diagram
漢字大多由“橫”、“豎”、“撇”、“捺”4種筆畫組成,因此,漢字的基本特征可以用這4種筆畫進行有效地表示.F(x,y)表示細化后的二值圖像,對漢字細化后采用“OR”[12]技術(shù)進行分解的規(guī)則如表1所示.
表1 漢字筆畫分解規(guī)則
本文引入猶豫模糊集理論,利用其在處理多隸屬度決策方面的優(yōu)勢,從古籍漢字圖像的多角度屬性出發(fā),完成古籍漢字圖像間的匹配檢索.
猶豫模糊集[11]是由Torra對模糊集[13]進行推廣而提出的新理論,設(shè)U是一個非空集合,則稱
F={
(1)
為U上的猶豫模糊集,hF(x)表示[0,1]上的非空集合,是x∈U對集合F的多個可能隸屬度的集合,猶豫模糊集中隸屬度是若干可能值的集合,而不是一個確定的值或者分布[11].
文獻[14]在進行距離測度計算時考慮到了權(quán)重的影響,根據(jù)評價對象屬性的重要程度,在加權(quán)平均算子的基礎(chǔ)上,給出了猶豫模糊加權(quán)距離測度的計算公式.
(2)
定義2設(shè)Ir表示輸入的古籍漢字圖像,Irj表示數(shù)據(jù)集中任一古籍漢字圖像(j= 1, 2, 3, …,m.m為數(shù)據(jù)集中古籍漢字圖像的總數(shù)).
2.2.1 筆畫屬性
下面以在規(guī)范化對角雙彈性網(wǎng)格下對“橫”筆畫子圖的特征分析為例,給出在縱橫彈性網(wǎng)格下的“橫”筆畫像素對應(yīng)的隸屬度函數(shù)的定義,并求出在當(dāng)前網(wǎng)格下的隸屬度值.
1)數(shù)量特征
定義3“橫”筆畫像素的數(shù)量特征隸屬度函數(shù)為
(3)
其中tolH表示“橫”筆畫子圖中“橫”筆畫像素的總數(shù).分別計算Gi內(nèi)(k=H、S、P、N)(分別表示“橫”“豎”“撇”“捺”像素)的隸屬度,加權(quán)平均即為當(dāng)前網(wǎng)格在筆畫數(shù)量特征下的隸屬度值.
2)位置特征
利用Gi內(nèi)的筆畫像素與其周圍網(wǎng)格的相交情況,作為評估2幅古籍漢字圖像相似程度的標(biāo)準(zhǔn).如果網(wǎng)格Gi內(nèi)的所有筆畫均不存在與周圍網(wǎng)格相交的情況,則筆畫像素在Gi內(nèi)的位置特征對應(yīng)的隸屬度值為1.
橫筆畫像素在縱橫彈性網(wǎng)格下的位置特征圖如圖3a所示,Gi內(nèi)筆畫1和筆畫2皆與周圍網(wǎng)格有相交情況,筆畫3與任何網(wǎng)格均無相交情況,因此橫筆畫像素在Gi內(nèi)的位置特征對應(yīng)隸屬度值為(m1+m2+l3)/(l1+l2+l3).
橫筆畫像素在規(guī)范化對角彈性網(wǎng)格下的位置特征圖如圖3b所示,Gi內(nèi)的所有筆畫皆與鄰接網(wǎng)格有相交情況,因此橫筆畫像素在Gi內(nèi)的位置特征對應(yīng)隸屬度值為(m1+m2+m3)/(l1+l2+l3).如果2幅圖像在網(wǎng)格Gi內(nèi)所有筆畫像素點與同本網(wǎng)格有交叉的所有筆畫長度總和的比值越接近,說明它們的相似程度越大.
定義4“橫”筆畫像素的位置特征隸屬度函數(shù)為
(4)
3)距離特征
將Gi內(nèi)筆畫像素到鄰近網(wǎng)格的最短距離作為評估不同古籍漢字圖像間相似程度的標(biāo)準(zhǔn).
a.縱橫彈性網(wǎng)格;b.規(guī)范化對角彈性網(wǎng)格.圖3 彈性網(wǎng)格下“橫”筆畫像素的位置特征Fig.3 Location feature map of “horizontal” stroke pixels under elastic grid
a.縱橫彈性網(wǎng)格;b.規(guī)范化對角彈性網(wǎng)格.圖4 彈性網(wǎng)格下的“橫”筆畫像素的距離特征Fig.4 Distance feature map of “horizontal” stroke pixels under elastic grid
定義5“橫”筆畫像素的距離特征隸屬度函數(shù)為
(5)
2.2.2 角點屬性
組成漢字的元素除了筆畫外,角點也占了很高的比重,古籍漢字的結(jié)構(gòu)信息能夠通過角點得到很好的展現(xiàn),因此本文將漢字筆畫的交叉點、拐點、端點在漢字圖像中的數(shù)量分布以及位置信息作為古籍漢字的角點特征.
1)角點距離特征
定義6角點的距離特征隸屬度函數(shù)定義為
(6)
2)角點分布特征
a.縱橫彈性網(wǎng)格;b.規(guī)范化對角彈性網(wǎng)格.圖5 彈性網(wǎng)格下的古籍漢字圖像角點距離特征圖Fig.5 Corner distance feature map of ancient Chinese character images based on elastic grid
a.縱橫彈性網(wǎng)格;b.規(guī)范化對角彈性網(wǎng)格.圖6 彈性網(wǎng)格下的古籍漢字圖像角點分布圖Fig.6 Distribution characteristics of corner points in ancient Chinese character images under elastic grid
定義7角點的分布特征隸屬度函數(shù)定義為
(7)
對古籍漢字圖像Ir和Irj經(jīng)過多隸屬度評價后,形成猶豫模糊集合fr和frj,其中f由隸屬度集合Ufn、Ufp、Ufd、UfT_J、UfT_F構(gòu)成,任一評價屬性Ew(w=1,2),w=1和2分別表示筆畫屬性和角點屬性,猶豫模糊集合對應(yīng)的猶豫模糊元素集合為hfr和hfrj,hfr和hfrj中元素為Ir和Irj在屬性Ew包含的各個特征下的隸屬度值的集合,利用猶豫加權(quán)測度公式進行處理,如式(8)~(10)所示.
(8)
(9)
sim(Ir,Irj)=1-d(Ir,Irj),
(10)
(11)
(12)
.
(13)
為了驗證古籍漢字圖像的多屬性模糊檢索方法的有效性,本文從已實現(xiàn)數(shù)字化的四庫全書文淵閣中的經(jīng)、史、子、集中共選取92幅版面圖像,對其切分獲得11 574幅單字圖像作為古籍漢字圖像檢索的實驗樣張,采用13位編碼進行標(biāo)注,如表2所示(例如:GJHZ_0000030011012表示文淵閣經(jīng)部第0003冊001頁下第012個單字圖像).
將數(shù)據(jù)集中所有單字圖像按字形結(jié)構(gòu)劃分為左右結(jié)構(gòu)(A)、上下結(jié)構(gòu)(B)、獨體結(jié)構(gòu)(C)、包圍結(jié)構(gòu)(D)4大類,部分實驗樣張如表3所示.
表2 古籍漢字圖像數(shù)據(jù)集編碼格式
表3 古籍漢字圖像檢索實驗樣張
為了確定公式(7)中的權(quán)重系數(shù)α和β,歸納總結(jié)11 574幅單字圖像在每個彈性網(wǎng)格和其八鄰域情況下的角點分布對檢索結(jié)果的影響程度,得出α的值為0.465,β的值為1.625.
為了分析古籍漢字圖像的多屬性模糊檢索方法的有效性,選擇查全率和查準(zhǔn)率對圖像的檢索結(jié)果進行評價.
定義8查全率(recall rate,簡稱R),表示檢索結(jié)果中與輸入圖像相似的圖像數(shù)量NS占數(shù)據(jù)集中所有相似圖像數(shù)量NT的百分?jǐn)?shù).
(14)
定義9查準(zhǔn)率(precision ratio,簡稱P),表示檢索結(jié)果中與輸入圖像相似的圖像數(shù)量NS占全部檢索結(jié)果圖像數(shù)量NR的百分?jǐn)?shù).
(15)
通過歸納重疊規(guī)范化雙彈性網(wǎng)格下古籍漢字圖像的筆畫屬性和角點屬性的猶豫模糊集合,從多角度出發(fā)考察古籍漢字特征,同時引入猶豫模糊加權(quán)距離測度,考慮了不同屬性所占比重不同的問題.為了驗證本文方法的可行性,構(gòu)造傳統(tǒng)特征提取算法中的基于重疊規(guī)范化雙彈性網(wǎng)格的梯度特征提取方法[3]作為對比算法1,基于手寫體漢字雙彈性網(wǎng)格模糊特征算法[8]作為對比算法2;構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)類檢索算法中的基于卷積神經(jīng)網(wǎng)絡(luò)的古籍漢字識別算法[6]作為對比算法3,結(jié)合余弦相關(guān)性的卷積網(wǎng)絡(luò)識別漢字的算法[5]作為對比算法4,對其網(wǎng)絡(luò)模型稍作修改,使其能更加適用于古籍漢字圖像檢索.
設(shè)NS為與待檢索圖像相似度高于某一閾值T/%時檢索出的圖像數(shù)量;NR為檢索出的所有圖像的數(shù)量.以常見的左右結(jié)構(gòu)圖像“”(編碼為GJHZ_0000010100161)為例,根據(jù)查準(zhǔn)率計算法則(例如,當(dāng)閾值設(shè)置為90%時,其輸出圖片數(shù)量為11,其中相似圖片為9幅,則查準(zhǔn)率為9/11=0.818)計算相應(yīng)的P(查準(zhǔn)率)值,如表4所示.
表4 本文與模擬實驗算法在不同閾值下的參數(shù)統(tǒng)計結(jié)果
從表4可知,相比傳統(tǒng)檢索類算法中的梯度特征(算法1)和模糊特征(算法2)方法,本文方法在面對古籍漢字圖像檢索時能達到更高的查準(zhǔn)率和查全率,這是由于本文利用猶豫模糊集理論在處理多屬性決策方面的優(yōu)勢,從多角度出發(fā)提取古籍漢字圖像的特征,定義相應(yīng)的隸屬度函數(shù),并且通過相應(yīng)權(quán)重更新算法考察了不同特征所占比重不同的問題,更加適用于古籍漢字圖像檢索;在不同閾值下本文方法與卷積神經(jīng)網(wǎng)絡(luò)類方法的查準(zhǔn)率基本保持在80%左右,當(dāng)閾值T為85%和80%時本文方法略顯優(yōu)勢,但是在其他情況下出現(xiàn)了本文參數(shù)略低于模擬系統(tǒng)的情況,這是由于古籍漢字圖像大多結(jié)構(gòu)繁雜多變、存在狀態(tài)較差等因素,導(dǎo)致本文算法在對古籍漢字圖像進行特征提取時較卷積類算法略顯劣勢,造成了本文算法的查準(zhǔn)率出現(xiàn)略低于模擬系統(tǒng)的情況.但是,總體來說本文方法在對古籍漢字圖像檢索時,能夠取得較好的效果.
為進一步驗證本文實驗的有效性,考察本文算法與模擬實驗算法在不同漢字字形結(jié)構(gòu)下的查全率與查準(zhǔn)率間的差異.不同字形結(jié)構(gòu)下的查全率和查準(zhǔn)率的值由組內(nèi)全部圖像(20幅圖像)的平均值得出,幾種方法的平均查全率和平均查準(zhǔn)率對比結(jié)果如表5所示.
表5 本文與模擬實驗算法在不同字形結(jié)構(gòu)下的檢索結(jié)果對比
表5中的平均查全率和平均查準(zhǔn)率表示了整個測試數(shù)據(jù)集的最終評價值,由表4可知,無論在何種情況下,本文算法的查全率、查準(zhǔn)率均高于算法1和算法2 兩種傳統(tǒng)檢索類算法;本文算法的平均查全率分別比算法3和算法4高0.1%和0.1%,平均查準(zhǔn)率比算法3低了0.1%,比算法4高了0.1%.在類別B和類別C下算法3的查準(zhǔn)率略高于本文算法,類別C下算法3的查全率略高于本文算法,這是由于在進行特征提取時,基于猶豫模糊集的圖像檢索算法與基于卷積的圖像檢索算法的側(cè)重點不同,導(dǎo)致了在面對古籍圖像書寫質(zhì)量較差以及紙張破損嚴(yán)重等問題時,本文算法的查準(zhǔn)率和查全率存在略低于對比算法的情況.綜合實驗結(jié)果,本文算法的總體效果基本達到了預(yù)期目標(biāo).
a.本文檢索結(jié)果top10;b.算法1檢索結(jié)果top10;c.算法2檢索結(jié)果top10; d.算法3檢索結(jié)果top10;e.算法4檢索結(jié)果top10.圖7 古籍漢字圖像檢索結(jié)果Fig.7 Image retrieval results of ancient Chinese characters
圖8 5種算法檢索時間對比Fig.8 Five algorithms retrieve time comparison
由圖7可知,5種算法檢索結(jié)果前8張圖像均與目標(biāo)圖像有較高的相似度,且圖7a中的后2張圖像相似度明顯高于圖7b和圖7c,說明本文古籍漢字圖像的多屬性模糊檢索算法能達到相對較好的檢索效果.
對算法運行時間進行統(tǒng)計,結(jié)果如圖8所示.由圖8可知,雖然由于本文引入猶豫模糊集理論,從多角度出發(fā)進行圖像檢索相似度的計算,造成了時間復(fù)雜度略高于算法1和算法2的結(jié)果,但在可接受范圍之內(nèi);本文方法運行時間明顯優(yōu)于算法3和算法4 2種卷積神經(jīng)網(wǎng)絡(luò)類方法,原因是卷積神經(jīng)網(wǎng)絡(luò)在對圖像進行檢索時需要提取自適應(yīng)特征并不斷訓(xùn)練數(shù)據(jù)集圖像,導(dǎo)致其運行時間較長.
綜上所述,本文算法在運行速度上相比傳統(tǒng)特征提取算法雖有一定劣勢,但是由3.3可知本文算法在查全率和查準(zhǔn)率上均有一定程度的提高;此外,從3.3和3.4可以看出本文方法與卷積神經(jīng)網(wǎng)絡(luò)類特征提取算法在檢索準(zhǔn)確率和檢索結(jié)果上無明顯差異.雖然卷積神經(jīng)網(wǎng)絡(luò)算法對手寫漢字識別與檢索能夠達到較好的效果,但其無法滿足漢字研究專家需要實時獲得古籍漢字研究時出現(xiàn)的新字形的需求,且卷積神經(jīng)網(wǎng)絡(luò)不僅需要高配置的硬件,還需要搭建復(fù)雜的網(wǎng)絡(luò)模型,因此,在查全率、查準(zhǔn)率無明顯差異的情況下,本文算法更加適用于古籍漢字圖像檢索.
古籍漢字圖像檢索是輔助古籍漢字研究的重要手段,為了更好地滿足古籍漢字研究的需求,本文采用融合結(jié)構(gòu)與統(tǒng)計特征的圖像檢索,設(shè)計了一種多屬性模糊的古籍漢字圖像檢索方法.首先提取漢字圖像的筆畫和角點等多特征信息,存入特征數(shù)據(jù)庫;然后利用猶豫模糊加權(quán)距離測度公式計算圖像間的距離測度,并按相似度進行初步排序,得到最終檢索結(jié)果.實驗結(jié)果表明,所提出的算法在對古籍漢字圖像檢索中取得了較好的效果.
鑒于古籍漢字結(jié)構(gòu)多變、風(fēng)格多樣的特點,本文方法還有很多有待改進之處.首先,需進一步完善權(quán)重模型,使其能更加適用于古籍漢字圖像檢索;其次,隸屬度函數(shù)的定義和相應(yīng)評價屬性的選擇需要優(yōu)化,通過建立更加適合古籍漢字的特征索引來減小時間復(fù)雜度,進一步提高檢索系統(tǒng)性能.