駱彥龍,畢曉君,吳立成,李霞麗
(1.哈爾濱工程大學(xué) 信息與通信工程學(xué)院, 黑龍江 哈爾濱 150001; 2.中央民族大學(xué) 信息工程學(xué)院, 北京100081)
東巴象形文字由納西族祖先創(chuàng)造,至今已有兩千多年的歷史。2003年,東巴古籍文獻(xiàn)被聯(lián)合國(guó)教科文組織列為“世界記憶遺產(chǎn)”名錄,成為人類(lèi)共同擁有的寶貴財(cái)富。東巴象形文字的識(shí)別一直是研究的熱點(diǎn)和重點(diǎn)。早期的東巴象形文字識(shí)別研究一般采用傳統(tǒng)算法提取東巴象形文字特征進(jìn)行識(shí)別,關(guān)鍵步驟一般包括圖像去噪、特征提取和分類(lèi)器識(shí)別3個(gè)步驟。常用的圖像去噪方法有中值去噪、自適應(yīng)去噪和小波去噪[1];在特征提取方面,方向元素、粗網(wǎng)格[2-3]等統(tǒng)計(jì)特征比分析東巴象形文字的結(jié)構(gòu)、筆畫(huà)等結(jié)構(gòu)特征取得的效果更好;常用的分類(lèi)器模型包括支持向量機(jī)[4]、隨機(jī)森林[5]等。代表性的研究有2017年徐小力等采用拓?fù)涮卣鞣ê屯队胺ㄏ嘟Y(jié)合的特征提取方法,取得了84.4%的識(shí)別準(zhǔn)確率[6]。2019年楊玉婷等通過(guò)結(jié)合東巴象形文字的結(jié)構(gòu)和形態(tài),提出了基于網(wǎng)格分辨率的東巴象形文字相似度測(cè)量算法,能夠檢索和識(shí)別不同形狀的東巴象形文字[7]。上述研究雖然取得了一定的成果,但實(shí)現(xiàn)過(guò)程復(fù)雜且效率較低,算法的識(shí)別準(zhǔn)確率有待提高。直到2019年,隨著人工智能技術(shù)的發(fā)展,國(guó)內(nèi)外開(kāi)始出現(xiàn)基于深度學(xué)習(xí)的東巴文識(shí)別文章,2019年張澤暉建立了包含30 592張圖片的東巴象形文字?jǐn)?shù)據(jù)集,設(shè)計(jì)了孿生網(wǎng)絡(luò)并協(xié)同進(jìn)行文字語(yǔ)義識(shí)別,對(duì)956個(gè)東巴象形文字測(cè)試,取得了85.6%識(shí)別準(zhǔn)確率[8];同年,Wu[9]在訓(xùn)練集圖像3 800張,測(cè)試集圖像200張的條件下,使用VGGNet取得了95.8%的識(shí)別準(zhǔn)確率;2021年謝裕睿等提出了基于ResNet網(wǎng)絡(luò)的東巴象形文字識(shí)別方法,建立了包含536個(gè)東巴象形文字的數(shù)據(jù)集,并對(duì)94個(gè)東巴象形文字測(cè)試,取得了93.58%的識(shí)別準(zhǔn)確率[10]。
以上研究對(duì)東巴象形文字識(shí)別做出較大的貢獻(xiàn),但目前還存在一些問(wèn)題:1)東巴象形文字大多包含多個(gè)異體字,且在東巴經(jīng)典中廣泛存在;但現(xiàn)有的數(shù)據(jù)集都沒(méi)有涉及異體字,導(dǎo)致東巴經(jīng)典中的大量文字不能識(shí)別;2)現(xiàn)有的東巴象形文字?jǐn)?shù)據(jù)集規(guī)模較小,影響了算法識(shí)別的準(zhǔn)確率;3)所采用的深度學(xué)習(xí)模型較為初級(jí),無(wú)法適應(yīng)東巴象形文字的隨機(jī)性和手寫(xiě)不確定性,識(shí)別準(zhǔn)確率有待進(jìn)一步提高。
為了解決上述問(wèn)題,本文主要做了以下兩個(gè)方面的工作:
1)根據(jù)東巴象形文字字典[11-12],采用人工仿寫(xiě)的方法建立了1 387個(gè)東巴象形文字(包括異體字)、圖像規(guī)模達(dá)22萬(wàn)余張的東巴象形文字?jǐn)?shù)據(jù)集,有效解決了異體字問(wèn)題,大幅增加了可識(shí)別東巴象形文字的數(shù)量,并有效擴(kuò)充了數(shù)據(jù)集的規(guī)模。2)根據(jù)東巴象形文字的圖像特點(diǎn),選擇應(yīng)用效果最好的ResNet模型作為改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)了殘差跳躍連接方式和卷積層的數(shù)量,并通過(guò)加入最大池化層實(shí)現(xiàn)了下采樣的改進(jìn),有效提高了算法識(shí)別的準(zhǔn)確率。
深度學(xué)習(xí)模型能夠取得較好的識(shí)別效果,其前提是需要大量帶標(biāo)注的訓(xùn)練數(shù)據(jù)。為此本文首先研究如何建立大規(guī)模的東巴象形文字?jǐn)?shù)據(jù)集,來(lái)保證識(shí)別的東巴象形文字更多,并可輔助提高算法識(shí)別的準(zhǔn)確率。
東巴象形文字的特點(diǎn)可總結(jié)如下。1)內(nèi)容廣泛、字?jǐn)?shù)多。按照屬性可分為天文、地理、建筑等十八大類(lèi),共有2000余字(包括異體字)[11]。2)相似度高。結(jié)構(gòu)相似的東巴象形文字因其細(xì)節(jié)部分不同,其字義亦不同。3)書(shū)寫(xiě)隨意性較大。不同人書(shū)寫(xiě)的東巴象形文字都會(huì)有不規(guī)則的形變。4)異體字多。大多數(shù)東巴象形文字都有多個(gè)異體字。
上述特點(diǎn)增加了東巴象形文字的識(shí)別難度,因此為了獲得更好的識(shí)別效果,數(shù)據(jù)集中每個(gè)東巴象形文字大約需要150張圖像,才能滿足訓(xùn)練的要求。但是僅通過(guò)東巴古籍來(lái)獲取遠(yuǎn)遠(yuǎn)不能達(dá)到數(shù)量的要求,常用的數(shù)據(jù)增強(qiáng)方法主要是幾何變換[13-15],但由于東巴文本身象形字的圖畫(huà)特點(diǎn),相近的形狀可表達(dá)不同的含義,通過(guò)幾何變換可能變成其他文字,所以這種數(shù)據(jù)增強(qiáng)的方法難以適用東巴象形文字。
為此本文根據(jù)東巴象形文字手寫(xiě)或刀刻的書(shū)寫(xiě)習(xí)慣,提出采用人工仿寫(xiě)東巴象形文字字典的方法建立大規(guī)模數(shù)據(jù)集,再通過(guò)圖像預(yù)處理方法提高數(shù)據(jù)集的圖片質(zhì)量,這樣可以保證數(shù)據(jù)集中東巴象形文字的數(shù)量足夠多,既可以最大幅度地增加算法可識(shí)別的東巴象形文字字?jǐn)?shù),又可以輔助提高算法識(shí)別的準(zhǔn)確率。本文建立的東巴象形文字?jǐn)?shù)據(jù)集示例如圖1所示,其中每一行的5幅圖片同屬異體字,共有相同的釋義,第一列為統(tǒng)一的文字釋義,從中可以看出異體字之間的差別較大。
圖1 東巴象形文字?jǐn)?shù)據(jù)集示例Fig.1 Samples of Dongba pictographs datasets
人工仿寫(xiě)的東巴象形文字受光照以及拍照設(shè)備等的影響,往往會(huì)產(chǎn)生極大的噪聲,影響東巴象形文字?jǐn)?shù)據(jù)集的質(zhì)量,因此必須對(duì)其進(jìn)行一系列的圖像預(yù)處理。圖2給出了本文建立東巴象形文字?jǐn)?shù)據(jù)集的技術(shù)路線,具體步驟如下。
圖2 東巴象形文字?jǐn)?shù)據(jù)集建立技術(shù)路線Fig.2 Technical route for Dongba pictographs dataset establishment
1)字符裁剪。對(duì)人工仿寫(xiě)的原始圖像進(jìn)行字符裁剪,使得每張圖像中僅包含一個(gè)東巴象形文字。具體過(guò)程如算法1所示。
算法1符裁剪算法
輸入未裁剪的手寫(xiě)東巴象形文字圖像X;
輸出僅包含一個(gè)東巴象形文字的圖像Y。
①Xh←圖像X的高度;
②Xw←圖像X的寬度;
③Yh←1/3Xh?2/3Xh;
④Yw←1/3Xw?2/3Xw;
⑤Y←Yh?Yw。
2)灰度化。黑白兩種顏色反差較大,可提高東巴象形文字識(shí)別的效果。為此,使用加權(quán)平均值法進(jìn)行圖像灰度化,去除圖像的顏色信息,將三通道的彩色圖像轉(zhuǎn)換成單通道的灰度圖像?;叶然饺缡?1)所示:
式中:Ri,j、Gi,j、Bi,j分別代表圖像在 (i,j)處的紅、綠、藍(lán)3種顏色分量像素值; G rayi,j代表圖像在(i,j)處的灰度值。
3)二值化。為了極大程度減少圖像數(shù)據(jù)量,通過(guò)全局閾值二值化減少圖像無(wú)關(guān)像素信息,并使整個(gè)圖像呈現(xiàn)出明顯的黑白效果,凸顯東巴象形文字輪廓,圖像二值化公式如式(2)所示:
式中bi,j表示圖像二值化后圖像在 (i,j)處的像素值。
4)尺寸歸一化。常用的圖像尺寸歸一化方法是雙線性插值法,但是當(dāng)原圖像與尺寸歸一化圖像尺寸相差過(guò)大時(shí),尺寸歸一化后的圖像紋理特征易損壞,不利于深度學(xué)習(xí)模型識(shí)別。而像素區(qū)域關(guān)系重采樣法能夠保留完整圖像信息的條件下,將輸入圖像尺寸最大程度減小,大幅度減少圖像像素?cái)?shù)以及數(shù)據(jù)量,在保證深度學(xué)習(xí)模型識(shí)別準(zhǔn)確率不變的前提下,加快模型的訓(xùn)練速度。根據(jù)其他數(shù)據(jù)集圖像尺寸大小設(shè)置的經(jīng)驗(yàn)以及多次對(duì)比實(shí)驗(yàn)驗(yàn)證,我們發(fā)現(xiàn)當(dāng)圖像尺寸歸一化為64×64時(shí),可以取得最好的識(shí)別效果,并且模型訓(xùn)練速度快。本文對(duì)像素區(qū)域關(guān)系重采樣法和雙線性插值法在東巴文字圖像上的效果進(jìn)行了簡(jiǎn)單的實(shí)驗(yàn)對(duì)比,分別將圖像尺寸歸一化為 6 4×64。圖3給出了實(shí)驗(yàn)結(jié)果。
圖3 兩種尺寸歸一化方法示例Fig.3 Samples of two size normalization methods
從圖3中可以看出,雙線性插值法后的東巴象形文字紋理特征有殘缺,而像素區(qū)域關(guān)系重采樣可獲得更好的尺寸歸一化效果。
因此本文選擇像素區(qū)域關(guān)系重采樣法進(jìn)行尺寸歸一化操作,其公式如式(3)所示:
式中:B表示圖像某區(qū)域內(nèi)像素值矩陣; α 是與B相對(duì)應(yīng)的像素值系數(shù)矩陣,其取值取決于原圖像與尺寸歸一化圖像的尺寸大小關(guān)系; ⊙ 表示Hadamard積;fi,j表示圖像B區(qū)域通過(guò)尺寸歸一化后的像素值。
5)數(shù)據(jù)標(biāo)注。通過(guò)數(shù)據(jù)編碼標(biāo)注,將第i個(gè)東巴象形文字的所有圖像I統(tǒng)一編碼為i,使計(jì)算機(jī)將圖像和編碼相互對(duì)應(yīng),如式(4)所示:
式中F(·)表示編碼標(biāo)注算法,具體過(guò)程如算法2所示。
算法2編碼標(biāo)注算法
輸入train,test (其中有命名為i(包含圖像I)的文件夾)
輸出圖像I與其編碼i相互對(duì)應(yīng)的txt文檔
① fori∈train,test;
②forI∈i;
③將I的絕對(duì)地址和i寫(xiě)入txt文檔;
④換行;
⑤重復(fù)迭代2)~4);
⑥返回圖像I與其編碼i相互對(duì)應(yīng)的txt文檔
通過(guò)上述一系列的圖像預(yù)處理,本文建立了東巴象形文字?jǐn)?shù)據(jù)集,該數(shù)據(jù)集包含1 387個(gè)東巴象形文字(包括異體字),每個(gè)東巴象形文字對(duì)應(yīng)160余張書(shū)寫(xiě)各異的圖片,數(shù)據(jù)集圖片總量為223 050張。
近年來(lái),深度學(xué)習(xí)成功應(yīng)用于圖像識(shí)別[16-19]領(lǐng)域,提出了一系列性能優(yōu)異的網(wǎng)絡(luò)模型,其中ResNet模型首次提出殘差跳躍連接(residual shortcut connection)結(jié)構(gòu)[20],解決了網(wǎng)絡(luò)加深帶來(lái)的梯度消失問(wèn)題以及神經(jīng)網(wǎng)絡(luò)深度與識(shí)別準(zhǔn)確度之間的矛盾,可有效提取更多的圖像細(xì)節(jié)特征,目前已成為圖像識(shí)別的主流深度學(xué)習(xí)模型。
考慮到東巴象形文字識(shí)別的具體問(wèn)題,不僅字?jǐn)?shù)多、書(shū)寫(xiě)隨意性較大,而且有些字形較為相似,因此需要提取細(xì)節(jié)特征能力強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu),為此本文選擇ResNet模型作為本文改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)了殘差跳躍連接方式和卷積層的數(shù)量,并通過(guò)加入最大池化層實(shí)現(xiàn)了對(duì)下采樣的改進(jìn),更好地提取了東巴象形文字的紋理分布特征。本文設(shè)計(jì)的網(wǎng)絡(luò)主要框架如圖4所示。下面將詳細(xì)介紹設(shè)計(jì)思路和改進(jìn)方法。
圖4 東巴象形文字識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of Dongba pictographs recognition
殘差跳躍連接可以解決神經(jīng)網(wǎng)絡(luò)隨著深度增加出現(xiàn)性能退化的問(wèn)題。深層神經(jīng)網(wǎng)絡(luò)難以擬合的原因是恒等映射H(x)=x的學(xué)習(xí)比較困難,但當(dāng)把網(wǎng)絡(luò)設(shè)計(jì)為H(x)=F(x)+x時(shí),可以把學(xué)習(xí)恒等映射轉(zhuǎn)化為更加容易學(xué)習(xí)的殘差映射F(x)=H(x)?x,并且F(x)對(duì)輸出變化更加敏感,參數(shù)的調(diào)整幅度更大,從而可以加快學(xué)習(xí)速度,提高網(wǎng)絡(luò)的優(yōu)化性能。殘差跳躍連接的一般定義如式(5)所示:
其中Ws主要是用1 ×1卷積[21]來(lái)匹配殘差跳躍連接輸入x和輸出y的通道維度。F(x,{Wi})為網(wǎng)絡(luò)需要學(xué)習(xí)的殘差映射。而當(dāng)殘差跳躍連接輸入和輸出維度相同時(shí),可將其定義如式(6)所示:
文獻(xiàn)[22]證明了越是接近當(dāng)前卷積層的前層輸出對(duì)當(dāng)前層的特征提取效果影響越大,可以使網(wǎng)絡(luò)更容易訓(xùn)練。為此本文僅將相鄰堆疊的卷積層組成殘差跳躍連接結(jié)構(gòu),在有效重復(fù)利用特征圖的同時(shí),降低網(wǎng)絡(luò)參數(shù)量和復(fù)雜度。本文殘差跳躍連接結(jié)構(gòu)如圖5所示。圖5中殘差映射F(x)如式(7)所示,輸出y和輸入x的關(guān)系式如式(8)所示:
圖5 本文殘差跳躍連接模塊Fig.5 Residual skip connection module of this paper
式中:σ均表示ReLU激活函數(shù),W1和W2分別表示卷積層學(xué)習(xí)的參數(shù)。
網(wǎng)絡(luò)模型卷積核的選擇與網(wǎng)絡(luò)計(jì)算量大小密切相關(guān)。盡管大的卷積核可以直接增大感受野,但是會(huì)帶來(lái)網(wǎng)絡(luò)計(jì)算量的暴增,而多個(gè) 3 ×3卷積核可以在降低計(jì)算量的前提下實(shí)現(xiàn) 5 ×5或 7 ×7乃至更大卷積核的效果。由式(9)可以發(fā)現(xiàn),3個(gè)3×3卷積核實(shí)現(xiàn) 7 ×7卷積核效果時(shí),其參數(shù)量可以減少到55%。
其中C指輸入和輸出的通道數(shù)。
除了能夠降低網(wǎng)絡(luò)模型的計(jì)算量,單個(gè)3×3卷積核還可以捕獲特征圖像素四周的信息,多個(gè)3×3卷積核的疊加還可以直接增加網(wǎng)絡(luò)深度[23],使網(wǎng)絡(luò)模型的特征提取能力更強(qiáng),從而取得更好的識(shí)別效果。
東巴象形文字具有字?jǐn)?shù)多、字形相似等特點(diǎn),因此需要提取特征能力強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu),而多個(gè)卷積層的疊加能夠在參數(shù)量最少的前提下實(shí)現(xiàn)最好的特征提取能力。因此本文設(shè)計(jì)了32層 3 ×3的卷積層,再加1層全連接層,構(gòu)成33層網(wǎng)絡(luò)模型,用以獲得東巴象形文字最好的識(shí)別效果。
同時(shí),為了防止網(wǎng)絡(luò)過(guò)擬合,加快網(wǎng)絡(luò)訓(xùn)練速度,本文對(duì)每一個(gè)卷積層執(zhí)行批量歸一化(batch normalization)[24]操作。然后再使用修正線性單元ReLU[25](rectified linear units)f(x)=max(0,x)作為激活函數(shù),增強(qiáng)網(wǎng)絡(luò)的非線性表達(dá)能力,在x>0時(shí)保持梯度不衰減,從而緩解網(wǎng)絡(luò)出現(xiàn)的梯度消失問(wèn)題。
下采樣可以降低特征圖維度,保留圖像主要特征的同時(shí)減少網(wǎng)絡(luò)模型的參數(shù)量,防止過(guò)擬合現(xiàn)象的發(fā)生。在ResNet模型中通常采用令卷積步長(zhǎng) S tride=2來(lái)實(shí)現(xiàn)下采樣的效果,但是由于本文建立的東巴象形文字?jǐn)?shù)據(jù)集經(jīng)過(guò)灰度歸一化后,其前景像素值遠(yuǎn)遠(yuǎn)大于背景像素值,用這種方法實(shí)現(xiàn)下采樣獲得的東巴象形文字紋理特征不夠豐富,影響了識(shí)別效果,因此有必要對(duì)下采樣進(jìn)行改進(jìn)。
最大池化層通過(guò)提取特征圖局部區(qū)域內(nèi)的像素最大值,可以最大程度降低特征圖背景的無(wú)關(guān)信息,使網(wǎng)絡(luò)模型提取更多有用的前景特征,降低背景特征干擾。因此,本文對(duì)ResNet模型中的下采樣方式進(jìn)行了改進(jìn),通過(guò)采用最大池化層來(lái)獲得豐富的紋理特征。最大池化層的公式如式(10)所示:
其中:rk(k=1,2,···,K)為特征圖所 劃分的多個(gè)區(qū)域,ai表示第i區(qū)域內(nèi)的像素值。
而網(wǎng)絡(luò)深層的平均池化層通過(guò)提取特征圖的像素加權(quán)值,可以保留更加完整的特征圖信息。并且通過(guò)平均池化將特征圖下采樣為1 ×1后再與全連接層相連接,可以減少網(wǎng)絡(luò)參數(shù)。池化層的池化區(qū)域?yàn)樘卣鲌D中的連續(xù)區(qū)域,對(duì)小的形態(tài)改變具有不變性,不僅能夠逐步減少特征圖的空間大小、參數(shù)數(shù)量、內(nèi)存占用和計(jì)算量,而且擁有更大的感受野,可有效控制過(guò)擬合現(xiàn)象的發(fā)生。
為驗(yàn)證本文創(chuàng)新工作的有效性與先進(jìn)性,實(shí)驗(yàn)部分主要做了3個(gè)方面的工作:1)本文建立的東巴象形文字?jǐn)?shù)據(jù)集對(duì)比實(shí)驗(yàn)及分析;2)本文提出的東巴象形文字識(shí)別方法對(duì)比實(shí)驗(yàn)及分析,包括網(wǎng)絡(luò)改進(jìn)前后的對(duì)比實(shí)驗(yàn);3)結(jié)合實(shí)驗(yàn)結(jié)果,分析歸納了目前仍存在的問(wèn)題。
實(shí)驗(yàn)中所有對(duì)比實(shí)驗(yàn)均在表1所示的實(shí)驗(yàn)平臺(tái)上運(yùn)行。
表1 實(shí)驗(yàn)環(huán)境配置Table 1 Experimental environment configurations
實(shí)驗(yàn)epoch設(shè)置為80,初始學(xué)習(xí)率設(shè)置為0.001,每50個(gè)epoch將學(xué)習(xí)率降低為原來(lái)的三分之一,直到運(yùn)行結(jié)束所有epoch。
本文梯度優(yōu)化函數(shù)選擇Adam函數(shù),損失函數(shù)使用交叉熵函數(shù),交叉熵函數(shù)定義如式(11)所示:
其中xj代表全連接層第j個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)輸出值。
本文改進(jìn)的ResNet模型具體參數(shù)如表2所示。
表2 本文網(wǎng)絡(luò)參數(shù)設(shè)計(jì)Table 2 Network configurations of this paper
目前關(guān)于東巴象形文字的數(shù)據(jù)集較少,文獻(xiàn)[8-10]是目前已知的3個(gè)東巴象形文字?jǐn)?shù)據(jù)集,因此將本文的數(shù)據(jù)集與上述3種數(shù)據(jù)集都進(jìn)行了對(duì)比實(shí)驗(yàn)。
3.2.1 數(shù)據(jù)集有效性驗(yàn)證
這里選取在圖像識(shí)別領(lǐng)域表現(xiàn)優(yōu)異的Res-Net18、ResNet34、VGGNet以及本文的改進(jìn)網(wǎng)絡(luò)模型在本文建立的東巴象形文字?jǐn)?shù)據(jù)集上進(jìn)行識(shí)別效果對(duì)比。在數(shù)據(jù)集中隨機(jī)選取5 000張圖像計(jì)算其均值和方差,然后將圖像歸一化處理后輸入網(wǎng)絡(luò)。隨機(jī)選取數(shù)據(jù)集圖片總數(shù)的80%作為訓(xùn)練集,即178 223張圖片,其余44 827張圖片作為測(cè)試集。在訓(xùn)練集上訓(xùn)練網(wǎng)絡(luò)模型后,在測(cè)試集上對(duì)1 387個(gè)東巴象形文字(包括異體字)進(jìn)行識(shí)別準(zhǔn)確率測(cè)試。其實(shí)驗(yàn)結(jié)果如表3所示。
表3 數(shù)據(jù)集有效性驗(yàn)證實(shí)驗(yàn)Table 3 Experiment of dataset validity verification
從表3中可以看出,對(duì)于不同的網(wǎng)絡(luò)模型,本文建立的東巴象形文字?jǐn)?shù)據(jù)集都獲得了高于98%的識(shí)別準(zhǔn)確率,最高可達(dá)98.65%,這說(shuō)明本文建立的東巴象形文字?jǐn)?shù)據(jù)集是有效的,每個(gè)東巴象形文字多達(dá)160多張書(shū)寫(xiě)各異的圖片,其數(shù)據(jù)規(guī)模完全滿足具體識(shí)別的要求。
3.2.2 數(shù)據(jù)集先進(jìn)性驗(yàn)證
文獻(xiàn)[8-10]分別給出了3種東巴象形文字識(shí)別方法和與之對(duì)應(yīng)的3個(gè)東巴象形文字?jǐn)?shù)據(jù)集,這里采用這3種識(shí)別方法在本文提出的數(shù)據(jù)集上分別進(jìn)行了識(shí)別準(zhǔn)確率方面的對(duì)比實(shí)驗(yàn)。表4給出了各個(gè)數(shù)據(jù)集能夠識(shí)別的字?jǐn)?shù)和不同模型在數(shù)據(jù)集上進(jìn)行識(shí)別的準(zhǔn)確率。
從表4中可以看出,首先本文建立的數(shù)據(jù)集能夠識(shí)別的東巴象形文字最多;其次,相同的網(wǎng)絡(luò)模型在不同的東巴象形文字?jǐn)?shù)據(jù)集上取得的識(shí)別效果不同,相較于其他3個(gè)文獻(xiàn)所建立的數(shù)據(jù)集,本文建立的數(shù)據(jù)集采用3種相對(duì)應(yīng)的網(wǎng)絡(luò)模型都取得了最高的識(shí)別準(zhǔn)確率,說(shuō)明本文建立的數(shù)據(jù)集在數(shù)據(jù)規(guī)模和數(shù)據(jù)質(zhì)量上都是目前最好的,也說(shuō)明優(yōu)秀的數(shù)據(jù)集可輔助提高深度學(xué)習(xí)模型的性能。
表4 數(shù)據(jù)集先進(jìn)性驗(yàn)證實(shí)驗(yàn)Table 4 Experiment of dataset advancement verification
根據(jù)東巴象形文字識(shí)別的特點(diǎn),本文對(duì)Res-Net模型進(jìn)行了改進(jìn),提高了東巴象形文字的識(shí)別準(zhǔn)確率。這里將驗(yàn)證本文網(wǎng)絡(luò)模型改進(jìn)的有效性。通過(guò)將其與采用殘差跳躍連接加傳統(tǒng)池化方式以及無(wú)殘差跳躍連接加最大池化方式的網(wǎng)絡(luò)模型進(jìn)行消融實(shí)驗(yàn)。同時(shí),將本文改進(jìn)的網(wǎng)絡(luò)模型與文獻(xiàn)[8-10]中取得識(shí)別準(zhǔn)確率最高的網(wǎng)絡(luò)模型以及ResNet34進(jìn)行對(duì)比實(shí)驗(yàn),以驗(yàn)證其先進(jìn)性。所有實(shí)驗(yàn)在本文建立的數(shù)據(jù)集上進(jìn)行。
3.3.1 算法的有效性驗(yàn)證
為了驗(yàn)證本文改進(jìn)ResNet模型的有效性,這里進(jìn)行了改進(jìn)前后的對(duì)比實(shí)驗(yàn)。將本文改進(jìn)的網(wǎng)絡(luò)模型(殘差+最大池化)與殘差加傳統(tǒng)池化、無(wú)殘差加最大池化3種網(wǎng)絡(luò)模型進(jìn)行識(shí)別效果對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示。
表5 算法有效性驗(yàn)證實(shí)驗(yàn)Table 5 Experiment of algorithm validity verification
由表5可以看出,本文改進(jìn)的殘差跳躍連接加最大池化下采樣網(wǎng)絡(luò)模型取得了最高的識(shí)別準(zhǔn)確率,相較于殘差跳躍連接加傳統(tǒng)池化的網(wǎng)絡(luò)模型提高了0.54%;相較于無(wú)殘差跳躍連接加最大池化下采樣的網(wǎng)絡(luò)模型提高了1.01%,從而驗(yàn)證了本文改進(jìn)殘差跳躍連接加最大池化網(wǎng)絡(luò)模型的有效性。
3.3.2 算法的先進(jìn)性驗(yàn)證
為了驗(yàn)證本文改進(jìn)網(wǎng)絡(luò)模型的先進(jìn)性,在相同的實(shí)驗(yàn)環(huán)境下,本文分別與文獻(xiàn)[8]采用的Res-Net18網(wǎng)絡(luò)模型、文獻(xiàn)[9]采用的VGGNet網(wǎng)絡(luò)模型以及文獻(xiàn)[10]采用的20層ResNet網(wǎng)絡(luò)模型進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
表6 算法先進(jìn)性驗(yàn)證實(shí)驗(yàn)Table 6 Experiment of model advancement verification
從表6中可以看出,本文改進(jìn)的網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率最高,相較于文獻(xiàn)[8]的方法提高了0.43%;相較于文獻(xiàn)[9]的方法提高了0.31%;相較于文獻(xiàn)[10]的方法提高了0.95%。充分驗(yàn)證了本文改進(jìn)網(wǎng)絡(luò)模型的先進(jìn)性。
同時(shí),本文又與層數(shù)有所增加的ResNet34網(wǎng)絡(luò)進(jìn)行了對(duì)比性實(shí)驗(yàn)。從表6中可以看出,34層網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率不僅低于本文的33層網(wǎng)絡(luò)模型,而且也低于18層的網(wǎng)絡(luò)模型,這說(shuō)明網(wǎng)絡(luò)層數(shù)的簡(jiǎn)單疊加在具體的東巴象形文字識(shí)別中不一定獲得更好的識(shí)別效果。
雖然本文取得了98.65%的識(shí)別準(zhǔn)確率,但對(duì)于誤識(shí)別問(wèn)題我們又進(jìn)行了深入分析,通過(guò)觀察多次實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)錯(cuò)誤識(shí)別的東巴象形文字都有一個(gè)共同的特點(diǎn),那就是都有與之非常相似的東巴象形文字,圖6給出了部分相似文字的示例。
圖6 相似東巴象形文字示例Fig.6 Samples of similar Dongba pictographs
從圖6可以看出,“水槽”和“水澗”,“側(cè)視之人”和“左”或“爬”等字的區(qū)別僅僅體現(xiàn)在線條的彎曲程度不同;“腰”和“爬”更多體現(xiàn)在它們之間大小有所差異;“神山山腳”和“神山山腰”,“中”和“矛”主要體現(xiàn)在圖像上部分所畫(huà)的高度不同;“尾巴”和“樹(shù)倒”的差異體現(xiàn)在右下角線條的長(zhǎng)度和彎曲程度;“臂膀”和“手”則幾乎相同。
可見(jiàn),東巴象形文字中有很多相似乃至接近“相同”的文字,又因?yàn)闁|巴象形文字的手工書(shū)寫(xiě)形式,隨意性較大,這些相似的東巴象形文字在書(shū)寫(xiě)過(guò)程中極容易導(dǎo)致差異性變小、辨識(shí)度下降,這是影響東巴象形文字識(shí)別準(zhǔn)確率的主要原因。
針對(duì)現(xiàn)有東巴象形文字識(shí)別方法存在的識(shí)別文字?jǐn)?shù)量少、識(shí)別準(zhǔn)確率較低等問(wèn)題,本文首先建立了包含1 387個(gè)東巴象形文字(包括異體字)、圖片總量達(dá)到22萬(wàn)余張的東巴象形文字?jǐn)?shù)據(jù)集,可識(shí)別的東巴象形文字大幅增加。通過(guò)擴(kuò)大數(shù)據(jù)集的規(guī)模,輔助提高了算法識(shí)別的準(zhǔn)確率;更為重要的是本文選擇ResNet模型作為改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)了殘差跳躍連接方式和卷積層的數(shù)量,并通過(guò)加入最大池化層實(shí)現(xiàn)了對(duì)下采樣的改進(jìn),更好地提取了東巴象形文字的紋理分布特征。通過(guò)對(duì)1 387個(gè)東巴象形文字(包括異體字)分別進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)ResNet模型識(shí)別準(zhǔn)確率平均達(dá)到98.65%,取得了當(dāng)前識(shí)別字?jǐn)?shù)最多、識(shí)別準(zhǔn)確率最高的效果。
未來(lái)將繼續(xù)擴(kuò)大東巴象形文字?jǐn)?shù)據(jù)集的文字?jǐn)?shù)量,力爭(zhēng)包含現(xiàn)存的所有東巴象形文字。針對(duì)其中相似度極高的文字,將研究設(shè)計(jì)專門(mén)的網(wǎng)絡(luò)模型來(lái)有效將它們區(qū)別開(kāi)來(lái),從而進(jìn)一步提高東巴象形文字識(shí)別的準(zhǔn)確率。