謝裕睿 董建娥
摘? 要: 東巴象形文字是古代納西族創(chuàng)造的文字,是世界文明的瑰寶。針對東巴象形文字傳播的局限性,提出了基于圖像處理和深度學(xué)習(xí)識別東巴文字的方法。文章通過構(gòu)造恒等殘差塊和卷積殘差塊來搭建20層ResNet模型,采用隨機梯度下降算法反向調(diào)整下一輪迭代的卷積層權(quán)值,經(jīng)過訓(xùn)練自動得到圖像相關(guān)特征參數(shù)并進行識別。實驗結(jié)果表明,該算法識別東巴文字的平均準確率達93.58%,具有較高的識別精度,取得了較好的識別效果,本研究可為東巴文字的保護工作提供參考和方法支持。
關(guān)鍵詞: 東巴象形文字; 二值化; relu激活函數(shù); ResNet; 隨機梯度下降; 特征提取
中圖分類號:TP391????????? 文獻標識碼:A???? 文章編號:1006-8228(2021)01-06-04
Research on Dongba hieroglyph recognition using ResNet network
Xie Yurui, Dong Jian'e
(College of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming, Yunnan 650224, China)
Abstract: Dongba hieroglyph, created by the ancient Naxi minority, is a treasure of world civilization. In view of the limitation of Dongba hieroglyph communication, a method of recognition of Dongba characters based on image processing and deep learning is proposed. In this paper, the 20-layer ResNet model is built by constructing the identity residual block and the convolution residual block, and the convolution layer weight of the next iteration is reversely adjusted by the stochastic gradient descent algorithm. After training, image related characteristic parameters are automatically obtained and identified. The experimental results show that the average accuracy of the algorithm in identifying Dongba characters is 93.58%, which has high recognition accuracy and achieves a good recognition effect. This study can provide reference and method support for the protection of Dongba hieroglyph.
Key words: Dongba hieroglyphic; binarization; relu activation function; ResNet; stochastic gradient descent; feature extraction
0 引言
東巴象形文字在唐朝初期開始出現(xiàn),主要刻在木石上,屬于古老的文字體系?,F(xiàn)如今,世界上僅有這一種象形文字仍在使用中,被譽為文字中的“活化石”。東巴文字是古代納西族社會歷史發(fā)展的縮影,具有重要的人文價值[1]。由于時代變遷、社會環(huán)境等因素的影響,現(xiàn)在能翻譯東巴經(jīng)典文學(xué)的僅有少數(shù)東巴祭司和研究學(xué)者,東巴文字的傳播存在局限性[2]。因此,研究利用現(xiàn)代信息化技術(shù)識別東巴文字的方法具有重要的意義。
王海燕、王紅軍等人針對東巴文字的五個拓撲特征(孔數(shù)、塊數(shù)、三叉點數(shù)、四叉點數(shù)、端點數(shù))進行統(tǒng)計,結(jié)合TTF字庫文件進行文字的錄入和顯示[3]。徐小力、蔣章雷等人結(jié)合拓撲特征與投影法,對東巴文字進行特征提取[4]。楊玉婷、康良厚等人在離散曲線演化算法的基礎(chǔ)上,提出了適用于東巴文字特征曲線的二次簡化算法[5]。目前在計算機識別領(lǐng)域中,對東巴文字的研究大多集中在特征提取,針對不同的數(shù)據(jù)集需要重新構(gòu)造不同特征,不具有通用性。本文基于深度殘差網(wǎng)絡(luò)(Deep Residual Network,ResNet)[6],以圖像處理技術(shù)為主要手段,建立了東巴象形文字識別系統(tǒng)。
1 數(shù)據(jù)集構(gòu)造及預(yù)處理
1.1 數(shù)據(jù)集構(gòu)造
由于東巴文字沒有形成統(tǒng)一標準的數(shù)據(jù)集,本文使用的圖像數(shù)據(jù)集均來自人工整理,共整理出536個單字,并進行人工標注注釋,將其分為家畜、動作、植物、稱謂、方位、時令、用具、形態(tài)、天文、飲食共十大種分類。在經(jīng)過圖像預(yù)處理后,擴充得到最終實驗數(shù)據(jù)集,隨機取其中的80%作為訓(xùn)練集,剩下的20%作為測試集。部分東巴文字數(shù)據(jù)集如圖1所示。
1.2 圖像預(yù)處理
在進行圖像采集的過程中,由于紙張表面的磨損程度不同及光照因素的影響,導(dǎo)致采集得到的圖像有部分干擾噪聲,需要對圖像進行二值化預(yù)處理,以減少孤立的黑色像素點。本文使用的方法是最大類間方差法,從最小灰度值遍歷到最大灰度值,計算圖像的前景和背景的灰度分布均勻方差,尋找最佳分割閾值[7]。經(jīng)過二值化處理后,東巴文字字符與圖片背景對比明顯,消除原背景的干擾噪聲,更便于后續(xù)深度學(xué)習(xí)的訓(xùn)練,效果如圖2所示。
2 基于ResNet網(wǎng)絡(luò)的東巴文字識別
2.1 殘差模塊
本文所采用的的深度學(xué)習(xí)算法為殘差神經(jīng)網(wǎng)絡(luò),殘差(即殘差單元)是指包含一個快捷連接(shortcut connection)的多層網(wǎng)絡(luò),網(wǎng)絡(luò)的優(yōu)化變得更容易[8]。假設(shè)x被作為初始數(shù)據(jù)直接從輸入傳到輸出,H(x)表示預(yù)期輸出,根據(jù)圖3所示的殘差結(jié)構(gòu)可知輸出H(x)=F(x)+x,那么實際學(xué)習(xí)目標F(x)=H(x)-x,F(xiàn)(x)表示殘差映射單元。
殘差模塊可以分為恒等殘差塊與非恒等卷積殘差塊,在做卷積操作時,若輸入數(shù)據(jù)維度與輸出數(shù)據(jù)維度相同,則可以直接使用如圖3所示的恒等殘差塊進行學(xué)習(xí)。若輸入與輸出數(shù)據(jù)的維度不匹配時,快捷連接上需要增加一個1*1的卷積,其作用是進行維度匹配,不參與網(wǎng)絡(luò)層數(shù)運算。
2.2 relu激活函數(shù)
激活函數(shù)在一個感知器中起著重要作用,為了增強網(wǎng)絡(luò)的學(xué)習(xí)能力,使用的激活函數(shù)通常是一個連續(xù)并可導(dǎo)的非線性函數(shù)。同時為了使得訓(xùn)練的效率和穩(wěn)定性不受到影響,激活函數(shù)的導(dǎo)函數(shù)的值域要合理地控制在一個合適的區(qū)間內(nèi),不能過大或過小。常見的激活函數(shù)有:sigmoid函數(shù)、logistic函數(shù)、tanh函數(shù)、relu函數(shù)等[9],本文使用的是relu函數(shù)。
relu(Rectified Linear Unit,修正線性單元)函數(shù),也叫rectifier函數(shù),在當前階段的深度學(xué)習(xí)領(lǐng)域使用占比最多[10]。因為ReLU函數(shù)的圖像特性導(dǎo)致該激活函數(shù)的收斂速度比其他激活函數(shù)快得多,其在整個正無窮區(qū)間都是單調(diào)遞增的線性函數(shù),不存在梯度消失的問題。使用relu函數(shù)的網(wǎng)絡(luò)學(xué)習(xí)速度更快,訓(xùn)練的時間更短,只需要一個閾值便可以得到激活值,不需要對輸入進行歸一化處理來防止梯度飽和。
2.3 隨機梯度下降算法
為使神經(jīng)網(wǎng)絡(luò)的誤差盡量小,損失函數(shù)要取到最小值,這個過程可以近似看作求取損失函數(shù)最優(yōu)解的過程。對損失函數(shù)最小值的尋找方向一定是其下降幅度最大的方向,即損失函數(shù)初始點位處梯度向量的方向。在訓(xùn)練輪數(shù)進行不斷迭代的過程中應(yīng)用隨機梯度下降法,得出最小化的損失函數(shù)以及訓(xùn)練模型的參數(shù)值,反向調(diào)整卷積核的輸入權(quán)值[11]。隨機梯度下降算法的相關(guān)計算公式如式⑴、⑵、⑶所示,公式的參數(shù)意義如表1所示。
[g(?)=j=0n?jj] ⑴
[h(?)=12mi=1m(yi-g?(xi))2] ⑵
[?:=?-η??h(?)]? ⑶
首先給網(wǎng)絡(luò)參數(shù)權(quán)重設(shè)置一個初始值,讓損失函數(shù)向著最大變化方向更新權(quán)重。學(xué)習(xí)率取值太小會使得網(wǎng)絡(luò)收斂速度過慢,反之會導(dǎo)致迭代過快而錯過最小值。合適的學(xué)習(xí)率能使得網(wǎng)絡(luò)快速收斂,并穩(wěn)定找到最優(yōu)解。本文經(jīng)過多次實驗,最后將學(xué)習(xí)率設(shè)置為0.01。
2.4 ResNet模型構(gòu)建
ResNet可以解決隨著網(wǎng)絡(luò)層數(shù)加深出現(xiàn)的網(wǎng)絡(luò)飽和、識別率下降的問題,在網(wǎng)絡(luò)達到最優(yōu)性能時,多余的網(wǎng)絡(luò)層做恒等映射來解決梯度消失問題[12]。本文構(gòu)建ResNet網(wǎng)絡(luò)的層數(shù)為20層,由五大部分組成,結(jié)構(gòu)組成如圖4所示。
⑴ 第一部分將輸入數(shù)據(jù)通過一個卷積層進行特征提取,批量歸一化固定每層訓(xùn)練的均值和方差,從而穩(wěn)定訓(xùn)練,激活函數(shù)通過數(shù)值優(yōu)化學(xué)習(xí)網(wǎng)絡(luò)參數(shù),采用最大池化突出輸入圖像所包含的紋理特征。此時網(wǎng)絡(luò)層數(shù)為1層,通道數(shù)為64。
⑵ 第二部分是由3個恒等殘差塊組成,輸入和輸出的維度沒有變化,網(wǎng)絡(luò)層數(shù)為6層,輸出通道數(shù)仍為64。
⑶ 第三部分先經(jīng)過一個卷積殘差塊進行升維的處理,再經(jīng)過兩個恒等殘差塊,網(wǎng)絡(luò)層數(shù)為6層,輸出通道數(shù)變?yōu)?28。
⑷ 第四部分與第三部分結(jié)構(gòu)相同,升維處理后通道數(shù)為256;
⑸ 第五部分使用全局平均池化,將數(shù)值平均成標量,使用局部連接提取的圖像特征將在全連接層中失去原有的三維結(jié)構(gòu),被展開成一維的特征向量輸出。
3 實驗結(jié)果與分析
3.1 實驗參數(shù)
設(shè)置初始學(xué)習(xí)率為0.01,權(quán)重衰減為0.0001、迭代次數(shù)為79次。在訓(xùn)練過程中,使用交叉熵作為損失函數(shù),反向傳播通過隨機梯度下降算法調(diào)整下一輪迭代的卷積層權(quán)值,保存模型在此過程中性能最好的參數(shù)權(quán)重。
3.2 實驗結(jié)果
通過訓(xùn)練驗證,本文構(gòu)建的ResNet模型識別準確率曲線如圖5所示,損失函數(shù)曲線如圖6所示。
從圖5可以看出訓(xùn)練剛開始時識別準確率提高的很快,且驗證數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集同步上升,隨著迭代次數(shù)的加深,準確率逐漸趨近于98%。由圖6損失函數(shù)曲線圖可看出訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集的損失函數(shù)隨著訓(xùn)練次數(shù)加深在逐漸變小,并逐漸趨近于0,由此可以得出:模型訓(xùn)練結(jié)果較為理想。獲取文字標簽,選擇非訓(xùn)練數(shù)據(jù)集中的圖像對訓(xùn)練完成的模型進行隨機測試,最終輸出識別結(jié)果,部分識別率統(tǒng)計如表2所示。
據(jù)表2中的隨機測試錯誤樣本數(shù)可知識別錯誤率較低,本文通過對536個單字中的94個東巴文字(共385個測試樣本)進行測試,統(tǒng)計最終平均識別準確率為93.58%,驗證了殘差神經(jīng)網(wǎng)絡(luò)的良好性能。
4 結(jié)束語
本文研究了基于深度學(xué)習(xí)的東巴象形文字識別方法,描述了對東巴文字印刷體的圖像預(yù)處理、殘差神經(jīng)網(wǎng)絡(luò)識別的過程。與傳統(tǒng)機器學(xué)習(xí)方法相比,本文使用的算法可以自動提取圖像的特征參數(shù),具有更客觀的訓(xùn)練與識別過程,識別效果較好。在實際應(yīng)用中,東巴文字圖像復(fù)雜度高,故本研究需要繼續(xù)擴大東巴文字的數(shù)據(jù)庫,在東巴文字不同復(fù)雜組合等方面做進一步深入研究。
參考文獻(References):
[1] 胡靜.甲骨文與東巴文指事字比較研究[J].現(xiàn)代語文(語言研究版),2017.3:79-81
[2] 李四玉.納西族非物質(zhì)文化遺產(chǎn)研究綜述[J].文山學(xué)院學(xué)報,2018.31(4):57-63
[3] 王海燕,王紅軍,徐小力.基于拓撲特征的納西東巴文象形文字輸入方法研究[J].中文信息學(xué)報,2016.30(4):106-109
[4] 徐小力,蔣章雷,吳國新等.基于拓撲特征和投影法的東巴象形文識別方法研究[J].電子測量與儀器學(xué)報,2017.31(1):150-154
[5] 楊玉婷,康厚良,廖國富.東巴象形文字特征曲線簡化算法研究[J].圖學(xué)學(xué)報,2019.40(4):697-703
[6] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778
[7] 劉麗霞,李寶文,王陽萍等.改進Canny邊緣檢測的遙感影像分割[J].計算機工程與應(yīng)用,2019.55(12):54-58,180
[8] 王曉紅,劉芳,麻祥才.基于深度殘差學(xué)習(xí)的彩色圖像去噪研究[J].包裝工程,2019.40(17):235-242
[9] 安麗娜,蔣銳鵬.基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別研究[J].無線互聯(lián)科技,2019.16(20):31-32
[10] Bjarne Grimstad,Henrik Andersson. ReLU networks as surrogate models in mixed-integer linear programs[J]. Computers and Chemical Engineering,2019.131.
[11] 王功鵬,段萌,牛常勇.基于卷積神經(jīng)網(wǎng)絡(luò)的隨機梯度下降算法[J].計算機工程與設(shè)計,2018.39(2):441-445,462
[12] 段祎林,馬儇龍,賈端.基于ResNet驗證碼混淆風(fēng)格的遷移學(xué)習(xí)方法[J].西安石油大學(xué)學(xué)報(自然科學(xué)版),2019.34(6):121-125
收稿日期:2020-08-25
基金項目:云南省農(nóng)業(yè)基礎(chǔ)研究聯(lián)合專項青年項目(2018FG001-101);云南省農(nóng)業(yè)基礎(chǔ)研究聯(lián)合專項青年項目(2017FG001-074)
作者簡介:謝裕睿(1998-),女,江蘇淮安人,本科生,主要研究方向:圖像處理。
通訊作者:董建娥(1983-),女,陜西漢中人,碩士,講師,主要研究方向:信息安全、信號與信息處理。