亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于神經(jīng)網(wǎng)絡(luò)的多字體藏文印刷體字丁識別

2022-11-29 12:31:16三知加貢去卓么才讓加卓瑪扎西

計算機仿真 2022年10期

三知加，貢去卓么，才讓加，卓瑪扎西

(1. 青海師范大學(xué)計算機學(xué)院，青海西寧 810008；2. 青海省藏文信息處理與機器翻譯重點實驗室，青海西寧 810008；3. 藏文信息處理教育部重點實驗室，青海西寧 810008；4. 青海省藏文信息處理工程技術(shù)研究中心，青海西寧 810008)

1 引言

藏文文獻(xiàn)浩如煙海，國內(nèi)用藏文記載的文獻(xiàn)數(shù)量僅次于漢文文獻(xiàn)，是中華民族文化寶庫中一顆璀璨的明珠[1]，這些藏文文獻(xiàn)的數(shù)字化對傳承中華民族優(yōu)秀文化具有十分重要的意義。本文針對印刷體藏文字丁識別為例對藏文印刷體字丁數(shù)據(jù)資源的建設(shè)、標(biāo)記、分類和識別進(jìn)行了研究。

目前，已有一些多字體印刷字符識別的研究工作，在外文字符識別方面，2011年文獻(xiàn)[2]和[3]進(jìn)行了多字體和多字號的印刷體卡納大語字符識別研究；2013年文獻(xiàn)[4]進(jìn)行了印刷古木基文、英文字符和數(shù)字的預(yù)分割多字體字符以及數(shù)字的腳本識別研究；2017年文獻(xiàn)[5]對印刷體泰文字符分割與識別進(jìn)行了研究，文獻(xiàn)[6]針對基于深度學(xué)習(xí)的手寫孟加拉文數(shù)字識別進(jìn)行了研究，兩者皆用卷積神經(jīng)網(wǎng)絡(luò)方法探索了泰文和孟加拉文數(shù)字的自動識別；2017年文獻(xiàn)[7]使用卷積網(wǎng)絡(luò)對40種阿拉伯文計算機字體和阿拉伯文手寫體進(jìn)行了分類預(yù)測；同年文獻(xiàn)[8-9]以MNIST為基礎(chǔ)發(fā)表了Fashion-MNIST數(shù)據(jù)集和EMNIST數(shù)字字符數(shù)據(jù)集；2019年文獻(xiàn)[10-11]使用深度學(xué)習(xí)技術(shù)進(jìn)行了多字體印刷阿姆哈拉文字符圖像識別和基于卷積神經(jīng)網(wǎng)絡(luò)的多字體大字號信德語印刷體識別研究。

在漢文和國內(nèi)少數(shù)民族文字識別方面，2017年文獻(xiàn)[12]進(jìn)行了基于多池化卷積神經(jīng)網(wǎng)絡(luò)的多字體漢文印刷體識別研究；2010年文獻(xiàn)[13-14]對多字體印刷蒙古文文檔進(jìn)行了研究；2004年文獻(xiàn)[15]針對多字體多字號維吾爾文印刷體字符識別進(jìn)行了研究。

在多字體藏文字符識別研究方面比英文、漢文等相對滯后，文獻(xiàn)[16-21]對藏文字符識別的預(yù)處理、文本行的分割、特征選擇和分類器進(jìn)行了初步研究；2003-2004年文獻(xiàn)[22-23]利用歐氏距離(EDD)分類器的設(shè)計方法對多字體藏文印刷體字符的預(yù)處理、歸一化進(jìn)行了研究。2003年，文獻(xiàn)[22]利用最近鄰分類器對多字體藏文印刷體識別進(jìn)行了研究；2018年文獻(xiàn)[24]利用歐氏距離(EDD)分類器對印刷體藏文字體的識別進(jìn)行了研究。

以上研究在理論、模型和方法上為多字體藏文印刷體字丁識別提供很好的思路和結(jié)果，但從整個多字體藏文印刷體字丁識別方面存在著如下問題：一是訓(xùn)練數(shù)據(jù)資源的規(guī)模較小、缺乏精確度較高的數(shù)據(jù)資源，無法支撐深度學(xué)習(xí)對數(shù)據(jù)規(guī)模和精確度的要求；二是目前還沒有文獻(xiàn)利用深度學(xué)習(xí)理論和方法探討藏文多字體識別；三是研究的藏文字體類別單一或較少。

針對以上問題本文提出了一個基于神經(jīng)網(wǎng)絡(luò)的多字體藏文印刷體字丁識別方法。本方法主要能較好地解決印刷體藏文字丁粘連和二維布局字丁字體各異的識別問題。而本方法的實現(xiàn)步驟可分為三個階段性工作：

1)構(gòu)建了含有90種藏文烏金字體(楷體)和48960張藏文字丁圖像的數(shù)據(jù)集，將其命名為TPCD。并對TPCD進(jìn)行了較為精確的標(biāo)記。

2)利用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network，F(xiàn)NN)和支持向量機(Support Vector Machine，SVM)作為基線模型(系統(tǒng))，利用參數(shù)較小的卷積神經(jīng)網(wǎng)絡(luò)和(Convolutional Neural Network Small，CNN-Small)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)模型等模型對TPCD進(jìn)行實驗。

3)通過分析上一階段所獲取的實驗結(jié)果，將基線系統(tǒng)(FNN、SVM)與CNN-Small或CNN的各個實驗結(jié)果進(jìn)行對比。從而證實出本方法的有效性。

2 數(shù)據(jù)集構(gòu)建與預(yù)處理

圖1 藏文音節(jié)的分割示意圖

圖2 藏文字丁的分割示意圖

圖3 藏文構(gòu)件的分割示意圖

2.1 數(shù)據(jù)集構(gòu)建

從圖片文字分割任務(wù)的角度而言，藏文音節(jié)之間的像素特征明顯，從而容易分割，但音節(jié)數(shù)量龐大(理論上藏文音節(jié)有18000多個)，且藏文字體類別龐雜，給識別任務(wù)帶了很大困擾并增加了難度。雖然藏文構(gòu)件只有211個，由于藏文構(gòu)件之間存在著嚴(yán)重的粘連現(xiàn)象，難以分割，同樣對藏文字符識別帶來了困難。但藏文字丁之間的粘連現(xiàn)象非常少，基本上不存在相互粘連的現(xiàn)象，且藏文字丁只有544個，減少了分類，同時簡化了識別任務(wù)，保持了藏文疊字結(jié)構(gòu)，從而減少藏文組字結(jié)構(gòu)在空間上的信息損失，所以，本文選取了藏文字丁為分割單元，構(gòu)建了TPCD數(shù)據(jù)集。

2.2 數(shù)據(jù)預(yù)處理

2.2.1 數(shù)據(jù)采集

本文從4300萬字節(jié)的藏語語料庫中采集了90種藏文字體和544個藏文字丁，并將這90種藏文印刷體字體和544個藏文字丁轉(zhuǎn)換為圖片格式，共采集了48960張藏文印刷體字丁圖像，基本覆蓋了目前國內(nèi)外所有的藏文印刷體字體。

2.2.2 數(shù)據(jù)標(biāo)記

本文在構(gòu)建TPCD數(shù)據(jù)集時對數(shù)據(jù)進(jìn)行了精確的標(biāo)記，首先將544字丁標(biāo)記為數(shù)字0到543；然后聯(lián)合字丁標(biāo)記將90種字體分別標(biāo)記為0＿0001—543＿0090，如0＿0001中0表示第一個字丁、0001表示第一個字丁的第一種字體；543＿0090中543表示第543個字丁，0090表示第90種字體。

2.2.3 數(shù)據(jù)歸一化處理

對TPDC數(shù)據(jù)集完成精確標(biāo)記后，對48960張藏文字丁圖片進(jìn)行格式、背景、像素的統(tǒng)一，將格式統(tǒng)一為PNG，將背景統(tǒng)一為黑色，將像素統(tǒng)一為72×72，即對數(shù)據(jù)進(jìn)行歸一化處理。歸一化處理的目的是為了不影響模型參數(shù)梯度的強度，更有利于模型的訓(xùn)練和收斂[2]。

2.2.4 數(shù)據(jù)二值化處理

為了便于模型的訓(xùn)練和不損失圖片的信息，本文對48960張藏文字丁圖片進(jìn)行了二值化處理，首先將圖片的RGB通道和透明度通道全部轉(zhuǎn)換為單一的灰度通道，然后進(jìn)行二值化，當(dāng)像素值為0時表示黑，像素值為1時表示白，其它數(shù)字表示不同的灰度，如圖4所示。

圖4 藏文字丁的二值化圖

3 模型與實驗

3.1 基于CNN藏文字丁識別模型

卷積神經(jīng)網(wǎng)絡(luò)(CCN)模型包含卷積層(Convolution)、池化層(Pooling)以及全連接層(Fully Connected)，是常用的圖像識別模型。本文針對藏文字丁識別問題構(gòu)建了含有五層卷積層、三層池化層和一層全連接層的CNN模型。其流程圖如圖5所示。

圖5 CNN藏文字丁分類器架構(gòu)

其中首先對藏文字丁圖像進(jìn)行卷積操作，然后進(jìn)行池化操作，池化操作之后使用ReLu激活函數(shù)對池化層進(jìn)行非線性變換，最后進(jìn)行全連接操作，然后輸出結(jié)果。

本文將Softmax交叉熵作為目標(biāo)函數(shù)，其計算公式如下式所示

(1)

(2)

3.2 實驗

3.2.1 參數(shù)設(shè)置

本文使用的深度學(xué)習(xí)框架為Tensorflow2.2.0；GPU為NVIDIA Quadro P6000。主要參數(shù)設(shè)置見表1、表2、表3所示。

表1 SVM的主要參數(shù)

表1中的rbf表示高斯核函數(shù)。

表2 FNN的主要參數(shù)

表3 CNN的主要參數(shù)

3.2.2 實驗結(jié)果

本文實驗的結(jié)果如表4所示。

表4 模型性能的比較

由表4可見，CNN在驗證集和測試集上的識別結(jié)果都優(yōu)于基線模型和參數(shù)較少的CNN-Small模型。與基線模型相比CNN在測試集上的識別率、召回率和F1值分別提升了7.2%、8.1%和8.1%。

圖6為各模型隨訓(xùn)練輪數(shù)而變化的準(zhǔn)確率曲線圖。

圖6 各模型準(zhǔn)確率曲線

由圖6可見，CNN與SVM、FNN和CNN-Small相比，在驗證集和測試集上的識別率、召回率、F1值和損失值最佳，且收斂快穩(wěn)定性強。

3.2.3 實驗分析

本文將識別率、召回率和F1值作為多字體藏文印刷體字丁識別的評價指標(biāo)，在訓(xùn)練基線模型SVM、FNN和CNN-Small時，隨著訓(xùn)練輪數(shù)的增加識別率、召回率和F1值趨于穩(wěn)定，同樣，當(dāng)訓(xùn)練CNN時其結(jié)果同上，但相對于SVM、FNN和CNN-Small模型，CNN模型的效果更佳。

雖然CNN模型在測試集上的識別率、召回率和F1值達(dá)到了97%、96.6%和96.6%，但多字體藏文印刷體字丁在印刷過程中存在著字體畸變現(xiàn)象(如圖7所示)從而影響了識別率、召回率和F1值。隨著字體數(shù)目的減小識別率、召回率和F1值增大，即：字體數(shù)量與識別率、召回率和F1值成反比關(guān)系(如表5所示)。

表5 字體數(shù)量與識別率、召回率和F1值的比較

圖7 字體畸變和斷筆現(xiàn)象

圖8 位置異變現(xiàn)象

4 結(jié)論

本文圍繞藏文多字體印刷體字丁數(shù)據(jù)資源建設(shè)、數(shù)據(jù)標(biāo)記、藏文字體分類和識別等問題進(jìn)行了探討，構(gòu)建了藏文印刷體字丁數(shù)據(jù)集TPCD，并對TPCD進(jìn)行了精確標(biāo)記，從而構(gòu)建了一個規(guī)模較大、精確度較高的公開數(shù)據(jù)集，然后利用深度學(xué)習(xí)框架對TPCD進(jìn)行了藏文印刷體字丁識別，嘗試解決多字體藏文印刷體字丁識別問題。通過對90種藏文烏金字體(楷體)的544個藏文字丁類別進(jìn)行了實驗，實驗結(jié)果證明CNN模型在多字體藏文印刷體字丁識別方面具有很強的魯棒性，在測試集上的識別率、召回率和F1值優(yōu)于SVM、FNN和CNN-Small，分別達(dá)到了97%、96.6%和96.6%，證明了其有效性。但是字體數(shù)量、字丁畸變、斷筆和位置異變等現(xiàn)象對多字體藏文印刷體字丁的識別率、召回率和F1值有直接影響。