亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力機(jī)制藏文烏金體古籍文字識(shí)別研究

2023-10-21 02:36:40龍炳鑫

計(jì)算機(jī)技術(shù)與發(fā)展 2023年10期

童攀,龍炳鑫,擁措*

(1.西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院,西藏拉薩 850000;2.西藏大學(xué) 藏文信息技術(shù)人工智能西藏自治區(qū)重點(diǎn)實(shí)驗(yàn)室,西藏拉薩 850000;3.西藏大學(xué) 藏文信息技術(shù)教育部工程研究中心,西藏拉薩 850000)

0 引言

藏文烏金體古籍文字識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)難題,同時(shí)也是國內(nèi)外文獻(xiàn)資源數(shù)字化領(lǐng)域的一個(gè)重要研究方向。藏文烏金體古籍是藏族文化的重要組成成果,同時(shí)也是中華寶貴文化遺產(chǎn)的一部分,藏文古籍的數(shù)字化,對(duì)研究藏族文化教育,藏學(xué)研究、傳承優(yōu)秀傳統(tǒng)文化等方面都發(fā)揮著極其重要的作用。目前,多數(shù)藏文烏金體古籍識(shí)別算法在清晰的藏文烏金體古籍圖像中能取得較好的識(shí)別效果,而對(duì)于藏文烏金體古籍中存在的文字粘連和背景復(fù)雜的圖像,其識(shí)別效果有待進(jìn)一步提高。

國內(nèi)外關(guān)于藏文古籍識(shí)別的研究相對(duì)稀少。20世紀(jì)90年代日本情報(bào)處理學(xué)會(huì)為了研究藏文佛教典籍,設(shè)立了藏文字符識(shí)別項(xiàng)目,1996年完成了識(shí)別系統(tǒng)[1]。該系統(tǒng)并沒有解決藏文古籍圖像中的文字切分問題,需要人工切分,并且只完成了字符識(shí)別功能。為了解決藏文古籍字切分的問題,Hedayati等人[2]首次將廣義隱馬爾可夫模型應(yīng)用在藏文古籍識(shí)別流程中。西藏大學(xué)趙棟材等人[3]首次將反向傳播網(wǎng)絡(luò)應(yīng)用在藏文古籍文字識(shí)別研究。為了增加識(shí)別效果,西藏大學(xué)高飛[4]進(jìn)行藏文古籍圖像二值化研究。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,藏文古籍文字識(shí)別有了更多的研究。2018年,王筱娟[5]首次將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于藏文古籍相似字的識(shí)別,該方法有效提高了在藏文烏金體古籍相似字符的識(shí)別準(zhǔn)確率。2019年,西北民族大學(xué)李振江[6]提出基于邊緣對(duì)比的二值化方法,西北民族大學(xué)韓躍輝[7]進(jìn)行基于色彩空間轉(zhuǎn)換的二值化研究。同年李振江[8]提出利用基線信息進(jìn)行字符識(shí)別方法,將藏字分為上下兩部分進(jìn)行識(shí)別,提高了藏文字符的識(shí)別準(zhǔn)確率。2021年,由于藏文古籍?dāng)?shù)據(jù)稀少且難以收集的問題,西藏大學(xué)仁青東主[9]進(jìn)行了藏文古籍文字識(shí)別數(shù)據(jù)的合成方法研究,一定程度上解決了藏文古籍訓(xùn)練規(guī)模小的問題。在藏文古籍的系統(tǒng)應(yīng)用中,韓躍輝[10]采用基于卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network,CNN)模型的字丁識(shí)別算法,設(shè)計(jì)并完成了藏文古籍識(shí)別系統(tǒng),提高了藏文古籍7 240類字丁的識(shí)別率。胡鵬飛[11]采用藏文文本行數(shù)據(jù)集合成的方法以及端到端的深度學(xué)習(xí)模型,實(shí)現(xiàn)了文本行圖像的整行識(shí)別。仁青東主[12]使用殘差網(wǎng)絡(luò)和雙向循環(huán)長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)以及基于滑動(dòng)窗的行識(shí)別技術(shù),解決了行文字較長的問題。2021年,西藏大學(xué)完成承擔(dān)的國家重點(diǎn)研發(fā)項(xiàng)目,設(shè)計(jì)并完成了藏文古籍木刻本版面分析于文字識(shí)別系統(tǒng),可以完成對(duì)整頁藏文烏金體古籍的識(shí)別。

現(xiàn)有的藏文烏金體古籍文字識(shí)別中的問題包括:(1)藏文烏金體古籍文字識(shí)別數(shù)據(jù)集資源稀少;(2)藏文烏金體古籍文字粘連圖像和背景復(fù)雜圖像識(shí)別效果不佳;(3)缺少一個(gè)行之有效的藏文識(shí)別評(píng)測指標(biāo)。針對(duì)這些問題,該文的主要貢獻(xiàn)為:(1)提出以藏文字丁為基本單位的藏文字丁準(zhǔn)確率評(píng)測標(biāo)準(zhǔn),并應(yīng)用在西藏大學(xué)國家重點(diǎn)研發(fā)項(xiàng)目中;(2)在文獻(xiàn)[13]提出的Encoder-Decoder模型以及文獻(xiàn)[14]提出的注意力機(jī)制的基礎(chǔ)上設(shè)計(jì)了識(shí)別模型算法,該模型在只有616張藏文烏金體古籍圖像作為數(shù)據(jù)集的情況下,以藏文字丁準(zhǔn)確率為標(biāo)準(zhǔn)取得了90.55%的字丁識(shí)別效果。

1 相關(guān)工作

1.1 文字識(shí)別

近些年來,主流的文字識(shí)別方法主要分為兩種:基于連接時(shí)域分類(Connectionist Temporal Classification,CTC)的識(shí)別方法(如文獻(xiàn)[15])和基于注意力機(jī)制的識(shí)別方法。

基于CTC的識(shí)別方法的框架模型,首先使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行視覺特征提取,再將視覺特征沿著寬度方向進(jìn)行切片以形成特征序列,將特征序列輸入至序列建模之中,如RNN。再生成具有序列上下文的特征序列,最后使用CTC解碼每個(gè)序列特征進(jìn)行字符類別預(yù)測并基于動(dòng)態(tài)規(guī)劃對(duì)預(yù)測結(jié)果進(jìn)行去重。該識(shí)別方法只依賴于視覺特征和視覺特征之間的序列關(guān)系,所以面對(duì)模糊文本和低質(zhì)量圖像等難識(shí)別樣本時(shí)性能不好。

基于注意力機(jī)制的識(shí)別算法,同樣是先使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像特征提取,然后使用編碼器生成具有序列上下文信息的特征序列,使用注意力機(jī)制取所有特征序列為鍵和值,取解碼器中前一個(gè)時(shí)間步的預(yù)測為查詢進(jìn)行注意力權(quán)重的計(jì)算,并對(duì)特征序列進(jìn)行加權(quán)求和生成當(dāng)前時(shí)間的解碼特征,將其送入解碼器中進(jìn)行結(jié)果預(yù)測,持續(xù)過程直到輸出終止符或超過預(yù)定時(shí)間步。該方法可以自動(dòng)尋找需要預(yù)測的文本區(qū)域,并將注意力集中在圖像中字符對(duì)應(yīng)像素點(diǎn)位置,顯著地提高了模型的準(zhǔn)確率。

1.2 藏文特點(diǎn)

圖1 現(xiàn)代藏文音節(jié)結(jié)構(gòu)

圖2 現(xiàn)代藏文字丁結(jié)構(gòu)

由于受印度文化的影響,藏文中還存在特殊的梵文藏文轉(zhuǎn)寫形式,梵文藏文轉(zhuǎn)寫并不符合藏文文法規(guī)則,而是符合梵文的文法規(guī)則,在藏文古籍文獻(xiàn)、藏文新聞等中時(shí)有出現(xiàn),如圖3所示。在識(shí)別中對(duì)藏文字進(jìn)行字丁切分的主要目的有:

圖3 梵文藏文轉(zhuǎn)寫

(1)保持藏文字的空間結(jié)構(gòu)信息;

(2)簡化識(shí)別任務(wù)。

2 模型算法

2.1 基于注意力機(jī)制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)

模型使用編碼器-解碼器(Encoder-Decoder)的模型結(jié)構(gòu),如圖4所示,其中x表示輸入信息,c表示通過Encoder層輸出的語義編碼,y表示通過Decoder層獲得的識(shí)別結(jié)果。該結(jié)構(gòu)可以有效地將長度不同的圖像特征與之對(duì)應(yīng)的文本序列進(jìn)行對(duì)齊,同時(shí)注意力機(jī)制會(huì)自動(dòng)尋找需要預(yù)測的文本區(qū)域,將注意力集中在圖像中字符對(duì)應(yīng)的像素點(diǎn)位置從而顯著提高模型的準(zhǔn)確率。

圖4 編碼器-解碼器結(jié)構(gòu)

該文使用的基于注意力機(jī)制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN+ATTENTION)識(shí)別算法流程如圖5所示。該算法可以支持的字丁長度是有限的,根據(jù)訓(xùn)練結(jié)果,該識(shí)別算法可識(shí)別的字丁個(gè)數(shù)為25。網(wǎng)絡(luò)對(duì)于輸入圖像的長寬并沒有限制。通過對(duì)收集的藏文古籍烏金體數(shù)據(jù)的藏文字丁統(tǒng)計(jì)共獲得了1 353個(gè)藏文字丁,并以此作為網(wǎng)絡(luò)支持的類別數(shù)。

圖5 藏文古籍圖像識(shí)別流程

在網(wǎng)絡(luò)的前端,卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)從輸入的圖像中提取特征,將特征結(jié)果送入雙向長短期記憶(Bidirectional Long Short Term Memory,Bi-LSTM)網(wǎng)絡(luò)進(jìn)行特征增強(qiáng)。接著注意力模型根據(jù)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)神經(jīng)元的隱藏狀態(tài)及上一時(shí)刻的輸出計(jì)算出注意力權(quán)重,最后將卷積神經(jīng)網(wǎng)絡(luò)輸出的特征圖與注意力權(quán)重結(jié)合起來,輸入循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行編解碼后,得到整個(gè)字符集的概率分布,最后直接提取概率最高的編號(hào)所對(duì)應(yīng)的字符作為最后的識(shí)別結(jié)果。

主要模型架構(gòu)包括以下兩個(gè)方面:

(1)編碼器。

第一步,使用CNN網(wǎng)絡(luò)提取輸入圖像的特征序列,輸出為特征矩陣。在特征提取過程,imgH(圖像高度)方向經(jīng)過4個(gè)pooling和1個(gè)卷積(Valid模式),imgW(圖像寬度)方向經(jīng)過2個(gè)pooling和1個(gè)卷積(Valid模式),原圖高度變?yōu)閕mgH/32,原圖寬度變?yōu)?imgW/4+1。獲得圖像的特征矩陣。

參數(shù)設(shè)置如表1所示。其中K、S和P分別是卷積核(kernel size)、步長(stride)和填充大小(padding size)。BatchNorm2d為參與特征的通道數(shù)。

表1 卷積層參數(shù)

第二步,使用Bi-LSTM的方法對(duì)卷積層結(jié)果進(jìn)行前后序列特征的增強(qiáng)。BLSTM在LSTM的基礎(chǔ)上,進(jìn)一步學(xué)習(xí)上下文特征,結(jié)合了輸入序列在前向和后向兩個(gè)方向上的信息。對(duì)于t時(shí)刻的輸出,前向LSTM層具有輸入序列中t時(shí)刻以及之前時(shí)刻的信息,而后向LSTM層中具有輸入序列中t時(shí)刻以及之后時(shí)刻的信息。

循環(huán)參數(shù)設(shè)置如表2所示。其中nIn是輸入特征數(shù),nHidden是LSTM中隱藏層的維度,Bidirectional表示是否使用雙向LSTM,nOut是輸出特征數(shù)。

表2 循環(huán)層參數(shù)

(2)解碼器。

第一步,計(jì)算注意力權(quán)重之前先對(duì)前一次的輸出進(jìn)行詞嵌入,并進(jìn)行特征融合,然后計(jì)算注意力權(quán)重。

注意力權(quán)重的計(jì)算需要三個(gè)指定的輸入Q(query),K(key),V(value),分別表示查詢,鍵值,值。然后通過計(jì)算得到注意力的權(quán)重結(jié)果?？梢詫⑵錃w納為三個(gè)階段:第一個(gè)階段根據(jù)Query和Key計(jì)算兩者的相似性或者相關(guān)性;第二階段對(duì)第一階段的原始分值進(jìn)行歸一化處理;第三個(gè)階段根據(jù)權(quán)重系數(shù)對(duì)Value進(jìn)行加權(quán)求和。第一階段計(jì)算Query和Key某個(gè)的相似性,使用點(diǎn)向量積的方法進(jìn)行計(jì)算。公式如下:

Sim(Query,Keyi)=Query*Keyi,i∈I

(1)

第二階段一方面可以進(jìn)行歸一化,將原始計(jì)算分值整理成所有元素權(quán)重之和為1的概率分布;另一方面也可以通過SoftMax的內(nèi)在機(jī)制更加突出重要元素的權(quán)重。公式如下:

(2)

式中,ai為Valuei對(duì)應(yīng)的權(quán)重系數(shù),第三階段將每一個(gè)ai進(jìn)行加權(quán)求和即可獲得注意力的權(quán)重,公式如下:

(3)

第二步,將卷積神經(jīng)網(wǎng)絡(luò)輸出的特征圖與注意力權(quán)重結(jié)合起來,根據(jù)Attention權(quán)重合并成1個(gè)最大概率的字符。

第三步,輸入循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行編解碼后,得到整個(gè)字符集的概率分布,直接提取概率最高的編號(hào)所對(duì)應(yīng)的字符作為最后的識(shí)別結(jié)果。

參數(shù)設(shè)置如表3所示。其中out_size表示字典的維度,Dropout表示每個(gè)神經(jīng)元不被激活的可能性。

表3 轉(zhuǎn)錄層參數(shù)

2.2 評(píng)測標(biāo)準(zhǔn)

對(duì)于藏文文字識(shí)別,目前并沒有一個(gè)固定的評(píng)測標(biāo)準(zhǔn)。該文采取編輯距離作為藏文古籍烏金體文字識(shí)別的準(zhǔn)確率計(jì)算標(biāo)準(zhǔn)。編輯距離可以充分反映出藏文古籍烏金體識(shí)別中出現(xiàn)的錯(cuò)識(shí),漏識(shí)以及多識(shí)的情況。有利于對(duì)識(shí)別結(jié)果進(jìn)行分析。藏文與中英文不同,每一個(gè)中英文都有對(duì)應(yīng)的編碼,而一個(gè)藏字是由多個(gè)藏文字符編碼組成的,簡單的理解就是一個(gè)藏字就是多個(gè)藏文字符組合在一起的字符串,不易于比較且計(jì)算量較大?？紤]藏文文字的結(jié)構(gòu)特點(diǎn),該文以藏文字丁為基本單位進(jìn)行準(zhǔn)確率計(jì)算。

提出的藏文字丁準(zhǔn)確率算法的計(jì)算公式如下所示:

Acc=rd/(rd+ld)

(4)

式中,Acc是字丁準(zhǔn)確率,rd是字丁匹配中對(duì)應(yīng)位置正確的字丁個(gè)數(shù),ld是字丁匹配中錯(cuò)誤的字丁個(gè)數(shù),包括識(shí)別中出現(xiàn)的多識(shí),漏識(shí),錯(cuò)識(shí)三種情況。rd+ld是總共的比較次數(shù),其計(jì)算結(jié)果并不一定等于標(biāo)注文件的字丁個(gè)數(shù)。

3 實(shí) 驗(yàn)

實(shí)驗(yàn)運(yùn)行環(huán)境:CPU 12th Gen Intel(R) Core(TM) i5-12400F 2.50 GHz;GPU NVIDIA GeForce RTX 3060;內(nèi)存12 G;程序?yàn)長inux系統(tǒng)pytorch框架編寫運(yùn)行。

以500張整頁藏文烏金體古籍作為訓(xùn)練集,116張藏文烏金體古籍作為測試集。實(shí)驗(yàn)訓(xùn)練參數(shù)如表4所示。圖6為所使用的藏文烏金體古籍樣本圖。正常整頁藏文烏金體古籍識(shí)別流程應(yīng)該是先進(jìn)行藏文古籍文本檢測以及文本行切分處理,文本行切分處理結(jié)果送入文字識(shí)別模塊最后將識(shí)別結(jié)果進(jìn)行后處理。該文主要說明識(shí)別模型的識(shí)別效果,故文本檢測,文本行切分處理和識(shí)別后處理這里不詳細(xì)解釋。

表4 訓(xùn)練參數(shù)

圖6 藏文古籍圖像樣本圖

為了展示各模型的藏文烏金體古籍識(shí)別效果,特意截取兩小塊識(shí)別難度高的藏文烏金體古籍文本行圖像,如圖7所示,圖8為各模型針對(duì)兩小塊的識(shí)別結(jié)果。圖9為文中模型在116張整頁藏文烏金體古籍中隨機(jī)截取300個(gè)文本塊的識(shí)別準(zhǔn)確率曲線。

(a)文字粘連圖像

圖8 各模型識(shí)別結(jié)果

圖9 CRNN+ATTENTION識(shí)別曲線

將文中識(shí)別模型與文獻(xiàn)[16]提出的CRNN+CTC識(shí)別模型以及文獻(xiàn)[17]提出的基于ABINET識(shí)別模型進(jìn)行實(shí)驗(yàn)對(duì)比。同時(shí)為了進(jìn)一步驗(yàn)證采用的注意力機(jī)制有效提高了藏文烏金體古籍識(shí)別效果,在文中算法基礎(chǔ)上刪去注意力機(jī)制進(jìn)行實(shí)驗(yàn),如表5、表6所示,分別為文中模型與對(duì)比模型,文中模型與刪去注意力機(jī)制的文中模型進(jìn)行500 epoch訓(xùn)練之后使用116張樣本測試獲得的平均字丁準(zhǔn)確率。

表5 不同算法識(shí)別結(jié)果對(duì)比

表6 注意力機(jī)制的文中模型對(duì)比

由表5可以看出,在使用小樣本的文字粘連和背景復(fù)雜的藏文烏金體古籍圖像進(jìn)行模型訓(xùn)練情況下,引入注意力機(jī)制能有效提高藏文烏金體古籍的識(shí)別準(zhǔn)確率,使用CTC算法的模型其識(shí)別準(zhǔn)確率明顯低于基于注意力機(jī)制的識(shí)別模型。同時(shí)文中模型與去掉注意力機(jī)制的文中模型進(jìn)行比較,充分說明注意力機(jī)制能有效提高對(duì)藏文烏金體古籍中文字粘連和背景復(fù)雜圖像的識(shí)別效果。文中模型在少樣本的情況下,能充分利用樣本整體的上下文信息,并取得了較好的效果。同時(shí),文中模型相比其他模型,在提升識(shí)別精度的同時(shí),有效壓縮了模型的大小,提升了算法的實(shí)用價(jià)值。

4 結(jié)束語

針對(duì)藏文烏金體古籍圖像中的背景復(fù)雜和文字粘連的識(shí)別問題,采用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)CRNN與Attention注意力機(jī)制相結(jié)合的模型解決行文字粘連問題;以動(dòng)態(tài)規(guī)劃的方法結(jié)合藏文字丁結(jié)構(gòu)設(shè)計(jì)出來的藏文字丁識(shí)別準(zhǔn)確率為評(píng)測指標(biāo);以統(tǒng)計(jì)藏文古籍中單獨(dú)出現(xiàn)的藏文字丁為識(shí)別字典。通過與CRNN+CTC模型和ABiNet模型在相同條件下的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,文中模型的識(shí)別效果最好,其字丁準(zhǔn)確率為90.55%,在只有500張藏文烏金體古籍進(jìn)行模型訓(xùn)練的情況下取得了高效的識(shí)別結(jié)果。通過對(duì)文中模型測試的結(jié)果分析來看,后續(xù)計(jì)劃訓(xùn)練藏文古籍語言模型以及添加藏文文法規(guī)則的方法來對(duì)識(shí)別結(jié)果進(jìn)行后處理,以提高最終的識(shí)別效果。