亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于音節(jié)切分的藏文印刷體識(shí)別

2022-10-01 03:47:16才讓當(dāng)知華卻才讓黃鶴鳴

計(jì)算機(jī)工程與設(shè)計(jì) 2022年9期

才讓當(dāng)知，華卻才讓+，黃鶴鳴

(1.青海師范大學(xué) 計(jì)算機(jī)學(xué)院，青海西寧 810008；2.青海師范大學(xué) 藏語智能信息處理及應(yīng)用國(guó)家重點(diǎn)實(shí)驗(yàn)室，青海西寧 810008；3.青海師范大學(xué) 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室，青海西寧 810008)

0 引言

藏文文獻(xiàn)資料非常豐富，但是可用的電子化信息資源非常少。隨著藏文信息處理技術(shù)的發(fā)展，需要對(duì)大量的藏文文獻(xiàn)電子化。人工鍵盤錄入是一項(xiàng)繁重且低效的解決方式，充分利用文字識(shí)別技術(shù)將會(huì)大幅提升藏文文獻(xiàn)電子化的效率，并且把人從繁重的重復(fù)工作中解放出來。與中文、英文等主流文字相比，藏文印刷體識(shí)別研究起步相對(duì)較晚，缺少高質(zhì)量的標(biāo)注數(shù)據(jù)集，文本圖像的分割相對(duì)困難，因此，印刷體藏文識(shí)別效果相對(duì)較差，落地使用的產(chǎn)品較少。

在國(guó)內(nèi)，印刷體藏文識(shí)別方法已經(jīng)從傳統(tǒng)的特征匹配方法[1]，發(fā)展到了現(xiàn)在的基于神經(jīng)網(wǎng)絡(luò)模型的識(shí)別方法，并達(dá)到了應(yīng)用的水平。在國(guó)外，Kojima M.等提出了基于字典匹配的印刷體藏文字識(shí)別方法，可以識(shí)別相似字符[2]。Zach Rowinski等研究了圖像二值化、文本圖像切分、特征提取、識(shí)別等問題，開發(fā)了藏文OCR系統(tǒng)NAMSEL[3]，該系統(tǒng)首先使用SVM進(jìn)行識(shí)別，之后采用隱馬爾科夫模型對(duì)識(shí)別結(jié)果進(jìn)行微調(diào)，完成識(shí)別。

以上文獻(xiàn)中，都采用字丁作為切分單元，而且每個(gè)文獻(xiàn)報(bào)道的字丁個(gè)數(shù)不同。合法的藏文字丁有1000多個(gè)，如果忽略使用頻率極低的字丁，用于識(shí)別的字丁數(shù)遠(yuǎn)小于這個(gè)數(shù)字。公保杰和陳洋在各自開發(fā)的識(shí)別系統(tǒng)中，分別選用了563個(gè)和584個(gè)字丁[4]。以字丁為單元進(jìn)行識(shí)別時(shí)，類別數(shù)目少，有利于分類器訓(xùn)練；但缺點(diǎn)也比較明顯：一是相似字丁多，降低了分類性能；二是元音符號(hào)和弱音節(jié)符會(huì)導(dǎo)致字丁之間的筆畫粘連，影響到文本圖像分割，從而影響識(shí)別效果。為了有效解決以字丁為識(shí)別單元引起的缺陷，本文提出了以音節(jié)為識(shí)別單元的藏文印刷體識(shí)別方法。相比于藏文字丁的個(gè)數(shù)，藏文音節(jié)的個(gè)數(shù)較多，經(jīng)過詳細(xì)推算，才丹夏茸認(rèn)為藏文有17 532個(gè)音節(jié)；而多拉通過預(yù)料統(tǒng)計(jì)認(rèn)為藏文有18 088個(gè)音節(jié)[5]。本文中音節(jié)的個(gè)數(shù)為19 450。

1 預(yù)處理

受光照不均等環(huán)境因素影響，得到的文本數(shù)字圖像往往存在質(zhì)量較差、受噪聲影響大以及傾斜等現(xiàn)象。為了提高識(shí)別效果，需要對(duì)圖像進(jìn)行二值化、傾斜矯正和規(guī)范化等預(yù)處理。

1.1 二值化

本文采用局部自適應(yīng)二值化提取文本的輪廓和邊界信息，主要過程是：先將圖像平均分成若干塊；然后，分別計(jì)算每個(gè)塊的平均閾值[6]；最后，對(duì)圖像進(jìn)行二值化。

分別用P(x,y) 和p′(x,y) 表示局部自適應(yīng)二值化前后像素 (x,y) 的灰度值，則

(1)

式中：閾值T(x,y) 是以 (x,y) 為中心、r為半徑的窗口內(nèi)所有像素的平均值，即

(2)

二值化前后文本數(shù)字圖像的效果對(duì)比如圖1所示：由于受光照不均的影響，原圖右側(cè)存在明顯的陰影，如圖1(a)所示；經(jīng)過局部自適應(yīng)二值化，消除了受光照不均導(dǎo)致的陰影，有利于后續(xù)文本圖像的分割，如圖1(b)所示。

圖1 局部自適應(yīng)二值化

1.2 校正

傾斜的文本數(shù)字圖像會(huì)導(dǎo)致其中的待識(shí)別字符也存在一定程度的傾斜，影響文本圖像的分割和識(shí)別效果，因此，需要傾斜校正。本文采用霍夫變換進(jìn)行文本圖像的自動(dòng)校正。首先，將圖像平面上的像素點(diǎn) (x,y)，通過公式

ρ=xcosθ+ysinθ

(3)

映射到參數(shù)空間中，圖像平面上一個(gè)點(diǎn)對(duì)應(yīng)參數(shù)空間中的一條曲線。其次，由霍夫變換原理，在參數(shù)空間平面曲線相交最多的點(diǎn)，對(duì)應(yīng)圖像平面上的直線，如圖2(a)所示。最后，文本數(shù)字圖像需要向相反的方向旋轉(zhuǎn)θ，其中θ表示直線與水平方向的夾角；當(dāng)檢測(cè)到多條直線時(shí)，取平均值，則旋轉(zhuǎn)校正更準(zhǔn)確，旋轉(zhuǎn)校正結(jié)果如圖2(b)所示。

圖2 霍夫變換矯正

1.3 規(guī)范化

經(jīng)過行切分和列切分，得到待識(shí)別的字符圖像，但這些字符圖像的尺寸往往有較大差別，并且圖像上下邊緣存在不同程度的空白，如圖3(a)所示。因此，需要?jiǎng)h除空白并調(diào)整字符位置，統(tǒng)一圖像尺寸[7]。根據(jù)藏文字形結(jié)構(gòu)特點(diǎn)，對(duì)音節(jié)文本圖像進(jìn)行兩步規(guī)范化：第一，刪除上下空白部分；第二，統(tǒng)一將音節(jié)文本圖像的尺寸歸一化為48×32。規(guī)范化后的結(jié)果如圖3(b)所示。

圖3 規(guī)范化

2 藏文印刷體文本圖像分割

首先對(duì)藏文印刷體文本圖像按行分割，然后在此基礎(chǔ)上進(jìn)行按字丁和音節(jié)分割。根據(jù)藏書寫特點(diǎn)，選擇分割更容易的文本識(shí)別單位。最后采用所設(shè)計(jì)的藏文印刷體分割技術(shù)構(gòu)建由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的印刷體標(biāo)注數(shù)據(jù)庫。

2.1 行切分

和漢文以及英文相比，藏文書寫有一些顯著特點(diǎn)：①所有藏文字符都以基線對(duì)齊[8]；②藏文的字間距和行間距更小；③元音符號(hào)可能使前后兩個(gè)字符或上下兩個(gè)字符粘連，如圖4所示(橫縱坐標(biāo)單位為像素)；④字體過大時(shí)，字丁和元音之間的距離增加，增大了行切分的難度[9]，如圖5所示。因此，印刷體藏文文本圖像的分割更具有挑戰(zhàn)性。

圖4 文本投影

圖5 藏文基線

當(dāng)字體較大時(shí)，元音和輔音之間有一定的間距，因而它們會(huì)被當(dāng)作兩個(gè)獨(dú)立的連通域，導(dǎo)致分割錯(cuò)誤。如果適當(dāng)填充元音和輔音之間的空隙，可減少對(duì)行切分的影響。同時(shí)，本文采用對(duì)字符間的空隙敏感度較小的投影分割法：遍歷每一行，得到的最大連續(xù)像素?cái)?shù)為行高，按照這個(gè)行高進(jìn)行行切分。投影分割法能有效避免被分割成多個(gè)區(qū)域的情況，分割結(jié)果如圖6所示。矩形框是藏文文本行的外接框，4個(gè)頂點(diǎn)是文本行在整體文檔圖像上的位置，分割時(shí)取4個(gè)點(diǎn)的坐標(biāo)即可。

圖6 行分割

2.2 音節(jié)切分

圖7 藏文字丁/音節(jié)示例

最后，通過確定 (y1,y2,x1,x2) 4個(gè)點(diǎn)的取值按音節(jié)分割，其中 (y1,y2)、 (x1,x2) 分別是垂直與水平方向上裁剪的起始位置和終止位置。由于輸入是行文本圖像，垂直方向上分割的起始位置為行邊界，終止位置是行高度，因此每個(gè)音節(jié)的 (y1,y2) 兩個(gè)點(diǎn)取值為 (0,h)。水平方向上分割的起始位置和終止位置 (xi,xj) 由l′得到，通過遍歷按音節(jié)分割，算法的流程如圖8所示。

圖8 音節(jié)切分流程

圖9 按列分割

2.3 分割實(shí)驗(yàn)

表1 藏文字丁分割準(zhǔn)確率(字體：喜馬拉雅)/%

表2 藏文音節(jié)分割準(zhǔn)確率(字體：喜馬拉雅)/%

對(duì)比表1和表2可以看出：①按字丁為單元分割時(shí)，隨著字號(hào)變小，分割準(zhǔn)確率下降明顯，并且二值化閾值差值較大；②以音節(jié)為單位分割時(shí)，準(zhǔn)確率與字號(hào)變化關(guān)系不大，二值化閾值從原來的160調(diào)整為180，閾值差只有20；③由于藏文書寫的特點(diǎn)，字丁受更多的藏文字符構(gòu)件的干擾，比音節(jié)分割難度程度更大。與按字丁分割相比，按音節(jié)分割準(zhǔn)確率提高了3.95個(gè)百分點(diǎn)，說明以音節(jié)為單位分割效果更穩(wěn)定。

3 分類器的設(shè)計(jì)與實(shí)驗(yàn)

為了驗(yàn)證音節(jié)比字丁更適合作為印刷體藏文的識(shí)別單位，本節(jié)首先構(gòu)造了隱藏層數(shù)為3的卷積神經(jīng)網(wǎng)絡(luò)模型為識(shí)別驗(yàn)證模型，最后將識(shí)別效果優(yōu)的模型進(jìn)行優(yōu)化。

3.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中最成功的一種模型，特別適合處理多維數(shù)據(jù)結(jié)構(gòu)，被廣泛應(yīng)用于計(jì)算機(jī)視覺[10,11]、自然語言處理鄰域[12]等領(lǐng)域。本文的分類器采用卷積神經(jīng)網(wǎng)絡(luò)，它由輸入層(Input layer)、隱藏層(Hidden layer)、全連接層(Full-connected layer)以及輸出層(Output layer)不斷堆疊構(gòu)成[13]。本文在輕量級(jí)的LeNet-5網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),網(wǎng)絡(luò)結(jié)構(gòu)如圖10所示。使用3×3的卷積核在歸一化后的特征圖上遍歷提取特征，其次使用2×2卷積核進(jìn)行池化。池化分為最大和平均池化。最大池化能更多地保留紋理信息，而平均池化能更多地保留圖像的背景信息。因此本文中采用最大和平均交替式的池化，并將網(wǎng)絡(luò)隱藏層增加到了7層。當(dāng)神經(jīng)網(wǎng)絡(luò)層堆疊過多時(shí)容易發(fā)生過擬合現(xiàn)象，所以采用Dropout丟棄一部分訓(xùn)練參數(shù)，可以有效緩解過擬合的發(fā)生[14]。當(dāng)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí)Dropout=0.5。

圖10 LeNet-5網(wǎng)絡(luò)模型

將得到的音節(jié)特征圖像展開為一維向量，輸送到輸出層，通過Softmax函數(shù)計(jì)算樣本屬于每一個(gè)類別的概率，實(shí)現(xiàn)分類任務(wù)，如式(4)

(4)

其中，sj為表示當(dāng)前元素的指數(shù)與所有元素指數(shù)和的比值。zj是分類器前層單元的輸出，j表示類別索引位置，k為類別總數(shù)。

3.2 數(shù)據(jù)集

收集高覆蓋度的文本語料，將其打印掃描保存為文本圖像，對(duì)文本圖像以音節(jié)為單位進(jìn)行分割，并對(duì)圖像音節(jié)進(jìn)行標(biāo)注，得到共19 450個(gè)音節(jié)的132 500個(gè)樣本，這些樣本構(gòu)成藏文印刷體音節(jié)圖像數(shù)據(jù)庫。同時(shí)，構(gòu)建共626個(gè)字丁的30 500個(gè)樣本，這些樣本構(gòu)成藏文印刷體字丁圖像數(shù)據(jù)庫。上述兩類數(shù)據(jù)庫中，除了基本的字丁和音節(jié)外，還包括一些常用的梵文。

3.3 識(shí)別實(shí)驗(yàn)

分別以字丁和音節(jié)為識(shí)別單元，在卷積神經(jīng)網(wǎng)絡(luò)模型上做對(duì)比識(shí)別實(shí)驗(yàn)。以字丁為識(shí)別單元時(shí)，訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型的主要參數(shù)見表3。

表3 基于字丁的LeNet-5網(wǎng)絡(luò)模型參數(shù)

字丁的類別較少，當(dāng)模型迭代1000次時(shí)，在訓(xùn)練集上，識(shí)別率已達(dá)99.67%，如圖11所示；并且，在學(xué)習(xí)特征的過程中，模型訓(xùn)練損失值的下降沒有出現(xiàn)非常明顯的上下波動(dòng)，說明訓(xùn)練過程非常穩(wěn)定；迭代1000次時(shí)訓(xùn)練損失值基本傾向于0，如圖11所示。

圖11 基于字丁的LeNet-5網(wǎng)絡(luò)模型準(zhǔn)確率/損失值

音節(jié)的數(shù)量遠(yuǎn)多于字丁，以音節(jié)為單元訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型時(shí)，直接采用字丁的訓(xùn)練參數(shù)則無法達(dá)到同樣的識(shí)別率，見表4。當(dāng)?shù)螖?shù)為1000時(shí)，訓(xùn)練識(shí)別率僅達(dá)到了57.4%；不改變其它參數(shù)而僅僅提高迭代次數(shù)，則準(zhǔn)確率隨著迭代次數(shù)的增加在遞增；當(dāng)?shù)芜_(dá)10 000時(shí)，訓(xùn)練識(shí)別率達(dá)到了97%，如圖12所示。

表4 基于音節(jié)的LeNet-5網(wǎng)絡(luò)模型參數(shù)

圖12 基于音節(jié)的LeNet-5網(wǎng)絡(luò)模型準(zhǔn)確率/損失值

音節(jié)類別是字丁類別的30倍，遠(yuǎn)多于字丁。因此，當(dāng)?shù)螖?shù)為10 000左右時(shí)訓(xùn)練損失值才基本平緩并且基本接近于0，如圖12所示。當(dāng)其它參數(shù)不變時(shí)，基于音節(jié)的模型需要更多的迭代次數(shù)來學(xué)習(xí)特征，這個(gè)迭代次數(shù)是基于字丁的識(shí)別模型的10倍。

分別訓(xùn)練好基于字丁和基于音節(jié)的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別模型后，對(duì)印刷體藏文文本圖像進(jìn)行開放測(cè)試，測(cè)試字體均為喜馬拉雅，見表5?？梢钥闯?，基于音節(jié)的識(shí)別模型比基于字丁的識(shí)別模型高出21.52個(gè)百分點(diǎn)。說明音節(jié)文本圖像比字丁文本圖像包含著更多的字符特征信息，而這些輔助特征信息在識(shí)別中發(fā)揮著重要的作用。

表5 識(shí)別單位測(cè)試

確定音節(jié)為識(shí)別單元后，對(duì)網(wǎng)絡(luò)模型從池化方式、參數(shù)和卷積層層數(shù)等方面進(jìn)行優(yōu)化，最終提出了基于LeNet-5網(wǎng)絡(luò)的印刷體藏文識(shí)別模型，采取參數(shù)見表6，訓(xùn)練集上最高識(shí)別準(zhǔn)確率為99.8%。

表6 最優(yōu)參數(shù)

目前沒有公開的藏文文本識(shí)別測(cè)試數(shù)據(jù)集，因此，本文構(gòu)建了涉及藏文歷史、人物傳記、小說和新聞等內(nèi)容的測(cè)試數(shù)據(jù)集，共有4076個(gè)音節(jié)。在這個(gè)數(shù)據(jù)集上本文所提出的方法，其平均識(shí)別正確率達(dá)96.11%，見表7。

表7 開放測(cè)試

4 結(jié)束語

結(jié)合藏文字形結(jié)構(gòu)特點(diǎn)，提出了基于音節(jié)切分的藏文印刷體識(shí)別方法。通過實(shí)驗(yàn)發(fā)現(xiàn)，本文提出的藏文印刷體識(shí)別準(zhǔn)確率比基于字丁的識(shí)別方法高21.52個(gè)百分點(diǎn)。并在包含4076個(gè)音節(jié)的印刷體藏文文本圖像測(cè)試集上，本文方法的平均識(shí)別率達(dá)96.11%，結(jié)果表明以音節(jié)為單位的識(shí)別模型更有效。

未來工作中，將對(duì)已構(gòu)建的標(biāo)注數(shù)據(jù)集進(jìn)行擴(kuò)充，并引入自動(dòng)文字檢測(cè)技術(shù)，嘗試端到端的藏文文本檢測(cè)與識(shí)別。