范道爾吉,高光來(lái), 武慧娟
(1. 內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院, 內(nèi)蒙古 呼和浩特 010021; 2. 內(nèi)蒙古大學(xué) 電子信息工程學(xué)院, 內(nèi)蒙古 呼和浩特 010021)
建立蒙古文手寫(xiě)數(shù)據(jù)庫(kù)是研究和開(kāi)發(fā)蒙古文手寫(xiě)識(shí)別技術(shù)的基礎(chǔ)。公開(kāi)權(quán)威的手寫(xiě)字庫(kù)是訓(xùn)練識(shí)別系統(tǒng)的基礎(chǔ)數(shù)據(jù),也是客觀公正地評(píng)比不同識(shí)別算法的衡量標(biāo)準(zhǔn)。但目前還沒(méi)有公開(kāi)的、權(quán)威的、大詞詞匯量的蒙古文手寫(xiě)字庫(kù)。
近幾年來(lái),蒙古文信息化研究在辦公自動(dòng)化、語(yǔ)音識(shí)別、OCR等領(lǐng)域獲得較大成功[1-3]。然而,自由手寫(xiě)文字識(shí)別、文檔分析等方面研究仍在起步階段。漢字手寫(xiě)識(shí)別研究起步比較早,清華大學(xué)、中科院自動(dòng)化所等著名高校和科研院所都致力于漢字識(shí)別的研究,以漢王科技股份有限公司為首的科技企業(yè)也推出了一系列成熟的商業(yè)產(chǎn)品。很多論文提出的脫機(jī)手寫(xiě)體漢字識(shí)別的方法在不同的字符數(shù)據(jù)庫(kù)試驗(yàn)中, 取得了95%~99%的識(shí)別率[4-6]。
目前, 具有代表性的手寫(xiě)漢字?jǐn)?shù)據(jù)庫(kù)有: HCL2000、HIT-MW、ETL字符數(shù)據(jù)[7]。經(jīng)常被使用的其他手寫(xiě)字庫(kù)有: IAM-DB、IFN/ENIT、RIMES和Maurdor等。其中IAM-DB是英語(yǔ)句子的手寫(xiě)字庫(kù),大概包括10 841單詞[8]。IFN/ENIT是小規(guī)模詞匯的阿拉伯語(yǔ)單詞手寫(xiě)字庫(kù)[9]。RIMES是大詞匯量的法語(yǔ)手寫(xiě)字庫(kù)[10]。Maurdo是英語(yǔ)、法語(yǔ)和阿拉伯語(yǔ)印刷體和手寫(xiě)體的混合字庫(kù)[11]。
本文主要研究了蒙古文脫機(jī)手寫(xiě)字庫(kù)制作過(guò)程中的若干問(wèn)題,包括文字抽樣、圖片預(yù)處理、文字分割、錯(cuò)誤檢測(cè)等。在此基礎(chǔ)上公開(kāi)了一個(gè)包含10萬(wàn)訓(xùn)練樣本的脫機(jī)手寫(xiě)數(shù)據(jù)庫(kù),并在隱馬爾科夫模型(hidden markov model, HMM)、深層神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)-HMM混合模型和遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)模型上評(píng)估了測(cè)試集的性能。
蒙語(yǔ)屬于黏著語(yǔ),其最大特點(diǎn)是詞匯量豐富。蒙古文有獨(dú)特的構(gòu)詞和書(shū)寫(xiě)方法,由7個(gè)元音、17個(gè)輔音及用于外來(lái)語(yǔ)書(shū)寫(xiě)的1個(gè)元音和10個(gè)輔音構(gòu)成。Unicode編碼的0x1820~0x1842區(qū)域分配給了蒙古文字母。雖然蒙古文字母只有35個(gè)(名義字符),但每個(gè)字母根據(jù)詞中位置和上下文呈現(xiàn)不同形狀(顯現(xiàn)字符)。手寫(xiě)識(shí)別本質(zhì)上是對(duì)形狀的識(shí)別,所以字庫(kù)應(yīng)涵蓋所有可能的顯現(xiàn)字符組合。
手寫(xiě)字庫(kù)訓(xùn)練集中出現(xiàn)的詞匯集(簡(jiǎn)稱(chēng)HWS)是蒙古文全部詞匯集(簡(jiǎn)稱(chēng)MGS)的一次抽樣。只有HWS正確反映MGS的統(tǒng)計(jì)特性,所建的字庫(kù)才有代表意義。本文使用的MGS由多個(gè)蒙古文字典的并集構(gòu)成,共包含76 371個(gè)單詞,其中動(dòng)詞只涵蓋了詞根和常用變體形式。
蒙古文Unicode編碼無(wú)法直接表示形狀信息,因此我們自定義了一套形碼集合,如表1所示。從MGS抽取HWS時(shí)采用的策略是: 覆蓋所有MGS的形碼三因子。
通過(guò)該策略我們抽取了包含5 000文字的HWS。HWS和MGS的形碼三因子統(tǒng)計(jì)向量的互相關(guān)系數(shù)達(dá)到了0.88,說(shuō)明HWS很好地反映了MGS的統(tǒng)計(jì)分布。手寫(xiě)字庫(kù)包含兩個(gè)測(cè)試集,其中測(cè)試集Ⅰ的1 000個(gè)詞從MGS隨機(jī)抽取獲得;測(cè)試集Ⅱ的939個(gè)常用詞從小學(xué)課本人工挑選獲得。
表1 自定義形碼
為了采集最自然的手寫(xiě)文字,我們讓書(shū)寫(xiě)者在A4紙上用0.5mm中性筆書(shū)寫(xiě),然后通過(guò)掃描儀對(duì)紙張進(jìn)行批量掃描變成圖片文件。訓(xùn)練集的5 000個(gè)文字被分割成了40份原始稿件,每個(gè)原始稿件分25列,每列5個(gè)文字,共125個(gè)文字。書(shū)寫(xiě)用的A4紙上提前打印了1行×25列表格,書(shū)寫(xiě)者只需把原始稿件抄寫(xiě)到A4紙上即可。我們共組織了200名書(shū)寫(xiě)者,每人抄寫(xiě)4份原始稿件,共獲得800份手寫(xiě)紙張,每個(gè)字被抄寫(xiě)了20人次。測(cè)試集Ⅰ的書(shū)寫(xiě)人員和訓(xùn)練集的書(shū)寫(xiě)人員是同一群人,且每個(gè)字被書(shū)寫(xiě)5人次。測(cè)試集Ⅱ的書(shū)寫(xiě)人員是另外50名書(shū)寫(xiě)者,每個(gè)字被書(shū)寫(xiě)15人次。
每份手寫(xiě)紙張都被掃描成了分辨率為300dpi的JPG格式圖片,稱(chēng)為原始圖片,如圖1所示。對(duì)原始圖像進(jìn)行二值化、傾斜矯正、中值濾波、行提取、尺寸變換和文字提取等手段后得到了每個(gè)樣本的二值化圖像信息。每個(gè)樣本的寬度固定為48像素,高度自適應(yīng)。
書(shū)寫(xiě)者在書(shū)寫(xiě)過(guò)程中可能出現(xiàn)錯(cuò)字、串行、丟字等錯(cuò)誤現(xiàn)象。為了確保手寫(xiě)字庫(kù)的正確性,需要大量人力進(jìn)行核查和校正。為了進(jìn)一步提高可靠性,我們對(duì)人工核對(duì)后的原始稿件進(jìn)行了自動(dòng)錯(cuò)誤檢測(cè)。
由于蒙古文字長(zhǎng)短不一,因此文字長(zhǎng)度可以作為錯(cuò)誤檢測(cè)的依據(jù)。其基本思想是: 對(duì)原始稿件每一行的五個(gè)文字計(jì)算相對(duì)高度,再對(duì)標(biāo)記文本對(duì)應(yīng)的五個(gè)文字同樣計(jì)算相對(duì)高度,最后計(jì)算兩個(gè)相對(duì)高度均方誤差ERR,如果ERR>0.015則報(bào)錯(cuò),并進(jìn)一步人工核對(duì)。相對(duì)高度計(jì)算方法如式(1)所示,均方差如式(2)所示,文字長(zhǎng)度如圖2所示。
圖1 手寫(xiě)樣本
圖2 文本長(zhǎng)度示例
MHW蒙古文脫機(jī)手寫(xiě)字庫(kù)發(fā)布在https://sourceforge.net/projects/mongolian-hw/上,共包括六個(gè)文件。Trainset.mat是Matlab(ver:7.10.0.499 (R2010a))格式文件,存有訓(xùn)練集手寫(xiě)二值圖像,包含100 000個(gè)樣本。Trainset_label.txt是訓(xùn)練集標(biāo)記Unicode編碼文本文件,每行一個(gè)文字。Testset_Ⅰ.mat和Testset_Ⅱ.mat是測(cè)試集Ⅰ(5 000個(gè)樣本)和測(cè)試集Ⅱ(14 085個(gè)樣本)的數(shù)據(jù),Testset_Ⅰ_label.txt和Testset_Ⅱ_label.txt是對(duì)應(yīng)標(biāo)記文本。Mat文件讀入Matlab環(huán)境后獲得Cell結(jié)構(gòu),每個(gè)Cell單元中存有二維圖像信息。手寫(xiě)圖像和標(biāo)記文本按自然序號(hào)相互對(duì)應(yīng)。
隱馬爾科夫模型(hidden Markov model, HMM)在手寫(xiě)識(shí)別領(lǐng)域得到了廣泛的應(yīng)用[12-13]。設(shè)HMM識(shí)別系統(tǒng)的輸出序列集L*由有限字符集S組成。例如輸出為Unicode序列時(shí),S由蒙古文35個(gè)名義字符構(gòu)成,輸出為形碼序列時(shí),S由表1內(nèi)容構(gòu)成。任意字符s∈S由一個(gè)left-right結(jié)構(gòu)HMM和高斯混合模型(Gaussian mixture model, GMM)描述。HMM用一個(gè)三元組λ={AμΣ}表示,其中A為轉(zhuǎn)移概率矩陣、μ為GMM均值、Σ為GMM方差。HMM作為生成模型,通過(guò)訓(xùn)練調(diào)整{AμΣ}的值,使生成字符s所對(duì)應(yīng)輸入序列的概率最大。
解碼時(shí)結(jié)合語(yǔ)言模型、字典數(shù)據(jù)和HMM模型構(gòu)成解碼網(wǎng)絡(luò),利用Viterbi算法由已知輸入序列(HMM觀察序列)計(jì)算最有可能HMM狀態(tài)序列并轉(zhuǎn)換成最終的識(shí)別序列。為了提高識(shí)別效果,通常對(duì)S中所有可能三因子組合a-b+c做HMM建模。
隨著深度學(xué)習(xí)模型的發(fā)展,神經(jīng)網(wǎng)絡(luò)和HMM的混合模型成功應(yīng)用到了語(yǔ)音識(shí)別和手寫(xiě)識(shí)別領(lǐng)域,并獲得了顯著效果[14-15]。深層神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)是前向深層網(wǎng)絡(luò),每一層可看作是對(duì)前一層輸出數(shù)據(jù)的機(jī)器學(xué)習(xí)特征。HMM模型的一個(gè)缺點(diǎn)是假設(shè)觀察序列是相互獨(dú)立的,但在實(shí)際數(shù)據(jù)中這一假設(shè)不可能成立。
DNN-HMM混合模型的基本結(jié)構(gòu)是用DNN網(wǎng)絡(luò)替換之前GMM-HMM模型的GMM部分,即用DNN網(wǎng)絡(luò)描述觀察序列概率分布情況。DNN輸入是一幀觀察序列xt(為了考慮前后序列的相關(guān)性,通常把左右若干幀同時(shí)作為輸入),輸出是該幀屬于各個(gè)HMM狀態(tài)的概率p(qt|xt)。但HMM模型中使用的觀察概率是已知狀態(tài)qt時(shí)生成各個(gè)幀的概率p(xt|qt)。利用貝葉斯公式可獲得:
(3)
其中p(qt|xt)是DNN輸出,p(xt)是數(shù)據(jù)幀先驗(yàn)概率,可看作等概,p(qt)是HMM各個(gè)狀態(tài)的先驗(yàn)概率,可通過(guò)統(tǒng)計(jì)DNN訓(xùn)練數(shù)據(jù)獲得。
DNN屬于有監(jiān)督訓(xùn)練,其標(biāo)記信息是各幀對(duì)應(yīng)HMM各個(gè)狀態(tài)的概率。這會(huì)產(chǎn)生一個(gè)悖論,即DNN的訓(xùn)練需要提前知道各個(gè)幀的屬于每個(gè)HMM狀態(tài)的概率。反過(guò)來(lái),DNN又要描述各個(gè)狀態(tài)的觀察序列概率分布。由于上述原因,我們需要先訓(xùn)練GMM-HMM模型,用訓(xùn)練好的模型生成DNN的標(biāo)記信息,再訓(xùn)練DNN模型,構(gòu)成DNN-HMM結(jié)構(gòu)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)的最初設(shè)計(jì)目的是處理序列數(shù)據(jù)。近年來(lái)特別是RNN的一種變體,長(zhǎng)短期記憶網(wǎng)絡(luò)(long-short term memory,LSTM)顯示了強(qiáng)大的序列數(shù)據(jù)處理能力。Alex Graves等在LSTM輸出層后增加了connectionist temporal classification(CTC)層,解決了輸入輸出序列非對(duì)齊的訓(xùn)練問(wèn)題[16],從而使LSTM-CTC模型成功應(yīng)用到了語(yǔ)音和手寫(xiě)識(shí)別領(lǐng)域。
一個(gè)典型的二維多方向LSTM-CTC手寫(xiě)識(shí)別模型如圖3所示。手寫(xiě)圖像被1×4大小的塊按四種掃描方式掃描后輸入到4個(gè)獨(dú)立的LSTM節(jié)點(diǎn),第一層LSTM輸出4個(gè)特征,并經(jīng)過(guò)子抽樣層降維合并后得到一個(gè)變換后的圖像。上述過(guò)程可以重復(fù)多次,第二層LSTM輸出20個(gè)特征,第三層輸出100個(gè)特征。第三層的LSTM經(jīng)過(guò)維度坍塌處理后輸入到CTC層。CTC本質(zhì)上是一個(gè)Softmax分類(lèi)層,每個(gè)節(jié)點(diǎn)的輸出代表當(dāng)前幀對(duì)應(yīng)字符s∈S′的概率,其中S′=S ∪ “blank”,“blank”代表空字符。顯然CTC層的節(jié)點(diǎn)個(gè)數(shù)為|S|+1。CTC層定義了特定的損失函數(shù),通過(guò)最小化損失函數(shù)使模型輸出正確序列的概率最大化。
我們利用MHW訓(xùn)練集分別在Kaldi[17]和RNNLIB*https://sourceforge.net/projects/rnnl/環(huán)境下訓(xùn)練了基于HMM和LSTM-CTC的手寫(xiě)識(shí)別模型,并在測(cè)試集上評(píng)估了模型的性能,同時(shí)對(duì)Unicode和形碼序列的性能進(jìn)行了比較。
無(wú)論HMM還是RNN模型,手寫(xiě)圖像需要序列化后才能輸入到模型中。其中針對(duì)HMM模型,我們利用4×48(高×寬)大小的滑動(dòng)窗口,從上到下滑窗(蒙古文從上到下書(shū)寫(xiě)),幀重疊2像素。由于原始圖像各個(gè)維度相關(guān)性非常大,所以不利于直接訓(xùn)練HMM模型。我們利用受限玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)對(duì)窗口內(nèi)的圖像進(jìn)行降維處理,變成了16維向量。針對(duì)LSTM-CTC模型,圖像被1×4大小的塊多方向掃描,變成二維序列,并把原始圖像幀序列直接輸入到模型,讓其自動(dòng)學(xué)習(xí)特征。
Kaldi是基于HMM的開(kāi)源語(yǔ)音識(shí)別建模工具。利用Kaldi實(shí)現(xiàn)手寫(xiě)識(shí)別需要準(zhǔn)備特征數(shù)據(jù)文件(train.txt.ark)和標(biāo)記文件(text)。由于Kaldi特征提取針對(duì)語(yǔ)音信號(hào),所以我們?cè)贛atlab環(huán)境中實(shí)現(xiàn)了特征提取工作,并輸出了Kaldi文本格式ark文件。文本格式特征文件通過(guò)“copy-feats”命 令 轉(zhuǎn) 換成二進(jìn)制格式特征文件(raw_mfcc_train.ark, feats.scp)。另一個(gè)非常重要的文件是lexicon.txt,其格式為“
圖3 深層LSTM-CTC結(jié)構(gòu)
首先通過(guò)“steps/train_mono.sh”命令訓(xùn)練單音素HMM系統(tǒng),其中 HMM模型選用三狀態(tài)left-right結(jié)構(gòu)。實(shí)際訓(xùn)練是在16-dim特征上加了一階差分和二階差分后構(gòu)成了48-dim特征。再使用“utils/mkgraph.sh”命令把語(yǔ)言模型、lexicon.txt、HMM等結(jié)合生成解碼網(wǎng)絡(luò)。最后通過(guò)“steps/decode.sh”進(jìn)行了解碼和性能評(píng)估。在單音素系統(tǒng)的基礎(chǔ)可進(jìn)一步訓(xùn)練上下文關(guān)聯(lián)的三音素HMM模型。先利用“steps/align_si.sh”獲取單音素系統(tǒng)下訓(xùn)練數(shù)據(jù)幀和HMM狀態(tài)的對(duì)齊關(guān)系,再使用“steps/train_deltas.sh”訓(xùn)練三音素系統(tǒng)。
在三音素系統(tǒng)的基礎(chǔ)上我們利用“build-pfile-from-ali”命令輸出了訓(xùn)練DNN的標(biāo)記文件。訓(xùn)練DNN時(shí)當(dāng)前幀和左右5個(gè)幀共11幀作為輸入,因此DNN的輸入層含528(11×48)個(gè)神經(jīng)元,四個(gè)隱含層包含1 024個(gè)神經(jīng)元,輸出層神經(jīng)元等于所有三音素HMM狀態(tài)數(shù)(這里是1 513個(gè))。我們用PDNN工具[18]訓(xùn)練了上述DNN結(jié)構(gòu),并把訓(xùn)練好的DNN帶入到Kaldi代替原有的GMM。訓(xùn)練前DNN參數(shù)被RBM無(wú)監(jiān)督模型逐層初始化,在訓(xùn)練中學(xué)習(xí)率被設(shè)置為“D:0.08:0.5:0.05,0.05:8”,意為從0.08開(kāi)始,當(dāng)驗(yàn)證集上錯(cuò)誤率的改善不足0.05時(shí),學(xué)習(xí)率降低一半,當(dāng)連續(xù)8個(gè)循環(huán)錯(cuò)誤率改善量不足0.05時(shí)訓(xùn)練結(jié)束。
RNNLIB是訓(xùn)練深層LSTM-CTC模型的開(kāi)源工具,被廣泛應(yīng)用于手寫(xiě)和語(yǔ)音識(shí)別領(lǐng)域。首先要生成NetCDF格式訓(xùn)練集(train.nc)和測(cè)試集文件(test1.nc,test2.nc)。NetCDF文件同時(shí)包含了訓(xùn)練用手寫(xiě)圖像信息和標(biāo)記信息。創(chuàng)建描述模型和參數(shù)的文件(transcription.config),其中模型參數(shù)為“task transcription; hiddenType lstm; hiddenSize 2,10,50; subsampleSize 6,20; hiddenBlock 2,4;2,3; inputBlock 1,4;”,訓(xùn)練參數(shù)“l(fā)earnRate 1e-4; momentum 0.9” 。RNNLIB本身不支持結(jié)合語(yǔ)言模型的解碼,所以這里我們使用了簡(jiǎn)單的最佳路徑解碼方案,因此無(wú)需字典或語(yǔ)言模型。在RNNLIB的基礎(chǔ)上我們進(jìn)行了基于字典的解碼方案,即根據(jù)CTC層輸出計(jì)算字典中每個(gè)詞的可能概率,選擇概率最大的字作為解碼輸出。
我們采用詞錯(cuò)誤率(word error rate, WER)作為評(píng)測(cè)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表2所示。采用Unicode作為目標(biāo)序列后性能明顯低于形碼系統(tǒng)。特別是單音素系統(tǒng),由于Unicode不表示形狀,因此單個(gè)HMM模型需要根據(jù)多種形狀進(jìn)行訓(xùn)練,因此性能特別差。采用三音素后Unicode也可以確定形狀,所以測(cè)試集的性能提升20%左右。加入DNN后HMM系統(tǒng)的性能得到了顯著提升,其原因是DNN考慮了上下文關(guān)系,同時(shí)有更好的魯棒性。LSTM-CTC系統(tǒng)中,由于采用最佳路徑,沒(méi)有加入字典和語(yǔ)言模型,所以詞錯(cuò)誤率比較高。當(dāng)加入和HMM系統(tǒng)相同的字典后,解碼性能達(dá)到了最佳。因?yàn)闇y(cè)試集Ⅰ和訓(xùn)練集書(shū)寫(xiě)者是同一群人,所以測(cè)試集Ⅰ的性能普遍高于測(cè)試集Ⅱ。
表2 實(shí)驗(yàn)結(jié)果
本文發(fā)布了MHW蒙古文脫機(jī)手寫(xiě)數(shù)據(jù)庫(kù),并在三個(gè)常用手寫(xiě)識(shí)別模型中驗(yàn)證了MHW數(shù)據(jù)庫(kù)的性能。基于字典的LSTM-CTC模型表現(xiàn)出了最佳性能,在測(cè)試集Ⅰ和測(cè)試集Ⅱ的WER分別達(dá)到了2.20%和5.55%。
雖然依據(jù)字典和語(yǔ)言模型解碼時(shí)HMM和LSTM-CTC都有不錯(cuò)的表現(xiàn),但蒙古文詞匯量巨大且變形豐富。由于該特性蒙古文OOV問(wèn)題比較嚴(yán)重,很難讓實(shí)際字典覆蓋全部蒙古文詞。后續(xù)工作中我們將重點(diǎn)研究無(wú)字典或字典輔助條件下手寫(xiě)識(shí)別方法和OOV的解決途徑。
[1]Bao F, Gao G, Yan X, et al. Segmentation-based Mongolian LVCSR approach[C]//Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013:8136-8139.
[2]Gao G, Su X, Wei H, et al. Classical mongolian words recognition in historical document[C]//Proceedings of the 12th International Conference on Document Analysis and Recognition, 2011:692-697.
[3]Peng L, Liu C, Ding X, et al. Multi-font printed Mongolian document recognition system[J]. International Journal on Document Analysis and Recognition (IJDAR), 2010, 13(2):93-106.
[4]Zhang X Y, Bengio Y, Liu C L. Online and offline handwritten Chinese character recognition: A comprehensive study and new benchmark[J]. Pattern Recognition, 2016, 61(61):348-360.
[5]Wu Y C, Yin F, Liu C L. Improving handwritten chinese text recognition using neural network language models and convolutional neural network shape models[J]. Pattern Recognition, 2017, 65(C):251-264.
[6]Messina R, Louradour J. Segmentation-free handwritten Chinese text recognition with LSTM-RNN[C]//Proceedings of the International Conference on Document Analysis and Recognition. IEEE, 2015:171-175.
[7]趙繼印, 鄭蕊蕊, 吳寶春,等. 脫機(jī)手寫(xiě)體漢字識(shí)別綜述[J]. 電子學(xué)報(bào), 2010, 38(2):405-415.
[8]Marti U V, Bunke H. The IAM-database: an English sentence database for offline handwriting recognition[J]. International Journal on Document Analysis & Recognition, 2002, 5(1):39-46.
[9]Pechwitz M, Maddouri S S, Rgner V, et al. IFN/ENIT-database of handwritten Arabic words[C]//Proceedings of the Francophone International Conference on Writing and Document, Cifed’02, Hammamet, Tunisia. 2002:129-136.
[10]Biannebernard A L. The A2iA French handwriting recognition system at the Rimes-ICDAR2011 competition[C]//Proceedings of the Proceedings of SPIE - The International Society for Optical Engineering, 2012, 8297(1):82970Y-82970Y-8.
[11]Moysset B, Bluche T, Knibbe M, et al. The A2iA Multi-lingual text recognition system at the second maurdor evaluation[C]//Proceedings of the Frontiers in Handwriting Recognition (ICFHR), 2014 14th International Conference on. IEEE, 2014:297-302.
[12]Thomas S, Chatelain C, Heutte L, et al. A deep HMM model for multiple keywords spotting in handwritten documents[J]. Pattern Analysis and Applications, 2015, 18(4):1003-1015.
[13]Roy P P, Bhunia A K, Das A, et al. HMM-based Indic handwritten word recognition using zone segmentation[J]. Pattern Recognition, 2016(60):1057-1075.
[14]Li J, Yu D, Huang J T, et al. Improving wideband speech recognition using mixed-bandwidth training data in CD-DNN-HMM[C]//Proceedings of the Spoken Language Technology Workshop. IEEE, 2012:131-136.
[16]Graves A, Ndez S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the International Conference on Machine Learning. ACM, 2006:369-376.
[17]Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit[J]. Idiap, 2012.
[18]Miao Y. Kaldi+PDNN: Building DNN-based ASR systems with Kaldi and PDNN[J]. Computer Science, 2014.