亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

MHW蒙古文脫機(jī)手寫(xiě)數(shù)據(jù)庫(kù)及其應(yīng)用

2018-04-04 02:42:14范道爾吉高光來(lái)武慧娟

中文信息學(xué)報(bào) 2018年1期

關(guān)鍵詞：模型

范道爾吉,高光來(lái), 武慧娟

(1. 內(nèi)蒙古大學(xué) 計(jì)算機(jī)學(xué)院, 內(nèi)蒙古呼和浩特 010021; 2. 內(nèi)蒙古大學(xué) 電子信息工程學(xué)院, 內(nèi)蒙古呼和浩特 010021)

0　引言

建立蒙古文手寫(xiě)數(shù)據(jù)庫(kù)是研究和開(kāi)發(fā)蒙古文手寫(xiě)識(shí)別技術(shù)的基礎(chǔ)。公開(kāi)權(quán)威的手寫(xiě)字庫(kù)是訓(xùn)練識(shí)別系統(tǒng)的基礎(chǔ)數(shù)據(jù)，也是客觀公正地評(píng)比不同識(shí)別算法的衡量標(biāo)準(zhǔn)。但目前還沒(méi)有公開(kāi)的、權(quán)威的、大詞詞匯量的蒙古文手寫(xiě)字庫(kù)。

近幾年來(lái)，蒙古文信息化研究在辦公自動(dòng)化、語(yǔ)音識(shí)別、OCR等領(lǐng)域獲得較大成功[1-3]。然而，自由手寫(xiě)文字識(shí)別、文檔分析等方面研究仍在起步階段。漢字手寫(xiě)識(shí)別研究起步比較早，清華大學(xué)、中科院自動(dòng)化所等著名高校和科研院所都致力于漢字識(shí)別的研究,以漢王科技股份有限公司為首的科技企業(yè)也推出了一系列成熟的商業(yè)產(chǎn)品。很多論文提出的脫機(jī)手寫(xiě)體漢字識(shí)別的方法在不同的字符數(shù)據(jù)庫(kù)試驗(yàn)中, 取得了95%～99%的識(shí)別率[4-6]。

目前, 具有代表性的手寫(xiě)漢字?jǐn)?shù)據(jù)庫(kù)有: HCL2000、HIT-MW、ETL字符數(shù)據(jù)[7]。經(jīng)常被使用的其他手寫(xiě)字庫(kù)有： IAM-DB、IFN/ENIT、RIMES和Maurdor等。其中IAM-DB是英語(yǔ)句子的手寫(xiě)字庫(kù)，大概包括10 841單詞[8]。IFN/ENIT是小規(guī)模詞匯的阿拉伯語(yǔ)單詞手寫(xiě)字庫(kù)[9]。RIMES是大詞匯量的法語(yǔ)手寫(xiě)字庫(kù)[10]。Maurdo是英語(yǔ)、法語(yǔ)和阿拉伯語(yǔ)印刷體和手寫(xiě)體的混合字庫(kù)[11]。

本文主要研究了蒙古文脫機(jī)手寫(xiě)字庫(kù)制作過(guò)程中的若干問(wèn)題，包括文字抽樣、圖片預(yù)處理、文字分割、錯(cuò)誤檢測(cè)等。在此基礎(chǔ)上公開(kāi)了一個(gè)包含10萬(wàn)訓(xùn)練樣本的脫機(jī)手寫(xiě)數(shù)據(jù)庫(kù)，并在隱馬爾科夫模型(hidden markov model, HMM)、深層神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)-HMM混合模型和遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks，RNN)模型上評(píng)估了測(cè)試集的性能。

1　手寫(xiě)字庫(kù)制作

蒙語(yǔ)屬于黏著語(yǔ)，其最大特點(diǎn)是詞匯量豐富。蒙古文有獨(dú)特的構(gòu)詞和書(shū)寫(xiě)方法，由7個(gè)元音、17個(gè)輔音及用于外來(lái)語(yǔ)書(shū)寫(xiě)的1個(gè)元音和10個(gè)輔音構(gòu)成。Unicode編碼的0x1820～0x1842區(qū)域分配給了蒙古文字母。雖然蒙古文字母只有35個(gè)(名義字符)，但每個(gè)字母根據(jù)詞中位置和上下文呈現(xiàn)不同形狀(顯現(xiàn)字符)。手寫(xiě)識(shí)別本質(zhì)上是對(duì)形狀的識(shí)別，所以字庫(kù)應(yīng)涵蓋所有可能的顯現(xiàn)字符組合。

1.1　文字選擇

手寫(xiě)字庫(kù)訓(xùn)練集中出現(xiàn)的詞匯集(簡(jiǎn)稱(chēng)HWS)是蒙古文全部詞匯集(簡(jiǎn)稱(chēng)MGS)的一次抽樣。只有HWS正確反映MGS的統(tǒng)計(jì)特性，所建的字庫(kù)才有代表意義。本文使用的MGS由多個(gè)蒙古文字典的并集構(gòu)成，共包含76 371個(gè)單詞，其中動(dòng)詞只涵蓋了詞根和常用變體形式。

蒙古文Unicode編碼無(wú)法直接表示形狀信息，因此我們自定義了一套形碼集合，如表1所示。從MGS抽取HWS時(shí)采用的策略是：覆蓋所有MGS的形碼三因子。

通過(guò)該策略我們抽取了包含5 000文字的HWS。HWS和MGS的形碼三因子統(tǒng)計(jì)向量的互相關(guān)系數(shù)達(dá)到了0.88,說(shuō)明HWS很好地反映了MGS的統(tǒng)計(jì)分布。手寫(xiě)字庫(kù)包含兩個(gè)測(cè)試集，其中測(cè)試集Ⅰ的1 000個(gè)詞從MGS隨機(jī)抽取獲得；測(cè)試集Ⅱ的939個(gè)常用詞從小學(xué)課本人工挑選獲得。

表1　自定義形碼

1.2　文字書(shū)寫(xiě)

為了采集最自然的手寫(xiě)文字，我們讓書(shū)寫(xiě)者在A4紙上用0.5mm中性筆書(shū)寫(xiě)，然后通過(guò)掃描儀對(duì)紙張進(jìn)行批量掃描變成圖片文件。訓(xùn)練集的5 000個(gè)文字被分割成了40份原始稿件，每個(gè)原始稿件分25列，每列5個(gè)文字，共125個(gè)文字。書(shū)寫(xiě)用的A4紙上提前打印了1行×25列表格，書(shū)寫(xiě)者只需把原始稿件抄寫(xiě)到A4紙上即可。我們共組織了200名書(shū)寫(xiě)者，每人抄寫(xiě)4份原始稿件，共獲得800份手寫(xiě)紙張，每個(gè)字被抄寫(xiě)了20人次。測(cè)試集Ⅰ的書(shū)寫(xiě)人員和訓(xùn)練集的書(shū)寫(xiě)人員是同一群人，且每個(gè)字被書(shū)寫(xiě)5人次。測(cè)試集Ⅱ的書(shū)寫(xiě)人員是另外50名書(shū)寫(xiě)者，每個(gè)字被書(shū)寫(xiě)15人次。

每份手寫(xiě)紙張都被掃描成了分辨率為300dpi的JPG格式圖片，稱(chēng)為原始圖片，如圖1所示。對(duì)原始圖像進(jìn)行二值化、傾斜矯正、中值濾波、行提取、尺寸變換和文字提取等手段后得到了每個(gè)樣本的二值化圖像信息。每個(gè)樣本的寬度固定為48像素，高度自適應(yīng)。

1.3　字庫(kù)正確性核對(duì)

書(shū)寫(xiě)者在書(shū)寫(xiě)過(guò)程中可能出現(xiàn)錯(cuò)字、串行、丟字等錯(cuò)誤現(xiàn)象。為了確保手寫(xiě)字庫(kù)的正確性，需要大量人力進(jìn)行核查和校正。為了進(jìn)一步提高可靠性，我們對(duì)人工核對(duì)后的原始稿件進(jìn)行了自動(dòng)錯(cuò)誤檢測(cè)。

由于蒙古文字長(zhǎng)短不一，因此文字長(zhǎng)度可以作為錯(cuò)誤檢測(cè)的依據(jù)。其基本思想是：對(duì)原始稿件每一行的五個(gè)文字計(jì)算相對(duì)高度，再對(duì)標(biāo)記文本對(duì)應(yīng)的五個(gè)文字同樣計(jì)算相對(duì)高度，最后計(jì)算兩個(gè)相對(duì)高度均方誤差ERR，如果ERR>0.015則報(bào)錯(cuò)，并進(jìn)一步人工核對(duì)。相對(duì)高度計(jì)算方法如式(1)所示，均方差如式(2)所示，文字長(zhǎng)度如圖2所示。

圖1　手寫(xiě)樣本

圖2　文本長(zhǎng)度示例

1.4　字庫(kù)發(fā)布

MHW蒙古文脫機(jī)手寫(xiě)字庫(kù)發(fā)布在https://sourceforge.net/projects/mongolian-hw/上，共包括六個(gè)文件。Trainset.mat是Matlab(ver:7.10.0.499 (R2010a))格式文件，存有訓(xùn)練集手寫(xiě)二值圖像，包含100 000個(gè)樣本。Trainset_label.txt是訓(xùn)練集標(biāo)記Unicode編碼文本文件，每行一個(gè)文字。Testset_Ⅰ.mat和Testset_Ⅱ.mat是測(cè)試集Ⅰ(5 000個(gè)樣本)和測(cè)試集Ⅱ(14 085個(gè)樣本)的數(shù)據(jù)，Testset_Ⅰ_label.txt和Testset_Ⅱ_label.txt是對(duì)應(yīng)標(biāo)記文本。Mat文件讀入Matlab環(huán)境后獲得Cell結(jié)構(gòu)，每個(gè)Cell單元中存有二維圖像信息。手寫(xiě)圖像和標(biāo)記文本按自然序號(hào)相互對(duì)應(yīng)。

2　蒙古文手寫(xiě)識(shí)別系統(tǒng)

2.1　基于HMM的識(shí)別系統(tǒng)

隱馬爾科夫模型(hidden Markov model, HMM)在手寫(xiě)識(shí)別領(lǐng)域得到了廣泛的應(yīng)用[12-13]。設(shè)HMM識(shí)別系統(tǒng)的輸出序列集L*由有限字符集S組成。例如輸出為Unicode序列時(shí)，S由蒙古文35個(gè)名義字符構(gòu)成，輸出為形碼序列時(shí)，S由表1內(nèi)容構(gòu)成。任意字符s∈S由一個(gè)left-right結(jié)構(gòu)HMM和高斯混合模型(Gaussian mixture model, GMM)描述。HMM用一個(gè)三元組λ={AμΣ}表示，其中A為轉(zhuǎn)移概率矩陣、μ為GMM均值、Σ為GMM方差。HMM作為生成模型，通過(guò)訓(xùn)練調(diào)整{AμΣ}的值，使生成字符s所對(duì)應(yīng)輸入序列的概率最大。

解碼時(shí)結(jié)合語(yǔ)言模型、字典數(shù)據(jù)和HMM模型構(gòu)成解碼網(wǎng)絡(luò)，利用Viterbi算法由已知輸入序列(HMM觀察序列)計(jì)算最有可能HMM狀態(tài)序列并轉(zhuǎn)換成最終的識(shí)別序列。為了提高識(shí)別效果，通常對(duì)S中所有可能三因子組合a-b+c做HMM建模。

2.2　基于DNN-HMM的識(shí)別系統(tǒng)

隨著深度學(xué)習(xí)模型的發(fā)展，神經(jīng)網(wǎng)絡(luò)和HMM的混合模型成功應(yīng)用到了語(yǔ)音識(shí)別和手寫(xiě)識(shí)別領(lǐng)域，并獲得了顯著效果[14-15]。深層神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)是前向深層網(wǎng)絡(luò)，每一層可看作是對(duì)前一層輸出數(shù)據(jù)的機(jī)器學(xué)習(xí)特征。HMM模型的一個(gè)缺點(diǎn)是假設(shè)觀察序列是相互獨(dú)立的，但在實(shí)際數(shù)據(jù)中這一假設(shè)不可能成立。

DNN-HMM混合模型的基本結(jié)構(gòu)是用DNN網(wǎng)絡(luò)替換之前GMM-HMM模型的GMM部分，即用DNN網(wǎng)絡(luò)描述觀察序列概率分布情況。DNN輸入是一幀觀察序列xt(為了考慮前后序列的相關(guān)性，通常把左右若干幀同時(shí)作為輸入)，輸出是該幀屬于各個(gè)HMM狀態(tài)的概率p(qt|xt)。但HMM模型中使用的觀察概率是已知狀態(tài)qt時(shí)生成各個(gè)幀的概率p(xt|qt)。利用貝葉斯公式可獲得：

(3)

其中p(qt|xt)是DNN輸出，p(xt)是數(shù)據(jù)幀先驗(yàn)概率，可看作等概，p(qt)是HMM各個(gè)狀態(tài)的先驗(yàn)概率，可通過(guò)統(tǒng)計(jì)DNN訓(xùn)練數(shù)據(jù)獲得。

DNN屬于有監(jiān)督訓(xùn)練，其標(biāo)記信息是各幀對(duì)應(yīng)HMM各個(gè)狀態(tài)的概率。這會(huì)產(chǎn)生一個(gè)悖論，即DNN的訓(xùn)練需要提前知道各個(gè)幀的屬于每個(gè)HMM狀態(tài)的概率。反過(guò)來(lái)，DNN又要描述各個(gè)狀態(tài)的觀察序列概率分布。由于上述原因，我們需要先訓(xùn)練GMM-HMM模型，用訓(xùn)練好的模型生成DNN的標(biāo)記信息，再訓(xùn)練DNN模型，構(gòu)成DNN-HMM結(jié)構(gòu)。

2.3　基于RNN-CTC的識(shí)別系統(tǒng)

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks，RNN)的最初設(shè)計(jì)目的是處理序列數(shù)據(jù)。近年來(lái)特別是RNN的一種變體，長(zhǎng)短期記憶網(wǎng)絡(luò)(long-short term memory，LSTM)顯示了強(qiáng)大的序列數(shù)據(jù)處理能力。Alex Graves等在LSTM輸出層后增加了connectionist temporal classification(CTC)層,解決了輸入輸出序列非對(duì)齊的訓(xùn)練問(wèn)題[16]，從而使LSTM-CTC模型成功應(yīng)用到了語(yǔ)音和手寫(xiě)識(shí)別領(lǐng)域。

一個(gè)典型的二維多方向LSTM-CTC手寫(xiě)識(shí)別模型如圖3所示。手寫(xiě)圖像被1×4大小的塊按四種掃描方式掃描后輸入到4個(gè)獨(dú)立的LSTM節(jié)點(diǎn)，第一層LSTM輸出4個(gè)特征，并經(jīng)過(guò)子抽樣層降維合并后得到一個(gè)變換后的圖像。上述過(guò)程可以重復(fù)多次，第二層LSTM輸出20個(gè)特征，第三層輸出100個(gè)特征。第三層的LSTM經(jīng)過(guò)維度坍塌處理后輸入到CTC層。CTC本質(zhì)上是一個(gè)Softmax分類(lèi)層，每個(gè)節(jié)點(diǎn)的輸出代表當(dāng)前幀對(duì)應(yīng)字符s∈S′的概率，其中S′=S ∪ “blank”，“blank”代表空字符。顯然CTC層的節(jié)點(diǎn)個(gè)數(shù)為|S|+1。CTC層定義了特定的損失函數(shù)，通過(guò)最小化損失函數(shù)使模型輸出正確序列的概率最大化。

3　實(shí)驗(yàn)及結(jié)果

我們利用MHW訓(xùn)練集分別在Kaldi[17]和RNNLIB*https://sourceforge.net/projects/rnnl/環(huán)境下訓(xùn)練了基于HMM和LSTM-CTC的手寫(xiě)識(shí)別模型，并在測(cè)試集上評(píng)估了模型的性能，同時(shí)對(duì)Unicode和形碼序列的性能進(jìn)行了比較。

無(wú)論HMM還是RNN模型，手寫(xiě)圖像需要序列化后才能輸入到模型中。其中針對(duì)HMM模型，我們利用4×48(高×寬)大小的滑動(dòng)窗口，從上到下滑窗(蒙古文從上到下書(shū)寫(xiě))，幀重疊2像素。由于原始圖像各個(gè)維度相關(guān)性非常大，所以不利于直接訓(xùn)練HMM模型。我們利用受限玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)對(duì)窗口內(nèi)的圖像進(jìn)行降維處理，變成了16維向量。針對(duì)LSTM-CTC模型，圖像被1×4大小的塊多方向掃描，變成二維序列，并把原始圖像幀序列直接輸入到模型，讓其自動(dòng)學(xué)習(xí)特征。

Kaldi是基于HMM的開(kāi)源語(yǔ)音識(shí)別建模工具。利用Kaldi實(shí)現(xiàn)手寫(xiě)識(shí)別需要準(zhǔn)備特征數(shù)據(jù)文件(train.txt.ark)和標(biāo)記文件(text)。由于Kaldi特征提取針對(duì)語(yǔ)音信號(hào)，所以我們?cè)贛atlab環(huán)境中實(shí)現(xiàn)了特征提取工作，并輸出了Kaldi文本格式ark文件。文本格式特征文件通過(guò)“copy-feats”命令轉(zhuǎn) 換成二進(jìn)制格式特征文件(raw_mfcc_train.ark, feats.scp)。另一個(gè)非常重要的文件是lexicon.txt，其格式為“ ...”。該文件記錄了詞到目標(biāo)序列的映射關(guān)系。在我們實(shí)驗(yàn)中為了驗(yàn)證Unicode和形碼的性能，所以準(zhǔn)備了兩個(gè)lexicon.txt文件。還有一個(gè)需要準(zhǔn)備的文件是ARPA格式語(yǔ)言模型文件(arpa.ml)。在實(shí)驗(yàn)中每次只識(shí)別一個(gè)詞，因此我們使用了1-gram語(yǔ)言模型，并且包含了MHW訓(xùn)練集和測(cè)試集中出現(xiàn)的全部詞，因此集外詞(out of vocabulary, OOV)概率為零。其他需要準(zhǔn)備的文件有“nonsilence_phones.txt”“optional_silence.txt”“silence_phones.txt” 等。Kaldi中的數(shù)據(jù)大多采用有限狀態(tài)機(jī)(finite state transducers, FST) 組織，上述文件準(zhǔn)備好之后，F(xiàn)ST格式可通過(guò)命令自動(dòng)生成。

圖3　深層LSTM-CTC結(jié)構(gòu)

首先通過(guò)“steps/train_mono.sh”命令訓(xùn)練單音素HMM系統(tǒng)，其中 HMM模型選用三狀態(tài)left-right結(jié)構(gòu)。實(shí)際訓(xùn)練是在16-dim特征上加了一階差分和二階差分后構(gòu)成了48-dim特征。再使用“utils/mkgraph.sh”命令把語(yǔ)言模型、lexicon.txt、HMM等結(jié)合生成解碼網(wǎng)絡(luò)。最后通過(guò)“steps/decode.sh”進(jìn)行了解碼和性能評(píng)估。在單音素系統(tǒng)的基礎(chǔ)可進(jìn)一步訓(xùn)練上下文關(guān)聯(lián)的三音素HMM模型。先利用“steps/align_si.sh”獲取單音素系統(tǒng)下訓(xùn)練數(shù)據(jù)幀和HMM狀態(tài)的對(duì)齊關(guān)系，再使用“steps/train_deltas.sh”訓(xùn)練三音素系統(tǒng)。

在三音素系統(tǒng)的基礎(chǔ)上我們利用“build-pfile-from-ali”命令輸出了訓(xùn)練DNN的標(biāo)記文件。訓(xùn)練DNN時(shí)當(dāng)前幀和左右5個(gè)幀共11幀作為輸入，因此DNN的輸入層含528(11×48)個(gè)神經(jīng)元，四個(gè)隱含層包含1 024個(gè)神經(jīng)元，輸出層神經(jīng)元等于所有三音素HMM狀態(tài)數(shù)(這里是1 513個(gè))。我們用PDNN工具[18]訓(xùn)練了上述DNN結(jié)構(gòu)，并把訓(xùn)練好的DNN帶入到Kaldi代替原有的GMM。訓(xùn)練前DNN參數(shù)被RBM無(wú)監(jiān)督模型逐層初始化，在訓(xùn)練中學(xué)習(xí)率被設(shè)置為“D:0.08:0.5:0.05,0.05:8”，意為從0.08開(kāi)始，當(dāng)驗(yàn)證集上錯(cuò)誤率的改善不足0.05時(shí)，學(xué)習(xí)率降低一半，當(dāng)連續(xù)8個(gè)循環(huán)錯(cuò)誤率改善量不足0.05時(shí)訓(xùn)練結(jié)束。

RNNLIB是訓(xùn)練深層LSTM-CTC模型的開(kāi)源工具，被廣泛應(yīng)用于手寫(xiě)和語(yǔ)音識(shí)別領(lǐng)域。首先要生成NetCDF格式訓(xùn)練集(train.nc)和測(cè)試集文件(test1.nc,test2.nc)。NetCDF文件同時(shí)包含了訓(xùn)練用手寫(xiě)圖像信息和標(biāo)記信息。創(chuàng)建描述模型和參數(shù)的文件(transcription.config)，其中模型參數(shù)為“task transcription; hiddenType lstm; hiddenSize 2,10,50; subsampleSize 6,20; hiddenBlock 2,4;2,3; inputBlock 1,4；”，訓(xùn)練參數(shù)“l(fā)earnRate 1e-4; momentum 0.9” 。RNNLIB本身不支持結(jié)合語(yǔ)言模型的解碼，所以這里我們使用了簡(jiǎn)單的最佳路徑解碼方案，因此無(wú)需字典或語(yǔ)言模型。在RNNLIB的基礎(chǔ)上我們進(jìn)行了基于字典的解碼方案，即根據(jù)CTC層輸出計(jì)算字典中每個(gè)詞的可能概率，選擇概率最大的字作為解碼輸出。

我們采用詞錯(cuò)誤率(word error rate, WER)作為評(píng)測(cè)標(biāo)準(zhǔn)，實(shí)驗(yàn)結(jié)果如表2所示。采用Unicode作為目標(biāo)序列后性能明顯低于形碼系統(tǒng)。特別是單音素系統(tǒng)，由于Unicode不表示形狀，因此單個(gè)HMM模型需要根據(jù)多種形狀進(jìn)行訓(xùn)練，因此性能特別差。采用三音素后Unicode也可以確定形狀，所以測(cè)試集的性能提升20%左右。加入DNN后HMM系統(tǒng)的性能得到了顯著提升，其原因是DNN考慮了上下文關(guān)系，同時(shí)有更好的魯棒性。LSTM-CTC系統(tǒng)中，由于采用最佳路徑，沒(méi)有加入字典和語(yǔ)言模型，所以詞錯(cuò)誤率比較高。當(dāng)加入和HMM系統(tǒng)相同的字典后，解碼性能達(dá)到了最佳。因?yàn)闇y(cè)試集Ⅰ和訓(xùn)練集書(shū)寫(xiě)者是同一群人，所以測(cè)試集Ⅰ的性能普遍高于測(cè)試集Ⅱ。

表2　實(shí)驗(yàn)結(jié)果

4　結(jié)束語(yǔ)

本文發(fā)布了MHW蒙古文脫機(jī)手寫(xiě)數(shù)據(jù)庫(kù)，并在三個(gè)常用手寫(xiě)識(shí)別模型中驗(yàn)證了MHW數(shù)據(jù)庫(kù)的性能。基于字典的LSTM-CTC模型表現(xiàn)出了最佳性能，在測(cè)試集Ⅰ和測(cè)試集Ⅱ的WER分別達(dá)到了2.20%和5.55%。

雖然依據(jù)字典和語(yǔ)言模型解碼時(shí)HMM和LSTM-CTC都有不錯(cuò)的表現(xiàn)，但蒙古文詞匯量巨大且變形豐富。由于該特性蒙古文OOV問(wèn)題比較嚴(yán)重，很難讓實(shí)際字典覆蓋全部蒙古文詞。后續(xù)工作中我們將重點(diǎn)研究無(wú)字典或字典輔助條件下手寫(xiě)識(shí)別方法和OOV的解決途徑。

[1]Bao F, Gao G, Yan X, et al. Segmentation-based Mongolian LVCSR approach[C]//Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013:8136-8139.

[2]Gao G, Su X, Wei H, et al. Classical mongolian words recognition in historical document[C]//Proceedings of the 12th International Conference on Document Analysis and Recognition, 2011:692-697.

[3]Peng L, Liu C, Ding X, et al. Multi-font printed Mongolian document recognition system[J]. International Journal on Document Analysis and Recognition (IJDAR), 2010, 13(2):93-106.

[4]Zhang X Y, Bengio Y, Liu C L. Online and offline handwritten Chinese character recognition: A comprehensive study and new benchmark[J]. Pattern Recognition, 2016, 61(61):348-360.

[5]Wu Y C, Yin F, Liu C L. Improving handwritten chinese text recognition using neural network language models and convolutional neural network shape models[J]. Pattern Recognition, 2017, 65(C):251-264.

[6]Messina R, Louradour J. Segmentation-free handwritten Chinese text recognition with LSTM-RNN[C]//Proceedings of the International Conference on Document Analysis and Recognition. IEEE, 2015:171-175.

[7]趙繼印, 鄭蕊蕊, 吳寶春,等. 脫機(jī)手寫(xiě)體漢字識(shí)別綜述[J]. 電子學(xué)報(bào), 2010, 38(2):405-415.

[8]Marti U V, Bunke H. The IAM-database: an English sentence database for offline handwriting recognition[J]. International Journal on Document Analysis & Recognition, 2002, 5(1):39-46.

[9]Pechwitz M, Maddouri S S, Rgner V, et al. IFN/ENIT-database of handwritten Arabic words[C]//Proceedings of the Francophone International Conference on Writing and Document, Cifed’02, Hammamet, Tunisia. 2002:129-136.

[10]Biannebernard A L. The A2iA French handwriting recognition system at the Rimes-ICDAR2011 competition[C]//Proceedings of the Proceedings of SPIE - The International Society for Optical Engineering, 2012, 8297(1):82970Y-82970Y-8.

[11]Moysset B, Bluche T, Knibbe M, et al. The A2iA Multi-lingual text recognition system at the second maurdor evaluation[C]//Proceedings of the Frontiers in Handwriting Recognition (ICFHR), 2014 14th International Conference on. IEEE, 2014:297-302.

[12]Thomas S, Chatelain C, Heutte L, et al. A deep HMM model for multiple keywords spotting in handwritten documents[J]. Pattern Analysis and Applications, 2015, 18(4):1003-1015.

[13]Roy P P, Bhunia A K, Das A, et al. HMM-based Indic handwritten word recognition using zone segmentation[J]. Pattern Recognition, 2016(60):1057-1075.

[14]Li J, Yu D, Huang J T, et al. Improving wideband speech recognition using mixed-bandwidth training data in CD-DNN-HMM[C]//Proceedings of the Spoken Language Technology Workshop. IEEE, 2012:131-136.

[16]Graves A, Ndez S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the International Conference on Machine Learning. ACM, 2006:369-376.

[17]Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit[J]. Idiap, 2012.

[18]Miao Y. Kaldi+PDNN: Building DNN-based ASR systems with Kaldi and PDNN[J]. Computer Science, 2014.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

MHW蒙古文脫機(jī)手寫(xiě)數(shù)據(jù)庫(kù)及其應(yīng)用

0 引言

1 手寫(xiě)字庫(kù)制作

1.1 文字選擇

1.2 文字書(shū)寫(xiě)

1.3 字庫(kù)正確性核對(duì)

1.4 字庫(kù)發(fā)布

2 蒙古文手寫(xiě)識(shí)別系統(tǒng)

2.1 基于HMM的識(shí)別系統(tǒng)

2.2 基于DNN-HMM的識(shí)別系統(tǒng)

2.3 基于RNN-CTC的識(shí)別系統(tǒng)

3 實(shí)驗(yàn)及結(jié)果

4 結(jié)束語(yǔ)