亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        印刷體滿文文字?jǐn)?shù)據(jù)庫(kù)的構(gòu)建與實(shí)現(xiàn)

        2015-04-21 12:24:28周興華鄭蕊蕊胡艷霞
        關(guān)鍵詞:印刷體滿文基元

        周興華,李 敏,鄭蕊蕊,許 爽,胡艷霞

        (大連民族學(xué)院a.計(jì)算機(jī)科學(xué)與工程學(xué)院;b.信息與通信工程學(xué)院;c.東北少數(shù)民族研究院,遼寧大連116605)

        清朝統(tǒng)治中國(guó)將近300年,作為中華民族的少數(shù)民族之一的滿族,歷史悠久,文化內(nèi)涵豐富,在中國(guó)歷史上起著舉足輕重的作用?,F(xiàn)存的大量滿文檔案至今已有400多年的歷史,由于年限久遠(yuǎn),很多歷史文獻(xiàn)已經(jīng)不同程度的破損[1]。如何將這些珍貴的文化歷史記錄轉(zhuǎn)化為可永久保存的電子文檔成為當(dāng)務(wù)之急[2]。光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,OCR)具有將圖片中文字翻譯成計(jì)算機(jī)文字的功能,已廣泛應(yīng)用于少數(shù)民族文檔的數(shù)字化保護(hù),是實(shí)現(xiàn)滿文文檔數(shù)字化的技術(shù)保障[3]。利用光學(xué)字符識(shí)別技術(shù)識(shí)別滿文,必須以大量的字符樣本為基礎(chǔ),因此建設(shè)滿文文字?jǐn)?shù)據(jù)庫(kù)是研究滿文識(shí)別方法的必要條件[4]。目前,國(guó)內(nèi)已經(jīng)建成了蒙文、藏文、維文等少數(shù)民族文字庫(kù),但滿文字庫(kù)的研究相對(duì)較少,還沒(méi)有一個(gè)有影響的滿文文字?jǐn)?shù)據(jù)庫(kù)可以為開(kāi)發(fā)滿文識(shí)別算法提供公共的訓(xùn)練和測(cè)試樣本,實(shí)驗(yàn)結(jié)果存在很大差異性,識(shí)別結(jié)果無(wú)法統(tǒng)一比較。因此,建立滿文文字?jǐn)?shù)據(jù)庫(kù)是滿文識(shí)別技術(shù)的必要前提。

        考慮到滿文文字的特殊性,滿文文字庫(kù)的構(gòu)建與其它字庫(kù)不同,需要將單詞部件作為采集內(nèi)容,而部件的分割是建庫(kù)的重點(diǎn)和難點(diǎn)。本文將建庫(kù)與文字切分聯(lián)系在一起,提出了一種多級(jí)庫(kù)的構(gòu)建思想。該庫(kù)為后續(xù)滿文識(shí)別和特征提取提供有利的保證。對(duì)繼承和發(fā)揚(yáng)少數(shù)民族文化,研究滿清歷史,保護(hù)和傳承非物質(zhì)文化遺產(chǎn),促進(jìn)各民族共同繁榮有著十分重要的歷史意義[5]。

        1 印刷體滿文文字?jǐn)?shù)據(jù)庫(kù)的結(jié)構(gòu)

        基于滿文的特殊性,提出了一種多級(jí)數(shù)據(jù)庫(kù)的構(gòu)建思想,滿文文字?jǐn)?shù)據(jù)庫(kù)的構(gòu)建框圖如圖1。該庫(kù)包括列文本庫(kù)、單詞庫(kù)、基元庫(kù)三個(gè)子庫(kù)。列文本庫(kù)可用于分析滿文的語(yǔ)法結(jié)構(gòu),單詞庫(kù)可用于基元切割和樣本測(cè)試訓(xùn)練,基元庫(kù)可用于后續(xù)的特征提取和模式識(shí)別等。該數(shù)據(jù)庫(kù)的構(gòu)建以《滿文365句》一書(shū)為采集內(nèi)容,書(shū)中都是常用的滿文高頻詞匯,大多數(shù)高校和研究所都是以該書(shū)為教材學(xué)習(xí)滿語(yǔ),因此以該書(shū)為采集內(nèi)容構(gòu)建的數(shù)據(jù)庫(kù)普適性更強(qiáng)。

        圖1 滿文文字?jǐn)?shù)據(jù)庫(kù)構(gòu)建框圖

        滿文文字?jǐn)?shù)據(jù)庫(kù)結(jié)構(gòu)如圖2,該庫(kù)最大的結(jié)構(gòu)特點(diǎn)在于它是一個(gè)多級(jí)庫(kù),其中根據(jù)滿文單詞的長(zhǎng)度又將單詞庫(kù)分為多個(gè)子庫(kù)。為了方便文字識(shí)別的調(diào)用,系統(tǒng)可以先判斷滿文文字的字長(zhǎng),根據(jù)組成單詞基元的個(gè)數(shù)選擇去哪個(gè)子庫(kù)匹配,提高了系統(tǒng)的運(yùn)行速度和匹配效率。同樣,基元庫(kù)中根據(jù)基元出現(xiàn)在單詞中的不同位置劃分為單字基元庫(kù)、字頭基元庫(kù)、字中基元庫(kù)和字尾基元庫(kù)。這樣,在文字識(shí)別、特征提取的時(shí)候就可以根據(jù)基元出現(xiàn)在單詞中的位置選擇去哪個(gè)子庫(kù)查詢匹配。

        圖2 滿文文字?jǐn)?shù)據(jù)庫(kù)結(jié)構(gòu)圖

        2 數(shù)據(jù)庫(kù)的構(gòu)建

        要構(gòu)建印刷體滿文文字?jǐn)?shù)據(jù)庫(kù),首先要對(duì)掃描得到的滿文圖像進(jìn)行一系列的預(yù)處理,提取圖像中的列文本建立列文本庫(kù),再切分出單個(gè)滿文單詞和基元,建立單詞庫(kù)和基元庫(kù)。

        2.1 圖像預(yù)處理

        由于獲取的原始圖像因?yàn)樵肼?、傾斜、污點(diǎn)、痕跡及人為掃描過(guò)程中各種參數(shù)調(diào)整不當(dāng)?shù)仍?,使得掃描的圖像并不完美,質(zhì)量也不高,因此,需要對(duì)圖像進(jìn)行灰度化、二值化、傾斜矯正、行列切分等預(yù)處理[6]。

        對(duì)于圖像的灰度化和二值化,采用文獻(xiàn)[7]中的方法,該方法能夠較好地反映原圖像的亮度信息,取得了較為理想的灰度化和二值化結(jié)果。但是如果掃描圖像產(chǎn)生傾斜,就會(huì)引起字符變形,字符分割就很困難,嚴(yán)重影響文字的識(shí)別率[8]。因此,在預(yù)處理過(guò)程中,還要對(duì)二值圖像進(jìn)行傾斜校正,如圖3(a)。掃描得到的滿文文本圖像存在一定的傾斜角θ,以原點(diǎn)為中心,將像素(x,y)旋轉(zhuǎn)θ角度而得到新的像素點(diǎn)坐標(biāo)(x',y')的旋轉(zhuǎn)變換公式為

        旋轉(zhuǎn)校正后的圖像如圖3(b)。通過(guò)設(shè)定不同的θ值,可實(shí)現(xiàn)圖像不同角度的旋轉(zhuǎn)校正。

        圖3 傾斜校正

        2.2 列文本庫(kù)的構(gòu)建

        滿文為拼音文字,在結(jié)構(gòu)上與蒙古文相似,都是以詞為單位,書(shū)寫(xiě)時(shí)從左至右,從上至下。每個(gè)滿文在垂直方向上是由頭部、中部、尾部構(gòu)成的,由主干線相連。而且主干線大多位于單詞的中部,由分布密集的黑色像素點(diǎn)構(gòu)成[9]。

        要建立列文本庫(kù),首先要對(duì)二值圖像進(jìn)行列切分,提取圖像中的滿文列文本。列切分的關(guān)鍵技術(shù)是如何確定左右邊界,這里采用的是文獻(xiàn)[10]中的投影法。滿文二值圖像在X軸上的投影曲線如圖4,使用該方法的切分效果如圖5,在切分出的列文本中挑選滿文列保存入庫(kù)。

        圖4 在X軸上的投影曲線

        圖5 列切分效果圖

        2.3 單詞庫(kù)的構(gòu)建

        單詞庫(kù)的構(gòu)建需要調(diào)用列文本庫(kù)中的圖像,提取圖像中的滿文單詞。單詞切分與列切分原理基本類似,將圖像的像素點(diǎn)在Y軸上做投影,根據(jù)先前經(jīng)驗(yàn)設(shè)定合適閾值,具體切分算法如下:

        (1)設(shè)f(i,j)是二值圖像中點(diǎn)(i,j)的像素值,其中 0≤i≤pic_height,0≤j≤pic_wide;

        (2)第i=0行時(shí),計(jì)算第i行黑色像素點(diǎn)總個(gè)數(shù),并存入一維數(shù)組count[i]中,i循環(huán)加1;

        (3)如果i小于圖像高度,重復(fù)操作(2);

        (4)設(shè)定閾值p,如果count[i]小于等于p,則返回i的值;

        (5)沿(4)中返回的i值橫向切分圖像。

        這種結(jié)合閾值的投影法,在某些特定規(guī)則下取得了較好的切分效果。將切分出的滿文文字存入單詞庫(kù)中,最后根據(jù)詞長(zhǎng)以及構(gòu)成單詞的基元個(gè)數(shù)對(duì)滿文單詞進(jìn)行分類,分別放入對(duì)應(yīng)的子庫(kù)中。

        2.4 基元庫(kù)的構(gòu)建

        基元庫(kù)的構(gòu)建相對(duì)復(fù)雜,因?yàn)橥蛔帜赋霈F(xiàn)在單詞中的不同位置會(huì)有不同的寫(xiě)法,為了便于基元庫(kù)的充分調(diào)用,我們將基元庫(kù)分為字頭基元庫(kù)、字中基元庫(kù)、字尾基元庫(kù)以及單字庫(kù)四個(gè)三級(jí)子庫(kù)?;那蟹中枰獙?duì)原始文字圖片進(jìn)行列掃描列,選取有效像素點(diǎn)最多的列作為該文字的中軸[11]。構(gòu)建基元庫(kù)具體算法流程如圖6,該算法切分出的基元效果圖如圖7。

        圖6 構(gòu)建基元庫(kù)算法流程圖

        圖7 基元切分效果圖

        通過(guò)以上方法構(gòu)建的列文本庫(kù)、滿文單詞庫(kù)、基元庫(kù)樣本如圖8。

        圖8 印刷體滿文文字?jǐn)?shù)據(jù)庫(kù)樣本示例

        3 結(jié) 語(yǔ)

        文章提出了一種多級(jí)滿文文字?jǐn)?shù)據(jù)庫(kù)的構(gòu)建思想,將數(shù)據(jù)庫(kù)分為列文本庫(kù)、單詞庫(kù)和基元庫(kù)三個(gè)子庫(kù),又根據(jù)基元個(gè)數(shù)的多少和出現(xiàn)位置的不同分為多個(gè)三級(jí)子庫(kù)。這種多級(jí)庫(kù)的設(shè)計(jì)有利于文字的調(diào)用和特征提取,可有效提高后續(xù)的文字識(shí)別速率。另外,該庫(kù)包含豐富的滿文文字及特征資源,可為其他學(xué)者研究和學(xué)習(xí)滿文提供測(cè)試和訓(xùn)練樣本,為后續(xù)滿文識(shí)別奠定基礎(chǔ)。在今后的研究中,將努力改進(jìn)方法,進(jìn)一步改善和豐富該數(shù)據(jù)庫(kù)內(nèi)容,努力構(gòu)建不同字體和字號(hào)都適用的滿文文字?jǐn)?shù)據(jù)庫(kù)。

        [1]趙驥,王麗君,李晶皎.基于統(tǒng)計(jì)的滿文識(shí)別后處理的研究和實(shí)現(xiàn)[J].鞍山科技大學(xué)學(xué)報(bào),2005,28(6):444-446.

        [2]吳敏.從滿文發(fā)展的歷史與現(xiàn)狀談保護(hù)與發(fā)展?jié)M文的意義[J].滿族研究,2010(2):62-65.

        [3]LIN W S,JAY K C C.Perceptual Visual Quality Metrics:A Survey[J].Journal of Visual Communication and Image Representation,2011,22(4):297-312.

        [4]鄭蕊蕊,李敏,吳寶春.基于MATLAB GUI的少數(shù)民族文字手寫(xiě)體采集系統(tǒng)—以滿文為例[J].大連民族學(xué)院學(xué)報(bào),2014,16(3):306-309.

        [5]魏巍,郭晨.基于多特征集成分類器的脫機(jī)滿文識(shí)別方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(6):2347-2352.

        [6]吳剛,德熙嘉措,黃鶴鳴.印刷體藏文識(shí)別技術(shù)[J].青海師范大學(xué)學(xué)報(bào):自然科學(xué)版,2006(01):286-291.

        [7]鄭蕊蕊,趙印繼,李敏,等,.多民族脫機(jī)手寫(xiě)體漢字?jǐn)?shù)據(jù)庫(kù)的設(shè)計(jì)與構(gòu)建[J].大連民族學(xué)院學(xué)報(bào),2011,13(5):205-506.

        [8]劉芳,歐珠.藏文文字識(shí)別系統(tǒng)中的數(shù)字圖像預(yù)處理方法研究[J].西藏大學(xué)學(xué)報(bào),2006,22(13):257-264.

        [9]張廣淵.脫機(jī)手寫(xiě)體滿文識(shí)別研究[D].沈陽(yáng):東北大學(xué),2006.

        [10]劉賽,李益東.彝文文字識(shí)別中的文字切分算法設(shè)計(jì)與實(shí)現(xiàn)[J].中南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2007,26(3):70-72.

        [11]白文榮.手寫(xiě)體蒙古文字識(shí)別—切分技術(shù)的研究[J].科技經(jīng)濟(jì)市場(chǎng),2009,(6):30-31.

        [12]魏宏喜,高光來(lái).印刷體蒙古文字識(shí)別中蒙古文字特征的選擇[J].內(nèi)蒙古大學(xué)學(xué)報(bào),2006,37(6):694-697.

        [13]朱滿瓊,李敏,許爽,等.圖像背景下的滿文文字提?。跩].大連民族學(xué)院學(xué)報(bào),2014,16(1):78-81.

        [14]唐春強(qiáng),趙驥,王愛(ài)俠,等.基于投影法的滿文識(shí)別研究[C].中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集,2004:256-265.

        [15]張廣淵,李晶皎,王愛(ài)俠.脫機(jī)手寫(xiě)滿文筆畫(huà)基元的提取和識(shí)別[J].計(jì)算機(jī)工程,2007,33(22):200-202.

        [16]郭海,趙晶瑩.基于小波分析及改進(jìn)二次鑒別函數(shù)的民族文種識(shí)別[J].計(jì)算機(jī)應(yīng)用,2009,29(12):3360-3365.

        [17] PENG Liangrui,LIU Changsong,DING Xiaoqing.Multi-font printed Monglian document recognition system[J].International Journal on Document Analysis and Recognition(IJDAR),2010,13(2):93-106.

        猜你喜歡
        印刷體滿文基元
        關(guān)注基元反應(yīng)的考查
        西夏文楷書(shū)和草書(shū)手寫(xiě)體探微
        淺談小學(xué)英語(yǔ)字母手寫(xiě)體與印刷體的教學(xué)
        人體細(xì)胞內(nèi)存在全新DNA結(jié)構(gòu)
        高考的時(shí)候,把字寫(xiě)得像印刷體有用嗎
        滿文檔案所見(jiàn)厄魯特源流
        三田渡漢文滿文蒙古文碑文對(duì)比研究
        Numerical Modeling and Analysis of Gas Entrainment for the Ventilated Cavity in Vertical Pipe*
        漂亮的印刷體
        清代審理哈密和吐魯番回人案件的兩份滿文題本譯釋
        搡老熟女中国老太| 少妇又骚又多水的视频| 亚洲高清一区二区三区在线观看 | 日本免费三片在线视频| 久久99精品久久久久麻豆| 精品少妇爆乳无码av无码专区| 欧美国产亚洲日韩在线二区 | 亚洲精品中文字幕91| 久久精品亚洲精品国产色婷 | 综合图区亚洲另类偷窥| 人妻丝袜av中文系列先锋影音| 国产精品多人P群无码| 女人一级特黄大片国产精品| 国产一区二区三区在线影院| 日韩精品无码一区二区三区| 日本老熟妇毛茸茸| 91精品国产免费久久久久久青草 | 中文字幕av伊人av无码av| 亚洲旡码a∨一区二区三区| av一区二区三区亚洲| 男男做h嗯啊高潮涩涩| 激情综合色五月丁香六月欧美| 老少交欧美另类| 国产片AV在线永久免费观看| 亚洲一区不卡在线导航| 一区二区在线观看日本免费 | 亚洲综合欧美日本另类激情| 一区二区视频网站在线观看| 国产精品熟女视频一区二区三区 | 国产熟妇另类久久久久| 波多野结衣中文字幕久久| 仙女白丝jk小脚夹得我好爽| 日本一区二区三区四区在线视频| 亚洲欧美日韩精品久久| 国产曰批免费视频播放免费s| 国产乱老熟视频乱老熟女1| 亚洲黄色天堂网站在线观看禁18| 亚洲一区二区三区无码久久| 国产a级午夜毛片| 久久久久无码中文字幕| 一区二区三区四区在线观看日本 |