亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征的藏文音節(jié)識別算法

        2018-10-24 07:46:20張日培姜占才
        電子設(shè)計(jì)工程 2018年20期
        關(guān)鍵詞:文本

        張日培,姜占才

        (青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海西寧810008)

        藏文是我國少數(shù)民族文字之一,藏族是應(yīng)用藏文的主體民族,藏文文語轉(zhuǎn)換系統(tǒng)的研究與建立對繁榮和發(fā)展藏族文化有著重大意義。

        經(jīng)過眾多專家學(xué)者的多年努力,主流語種和部分少數(shù)民族語種文語轉(zhuǎn)換系統(tǒng)的研究取得了豐碩成果[1-7]。但現(xiàn)在仍然沒有一套完整實(shí)用的藏文文語轉(zhuǎn)換系統(tǒng)面世。通過對主流語言文語轉(zhuǎn)換系統(tǒng)成果的分析,發(fā)現(xiàn)構(gòu)建藏文的文語轉(zhuǎn)換系統(tǒng)必需要解決藏文詞語的分詞識別問題。關(guān)于這一問題的研究,文獻(xiàn)[8]提出通過提取特征的方法對藏文進(jìn)行分詞識別;此之后的研究者們在藏文的特征提取方法上提出有益的見解、取得了一定的成績[9-11]。通過對眾多成果的歸納,目前可用于藏文識別的藏文特征主要有:藏文字符投影特征,筆畫方向特征,筆畫結(jié)構(gòu)特征,小波能量分布特征[12-14]。

        以上方法雖均可作為識別藏文字符的特征,但特征提取的計(jì)算過程相對繁瑣,對長篇幅藏文的識別效率低,不能達(dá)到文語轉(zhuǎn)換系統(tǒng)的效率要求。本文提出的藏文字符和音節(jié)的特征提取算法簡單易行,能夠達(dá)到讓計(jì)算機(jī)先識“偏旁”(即藏文字符)再認(rèn)“字”(即藏文音節(jié)),然后以“字”為基元識別整篇藏文的目的,為藏文文語轉(zhuǎn)換系統(tǒng)的開發(fā)奠定基礎(chǔ)。

        1 識別算法的設(shè)計(jì)

        1.1 基字位置判定

        在現(xiàn)代藏文文法里,除符合現(xiàn)代藏文文法規(guī)律的藏文音節(jié),還有少數(shù)特殊的藏文音節(jié)無法用現(xiàn)代藏文文法判斷藏文基字位置[16]。

        本文主要目的是為藏文文語轉(zhuǎn)換系統(tǒng)提供藏文字符及音節(jié)識別,所以本文對所有藏文音節(jié)中基字位置統(tǒng)一做如下規(guī)律的基字位置判定。

        1)單字音節(jié)基字位置判定:因?yàn)橐艄?jié)之中只有一個(gè)字符,所以基字位置就是當(dāng)前字符位。

        2)雙字音節(jié)基字位置判定:首先判斷第一個(gè)字符是否為前加字藏文字符,若是則確定基字位置為第二個(gè)字符;若不是則基字位置在第一個(gè)字符位。

        3)三字音節(jié)基字位置判定:首先判斷最后一個(gè)字符是否為又后加字如果不是則基字位置即為第二個(gè)字符位,如果是則基字位為第一個(gè)字符位。

        4)四字音節(jié)基字位置判定:若為四字音節(jié),則基字位置必為第二個(gè)字符位。

        1.2 藏文文本的預(yù)處理

        1.1.1 文本規(guī)范化

        根據(jù)藏文的文字特點(diǎn)對不同字體不同格式的藏文文本轉(zhuǎn)化為同一格式,方便之后對文本圖像中藏文音節(jié)的切分與識別,提高系統(tǒng)的計(jì)算效率。

        規(guī)范化處理后的藏文具體格式為:班智達(dá)輸入法,字體為BZDHT四號字半緊縮粗體,操作系統(tǒng)為WIN7,文本原文件為左側(cè)對齊TXT文檔中光標(biāo)選中的全藍(lán)部分。

        1.1.2 圖像二值化

        為了提高之后的切分與識別的計(jì)算效率,需要將規(guī)范化后大小為m×n的文本圖像進(jìn)行二值化處理。其核心方法為對圖片像素灰度矩陣A進(jìn)行處理。使其大于某一閾值P的像素xij為黑色(0)或白色(255)。

        根據(jù)不同的研究需要,確定二值化的閾值p的方法有多種,這里介紹3種方法:第一種為經(jīng)驗(yàn)法,即根據(jù)經(jīng)驗(yàn)設(shè)定一個(gè)閾值進(jìn)行二值化;第二種是像素平均值法,即求出整幅圖像的像素平均值并將其作為閾值;第3種是像素直方圖法,即選擇圖像像素分布直方圖的兩個(gè)最高峰,然后選兩個(gè)最高峰之間的峰谷最低處的像素值作為閾值。

        由于首先對藏文文本圖像做過了歸一化處理,并且為了更明顯的突出圖像中的藏文文本結(jié)構(gòu),所以本文采用了經(jīng)驗(yàn)值法。即將由經(jīng)驗(yàn)得出的閾值P=200直接賦予算法中。

        1.1.3 文本行處理

        對文本圖像二值化之后,為方便之后的音節(jié)切分,將文本進(jìn)行行處理,方法是將多行文本轉(zhuǎn)化為單行文本。將文本圖像像素矩陣做水平投影計(jì)算,部分文本圖像與水平投影結(jié)果如圖1所示。

        圖1 文本圖像與水平投影結(jié)果

        由圖1得,每兩行中間都有一行0像素作為分割。規(guī)范化之后的文本圖像相鄰的兩行0像素分割線的高度為39,所以輸入的文本圖像高度為39的整數(shù)倍。對二值化之后的文本圖像像素矩陣以39個(gè)像素為一行文本圖像的高度由上至下依次剪切,然后首尾相接,即可實(shí)現(xiàn)圖像矩陣的行變換。

        經(jīng)過此變換之后,像素矩陣A可以分為k個(gè)39×n的像素子矩陣Ak。因?yàn)樵赥XT文本中藏文文本左側(cè)對齊但是右側(cè)不一定對齊,所以會造成截圖時(shí)右側(cè)部分有無效的白色像素,為方便之后計(jì)算,在行變換的同時(shí)檢測是否有無效的白色像素,如果有則執(zhí)行刪除操作。

        對Ai進(jìn)行列投影計(jì)算得到Si=[ ]s1s2…sn,從后向前依次檢查sn的值是否為0,直到為0的sn出現(xiàn)并且計(jì)算此時(shí)Si的長度t,然后以值為長度截取Ai,得到新的單行像素矩陣Bi,最后執(zhí)行首尾拼接操作。

        令行拼接之后的像素矩陣為B則:

        此時(shí)B矩陣即為預(yù)處理之后的文本圖像像素矩陣。

        1.3 特征的選擇與提取

        1.3.1 特征的選擇

        在模式識別中特征選擇的評價(jià)標(biāo)準(zhǔn)大致可分為4種[17]:基于類內(nèi)間距離的可分性、基于概率分布的可分性、基于熵的可分性、統(tǒng)計(jì)檢驗(yàn)的可分性。在文本識別領(lǐng)域已經(jīng)提出的可以選取的特征有:藏文字符投影特征,筆畫方向特征,筆畫結(jié)構(gòu)特征,小波能量分布特征等。

        分析以上方法可知選取藏文字符特征的標(biāo)準(zhǔn)可概括為:選取的特征可以準(zhǔn)確識別每個(gè)藏文字符;選取的特征維數(shù)盡量低;特征的計(jì)算方法簡單易行。

        本文提出一種對圖像矩陣的單向投影進(jìn)行非線性變換提取特征參數(shù)的方法。

        1.3.2 藏文字符特征參數(shù)提取

        單個(gè)藏文字符文本圖像在經(jīng)過預(yù)處理后可得到一幅二值圖,其二值圖像素矩陣為0-1矩陣A,A矩陣尺寸為39行m列。計(jì)算矩陣A的列投影向量S,則S中的元素sj與A中元素xij計(jì)算關(guān)系如下:

        然后對S中的元素sj做非線性變換,做此變換的目的在于區(qū)分字符在不同位置的列投影強(qiáng)度。即對S中的元素sj有如下非線性變換:

        最后計(jì)算對像素矩陣列投影向量S變換后所提取的特征參數(shù)T’:

        則根據(jù)式(3)(4)(5)可以得出選取的特征參數(shù)T’與藏文字符的文本圖像像素矩陣A中的元素xij的關(guān)系為:

        1.4 字符特征值

        由式(6)可知,經(jīng)過提取后的特征參數(shù),藏文字符的圖像矩陣可以變換為一個(gè)存在小數(shù)位的特征參數(shù)。若用字符特征參數(shù)直接進(jìn)行識別運(yùn)算會導(dǎo)致識別算法的復(fù)雜度上升和計(jì)算機(jī)存儲空間的浪費(fèi)。所以本文為方便計(jì)算機(jī)識別和存儲對提取出來的特征參數(shù)T’進(jìn)行如下變換:

        即:T為特征參數(shù)T’得出的字符特征值。為了構(gòu)建音節(jié)的特征向量統(tǒng)一以四位數(shù)規(guī)范特征值。30個(gè)輔音字母對應(yīng)的特征值見表1。

        表1 藏文字符與特征值對應(yīng)表

        特征提取算法以字符為基本單位,所以具有上加字或者下加字或者上下加字的基字算作一個(gè)基本單位,在提取特征時(shí)進(jìn)行整體特征提取。由于篇幅關(guān)系,在表1中沒有給出帶有上加字或者下加字的基字對應(yīng)的特征值。由表1可知,藏文全部30個(gè)輔音字符的特征值都是唯一的,因此,此特征值可識別藏文字符。

        1.5 音節(jié)切分

        1.5.1 音節(jié)內(nèi)字符與音節(jié)符的特征值計(jì)算

        由前文可知已經(jīng)進(jìn)行預(yù)處理的文本圖像矩陣為B,對B矩陣進(jìn)行列投影計(jì)算后得到列投影向量B’。B’中的元素分為兩類,一類為0元素另一類為非0元素,在列投影計(jì)算過程中如果字符沒有任何部分在此列當(dāng)中,則該列投影的結(jié)果即為0。由此可知只要記錄所有前邊的元素不為0的0元素的位置,就可以確定文本中各個(gè)字符的列投影區(qū)間。列投影示意圖如圖2所示。

        每一個(gè)投影相對集中的區(qū)域就是字符區(qū)域或者音節(jié)符區(qū)域,將各個(gè)區(qū)域劃分出后分別利用式(6)求各個(gè)字符特征參數(shù),再計(jì)算其特征值。

        圖2 像素矩陣列投影示意圖

        1.5.2 音節(jié)切分

        由藏文文本的書寫規(guī)范可知,藏文文本中每一個(gè)藏文音節(jié)都有音節(jié)符作為標(biāo)記。只要識別出一篇文章音節(jié)符的位置,就可以根據(jù)音節(jié)符位置切分出整篇文章的各個(gè)音節(jié)。

        藏文音節(jié)切分的具體步驟:將多行文本轉(zhuǎn)化為單行文本;對單行文本的圖像矩陣進(jìn)行列投影運(yùn)算;識別并且分割出字符或者音節(jié)符所在區(qū)域;對每一個(gè)有效區(qū)域進(jìn)行特征值計(jì)算;根據(jù)特征值識別出音節(jié)符所在位置;根據(jù)音節(jié)符所在位置切分音節(jié)。

        1.6 音節(jié)特征向量的提取

        根據(jù)前文所述藏文文法和藏文結(jié)構(gòu)特征,選擇一個(gè)四維向量e=[e1e2e3e4]作為一個(gè)藏文音節(jié)特征向量。ei為組成此音節(jié)的字符特征值。音節(jié)特征向量中的各個(gè)元素e1、e2、e3、e4分別對應(yīng)一個(gè)藏文音節(jié)的前加字、基字、后加字、又后加字的特征值。對于單字音節(jié)、二字音節(jié)、三字音節(jié)這些結(jié)構(gòu)不完全的音節(jié)缺少的位置對應(yīng)的特征值為‘0000’。

        現(xiàn)代藏文文法中四字音節(jié)的又后加字是固定字符,所以為節(jié)省存儲空間可令又后加字的特征值為1,即e4=1;若無又后加字則令e4=0。再將得到的音節(jié)特征向量做字符串處理,即將特征向量e轉(zhuǎn)化成字符串E儲存在計(jì)算機(jī)中。最后得到的音節(jié)特征向量為1*13的字符串矩陣,即13維向量。

        1.7 音節(jié)識別

        1.7.1 音節(jié)特征庫的建立

        首先找出藏文拼寫無誤的訓(xùn)練文本,訓(xùn)練文本圖像經(jīng)過預(yù)處理之后切分音節(jié),分別計(jì)算各個(gè)音節(jié)的特征向量e再由特征向量計(jì)算音節(jié)特征字符串E,對得到的眾多音節(jié)特征字符串E進(jìn)行篩選,使得篩選過后的特征字符串無重復(fù),以此建立單列的藏文音節(jié)特征庫。

        1.7.2 音節(jié)識別

        音節(jié)的特征向量構(gòu)成了音節(jié)的模式,要識別一個(gè)音節(jié)是藏文全部5300余個(gè)音節(jié)中的哪一個(gè),即要識別該模式,必須依據(jù)一定的準(zhǔn)則。為使識別過程簡單、準(zhǔn)確,選擇均方誤差最小準(zhǔn)則,即歐氏距離最小準(zhǔn)則。

        設(shè)x是待識別音節(jié)的模式,維數(shù)為k(k=13),y為特征向量庫中與x同維的模式,則定義它們之間的均方誤差為歐氏距離,即:

        yn是全部y中的第n行,n是行號,n=1、2、3……;yni是特征庫中第n行第i個(gè)分量。只要求出x與全部y的找到則x就被識別成yn,而yn用其在特征向量庫中的地址n給出。此法即為查表識別法。

        1.8 識別算法的完整流程

        識別算法流程如圖3所示。

        圖3 識別算法流程圖

        2 算法仿真實(shí)驗(yàn)

        2.1 實(shí)驗(yàn)方案

        音節(jié)識別仿真實(shí)驗(yàn)必須建立在音節(jié)特征向量庫的基礎(chǔ)上,為此要建立藏文音節(jié)特征向量庫。

        第一部分,預(yù)處理仿真實(shí)驗(yàn),查看預(yù)處理效果;

        第二部分,音節(jié)特征向量提取,建立音節(jié)特征向量庫。包含二值化、音節(jié)切分、特征提取、基字判斷;

        第三部分,音節(jié)識別仿真實(shí)驗(yàn)。

        2.2 實(shí)驗(yàn)材料

        實(shí)驗(yàn)用的藏文文本采用百度文庫中的藏文作文,字體為作文作者隨機(jī)選用字體。文本內(nèi)容為藏文常用語句,主要有敘事、抒情、人文景觀等。將藏文文本word形式下載到WIN7操作系統(tǒng)的電腦中,首先進(jìn)行文本規(guī)范化,即將其復(fù)制粘貼進(jìn)入TXT文檔,調(diào)整字體為BZDHT四號字體,分辨率為1920×1080。然后進(jìn)行截圖采樣。此種文本每一個(gè)音節(jié)都為有效音節(jié),不存在書寫錯(cuò)誤,文本結(jié)尾以句段符結(jié)束。選擇文本如圖4所示。

        2.3 實(shí)驗(yàn)程序及步驟

        2.3.1 實(shí)驗(yàn)程序

        根據(jù)文中提出的算法思想利用MATLAB語言對

        算法進(jìn)行編程并將算法中預(yù)處理部分和識別部分分別以文件名PTT.m與RGT.m存盤。測試程序?qū)Σ匚奈谋緢D像二值化、計(jì)算藏文字符特征值、藏文音節(jié)切分、藏文音節(jié)特征值以及特征字符串的計(jì)算識別部分做了原始程序設(shè)計(jì),更有利于在其他語言環(huán)境里進(jìn)行測試和應(yīng)用。

        圖4 藏文文本樣本

        2.3.2 實(shí)驗(yàn)內(nèi)容

        使用文中提出的算法實(shí)驗(yàn)內(nèi)容如下:對選定的藏文文本樣本進(jìn)行樣本規(guī)范化;對實(shí)驗(yàn)樣本進(jìn)行二值化處理;對實(shí)驗(yàn)樣本進(jìn)行行處理,使多行文本轉(zhuǎn)化為單行文本;切分藏文音節(jié);判斷基字位置并計(jì)算音節(jié)特征字符串;用訓(xùn)練文本樣本建立音節(jié)特征庫;查表識別;

        2.4 實(shí)驗(yàn)結(jié)果及分析

        2.4.1 預(yù)處理算法實(shí)驗(yàn)結(jié)果

        對選定樣本進(jìn)行預(yù)處理算法測試;

        文本圖像二值化、行變換和音節(jié)切分的實(shí)驗(yàn)結(jié)果分別如圖5、圖6、圖7所示。

        圖5 藏文文本二值化圖像

        圖6 藏文文本行變換處理部分結(jié)果圖像

        由圖5可知對圖4所示的文本經(jīng)預(yù)處理和二值化處理得到預(yù)期的結(jié)果,即確定的字體字號和二值化結(jié)果。圖中白色為像素‘1’,黑色部分為像素‘0’,由于背景處灰度值為‘0’故背景和‘0’像素處都為黑色。

        圖7 藏文文本音節(jié)切分結(jié)果圖像

        由圖6可知,行變換后已將圖5所示文本圖像轉(zhuǎn)化為單行的二值化圖像,由圖7可知,切分程序?qū)D5中的文本實(shí)現(xiàn)了準(zhǔn)確的音節(jié)切分。

        2.4.2 音節(jié)特征字符串提取算法實(shí)驗(yàn)結(jié)果

        圖4的實(shí)驗(yàn)樣本共有72個(gè)藏文音節(jié),對每一音節(jié)逐一提取特征向量,其中包含音節(jié)內(nèi)字符特征提取、音節(jié)基字位置判斷、音節(jié)特征向量提取和字符串處理,得出了與各音節(jié)對應(yīng)的特征字符串。

        2.4.3 音節(jié)識別算法實(shí)驗(yàn)結(jié)果

        為方便對照,表2中給出音節(jié)特征庫部分?jǐn)?shù)據(jù):

        表2 部分音節(jié)特征庫

        由于篇幅關(guān)系,表3只給出了測試文本前10個(gè)藏文音節(jié)的查表識別結(jié)果:

        表3 測試文本前十個(gè)藏文音節(jié)識別結(jié)果

        由表3可知,依據(jù)均方誤差最小準(zhǔn)則(歐氏距離最小準(zhǔn)則)的查表識別的識別結(jié)果是非常準(zhǔn)確的,由此可以推斷,只要音節(jié)特征向量庫數(shù)據(jù)充分,即庫內(nèi)包含藏文全部5300余個(gè)音節(jié)的特征向量,就能實(shí)現(xiàn)藏文音節(jié)的準(zhǔn)確識別。

        3 結(jié)束語

        文中提出一種基于音節(jié)特征的藏文音節(jié)識別算法。該算法主要包含音節(jié)特征向量的構(gòu)建和對音節(jié)特征向量庫進(jìn)行查表識別兩部分。音節(jié)特征向量的選擇和提取建立在模式識別的理論基礎(chǔ)上,從理論上保證了對所有藏文音節(jié)的高度可分性,并且計(jì)算過程簡單易行。音節(jié)特征向量庫的建立表示,只要向量庫內(nèi)數(shù)據(jù)充分就可以實(shí)現(xiàn)藏文全部5300余個(gè)音節(jié)的準(zhǔn)確識別。經(jīng)仿真實(shí)驗(yàn)驗(yàn)證該算法在計(jì)算速度和識別精度等方面均能達(dá)到實(shí)際應(yīng)用的要求,為藏文文語轉(zhuǎn)換系統(tǒng)的研究與開發(fā)奠定了良好的基礎(chǔ)。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點(diǎn):論述類文本閱讀
        重點(diǎn):實(shí)用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        成人麻豆视频免费观看| 精品一区二区三区免费爱| 国产精品一区二区AV不卡| 国产精品国产三级国产专区50| 亚洲精品国产电影| 国产精品无码午夜福利| 欧美在线a| 一区二区三区在线免费av| 少妇激情一区二区三区99| 免费1级做爰片1000部视频| 欧美一级三级在线观看| 97人妻蜜臀中文字幕| 国内自拍色第一页第二页| 免费a级毛片无码| 亚洲熟妇无码久久精品疯| 国产黄色看三级三级三级| 亚洲乱码中文字幕在线| 日韩欧群交p片内射中文| 中文字幕日韩精品一区二区三区| 午夜福利电影| 中文字幕午夜AV福利片| 青青草激情视频在线播放| 久久久久久亚洲av成人无码国产| 亚洲欧美日韩高清专区一区| 蜜桃伦理一区二区三区| 国产福利一区二区三区在线观看| 新婚人妻不戴套国产精品| 亚洲美女又黄又爽在线观看| 骚片av蜜桃精品一区| 国产中文字幕亚洲国产| 久久亚洲欧美国产精品| 成全视频高清免费| 国产高跟丝袜在线诱惑| 日本av一区二区三区在线| 天天影视性色香欲综合网| 五月婷婷影视| 国产免费成人自拍视频| 成在线人免费视频| 综合无码一区二区三区四区五区| 91麻豆精品久久久影院| 亚洲成a人v欧美综合天堂|