楊憲澤,陳毅紅
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 成都 610041)
漢藏機(jī)器翻譯的特點(diǎn)與手寫漢字切分分析研究*
楊憲澤,陳毅紅
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 成都 610041)
漢藏機(jī)器翻譯的研究是一項(xiàng)有益而復(fù)雜的課題。本文的工作主要有兩項(xiàng), 一是分析了漢藏機(jī)器翻譯中藏語句子特點(diǎn),給出了一些漢藏翻譯句型的舉例;二是闡述了在漢藏機(jī)器翻譯研究中一項(xiàng)前期的輔助工作,即設(shè)計(jì)了手寫漢字切分方法和算法。
漢藏機(jī)器翻譯;手寫漢字切分;算法
在研究漢藏英機(jī)器翻譯的課題中, 除了以前探討解決的問題外[1,2],在漢藏機(jī)器翻譯中將面臨兩個新的問題:一是漢藏雙語的詞法、句法、語法和語義非常靈活[3],研究必須考慮、分析漢藏語言共有的特點(diǎn);二是希望能自動處理大量漢字手寫資料。因此,手寫資料的字符切分是自動處理的前提,然后才可能組成單詞,最后才可能進(jìn)行詞或句子的漢藏機(jī)器翻譯。
本文第2節(jié)分析了漢藏機(jī)器翻譯中藏語的句子特點(diǎn)、句法特點(diǎn),給出了漢藏翻譯句型對照舉例;第3節(jié)探討了漢字手寫資料切分;第4節(jié)對本文的工作進(jìn)行了小結(jié)。
2.1 藏語句子特點(diǎn)分析
(1)在人稱名詞后加專有助詞,可以表示復(fù)數(shù);但如果名詞后帶有數(shù)詞或表示數(shù)量的形容詞時,不再加專有數(shù)詞。
(2)主語為自稱時有專用詞,為他稱時又有專用詞。
(3)在動詞后面加上附加成分可以名詞化。
(4)對于人和事物加以推斷的說明,表達(dá)的方法是在動詞后加附加成分。
(5)否定是專有的形式。
(6)動詞有特陳、泛陳、判斷、擬測、推斷、命令、否定形式:特陳式陳述的情況容易被人們弄清楚,泛陳式只做泛泛的陳述。
(7)動詞的時態(tài),特陳式有現(xiàn)行時、將行時、即行時、未行將行時、已行時、方過時六種時間時態(tài);泛陳式只有現(xiàn)行時和即行時兩種。
(8)大部分形容詞有普通、較高和最高三個級別:普通級用形容詞原有的形式表示;較高級主要在形容詞后加一特有的附加成分表示,形容詞原帶有的附加成分要去掉;最高級也是去掉形容詞原有的附加成分,加另一特有的附加成分。
2.2 藏語句法特點(diǎn)分析
(1)藏語是主語在前,謂語在后,但賓語一般都在主語和謂語的中間。
(2)一個句子里可以同時有兩個賓語——直接賓語和間接賓語,通常次序是間接賓語在前,直接賓語在后。
(3)有時為了強(qiáng)調(diào)賓語,可以把它提到主語的前面,不管是直接賓語還是間接賓語。
(4)直接賓語也可以提到間接賓語前面。
(5)形容詞、數(shù)詞等作定語,都在中心詞后面。
(6)狀語一般都在中心詞的前面。
2.3 漢藏翻譯句型對照舉例
(1)(漢語)我們有五個人——(藏語)我們?nèi)宋逵?
(2)(漢語)工廠里有很多工人——(藏語)工廠工人多的有;
(3)(漢語)別的人們——(藏語)人們別的;
(4)(漢語)我是西藏人——(藏語)我西藏人是;
(5)(漢語)他的姐姐是我的姨母——(藏語)他的姐姐我的姨母是;
(6)(漢語)你不好——(藏語)你好不是;
(7)(漢語)那些工人有經(jīng)驗(yàn)——(藏語)工人那些經(jīng)驗(yàn)有;
(8)(漢語)我已洗完,可以走了——(藏語)我洗完去可以;
(9)(漢語)今晚可能演新電影——(藏語)今晚電影新的一演;
(10)(漢語)他不做工作——(藏語)他工作做 (否定);
(11)(漢語)昨天您叫我的時候,我就要來了——(藏語)昨天您我叫去時我來。
3.1 問題與解決思路
手寫的漢字文檔字符必須切分才能夠自動處理,按有關(guān)規(guī)則進(jìn)行單詞組合,最后才可能進(jìn)行詞或句子的漢藏機(jī)器翻譯。漢字手寫的文檔有非常大的隨意性,不同的人有不同的手寫習(xí)慣,這不可能象漢字印刷體那樣有規(guī)律可循。手寫漢字寫大寫小、字與字間的距離也有隨意性,字與字間有時還會寫得粘連。此外,如果與數(shù)字和英文字母相比,漢字顯得太復(fù)雜,這使得漢字切分技術(shù)復(fù)雜。本文的工作對手寫漢字文檔的字符切分采用連通域方法[4,5]。
3.2 切分處理闡述
一篇手寫的漢字文檔字符的切分就是對每個漢字字符確定邊界,下一步是識別單個漢字。不同的人手寫的不同的漢字文檔,經(jīng)分析有以下主要特征出現(xiàn):(1)比較規(guī)范:每一個漢字都是獨(dú)立的;(2)有些漢字寫得粘連;(3)有些漢字寫得重疊:這是沒有辦法用垂直分割線的方法進(jìn)行分割的一種情況;(4)有些漢字寫得部分交疊在一起:實(shí)際上是兩個漢字共享某一部分像素區(qū)域的情況。當(dāng)然,還有一些其它特征,因?yàn)椴怀R?,不再贅述?/p>
本文論述的切分技術(shù)首先考慮一篇手寫的漢字文檔字符寫得粘連和交疊的情況,因?yàn)檫@是造成漢字切分錯誤的主要部分,而后采用識別技術(shù)分析切分結(jié)果。主要技術(shù)內(nèi)容包含有:
3.2.1 上下合并連通域
上下合并連通域考慮連通域的水平重疊率,每一個連通域?yàn)闈h字字符的偏旁、字根、單字及粘連字符等組成,采用從左邊到右邊的方式尋找相鄰的連通域,還要計(jì)算這兩個連通域自身的寬度和它們的重疊區(qū)域。
水平重疊率Y表示如下:
其中,H1為第一個連通域的寬度,H2為第二個連通域的寬度,H12是兩個連通域的重合區(qū)域的寬度。
合并算法:
步驟1計(jì)算水平重疊率Y;
步驟2若Y大于給定閾值,合并這兩個連通域,重計(jì)合并后連通域矩形并置為第一個連通域,將緊接的連通域作為第二個連通域,重復(fù)步驟1,處理完轉(zhuǎn)步驟4;
步驟3若Y小于給定閾值,處理緊接著的兩個相鄰的連通域,重復(fù)步驟1、步驟2;
步驟4所有連通域處理完,轉(zhuǎn)主程序。
3.2.2 切分粘連字符
通過上述處理,連通域進(jìn)行了上下合并,原來的漢字字符串現(xiàn)在成了一系列互不連通的分割塊,稱它們?yōu)檫B通部件。但是,在這些連通部件中,還是有少量的粘連漢字字符,而兩個粘連漢字很可能就被當(dāng)成一個漢字了。 因此,對少量的粘連漢字字符還要處理,方法是:漢字具有方塊特征,字寬應(yīng)該在規(guī)定的范圍內(nèi),兩個粘連漢字的字寬一般情況下要大一些,這就是找出所有粘連漢字的入手點(diǎn)。當(dāng)然,由于不同人的手寫習(xí)慣,寫出來的漢字寬度是不同的,不可能設(shè)置出某個值作為恒定值,這就要對形成的一系列互不連通的分割塊計(jì)算寬度,換算出單一漢字約束寬度Hc。例如,若某一連通部件的寬度大于Hc的2倍,就判別這一連通部件是粘連字符,作切分再處理。此外,必須考慮大小不斷變化的分割塊,要多次重新?lián)Q算單一漢字的約束寬度,直到所有的粘連漢字字符被處理完。
上述技術(shù)中,上下合并的連通部件考慮了:偏旁、字根、單一漢字及粘連漢字字符。計(jì)算漢字字符的約束寬度方式是,先計(jì)算所有連通部件寬度,構(gòu)成寬度集,最后進(jìn)行升序排序得到集合H。
把H分成四個連續(xù)子集:
其中,1≤i 求其方差: 現(xiàn)在計(jì)算所有Us中的最小值Umin, 最后計(jì)算Umin對應(yīng)下h3的平均值,就計(jì)算出了單一漢字的約束寬度Kd。 Kd=mn(h3) 作了這一系列的技術(shù)準(zhǔn)備,切分粘連漢字就比較容易了:按照漢字約束寬度,可以確定哪些連通域部件是粘連漢字字符。當(dāng)然,要注意寬度較大是多個粘連漢字字符的情況。 實(shí)施中,設(shè)判斷值F, 既要考慮Kd≤F≤4/3Kd的連通部件,也要考慮F≤2/3Kd的情況,對每一個要切分的連通部件判斷清楚是否存在切分路徑。 如果存在粘連漢字的切分路徑,則對該粘連漢字進(jìn)行切分;如果沒有粘連漢字的切分路徑,應(yīng)該是這一連通域?yàn)閱我粷h字、字根或者偏旁,不切分程序返回。 3.2.3 字符的左右合并字符 作上述技術(shù)處理后,粘連漢字字符已經(jīng)切分完畢,下面將按照約束寬度Kd左右合并連通部件。若1/2Kd≤F≤3/2Kd, 對F≤1/2Kd的連通域必須合并;對3/2Kd≤F 的連通域直接作單一漢字,不合并;若為其它情況,還要再次分析處理。 這一步處理如下,讀入全部連通部件,從左至右依次計(jì)算其寬度得到集合: 依據(jù)漢字字符寬度,設(shè)置閾值左右合并,這一算法描述如下: 步驟1取FKd=1/2Kd;EKd=3/2Kd。 步驟2計(jì)算漢字字符串的第一個連通部件寬度。 步驟3如果其寬度小于FKd,轉(zhuǎn)步驟4;如果EKd≤ Kd≤ FKd,轉(zhuǎn)步驟5;如果Kd ≥EKd,轉(zhuǎn)步驟6。 步驟4該連通部件和下一個連通部件合并為一個新的連通部件,計(jì)算新的,如果所有連通部件搜索完畢,轉(zhuǎn)步驟7;否則轉(zhuǎn)步驟3。 步驟5記錄這個連通部件,該連通部件和下一個連通部件合并為一個新的連通部件,計(jì)算新的Kd,如果所有連通部件搜索完畢,轉(zhuǎn)步驟7;否則轉(zhuǎn)步驟3。 步驟6記錄這個連通部件,計(jì)算下一個Kd,如果所有連通部件搜索完畢,轉(zhuǎn)步驟7;否則轉(zhuǎn)步驟3。 步驟7結(jié)束返回主程序。 3.3 實(shí)驗(yàn)結(jié)果 本文的工作是方法的綜合應(yīng)用,當(dāng)然也對我們設(shè)計(jì)的手寫漢字切分方法和算法應(yīng)用后的結(jié)果進(jìn)行了分析(可以稱為實(shí)驗(yàn)結(jié)果)。分析結(jié)果說明,根據(jù)對不同的多種手寫的相對工整的文獻(xiàn)圖像進(jìn)行處理,我們設(shè)計(jì)的切分算法能夠基本滿足手寫漢字識別對切分的需求。算法的局限性表現(xiàn)在:雖然可以不受字體、字形等因素的影響, 但對粘連現(xiàn)象的出現(xiàn)比例感覺有些敏感,原因是切分過程中使用了平均字寬, 盡管我們在算法中已對此進(jìn)行了一定的處理, 但當(dāng)粘連漢字個數(shù)比例大于處理的漢字總數(shù)10%時, 算法的切分性能將明顯下降,這也是我們正在努力解決的問題。 漢藏機(jī)器翻譯的研究對于促進(jìn)漢藏科技文化交流、提升教育文化事業(yè)發(fā)展有著深遠(yuǎn)的意義。同時,古老而優(yōu)秀的藏語言文化應(yīng)該跟隨信息時代而發(fā)展,解決目前漢藏機(jī)器翻譯資料非常匱乏的狀況。因此,第2節(jié)漢藏翻譯的特點(diǎn)分析和句型對照舉例規(guī)范列舉了漢藏機(jī)器翻譯面臨的基本問題,應(yīng)該有一定的參考價值。 雖然本文第3節(jié)的工作是漢藏英機(jī)器翻譯一項(xiàng)前期的輔助工作,即采用連通域方法對手寫漢字進(jìn)行切分,但它是有益的工作。因?yàn)閷τ诙鄠€手寫漢字、數(shù)字和英文字母混合字符的切分,以及手寫體字符與印刷體字符的混合情況切分,其成果對多種文本的分類、識別、翻譯和理解至關(guān)重要,在銀行、海關(guān)、稅務(wù)及政務(wù)處理等方面有著廣泛的應(yīng)用前景。 [1]YangXian-ze,XiaoMing.Analysisandresearchofahybridmachinetranslationmethods[J].ComputerEngineering&Science, 2012,34(2):168-171.(inChinese) [2]YangXian-ze.Researchonthemorphologytreatmentofmachinetranslation[J].ComputerEngineering&Science, 2009,31(5):156-158.(inChinese) [3]HuShu-jin.Tibetangrammarinbrief[M].Kunming:YunanNationalPublishingHouse, 1994.(inChinese) [4]SrihariSN,YangXuan-shen,GregoryRB.OflineChinesehandwritingrecognition:Anassessmentofcurrenttechnology[J].FrontiersofComputerScienceinChina,2007,1(2): 137-155. [5]ZhaoSY,ChiZR,ShiPF,etal.Two-stagesegmentationofunconstrainedhandwrittenChinesecharacter[J].PatternRecognition,2003, 36(1):145-156. 附中文參考文獻(xiàn): [1] 楊憲澤,肖明.一種混合式機(jī)器翻譯方法的分析研究[J]. 計(jì)算機(jī)工程與科學(xué),2012,34(2):168-171. [2] 楊憲澤.機(jī)器翻譯的詞處理研究[J]. 計(jì)算機(jī)工程與科學(xué),2009,31(5):156-158. [3] 胡書津.簡明藏文文法[M].昆明:云南民族出版社,1994. YANGXian-ze,born in 1954,professor,his research interests include natural language processing, and machine translation. 陳毅紅(1972-),男,四川成都人,博士生,研究方向?yàn)橹悄芟到y(tǒng)工程、RFID和物聯(lián)網(wǎng)。E-mail:cyhswpi@126.com CHENYi-hong,born in 1972,PhD candidate,his research interests include intelligent systems engineering, RFID, and IoT. AnalysisandresearchofChinese-TibetanmachinetranslationfeaturesandhandwrittenChinesecharacterssegmentation YANG Xian-ze,CHEN Yi-hong (School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,China) Studying the Chinese-Tibetan machine translation is a beneficial but complicated topic. The paper includes two main parts: 1) The features of the Tibetan sentences in the Chinese-Tibetan machine translation are analyzed, and some sentence pattern examples are given. 2) A previous assist work of the Chinese-Tibetan machine translation research is explained, i.e. a handwritten Chinese characters segmentation algorithm is designed. Chinese-Tibetan machine translation;handwritten Chinese segmentation;algorithm 1007-130X(2014)08-1595-04 2012-08-24; :2013-04-12 中央高??蒲衅脚_項(xiàng)目(11NPT02);四川國際旅行公司合作項(xiàng)目 (25724101) TP391.2 :A 10.3969/j.issn.1007-130X.2014.08.030 楊憲澤(1954-),男,四川成都人,教授,研究方向?yàn)樽匀徽Z言處理和機(jī)器翻譯。E-mail:yangxianze@swun.cn 通信地址:610041 四川省成都市西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 Address:School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,Sichuan,P.R.China4 結(jié)束語