楊憲澤,陳毅紅
(西南民族大學計算機科學與技術學院,四川 成都 610041)
漢藏機器翻譯的特點與手寫漢字切分分析研究*
楊憲澤,陳毅紅
(西南民族大學計算機科學與技術學院,四川 成都 610041)
漢藏機器翻譯的研究是一項有益而復雜的課題。本文的工作主要有兩項, 一是分析了漢藏機器翻譯中藏語句子特點,給出了一些漢藏翻譯句型的舉例;二是闡述了在漢藏機器翻譯研究中一項前期的輔助工作,即設計了手寫漢字切分方法和算法。
漢藏機器翻譯;手寫漢字切分;算法
在研究漢藏英機器翻譯的課題中, 除了以前探討解決的問題外[1,2],在漢藏機器翻譯中將面臨兩個新的問題:一是漢藏雙語的詞法、句法、語法和語義非常靈活[3],研究必須考慮、分析漢藏語言共有的特點;二是希望能自動處理大量漢字手寫資料。因此,手寫資料的字符切分是自動處理的前提,然后才可能組成單詞,最后才可能進行詞或句子的漢藏機器翻譯。
本文第2節(jié)分析了漢藏機器翻譯中藏語的句子特點、句法特點,給出了漢藏翻譯句型對照舉例;第3節(jié)探討了漢字手寫資料切分;第4節(jié)對本文的工作進行了小結。
2.1 藏語句子特點分析
(1)在人稱名詞后加專有助詞,可以表示復數(shù);但如果名詞后帶有數(shù)詞或表示數(shù)量的形容詞時,不再加專有數(shù)詞。
(2)主語為自稱時有專用詞,為他稱時又有專用詞。
(3)在動詞后面加上附加成分可以名詞化。
(4)對于人和事物加以推斷的說明,表達的方法是在動詞后加附加成分。
(5)否定是專有的形式。
(6)動詞有特陳、泛陳、判斷、擬測、推斷、命令、否定形式:特陳式陳述的情況容易被人們弄清楚,泛陳式只做泛泛的陳述。
(7)動詞的時態(tài),特陳式有現(xiàn)行時、將行時、即行時、未行將行時、已行時、方過時六種時間時態(tài);泛陳式只有現(xiàn)行時和即行時兩種。
(8)大部分形容詞有普通、較高和最高三個級別:普通級用形容詞原有的形式表示;較高級主要在形容詞后加一特有的附加成分表示,形容詞原帶有的附加成分要去掉;最高級也是去掉形容詞原有的附加成分,加另一特有的附加成分。
2.2 藏語句法特點分析
(1)藏語是主語在前,謂語在后,但賓語一般都在主語和謂語的中間。
(2)一個句子里可以同時有兩個賓語——直接賓語和間接賓語,通常次序是間接賓語在前,直接賓語在后。
(3)有時為了強調賓語,可以把它提到主語的前面,不管是直接賓語還是間接賓語。
(4)直接賓語也可以提到間接賓語前面。
(5)形容詞、數(shù)詞等作定語,都在中心詞后面。
(6)狀語一般都在中心詞的前面。
2.3 漢藏翻譯句型對照舉例
(1)(漢語)我們有五個人——(藏語)我們人五有;
(2)(漢語)工廠里有很多工人——(藏語)工廠工人多的有;
(3)(漢語)別的人們——(藏語)人們別的;
(4)(漢語)我是西藏人——(藏語)我西藏人是;
(5)(漢語)他的姐姐是我的姨母——(藏語)他的姐姐我的姨母是;
(6)(漢語)你不好——(藏語)你好不是;
(7)(漢語)那些工人有經(jīng)驗——(藏語)工人那些經(jīng)驗有;
(8)(漢語)我已洗完,可以走了——(藏語)我洗完去可以;
(9)(漢語)今晚可能演新電影——(藏語)今晚電影新的一演;
(10)(漢語)他不做工作——(藏語)他工作做 (否定);
(11)(漢語)昨天您叫我的時候,我就要來了——(藏語)昨天您我叫去時我來。
3.1 問題與解決思路
手寫的漢字文檔字符必須切分才能夠自動處理,按有關規(guī)則進行單詞組合,最后才可能進行詞或句子的漢藏機器翻譯。漢字手寫的文檔有非常大的隨意性,不同的人有不同的手寫習慣,這不可能象漢字印刷體那樣有規(guī)律可循。手寫漢字寫大寫小、字與字間的距離也有隨意性,字與字間有時還會寫得粘連。此外,如果與數(shù)字和英文字母相比,漢字顯得太復雜,這使得漢字切分技術復雜。本文的工作對手寫漢字文檔的字符切分采用連通域方法[4,5]。
3.2 切分處理闡述
一篇手寫的漢字文檔字符的切分就是對每個漢字字符確定邊界,下一步是識別單個漢字。不同的人手寫的不同的漢字文檔,經(jīng)分析有以下主要特征出現(xiàn):(1)比較規(guī)范:每一個漢字都是獨立的;(2)有些漢字寫得粘連;(3)有些漢字寫得重疊:這是沒有辦法用垂直分割線的方法進行分割的一種情況;(4)有些漢字寫得部分交疊在一起:實際上是兩個漢字共享某一部分像素區(qū)域的情況。當然,還有一些其它特征,因為不常見,不再贅述。
本文論述的切分技術首先考慮一篇手寫的漢字文檔字符寫得粘連和交疊的情況,因為這是造成漢字切分錯誤的主要部分,而后采用識別技術分析切分結果。主要技術內容包含有:
3.2.1 上下合并連通域
上下合并連通域考慮連通域的水平重疊率,每一個連通域為漢字字符的偏旁、字根、單字及粘連字符等組成,采用從左邊到右邊的方式尋找相鄰的連通域,還要計算這兩個連通域自身的寬度和它們的重疊區(qū)域。
水平重疊率Y表示如下:
其中,H1為第一個連通域的寬度,H2為第二個連通域的寬度,H12是兩個連通域的重合區(qū)域的寬度。
合并算法:
步驟1計算水平重疊率Y;
步驟2若Y大于給定閾值,合并這兩個連通域,重計合并后連通域矩形并置為第一個連通域,將緊接的連通域作為第二個連通域,重復步驟1,處理完轉步驟4;
步驟3若Y小于給定閾值,處理緊接著的兩個相鄰的連通域,重復步驟1、步驟2;
步驟4所有連通域處理完,轉主程序。
3.2.2 切分粘連字符
通過上述處理,連通域進行了上下合并,原來的漢字字符串現(xiàn)在成了一系列互不連通的分割塊,稱它們?yōu)檫B通部件。但是,在這些連通部件中,還是有少量的粘連漢字字符,而兩個粘連漢字很可能就被當成一個漢字了。 因此,對少量的粘連漢字字符還要處理,方法是:漢字具有方塊特征,字寬應該在規(guī)定的范圍內,兩個粘連漢字的字寬一般情況下要大一些,這就是找出所有粘連漢字的入手點。當然,由于不同人的手寫習慣,寫出來的漢字寬度是不同的,不可能設置出某個值作為恒定值,這就要對形成的一系列互不連通的分割塊計算寬度,換算出單一漢字約束寬度Hc。例如,若某一連通部件的寬度大于Hc的2倍,就判別這一連通部件是粘連字符,作切分再處理。此外,必須考慮大小不斷變化的分割塊,要多次重新?lián)Q算單一漢字的約束寬度,直到所有的粘連漢字字符被處理完。
上述技術中,上下合并的連通部件考慮了:偏旁、字根、單一漢字及粘連漢字字符。計算漢字字符的約束寬度方式是,先計算所有連通部件寬度,構成寬度集,最后進行升序排序得到集合H。
把H分成四個連續(xù)子集:
其中,1≤i 求其方差: 現(xiàn)在計算所有Us中的最小值Umin, 最后計算Umin對應下h3的平均值,就計算出了單一漢字的約束寬度Kd。 Kd=mn(h3) 作了這一系列的技術準備,切分粘連漢字就比較容易了:按照漢字約束寬度,可以確定哪些連通域部件是粘連漢字字符。當然,要注意寬度較大是多個粘連漢字字符的情況。 實施中,設判斷值F, 既要考慮Kd≤F≤4/3Kd的連通部件,也要考慮F≤2/3Kd的情況,對每一個要切分的連通部件判斷清楚是否存在切分路徑。 如果存在粘連漢字的切分路徑,則對該粘連漢字進行切分;如果沒有粘連漢字的切分路徑,應該是這一連通域為單一漢字、字根或者偏旁,不切分程序返回。 3.2.3 字符的左右合并字符 作上述技術處理后,粘連漢字字符已經(jīng)切分完畢,下面將按照約束寬度Kd左右合并連通部件。若1/2Kd≤F≤3/2Kd, 對F≤1/2Kd的連通域必須合并;對3/2Kd≤F 的連通域直接作單一漢字,不合并;若為其它情況,還要再次分析處理。 這一步處理如下,讀入全部連通部件,從左至右依次計算其寬度得到集合: 依據(jù)漢字字符寬度,設置閾值左右合并,這一算法描述如下: 步驟1取FKd=1/2Kd;EKd=3/2Kd。 步驟2計算漢字字符串的第一個連通部件寬度。 步驟3如果其寬度小于FKd,轉步驟4;如果EKd≤ Kd≤ FKd,轉步驟5;如果Kd ≥EKd,轉步驟6。 步驟4該連通部件和下一個連通部件合并為一個新的連通部件,計算新的,如果所有連通部件搜索完畢,轉步驟7;否則轉步驟3。 步驟5記錄這個連通部件,該連通部件和下一個連通部件合并為一個新的連通部件,計算新的Kd,如果所有連通部件搜索完畢,轉步驟7;否則轉步驟3。 步驟6記錄這個連通部件,計算下一個Kd,如果所有連通部件搜索完畢,轉步驟7;否則轉步驟3。 步驟7結束返回主程序。 3.3 實驗結果 本文的工作是方法的綜合應用,當然也對我們設計的手寫漢字切分方法和算法應用后的結果進行了分析(可以稱為實驗結果)。分析結果說明,根據(jù)對不同的多種手寫的相對工整的文獻圖像進行處理,我們設計的切分算法能夠基本滿足手寫漢字識別對切分的需求。算法的局限性表現(xiàn)在:雖然可以不受字體、字形等因素的影響, 但對粘連現(xiàn)象的出現(xiàn)比例感覺有些敏感,原因是切分過程中使用了平均字寬, 盡管我們在算法中已對此進行了一定的處理, 但當粘連漢字個數(shù)比例大于處理的漢字總數(shù)10%時, 算法的切分性能將明顯下降,這也是我們正在努力解決的問題。 漢藏機器翻譯的研究對于促進漢藏科技文化交流、提升教育文化事業(yè)發(fā)展有著深遠的意義。同時,古老而優(yōu)秀的藏語言文化應該跟隨信息時代而發(fā)展,解決目前漢藏機器翻譯資料非常匱乏的狀況。因此,第2節(jié)漢藏翻譯的特點分析和句型對照舉例規(guī)范列舉了漢藏機器翻譯面臨的基本問題,應該有一定的參考價值。 雖然本文第3節(jié)的工作是漢藏英機器翻譯一項前期的輔助工作,即采用連通域方法對手寫漢字進行切分,但它是有益的工作。因為對于多個手寫漢字、數(shù)字和英文字母混合字符的切分,以及手寫體字符與印刷體字符的混合情況切分,其成果對多種文本的分類、識別、翻譯和理解至關重要,在銀行、海關、稅務及政務處理等方面有著廣泛的應用前景。 [1]YangXian-ze,XiaoMing.Analysisandresearchofahybridmachinetranslationmethods[J].ComputerEngineering&Science, 2012,34(2):168-171.(inChinese) [2]YangXian-ze.Researchonthemorphologytreatmentofmachinetranslation[J].ComputerEngineering&Science, 2009,31(5):156-158.(inChinese) [3]HuShu-jin.Tibetangrammarinbrief[M].Kunming:YunanNationalPublishingHouse, 1994.(inChinese) [4]SrihariSN,YangXuan-shen,GregoryRB.OflineChinesehandwritingrecognition:Anassessmentofcurrenttechnology[J].FrontiersofComputerScienceinChina,2007,1(2): 137-155. [5]ZhaoSY,ChiZR,ShiPF,etal.Two-stagesegmentationofunconstrainedhandwrittenChinesecharacter[J].PatternRecognition,2003, 36(1):145-156. 附中文參考文獻: [1] 楊憲澤,肖明.一種混合式機器翻譯方法的分析研究[J]. 計算機工程與科學,2012,34(2):168-171. [2] 楊憲澤.機器翻譯的詞處理研究[J]. 計算機工程與科學,2009,31(5):156-158. [3] 胡書津.簡明藏文文法[M].昆明:云南民族出版社,1994. YANGXian-ze,born in 1954,professor,his research interests include natural language processing, and machine translation. 陳毅紅(1972-),男,四川成都人,博士生,研究方向為智能系統(tǒng)工程、RFID和物聯(lián)網(wǎng)。E-mail:cyhswpi@126.com CHENYi-hong,born in 1972,PhD candidate,his research interests include intelligent systems engineering, RFID, and IoT. AnalysisandresearchofChinese-TibetanmachinetranslationfeaturesandhandwrittenChinesecharacterssegmentation YANG Xian-ze,CHEN Yi-hong (School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,China) Studying the Chinese-Tibetan machine translation is a beneficial but complicated topic. The paper includes two main parts: 1) The features of the Tibetan sentences in the Chinese-Tibetan machine translation are analyzed, and some sentence pattern examples are given. 2) A previous assist work of the Chinese-Tibetan machine translation research is explained, i.e. a handwritten Chinese characters segmentation algorithm is designed. Chinese-Tibetan machine translation;handwritten Chinese segmentation;algorithm 1007-130X(2014)08-1595-04 2012-08-24; :2013-04-12 中央高??蒲衅脚_項目(11NPT02);四川國際旅行公司合作項目 (25724101) TP391.2 :A 10.3969/j.issn.1007-130X.2014.08.030 楊憲澤(1954-),男,四川成都人,教授,研究方向為自然語言處理和機器翻譯。E-mail:yangxianze@swun.cn 通信地址:610041 四川省成都市西南民族大學計算機科學與技術學院 Address:School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,Sichuan,P.R.China4 結束語