亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢藏機(jī)器翻譯的特點(diǎn)與手寫漢字切分分析研究*

        2014-09-13 12:35:15楊憲澤陳毅紅
        關(guān)鍵詞:漢藏藏語手寫

        楊憲澤,陳毅紅

        (西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 成都 610041)

        漢藏機(jī)器翻譯的特點(diǎn)與手寫漢字切分分析研究*

        楊憲澤,陳毅紅

        (西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 成都 610041)

        漢藏機(jī)器翻譯的研究是一項(xiàng)有益而復(fù)雜的課題。本文的工作主要有兩項(xiàng), 一是分析了漢藏機(jī)器翻譯中藏語句子特點(diǎn),給出了一些漢藏翻譯句型的舉例;二是闡述了在漢藏機(jī)器翻譯研究中一項(xiàng)前期的輔助工作,即設(shè)計(jì)了手寫漢字切分方法和算法。

        漢藏機(jī)器翻譯;手寫漢字切分;算法

        1 引言

        在研究漢藏英機(jī)器翻譯的課題中, 除了以前探討解決的問題外[1,2],在漢藏機(jī)器翻譯中將面臨兩個新的問題:一是漢藏雙語的詞法、句法、語法和語義非常靈活[3],研究必須考慮、分析漢藏語言共有的特點(diǎn);二是希望能自動處理大量漢字手寫資料。因此,手寫資料的字符切分是自動處理的前提,然后才可能組成單詞,最后才可能進(jìn)行詞或句子的漢藏機(jī)器翻譯。

        本文第2節(jié)分析了漢藏機(jī)器翻譯中藏語的句子特點(diǎn)、句法特點(diǎn),給出了漢藏翻譯句型對照舉例;第3節(jié)探討了漢字手寫資料切分;第4節(jié)對本文的工作進(jìn)行了小結(jié)。

        2 漢藏翻譯的特點(diǎn)分析和句型對照舉例

        2.1 藏語句子特點(diǎn)分析

        (1)在人稱名詞后加專有助詞,可以表示復(fù)數(shù);但如果名詞后帶有數(shù)詞或表示數(shù)量的形容詞時,不再加專有數(shù)詞。

        (2)主語為自稱時有專用詞,為他稱時又有專用詞。

        (3)在動詞后面加上附加成分可以名詞化。

        (4)對于人和事物加以推斷的說明,表達(dá)的方法是在動詞后加附加成分。

        (5)否定是專有的形式。

        (6)動詞有特陳、泛陳、判斷、擬測、推斷、命令、否定形式:特陳式陳述的情況容易被人們弄清楚,泛陳式只做泛泛的陳述。

        (7)動詞的時態(tài),特陳式有現(xiàn)行時、將行時、即行時、未行將行時、已行時、方過時六種時間時態(tài);泛陳式只有現(xiàn)行時和即行時兩種。

        (8)大部分形容詞有普通、較高和最高三個級別:普通級用形容詞原有的形式表示;較高級主要在形容詞后加一特有的附加成分表示,形容詞原帶有的附加成分要去掉;最高級也是去掉形容詞原有的附加成分,加另一特有的附加成分。

        2.2 藏語句法特點(diǎn)分析

        (1)藏語是主語在前,謂語在后,但賓語一般都在主語和謂語的中間。

        (2)一個句子里可以同時有兩個賓語——直接賓語和間接賓語,通常次序是間接賓語在前,直接賓語在后。

        (3)有時為了強(qiáng)調(diào)賓語,可以把它提到主語的前面,不管是直接賓語還是間接賓語。

        (4)直接賓語也可以提到間接賓語前面。

        (5)形容詞、數(shù)詞等作定語,都在中心詞后面。

        (6)狀語一般都在中心詞的前面。

        2.3 漢藏翻譯句型對照舉例

        (1)(漢語)我們有五個人——(藏語)我們?nèi)宋逵?

        (2)(漢語)工廠里有很多工人——(藏語)工廠工人多的有;

        (3)(漢語)別的人們——(藏語)人們別的;

        (4)(漢語)我是西藏人——(藏語)我西藏人是;

        (5)(漢語)他的姐姐是我的姨母——(藏語)他的姐姐我的姨母是;

        (6)(漢語)你不好——(藏語)你好不是;

        (7)(漢語)那些工人有經(jīng)驗(yàn)——(藏語)工人那些經(jīng)驗(yàn)有;

        (8)(漢語)我已洗完,可以走了——(藏語)我洗完去可以;

        (9)(漢語)今晚可能演新電影——(藏語)今晚電影新的一演;

        (10)(漢語)他不做工作——(藏語)他工作做 (否定);

        (11)(漢語)昨天您叫我的時候,我就要來了——(藏語)昨天您我叫去時我來。

        3 手寫漢字文檔切分研究

        3.1 問題與解決思路

        手寫的漢字文檔字符必須切分才能夠自動處理,按有關(guān)規(guī)則進(jìn)行單詞組合,最后才可能進(jìn)行詞或句子的漢藏機(jī)器翻譯。漢字手寫的文檔有非常大的隨意性,不同的人有不同的手寫習(xí)慣,這不可能象漢字印刷體那樣有規(guī)律可循。手寫漢字寫大寫小、字與字間的距離也有隨意性,字與字間有時還會寫得粘連。此外,如果與數(shù)字和英文字母相比,漢字顯得太復(fù)雜,這使得漢字切分技術(shù)復(fù)雜。本文的工作對手寫漢字文檔的字符切分采用連通域方法[4,5]。

        3.2 切分處理闡述

        一篇手寫的漢字文檔字符的切分就是對每個漢字字符確定邊界,下一步是識別單個漢字。不同的人手寫的不同的漢字文檔,經(jīng)分析有以下主要特征出現(xiàn):(1)比較規(guī)范:每一個漢字都是獨(dú)立的;(2)有些漢字寫得粘連;(3)有些漢字寫得重疊:這是沒有辦法用垂直分割線的方法進(jìn)行分割的一種情況;(4)有些漢字寫得部分交疊在一起:實(shí)際上是兩個漢字共享某一部分像素區(qū)域的情況。當(dāng)然,還有一些其它特征,因?yàn)椴怀R?,不再贅述?/p>

        本文論述的切分技術(shù)首先考慮一篇手寫的漢字文檔字符寫得粘連和交疊的情況,因?yàn)檫@是造成漢字切分錯誤的主要部分,而后采用識別技術(shù)分析切分結(jié)果。主要技術(shù)內(nèi)容包含有:

        3.2.1 上下合并連通域

        上下合并連通域考慮連通域的水平重疊率,每一個連通域?yàn)闈h字字符的偏旁、字根、單字及粘連字符等組成,采用從左邊到右邊的方式尋找相鄰的連通域,還要計(jì)算這兩個連通域自身的寬度和它們的重疊區(qū)域。

        水平重疊率Y表示如下:

        其中,H1為第一個連通域的寬度,H2為第二個連通域的寬度,H12是兩個連通域的重合區(qū)域的寬度。

        合并算法:

        步驟1計(jì)算水平重疊率Y;

        步驟2若Y大于給定閾值,合并這兩個連通域,重計(jì)合并后連通域矩形并置為第一個連通域,將緊接的連通域作為第二個連通域,重復(fù)步驟1,處理完轉(zhuǎn)步驟4;

        步驟3若Y小于給定閾值,處理緊接著的兩個相鄰的連通域,重復(fù)步驟1、步驟2;

        步驟4所有連通域處理完,轉(zhuǎn)主程序。

        3.2.2 切分粘連字符

        通過上述處理,連通域進(jìn)行了上下合并,原來的漢字字符串現(xiàn)在成了一系列互不連通的分割塊,稱它們?yōu)檫B通部件。但是,在這些連通部件中,還是有少量的粘連漢字字符,而兩個粘連漢字很可能就被當(dāng)成一個漢字了。 因此,對少量的粘連漢字字符還要處理,方法是:漢字具有方塊特征,字寬應(yīng)該在規(guī)定的范圍內(nèi),兩個粘連漢字的字寬一般情況下要大一些,這就是找出所有粘連漢字的入手點(diǎn)。當(dāng)然,由于不同人的手寫習(xí)慣,寫出來的漢字寬度是不同的,不可能設(shè)置出某個值作為恒定值,這就要對形成的一系列互不連通的分割塊計(jì)算寬度,換算出單一漢字約束寬度Hc。例如,若某一連通部件的寬度大于Hc的2倍,就判別這一連通部件是粘連字符,作切分再處理。此外,必須考慮大小不斷變化的分割塊,要多次重新?lián)Q算單一漢字的約束寬度,直到所有的粘連漢字字符被處理完。

        上述技術(shù)中,上下合并的連通部件考慮了:偏旁、字根、單一漢字及粘連漢字字符。計(jì)算漢字字符的約束寬度方式是,先計(jì)算所有連通部件寬度,構(gòu)成寬度集,最后進(jìn)行升序排序得到集合H。

        把H分成四個連續(xù)子集:

        其中,1≤i

        求其方差:

        現(xiàn)在計(jì)算所有Us中的最小值Umin, 最后計(jì)算Umin對應(yīng)下h3的平均值,就計(jì)算出了單一漢字的約束寬度Kd。

        Kd=mn(h3)

        作了這一系列的技術(shù)準(zhǔn)備,切分粘連漢字就比較容易了:按照漢字約束寬度,可以確定哪些連通域部件是粘連漢字字符。當(dāng)然,要注意寬度較大是多個粘連漢字字符的情況。

        實(shí)施中,設(shè)判斷值F, 既要考慮Kd≤F≤4/3Kd的連通部件,也要考慮F≤2/3Kd的情況,對每一個要切分的連通部件判斷清楚是否存在切分路徑。 如果存在粘連漢字的切分路徑,則對該粘連漢字進(jìn)行切分;如果沒有粘連漢字的切分路徑,應(yīng)該是這一連通域?yàn)閱我粷h字、字根或者偏旁,不切分程序返回。

        3.2.3 字符的左右合并字符

        作上述技術(shù)處理后,粘連漢字字符已經(jīng)切分完畢,下面將按照約束寬度Kd左右合并連通部件。若1/2Kd≤F≤3/2Kd, 對F≤1/2Kd的連通域必須合并;對3/2Kd≤F 的連通域直接作單一漢字,不合并;若為其它情況,還要再次分析處理。

        這一步處理如下,讀入全部連通部件,從左至右依次計(jì)算其寬度得到集合:

        依據(jù)漢字字符寬度,設(shè)置閾值左右合并,這一算法描述如下:

        步驟1取FKd=1/2Kd;EKd=3/2Kd。

        步驟2計(jì)算漢字字符串的第一個連通部件寬度。

        步驟3如果其寬度小于FKd,轉(zhuǎn)步驟4;如果EKd≤ Kd≤ FKd,轉(zhuǎn)步驟5;如果Kd ≥EKd,轉(zhuǎn)步驟6。

        步驟4該連通部件和下一個連通部件合并為一個新的連通部件,計(jì)算新的,如果所有連通部件搜索完畢,轉(zhuǎn)步驟7;否則轉(zhuǎn)步驟3。

        步驟5記錄這個連通部件,該連通部件和下一個連通部件合并為一個新的連通部件,計(jì)算新的Kd,如果所有連通部件搜索完畢,轉(zhuǎn)步驟7;否則轉(zhuǎn)步驟3。

        步驟6記錄這個連通部件,計(jì)算下一個Kd,如果所有連通部件搜索完畢,轉(zhuǎn)步驟7;否則轉(zhuǎn)步驟3。

        步驟7結(jié)束返回主程序。

        3.3 實(shí)驗(yàn)結(jié)果

        本文的工作是方法的綜合應(yīng)用,當(dāng)然也對我們設(shè)計(jì)的手寫漢字切分方法和算法應(yīng)用后的結(jié)果進(jìn)行了分析(可以稱為實(shí)驗(yàn)結(jié)果)。分析結(jié)果說明,根據(jù)對不同的多種手寫的相對工整的文獻(xiàn)圖像進(jìn)行處理,我們設(shè)計(jì)的切分算法能夠基本滿足手寫漢字識別對切分的需求。算法的局限性表現(xiàn)在:雖然可以不受字體、字形等因素的影響, 但對粘連現(xiàn)象的出現(xiàn)比例感覺有些敏感,原因是切分過程中使用了平均字寬, 盡管我們在算法中已對此進(jìn)行了一定的處理, 但當(dāng)粘連漢字個數(shù)比例大于處理的漢字總數(shù)10%時, 算法的切分性能將明顯下降,這也是我們正在努力解決的問題。

        4 結(jié)束語

        漢藏機(jī)器翻譯的研究對于促進(jìn)漢藏科技文化交流、提升教育文化事業(yè)發(fā)展有著深遠(yuǎn)的意義。同時,古老而優(yōu)秀的藏語言文化應(yīng)該跟隨信息時代而發(fā)展,解決目前漢藏機(jī)器翻譯資料非常匱乏的狀況。因此,第2節(jié)漢藏翻譯的特點(diǎn)分析和句型對照舉例規(guī)范列舉了漢藏機(jī)器翻譯面臨的基本問題,應(yīng)該有一定的參考價值。

        雖然本文第3節(jié)的工作是漢藏英機(jī)器翻譯一項(xiàng)前期的輔助工作,即采用連通域方法對手寫漢字進(jìn)行切分,但它是有益的工作。因?yàn)閷τ诙鄠€手寫漢字、數(shù)字和英文字母混合字符的切分,以及手寫體字符與印刷體字符的混合情況切分,其成果對多種文本的分類、識別、翻譯和理解至關(guān)重要,在銀行、海關(guān)、稅務(wù)及政務(wù)處理等方面有著廣泛的應(yīng)用前景。

        [1]YangXian-ze,XiaoMing.Analysisandresearchofahybridmachinetranslationmethods[J].ComputerEngineering&Science, 2012,34(2):168-171.(inChinese)

        [2]YangXian-ze.Researchonthemorphologytreatmentofmachinetranslation[J].ComputerEngineering&Science, 2009,31(5):156-158.(inChinese)

        [3]HuShu-jin.Tibetangrammarinbrief[M].Kunming:YunanNationalPublishingHouse, 1994.(inChinese)

        [4]SrihariSN,YangXuan-shen,GregoryRB.OflineChinesehandwritingrecognition:Anassessmentofcurrenttechnology[J].FrontiersofComputerScienceinChina,2007,1(2):

        137-155.

        [5]ZhaoSY,ChiZR,ShiPF,etal.Two-stagesegmentationofunconstrainedhandwrittenChinesecharacter[J].PatternRecognition,2003, 36(1):145-156.

        附中文參考文獻(xiàn):

        [1] 楊憲澤,肖明.一種混合式機(jī)器翻譯方法的分析研究[J]. 計(jì)算機(jī)工程與科學(xué),2012,34(2):168-171.

        [2] 楊憲澤.機(jī)器翻譯的詞處理研究[J]. 計(jì)算機(jī)工程與科學(xué),2009,31(5):156-158.

        [3] 胡書津.簡明藏文文法[M].昆明:云南民族出版社,1994.

        YANGXian-ze,born in 1954,professor,his research interests include natural language processing, and machine translation.

        陳毅紅(1972-),男,四川成都人,博士生,研究方向?yàn)橹悄芟到y(tǒng)工程、RFID和物聯(lián)網(wǎng)。E-mail:cyhswpi@126.com

        CHENYi-hong,born in 1972,PhD candidate,his research interests include intelligent systems engineering, RFID, and IoT.

        AnalysisandresearchofChinese-TibetanmachinetranslationfeaturesandhandwrittenChinesecharacterssegmentation

        YANG Xian-ze,CHEN Yi-hong

        (School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,China)

        Studying the Chinese-Tibetan machine translation is a beneficial but complicated topic. The paper includes two main parts: 1) The features of the Tibetan sentences in the Chinese-Tibetan machine translation are analyzed, and some sentence pattern examples are given. 2) A previous assist work of the Chinese-Tibetan machine translation research is explained, i.e. a handwritten Chinese characters segmentation algorithm is designed.

        Chinese-Tibetan machine translation;handwritten Chinese segmentation;algorithm

        1007-130X(2014)08-1595-04

        2012-08-24;

        :2013-04-12

        中央高??蒲衅脚_項(xiàng)目(11NPT02);四川國際旅行公司合作項(xiàng)目 (25724101)

        TP391.2

        :A

        10.3969/j.issn.1007-130X.2014.08.030

        楊憲澤(1954-),男,四川成都人,教授,研究方向?yàn)樽匀徽Z言處理和機(jī)器翻譯。E-mail:yangxianze@swun.cn

        通信地址:610041 四川省成都市西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院

        Address:School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,Sichuan,P.R.China

        猜你喜歡
        漢藏藏語手寫
        手寫比敲鍵盤更有助于學(xué)習(xí)和記憶
        淺談藏語中的禮儀語
        客聯(lián)(2022年2期)2022-04-29 22:05:07
        我手寫我心
        漢藏語及其音樂
        抓住身邊事吾手寫吾心
        基于集成學(xué)習(xí)的MINIST手寫數(shù)字識別
        電子制作(2018年18期)2018-11-14 01:48:08
        藏語拉達(dá)克話的幾個語音特征
        西藏研究(2017年3期)2017-09-05 09:44:58
        2《步輦圖》:初唐漢藏關(guān)系圖錄
        藏語地理分布格局的形成原因
        西藏研究(2016年5期)2016-06-15 12:56:42
        漢藏姐妹一家親
        民族大家庭(2016年3期)2016-03-20 14:52:24
        亚洲日韩国产av无码无码精品| 亚洲精品精品日本日本 | 蜜臀人妻精品一区二区免费| 精品国产三级a∨在线欧美| 天堂资源中文最新版在线一区| 97se亚洲国产综合自在线图片| 久久久2019精品视频中文字幕| 亚洲国产午夜精品乱码| 亚洲精品熟女乱色一区| 六月婷婷亚洲性色av蜜桃| 久久精品国产亚洲av网站| 亚洲一区二区观看播放| 亚洲欧洲日产国码久在线| 成人水蜜桃视频在线观看| 午夜dy888国产精品影院| 一本久久a久久精品亚洲| 中文字幕第一页亚洲观看 | 亚洲综合伊人制服丝袜美腿| 98国产精品永久在线观看| 亚洲午夜无码久久久久软件| 亚洲精品中文字幕一二三四 | 亚洲AV无码资源在线观看| 日本一本二本三本道久久久| 天堂av在线美女免费| 久久99热久久99精品| 韩国一级成a人片在线观看| 国产大屁股熟女流白浆一区二区| 国产成人综合日韩精品无码| 人妻少妇精品视中文字幕国语| 久久精品国产亚洲AV古装片| 色婷婷一区二区三区77| 人妻久久久一区二区三区蜜臀| 精品人妻va出轨中文字幕| 伊人婷婷色香五月综合缴激情| 国产精品国产三级国产an不卡| av国产传媒精品免费| 国产午夜成人久久无码一区二区 | 妺妺窝人体色www婷婷| www插插插无码免费视频网站 | 国产乱国产乱老熟300部视频| 精品国产一区二区三区AV小说|