亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向短語統(tǒng)計(jì)機(jī)器翻譯的漢日聯(lián)合分詞研究

        2015-02-24 05:13:30吳培昊徐金安張玉潔
        關(guān)鍵詞:對照表分詞語料

        吳培昊,徐金安,張玉潔

        北京交通大學(xué),北京 100044

        1 引言

        漢語與日語不同于英語等西方語言,句子不存在空格作為邊界的詞分隔符[1]。因此,分詞為漢語與日語自然語言處理的重要工作。現(xiàn)有的關(guān)于漢語與日語分詞技術(shù)發(fā)展較為成熟,存在許多分詞工具。然而,由于漢語和日語分詞大多根據(jù)自身的語言特點(diǎn)指定詞性標(biāo)注體系。詞性標(biāo)注體系的差異導(dǎo)致分詞粒度存在差異,同時(shí)分詞粒度在信息檢索、機(jī)器翻譯等具體應(yīng)用領(lǐng)域中產(chǎn)生不同的影響效果。另一方面,既有研究成果表明,評價(jià)分詞性能的F-score值與機(jī)器翻譯系統(tǒng)的質(zhì)量之間并沒有明顯關(guān)系[2-4]。就統(tǒng)計(jì)機(jī)器翻譯而言,一種提高翻譯系統(tǒng)性能的方法為通過調(diào)整分詞粒度,對源語言和目標(biāo)語言端分詞結(jié)果進(jìn)行調(diào)整。因此,如何調(diào)整漢語和日語分詞粒度,以提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能,是一個(gè)值得探討的研究課題。

        導(dǎo)致不同或同種語言分詞粒度不同的原因,大致歸納如下:

        (1)語系不同導(dǎo)致分詞粒度不同。例如,漢語屬于孤立語系,日語屬于黏著語系,各自形成語義的構(gòu)成要素存在較大差異。

        (2)詞性標(biāo)注體系不同,導(dǎo)致分詞粒度不同。

        (3)使用目的不同,對分詞粒度存在不同要求。

        (4)語言文化、語法構(gòu)成和語義表現(xiàn)等的差異,導(dǎo)致分詞粒度不同。

        (5)未登錄詞識別問題導(dǎo)致粒度不同。

        由于異種語言間的詞匯、語法和語義層面上大多是非同構(gòu)的,很難達(dá)到詞與詞之間的一一對應(yīng)關(guān)系[5]。因此,既有的單語分詞結(jié)果在使用于機(jī)器翻譯時(shí),需要同時(shí)考慮源語言與目標(biāo)語言的詞法特點(diǎn),對雙語分詞粒度進(jìn)行整合,以期改善統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。因此,分詞粒度對漢日雙語統(tǒng)計(jì)機(jī)器翻譯的影響,還有待深入的研究。

        目前,面向統(tǒng)計(jì)機(jī)器翻譯的漢語分詞粒度研究的主流方法是依據(jù)另一端語言分詞信息,對漢語分詞粒度進(jìn)行調(diào)整。在漢英統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域,Wang等[6-7]的實(shí)驗(yàn)表明,細(xì)粒度分詞結(jié)果,能提升統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。Ma等[8]提出基于訓(xùn)練語料的自適應(yīng)方法,采用可信對齊構(gòu)建字格(word lattice)對漢語端進(jìn)行粒度調(diào)整,以提升分詞的領(lǐng)域適應(yīng)能力。奚寧等[5]描述一種基于可信對齊與單語分詞相融合的策略對漢語分詞進(jìn)行調(diào)優(yōu)。Bai等[9]依據(jù)漢英詞典對齊信息抽取漢語粒度切分的規(guī)則模板,使用模板進(jìn)行漢語分詞粒度調(diào)整。Wang等[6]采用一種半自動(semi-automatic)的學(xué)習(xí)方法,對漢語分詞進(jìn)行短單元(short-unit)的調(diào)整。Dyer[10]和 Zhang[3]等人基于多策略漢語分詞對漢英統(tǒng)計(jì)機(jī)器翻譯解碼過程進(jìn)行優(yōu)化。

        由于日語端不存在空格作為詞分隔符,無法確定上述在中英有效的方法在漢日機(jī)器翻譯中是否有效。漢語與日語語言中均使用漢字,因此在漢日機(jī)器翻譯中可使用漢字對照表作為特征信息進(jìn)行粒度調(diào)整。Chu等[11]使用漢日漢字對應(yīng)信息,通過日語端分詞結(jié)果對漢語端分詞結(jié)果進(jìn)行調(diào)優(yōu),該方法沒有對漢語的分詞粒度進(jìn)行考察,也沒有同時(shí)調(diào)整漢日雙語的分詞粒度。

        為系統(tǒng)地考察通過改善分詞粒度提高漢日雙語統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)性能的可行性,本文使用簡體漢字與日語漢字對照表以及日漢詞典相結(jié)合,提出了一種提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)性能的漢日雙語分詞粒度調(diào)整策略。實(shí)驗(yàn)結(jié)果表明,提出的方法能有效調(diào)節(jié)漢日雙語分詞粒度,提升機(jī)器翻譯系統(tǒng)的性能。

        2 漢字對照表構(gòu)建及詞典處理

        2.1 漢日漢字對照表構(gòu)建

        漢字在漢語與日語中均被廣泛使用[12],日語漢字來源于古漢語,因此日語漢字與漢語漢字(包含簡體漢字與繁體漢字)在很多情況下是相同的。然而,如表1所示,日語漢字與漢語漢字的對應(yīng)關(guān)系十分復(fù)雜。Goh等[13]使用日漢字典,通過直接匹配的方法,將日語漢字轉(zhuǎn)化為漢語漢字;Chu等[12]使用開源資源構(gòu)建日語漢字、繁體漢字、簡體漢字對照表。

        表1 漢字不同表現(xiàn)

        漢日雙語翻譯系統(tǒng)中,漢語端通常只包含簡體漢字,因此本文構(gòu)建日語漢字與簡體漢字的對照表。圖1為本文提出的日語漢字與簡體漢字對照表構(gòu)建的流程圖。該流程中,本文共使用三類字典信息:

        (1)字形變化字典。一個(gè)漢字在漢日字典中可能存在多種不同字形,因此在構(gòu)建字典時(shí),可以枚舉每種字形情況進(jìn)行對應(yīng)關(guān)系抽取。Unihan Database(http://unicode.org/charts/unihan.html)為Unicode Consortium的中日韓三語的知識數(shù)據(jù)庫。該數(shù)據(jù)庫中包含每個(gè)漢字的變型(variants)特征信息,該特征信息記錄了日語漢字與漢語漢字之間的關(guān)系。本文采用variants對日語漢字進(jìn)行字形變化,若兩個(gè)漢字之間通過variants存在聯(lián)系,則說明兩個(gè)漢字可以相互轉(zhuǎn)化。

        (2)漢日漢字字典。本文使用Kanconvit(http://kanconvit.ta2o.net)中的漢日漢字轉(zhuǎn)化表作為漢日漢字字典,該字典共包含了1 159個(gè)詞表變型(variants)不同的漢字對信息。

        (3)繁簡漢字字典。如表2所示,繁簡漢字之間并非簡單的一一對應(yīng)關(guān)系。本文使用Chinese Encoding Converter(http://www.mandarintools.com/zhcode.html)中的繁簡漢字轉(zhuǎn)化表作為繁簡漢字字典。該表含有6 740對繁簡單詞轉(zhuǎn)化信息。

        本文通過上述方法與資源構(gòu)建簡體漢字與日語漢字轉(zhuǎn)化表。

        2.2 日中詞典

        本文使用EDR日漢對照詞典(http://www2.nict.go.jp/out-promotion/techtransfer/EDR/J_index.html)作 為 使用詞典,該詞典包含363 971個(gè)詞典條目,其中包括同義詞、部分同義詞,本文僅使用詞典中的同義詞作為詞典信息。

        圖1 日語漢字轉(zhuǎn)化為簡體漢語漢字流程

        在EDR詞典中,存在如表3所示情況,相同語義的詞并沒有對應(yīng)關(guān)系。因此,本文使用兩個(gè)步驟對詞典進(jìn)行整合:(1)使用漢日漢字對照表將日語的漢字轉(zhuǎn)化為漢語漢字;(2)若任意兩行詞典信息中存在相同詞,則認(rèn)為兩行詞典中的所有詞均為同義詞,并將兩行的數(shù)據(jù)合并。

        表3 詞典中同義詞信息樣例

        通過上述兩個(gè)步驟,獲得最終的日漢對照詞典。

        3 漢日雙語分詞粒度調(diào)整

        3.1 雙語粒度差異抽取

        Bai等[9]表明調(diào)整分詞粒度使得雙語詞素間達(dá)到一一對齊關(guān)系,能優(yōu)化對齊結(jié)果,從而提升機(jī)器翻譯精度。本文使用漢日漢字對照表以及日漢詞典對雙語平行語料進(jìn)行分詞粒度處理,抽取出雙語分詞粒度不同的單詞對,以進(jìn)行下一步工作。

        抽取過程主要包含以下兩個(gè)方面:

        (1)抽取字表信息相同的詞對:若某一端單詞通過漢日漢字對照表進(jìn)行漢字轉(zhuǎn)化,得到的結(jié)果與另一端的連續(xù)單詞序列完全相同,則稱該詞對的字表信息相同。例如,漢語端單詞“中國人”通過對照表可轉(zhuǎn)化為“中國人”,同時(shí)日語端分詞結(jié)果存在單詞序列“中國人”,則“中國人”與“中國人”的字表信息相同。通過漢日漢字對照表,抽取所有字表信息相同但雙語端分詞粒度不同的詞對。

        (2)抽取字典信息相同的詞對:如果字表信息不同,則依據(jù)字典信息,抽取單語端為詞,另一語言端為詞序列,并且存在于詞典中的詞對。例如,日語端“刻削な(殘忍的)”,通過詞典信息可以查詢到該單詞漢語端應(yīng)為“殘忍的”,在漢語分詞結(jié)果中,“殘忍的”被切分為“殘忍”和“的”兩個(gè)單詞。通過詞典抽取字典信息相同,漢日雙語分詞粒度不同的詞對。

        本文使用CWMT2011漢日新聞?wù)Z料進(jìn)行測試,通過本節(jié)所述方法進(jìn)行詞對抽取。本文對字表信息或字典信息相同,但分詞粒度不同的詞語進(jìn)行歸納總結(jié),主要存在以下幾類漢日切分中的不同。

        以下兩節(jié)將從(1)漢語細(xì)粒度分析;(2)日語細(xì)粒度分析兩個(gè)方面進(jìn)行雙語分詞粒度差異分析。

        3.2 漢語細(xì)粒度分析

        漢語端單詞被切分為細(xì)粒度的原因主要如下幾類:

        (1)漢語中出現(xiàn)的日語專有名詞無法正確切分。主要包括日語中特有的命名實(shí)體,即人名、地名、組織名等。例如“山田”為日本人名,而漢語分詞時(shí)無法識別,切分為“山田”造成錯(cuò)誤。

        (2)漢語結(jié)構(gòu)助詞。漢語中結(jié)構(gòu)助詞“的”、“地”、“得”用法較為復(fù)雜,例如“恐れながら(冒昧地)”、“うれしい(高興的)”、“思わず(不由得)”等。中文端將結(jié)構(gòu)助詞單獨(dú)成詞,日語端由于語法及語義的原因,漢語結(jié)構(gòu)助詞信息往往包含于日語單詞中,從而造成漢日切分粒度不同。

        (3)日語縮略語。日語存在大量的漢語縮略語,例如日語端單詞“急變(突然變化)”,漢語端將該詞切分成多個(gè)單詞“突然”和“變化”,造成漢日分詞粒度不同。

        (4)漢語“不”字問題?!安弧痹跐h語中常表示對后續(xù)詞的否定,被獨(dú)立切分成詞。而日語語法中一般使用詞尾變化表示否定意義,例如“つまらない(不值錢)”中,使用后綴“ない”表示否定,而漢語端切分為“不”和“值錢”兩個(gè)單詞,類似的還有“めちゃくちゃ(不合理)”、“不仲(不和睦)”、“不作法(不禮貌)”等,日語端均為一個(gè)單詞,而漢語端為多個(gè)單詞,造成切分粒度不同。

        (5)日語熟語。日語存在的固有熟語,例如“おはよう(您早)”、“乗り物(交通工具)”、“乗り合い(公共馬車)”等,在漢語端均切分為多個(gè)詞語。

        (6)日語動詞后綴問題。類似于“不”字,日語均使用后綴變化進(jìn)行動詞的時(shí)態(tài)等變化,因此“乗れる(能乘坐)”、“吐き出せる(能吐出)”等詞的漢語端粒度均無法與日語端一致。需要注意的是,日語中不同詞所使用的否定意義的詞綴不同,不易將日語端詞綴進(jìn)行切分。

        3.3 日語細(xì)粒度分析

        日語端單詞被切分為細(xì)粒度的原因主要如下幾類:

        (1)數(shù)詞、時(shí)間詞。漢語分詞將數(shù)詞和相關(guān)的后續(xù)詞合并,日語端則分開處理。例如“16日”,“1.95 V”等均進(jìn)行了分割。

        (2)漢語專有名詞。主要包括漢語中的專有名詞例如人名“丁美媛”、“一年生”、“中央軍事委員會”等日語中均無法進(jìn)行正確切分。

        (3)漢語熟語。漢語中存在一些固定用語的情況,如“一海知義(一海知義)”、“一瞬間(一瞬間)”等,由于固定用語并不存在于日語分詞詞典中,日語分詞中無法與漢語端粒度相對應(yīng)。

        (4)詞類后綴。在漢語中“市”、“縣”、“部”、“街”、“人”、“化”等詞語后綴均與相關(guān)詞匯合并為一個(gè)詞,而日語中將此類詞單獨(dú)成詞。

        3.4 漢日雙語分詞粒度調(diào)整

        3.2與3.3節(jié)的分析表明,由于漢日分詞工具分詞結(jié)果的不同,漢日雙語分詞粒度差異嚴(yán)重,雙語粒度并沒有達(dá)到一一對應(yīng)的效果。

        本文使用3.1節(jié)所述方法,通過漢日漢字轉(zhuǎn)化詞典、日漢對照詞典,從分詞后的語料中,抽取分詞粒度不相同,但字表信息相同,或字典信息相同的詞對。

        本文處理中,只考慮抽取的詞對中,存在一端為單詞的情況。對于字表與字典信息相同的詞對,采取不同的處理方式。

        若該詞對字典信息相同,則將詞對的任意端都合并成一個(gè)單詞處理。

        若該詞對字表信息相同,由于可以正確獲取到每個(gè)單詞的對應(yīng)信息,因此,可以使用如下兩種方法處理。

        (1)詞對中一端單詞依據(jù)另一語言端的詞序列,切分成與另一語言端序列一致的單詞序列。

        (2)將分詞結(jié)果為詞序列的一端,合并成一個(gè)單詞進(jìn)行處理。

        例如,中文端單詞“中國人”,為一個(gè)單詞,而日語端為詞序列“中國人”。既可以考慮使用方法1,將中文端“中國人”切分為詞序列“中國人”;也可以考慮參照方法2,將日語端詞序列“中國人”合并為單詞“中國人”。

        下一章對本節(jié)提出方法進(jìn)行實(shí)驗(yàn)測試,研究分詞粒度變化對漢日雙語統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)性能的變化。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)及工具

        本文使用CWMT2011漢日新聞?wù)Z料,使用經(jīng)過處理后的282 476句對作為實(shí)驗(yàn)訓(xùn)練集,498句對作為開發(fā)集,948句對作為測試集。使用NLPIR2013(http://ictclas.nlpir.org)作為漢語分詞工具,選用mecab(https://code.google.com/p/mecab/)作為日文分詞工具。本文所有實(shí)驗(yàn)均采用 moses(http://www.statmt.org/moses)進(jìn)行翻譯模型的訓(xùn)練以及解碼工作,使用GIZA++(http://code.google.com/p/giza-pp/)作為對齊工具,Srilm(http://www.speech.sri.com/projects/srilm/)構(gòu)建語言模型。漢日語言模型均使用5-gram模型;moses中使用grow-diagfinal-and優(yōu)化對齊結(jié)果。實(shí)驗(yàn)結(jié)果均使用BLEU及NIST作為測評標(biāo)準(zhǔn)。

        4.2 雙語粒度融合實(shí)驗(yàn)

        Wang等[6-7]提出細(xì)粒度的分詞結(jié)果能提升統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。本文為驗(yàn)證當(dāng)雙語分詞粒度不同時(shí),雙語粒度融合與統(tǒng)計(jì)機(jī)器的影響,使用3.4節(jié)所述方法對雙語粒度不同的詞對進(jìn)行抽取,對訓(xùn)練語料進(jìn)行如下處理,得到不同的分詞結(jié)果:

        (1)使用分詞工具進(jìn)行分詞的基線結(jié)果(baseline)。

        (2)雙語分詞粒度不同的詞對中,漢語端詞序列合并為單詞(cn-mix)。

        (3)雙語分詞粒度不同的詞對中,日語端詞序列合并為單詞(ja-mix)。

        (4)雙語分詞粒度不同的詞對中,雙語端詞序列合并為單詞(both-mix)。

        (5)雙語分詞粒度不同的詞對中,漢語端單詞根據(jù)日語端詞序列粒度,進(jìn)行切分,形成詞序列(cn-split)。

        (6)雙語分詞粒度不同的詞對中,日語端單詞根據(jù)漢語端詞序列粒度,進(jìn)行切分,形成詞序列(ja-split)。

        (7)將方法(5)與方法(6)的結(jié)果進(jìn)行融合,得到雙語粒度均進(jìn)行細(xì)切分的結(jié)果(both-split)。

        對于上述7種分詞粒度不同的分詞結(jié)果,在漢日與日漢兩個(gè)方向,分別進(jìn)行一組基于短語的統(tǒng)計(jì)機(jī)器翻譯性能測試。

        經(jīng)統(tǒng)計(jì),在282 476句對的訓(xùn)練語料中,僅存在23 274句對需要進(jìn)行分詞粒度調(diào)整,存在粒度調(diào)整的語料占全部語料的比例較小。因此本文抽取出存在粒度調(diào)整的23 274句對,并且從剩余句對中隨機(jī)抽取80 000句對與其混合,提高粒度調(diào)整語料占所有語料的比例,再次在漢日與日漢兩個(gè)方向進(jìn)行一組實(shí)驗(yàn)。上述四組實(shí)驗(yàn)的結(jié)果如表4所示。

        4.3 實(shí)驗(yàn)結(jié)果分析

        通過3.2節(jié)的實(shí)驗(yàn)結(jié)果可以得到如下結(jié)論:

        (1)通過對雙語分詞粒度進(jìn)行調(diào)整,能提升漢日雙語間統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。

        (2)并非所有的粒度調(diào)整都能提升統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。

        本文提出一種衡量雙語語料平行句對間的粒度差異的方法,其表達(dá)式如公式(1)所示:

        其中,Corpus為雙語語料,Ci與Ji分別為源語言與目標(biāo)語言的第i個(gè)句子,len(Ci)與len(Ji)分別為Ci與Ji的句子分詞后的詞總數(shù),N為雙語語料的句對總數(shù)。

        本文定義,根據(jù)指定雙語語料Corpus中所有句子計(jì)算出的dis(Corpus),為該語料中雙語的絕對粒度差值。同時(shí),雙語語料與雙語語料B間分詞粒度若存在差異,令A(yù)中存在分詞粒度差異的句對集為A′,B中存在分詞粒度差異的句對集為B′,定義dis(A′)為A、B語料對間A的相對粒度差值,dis(B′)為A、B語料對間的B相對粒度差值,根據(jù)公式(2)比較語料與語料相對粒度差值之間的差異。

        表4 不同分詞粒度與數(shù)據(jù)規(guī)模下漢日統(tǒng)計(jì)機(jī)器翻譯性能

        圖2 漢日雙語機(jī)器翻譯中相對粒度差值差異與BLEU影響

        根據(jù)上述定義,本文以baseline為基準(zhǔn),同組的其余實(shí)驗(yàn)均與baseline進(jìn)行比較,根據(jù)公式(2)計(jì)算,其中,T為同組其余實(shí)驗(yàn)中的任意一組。本文比較與統(tǒng)計(jì)機(jī)器翻譯中BLEU值之間的關(guān)系,得到如下結(jié)果,圖2為3.2節(jié)大規(guī)模訓(xùn)練集的實(shí)驗(yàn)中,漢日(左圖)與日漢(右圖)的翻譯性能BLEU值與之間的關(guān)系結(jié)果圖。

        圖2中橫軸為diff(baseline,T),豎軸為T的機(jī)器翻譯性能評價(jià)指標(biāo)BLEU值。圖2左圖表明,在本文實(shí)驗(yàn)條件下,漢日統(tǒng)計(jì)機(jī)器翻譯的性能與相對粒度差值之間存在正相關(guān)關(guān)系,即相對于baseline而言,訓(xùn)練語料分詞的相對粒度越小,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能越好。圖2右圖中除去一個(gè)特殊點(diǎn)外其余結(jié)果表明,日漢統(tǒng)計(jì)機(jī)器翻譯中也存在與漢日統(tǒng)計(jì)機(jī)器翻譯結(jié)果相同的性質(zhì)。由于絕對粒度與相對粒度差值呈正相關(guān)關(guān)系,依據(jù)圖2結(jié)果,本文推測,雙語語料的絕對粒度差值在一定范圍內(nèi)時(shí),粒度差值與統(tǒng)計(jì)機(jī)器翻譯的性能呈正相關(guān)關(guān)系。

        5 總結(jié)與展望

        本文通過使用現(xiàn)有開源資源構(gòu)建漢日漢字對照表,并使用構(gòu)建的漢字對照表對EDR詞典進(jìn)行優(yōu)化。通過根據(jù)上述方法構(gòu)建的資源,對漢日雙語語料的不同分詞粒度進(jìn)行數(shù)據(jù)分析,在一定程度上解析了漢日分詞粒度不同現(xiàn)象產(chǎn)生的原因。

        本文提出了使用漢日漢字對照表及詞典信息對雙語分詞粒度進(jìn)行調(diào)整的方法。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能有效地調(diào)節(jié)雙語分詞粒度,提升漢日雙語間統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能。本文根據(jù)實(shí)驗(yàn)結(jié)果,對漢日雙語統(tǒng)計(jì)機(jī)器翻譯性能與雙語句對粒度上的差異進(jìn)行了分析與預(yù)測。

        今后工作中,將繼續(xù)擴(kuò)大詞典規(guī)模、補(bǔ)充漢日漢字對照表,進(jìn)一步驗(yàn)證本文提出的方法的有效性,對漢日雙語統(tǒng)計(jì)機(jī)器翻譯性能與雙語句對間詞數(shù)量上的差異進(jìn)行更加深入的分析與研究,并且嘗試在層次短語模型中測試本方法的實(shí)用性與可擴(kuò)展性。同時(shí),對于在基礎(chǔ)分詞中分詞粒度不同的詞對,將根據(jù)詞對的特征信息如詞性等,對詞對進(jìn)行置換操作,從而提升統(tǒng)計(jì)機(jī)器翻譯的系統(tǒng)性能。

        [1]Chu C,Nakazawa T,Kawahara D,et al.Exploiting shared Chinese characters in Chinese word segmentation optimization forChinese-Japanese machine translation[C]//EAMT 2012,Proceedings of the 16th Annual Conference of the European Association for Machine Translation,Trento,2012:35-42.

        [2]Chang P C,Galley M,Manning C D.Optimizing Chinese word segmentation for machine translation performance[C]//Proceedings of the 3rd Workshop on Statistical Machine Translation.[S.l.]:Association for Computational Linguistics,2008:224-232.

        [3]Zhang R,Yasuda K,Sumita E.Improved statistical machine translation by multiple Chinese word segmentation[C]//Proceedings of the 3rd Workshop on Statistical Machine Translation.[S.l.]:Association for Computational Linguistics,2008:216-223.

        [4]Xu J,Zens R,Ney H.Do we need Chinese word segmentation for statistical machine translation[C]//Proceedings of the 3rd SIGHAN Workshop on Chinese Language Learning,2004:122-128.

        [5]奚寧,李博淵,黃書劍,等.一種適用于機(jī)器翻譯的漢語分詞方法[J].中文信息學(xué)報(bào),2012,26(3):54-58.

        [6]Wang Y,Uchimoto K,Kazama J,et al.Adapting Chinese word segmentation formachine translation based on short units[C]//LREC 2010:Proceedings of the 7th International Conference on Language Resources and Evaluation,La Valetta,Malta,2010:1758-1764.

        [7]Wang Y,Kazama J,Tsuruoka Y,et al.Improving Chinese word segmentation and POS tagging with semi-supervised methods using large auto-analyzed data[C]//Proceedings of 5th International Joint Conference on Natural Language Processing,2011:309-317.

        [8]Ma Y,Way A.Bilingually motivated domain-adapted word segmentation forstatistical machinetranslation[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:Association for Computational Linguistics,2009:549-557.

        [9]Bai M H,Chen K J,Chang J S.Improving word alignment by adjusting Chinese word segmentation[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing,2008:249-256.

        [10]Dyer C,Muresan S,Resnik P.Generalizing word lattice translation[R].[S.l.]:Inst for Advanced Computer Studies,College Park,Maryland Univ,2008.

        [11]Chu C,Nakazawa T,Kurohashi S.Japanese-Chinese phrase alignment using common Chinese characters information[C]//Proceedings of MT Summit,2011,13:475-482.

        [12]Chu C,Nakazawa T,Kurohashi S.Chinese characters mapping table of Japanese,traditional Chinese and simplified Chinese[C]//Proceedings of the 8th Conference on International Language Resources and Evaluation(LREC’12),2012.

        [13]Goh C L,Asahara M,Matsumoto Y.Chinese word segmentation by classification of characters[J].Computational Linguistics and Chinese Language Processing,2005,10(3):381-396.

        猜你喜歡
        對照表分詞語料
        2019年成考院校招生簡章審核對照表
        結(jié)巴分詞在詞云中的應(yīng)用
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        值得重視的分詞的特殊用法
        ISO?9001:2015與ISO?9001:2008之間的對照表
        中國纖檢(2016年3期)2016-04-07 18:48:48
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        本刊常用符號對照表
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        一本加勒比hezyo无码人妻| 国产精女同一区二区三区久| 喷水白浆视频在线观看| 精品久久人妻av中文字幕| 亚洲中文字幕无码专区| 国产精品入口蜜桃人妻| 亚洲人妻御姐中文字幕| 69国产成人精品午夜福中文| 国产色秀视频在线播放| 亚洲午夜精品久久久久久抢 | 人与人性恔配视频免费| 国产精品成人国产乱| 色狠狠一区二区三区香蕉蜜桃| av有码在线一区二区三区| 天堂8在线新版官网| 久久久久久人妻一区二区三区| 在线视频中文字幕乱人伦| 人妻被公上司喝醉在线中文字幕| 国产精品亚洲色婷婷99久久精品| 超碰97人人做人人爱少妇| 亚洲老熟妇愉情magnet| 国产黄色三级一区二区三区四区| 奇米影视第四色首页| 免费成人毛片| 亚洲熟女一区二区三区不卡| 无码毛片内射白浆视频| 国语少妇高潮对白在线| 亚洲综合久久1区2区3区| 国产av一区二区毛片| 久久成人国产精品免费软件| 午夜一级在线| 国产成人av一区二区三| 三个男吃我奶头一边一个视频| 日韩精品一区二区亚洲av| 国产网友自拍亚洲av| 青青草国产手机观看视频| 日韩欧群交p片内射中文| 日韩啪啪精品一区二区亚洲av| 精品亚洲一区二区三洲| 久久综合亚洲色hezyo国产| 99热这里只有精品4|