亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        適用于特定領(lǐng)域機(jī)器翻譯的漢語(yǔ)分詞方法

        2013-04-23 07:39:22張玉潔徐金安
        中文信息學(xué)報(bào) 2013年5期
        關(guān)鍵詞:漢英分詞語(yǔ)料

        蘇 晨,張玉潔,郭 振,徐金安

        (北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)

        1 引言

        在面向特定領(lǐng)域的漢英機(jī)器翻譯系統(tǒng)開(kāi)發(fā)中,由于漢語(yǔ)語(yǔ)料中的詞匯集合和頻率分布發(fā)生很大變化,大量新詞的出現(xiàn)使得已有漢語(yǔ)分詞系統(tǒng)的性能下降。關(guān)于領(lǐng)域變化對(duì)漢語(yǔ)分詞系統(tǒng)性能的影響程度,我們?cè)谇捌诠ぷ髦羞M(jìn)行了評(píng)測(cè)。在新聞?wù)Z料上訓(xùn)練的漢語(yǔ)分詞系統(tǒng),在同樣領(lǐng)域的測(cè)試數(shù)據(jù)上的召回率和準(zhǔn)確率分別為98.02%和97.21%,而在科技文獻(xiàn)語(yǔ)料上評(píng)測(cè)時(shí),召回率和準(zhǔn)確率分別下降到86.05%和81.83%[1]。同時(shí),特定領(lǐng)域中標(biāo)注語(yǔ)料的缺乏使得有監(jiān)督的漢語(yǔ)分詞方法難以發(fā)揮其威力。漢語(yǔ)分詞性能的下降表現(xiàn)在兩個(gè)方面: 漢語(yǔ)分詞粒度的不合理和錯(cuò)誤的分詞結(jié)果。漢語(yǔ)分詞粒度過(guò)大或過(guò)小都不利于漢英詞匯之間的對(duì)齊處理,影響單詞對(duì)齊精度。因?yàn)榉g知識(shí)的獲取建立在漢語(yǔ)分詞結(jié)果和漢英單詞對(duì)齊的結(jié)果上[2-3],所以明顯下降的分詞精度會(huì)給大規(guī)模語(yǔ)料處理帶來(lái)數(shù)量上難以忽視的分詞錯(cuò)誤,直接導(dǎo)致不正確的翻譯知識(shí),從而嚴(yán)重影響翻譯質(zhì)量。

        針對(duì)這個(gè)問(wèn)題,研究人員在漢語(yǔ)分詞的領(lǐng)域自適應(yīng)方面進(jìn)行了許多探索。早期的方法是在條件隨機(jī)場(chǎng)(CRF)統(tǒng)計(jì)模型中加入外部詞典的特征以實(shí)現(xiàn)漢語(yǔ)分詞的領(lǐng)域自適應(yīng)[4];當(dāng)缺乏領(lǐng)域詞典時(shí),又有研究人員利用大規(guī)模生語(yǔ)料中字串的統(tǒng)計(jì)特征來(lái)提高分詞系統(tǒng)的領(lǐng)域自適應(yīng)能力[1,5]。另一方面,用于機(jī)器翻譯開(kāi)發(fā)的漢英平行語(yǔ)料中,英語(yǔ)句子的分詞信息也可以為對(duì)應(yīng)的漢語(yǔ)句子的分詞提供引導(dǎo)信息[6-7]。

        在對(duì)已有研究方法進(jìn)行改進(jìn)與擴(kuò)展的基礎(chǔ)上,本文實(shí)現(xiàn)了基于生語(yǔ)料的領(lǐng)域自適應(yīng)和雙語(yǔ)引導(dǎo)的分詞系統(tǒng),并提出了將不同的漢語(yǔ)分詞結(jié)果進(jìn)行融合的方法,實(shí)現(xiàn)了面向特定領(lǐng)域的大規(guī)模漢語(yǔ)語(yǔ)料的分詞系統(tǒng)。該方法利用格狀結(jié)構(gòu)將不同的分詞結(jié)果進(jìn)行融合,融合過(guò)程中采用半監(jiān)督學(xué)習(xí)的方法得到不同分詞結(jié)果的權(quán)重,最后采用動(dòng)態(tài)規(guī)劃算法獲取最優(yōu)的漢語(yǔ)分詞結(jié)果。

        本文第2節(jié)介紹基于生語(yǔ)料的領(lǐng)域自適應(yīng)方法和漢英雙語(yǔ)引導(dǎo)的漢語(yǔ)分詞方法,然后詳細(xì)描述融合多種漢語(yǔ)分詞結(jié)果的算法;第3節(jié)設(shè)計(jì)實(shí)驗(yàn)評(píng)測(cè)本文所提方法的性能;第4節(jié)給出結(jié)論和今后的研究課題。

        2 多種分詞結(jié)果的融合方法

        特定領(lǐng)域的漢英機(jī)器翻譯系統(tǒng)開(kāi)發(fā)中,通常需要對(duì)大規(guī)模的漢英平行語(yǔ)料進(jìn)行處理以獲取翻譯知識(shí),同時(shí)作為翻譯對(duì)象會(huì)有大規(guī)模的該領(lǐng)域的漢語(yǔ)生語(yǔ)料。我們的目標(biāo)是充分利用這些資源提高漢語(yǔ)分詞的精度,為此提出了融合漢語(yǔ)生語(yǔ)料中的n-gram統(tǒng)計(jì)特征和漢英語(yǔ)料上的分詞引導(dǎo)特征的分詞方法。它基于以下想法: 利用特定領(lǐng)域的漢語(yǔ)生語(yǔ)料的統(tǒng)計(jì)特征實(shí)現(xiàn)漢語(yǔ)分詞向特定領(lǐng)域的自適應(yīng),而利用漢英語(yǔ)料上的英語(yǔ)單詞邊界和雙語(yǔ)對(duì)齊特征引導(dǎo)漢語(yǔ)分詞;為了融合性質(zhì)不同的特征,分別實(shí)現(xiàn)分詞系統(tǒng),再對(duì)各自系統(tǒng)的分詞結(jié)果進(jìn)行融合。融合系統(tǒng)的總體框架如圖1所示。

        圖1 多種分詞結(jié)果融合的漢語(yǔ)分詞方法的整體框架

        為了利用特定領(lǐng)域的漢語(yǔ)生語(yǔ)料的統(tǒng)計(jì)特征,我們實(shí)現(xiàn)了基于n-gram統(tǒng)計(jì)特征的漢語(yǔ)分詞系統(tǒng);而為了利用漢英語(yǔ)料的分詞引導(dǎo)特征,我們實(shí)現(xiàn)了基于單詞對(duì)齊的分詞,在下面2.1和2.2節(jié)分別介紹,并在第2.3節(jié)詳細(xì)描述融合多種分詞結(jié)果的方法。

        2.1 基于n-gram統(tǒng)計(jì)特征的漢語(yǔ)分詞

        本文實(shí)現(xiàn)了利用生語(yǔ)料的統(tǒng)計(jì)特征的漢語(yǔ)分詞系統(tǒng)[5],具體步驟如下所述。

        在利用UPENN的漢語(yǔ)標(biāo)注數(shù)據(jù)的基礎(chǔ)上,增加了特定領(lǐng)域的漢語(yǔ)大規(guī)模生語(yǔ)料中的統(tǒng)計(jì)特征,并利用CRF工具進(jìn)行學(xué)習(xí)。漢語(yǔ)標(biāo)注數(shù)據(jù)的特征抽取使用文獻(xiàn)[8]提到的模板,采用五字滑動(dòng)窗口提取特征,即最遠(yuǎn)使用前后各兩個(gè)字作為當(dāng)前字標(biāo)注的依據(jù)。生語(yǔ)料的統(tǒng)計(jì)特征包括兩種n-gram統(tǒng)計(jì)量: n-gram頻度值和n-gram AV(Accessor Variety)

        值[9],n-gram 頻度值為n元字串在語(yǔ)料中出現(xiàn)的次數(shù),n-gram AV值為n元字串在語(yǔ)料中出現(xiàn)的上下文環(huán)境數(shù)。然后使用開(kāi)源工具CRF++*https://code.google.com/p/crfpp/進(jìn)行模型訓(xùn)練得到分詞模型,具體流程如圖2所示。

        圖2 特定領(lǐng)域上漢語(yǔ)分詞模型的自適應(yīng)框架

        對(duì)于每一個(gè)漢語(yǔ)句子,CRF分詞模型可以輸出n-best分詞結(jié)果以及相應(yīng)的概率得分,以往的分詞工作通常只采用1-best的分詞結(jié)果。但是通過(guò)對(duì)n-best以內(nèi)分詞結(jié)果的觀察,我們發(fā)現(xiàn)1-best結(jié)果中的錯(cuò)誤切分部分,有可能在排名靠后的結(jié)果中獲得正確切分,如圖3中的例子所示。在圖3中,1-best結(jié)果中將“甘氨酸”部分切分為“甘”和“氨酸”,與標(biāo)準(zhǔn)分詞結(jié)果不同,而3-best分詞結(jié)果中將“甘氨酸”切成一個(gè)單詞。鑒于這一觀察結(jié)果,我們將充分利用CRF分詞模型的n-best以內(nèi)結(jié)果,期望從中選出正確的切分部分。本文取10-best以內(nèi)結(jié)果,相應(yīng)的概率得分表示為ConfCRF1,ConfCRF2,…,ConfCRF10,并把它們分別作為對(duì)應(yīng)分詞結(jié)果中單詞的置信度。

        圖3 特定領(lǐng)域漢語(yǔ)分詞結(jié)果比較: 標(biāo)準(zhǔn)分詞、 1-best分詞和3-best分詞結(jié)果

        2.2 雙語(yǔ)引導(dǎo)的漢語(yǔ)分詞

        在漢英句子平行語(yǔ)料中,英語(yǔ)部分有明確的單詞界線,利用漢字字串與英文單詞之間的對(duì)齊關(guān)系可以引導(dǎo)漢語(yǔ)分詞。圖4所示的例子是漢字字串“……癸二酸衍生單體……”與英文部分“...sebacic acid-derived monomer...”的對(duì)齊結(jié)果,這一對(duì)齊結(jié)果指示出,該字串可以被切分成 “癸二”、“酸衍生”和“單體”。在本節(jié)中,我們描述基于對(duì)齊結(jié)果置信度的分詞方法。

        圖4 雙語(yǔ)引導(dǎo)的漢語(yǔ)分詞結(jié)果

        串為一個(gè)漢語(yǔ)單詞。

        定義Count(ei,C)表示ei和C在平行語(yǔ)料中共現(xiàn)的次數(shù),Count(ai)表示對(duì)齊ai=出現(xiàn)的次數(shù),而Conf(ai)表示當(dāng)ei和C在平行語(yǔ)料中共現(xiàn)時(shí)的對(duì)齊置信度,由式(1)計(jì)算得到。

        雙語(yǔ)引導(dǎo)的漢語(yǔ)分詞步驟如下:

        1) 將漢語(yǔ)句子切分為單個(gè)漢字,使用對(duì)齊工具(GIZA++)進(jìn)行漢—英雙向?qū)R,得到對(duì)齊結(jié)果并合并;

        2) 根據(jù)式(1)計(jì)算所有對(duì)齊的置信度Conf(ai);

        3) 對(duì)于每一個(gè)對(duì)齊結(jié)果ai=,如果C在漢語(yǔ)句子中是連續(xù)的字串,則將C切為一個(gè)單詞,并將Conf(ai)作為該切分結(jié)果的置信度。

        2.3 多種分詞結(jié)果的融合方法

        在前面的2.1和2.2節(jié)中我們分別介紹了基于生語(yǔ)料的領(lǐng)域自適應(yīng)的漢語(yǔ)分詞和雙語(yǔ)引導(dǎo)的漢語(yǔ)分詞的實(shí)現(xiàn)方法,本小節(jié)將介紹融合多種分詞結(jié)果的方法。

        為了綜合利用漢語(yǔ)生語(yǔ)料中的n-gram統(tǒng)計(jì)特征和雙語(yǔ)語(yǔ)料中的分詞引導(dǎo)特征,我們對(duì)基于這些特征的多種分詞結(jié)果進(jìn)行整合,借助線性模型獲取其中的正確信息以得到最佳的漢語(yǔ)分詞結(jié)果。

        我們?nèi)RF分詞模型的10-best以內(nèi)結(jié)果作為10種基于大規(guī)模生語(yǔ)料n-gram統(tǒng)計(jì)特征的漢語(yǔ)分詞結(jié)果,將每個(gè)結(jié)果的概率得分ConfCRF作為結(jié)果中每個(gè)單詞的置信度;再取雙語(yǔ)引導(dǎo)的漢語(yǔ)分詞結(jié)果作為第11種分詞結(jié)果,將對(duì)齊的置信度Conf(a)作為相應(yīng)的單詞的置信度。為了融合這11個(gè)分詞結(jié)果,我們?cè)O(shè)計(jì)了如式(2)所示的線性模型。

        按照公式(3)對(duì)Fi,j進(jìn)行歸一化后得到支持度wi, j。我們使用格狀結(jié)構(gòu)(Lattice)表示wi, j,如圖5所示。節(jié)點(diǎn)表示句子中漢字之間的邊界,并標(biāo)有序號(hào)。節(jié)點(diǎn)i和j之間的邊表示節(jié)點(diǎn)i和j之間的漢字構(gòu)成一個(gè)單詞,邊的上面標(biāo)有該單詞的支持度wi, j。Lattice的解碼是一個(gè)動(dòng)態(tài)規(guī)劃的過(guò)程,尋找一個(gè)支持度乘積最大的分詞結(jié)果。

        圖5 多種漢語(yǔ)分詞結(jié)果的Lattice

        本文采用基于網(wǎng)格的線性優(yōu)化算法[10]訓(xùn)練參數(shù)λl(1≤l≤11)。首先在11維參數(shù)空間中初始化一個(gè)點(diǎn);然后迭代優(yōu)化參數(shù),每步迭代在固定其他維度參數(shù)條件下,優(yōu)化一個(gè)維度的參數(shù)使得相應(yīng)的分詞結(jié)果F值最高;當(dāng)分詞結(jié)果的F值收斂到了某種期望的程度,結(jié)束迭代。為了避免訓(xùn)練參數(shù)局部最優(yōu),我們選擇多個(gè)不同的初始點(diǎn)進(jìn)行參數(shù)訓(xùn)練。

        3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果

        為了驗(yàn)證本文提出的對(duì)多種分詞結(jié)構(gòu)的融合方法,我們模擬機(jī)器翻譯系統(tǒng)開(kāi)發(fā)的實(shí)際場(chǎng)景。為此,我們?cè)贜TCIR-10*http://research.nii.ac.jp/ntcir/ntcir-10/的科技文獻(xiàn)專利領(lǐng)域漢英翻譯任務(wù)的數(shù)據(jù)上設(shè)計(jì)了實(shí)驗(yàn),通過(guò)對(duì)其中大規(guī)模漢語(yǔ)語(yǔ)料的分詞處理,從漢語(yǔ)分詞的精度和機(jī)器翻譯質(zhì)量?jī)蓚€(gè)方面進(jìn)行了評(píng)價(jià)。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        NTCIR-10的漢英翻譯任務(wù)提供了1 000 000句對(duì)的訓(xùn)練集、2 000句對(duì)的開(kāi)發(fā)集和2 000句對(duì)的測(cè)試集。我們從1 000 000句對(duì)的訓(xùn)練集中隨機(jī)抽出300句對(duì),作為人工標(biāo)注集,記為AS;其余的句對(duì)作為機(jī)器翻譯系統(tǒng)的訓(xùn)練數(shù)據(jù),記為T(mén)S。本文的目標(biāo)就是提高TS中漢語(yǔ)語(yǔ)料的分詞精度,改進(jìn)機(jī)器翻譯質(zhì)量。依照賓州中文樹(shù)庫(kù)的分詞標(biāo)注標(biāo)準(zhǔn)[11],我們對(duì)AS中的300句漢語(yǔ)句子進(jìn)行了分詞標(biāo)注。隨后對(duì)標(biāo)注的300句隨機(jī)地一分為二,記為AS1和AS2,分別用于線性模型的參數(shù)訓(xùn)練和漢語(yǔ)分詞精度的評(píng)測(cè)。

        作為一般領(lǐng)域的標(biāo)注數(shù)據(jù),我們使用賓州中文樹(shù)庫(kù)CTB 5.0的數(shù)據(jù)訓(xùn)練CRF分詞模型,訓(xùn)練數(shù)據(jù)文件包括1-270篇、400-931篇和1 001-1 151篇。

        3.2 漢語(yǔ)分詞及其評(píng)價(jià)

        首先建立領(lǐng)域自適應(yīng)的CRF分詞模型,使用賓州中文樹(shù)庫(kù)的數(shù)據(jù)作為標(biāo)注數(shù)據(jù);使用TS中漢語(yǔ)語(yǔ)料作為領(lǐng)域生語(yǔ)料提取n-gram統(tǒng)計(jì)特征。然后使用獲得的CRF分詞模型對(duì)TS中的漢語(yǔ)語(yǔ)料進(jìn)行分詞處理,并取10-best以內(nèi)的分詞結(jié)果。

        接著進(jìn)行雙語(yǔ)引導(dǎo)的分詞處理,使用漢英平行語(yǔ)料TS進(jìn)行單詞對(duì)齊,根據(jù)對(duì)齊信息得到TS中漢語(yǔ)語(yǔ)料上的雙語(yǔ)引導(dǎo)的分詞結(jié)果。

        然后構(gòu)建線性模型,使用AS1數(shù)據(jù)訓(xùn)練得到線性模型的參數(shù)。

        最后利用線性模型融合CRF的10-best以內(nèi)的分詞結(jié)果和雙語(yǔ)引導(dǎo)的分詞結(jié)果,最終獲得訓(xùn)練語(yǔ)料TS中漢語(yǔ)語(yǔ)料的分詞結(jié)果。

        為了評(píng)測(cè)分詞結(jié)果的精度,我們對(duì)AS2的150句進(jìn)行了同樣的分詞處理,評(píng)測(cè)結(jié)果顯示在表1中。從表1中可以看出,融合多種分詞結(jié)果的分詞方法的召回率和準(zhǔn)確率相對(duì)于CRF的1-best結(jié)果均高出1個(gè)百分點(diǎn),F(xiàn)值提升了1.257%。

        通過(guò)分析這些分詞結(jié)果,我們發(fā)現(xiàn)多種分詞結(jié)果融合的方法有效地利用了多種分詞結(jié)果中的正確分詞的信息對(duì)CRF1-best中錯(cuò)誤的分詞進(jìn)行了修正。表2中給出了這樣的例子,下面對(duì)第一行的例子進(jìn)行說(shuō)明。CRF1-best將漢語(yǔ)句子中的“甘氨酸”分為兩個(gè)單詞“甘”和“氨酸”,而3-best、7-best、9-best將“甘氨酸”分為一個(gè)單詞;在平行語(yǔ)料中,對(duì)應(yīng)的英文句子中有單詞“glycine”,其漢語(yǔ)譯語(yǔ)是“甘氨酸”,指示了漢語(yǔ)句子中應(yīng)該把“甘氨酸”分成一個(gè)單詞。融合算法有效地利用了這些信息,得到了正確的分詞結(jié)果。因此我們認(rèn)為多種分詞結(jié)果融合的算法修正了CRF1-best中錯(cuò)誤的分詞結(jié)果,說(shuō)明本文提出的融合方法在處理特殊領(lǐng)域的漢語(yǔ)分詞任務(wù)時(shí),具有較好的領(lǐng)域適應(yīng)能力。

        表1 特定領(lǐng)域上漢語(yǔ)分詞的評(píng)測(cè)結(jié)果

        表2 CRF1-best中的錯(cuò)誤分詞被融合方法修正的例子

        進(jìn)一步查看訓(xùn)練語(yǔ)料TS中漢語(yǔ)語(yǔ)料的分詞結(jié)果,總共得到了37 109 126個(gè)漢語(yǔ)單詞,在如此大規(guī)模的數(shù)據(jù)上,分詞精度的微小提高具有數(shù)量上的實(shí)際意義。我們期待分詞精度的提升能夠改進(jìn)機(jī)器翻譯系統(tǒng)的質(zhì)量。

        3.3 機(jī)器翻譯系統(tǒng)構(gòu)建及評(píng)測(cè)

        接下來(lái),我們使用開(kāi)源統(tǒng)計(jì)機(jī)器翻譯工具M(jìn)oses*http://www.statmt.org/moses/,在NTCIR-10的漢英數(shù)據(jù)TS上搭建基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),TS中的漢語(yǔ)語(yǔ)料使用3.1節(jié)中獲得的分詞結(jié)果。然后使用2 000句對(duì)的開(kāi)發(fā)集進(jìn)行最小錯(cuò)誤率訓(xùn)練[12]。最后使用2 000句對(duì)的測(cè)試集進(jìn)行BLEU[13]評(píng)測(cè),評(píng)測(cè)結(jié)果列于表3。

        為了與其他分詞系統(tǒng)進(jìn)行比較,我們也采用了現(xiàn)有公開(kāi)的漢語(yǔ)分詞工具Stanford漢語(yǔ)分詞工具*http://nlp.stanford.edu/software/segmenter.shtml和NLPIR漢語(yǔ)分詞工具(ICTCLAS 2013版)*http://ictclas.nlpir.org/,分別進(jìn)行漢語(yǔ)分詞處理,并搭建統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。評(píng)測(cè)結(jié)果也列在表3中。

        表3基于不同漢語(yǔ)分詞方法搭建的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的評(píng)價(jià)結(jié)果

        漢語(yǔ)分詞方法BLEU/%CRF1?best30.53CRF10?best以內(nèi)結(jié)果與雙語(yǔ)引導(dǎo)的分詞結(jié)果的融合31.15Stanford漢語(yǔ)分詞工具30.98NLPIR漢語(yǔ)分詞工具30.56

        在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的評(píng)測(cè)實(shí)驗(yàn)中,我們以CRF的1-best分詞結(jié)果搭建的翻譯系統(tǒng)作為Baseline,它的BLEU值為30.53%。當(dāng)采用本文提出的多種分詞結(jié)果融合的方法時(shí), BLEU值相對(duì)于Baseline系統(tǒng)提升了0.62%。

        3.2節(jié)的實(shí)驗(yàn)結(jié)果已經(jīng)顯示融合方法的分詞性能優(yōu)于CRF1-best的性能,這是BLEU值提升的一個(gè)直接原因;另一方面,融合方法中引入了雙語(yǔ)語(yǔ)料的分詞引導(dǎo)特征,相對(duì)于CRF1-best的分詞增加了雙語(yǔ)單詞對(duì)齊的信息,這有利于隨后的單詞對(duì)齊處理,提高了單詞對(duì)齊結(jié)果的精度以及短語(yǔ)模型的精度,最終改善了翻譯系統(tǒng)性能。以上實(shí)驗(yàn)和分析說(shuō)明了本文提出的分詞方法不僅在分詞精度上有提高,而且直接帶來(lái)了特定領(lǐng)域上統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的性能提升。作為對(duì)比評(píng)測(cè)的另外兩種分詞方法, Stanford漢語(yǔ)分詞工具和NLPIR漢語(yǔ)分詞工具的BLEU值分別為30.98%和30.56%。這兩種分詞方法都略遜于本文提出的漢語(yǔ)分詞方法。

        4 總結(jié)

        本文實(shí)現(xiàn)了基于生語(yǔ)料的n-gram特征統(tǒng)計(jì)的漢語(yǔ)分詞和雙語(yǔ)引導(dǎo)的漢語(yǔ)分詞,提出了一種融合多種漢語(yǔ)分詞結(jié)果的方法,為特定領(lǐng)域漢英機(jī)器翻譯開(kāi)發(fā)中大規(guī)模漢語(yǔ)語(yǔ)料的分詞問(wèn)題提供了一種有效的解決方案。通過(guò)在NTCIR-10的科技領(lǐng)域漢英機(jī)器翻譯開(kāi)發(fā)數(shù)據(jù)集上的評(píng)測(cè)實(shí)驗(yàn),顯示了該方法在漢語(yǔ)分詞精度F值和漢英統(tǒng)計(jì)機(jī)器翻譯的質(zhì)量BLEU值上都得到了提高。本文的方法具有很好的拓展性,可以融合更多基于不同特征的分詞結(jié)果。在今后的工作中,我們考慮可以利用對(duì)齊中的單詞翻譯概率和對(duì)齊概率分布等信息提高雙語(yǔ)引導(dǎo)的分詞方法的性能,進(jìn)一步提高機(jī)器翻譯的質(zhì)量。

        [1] Guo Z, Zhang Y, Su C, et al. Exploration of N-gram Features for the Domain Adaptation of Chinese Word Segmentation[M].Natural Language Processing and Chinese Computing. Springer Berlin Heidelberg, 2012: 121-131.

        [2] Och F J, Ney H. The alignment template approach to statistical machine translation[J]. Computational linguistics, 2004, 30(4): 417-449.

        [3] Chiang D. A hierarchical phrase-based model for statistical machine translation[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 263-270.

        [4] 張梅山, 鄧知龍, 車萬(wàn)翔, 等. 統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展 (2009-2011), 2011.

        [5] Wang Y, Kazama J, Tsuruoka Y, et al. Improving chinese word segmentation and pos tagging with semi-supervised methods using large auto-analyzed data[C]//Proceedings of 5th International Joint Conference on Natural Language Processing. 2011: 309-317.

        [6] Ma Y, Way A. Bilingually motivated domain-adapted word segmentation for statistical machine translation[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009: 549-557.

        [7] 奚寧, 李博淵, 黃書(shū)劍, 等. 一種適用于機(jī)器翻譯的漢語(yǔ)分詞方法[J]. 中文信息學(xué)報(bào), 2012, 26(3): 54-58.

        [8] Jin Kiat Low, Hwee Tou Ng, Wenyuan Guo. A Maximum Entropy Approach to Chinese Word Segmentation[C]//Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing (SIGHAN05), 2005:161-164.

        [9] Haodi Feng, Kang Chen, Xiaotie Deng, et al. Accessor variety criteria for Chinese word extraction[J]. Computational Linguistics,2004,30(1):75-93.

        [10] William H Press, Saul A Teukolsky, William T Vetterling, et al. Numerical Recipes in C++[M]. Cambridge University Press, Cambridge, UK, 2002.

        [11] Xia F. The segmentation guidelines for the Penn Chinese Treebank (3.0)[J]. 2000.

        [12] Och F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Association for Computational Linguistics, 2003: 160-167.

        [13] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002: 311-318.

        猜你喜歡
        漢英分詞語(yǔ)料
        結(jié)巴分詞在詞云中的應(yīng)用
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        值得重視的分詞的特殊用法
        話題鏈在漢英篇章翻譯中的統(tǒng)攝作用
        從目的論看環(huán)保公示語(yǔ)的漢英翻譯
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        漢英文字的幽默修辭功能淺探
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        五月天婷婷综合网| 蜜桃在线观看免费高清| 美腿丝袜视频在线观看| 妺妺窝人体色www在线| 开心五月激情综合婷婷色| 国产又黄又爽视频| 极品少妇在线观看视频| 色呦呦九九七七国产精品| 成 人免费va视频| 精品无码AV无码免费专区| 亚洲国产精品成人一区| 熟女人妻中文字幕av| 强行无套内谢大学生初次| 加勒比精品久久一区二区三区| 日本高清一区二区三区不卡| 国产99久久久国产精品~~牛| 色伦专区97中文字幕| 国产欧美日韩专区毛茸茸| 中文字幕日韩精品永久在线| 成人无码av一区二区| 又爽又黄禁片视频1000免费| 素人系列免费在线观看| 国产精品国产av一区二区三区| 国产人妻久久精品二区三区老狼| 国产欧美日韩午夜在线观看| 蜜桃精品国产一区二区三区| 制服丝袜一区二区三区| 国产全肉乱妇杂乱视频| 国产精品成人av电影不卡| 久久麻豆精亚洲av品国产蜜臀| 麻豆视频在线播放观看| 99久久久无码国产精品6| 亚洲AⅤ精品一区二区三区| 蜜桃视频成年人在线观看| 国产a级毛片久久久精品毛片| 亚洲精品久久久久久| 中文亚洲爆乳av无码专区| 国产精品成年人毛片毛片| 人人妻人人澡人人爽超污| 亚洲首页一区任你躁xxxxx| 国产精品一区二区三区色|