亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于平行語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取系統(tǒng)研究

        2016-04-12 00:00:00蔣俊梅
        現(xiàn)代電子技術(shù) 2016年15期

        摘 要: 針對(duì)雙語(yǔ)術(shù)語(yǔ)抽取系統(tǒng)在處理多種語(yǔ)言時(shí)大量耗費(fèi)人力、財(cái)力、物力等的局限性問(wèn)題,提出基于平行語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取方法,同時(shí),分析此方法的不足,結(jié)合多種方法進(jìn)行改善。在此基礎(chǔ)上開(kāi)發(fā)了一個(gè)雙語(yǔ)術(shù)語(yǔ)抽取系統(tǒng),并通過(guò)實(shí)驗(yàn)分析了相似度函數(shù)、語(yǔ)料規(guī)模以及改進(jìn)后方法對(duì)術(shù)語(yǔ)抽取結(jié)果的影響,而且該系統(tǒng)已經(jīng)作為商品化軟件投入實(shí)際應(yīng)用。

        關(guān)鍵詞: 平行語(yǔ)料庫(kù); 詞對(duì)齊; 共現(xiàn)矩陣; 相似度函數(shù); 雙語(yǔ)術(shù)語(yǔ)抽取

        中圖分類(lèi)號(hào): TN911?34; TP391.7 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)15?0108?04

        Abstract: Since the bilingual terminology extraction system exists the limitation problems of consuming massive manpower, financial resources and material resources while treating with multilingual languages, the bilingual terminology extraction method based on parallel corpus is put forward. The shortcomings of this method are analyzed, and improved with a variety of methods. On the basis of the above, a bilingual terminology extraction system was developed. The similarity function, corpus scale, and the effect of the improved method on terminology extraction results are analyzed with the experiment. The extraction system was put into practical application as a commercial software.

        Keywords: parallel corpus; word alignment; co?occurrence matrix; similarity function; bilingual terminology extraction

        0 引 言

        術(shù)語(yǔ)是人類(lèi)智慧和知識(shí)的結(jié)晶,包含著豐富的信息,雙語(yǔ)術(shù)語(yǔ)自動(dòng)抽取任務(wù)早已引起學(xué)術(shù)界和工業(yè)界廣泛的關(guān)注[1]。同時(shí),隨著全球化進(jìn)程的推進(jìn),各國(guó)之間越來(lái)越迫切地要求知識(shí)和技術(shù)的交流,而術(shù)語(yǔ)作為知識(shí)最核心的載體,其相互翻譯恰恰成為了各國(guó)間知識(shí)、技術(shù)交流的最大障礙之一[2]。所以,實(shí)現(xiàn)雙語(yǔ)術(shù)語(yǔ)自動(dòng)抽取,對(duì)于雙語(yǔ)術(shù)語(yǔ)詞典的構(gòu)建和跨語(yǔ)言檢索都有重要的意義。

        本文介紹了用基于相似度函數(shù)的方法生成對(duì)齊詞典的過(guò)程并分析其不足之處,融合了多種方法提高雙語(yǔ)術(shù)語(yǔ)抽取的準(zhǔn)確率,在此基礎(chǔ)上開(kāi)發(fā)了一個(gè)雙語(yǔ)術(shù)語(yǔ)抽取系統(tǒng)并做了三方面的實(shí)驗(yàn):不同的相似度函數(shù)對(duì)最后抽取結(jié)果的影響、不同的語(yǔ)料規(guī)模對(duì)最后抽取結(jié)果的影響以及改進(jìn)方法對(duì)雙語(yǔ)術(shù)語(yǔ)抽取準(zhǔn)確率的影響。

        1 基于相似度函數(shù)的對(duì)齊詞典生成

        1.1 詞典生成的過(guò)程

        對(duì)齊詞典的生成以雙語(yǔ)平行語(yǔ)料庫(kù)為基礎(chǔ),采用相似度函數(shù)計(jì)算雙語(yǔ)中不同詞語(yǔ)之間的關(guān)聯(lián)程度,把關(guān)聯(lián)程度最強(qiáng)的詞語(yǔ)作為對(duì)齊詞典的詞對(duì)[3?4]。整個(gè)過(guò)程主要分為語(yǔ)料預(yù)處理、語(yǔ)料編碼、生成對(duì)齊矩陣和生成對(duì)齊詞典四個(gè)步驟。

        1.2 對(duì)齊詞典存在的問(wèn)題及其他對(duì)其方式嘗試

        僅僅用源語(yǔ)言中的每個(gè)詞(包括抽取出來(lái)的候選術(shù)語(yǔ))與目標(biāo)語(yǔ)言的每個(gè)詞(也包括候選術(shù)語(yǔ))進(jìn)行對(duì)齊,取得的效果并不理想,原因主要集中在以下幾個(gè)方面:?jiǎn)握Z(yǔ)術(shù)語(yǔ)抽取并不能窮盡所有的術(shù)語(yǔ)詞;很多中文多詞術(shù)語(yǔ)對(duì)應(yīng)的英文術(shù)語(yǔ)只有一個(gè)詞;有些中文術(shù)語(yǔ),在英文中根本就沒(méi)有固定的翻譯以及通過(guò)分析生成的對(duì)齊詞典,中文術(shù)語(yǔ)與英文單詞的對(duì)齊概率總比中文術(shù)語(yǔ)與英文多詞術(shù)語(yǔ)的對(duì)齊概率要高[5?6]。

        基于上述對(duì)齊詞典存在的問(wèn)題,為了讓對(duì)齊的效果更好,本文對(duì)多種不同的對(duì)齊方法進(jìn)行嘗試,雖然最后的結(jié)果不夠理想,不能達(dá)到實(shí)際應(yīng)用的目標(biāo),但是為找出能夠解決上述問(wèn)題的方法做了鋪墊。

        基于窗口匹配和相似函數(shù)的方法:經(jīng)過(guò)大量實(shí)驗(yàn),但結(jié)果并不理想,原因包括:共現(xiàn)矩陣太大;處理時(shí)間增長(zhǎng);很多正確的但不滿足條件的詞沒(méi)能被抽取出來(lái)。

        迭代對(duì)齊法:該方法通過(guò)不斷迭代,直到滿足條件才停止。通過(guò)實(shí)驗(yàn)證明結(jié)果并不是很好,原因可能是:對(duì)齊的方法本身會(huì)產(chǎn)生錯(cuò)誤的結(jié)果,而迭代過(guò)程對(duì)這種誤差也是迭代的,誤差導(dǎo)致錯(cuò)誤的結(jié)果會(huì)越來(lái)越多,影響下一次需要對(duì)齊的詞語(yǔ)。

        2 基于多策略融合的雙語(yǔ)術(shù)語(yǔ)抽取方法

        分析導(dǎo)致生成對(duì)齊詞典準(zhǔn)確率不高的原因,針對(duì)不同的問(wèn)題,提出對(duì)應(yīng)的改進(jìn)方法。用基于相同原理的統(tǒng)計(jì)方法分別抽取單語(yǔ),最大限度地減少單語(yǔ)術(shù)語(yǔ)抽取的不平衡;結(jié)合HMM模型的對(duì)齊結(jié)果和權(quán)衡比重的方法增大對(duì)齊的準(zhǔn)確度。

        2.1 基于Pat Tree的方法分別抽取單語(yǔ)

        Pat Tree是一個(gè)特殊的二叉樹(shù)結(jié)構(gòu)。它與常規(guī)的二叉樹(shù)的主要區(qū)別在于:當(dāng)某個(gè)節(jié)點(diǎn)沒(méi)有子節(jié)點(diǎn)時(shí),其左右子樹(shù)指針指向自己或者自己的祖先節(jié)點(diǎn)[7]。圖2所示的就是一個(gè)Pat Tree。

        Pat Tree是用來(lái)高效地表示數(shù)據(jù)的一系列0,1字符串。具體表示為:從根節(jié)點(diǎn)開(kāi)始遍歷,根據(jù)與字符串中相應(yīng)的位值選擇下個(gè)要遍歷的是當(dāng)前節(jié)點(diǎn)的左子樹(shù)還是右子樹(shù),當(dāng)對(duì)應(yīng)的位值為“0”時(shí),選擇左子樹(shù);當(dāng)位值為“1”時(shí),選擇右子樹(shù)。在單語(yǔ)術(shù)語(yǔ)抽取中,雖然字符串是由漢字或者字母組成,但是任何漢字或者字母在計(jì)算機(jī)中都是由0,1字符串表示(或者可以說(shuō)是用十六進(jìn)制的數(shù)字表示)。所以單語(yǔ)抽取中,漢字或者字母的表示還是用Pat Tree的形式。與基本的Pat Tree工作原理不同的是中間節(jié)點(diǎn)也同樣能夠表示一段文字或者字母。術(shù)語(yǔ)抽取的方式主要是根據(jù)詞語(yǔ)出現(xiàn)的頻率來(lái)計(jì)算的,要滿足這個(gè)詞的結(jié)合度比有前綴和后綴的結(jié)合度都高。統(tǒng)一用該方法分別抽取中文術(shù)語(yǔ)和英文術(shù)語(yǔ),從抽取的結(jié)果來(lái)看,確實(shí)降低了不平衡的情況。

        2.2 綜合的術(shù)語(yǔ)對(duì)齊方法

        GIZA++實(shí)現(xiàn)了IBM的5個(gè)模型和HMM模型,且其詞對(duì)齊有一定的精確度,故使用GIZA++對(duì)齊的結(jié)果來(lái)改善中文多詞術(shù)語(yǔ)到單個(gè)英語(yǔ)詞上的對(duì)齊效果,同時(shí)考慮適當(dāng)提高多詞術(shù)語(yǔ)到多詞術(shù)語(yǔ)的相似度權(quán)重最終完成術(shù)語(yǔ)對(duì)齊。

        HMM模型的雙向詞對(duì)齊結(jié)果有兩個(gè)比較直觀的文件,分別是中文單詞對(duì)應(yīng)的英文單詞以及對(duì)齊概率和英文單詞對(duì)應(yīng)的中文單詞以及對(duì)齊概率。把雙向詞對(duì)齊結(jié)果加入到術(shù)語(yǔ)對(duì)齊中,由于分詞時(shí)中文語(yǔ)料已經(jīng)完成以源術(shù)語(yǔ)為詞典的分詞,只需要考慮源術(shù)語(yǔ)與哪一個(gè)英文詞的對(duì)齊概率最大[8]。設(shè)定一個(gè)閾值,并把高于閾值的單個(gè)英語(yǔ)詞典也抽取出來(lái),作為源術(shù)語(yǔ)翻譯的一個(gè)候選項(xiàng)。為了用到雙向詞對(duì)齊的結(jié)果,把中文詞[x]與英文詞[y]的對(duì)齊概率定義為:

        3 系統(tǒng)框架及實(shí)驗(yàn)

        雙語(yǔ)術(shù)語(yǔ)抽取系統(tǒng)在Windows平臺(tái)(Windows 7 Professional)下進(jìn)行開(kāi)發(fā),采用標(biāo)準(zhǔn)C++語(yǔ)言。為了改進(jìn)對(duì)齊效果,將開(kāi)源軟件(GIZA++)生成的actual.ti.final文件作為系統(tǒng)的一個(gè)輸入。

        3.1 系統(tǒng)框架

        系統(tǒng)分為4個(gè)模塊:語(yǔ)言預(yù)處理模塊、單語(yǔ)抽取模塊、對(duì)齊詞典生成模塊、術(shù)語(yǔ)抽取模塊。

        預(yù)處理模塊:對(duì)不同的語(yǔ)言是獨(dú)立的,輸入是單語(yǔ)語(yǔ)料,輸出是經(jīng)過(guò)預(yù)處理之后的語(yǔ)料,主要進(jìn)行了中文分詞,英文詞形還原,還提供了對(duì)語(yǔ)料進(jìn)行編碼的功能,將原始的用字符表示的語(yǔ)料替換成用數(shù)字表示的語(yǔ)料。

        單語(yǔ)術(shù)語(yǔ)抽取模塊:輸入是單語(yǔ)語(yǔ)料,輸出是源語(yǔ)言(中文)術(shù)語(yǔ)候選列表或者目標(biāo)語(yǔ)言(英文)術(shù)語(yǔ)候選列表。

        對(duì)齊詞典生成模塊:輸入是人工選出的源語(yǔ)言術(shù)語(yǔ)、目標(biāo)語(yǔ)言候選術(shù)語(yǔ)、編碼詞典,輸出是對(duì)齊詞典,即源語(yǔ)言術(shù)語(yǔ)與目標(biāo)語(yǔ)言候選術(shù)語(yǔ)或者目標(biāo)語(yǔ)言詞語(yǔ)組成的詞對(duì)(候選術(shù)語(yǔ)對(duì))及它們的相似度值。

        雙語(yǔ)術(shù)語(yǔ)抽取模塊:輸入是對(duì)齊詞典和HMM模型生成的對(duì)齊文件,輸出是最終雙語(yǔ)術(shù)語(yǔ)對(duì)。

        3.2 仿真實(shí)驗(yàn)

        實(shí)驗(yàn)所用語(yǔ)料是中英雙語(yǔ)平行語(yǔ)料,包括日常交際用語(yǔ)、經(jīng)濟(jì)、政治領(lǐng)域及少量軍事領(lǐng)域的語(yǔ)料,主要集中在經(jīng)濟(jì)和政治領(lǐng)域。一共包含10萬(wàn)個(gè)翻譯句對(duì),不同的中英文詞語(yǔ)共70 855個(gè),其中中文詞語(yǔ)43 924個(gè),英文詞語(yǔ)26 931個(gè)。

        4 結(jié) 論

        本文詳細(xì)介紹了用相似度函數(shù)的方法生成雙語(yǔ)對(duì)齊詞典的過(guò)程,分析了該方法生成對(duì)齊詞典存在的問(wèn)題。為了提高雙語(yǔ)術(shù)語(yǔ)抽取的準(zhǔn)確率,融合了多種方法進(jìn)行改進(jìn),以此為基礎(chǔ)開(kāi)發(fā)了一個(gè)雙語(yǔ)術(shù)語(yǔ)抽取系統(tǒng),通過(guò)實(shí)驗(yàn)對(duì)不同因素的影響進(jìn)行了考察:不同的相似度函數(shù)、不同的語(yǔ)料規(guī)模以及融合了多種方法后對(duì)雙語(yǔ)術(shù)語(yǔ)抽取準(zhǔn)確率的影響。在未來(lái)的工作中,可以采取一些啟發(fā)式信息來(lái)改善詞對(duì)齊,從而進(jìn)一步提高雙語(yǔ)術(shù)語(yǔ)抽取的準(zhǔn)確率。

        參考文獻(xiàn)

        [1] 李秀英.基于歷史典籍雙語(yǔ)平行語(yǔ)料庫(kù)的術(shù)語(yǔ)對(duì)齊研究[D].大連:大連理工大學(xué),2010.

        [2] 姚振軍,鄭旭紅,徐鵬濤.基于本體的雙語(yǔ)平行語(yǔ)料庫(kù)的構(gòu)建研究[J].語(yǔ)言教育,2014(1):29?36.

        [3] 孫茂松,李莉,劉知遠(yuǎn).面向中英平行專(zhuān)利的雙語(yǔ)術(shù)語(yǔ)自動(dòng)抽取[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(10):1339?1343.

        [4] 張莉,劉昱顯.基于語(yǔ)序位置特征的漢英術(shù)語(yǔ)對(duì)自動(dòng)抽取研究[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(4):707?713.

        [5] LEFEVER E, MACKEN L, HOSTE V. Language?independent bilingual terminology extraction from a multilingual parallel corpus [C]// Proceedings of 2009 Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg: ACM, 2009: 496?504.

        [6] LIU F. The construction of China characteristic vocabulary bilingual thesaurus based on parallel corpus [J]. Wireless internet technology, 2015(8): 46?50.

        [7] 湯青,呂學(xué)強(qiáng),李卓,等.領(lǐng)域本體術(shù)語(yǔ)抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014(1):43?50.

        [8] 李文剛,周杰,楊保群.基于詞典和句長(zhǎng)及位置的雙語(yǔ)對(duì)齊方法的改進(jìn)[J].現(xiàn)代電子技術(shù),2011,34(14):25?27.

        国产精品无需播放器| 人妻有码中文字幕在线| 网址视频在线成人亚洲| 色视频网站一区二区三区| 精品国偷自产在线视频九色| 国产大陆亚洲精品国产| 91久久精品国产91久久| 亚欧免费无码AⅤ在线观看| 白嫩少妇在线喷水18禁| 国产高清在线一区二区不卡| 中文字幕亚洲综合久久| 日韩国产成人无码av毛片蜜柚 | 人人妻人人澡av天堂香蕉| 成年女人窝窝视频| 国产猛男猛女超爽免费av| 四季极品偷拍一区二区三区视频| 日本少妇高潮喷水视频| 亚洲av色香蕉一区二区三区老师| 无码精品人妻一区二区三区人妻斩| 牛牛本精品99久久精品88m| 亚洲va欧美va人人爽夜夜嗨 | 91久久综合精品久久久综合| 国产日产精品一区二区三区四区的特点 | 北条麻妃在线视频观看| 亚洲国产日韩欧美高清片a| 久久99久久久精品人妻一区二区 | 国产av熟女一区二区三区| 亚洲精品成人网线在线播放va| 国产自产精品露脸刺激91在线 | 亚洲国产精品中文字幕日韩| 亚洲中文中文字幕乱码| 久久久久久久久毛片精品 | 黄片午夜免费观看视频国产| 五月婷婷开心六月激情| 国产乱子伦精品无码专区| 嫖妓丰满肥熟妇在线精品| 亚洲欧美日本人成在线观看| 91国产熟女自拍视频| 精品高朝久久久久9999| 东北女人毛多水多牲交视频| 大地资源中文第三页|