基于HITS算法的雙語(yǔ)句對(duì)挖掘優(yōu)化方法

2017-06-01 11:29:47姚建民周?chē)?guó)棟

中文信息學(xué)報(bào) 2017年2期

關(guān)鍵詞：方法系統(tǒng)

劉昊，洪宇，姚亮，劉樂(lè)，姚建民，周?chē)?guó)棟

(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室，江蘇蘇州 215006)

基于HITS算法的雙語(yǔ)句對(duì)挖掘優(yōu)化方法

劉昊，洪宇，姚亮，劉樂(lè)，姚建民，周?chē)?guó)棟

(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室，江蘇蘇州 215006)

識(shí)別和定位特定領(lǐng)域雙語(yǔ)網(wǎng)站，是基于Web自動(dòng)構(gòu)建特定領(lǐng)域雙語(yǔ)語(yǔ)料庫(kù)的關(guān)鍵。然而，特定領(lǐng)域雙語(yǔ)網(wǎng)站之間的句對(duì)質(zhì)量往往差異較大。相對(duì)于原有基于句對(duì)文本特征識(shí)別過(guò)濾質(zhì)量較差句對(duì)的方法。該文從句對(duì)的來(lái)源(即特定領(lǐng)域雙語(yǔ)網(wǎng)站)出發(fā)，依據(jù)領(lǐng)域權(quán)威性高的網(wǎng)站往往蘊(yùn)含高質(zhì)量平行句對(duì)這一假設(shè)，提出一種基于HITS算法的雙語(yǔ)句對(duì)挖掘優(yōu)化方法。該方法通過(guò)網(wǎng)站之間的鏈接信息建立有向圖模型，利用HITS算法度量網(wǎng)站的權(quán)威性，在此基礎(chǔ)上，僅從權(quán)威性高的網(wǎng)站中抽取雙語(yǔ)句對(duì)，用于訓(xùn)練特定領(lǐng)域機(jī)器翻譯系統(tǒng)。該文以教育領(lǐng)域?yàn)槟繕?biāo)，驗(yàn)證“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量句對(duì)”假設(shè)的可行性。實(shí)驗(yàn)結(jié)果表明，利用該文所提方法挖掘雙語(yǔ)句對(duì)訓(xùn)練的翻譯系統(tǒng)，相比于基準(zhǔn)系統(tǒng)，其平均性能提升0.44個(gè)BLEU值。此外，針對(duì)HITS算法存在的“主題偏離”問(wèn)題，該文提出基于GHITS的改進(jìn)算法。結(jié)果顯示，基于GHITS算法改進(jìn)的機(jī)器翻譯系統(tǒng)，其性能繼續(xù)提升0.40個(gè)BLEU值。

統(tǒng)計(jì)機(jī)器翻譯；特定領(lǐng)域機(jī)器翻譯；特定領(lǐng)域雙語(yǔ)網(wǎng)站；權(quán)威性

1 引言

面向特定領(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation, SMT)系統(tǒng)往往受制于目標(biāo)領(lǐng)域雙語(yǔ)語(yǔ)料的不足，難以充分學(xué)習(xí)相應(yīng)的領(lǐng)域翻譯知識(shí)和語(yǔ)言現(xiàn)象，導(dǎo)致翻譯性能普遍偏低。目前，借助檢索技術(shù)，從大規(guī)模Web數(shù)據(jù)中自動(dòng)挖掘特定領(lǐng)域雙語(yǔ)語(yǔ)料，并用以擴(kuò)展翻譯系統(tǒng)雙語(yǔ)訓(xùn)練集的相關(guān)研究較多[1-3]。通常，基于Web自動(dòng)挖掘特定領(lǐng)域雙語(yǔ)語(yǔ)料的方法包含三個(gè)關(guān)鍵步驟： 1)識(shí)別和定位特定領(lǐng)域雙語(yǔ)網(wǎng)站； 2)識(shí)別平行網(wǎng)頁(yè)對(duì)； 3)抽取平行句對(duì)。其中，識(shí)別和定位特定領(lǐng)域雙語(yǔ)網(wǎng)站是基于Web自動(dòng)挖掘特定領(lǐng)域雙語(yǔ)語(yǔ)料的前提和關(guān)鍵。然而，自動(dòng)獲取的特定領(lǐng)域雙語(yǔ)網(wǎng)站之間句對(duì)質(zhì)量往往差別較大。Rarrick等[2]指出，英語(yǔ)、日語(yǔ)和德語(yǔ)等語(yǔ)言中，自動(dòng)獲取的平行網(wǎng)頁(yè)中15%的網(wǎng)頁(yè)是由機(jī)器翻譯產(chǎn)生(表1)。此類(lèi)質(zhì)量較差的句對(duì)，無(wú)法為機(jī)器翻譯系統(tǒng)提供有效的翻譯知識(shí)，甚至成為噪音。

表1 機(jī)器翻譯頁(yè)面所占比重

目前，解決上述問(wèn)題的方法包括： 1)判定雙語(yǔ)句對(duì)是否由機(jī)器翻譯產(chǎn)生[4-5]； 2)利用句對(duì)的雙語(yǔ)特征和領(lǐng)域特征構(gòu)造模型，評(píng)價(jià)句對(duì)的平行性和領(lǐng)域性[6-7]等。上述方法僅從句對(duì)的文本特征評(píng)價(jià)句對(duì)質(zhì)量，忽略句對(duì)的來(lái)源信息；此外，上述方法需抽取目標(biāo)領(lǐng)域網(wǎng)站集合中蘊(yùn)含的所有句對(duì)，實(shí)現(xiàn)較為復(fù)雜，效率較低。例如，劉昊、洪宇等[8]指出，在電子器件領(lǐng)域共獲取領(lǐng)域雙語(yǔ)網(wǎng)站18 944個(gè)。

針對(duì)上述問(wèn)題，本文提出基于HITS算法的雙語(yǔ)句對(duì)挖掘優(yōu)化方法。這一方法的設(shè)計(jì)源于如下經(jīng)驗(yàn)性的發(fā)現(xiàn)：

? 特定領(lǐng)域雙語(yǔ)網(wǎng)站中，雙語(yǔ)句對(duì)的質(zhì)量與該網(wǎng)站在目標(biāo)領(lǐng)域的權(quán)威度直接相關(guān)；

? 目標(biāo)領(lǐng)域權(quán)威度高的網(wǎng)站，其所含雙語(yǔ)句對(duì)的質(zhì)量較高，反之亦然。

如圖1所示,圖(a)和圖(b)表示的平行網(wǎng)頁(yè)來(lái)源于北京大學(xué)官方網(wǎng)站；圖(c)和圖(d)表示的平行網(wǎng)頁(yè)來(lái)源于山東省實(shí)驗(yàn)中學(xué)官方網(wǎng)站。通過(guò)觀察發(fā)現(xiàn)，僅從用詞的角度分析，北京大學(xué)官方網(wǎng)站中蘊(yùn)含的單詞“delegation”、“outline”較山東省實(shí)驗(yàn)中學(xué)的單詞“guests”、“introduce”，用詞更為專(zhuān)業(yè)，領(lǐng)域性更強(qiáng)。假設(shè)選取教育領(lǐng)域?yàn)槟繕?biāo)領(lǐng)域，則上述兩個(gè)網(wǎng)站均可被認(rèn)定為目標(biāo)領(lǐng)域雙語(yǔ)網(wǎng)站。但由于網(wǎng)站之間雙語(yǔ)句對(duì)質(zhì)量的差異，由其所訓(xùn)練翻譯系統(tǒng)的性能應(yīng)存在較大差異。相對(duì)地，圖1中所示的北京大學(xué)更權(quán)威，其網(wǎng)站中的雙語(yǔ)句對(duì)質(zhì)量較好。此例說(shuō)明，特定領(lǐng)域雙語(yǔ)網(wǎng)站中，句對(duì)的質(zhì)量與該網(wǎng)站在目標(biāo)領(lǐng)域的權(quán)威度具有較大關(guān)系。

圖1 雙語(yǔ)平行網(wǎng)頁(yè)實(shí)例

針對(duì)上述現(xiàn)象，本文從句對(duì)的來(lái)源(即特定領(lǐng)域雙語(yǔ)網(wǎng)站)出發(fā)，依據(jù)“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量平行句對(duì)”這一假設(shè)，提出一種基于HITS算法評(píng)價(jià)特定領(lǐng)域雙語(yǔ)網(wǎng)站權(quán)威性，進(jìn)而獲取高質(zhì)量雙語(yǔ)句對(duì)的方法。本文開(kāi)展了如下工作：

? 驗(yàn)證利用HITS算法評(píng)價(jià)網(wǎng)站權(quán)威性的有效性；

? 驗(yàn)證本文所提“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量平行句對(duì)”的假設(shè)；

? 驗(yàn)證本文所提基于HITS算法的雙語(yǔ)挖掘優(yōu)化方法的有效性。

本文組織形式如下：第二節(jié)介紹相關(guān)工作；第三節(jié)介紹HITS算法；第四節(jié)概述結(jié)合HITS算法的雙語(yǔ)句對(duì)挖掘方法框架；第五節(jié)詳述本文所提基于HITS算法的雙語(yǔ)挖掘優(yōu)化方法；第六節(jié)給出實(shí)驗(yàn)設(shè)置及結(jié)果分析；第七節(jié)總結(jié)全文并展望未來(lái)工作。

2 相關(guān)工作

基于Web自動(dòng)獲取大規(guī)模雙語(yǔ)語(yǔ)料的方法可分為以下三類(lèi)： 1)基于雙語(yǔ)網(wǎng)站自動(dòng)獲取雙語(yǔ)語(yǔ)料。比如，Resnik等[1]開(kāi)發(fā)的STRAND系統(tǒng)，該系統(tǒng)利用雙語(yǔ)網(wǎng)站的語(yǔ)言標(biāo)識(shí)作為啟發(fā)式信息,獲取平行網(wǎng)頁(yè)對(duì)。Nie等[2]開(kāi)發(fā)了PTMiner系統(tǒng)，該系統(tǒng)進(jìn)一步利用網(wǎng)頁(yè)html的結(jié)構(gòu)信息實(shí)現(xiàn)平行網(wǎng)頁(yè)對(duì)之間的句子對(duì)齊。Ma和Liberman[9]開(kāi)發(fā)的BITS，利用雙語(yǔ)詞典，計(jì)算兩部分文本之間內(nèi)容的互譯度，提高了文本對(duì)齊的質(zhì)量。葉莎妮、呂雅娟等[10]提出自動(dòng)發(fā)現(xiàn)雙語(yǔ)網(wǎng)站中URL命名規(guī)律的方法。2)基于混合網(wǎng)頁(yè)自動(dòng)獲取雙語(yǔ)語(yǔ)料。Jiang等[3]提出一種基于自適應(yīng)模板挖掘雙語(yǔ)句對(duì)的方法。馮艷卉、洪宇等[11]提出一種從搜索引擎返回結(jié)果的網(wǎng)頁(yè)中獲取雙語(yǔ)混合網(wǎng)頁(yè)的方法3)利用可比較語(yǔ)料庫(kù)挖掘雙語(yǔ)平行語(yǔ)料。Smith等[12]提出一種排序模型在可比較文本中抽取平行句對(duì)。Bharadwaj等[13]利用SVM分類(lèi)器在Wikipedia中抽取平行句對(duì)。面向特定領(lǐng)域雙語(yǔ)資源獲取方面，當(dāng)前研究相對(duì)較少。Pecina等[14]提出一種基于聚焦爬蟲(chóng)的特定領(lǐng)域雙語(yǔ)語(yǔ)料獲取方法。劉昊、洪宇等[8]提出一種基于全局搜索和局部分類(lèi)的特定領(lǐng)域雙語(yǔ)網(wǎng)站識(shí)別方法。然而，基于Web自動(dòng)獲取的領(lǐng)域雙語(yǔ)網(wǎng)站中句對(duì)的質(zhì)量往往差異較大。質(zhì)量差的雙語(yǔ)句對(duì)無(wú)法為翻譯系統(tǒng)提供有效的領(lǐng)域翻譯知識(shí)和語(yǔ)言現(xiàn)象,甚至成為噪音。

針對(duì)上述特定領(lǐng)域雙語(yǔ)網(wǎng)站質(zhì)量不平衡問(wèn)題，解決方法大致可分為兩類(lèi)： 1)機(jī)器翻譯句對(duì)識(shí)別。Rarrick等[4]提出一系列雙語(yǔ)平行性特征，通過(guò)此類(lèi)特征識(shí)別機(jī)器翻譯產(chǎn)生的句對(duì)。Arase等[5]提出一系列單語(yǔ)特征，用于識(shí)別機(jī)器翻譯產(chǎn)生的句對(duì)。2)雙語(yǔ)句對(duì)選擇。黃瑾，呂雅娟等[15]提出基于信息檢索的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練數(shù)據(jù)的選擇和優(yōu)化方法。Yasuda等[16]和Foster等[17]提出利用目標(biāo)領(lǐng)域語(yǔ)言模型困惑度計(jì)算雙語(yǔ)句對(duì)質(zhì)量的方法。Axelrod等[18]分別計(jì)算特定領(lǐng)域和通用領(lǐng)域的語(yǔ)言模型困惑度，并利用其差值評(píng)價(jià)句對(duì)質(zhì)量。Duh等[19]探索應(yīng)用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型計(jì)算困惑度。Liu等[7]提出一種結(jié)合翻譯模型和語(yǔ)言模型評(píng)價(jià)句對(duì)質(zhì)量的方法?，F(xiàn)有解決方法僅從句對(duì)內(nèi)部特征出發(fā)考慮句對(duì)的質(zhì)量，且難以有效融合句對(duì)平行性和領(lǐng)域性特征；若目標(biāo)領(lǐng)域雙語(yǔ)網(wǎng)站集合較大，利用上述方法，需抽取網(wǎng)站集合中蘊(yùn)含的所有句對(duì)，實(shí)現(xiàn)較復(fù)雜，效率較低。

本文所提基于HITS算法的雙語(yǔ)句對(duì)挖掘優(yōu)化方法，從句對(duì)的來(lái)源(即特定領(lǐng)域雙語(yǔ)網(wǎng)站)出發(fā)，基于“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量句對(duì)”的假設(shè)，利用網(wǎng)站之間的鏈接信息，對(duì)網(wǎng)站權(quán)威度進(jìn)行評(píng)價(jià)。最終，僅從權(quán)威度高的目標(biāo)領(lǐng)域雙語(yǔ)網(wǎng)站中抽取句對(duì)，訓(xùn)練特定領(lǐng)域機(jī)器翻譯系統(tǒng)，從而有效解決上述特定領(lǐng)域雙語(yǔ)網(wǎng)站質(zhì)量不平衡的問(wèn)題。

3 HITS算法

本文根據(jù)網(wǎng)站之間的鏈接關(guān)系，利用HITS算法評(píng)價(jià)網(wǎng)站領(lǐng)域權(quán)威度，HITS算法由Kleinberg等[20-21]提出。HITS算法可有效利用網(wǎng)頁(yè)之間的鏈接關(guān)系挖掘隱含信息(如：權(quán)威度等)，具有計(jì)算簡(jiǎn)單且效率高的特點(diǎn)。

算法概述如下：

Hub值(表征網(wǎng)站的樞紐度)和Authority值(表征網(wǎng)站的權(quán)威度)是HITS算法最基本的兩個(gè)概念，通過(guò)Hub和Authority指標(biāo)，HITS能夠?qū)W(wǎng)站的樞紐度和權(quán)威度進(jìn)行估計(jì)。下面首先給出HITS算法的基本概念*基本概念的定義源自維基百科，鏈接地址為“http://en.wikipedia.org/wiki/HITS_algorithm”。和應(yīng)用場(chǎng)景：

? “Hub”頁(yè)面，Hub值高的網(wǎng)頁(yè)，是指包含很多指向高質(zhì)量“Authority”頁(yè)面鏈接的網(wǎng)頁(yè),即樞紐度高的網(wǎng)站。

? “Authority”頁(yè)面，Authority值高的頁(yè)面，是指與某個(gè)領(lǐng)域或者話題相關(guān)的高質(zhì)量網(wǎng)頁(yè)，即權(quán)威度高的頁(yè)面；

HITS算法的應(yīng)用場(chǎng)景如下圖2*圖2示例來(lái)源于博客“http://blog.csdn.net/hguisu/article/details/8013489”。所示，輸入查詢(xún)?yōu)椋?“Topautomobilemakers”，返回結(jié)果如圖所示。其中“CarRanking”、“CARMANUFACTURERWEBSITES”為“Hub”頁(yè)面(高樞紐度頁(yè)面)，“Ferrai”、“Flat”、“Ford”等為“Authority”頁(yè)面(高權(quán)威度頁(yè)面)。

圖2 “Hub”和“Authority”頁(yè)面實(shí)例

圖3 Hub和Authority權(quán)值計(jì)算

HITS算法每次迭代時(shí)，Authority值和Hub值的計(jì)算方法如圖3所示，圖中A(i)表示網(wǎng)頁(yè)i的Authority值(權(quán)威度)，H(i)表示網(wǎng)頁(yè)i的Hub值(樞紐度)。圖3中，網(wǎng)頁(yè)1被網(wǎng)頁(yè)2、網(wǎng)頁(yè)3和網(wǎng)頁(yè)4所指向，并且網(wǎng)頁(yè)1又分別指向網(wǎng)頁(yè)5、網(wǎng)頁(yè)6和網(wǎng)頁(yè)7。則在HITS算法的每一輪迭代中，網(wǎng)頁(yè)1的Authority值等于網(wǎng)頁(yè)2、網(wǎng)頁(yè)3和網(wǎng)頁(yè)4(所有指向網(wǎng)頁(yè)1的網(wǎng)頁(yè))的Hub值之和，網(wǎng)頁(yè)1的Hub值等于網(wǎng)頁(yè)5、網(wǎng)頁(yè)6和網(wǎng)頁(yè)7(所有網(wǎng)頁(yè)1指向的網(wǎng)頁(yè))的Authority值之和。

4 結(jié)合HITS算法的雙語(yǔ)句對(duì)挖掘方法框架

本文提出的基于HITS算法的雙語(yǔ)句對(duì)挖掘方法框架如圖4所示，共包含兩個(gè)主要模塊，分別為網(wǎng)站質(zhì)量評(píng)價(jià)與雙語(yǔ)句對(duì)抽取，主要功能和組成如下：

? 網(wǎng)站權(quán)威度排序：用于獲取專(zhuān)門(mén)從事某領(lǐng)域工作的專(zhuān)業(yè)性很強(qiáng)句對(duì)質(zhì)量很高的網(wǎng)站，即“領(lǐng)域?qū)＜揖W(wǎng)站”。基本組成包括領(lǐng)域網(wǎng)站集合構(gòu)建、集合擴(kuò)展、HITS排序。Authority值高的網(wǎng)站即專(zhuān)門(mén)從事某領(lǐng)域工作的專(zhuān)業(yè)性很強(qiáng)，權(quán)威度很高，句對(duì)質(zhì)量較好的網(wǎng)站。

? 雙語(yǔ)句對(duì)抽?。?用于在權(quán)威度高的雙語(yǔ)網(wǎng)站中獲取雙語(yǔ)平行句對(duì)?；窘M成包括平行網(wǎng)頁(yè)對(duì)識(shí)別、平行句對(duì)抽取。本文利用Ma和Liberman[9]所提方法實(shí)現(xiàn)雙語(yǔ)平行句對(duì)抽取。并將雙語(yǔ)句對(duì)用于擴(kuò)充特定領(lǐng)域機(jī)器翻譯系統(tǒng)訓(xùn)練集。

圖4 方法框架圖

5 基于HITS算法的雙語(yǔ)挖掘優(yōu)化方法

5.1 構(gòu)建特定領(lǐng)域雙語(yǔ)網(wǎng)站集合

首先，利用劉昊、洪宇等[8]所提特定領(lǐng)域雙語(yǔ)網(wǎng)站識(shí)別方法，構(gòu)建特定領(lǐng)域雙語(yǔ)網(wǎng)站集合，作為根集合(Root Set)。其次，在根集合(Root Set)的基礎(chǔ)上進(jìn)行擴(kuò)展，擴(kuò)展原則為：凡是與根集合網(wǎng)站有鏈接關(guān)系(包括鏈入和鏈出兩種關(guān)系)的網(wǎng)站都被添加到擴(kuò)展集合(Base Set)。擴(kuò)展集合仍為有向圖。

根集合(Root Set)和擴(kuò)展集合(Base Set)的對(duì)應(yīng)關(guān)系如圖5所示, 其中，節(jié)點(diǎn)1、節(jié)點(diǎn)2和節(jié)點(diǎn)3表示利用特定領(lǐng)域雙語(yǔ)網(wǎng)站識(shí)別方法，獲得的目標(biāo)領(lǐng)域雙語(yǔ)網(wǎng)站，本文將此類(lèi)網(wǎng)站集合作為根集合(Root Set)。其次，依據(jù)擴(kuò)展原則將節(jié)點(diǎn)4-9加入根集合(Root Set)，形成擴(kuò)展集合(Base Set)。具體的鏈接關(guān)系如黑色箭頭所示。

5.2 利用HITS算法優(yōu)化網(wǎng)頁(yè)挖掘

本文根據(jù)網(wǎng)站之間的鏈接關(guān)系，利用HITS算法進(jìn)行迭代，得到網(wǎng)站的Authority值和Hub值。其基本算法如下，對(duì)任意網(wǎng)站p，每次迭代時(shí)Authority值和Hub值可由式(1)(2)計(jì)算：

(1)

(2)

其中，auth(p)和hub(p)分別表示網(wǎng)站p的Authority值和Hub值，網(wǎng)站qi(i=1,2,…,n)表示指向p的網(wǎng)站，網(wǎng)站qj(j=1,2,…,m)表示p所指向的網(wǎng)站。算法收斂后，根據(jù)Authority值對(duì)根集合網(wǎng)站排序，并將排序結(jié)果返回。HITS算法的偽代碼如表2所示：

表2 HITS算法偽代碼

續(xù)表

5.3 利用GHITS算法優(yōu)化網(wǎng)頁(yè)挖掘

HITS算法僅考慮網(wǎng)站之間的鏈接關(guān)系，忽略了網(wǎng)站中的內(nèi)容信息，使得在HITS算法迭代過(guò)程中經(jīng)常出現(xiàn)主題偏離問(wèn)題。主題偏離問(wèn)題是指，當(dāng)擴(kuò)展集合中包含部分與查詢(xún)無(wú)關(guān)的網(wǎng)站，且這部分網(wǎng)站之間的互鏈關(guān)系較多時(shí)，HITS算法可能為根集合中與目標(biāo)領(lǐng)域相關(guān)度較小的網(wǎng)站賦予較高的Authority值排名。針對(duì)此問(wèn)題，范聰賢、徐汀榮等[22]提出將基于超鏈接的信息檢索方法與內(nèi)容相關(guān)性分析方法相結(jié)合的GHITS算法。

本文利用GHITS算法優(yōu)化網(wǎng)頁(yè)挖掘，具體描述如下：

? 首先，依照5.1節(jié)中所提方法構(gòu)建目標(biāo)領(lǐng)域雙語(yǔ)網(wǎng)站集合，并利用網(wǎng)站之間的鏈接關(guān)系建立有向圖模型，用符號(hào)G(V,E)表示。其中，V表示特定領(lǐng)域雙語(yǔ)網(wǎng)站節(jié)點(diǎn)的集合，E表示節(jié)點(diǎn)之間有向邊的集合。

(3)

對(duì)任意網(wǎng)站p，每次迭代時(shí)Authority值和Hub值可由式(4)、式(5)計(jì)算。

(4)

(5)

? 最后，GHITS算法迭代收斂后(收斂條件為： ‖at-at-1‖+‖ht-ht-1‖<ε，其中at表示第t次迭代后網(wǎng)站p的Authority值，ht表示第t次迭代后網(wǎng)站p的Hub值，ε為人為設(shè)定參數(shù))，根據(jù)Authority值對(duì)根集合網(wǎng)站排序，并將排序結(jié)果返回。GHITS算法的偽代碼如表3所示：

表3 GHITS算法偽代碼

5.4 雙語(yǔ)平行句對(duì)抽取

本文采用基于網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容互譯度的方法識(shí)別平行網(wǎng)頁(yè)對(duì)。該方法首先基于URL地址的結(jié)構(gòu)相似性獲取候選平行網(wǎng)頁(yè)對(duì)，其次，計(jì)算候選平行網(wǎng)頁(yè)e和c之間的互譯度，通過(guò)設(shè)定閾值，過(guò)濾非平行網(wǎng)頁(yè)對(duì)，平行網(wǎng)頁(yè)互譯度的計(jì)算如式(6)所示。

(6)

其中，Scb(e,c)表示基于網(wǎng)頁(yè)內(nèi)容的互譯度，具體計(jì)算如式(7)所示；Sstruct(e,c)表示基于網(wǎng)頁(yè)結(jié)構(gòu)的互譯度，具體計(jì)算如式(8)所示；?為權(quán)重系數(shù)，實(shí)驗(yàn)中設(shè)為0.5。

(7)

(8)

Length(e)表示網(wǎng)頁(yè)e中包含的單詞個(gè)數(shù)；對(duì)于Translate(we)，通過(guò)檢索雙語(yǔ)詞典，如果網(wǎng)頁(yè)e中單詞we在網(wǎng)頁(yè)c中存在翻譯項(xiàng)，則Translate(we)的值為1，否則為0。ComSeq(etag,ctag)表示標(biāo)簽序列etag與ctag的公共子序列。

6 實(shí)驗(yàn)和結(jié)果分析

本實(shí)驗(yàn)分為三個(gè)部分： 1)驗(yàn)證HITS算法在評(píng)價(jià)網(wǎng)站領(lǐng)域權(quán)威性時(shí)的有效性； 2)驗(yàn)證“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量句對(duì)”的假設(shè)； 3)驗(yàn)證基于HITS和GHITS算法優(yōu)化的雙語(yǔ)句對(duì)挖掘方法的有效性，并與Liu等[7]所提方法進(jìn)行對(duì)比。

6.1 實(shí)驗(yàn)設(shè)置

? 語(yǔ)料配置

本文選擇教育領(lǐng)域?yàn)槟繕?biāo)領(lǐng)域。首先，在2014年中國(guó)大學(xué)排行榜*http://www.cuaa.net/cur/2014/xjindex.shtml中隨機(jī)抽取30個(gè)雙語(yǔ)平行網(wǎng)站，建立對(duì)應(yīng)根集合(Root Set)的有向圖模型。其次，在根集合(Root Set)的基礎(chǔ)上進(jìn)行擴(kuò)展，擴(kuò)展集合(Base Set)仍為有向圖，本文所構(gòu)建的擴(kuò)展集合中包含57個(gè)網(wǎng)站(獲取到有效鏈接的數(shù)量為： 15,150個(gè))。利用5.4節(jié)所提雙語(yǔ)平行句對(duì)抽取方法，在根集合(Root Set)的雙語(yǔ)網(wǎng)站中抽取雙語(yǔ)平行句對(duì)。

為驗(yàn)證本文所提“權(quán)威度高的網(wǎng)站蘊(yùn)含高質(zhì)量雙語(yǔ)句對(duì)”的假設(shè)，以及基于HITS和GHITS算法優(yōu)化的雙語(yǔ)句對(duì)挖掘方法的有效性，本文利用挖掘所得高質(zhì)量領(lǐng)域雙語(yǔ)平行句對(duì)，擴(kuò)充機(jī)器翻譯系統(tǒng)訓(xùn)練集，構(gòu)建特定領(lǐng)域中到英基于短語(yǔ)的機(jī)器翻譯系統(tǒng)。系統(tǒng)的訓(xùn)練語(yǔ)料設(shè)置如下：

1) 翻譯模型訓(xùn)練數(shù)據(jù)由通用領(lǐng)域雙語(yǔ)語(yǔ)料(規(guī)模100k，來(lái)源于機(jī)器翻譯系統(tǒng)NiuTrans中發(fā)布的雙語(yǔ)語(yǔ)料*http://www.niutrans.com/NiuTrans.ch.html)和利用HITS(GHITS)優(yōu)化算法挖掘所得領(lǐng)域雙語(yǔ)句對(duì)構(gòu)成；

2) 語(yǔ)言模型訓(xùn)練數(shù)據(jù)取自本地英語(yǔ)單語(yǔ)語(yǔ)料(規(guī)模為： 10k句)；

3) 開(kāi)發(fā)集源于人工標(biāo)注教育領(lǐng)域雙語(yǔ)語(yǔ)料(規(guī)模為1k)，對(duì)應(yīng)4個(gè)參考集；

4) 測(cè)試集(1,2,3,4)源于人工標(biāo)注教育領(lǐng)域雙語(yǔ)語(yǔ)料(規(guī)模為2k，2k，2k，2k)，對(duì)應(yīng)4個(gè)參考集。

機(jī)器翻譯系統(tǒng)的環(huán)境配置如下：詞對(duì)齊工具使用GIZA++[23]，語(yǔ)言模型為三元，參數(shù)訓(xùn)練方法使用最小錯(cuò)誤率[24]訓(xùn)練，系統(tǒng)采用對(duì)數(shù)線性模型進(jìn)行特征融合。

? 系統(tǒng)設(shè)置

本文分別設(shè)置如下系統(tǒng)進(jìn)行實(shí)驗(yàn)：

1) HITS_TopN：利用基于HITS的網(wǎng)頁(yè)挖掘優(yōu)化算法，對(duì)6.1節(jié)所提教育領(lǐng)域雙語(yǔ)平行網(wǎng)站(數(shù)量為： 30)進(jìn)行句對(duì)質(zhì)量排序；將排序Top-N網(wǎng)站中的雙語(yǔ)句對(duì)和通用領(lǐng)域雙語(yǔ)語(yǔ)料合并，作為翻譯模型訓(xùn)練集，訓(xùn)練所得系統(tǒng)；

2) HITS_TailN：將句對(duì)質(zhì)量排序Tail-N網(wǎng)站中的雙語(yǔ)句對(duì)和通用領(lǐng)域雙語(yǔ)語(yǔ)料合并，作為翻譯模型訓(xùn)練集，訓(xùn)練所得系統(tǒng)；

3) GHITS_TopN：將句對(duì)質(zhì)量排序Top-N網(wǎng)站中的雙語(yǔ)句對(duì)和通用領(lǐng)域雙語(yǔ)語(yǔ)料合并，作為翻譯模型訓(xùn)練集，訓(xùn)練所得系統(tǒng)；

4) TM_LM_Method：利用Liu等[7]所提雙語(yǔ)句對(duì)選擇方法，對(duì)6.1節(jié)所提教育領(lǐng)域雙語(yǔ)平行網(wǎng)站(數(shù)量為： 30)所包含的全部句對(duì)進(jìn)行排序，將排序Top-M的雙語(yǔ)句對(duì)和通用領(lǐng)域雙語(yǔ)語(yǔ)料合并，作為翻譯模型訓(xùn)練集，訓(xùn)練所得系統(tǒng)。

本文設(shè)置N=10,M=N×4k=40k(設(shè)定M為40k，以保證TM_LM_Method系統(tǒng)與其他系統(tǒng)的訓(xùn)練集規(guī)模一致)；利用基于HITS和GHITS的網(wǎng)頁(yè)挖掘優(yōu)化算法迭代時(shí)，設(shè)定參數(shù)ε=1.0×10-10作為迭代結(jié)束閾值。

? 評(píng)價(jià)標(biāo)準(zhǔn)

本文利用基于HITS的網(wǎng)頁(yè)挖掘優(yōu)化算法，對(duì)6.1節(jié)所提教育領(lǐng)域雙語(yǔ)平行網(wǎng)站進(jìn)行句對(duì)質(zhì)量排序，并將網(wǎng)站排序結(jié)果與2014年中國(guó)大學(xué)排行榜數(shù)據(jù)進(jìn)行對(duì)比，以驗(yàn)證HITS算法在評(píng)價(jià)網(wǎng)站領(lǐng)域權(quán)威性時(shí)的有效性。本文采用信息檢索中的NDCG值作為評(píng)價(jià)標(biāo)準(zhǔn)，具體闡述如下：

將2014年中國(guó)大學(xué)排行榜的排名結(jié)果作為理想排序，將Top1-6排序結(jié)果的相關(guān)度設(shè)為31(25-1)，Top7-12排序結(jié)果的相關(guān)度設(shè)為15(24-1)，Top13-18設(shè)為7(23-1)，Top19-24設(shè)為3(22-1)，Top25-30設(shè)為1(21-1)。在第r位的NDCG值NDCG@r的計(jì)算公式如式(10)所示。

(10)

其中，r(j)表示第j個(gè)文檔的相關(guān)性，Nr為歸一化參數(shù)，使得最優(yōu)排序的NDCG@r的值始終為1。本文采用BLEU-4[25]作為機(jī)器翻譯系統(tǒng)性能的評(píng)價(jià)標(biāo)準(zhǔn)，BLEU-4的計(jì)算如式(11)所示。

(11)

其中，output-length表示翻譯系統(tǒng)輸出結(jié)果的長(zhǎng)度，reference-length表示參考集中對(duì)應(yīng)句子的長(zhǎng)度，presicioni表示基于i元文法的準(zhǔn)確率。

6.2 結(jié)果分析

本文利用基于HITS的網(wǎng)頁(yè)挖掘優(yōu)化算法，對(duì)6.1節(jié)所提教育領(lǐng)域雙語(yǔ)平行網(wǎng)站(數(shù)量為： 30)進(jìn)行句對(duì)質(zhì)量排序，并將網(wǎng)站排序結(jié)果與2014年中國(guó)大學(xué)排行榜排名結(jié)果(30所大學(xué)的相對(duì)排名)進(jìn)行比較，如表4所示。

表4 排序比較

續(xù)表

本文采用信息檢索中的NDCG值評(píng)價(jià)兩排序結(jié)果的一致性，具體結(jié)果如圖6所示。

圖6 排序結(jié)果比較

由表6可得，基于HITS的網(wǎng)頁(yè)挖掘優(yōu)化算法對(duì)網(wǎng)站權(quán)威性的預(yù)測(cè)結(jié)果與真實(shí)數(shù)據(jù)之間具有一定程度的一致性(NDCG值均在80%以上，當(dāng)r值取30時(shí)，NDCG值最高為95%；當(dāng)r值取5時(shí)，NDCG值最低為83%)。但仍存在一定誤差，原因在于：基于HITS的優(yōu)化算法僅考慮網(wǎng)站之間的鏈接信息，而真實(shí)的大學(xué)排名則融合更多因素予以考慮。但本文所提基于HITS的優(yōu)化方法更具通用性，在很多其它領(lǐng)域(如：電子器件、環(huán)保領(lǐng)域等)，網(wǎng)站真實(shí)排名往往難以獲取，由此說(shuō)明本文所提基于HITS的網(wǎng)頁(yè)挖掘優(yōu)化方法在預(yù)測(cè)網(wǎng)站權(quán)威度時(shí)的有效性。

為驗(yàn)證本文所提“領(lǐng)域權(quán)威度高的網(wǎng)站蘊(yùn)含高質(zhì)量雙語(yǔ)句對(duì)”的假設(shè)，以及基于HITS和GHITS算法優(yōu)化的雙語(yǔ)句對(duì)挖掘方法的有效性，本文利用

挖掘所得高質(zhì)量領(lǐng)域雙語(yǔ)平行句對(duì)，擴(kuò)充機(jī)器翻譯系統(tǒng)訓(xùn)練集，構(gòu)建中到英的特定領(lǐng)域機(jī)器翻譯系統(tǒng)。并與Liu等[7]所提雙語(yǔ)句對(duì)選擇方法進(jìn)行對(duì)比。統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)在各測(cè)試集下未登錄詞數(shù)量統(tǒng)計(jì)如表5所示。

表5 機(jī)器翻譯未登錄詞數(shù)量統(tǒng)計(jì)

統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)在各測(cè)試集下的性能如下表6所示。

表6 機(jī)器翻譯系統(tǒng)性能

通過(guò)觀察表6數(shù)據(jù)，HITS_TopN在4個(gè)測(cè)試集中的平均BLEU值(20.41%)，較HITS_TailN(BLEU值為19.02%)提升個(gè)1.39個(gè)BLEU值；且由表5可知，翻譯系統(tǒng)的訓(xùn)練語(yǔ)料在4個(gè)測(cè)試集下覆蓋度大致相同(未登錄詞OOV的個(gè)數(shù)大體一致)，該數(shù)據(jù)現(xiàn)象表明，HITS_TopN系統(tǒng)BLEU值提升的原因在于語(yǔ)料的質(zhì)量，即領(lǐng)域權(quán)威度高的網(wǎng)站中所蘊(yùn)含的雙語(yǔ)句對(duì)，包含更多有效的領(lǐng)域翻譯知識(shí)和語(yǔ)言現(xiàn)象。由此，證明本文所提“領(lǐng)域權(quán)威度高的網(wǎng)站蘊(yùn)含高質(zhì)量句對(duì)”的假設(shè)。

另一方面，通過(guò)觀察表6數(shù)據(jù)，HITS_TopN在四個(gè)測(cè)試集的平均BLEU值(20.41%)，較Tm_Lm_Method提升0.44個(gè)BLEU值。且由表5可知，翻譯系統(tǒng)的訓(xùn)練語(yǔ)料在四個(gè)測(cè)試集下覆蓋度大致相同(未登錄詞OOV個(gè)數(shù)大體一致)，該數(shù)據(jù)現(xiàn)象表明，本文所提基于HITS網(wǎng)頁(yè)挖掘優(yōu)化算法與當(dāng)前基于句對(duì)內(nèi)部特征的雙語(yǔ)句對(duì)選擇方法相比，性能基本一致。但基于句對(duì)內(nèi)部特征的雙語(yǔ)句對(duì)選擇方法需抽取目標(biāo)領(lǐng)域網(wǎng)站集合中的全部句對(duì)，實(shí)現(xiàn)較為復(fù)雜；本文所提方法，實(shí)現(xiàn)簡(jiǎn)單效率，效率較高。從而，進(jìn)一步證明本文所提基于HITS算法方法雙語(yǔ)挖掘優(yōu)化方法的有效性。

最后，通過(guò)觀察表6數(shù)據(jù)，發(fā)現(xiàn)GHITS_TopN在四個(gè)測(cè)試集中的平均BLEU值，較HITS_TopN系統(tǒng)提升0.40個(gè)BLEU值，較Tm_Lm_Method提升0.84個(gè)BLEU值。且由表5可知，翻譯系統(tǒng)的訓(xùn)練語(yǔ)料在4個(gè)測(cè)試集下覆蓋度大致相同(未登錄詞OOV的個(gè)數(shù)大體一致)，該數(shù)據(jù)現(xiàn)象表明表6中，GHITS_TopN系統(tǒng)BLEU值提升的原因在于語(yǔ)料質(zhì)量。由此，驗(yàn)證本文所提基于GHITS的雙語(yǔ)句對(duì)挖掘優(yōu)化方法的有效性。

綜上所述，本文所提基于HITS算法的雙語(yǔ)挖掘優(yōu)化方法，從句對(duì)的來(lái)源(即特定領(lǐng)域雙語(yǔ)網(wǎng)站)出發(fā)，有效地利用網(wǎng)站之間的鏈接信息，判定句對(duì)的質(zhì)量。與基于文本特征的句對(duì)質(zhì)量評(píng)價(jià)方法相比，該方法無(wú)需抽取網(wǎng)站集合中蘊(yùn)含的所有雙語(yǔ)句對(duì)，實(shí)現(xiàn)簡(jiǎn)單，效率較高。權(quán)威性高的網(wǎng)站蘊(yùn)含的句對(duì)，其領(lǐng)域性和平行性均較好，因此本文所提方法可以有效地融合領(lǐng)域性和平行性用于評(píng)價(jià)句對(duì)的質(zhì)量。此外，本文所提方法適用于任何領(lǐng)域，具有很好的通用性。

7 總結(jié)與展望

本文針對(duì)特定領(lǐng)域雙語(yǔ)網(wǎng)站句對(duì)質(zhì)量不平衡的問(wèn)題，提出一種基于HITS算法優(yōu)化雙語(yǔ)網(wǎng)頁(yè)挖掘，并獲取高質(zhì)量雙語(yǔ)句對(duì)的方法。該方法通過(guò)網(wǎng)站之間的鏈接信息建立有向圖模型，利用HITS算法度量網(wǎng)站的權(quán)威性，在此基礎(chǔ)上，僅從權(quán)威性高的網(wǎng)站中抽取雙語(yǔ)句對(duì)，用于訓(xùn)練特定領(lǐng)域機(jī)器翻譯系統(tǒng)。

本文以教育領(lǐng)域?yàn)槟繕?biāo)，通過(guò)實(shí)驗(yàn)驗(yàn)證所提“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量句對(duì)” 的假設(shè)，且利用本文所提方法構(gòu)建的特定領(lǐng)域機(jī)器翻譯系統(tǒng)較對(duì)比系統(tǒng)，平均性能提升0.44個(gè)BLEU值，從而驗(yàn)證本文所提方法的有效性。針對(duì)HITS算法存在的“主題偏離”問(wèn)題，本文提出基于文本和鏈接信息相結(jié)合的GHITS改進(jìn)算法。實(shí)驗(yàn)中，基于GHITS算法的翻譯系統(tǒng)性能繼續(xù)提升0.40個(gè)BLEU值。

在未來(lái)工作中，將嘗試更多評(píng)價(jià)網(wǎng)站權(quán)威度的方法(如PageRank等)，并嘗試句對(duì)的文本信息和來(lái)源信息相結(jié)合，提出更有效的高質(zhì)量雙語(yǔ)句對(duì)挖掘方法。

[1] Resnik Philip. Parallel strands: A preliminary investigation into mining the web for bilingual text[M]. Springer Berlin Heidelberg: 1998.

[2] Chen Jiang, JianYun Nie. Automatic construction of parallel English-Chinese corpus for cross-language information retrieval[C]//Proceedings of the 6th conference on Applied natural language processing(ANLC). 2000: 21-28.

[3] Long Jiang, Shiquan Yang, Ming Zhou et al. Mining Bilingual Data from the Web with Adaptively Learnt Patterns[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP(ACL-IJCNLP). Suntec, Singapore, 2009, 2: 870-878.

[4] Rarrick, Spencer, Chris Quirk, et al. MT detection in web-scraped parallel corpora[C]//Rroceedings of The Thirteenth Machine Translation Summit(MT Summit XIII). Xiamen, China, 2011, 422-429.

[5] Arase, Yuki, Ming Zhou. Machine Translation Detection from Monolingual Web-Text[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(ACL). Sofia, Bulgaria, 2013: 1597-1607.

[6] Munteanu, Dragos Stefan, Daniel Marcu. Improving machine translation performance by exploiting non-parallel corpora[J]. Computational Linguistics, 2005, 31(4): 477-504.

[7] Le Liu, Yu Hong, Hao Liu. Effective Selection of Translation Model Training Data[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics(ACL). Baltimore, Maryland, USA, 2014, 569-573.

[8] 劉昊，洪宇，劉樂(lè)等. 基于全局搜索和局部分類(lèi)的特定領(lǐng)域雙語(yǔ)網(wǎng)站識(shí)別方法[C]//第二十屆全國(guó)信息檢索學(xué)術(shù)會(huì)議(CCIR). KunMing, China, 2014.

[9] Ma, Xiaoyi, and Mark Liberman. Bits: A method for bilingual text search over the web[C]//The eighth Machine Translation Summit(MT Summit VIII). 1999: 538-542.

[10] 葉莎妮，呂雅娟，黃赟等. 基于Web的雙語(yǔ)平行句對(duì)自動(dòng)抽取[J]. 中文信息學(xué)報(bào), 2008, 22(5): 67-73.

[11] 馮艷卉，洪宇，顏振祥，姚建民，朱巧明. 基于搜索引擎的雙語(yǔ)混合網(wǎng)頁(yè)識(shí)別新方法[J]. 中文信息學(xué)報(bào), 2011, 25(1): 71-78.

[12] Smith, Jason R., Chris Quirk, et al. Extracting parallel sentences from comparable corpora using document level alignment[C]//Proceedings of the Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics(NAACL). LOS ANGELES, USA, 2010, 403-411.

[13] Bharadwaj, Rohit G., and Vasudeva Varma. Language independent identification of parallel sentences using Wikipedia[C]//Proceedings of the 20th International Conference Companion on World Wide Web(WWW). Hyderabad, India. 2011, 11-12.

[14] Pavel Pecina, Vassilis Papavassiliou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation[C]//Proceedings of the 15th Conference of the European Association for Machine Translation. Leuven, Belgium, 2011, 297-304.

[15] 黃瑾，呂雅娟，劉群. 基于信息檢索方法的統(tǒng)計(jì)翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J]. 中文信息學(xué)報(bào), 2008, 22(2): 40-46.

[16] Keiji Yasuda, Ruiqiang Zhang, Hirofumi Yamamoto, et al. Method of selecting training data to build a compact and efficient translation model[C]//Proceedings of the International Joint Conference on Natural Language Processing(IJCNLP). Hyderabad, India, 2008: 655-660.

[17] Foster, George, Cyril Goutte, et al. Discriminative Instance Weighting for Domain Adaptation in Statistical Machine Translation[C]//Proceedings of the Empirical Methods in Natural Language Processing(EMNLP). Massachusetts, USA, 2010: 451-469

[18] Axelrod, Amittai, Xiaodong He, et al. Domain adaptation via pseudo in-domain data selection[C]//Proceedings of the 2011 Conference on Empirical Method in Natural Language Processing(EMNLP). Scotland, UK, 2011, 355-362.

[19] Kevin Duh, Graham Neubig, Katsuhito Sudoh,et al. Adaptation Data Selection using Neural Language Models: Experiment in Machine Translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(ACL).Sofia, Bulgaria, 2013, 678-683.

[20] Jon M. Kleinberg. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM (JACM), 1999, 46(5): 604-632.

[21] Brin, Sergey, and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine[J]. Computer networks and ISDN systems, 1998, 30(1): 107-117.

[22] 范聰賢, 徐汀榮, 范強(qiáng)賢. Web 結(jié)構(gòu)挖掘中 HITS 算法改進(jìn)的研究[J]. 微計(jì)算機(jī)信息, 2010 (3): 160-162.

[23] Franz Joset Cch, Hermann Ney. A systematic comparison of various statistical alignment models[J]. Computational Linguistics, 2003,29(1): 19-51.

[24] Och, Franz Josef. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics(ACL). Association for Computational Linguistics, 2003, 160-167.

[25] Kishore Papineni, Salim Roukos, Todd Ward, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics(ACL). Association for Computational Linguistics, 2002: 311-318.

HITS-Based Optimization Method for Bilingual Corpus Mining

LIU Hao, HONG Yu, Yao Liang, LIU Le, YAO Jianmin, ZHOU Guodong

(Provincial Key Laboratory of Computer Information Processing TechnologySoochow University, Suzhou, Jiangsu 215006, China)

Identifying and locating domain-specific bilingual websites is a crucial step for the Web-based bilingual resource construction. However, the quality of sentence pairs varies among different bilingual websites. In contrast to the existing method focusing only on the sentence internal features, we explore the sentence pairs' origin information for identifying and filtering the low-quality sentences pairs. We hypothesize that, if a website is authoritative in the target domain, it tends to contain more high-quality sentence pairs. Thus, we propose a HITS based optimization method for mining domain-specific bilingual sentence pairs. In this method, we first construct a directed-graph model based on the link-info among the websites. Secondly, we propose a HITS based method for evaluating the authority of websites. Finally, we only extract the sentence pairs from the authoritative websites, and use them to enlarge the training-set of our machine translation system. Experimented on the education domain, our system achieves improvements of 0.44% BLEU score compared with existing method. A further proposed GHITS method achieve additional improvements of 0.40% BLEU score.

statistical machine translation; specific-domain machine translation; specific-domain bilingual websites; authority; HITS

劉昊(1990—)，碩士研究生，主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯，自然語(yǔ)言處理。E?mail：liuhao19900412@gmail．com洪宇(1978—)，博士后，副教授，主要研究領(lǐng)域?yàn)樵掝}檢測(cè)、信息檢索和信息抽取。E?mail：tianxianer@gmail．com姚亮(1993—)，碩士研究生，主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯，自然語(yǔ)言處理。E?mail：yaoliang310@163．com

2015-02-04 定稿日期： 2015-05-10

國(guó)家自然科學(xué)基金(61373097, 61272259, 61272260, 90920004)；教育部博士學(xué)科點(diǎn)專(zhuān)項(xiàng)基金(2009321110006, 20103201110021)；江蘇省自然科學(xué)基金(BK2011282)；江蘇省高校自然科學(xué)基金重大項(xiàng)目(11KJA520003)；蘇州市自然科學(xué)基金(SH201212)

1003-0077(2017)02-0025-11

TP391

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于HITS算法的雙語(yǔ)句對(duì)挖掘優(yōu)化方法

1 引言

2 相關(guān)工作

3 HITS算法

4 結(jié)合HITS算法的雙語(yǔ)句對(duì)挖掘方法框架

5 基于HITS算法的雙語(yǔ)挖掘優(yōu)化方法

6 實(shí)驗(yàn)和結(jié)果分析

7 總結(jié)與展望