亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)的設(shè)計(jì)

2019-08-21 00:33:08

安順學(xué)院學(xué)報(bào) 2019年3期

(1、2、3.湖北文理學(xué)院計(jì)算機(jī)工程學(xué)院，湖北襄陽(yáng)441053)

雙語(yǔ)語(yǔ)料庫(kù)作為基礎(chǔ)資源，在機(jī)器翻譯、跨語(yǔ)言信息檢索、詞典編纂等領(lǐng)域起著重要作用[1,2]。雙語(yǔ)語(yǔ)料庫(kù)按照互譯程度的差異可分為平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。所謂可比語(yǔ)料就是主題相同或相關(guān)的語(yǔ)料，不要求互為翻譯對(duì)?？杀日Z(yǔ)料庫(kù)根據(jù)對(duì)齊的程度分為語(yǔ)料庫(kù)級(jí)別和篇章級(jí)別。一些新聞網(wǎng)站，例如新華社，同時(shí)用多種語(yǔ)言發(fā)布新聞，一段時(shí)間內(nèi)這些網(wǎng)站發(fā)布的多語(yǔ)種新聞的集合可視為語(yǔ)料庫(kù)級(jí)別可比語(yǔ)料庫(kù)，這種語(yǔ)料庫(kù)從整體上是可比的，但具體到單個(gè)篇章并未對(duì)齊。本文針對(duì)的是篇章對(duì)齊的語(yǔ)料庫(kù)。可比語(yǔ)料相對(duì)平行語(yǔ)料具有來(lái)源廣泛、領(lǐng)域覆蓋全面、內(nèi)容時(shí)效性強(qiáng)和易于獲取的優(yōu)勢(shì)。因此，近年來(lái)關(guān)于可比語(yǔ)料庫(kù)的研究日益增多。在語(yǔ)料庫(kù)的構(gòu)建方面，也從構(gòu)建平行語(yǔ)料庫(kù)逐步轉(zhuǎn)向了可比語(yǔ)料庫(kù)。在可比語(yǔ)料庫(kù)構(gòu)建方面，國(guó)內(nèi)外的相關(guān)研究也不少，例如，文獻(xiàn)[3]從瑞典新聞網(wǎng)站和美國(guó)新聞網(wǎng)站獲取語(yǔ)料，首次利用跨語(yǔ)言信息檢索方式構(gòu)建可比語(yǔ)料庫(kù)；文獻(xiàn)[4]從新華網(wǎng)下載中英新聞?wù)Z料，同樣采用跨語(yǔ)言信息檢索方式進(jìn)行對(duì)齊；文獻(xiàn)[5]利用維基百科構(gòu)建可比語(yǔ)料庫(kù)；文獻(xiàn)[6]從社交網(wǎng)站推特(Twitter)挖掘可比語(yǔ)料。這些研究有一個(gè)共同的特點(diǎn)就是基本采用離線的、一次性的方式構(gòu)建語(yǔ)料庫(kù)，生成的語(yǔ)料庫(kù)的規(guī)模有限。文章嘗試在上述研究工作的基礎(chǔ)上設(shè)計(jì)了一種可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)，持續(xù)穩(wěn)定的生成可比語(yǔ)料，以構(gòu)建更大規(guī)模的可比語(yǔ)料庫(kù)。根據(jù)已有的研究，可比語(yǔ)料常見(jiàn)的來(lái)源有新聞、百科信息(如維基百科)以及社交網(wǎng)站(如推特)。語(yǔ)料庫(kù)在線構(gòu)建需要語(yǔ)料持續(xù)更新，易于獲取，因此新聞是最適合的對(duì)象。利用新聞具有時(shí)效性強(qiáng)的特點(diǎn)，通過(guò)設(shè)置時(shí)間窗口，可以大大縮減潛在可比新聞對(duì)的搜索范圍，使得語(yǔ)料下載和文本對(duì)齊可以并行處理，使得在線構(gòu)建成為可能?；诖耍疚脑O(shè)計(jì)了一個(gè)中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)。該系統(tǒng)能夠在少量人工干預(yù)的情況下在線運(yùn)行，持續(xù)穩(wěn)定的生成可比語(yǔ)料，可構(gòu)建時(shí)間連續(xù)、大規(guī)模的新聞可比語(yǔ)料庫(kù)。

1 系統(tǒng)的總體設(shè)計(jì)

中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建過(guò)程如圖1所示。系統(tǒng)主要由兩大模塊組成：語(yǔ)料獲取模塊和文本對(duì)齊模塊。語(yǔ)料獲取模塊使用爬蟲監(jiān)測(cè)選定的中英文網(wǎng)站的新聞更新情況，并下載新聞網(wǎng)頁(yè)，然后從網(wǎng)頁(yè)中抽取新聞文本及相關(guān)元素，最后存入生語(yǔ)料庫(kù)。文本對(duì)齊模塊從生語(yǔ)料庫(kù)中取出新聞，首先依據(jù)新聞的發(fā)布時(shí)間構(gòu)造候選新聞文本對(duì)，然后對(duì)候選新聞文本對(duì)進(jìn)行分詞、去停用詞、抽取內(nèi)容詞等常規(guī)文本處理，隨后在在線詞典的支持下計(jì)算候選新聞文本對(duì)的可比度，保留高可比度的候選新聞文本對(duì)，最后存入可比語(yǔ)料庫(kù)。

兩個(gè)功能模塊基本是并行處理的，只是在系統(tǒng)啟動(dòng)的初始階段，待語(yǔ)料獲取模塊收集到一定時(shí)間范圍內(nèi)(以天為單位)語(yǔ)料后，文本對(duì)齊模塊才能文本對(duì)齊和可比語(yǔ)料生成工作，此后兩個(gè)模塊可以實(shí)現(xiàn)并行工作。

圖1 中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建過(guò)程示意圖

系統(tǒng)最關(guān)鍵的步驟是計(jì)算可比度?？杀榷扔糜诤饬侩p語(yǔ)文本對(duì)的可比性。鑒于語(yǔ)義的復(fù)雜性，可比度的計(jì)算沒(méi)有標(biāo)準(zhǔn)。從計(jì)算復(fù)雜度和效果綜合考慮，本系統(tǒng)選擇文獻(xiàn)[5]和[6]提出的基于詞匯重合度的可比度計(jì)算方法。

2 系統(tǒng)的詳細(xì)功能

2.1 語(yǔ)料獲取

2.1.1 雙語(yǔ)新聞網(wǎng)頁(yè)下載

正確的選擇新聞網(wǎng)站和新聞?lì)愋蛯?duì)于系統(tǒng)的設(shè)計(jì)具有重要影響。本系統(tǒng)選擇從環(huán)球時(shí)報(bào)英文版網(wǎng)站(www.globaltimes.cn)的國(guó)際新聞板塊獲取英文新聞，從鳳凰網(wǎng)的國(guó)際新聞板塊獲取中文新聞，主要原因這兩個(gè)網(wǎng)站的列表頁(yè)結(jié)構(gòu)簡(jiǎn)單，直接采用靜態(tài)分頁(yè)而不是動(dòng)態(tài)加載的方式(如圖2所示)，易于爬?。涣硗膺@些列表頁(yè)也包含新聞的發(fā)布時(shí)間，易于爬蟲監(jiān)控新聞的更新情況。相比其他類型的新聞，國(guó)際新聞?dòng)貌煌Z(yǔ)言發(fā)布的可能性更大。文章使用的爬蟲為Webmagic (http://webmagic.io/)。

圖2 鳳凰網(wǎng)和環(huán)球時(shí)報(bào)英文版的列表頁(yè)

2.1.2 新聞文本的抽取

通過(guò)Jsoup解析網(wǎng)頁(yè)結(jié)構(gòu)，然后抽取新聞的相關(guān)信息，包括新聞標(biāo)題，發(fā)布時(shí)間，新聞來(lái)源，新聞?wù)?，如圖3、圖4所示：

圖3 中文新聞文本

圖4 英文新聞文本

2.2 文本對(duì)齊

2.2.1 候選文本對(duì)生成

新聞具有即時(shí)性的特點(diǎn)，針對(duì)同一事件，不同語(yǔ)言的新聞發(fā)布時(shí)間應(yīng)該相差不大，根據(jù)這一特點(diǎn)可以大大縮小候選文本對(duì)的規(guī)模，還能提高對(duì)齊的準(zhǔn)確性。經(jīng)過(guò)測(cè)試，設(shè)置時(shí)間窗口為1天，即給定一篇源語(yǔ)言新聞文本，將發(fā)布日期三天內(nèi)的目標(biāo)新聞文本作為候選集，即前一天，當(dāng)天，后一天的目標(biāo)新聞文本。將源語(yǔ)言新聞文本與目標(biāo)語(yǔ)言新聞文本候選集的每一篇進(jìn)行配對(duì)即得到候選文本對(duì)。

2.2.2 候選文本對(duì)可比度計(jì)算

(1)文本分詞及去停用詞：首先，對(duì)候選文本對(duì)中的中文新聞文本和英文新聞文本分別采用中科院分詞軟件NLPIR和斯坦福大學(xué)的自然語(yǔ)言處理工具包CoreNLP進(jìn)行分詞和詞性標(biāo)注，然后，根據(jù)停用詞表，去掉停用詞。

(2)內(nèi)容詞提取：為了進(jìn)一步減少計(jì)算量，仿照文獻(xiàn)[7]，對(duì)于去停用詞后的文本，只保留內(nèi)容詞，即名詞、動(dòng)詞、形容詞和副詞。

(3)詞匯翻譯：通過(guò)調(diào)用網(wǎng)易有道詞典API，將上一步得到的英文新聞文本詞匯和中文新聞文本分別進(jìn)行英譯漢和漢譯英。

(4)候選文本對(duì)可比度計(jì)算：基于詞匯重合度的可比度計(jì)算公式如下：

comparability(den,dcn)=

其中，binDC(den,dcn)=

binDC(dcn,den)=

trans(w,d)當(dāng)詞語(yǔ)w在文檔d中有對(duì)應(yīng)的翻譯等于1，否則等于0。

2.2.3 可比度閾值設(shè)定

通過(guò)設(shè)定可比度閾值過(guò)濾主題相似度不高的文本對(duì)。由于語(yǔ)義的復(fù)雜性，可比度閾值的設(shè)定沒(méi)有理論計(jì)算方法，通常通過(guò)人工抽樣判斷，而且文本對(duì)的主題相似度與可比度的計(jì)算值也不是簡(jiǎn)單的線性關(guān)系。通過(guò)隨機(jī)抽取200對(duì)文本對(duì)進(jìn)行人工判斷主題相似度,將可比度閾值設(shè)置為0.28，則得到的文本對(duì)中90%為主題相同或相關(guān)。

將所有可比度低于閾值0.28的文本對(duì)濾掉，剩下的文本對(duì)可以認(rèn)為是主題相關(guān)的，即可比的，文本對(duì)齊過(guò)程結(jié)束。

2.2.4 可比語(yǔ)料庫(kù)的存儲(chǔ)

對(duì)齊后的文本對(duì)的集合即為可比語(yǔ)料庫(kù)，為了便于使用，通常將可比語(yǔ)料庫(kù)存儲(chǔ)到文件或者數(shù)據(jù)庫(kù)中。在存儲(chǔ)可比語(yǔ)料庫(kù)時(shí)，為了方便以后的應(yīng)用，除了存儲(chǔ)英漢新聞文本對(duì)本身外，還將存儲(chǔ)新聞文本標(biāo)題、發(fā)布時(shí)間以及基于詞匯重合度的可比度計(jì)算值，示例如圖5所示。

圖5 可比新聞文本對(duì)示例

2.3 影響系統(tǒng)連續(xù)在線運(yùn)行的因素

除了計(jì)算機(jī)故障、網(wǎng)絡(luò)故障等不可控因素外，影響系統(tǒng)連續(xù)在線運(yùn)行的因素主要是網(wǎng)站的改版，包括新聞目錄頁(yè)的改版和新聞內(nèi)容頁(yè)的改版，這將影響網(wǎng)頁(yè)的下載和內(nèi)容抽取。據(jù)觀察，網(wǎng)站一般并不會(huì)頻繁改版，即使改版，系統(tǒng)一般也只需要修改少量代碼即可重新運(yùn)行。

3 總結(jié)

可比語(yǔ)料是一種用途廣泛的雙語(yǔ)資源?？杀日Z(yǔ)料庫(kù)的構(gòu)建是一個(gè)研究熱點(diǎn)，但如何連續(xù)漸進(jìn)構(gòu)建大規(guī)模的可比語(yǔ)料庫(kù)這方面的研究還不多見(jiàn)。文章在前人工作的基礎(chǔ)上，通過(guò)選擇合適的新聞網(wǎng)站，權(quán)衡各種可比度計(jì)算方法，設(shè)計(jì)了一個(gè)中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)。系統(tǒng)的主體部分已經(jīng)開(kāi)發(fā)完成，測(cè)試結(jié)果表明，系統(tǒng)能夠在線生成中英新聞可比語(yǔ)料。