(1、2、3.湖北文理學(xué)院計(jì)算機(jī)工程學(xué)院,湖北 襄陽(yáng)441053)
雙語(yǔ)語(yǔ)料庫(kù)作為基礎(chǔ)資源,在機(jī)器翻譯、跨語(yǔ)言信息檢索、詞典編纂等領(lǐng)域起著重要作用[1,2]。雙語(yǔ)語(yǔ)料庫(kù)按照互譯程度的差異可分為平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。所謂可比語(yǔ)料就是主題相同或相關(guān)的語(yǔ)料,不要求互為翻譯對(duì)??杀日Z(yǔ)料庫(kù)根據(jù)對(duì)齊的程度分為語(yǔ)料庫(kù)級(jí)別和篇章級(jí)別。一些新聞網(wǎng)站,例如新華社,同時(shí)用多種語(yǔ)言發(fā)布新聞,一段時(shí)間內(nèi)這些網(wǎng)站發(fā)布的多語(yǔ)種新聞的集合可視為語(yǔ)料庫(kù)級(jí)別可比語(yǔ)料庫(kù),這種語(yǔ)料庫(kù)從整體上是可比的,但具體到單個(gè)篇章并未對(duì)齊。本文針對(duì)的是篇章對(duì)齊的語(yǔ)料庫(kù)。可比語(yǔ)料相對(duì)平行語(yǔ)料具有來(lái)源廣泛、領(lǐng)域覆蓋全面、內(nèi)容時(shí)效性強(qiáng)和易于獲取的優(yōu)勢(shì)。因此,近年來(lái)關(guān)于可比語(yǔ)料庫(kù)的研究日益增多。在語(yǔ)料庫(kù)的構(gòu)建方面,也從構(gòu)建平行語(yǔ)料庫(kù)逐步轉(zhuǎn)向了可比語(yǔ)料庫(kù)。在可比語(yǔ)料庫(kù)構(gòu)建方面,國(guó)內(nèi)外的相關(guān)研究也不少,例如,文獻(xiàn)[3]從瑞典新聞網(wǎng)站和美國(guó)新聞網(wǎng)站獲取語(yǔ)料,首次利用跨語(yǔ)言信息檢索方式構(gòu)建可比語(yǔ)料庫(kù);文獻(xiàn)[4]從新華網(wǎng)下載中英新聞?wù)Z料,同樣采用跨語(yǔ)言信息檢索方式進(jìn)行對(duì)齊;文獻(xiàn)[5]利用維基百科構(gòu)建可比語(yǔ)料庫(kù);文獻(xiàn)[6]從社交網(wǎng)站推特(Twitter)挖掘可比語(yǔ)料。這些研究有一個(gè)共同的特點(diǎn)就是基本采用離線的、一次性的方式構(gòu)建語(yǔ)料庫(kù),生成的語(yǔ)料庫(kù)的規(guī)模有限。文章嘗試在上述研究工作的基礎(chǔ)上設(shè)計(jì)了一種可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng),持續(xù)穩(wěn)定的生成可比語(yǔ)料,以構(gòu)建更大規(guī)模的可比語(yǔ)料庫(kù)。根據(jù)已有的研究,可比語(yǔ)料常見(jiàn)的來(lái)源有新聞、百科信息(如維基百科)以及社交網(wǎng)站(如推特)。語(yǔ)料庫(kù)在線構(gòu)建需要語(yǔ)料持續(xù)更新,易于獲取,因此新聞是最適合的對(duì)象。利用新聞具有時(shí)效性強(qiáng)的特點(diǎn),通過(guò)設(shè)置時(shí)間窗口,可以大大縮減潛在可比新聞對(duì)的搜索范圍,使得語(yǔ)料下載和文本對(duì)齊可以并行處理,使得在線構(gòu)建成為可能?;诖耍疚脑O(shè)計(jì)了一個(gè)中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)。該系統(tǒng)能夠在少量人工干預(yù)的情況下在線運(yùn)行,持續(xù)穩(wěn)定的生成可比語(yǔ)料,可構(gòu)建時(shí)間連續(xù)、大規(guī)模的新聞可比語(yǔ)料庫(kù)。
中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建過(guò)程如圖1所示。系統(tǒng)主要由兩大模塊組成:語(yǔ)料獲取模塊和文本對(duì)齊模塊。語(yǔ)料獲取模塊使用爬蟲監(jiān)測(cè)選定的中英文網(wǎng)站的新聞更新情況,并下載新聞網(wǎng)頁(yè),然后從網(wǎng)頁(yè)中抽取新聞文本及相關(guān)元素,最后存入生語(yǔ)料庫(kù)。文本對(duì)齊模塊從生語(yǔ)料庫(kù)中取出新聞,首先依據(jù)新聞的發(fā)布時(shí)間構(gòu)造候選新聞文本對(duì),然后對(duì)候選新聞文本對(duì)進(jìn)行分詞、去停用詞、抽取內(nèi)容詞等常規(guī)文本處理,隨后在在線詞典的支持下計(jì)算候選新聞文本對(duì)的可比度,保留高可比度的候選新聞文本對(duì),最后存入可比語(yǔ)料庫(kù)。
兩個(gè)功能模塊基本是并行處理的,只是在系統(tǒng)啟動(dòng)的初始階段,待語(yǔ)料獲取模塊收集到一定時(shí)間范圍內(nèi)(以天為單位)語(yǔ)料后,文本對(duì)齊模塊才能文本對(duì)齊和可比語(yǔ)料生成工作,此后兩個(gè)模塊可以實(shí)現(xiàn)并行工作。
圖1 中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建過(guò)程示意圖
系統(tǒng)最關(guān)鍵的步驟是計(jì)算可比度??杀榷扔糜诤饬侩p語(yǔ)文本對(duì)的可比性。鑒于語(yǔ)義的復(fù)雜性,可比度的計(jì)算沒(méi)有標(biāo)準(zhǔn)。從計(jì)算復(fù)雜度和效果綜合考慮,本系統(tǒng)選擇文獻(xiàn)[5]和[6]提出的基于詞匯重合度的可比度計(jì)算方法。
2.1.1 雙語(yǔ)新聞網(wǎng)頁(yè)下載
正確的選擇新聞網(wǎng)站和新聞?lì)愋蛯?duì)于系統(tǒng)的設(shè)計(jì)具有重要影響。本系統(tǒng)選擇從環(huán)球時(shí)報(bào)英文版網(wǎng)站(www.globaltimes.cn)的國(guó)際新聞板塊獲取英文新聞,從鳳凰網(wǎng)的國(guó)際新聞板塊獲取中文新聞,主要原因這兩個(gè)網(wǎng)站的列表頁(yè)結(jié)構(gòu)簡(jiǎn)單,直接采用靜態(tài)分頁(yè)而不是動(dòng)態(tài)加載的方式(如圖2所示),易于爬?。涣硗膺@些列表頁(yè)也包含新聞的發(fā)布時(shí)間,易于爬蟲監(jiān)控新聞的更新情況。相比其他類型的新聞,國(guó)際新聞?dòng)貌煌Z(yǔ)言發(fā)布的可能性更大。文章使用的爬蟲為Webmagic (http://webmagic.io/)。
圖2 鳳凰網(wǎng)和環(huán)球時(shí)報(bào)英文版的列表頁(yè)
2.1.2 新聞文本的抽取
通過(guò)Jsoup解析網(wǎng)頁(yè)結(jié)構(gòu),然后抽取新聞的相關(guān)信息,包括新聞標(biāo)題,發(fā)布時(shí)間,新聞來(lái)源,新聞?wù)?,如圖3、圖4所示:
圖3 中文新聞文本
圖4 英文新聞文本
2.2.1 候選文本對(duì)生成
新聞具有即時(shí)性的特點(diǎn),針對(duì)同一事件,不同語(yǔ)言的新聞發(fā)布時(shí)間應(yīng)該相差不大,根據(jù)這一特點(diǎn)可以大大縮小候選文本對(duì)的規(guī)模,還能提高對(duì)齊的準(zhǔn)確性。經(jīng)過(guò)測(cè)試,設(shè)置時(shí)間窗口為1天,即給定一篇源語(yǔ)言新聞文本,將發(fā)布日期三天內(nèi)的目標(biāo)新聞文本作為候選集,即前一天,當(dāng)天,后一天的目標(biāo)新聞文本。將源語(yǔ)言新聞文本與目標(biāo)語(yǔ)言新聞文本候選集的每一篇進(jìn)行配對(duì)即得到候選文本對(duì)。
2.2.2 候選文本對(duì)可比度計(jì)算
(1)文本分詞及去停用詞:首先,對(duì)候選文本對(duì)中的中文新聞文本和英文新聞文本分別采用中科院分詞軟件NLPIR和斯坦福大學(xué)的自然語(yǔ)言處理工具包CoreNLP進(jìn)行分詞和詞性標(biāo)注,然后,根據(jù)停用詞表,去掉停用詞。
(2)內(nèi)容詞提取:為了進(jìn)一步減少計(jì)算量,仿照文獻(xiàn)[7],對(duì)于去停用詞后的文本,只保留內(nèi)容詞,即名詞、動(dòng)詞、形容詞和副詞。
(3)詞匯翻譯:通過(guò)調(diào)用網(wǎng)易有道詞典API,將上一步得到的英文新聞文本詞匯和中文新聞文本分別進(jìn)行英譯漢和漢譯英。
(4)候選文本對(duì)可比度計(jì)算:基于詞匯重合度的可比度計(jì)算公式如下:
comparability(den,dcn)=
其中,binDC(den,dcn)=
binDC(dcn,den)=
trans(w,d)當(dāng)詞語(yǔ)w在文檔d中有對(duì)應(yīng)的翻譯等于1,否則等于0。
2.2.3 可比度閾值設(shè)定
通過(guò)設(shè)定可比度閾值過(guò)濾主題相似度不高的文本對(duì)。由于語(yǔ)義的復(fù)雜性,可比度閾值的設(shè)定沒(méi)有理論計(jì)算方法,通常通過(guò)人工抽樣判斷,而且文本對(duì)的主題相似度與可比度的計(jì)算值也不是簡(jiǎn)單的線性關(guān)系。通過(guò)隨機(jī)抽取200對(duì)文本對(duì)進(jìn)行人工判斷主題相似度,將可比度閾值設(shè)置為0.28,則得到的文本對(duì)中90%為主題相同或相關(guān)。
將所有可比度低于閾值0.28的文本對(duì)濾掉,剩下的文本對(duì)可以認(rèn)為是主題相關(guān)的,即可比的,文本對(duì)齊過(guò)程結(jié)束。
2.2.4 可比語(yǔ)料庫(kù)的存儲(chǔ)
對(duì)齊后的文本對(duì)的集合即為可比語(yǔ)料庫(kù),為了便于使用,通常將可比語(yǔ)料庫(kù)存儲(chǔ)到文件或者數(shù)據(jù)庫(kù)中。在存儲(chǔ)可比語(yǔ)料庫(kù)時(shí),為了方便以后的應(yīng)用,除了存儲(chǔ)英漢新聞文本對(duì)本身外,還將存儲(chǔ)新聞文本標(biāo)題、發(fā)布時(shí)間以及基于詞匯重合度的可比度計(jì)算值,示例如圖5所示。
圖5 可比新聞文本對(duì)示例
除了計(jì)算機(jī)故障、網(wǎng)絡(luò)故障等不可控因素外,影響系統(tǒng)連續(xù)在線運(yùn)行的因素主要是網(wǎng)站的改版,包括新聞目錄頁(yè)的改版和新聞內(nèi)容頁(yè)的改版,這將影響網(wǎng)頁(yè)的下載和內(nèi)容抽取。據(jù)觀察,網(wǎng)站一般并不會(huì)頻繁改版,即使改版,系統(tǒng)一般也只需要修改少量代碼即可重新運(yùn)行。
可比語(yǔ)料是一種用途廣泛的雙語(yǔ)資源??杀日Z(yǔ)料庫(kù)的構(gòu)建是一個(gè)研究熱點(diǎn),但如何連續(xù)漸進(jìn)構(gòu)建大規(guī)模的可比語(yǔ)料庫(kù)這方面的研究還不多見(jiàn)。文章在前人工作的基礎(chǔ)上,通過(guò)選擇合適的新聞網(wǎng)站,權(quán)衡各種可比度計(jì)算方法,設(shè)計(jì)了一個(gè)中英新聞可比語(yǔ)料庫(kù)在線構(gòu)建系統(tǒng)。系統(tǒng)的主體部分已經(jīng)開(kāi)發(fā)完成,測(cè)試結(jié)果表明,系統(tǒng)能夠在線生成中英新聞可比語(yǔ)料。