2000年以來我國(guó)多語言語料庫(kù)研究進(jìn)展

2016-05-14 05:41:08司莉何依

現(xiàn)代情報(bào) 2016年6期

關(guān)鍵詞：綜述

司莉何依

〔摘要〕語料庫(kù)是指根據(jù)一定的方法收集的自然出現(xiàn)語料構(gòu)成的電子數(shù)據(jù)庫(kù)。2000年以來我國(guó)對(duì)多語言語料庫(kù)的研究呈現(xiàn)快速上升的趨勢(shì)。在全面文獻(xiàn)調(diào)研的基礎(chǔ)上，本文對(duì)我國(guó)多語言語料庫(kù)的研究現(xiàn)狀進(jìn)行了歸納與梳理。國(guó)內(nèi)學(xué)者對(duì)多語言語料庫(kù)的研究多集中于語言學(xué)領(lǐng)域，其次是計(jì)算機(jī)領(lǐng)域。研究主題主要分布在多語言語料庫(kù)的關(guān)鍵技術(shù)研究、多語言語料庫(kù)的應(yīng)用研究?jī)纱蠓矫妗?/p>

〔關(guān)鍵詞〕多語言語料庫(kù)；跨語言語料庫(kù)；平行語料庫(kù)；可比語料庫(kù)；綜述

〔中圖分類號(hào)〕G252.8 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821（2016）06-0165-06

〔Abstract〕Corpus is an electronic database which is composed of the natural corpus collected accordingto a certain method.Since 2000，the research on multilingual corpora in China presented a rapid upward trend.Based on a comprehensive literature research，this paper summarized the current research situation of multilingual corpora in our country.The researches on multilingual corpus were mostly concentrated in the field of linguistics，followed by the computer field.Research topics were mainly distributed in two parts：the key technologies of multilingual corpora and the application multilingual corpora.

〔Key words〕multilingual corpora；cross-language corpora；parallel corpora；comparable corpora；review

語料庫(kù)是指根據(jù)一定的方法收集的自然出現(xiàn)語料構(gòu)成的電子數(shù)據(jù)庫(kù)[1]。按語種劃分可分為單語言、雙語言和多語言語料庫(kù)，后兩者根據(jù)語料的組織形式又可以分為平行語料庫(kù)和可比語料庫(kù)。平行語料庫(kù)，又稱對(duì)齊語料庫(kù)，是由原文本和對(duì)應(yīng)的翻譯文本構(gòu)成的語料庫(kù)，語言之間是完全對(duì)等的、互譯的，是譯文關(guān)系，多用于機(jī)器學(xué)習(xí)、雙語詞典；而可比語料庫(kù)，又稱類比語料庫(kù)，是表述相同主題的多種語言文本的集合，源語言和目標(biāo)語言沒有嚴(yán)格的翻譯關(guān)系，多用于語言對(duì)比研究，比如針對(duì)同一事件不同語言的新聞報(bào)道的集合等。

自20世紀(jì)90年代初世界上第一個(gè)多語言語料庫(kù)“加拿大議會(huì)會(huì)議錄英法平行語料庫(kù)”在加拿大建成以來[2]，國(guó)內(nèi)外出現(xiàn)了一些多語言語料庫(kù)，如廈門大學(xué)海外教育學(xué)院主持開發(fā)的英漢雙語平行語料庫(kù)（廈大E-C Corpus）[3]、北京大學(xué)中國(guó)語言學(xué)研究中心開發(fā)的漢英雙語語料庫(kù)[4]、北京外國(guó)語大學(xué)日本研究中心研制的中日對(duì)譯語料庫(kù)[5]、香港理工大學(xué)研制的雙語旅游語料庫(kù)、上海交通大學(xué)的科技英語可比語料庫(kù)（JDEST）、紹興文理學(xué)院創(chuàng)建的《紅樓夢(mèng)》漢英平行語料庫(kù)[6]等。國(guó)內(nèi)學(xué)者對(duì)多語言語料庫(kù)的研究以雙語平行語料庫(kù)為主，涉及3種及3種以上語種的語料庫(kù)較少。據(jù)筆者統(tǒng)計(jì)，英漢語料庫(kù)的研究文獻(xiàn)（包括學(xué)術(shù)論文、學(xué)位論文、會(huì)議論文）占總文獻(xiàn)的55.9%。語料庫(kù)的語種以英漢語為主，其次是維漢語，另外還包括俄語、日語、法語、藏語等與漢語的結(jié)合。本文研究的多語言語料庫(kù)包括兩種及兩種以上語言的語料庫(kù)。

1 我國(guó)多語言語料庫(kù)研究數(shù)量分布

筆者選取CNKI、重慶維普、萬方數(shù)據(jù)庫(kù)為數(shù)據(jù)源，以“跨語言語料庫(kù)”或“雙語語料庫(kù)”或“多語言語料庫(kù)”或“平行語料庫(kù)”或“對(duì)齊語料庫(kù)”或“類比語料庫(kù)”或“可比語料庫(kù)”為關(guān)鍵詞，對(duì)期刊論文、會(huì)議論文與學(xué)位論文進(jìn)行檢索，經(jīng)篩選得到999篇與“多語言語料庫(kù)”主題相關(guān)的論文，其中學(xué)術(shù)論文628篇、會(huì)議論文51篇、學(xué)位論文320篇。具體學(xué)術(shù)論文數(shù)量的年代分布分別如表1和圖1所示。

從圖1可以看出，2000年以來我國(guó)對(duì)多語言語料庫(kù)的研究基本呈快速上升的趨勢(shì)。筆者將其分為3個(gè)階段，第一階段為萌芽時(shí)期（2000-2004年），這一階段的發(fā)文量較少，年均發(fā)文量3.6篇；第二階段為初步發(fā)展時(shí)期（2005-2009年），發(fā)文數(shù)量有所增長(zhǎng)，但增幅較慢，年均發(fā)文37.8篇；第三階段為快速發(fā)展階段（2010年至今），發(fā)文量大幅提升，共發(fā)文792篇，占總文獻(xiàn)量的79.2%，年均發(fā)文132篇?？梢?，多語言語料庫(kù)的研究已引起學(xué)界足夠的重視，成為領(lǐng)域研究熱點(diǎn)。

2 我國(guó)多語言語料庫(kù)研究的主題分布

除了檢索各種學(xué)術(shù)論文外，筆者還以“語料庫(kù)”為主題詞對(duì)國(guó)家圖書館館藏書籍進(jìn)行檢索，篩選出32種多語言語料庫(kù)相關(guān)的圖書，數(shù)據(jù)采集時(shí)間為2015年11月5日。通過對(duì)研究成果的深入研讀與歸類統(tǒng)計(jì)，得出關(guān)于我國(guó)多語言語料庫(kù)研究主要集中在多語言語料庫(kù)關(guān)鍵技術(shù)和多語言語料庫(kù)應(yīng)用兩大方面。

2.1 關(guān)于多語言語料庫(kù)構(gòu)建的關(guān)鍵技術(shù)研究

研究者提出的構(gòu)建多語言語料庫(kù)的關(guān)鍵技術(shù)主要有3種，分別是語料資源的獲取技術(shù)、對(duì)齊技術(shù)、術(shù)語抽取技術(shù)。此外，還有文本分類技術(shù)、去重技術(shù)和句子邊界識(shí)別技術(shù)。

2.1.1 語料資源（網(wǎng)頁(yè)）的獲取技術(shù)研究

（1）平行網(wǎng)頁(yè)獲取技術(shù)研究

平行網(wǎng)頁(yè)是指存在于兩個(gè)不同的網(wǎng)頁(yè)中的、相互翻譯的兩種語言的網(wǎng)頁(yè)對(duì)，如武漢大學(xué)官網(wǎng)的中英文版本網(wǎng)址分別是URL：http：∥www.whu.edu.cn和http：∥en.whu.edu.cn。其網(wǎng)頁(yè)中包含的高質(zhì)量雙語語料是平行語料庫(kù)的構(gòu)建的重要來源，常用URL命名規(guī)律或HTML結(jié)構(gòu)信息來發(fā)現(xiàn)平行網(wǎng)頁(yè)。熊文新對(duì)“中外對(duì)話”環(huán)保網(wǎng)站的中英文文本的存放、文件的命名方式及頁(yè)面的構(gòu)成規(guī)律進(jìn)行分析，并構(gòu)建雙語平行語料庫(kù)[7]；徐春通過一定的網(wǎng)頁(yè)分析算法預(yù)測(cè)候選URL與目標(biāo)網(wǎng)頁(yè)的相似度或與主題的相關(guān)性，從而抓取平行網(wǎng)頁(yè)[8]；姜子進(jìn)等根據(jù)HTML特征建立HTML樹，以HTML樹結(jié)構(gòu)來識(shí)別網(wǎng)頁(yè)正文內(nèi)容的特征，然后根據(jù)正文內(nèi)容信息相似性提取網(wǎng)頁(yè)[9]；莫源源等根據(jù)網(wǎng)頁(yè)內(nèi)容及候選網(wǎng)頁(yè)對(duì)間余弦相似度等特征和最大熵模型訓(xùn)練的分類器對(duì)平行網(wǎng)頁(yè)進(jìn)行識(shí)別，以獲取柬英（柬埔寨語與英語）平行網(wǎng)頁(yè)[10]；劉奇等先利用HTML結(jié)構(gòu)實(shí)現(xiàn)平行網(wǎng)頁(yè)的遞歸訪問，再使用URL模式優(yōu)化遍歷平行網(wǎng)站的拓?fù)漤樞騺慝@得平行網(wǎng)頁(yè)[11]。

（2）混合網(wǎng)頁(yè)獲取技術(shù)研究

混合網(wǎng)頁(yè)是指互為翻譯的文本存在同一個(gè)網(wǎng)頁(yè)內(nèi)，即網(wǎng)頁(yè)中既有源語言，又有目標(biāo)語言。要獲取混合網(wǎng)頁(yè)，就要先檢測(cè)網(wǎng)頁(yè)是否含有所需要語種的正文文本。王琳琳分別使用基于Unicode字符編碼分布和N-Gram的語種識(shí)別兩種方法進(jìn)行句子的語種識(shí)別，并進(jìn)行對(duì)比實(shí)驗(yàn)，以發(fā)現(xiàn)混合網(wǎng)頁(yè)[12]。

2.1.2 對(duì)齊技術(shù)與方法研究

對(duì)齊是指從互譯的語言文本中找到其互譯片段的過程，根據(jù)對(duì)齊粒度的大小可以分為篇章、段落、句子、短語、詞等多個(gè)層次。國(guó)內(nèi)學(xué)者對(duì)對(duì)齊技術(shù)與方法的研究主要集中在詞對(duì)齊和句子對(duì)齊兩方面。

（1）詞對(duì)齊方法研究

張亞軍等基于統(tǒng)計(jì)方法依次使用IBM模型1、IBM模型2構(gòu)建出一個(gè)詞對(duì)齊系統(tǒng)[13]。劉鵬遠(yuǎn)等基于HowNet以及WordNet進(jìn)行相似度計(jì)算，然后設(shè)定相似度閾值來進(jìn)行詞義過濾，以改進(jìn)詞對(duì)齊技術(shù)中的錯(cuò)誤累計(jì)問題[14]。陳亮提出基于語言模型的多詞對(duì)齊算法，解決詞對(duì)齊過程中存在的一對(duì)多和多對(duì)多的對(duì)齊問題[15]。

（2）句子對(duì)齊方法研究

張艷與柏岡秀紀(jì)提出了以基于長(zhǎng)度的統(tǒng)計(jì)對(duì)齊方法為主，以基于標(biāo)點(diǎn)的方法作為對(duì)齊的后處理部分的漢英句子對(duì)齊的擴(kuò)展方法[16]；于新等針對(duì)藏文語言的特殊性提出了基于詞典的漢藏句子對(duì)齊算法[17]；塞麥提·麥麥提敏等將詞匯信息和長(zhǎng)度信息相結(jié)合，識(shí)別出錨點(diǎn)句對(duì)，并將其作為分割標(biāo)志對(duì)全文進(jìn)行分段，進(jìn)而實(shí)現(xiàn)各片段內(nèi)的句子對(duì)齊[18]；才藏太提出了一種藏文句子的邊界識(shí)別方法，即利用特殊規(guī)則和詞表對(duì)藏文句子進(jìn)行識(shí)別，然后利用最大熵模型對(duì)有歧義的句子進(jìn)一步識(shí)別[19]；劉智穎建立了句子級(jí)語義標(biāo)注語料庫(kù)，探討句子級(jí)語義標(biāo)注語料庫(kù)的標(biāo)注內(nèi)容、標(biāo)注方法和標(biāo)注難點(diǎn)[20]。

此外，李康熙從語言學(xué)角度出發(fā)，重點(diǎn)結(jié)合象征單位和翻譯單位等概念探討了雙語對(duì)齊中存在的問題[21]；趙蓮提出了基于跨語言信息檢索與特征過濾相融合的方法來建立源語言文檔與目標(biāo)語言文檔間的對(duì)應(yīng)關(guān)系，以確?？杀容^語料庫(kù)的對(duì)齊質(zhì)量[22]。

2.1.3 對(duì)應(yīng)單位抽取技術(shù)研究

對(duì)應(yīng)單位是指源語言和目標(biāo)語言文本中任何可以識(shí)別的相互對(duì)應(yīng)的語塊或者片段，在部分文獻(xiàn)中又稱為翻譯對(duì)、互譯對(duì)，可用于雙語詞典編纂和統(tǒng)計(jì)機(jī)器翻譯。梁銘對(duì)雙語語料中的名詞和短語進(jìn)行統(tǒng)計(jì)并生成候選術(shù)語集，使用翻譯概率計(jì)算公式計(jì)算每個(gè)英文候選術(shù)語與相關(guān)的中文間的翻譯概率，并通過設(shè)定隨詞頻變化的閾值以及貪心算法來選取中文翻譯[23]；任高舉等提出了一種改進(jìn)的短語抽取算法，先考慮詞對(duì)齊矩陣中一個(gè)漢語與多個(gè)維吾爾語詞的對(duì)齊情況，然后利用Och的短語抽取算法抽取短語對(duì)，最后考慮維吾爾語SOV語序（即主語+賓語+謂語語序）結(jié)構(gòu)特點(diǎn)，抽取雙語短語[24]；唐亮等提出基于多策略過濾方法，即先從一種語言中抽取多詞短語，然后通過一系列過濾措施得到質(zhì)量較高的單語言多詞短語，最后通過相似度計(jì)算抽取并整合翻譯對(duì)[25]；劉穎等用正則期望從漢語專利語料庫(kù)中抽取并過濾漢語短語，利用詞對(duì)齊工具Giza++和Moses從漢英平行語料庫(kù)中抽取漢英短語，根據(jù)二者的交集得到翻譯對(duì)[26]；嚴(yán)燦勛等基于C#正則表達(dá)式的英漢翻譯對(duì)抽取方法，從機(jī)讀電子詞典、含英漢翻譯對(duì)的網(wǎng)頁(yè)等資料中提取有固定模式的翻譯對(duì)[27]；徐會(huì)芳從可比較語料庫(kù)中分別抽取中、英文多詞術(shù)語，再使用最小化樣本風(fēng)險(xiǎn)算法來調(diào)節(jié)特征權(quán)重，得到術(shù)語匹配對(duì)，并使用閾值限定法過濾正確的術(shù)語對(duì)[28]。

2.1.4 其他技術(shù)研究

其他技術(shù)研究涉及文本分類與去重技術(shù)。熊超等通過考慮雙語平行語料文檔與文檔、文檔與詞和詞與詞之間的語義對(duì)應(yīng)關(guān)系，提取原始文檔的潛在語義對(duì)，構(gòu)建潛在語義對(duì)偶空間，把雙語文檔映射到此概念空間后，實(shí)現(xiàn)跨語言文本分類[29]。申文明等利用整體相似因子和局部相似因子計(jì)算句子的相似度，并借鑒KMP算法的匹配思想，提出中文字符串匹配的類KMP算法，以實(shí)現(xiàn)平行語料庫(kù)中形似句子的去重[30]。

2.2 關(guān)于多語言語料庫(kù)應(yīng)用的研究

多語言語料庫(kù)常被用于翻譯、詞典構(gòu)建、機(jī)器翻譯、多語信息平臺(tái)構(gòu)建和跨語言信息檢索中。

2.2.1 在翻譯中的應(yīng)用研究

（1）應(yīng)用于翻譯共性研究

翻譯共性是指譯文中呈現(xiàn)的有別于原文的一些典型的、跨語言的、有一定普遍性的特征[31]。研究集中在翻譯的顯化、隱化、簡(jiǎn)化和范化等方面。董敏與馮德正基于自建的平行語料庫(kù)，檢索與漢語對(duì)應(yīng)的英文邏輯連接詞，進(jìn)而分析英漢翻譯邏輯關(guān)系顯化策略的動(dòng)因[32]；黃立波基于雙語平行語料，對(duì)漢英和英漢翻譯中連接成分和人稱代詞主語的轉(zhuǎn)換進(jìn)行考察，以發(fā)現(xiàn)語言形式手段差異與翻譯中顯化和隱化的關(guān)系[33]；武光軍以漢英類比語料庫(kù)作為實(shí)證研究平臺(tái)，以搭配作為研究對(duì)象，分別分析了翻譯漢語、英語文本的整體搭配特征，以加深對(duì)翻譯共性的認(rèn)識(shí)[34]。

（2）應(yīng)用于詞匯及古籍翻譯

借助領(lǐng)域多語言語料庫(kù)對(duì)具體詞的用法進(jìn)行分析和研究，能夠?qū)ψg名進(jìn)行統(tǒng)一與規(guī)范，獲得作品、短語的最佳翻譯方式。易焱與王克非基于英漢、漢英雙向平行語料庫(kù)對(duì)現(xiàn)代漢語人稱代詞“大家”和它在英語中的對(duì)應(yīng)項(xiàng)進(jìn)行分析，以加強(qiáng)對(duì)人稱代詞在翻譯語言中使用規(guī)律的認(rèn)識(shí)[35]；王子穎利用中國(guó)大陸和香港法律法規(guī)漢英平行語料庫(kù)，研究了shall和may兩個(gè)情態(tài)動(dòng)詞在肯定和否定形式下的不同用法[36]；胥逸萌選取5年的《政府工作報(bào)告》建立了一個(gè)小型雙語平行語料庫(kù)，研究報(bào)告的翻譯團(tuán)隊(duì)對(duì)“推進(jìn)”一詞的用法[37]；劉克強(qiáng)基于自建的《儒林外史》漢英句對(duì)齊平行語料庫(kù)，對(duì)該書中服飾、習(xí)俗、戲曲等方面的翻譯進(jìn)行分析[38]。

（3）應(yīng)用于譯者風(fēng)格研究

通過語料對(duì)比分析，可以考察譯者在傳承原作風(fēng)格之外的自我顯現(xiàn)。劉澤權(quán)利用語料庫(kù)檢索軟件將《紅樓夢(mèng)》的4個(gè)英譯本在詞匯和句子層面的基本特征進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和初步的量化分析，比較其在翻譯風(fēng)格上的異同[39]；宋偉華通過自建的《六祖壇經(jīng)》漢英平行語料庫(kù)對(duì)該部典籍最早的兩個(gè)英譯本進(jìn)行分析，探討導(dǎo)致兩個(gè)譯本方式不同的因素[40]；盧曉娟根據(jù)魯迅小說的3位不同譯者的英譯本建立語料庫(kù)，從譯者所運(yùn)用的翻譯策略、翻譯風(fēng)格等角度，探討影響譯者風(fēng)格形成的因素[41]。

（4）應(yīng)用于翻譯教學(xué)

多語言語料庫(kù)可以為教學(xué)翻譯提供句子及篇章級(jí)的英漢對(duì)譯，提高課堂教學(xué)效果。香港城市大學(xué)開發(fā)了“英漢漢英翻譯遠(yuǎn)程教學(xué)系統(tǒng)”，以篇章語言學(xué)、系統(tǒng)功能語言學(xué)、文體學(xué)和話語研究等為理論支撐，對(duì)語料進(jìn)行手工標(biāo)注[42]。賀文照使用平行語料庫(kù)和詞典等常規(guī)參考資源作為實(shí)驗(yàn)組和對(duì)照組進(jìn)行實(shí)證研究，發(fā)現(xiàn)平行語料庫(kù)能提高翻譯的工作效率和質(zhì)量[43]；蔣麗平以某IT學(xué)院大三的軟件開發(fā)專業(yè)學(xué)生為實(shí)驗(yàn)對(duì)象，來驗(yàn)證IT英漢平行語料庫(kù)在輔助翻譯的質(zhì)量和效率[44]。熊兵研究了英漢雙語平行語料庫(kù)的翻譯教學(xué)模式，并重點(diǎn)分析翻譯教學(xué)模式的教學(xué)內(nèi)容編排、實(shí)施原則及操作方式等問題[45]。

2.2.2 在雙語詞典構(gòu)建中的應(yīng)用研究

多語言語料庫(kù)的建立方便了詞典編撰，如《新時(shí)代英漢大詞典》是我國(guó)國(guó)內(nèi)借用現(xiàn)代語料庫(kù)研編大中型英漢詞典的開山之作[46]。曾文等在實(shí)現(xiàn)漢英句子級(jí)對(duì)齊后，對(duì)雙語語料分別進(jìn)行分詞和詞性標(biāo)注處理，通過抽取漢英詞語單元并計(jì)算其關(guān)聯(lián)概率來實(shí)現(xiàn)漢英的詞語對(duì)齊，生成雙語詞典[47]。吳玥在可比語料庫(kù)雙語詞表構(gòu)建的基礎(chǔ)上，提出了基于依存上下文來構(gòu)建中-英詞表的方法[48]。安紀(jì)霞等以對(duì)數(shù)相似性模型為基礎(chǔ)，采用迭代策略實(shí)現(xiàn)了翻譯詞典獲取，并在自建的小型英漢平行語料庫(kù)《測(cè)試語料》上進(jìn)行了相應(yīng)的試驗(yàn)[49]。李德俊探討了基于語料庫(kù)的詞典編纂系統(tǒng)的方法[50]。劉克強(qiáng)以《水滸傳》4個(gè)英語全譯本為對(duì)象，在建立平行語料庫(kù)基礎(chǔ)上編寫了《水滸傳翻譯大辭典》[51]。

2.2.3 在機(jī)器翻譯中的應(yīng)用研究

平行語料是機(jī)器翻譯模型不可缺少的訓(xùn)練數(shù)據(jù)，機(jī)器翻譯系統(tǒng)能從語料庫(kù)中自動(dòng)提取與待翻譯語句相同或相近的例句，并模仿例句自動(dòng)生成譯文。黃瑾在已有的雙語平行語料庫(kù)中選出與待翻譯文本相似的數(shù)據(jù)構(gòu)造自適應(yīng)的訓(xùn)練語料，再通過加權(quán)調(diào)整已有資源的數(shù)據(jù)分布，在不增加大數(shù)據(jù)規(guī)模的基礎(chǔ)上生成更為優(yōu)化的模型參數(shù)，以提高機(jī)器翻譯的質(zhì)量[52]。劉粵鉗與姚紅玉用《人民日?qǐng)?bào)》中、法文網(wǎng)絡(luò)版的部分文章建立一個(gè)小型的漢法平行語料庫(kù)，然后利用改進(jìn)的Yamada算法構(gòu)建了一個(gè)漢法機(jī)器翻譯系統(tǒng)[53]。李梅等針對(duì)機(jī)器翻譯時(shí)出現(xiàn)的典型性錯(cuò)誤，進(jìn)行二次加工，即做譯后編輯的自動(dòng)化處理以過濾這些典型性錯(cuò)誤，從而加快機(jī)譯速度并提高機(jī)譯質(zhì)量[54]。

2.2.4 在信息服務(wù)平臺(tái)構(gòu)建中的應(yīng)用研究

王傳英利用雙語平行語料庫(kù)二次開發(fā)圖書館公共信息服務(wù)平臺(tái)，以解決讀者利用文獻(xiàn)時(shí)語言障礙問題，并輔助讀者閱讀、寫作[55]。趙衍以中英文平行語料庫(kù)為基礎(chǔ)，設(shè)計(jì)了一種跨語種的Web產(chǎn)品評(píng)論挖掘系統(tǒng)，并將其應(yīng)用于高爾夫轎車的產(chǎn)品性能挖掘[56]。納吉米設(shè)計(jì)與實(shí)現(xiàn)了漢維哈平行語料庫(kù)系統(tǒng)的文檔導(dǎo)入及對(duì)齊功能，以構(gòu)建面向電力行業(yè)信息系統(tǒng)的漢維哈自動(dòng)翻譯引擎[57]。

2.2.5 在跨語言信息檢索中的應(yīng)用研究

多語言語料庫(kù)是跨語言信息處理的重要資源。房璐等從多語言語料庫(kù)中抽取翻譯知識(shí)，并應(yīng)用于跨語言信息檢索系統(tǒng)的查詢翻譯中，以改善跨語言信息檢索的性能[58]。羅遠(yuǎn)勝等基于雙語平行語料庫(kù)中兩種語言的潛在語義空間，提出雙語偏最小二乘雙語主題相關(guān)模型，以克服跨語言潛在語義索引模型中存在的不足[59]。鄒小芳等基于自建的中英平行語料庫(kù)和蒙特利爾大學(xué)的英法平行語料庫(kù)，對(duì)平行文檔進(jìn)行分析建模，提取語言之間的潛在語義對(duì)應(yīng)關(guān)系，在潛在中間語義空間中進(jìn)行檢索[60]。胡小鵬等利用n-元詞串、關(guān)鍵詞簇等自動(dòng)抽取技術(shù)挖掘三元組可比語料庫(kù)中本族語言模型的雙語資源，改進(jìn)和發(fā)展跨語言處理應(yīng)用[61]。

3 總結(jié)

2000年我國(guó)研究者開始關(guān)注多語言語料庫(kù)，15年來其研究熱度持續(xù)上升。本文在大量的文獻(xiàn)調(diào)研基礎(chǔ)上，對(duì)我國(guó)多語言語料庫(kù)的研究進(jìn)展進(jìn)行了分析。在學(xué)科領(lǐng)域上，語言學(xué)領(lǐng)域?qū)Χ嗾Z言語料庫(kù)的研究最多，其次是計(jì)算機(jī)領(lǐng)域。具體來說，語言學(xué)領(lǐng)域主要是利用多語言語料庫(kù)來研究語言翻譯問題，即探討基于語料庫(kù)的特定領(lǐng)域、不同語種之間的翻譯以及翻譯教學(xué)研究，部分語言學(xué)學(xué)者會(huì)自行構(gòu)建小型多語言語料庫(kù)來輔助研究。計(jì)算機(jī)科學(xué)與圖書情報(bào)領(lǐng)域則更多的聚集多語言語料庫(kù)的關(guān)鍵技術(shù)方面，包括針對(duì)語料庫(kù)中某個(gè)技術(shù)的實(shí)現(xiàn)提出具體的解決方案、新的算法以及多語言語料庫(kù)的應(yīng)用問題等。

通過對(duì)文獻(xiàn)的主題分析發(fā)現(xiàn)，我國(guó)對(duì)多語言語料庫(kù)的研究大致可以分為兩大塊，一是多語言語料庫(kù)關(guān)鍵技術(shù)的研究；二是多語言語料庫(kù)應(yīng)用研究。在構(gòu)建多語言語料庫(kù)的過程中，研究得最多的技術(shù)是網(wǎng)頁(yè)獲取技術(shù)、對(duì)齊技術(shù)和術(shù)語抽取技術(shù)。網(wǎng)頁(yè)獲取技術(shù)是多語言語料庫(kù)的語料來源，是構(gòu)建多語言語料庫(kù)的基礎(chǔ)；對(duì)齊技術(shù)、術(shù)語抽取技術(shù)可廣泛應(yīng)用于多語詞典、不同語種的同義詞詞表和機(jī)器翻譯中，但是術(shù)語抽取技術(shù)對(duì)多語言語料庫(kù)的數(shù)量、質(zhì)量、精確度要求較高。多語言語料庫(kù)的應(yīng)用以翻譯、詞典構(gòu)建、機(jī)器翻譯為研究熱點(diǎn)。在未來，要加強(qiáng)多語言語料庫(kù)的評(píng)價(jià)研究，提出定量和定性的評(píng)價(jià)指標(biāo)，以提高語料庫(kù)的構(gòu)建質(zhì)量。此外，豐富的網(wǎng)絡(luò)信息資源已為可比語料庫(kù)的發(fā)展提供了契機(jī)，通過爬蟲工具可以從互聯(lián)網(wǎng)上獲得大量的可比較文本，未來還應(yīng)加強(qiáng)對(duì)可比語料庫(kù)關(guān)鍵技術(shù)、構(gòu)建方法的研究。

參考文獻(xiàn)

[1]胡開寶.語料庫(kù)翻譯學(xué)概論[M].上海：上海交通大學(xué)出版社，2011.

[2]王克非，黃立波.國(guó)外雙語庫(kù)研制與應(yīng)用評(píng)析[J].外語電化教學(xué)，2012，（6）：3-10.

[3]英漢雙語平行語料庫(kù).檢索頁(yè)面[EB/OL].http：∥www.luweixmu.com/ec-corpus/query.asp，2015-11-15.

[4]北京大學(xué)中國(guó)語言學(xué)研究中心.CCL漢英雙語語料庫(kù)[EB/OL].http：∥ccl.pku.edu.cn：8080/cclcorpus/，2015-11-15.

[5]北外語料庫(kù)語言學(xué).語料庫(kù)語言學(xué)年表[EB/OL].http：∥www.bfsu-corpus.org/content/chronology-corpus-linguistics-yu-liao-ku-yu-yan-xue-nian-biao，2015-11-15.

[6]《紅樓夢(mèng)》漢英平行語料庫(kù)[EB/OL].http：∥corpus.usx.edu.cn/hongloumeng/，2015-11-15.

[7]熊文新.Web、語料庫(kù)與雙語平行語料庫(kù)的建設(shè)[J].圖書情報(bào)工作，2013，（10）：128-135.

[8]徐春.漢、英平行語料庫(kù)的研究與構(gòu)建[J].科技信息，2011，（17）：104-105.

[9]姜子進(jìn)，吐爾根·依布拉音，賽依旦·阿不力米提，等.Web環(huán)境下自動(dòng)獲取漢、維語料庫(kù)[J].計(jì)算機(jī)應(yīng)用與軟件，2011，28（12）：19-21，70.

[10]莫源源，潘麗同，嚴(yán)馨，等.基于最大熵模型的柬英平行網(wǎng)頁(yè)獲取[J].計(jì)算機(jī)工程，2015：1-8.

[11]劉奇，劉洋，孫茂松.URL模式與HTML結(jié)構(gòu)相結(jié)合的平行網(wǎng)頁(yè)獲取方法[J].中文信息學(xué)報(bào)，2013，27（3）：91-99.

[12]王琳琳.面向Web的多語平行句對(duì)挖掘技術(shù)研究[D].黑龍江：哈爾濱工業(yè)大學(xué)，2014.

[13]張亞軍，賀琛琛.漢語-維吾爾語的一對(duì)一詞對(duì)齊研究[J].昌吉學(xué)院學(xué)報(bào)，2012，（6）：80-83.

[14]劉鵬遠(yuǎn)，趙鐵軍，李生，等.利用語義相似度解決雙語詞匯知識(shí)獲取的錯(cuò)誤累計(jì)問題[J].哈爾濱工程大學(xué)學(xué)報(bào)，2006，27（z1）：575-579.

[15]陳亮.基于英漢平行語料庫(kù)的機(jī)器翻譯知識(shí)獲取研究[D].北京：北京交通大學(xué)，2012.

[16]張艷，柏岡秀紀(jì).基于長(zhǎng)度的擴(kuò)展方法的漢英句子對(duì)齊[J].中文信息學(xué)報(bào)，2005，（5）：31-36.

[17]于新，吳健，洪錦玲.基于詞典的漢藏句子對(duì)齊研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào)，2011，25（4）：57-62.

[18]塞麥提·麥麥提敏，侯敏，吐爾根·伊布拉音.基于錨點(diǎn)句對(duì)的漢維句子對(duì)齊方法[J].計(jì)算機(jī)工程，2015，（4）：166-170.

[19]才藏太.基于最大熵分類器的藏文句子邊界自動(dòng)識(shí)別方法研究[J].計(jì)算機(jī)工程與科學(xué)，2012，34（6）：187-190.

[20]劉智穎.基于HNC的現(xiàn)代漢語句子級(jí)語義標(biāo)注語料庫(kù)的研究和建立[M].北京：中國(guó)社會(huì)科學(xué)出版社，2015.

[21]李康熙，楊勇.平行語料庫(kù)對(duì)齊技術(shù)的語言學(xué)思考[J].合肥工業(yè)大學(xué)學(xué)報(bào)：社會(huì)科學(xué)版，2009，23（3）：83-86.

[22]趙蓮.大規(guī)模中英可比較語料庫(kù)構(gòu)建[D].遼寧：大連理工大學(xué)，2010.

[23]梁銘.基于英漢平行語料庫(kù)術(shù)語詞典的自動(dòng)抽取[J].電腦知識(shí)與技術(shù)：學(xué)術(shù)交流，2009，5（7）：5081-5083.

[24]任高舉，吐爾根·伊布拉音，艾山·吾買爾.統(tǒng)計(jì)機(jī)器翻譯中漢維短語對(duì)抽取的研究[J].新疆大學(xué)學(xué)報(bào)：自然科學(xué)版，2010，27（3）：349-352.

[25]唐亮，李倩，許洪波，等.基于多策略過濾的漢日多詞短語抽取和對(duì)齊[J].山東大學(xué)學(xué)報(bào)：理學(xué)版，2015，（9）：21-28.

[26]劉穎，鐵錚，余暢.漢英短語翻譯對(duì)的自動(dòng)抽取[J].計(jì)算機(jī)應(yīng)用與軟件.2012，29（7）：69-72.

[27]嚴(yán)燦勛，劉慧敏，宋蘭.基于C#正則表達(dá)式的英漢翻譯對(duì)抽取[J].科技信息，2011，（26）：1-2.

[28]徐會(huì)芳.可比語料中雙語多詞術(shù)語互譯對(duì)抽取方法研究[D].遼寧：大連理工大學(xué)，2013.

[29]熊超，王明文，吳福英，等.基于潛在語義對(duì)偶空間的跨語言文本分類研究[J].廣西師范大學(xué)學(xué)報(bào)：自然科學(xué)版，2010，28（1）：157-160.

[30]申文明，黃家裕，劉連芳.平行語料庫(kù)的相似語句去重算法[J].廣西科學(xué)院學(xué)報(bào)，2009，25（4）：248-250，256.

[31]柯飛.翻譯中的隱和顯[J].外語教學(xué)與研究：外國(guó)語文雙月刊，2005，37（4）：303-307.

[32]董敏，馮德正.英漢科技翻譯邏輯關(guān)系顯化策略的語料庫(kù)研究[J].外語教學(xué)，2015，36（2）：93-96.

[33]黃立波.基于漢英/英漢平行語料庫(kù)的翻譯共性研究[M].上海：復(fù)旦大學(xué)出版社，2007.

[34]武光軍.基于漢英類比語料庫(kù)的翻譯文本中的搭配特征研究[M].北京：中國(guó)社會(huì)科學(xué)出版社，2014.

[35]易焱，王克非.基于平行語料庫(kù)的“大家”的對(duì)應(yīng)研究[J].外語與外語教學(xué)，2013，（3）：49-54.

[36]王子穎.法律語篇中shall和may的翻譯對(duì)比研究[J].上海翻譯，2013，（4）：52-57.

[37]胥逸萌.《政府工作報(bào)告》中“推進(jìn)”的概念隱喻用法實(shí)證研究[J].讀與寫：教育教學(xué)刊，2012，（8）：34-35.

[38]劉克強(qiáng).儒林外史語詞典型翻譯——基于平行語料庫(kù)的研究[M].北京：光明日?qǐng)?bào)出版社，2015.

[39]劉澤權(quán)，劉超朋，朱虹.《紅樓夢(mèng)》四個(gè)英譯本的譯者風(fēng)格初探——基于語料庫(kù)的統(tǒng)計(jì)與分析[J].中國(guó)翻譯，2011，32（1）：60-64.

[40]宋偉華.《壇經(jīng)》黃茂林英譯本與Dwight Goddard英譯本比較[J].中國(guó)科技翻譯，2013，（1）：19-22.

[41]盧曉娟.語料庫(kù)驅(qū)動(dòng)下的魯迅小說譯者風(fēng)格研究[M].北京：中央編譯出版社，2015.

[42]王惠.“精加工”平行語料庫(kù)在翻譯教學(xué)中的應(yīng)用[J].中國(guó)翻譯，2015，（1）：50-54.

[43]賀文照.平行語料庫(kù)輔助翻譯實(shí)踐實(shí)證研究[J].嘉興學(xué)院學(xué)報(bào)，2013，25（2）：64-69.

[44]蔣麗平.IT文本英漢平行語料庫(kù)輔助翻譯實(shí)踐的實(shí)證研究[J].中南林業(yè)科技大學(xué)學(xué)報(bào)：社會(huì)科學(xué)版， 2014，8（4）：110-113.

[45]熊兵.基于英漢雙語平行語料庫(kù)的翻譯教學(xué)模式研究[J].外語界，2015，（4）：2-10.

[46]吳曉昱，王安民.平行語料庫(kù)與漢英詞典編纂的對(duì)接[J].譯林：學(xué)術(shù)版，2012（2）：169-176.

[47]曾文，王惠臨，徐紅姣.漢英雙語詞典的自動(dòng)構(gòu)建技術(shù)研究[J].情報(bào)學(xué)報(bào)，2011，30（4）：402-409.

[48]吳.基于依存上下文的中-英詞表構(gòu)建方法[J].信息通信，2013，（7）：95-96.

[49]安紀(jì)霞，李錫祚，宋冰，等.服務(wù)于詞典編纂的特定領(lǐng)域?qū)I(yè)術(shù)語自動(dòng)抽取[J].計(jì)算機(jī)與數(shù)字工程，2007，（11）：53-56.

[50]李德俊.語料庫(kù)詞典學(xué)[M].江蘇：譯林，2015.

[51]劉克強(qiáng).水滸傳翻譯大辭典[M].北京：中央編譯出版社，2014.

[52]黃瑾，呂雅娟，劉群.基于信息檢索方法的統(tǒng)計(jì)翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J].中文信息學(xué)報(bào)，2008，22（2）：40-46.

[53]劉粵鉗，姚紅玉.一類基于平行語料統(tǒng)計(jì)的漢法機(jī)譯解決方案[J].計(jì)算機(jī)技術(shù)與發(fā)展，2008，18（4）：114-117.

[54]李梅，朱錫明.譯后編輯自動(dòng)化的英漢機(jī)器翻譯新探索[J].中國(guó)翻譯，2013，（4）：83-87.

[55]王傳英.基于雙語平行語料庫(kù)的信息服務(wù)平臺(tái)建設(shè)[J].圖書館工作與研究，2010，（12）：79-82.

[56]趙衍.基于中英文平行語料庫(kù)的Web產(chǎn)品評(píng)論挖掘[J].上海管理科學(xué)，2012，（5）：42-46.

[57]尼加提·納吉米.面向電力行業(yè)的漢維哈文檔對(duì)齊工具的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù)，2014，（36）：8657-8658，8663.

[58]房璐，葛運(yùn)東，洪宇，等.可比較語料庫(kù)構(gòu)建及在跨語言信息檢索中的應(yīng)用[J].廣西師范大學(xué)學(xué)報(bào)：自然科學(xué)版，2010，28（3）：126-130.

[59]羅遠(yuǎn)勝，王明文，勒中堅(jiān)，等.跨語言信息檢索中的雙語主題相關(guān)模型[J].小型微型計(jì)算機(jī)系統(tǒng)，2013，34（12）：2758-2763.

[60]鄒小芳，王明文，左家莉，等.新的基于中間語義的多語言信息檢索模型[J].小型微型計(jì)算機(jī)系統(tǒng)，2010，（4）：696-701.

[61]胡小鵬，袁琦，耿鑫輝，等.構(gòu)建和剖析中英三元組可比語料庫(kù)[J].計(jì)算機(jī)工程與應(yīng)用，2014，（13）：153-157，186.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

2000年以來我國(guó)多語言語料庫(kù)研究進(jìn)展