曾文,張均勝,徐紅姣,李穎,劉敏,屈鵬,劉丹
(1. 中國(guó)科學(xué)技術(shù)信息研究所,北京 100038;2. 北京大學(xué)圖書館,北京 100871)
多語言科技語料庫(kù)建設(shè)研究*
曾文1,張均勝1,徐紅姣1,李穎1,劉敏1,屈鵬1,劉丹2
(1. 中國(guó)科學(xué)技術(shù)信息研究所,北京 100038;2. 北京大學(xué)圖書館,北京 100871)
多語言科技語料庫(kù)建設(shè)的重要意義在于它能夠服務(wù)于多語言科技文獻(xiàn)信息的組織、科技文獻(xiàn)的自動(dòng)翻譯,以及科技文獻(xiàn)的情報(bào)分析等??萍颊Z料庫(kù)的建設(shè)采用的主要技術(shù)方法是運(yùn)用自然語言處理和計(jì)算機(jī)處理技術(shù)實(shí)現(xiàn)語料的采集、自動(dòng)加工和處理。本文介紹多語言科技語料庫(kù)建設(shè)方面的相關(guān)研究工作,主要涉及多語言詞表、平行語料的獲取與處理,及多語言語法資源的建設(shè)等方面的工作成果。研究工作的不足之處在于語料庫(kù)的數(shù)據(jù)資源和語法資源的質(zhì)量和規(guī)模有待于提高和完善。
多語言;科技;語料庫(kù)
科技文獻(xiàn)數(shù)據(jù)規(guī)模大,來源分布廣泛,質(zhì)量良莠不齊,內(nèi)容深度千差萬別,用戶對(duì)數(shù)字化科技文獻(xiàn)數(shù)據(jù)資源的服務(wù)需求日益遞增,需要科技文獻(xiàn)的服務(wù)質(zhì)量和原文傳遞服務(wù)模式進(jìn)行相應(yīng)的改變,開發(fā)和探索多元服務(wù)模式和技術(shù)方法。特別是,面對(duì)日益增長(zhǎng)的海量外文科技文獻(xiàn),建立高效的數(shù)據(jù)信息組織和分析處理方法,對(duì)于科技文獻(xiàn)服務(wù)質(zhì)量的完善和提高具有重要的現(xiàn)實(shí)意義,而實(shí)現(xiàn)這一目的重要基礎(chǔ)是具有高質(zhì)量的、可應(yīng)用的多語言科技語料資源,而且多語言科技語料的建設(shè)對(duì)于圖書情報(bào)領(lǐng)域的信息組織和情報(bào)分析研究具有重要的價(jià)值。多語言科技語料庫(kù)與傳統(tǒng)通用語料庫(kù)的內(nèi)容不同[1],多語言科技語料庫(kù)更注重科學(xué)技術(shù)性和多語言性的特點(diǎn),多語言科技語料庫(kù)的內(nèi)容是以科技文獻(xiàn)數(shù)據(jù)庫(kù)作為科技語料的主要數(shù)據(jù)來源之一。多語言科技語料庫(kù)主要包括:多語言科學(xué)技術(shù)詞表,多語言科技平行語料數(shù)據(jù)資源,多語言的語法資源庫(kù)等。其中詞表是科技文獻(xiàn)資源信息的有效組織工具之一;平行語料是實(shí)現(xiàn)自然語言處理技術(shù),進(jìn)行文本挖掘,實(shí)現(xiàn)智能信息處理和機(jī)器翻譯的數(shù)據(jù)基礎(chǔ)[2];多語言的語法資源則是自然語言處理中非常重要的環(huán)節(jié),語法資源的豐富和完善程度都是保證自然語言處理效果的基礎(chǔ)。本文將重點(diǎn)從詞表、平行語料和語法資源三個(gè)方面來介紹我們目前在多語言科技語料庫(kù)建設(shè)方面的研究工作及所取得的工作成果。
目前,國(guó)內(nèi)外對(duì)于語料庫(kù)建設(shè)基本是通用的語料庫(kù),也包含一定數(shù)量比例的科技文本,如美國(guó)國(guó)家語料庫(kù),英國(guó)國(guó)家語料庫(kù),國(guó)內(nèi)有北京大學(xué)計(jì)算語言所的漢語新聞?wù)Z料庫(kù)等。國(guó)內(nèi)語料庫(kù)的應(yīng)用更多偏重于語言本身,特別是英語語法的使用方法[3,4],國(guó)外對(duì)于科技數(shù)據(jù)資源的建設(shè)研究則偏重于數(shù)據(jù)的存儲(chǔ)和發(fā)布服務(wù),其中以英語為母語的歐美國(guó)家,研究偏重于多語言科技文本數(shù)據(jù)資源有效組織和利用的研究工作[5-7]。
(1)詞表研究:歐洲共同體已經(jīng)集成構(gòu)建名為Eurovoc的敘詞表(Eurovocabulary thesaurus),它可以支持歐盟22種官方語言。AGROVOC是由聯(lián)合國(guó)糧農(nóng)組織和歐盟委員會(huì)于上世紀(jì)80年代開發(fā)的農(nóng)業(yè)多語言主題詞表,其領(lǐng)域涵蓋農(nóng)業(yè)、食品、漁業(yè)、林業(yè)、環(huán)境等領(lǐng)域。美國(guó)DIALOG的DIALINDEX、BRS的CROSS、SDC的Database Index以及ESA的Quest Index等是詞表集成的典型應(yīng)用。在國(guó)內(nèi),我國(guó)學(xué)者借鑒國(guó)外的研究經(jīng)驗(yàn)相繼開展了一些漢語詞表的研究工作,主要有中國(guó)醫(yī)科院醫(yī)學(xué)信息研究所研制的“醫(yī)學(xué)分類主題一體化系統(tǒng)建設(shè)”和“統(tǒng)一的中國(guó)醫(yī)學(xué)語言系統(tǒng)”、中國(guó)中醫(yī)研究院中醫(yī)藥信息研究所研制的“中醫(yī)藥一體化語言系統(tǒng)”等,但國(guó)內(nèi)對(duì)于其它語言詞表的漢化及研究方面存在實(shí)踐成果不多、缺乏方法的深入探討等問題。
(2)科技平行語料的建設(shè):平行語料是進(jìn)行多語言數(shù)據(jù)分析和研究的數(shù)據(jù)基礎(chǔ)。從服務(wù)的角度看,國(guó)內(nèi)外科技用戶對(duì)于非母語科技文獻(xiàn)的閱讀和研究需求都是相當(dāng)大的,中國(guó)國(guó)內(nèi)用戶對(duì)外文科技文獻(xiàn)翻譯服務(wù)方面的需求較大,尤以英文科技文獻(xiàn)的翻譯服務(wù)需求為主。因此,平行語料的建設(shè)顯得尤為重要,國(guó)內(nèi)外建設(shè)平行語料的方法基本相同,主要是采集和處理多語言數(shù)據(jù)集,在國(guó)內(nèi)更為重視中英文平行語料的建設(shè),并服務(wù)于中英機(jī)器翻譯的研究工作。
(3)語法資源建設(shè):目前被廣泛使用的是賓州大學(xué)的英文和中文樹庫(kù)語法資源,最著名的語言資源管理系統(tǒng)是語言資源聯(lián)盟(LDC),它由賓州大學(xué)建設(shè)并負(fù)責(zé)維護(hù)。該平臺(tái)上提供各種語法資源,其不足之處在于:語法資源的內(nèi)容還不夠豐富,用戶的研究和使用成本較高。在國(guó)內(nèi),中文語言資源聯(lián)盟與LDC一樣,語言資源具有局限性且需要花錢購(gòu)買,而北京大學(xué)計(jì)算語言所以及清華大學(xué)的語法及樹庫(kù)則只提供簡(jiǎn)單的介紹,對(duì)用戶不提供服務(wù)。此外,現(xiàn)有的語法資源對(duì)科技文獻(xiàn)存在的語法現(xiàn)象并未涉及。
實(shí)現(xiàn)高效的科技信息服務(wù)的基礎(chǔ)是實(shí)現(xiàn)對(duì)科技文獻(xiàn)數(shù)據(jù)的有效組織。詞表作為代表文獻(xiàn)資源內(nèi)容特征的、起關(guān)鍵作用的詞集,是實(shí)現(xiàn)對(duì)文獻(xiàn)資源有效、快速檢索的基礎(chǔ)。數(shù)據(jù)資源的有效組織是提供數(shù)據(jù)快速檢索和保證數(shù)據(jù)分析的重要手段。例如,敘詞表通過建立術(shù)語集,以及術(shù)語之間的用、代、屬、分、參等關(guān)系,實(shí)現(xiàn)對(duì)數(shù)據(jù)信息資源的標(biāo)引和組織。因此,詞表是圖書文獻(xiàn)情報(bào)學(xué)領(lǐng)域中重要的一種數(shù)據(jù)資源組織工具。但是現(xiàn)有的詞表已經(jīng)無法滿足圖書館工作人員對(duì)不同學(xué)科、不同語言的科技文獻(xiàn)數(shù)據(jù)信息進(jìn)行有效組織的需求,客觀上需要加強(qiáng)對(duì)多語言詞表的研究和應(yīng)用,以更好的實(shí)現(xiàn)對(duì)科技文獻(xiàn)數(shù)據(jù)的標(biāo)引和組織。
針對(duì)前文所指出的國(guó)內(nèi)對(duì)多語言詞表研究不足問題,中國(guó)科學(xué)技術(shù)信息研究所語言技術(shù)與知識(shí)技術(shù)研究組采用機(jī)器輔助翻譯和人工翻譯校正相結(jié)合的方法,已經(jīng)完成對(duì)英語EI(Engineering Index工程索引)敘詞表和日本JST(Japan Science and Technology Agency)敘詞表的漢化研究工作,其中EI敘詞表,總收詞量19296條,其中敘詞9926個(gè),非敘詞9370個(gè),族首詞85個(gè)。日本JST敘詞表,包含37163個(gè)日語敘詞,2635個(gè)日語非敘詞,詞間的相互關(guān)系為20多萬對(duì)。
對(duì)于多語言詞表的研究,主要是詞表的漢化翻譯方法研究,其主要工作流程包括:詞典匹配,機(jī)器翻譯系統(tǒng)自動(dòng)翻譯,以及人工漢化三個(gè)部分。多語言詞表漢化翻譯的主要的研究方法包括:借助專業(yè)領(lǐng)域翻譯詞典,通過與詞典詞條的匹配進(jìn)行英語、日語的自動(dòng)漢化翻譯;借助機(jī)器翻譯軟件進(jìn)行詞表的翻譯漢化;通過人工漢化,完成自動(dòng)翻譯敘詞表中未實(shí)現(xiàn)的術(shù)語和詞條的翻譯工作。為了節(jié)省人力、物力和財(cái)力,我們研究和開發(fā)了敘詞表輔助漢化平臺(tái)輔助人工進(jìn)行術(shù)語漢化,以呈現(xiàn)敘詞表中包含的概念和語義信息,保證數(shù)據(jù)的安全性、完整性和漢化結(jié)果的可恢復(fù)性。敘詞表輔助漢化平臺(tái)主要功能是實(shí)現(xiàn)術(shù)語漢化,它借助于敘詞表本身的信息及各種外部資源,為漢化工作人員提供多來源的輔助漢化信息。其中,輔助漢化信息包括兩類:一類是敘詞表本身提供的有助于確定敘詞準(zhǔn)確含義的信息,這部分信息主要通過敘詞表展示模塊中提示的信息來獲?。涣硪活愂歉鞣N翻譯資源提供的翻譯參考信息,包括翻譯詞典匹配的翻譯結(jié)果,機(jī)器翻譯系統(tǒng)翻譯結(jié)果等。此外,平臺(tái)提供詞表的瀏覽、搜索和修改等管理功能。圖1和圖2分別是EI和JST敘詞表輔助漢化平臺(tái)的界面。
對(duì)于漢化翻譯結(jié)果的評(píng)價(jià),采用按類別選詞驗(yàn)證和隨機(jī)選詞驗(yàn)證相結(jié)合的方法,參與評(píng)價(jià)的人員是沒有介入漢化工作的領(lǐng)域?qū)<摇R訣I敘詞表的漢化翻譯結(jié)果評(píng)價(jià)為例:分別選取類別碼為400series(Bridges and Tunnels,橋梁與隧道)、700series(ELECTRICAL ENGINEERING,電器工程)和800series(CHEMICAL ENGINEERING,化學(xué)工程)的術(shù)語,其中抽取敘詞和非敘詞共計(jì)1772個(gè),翻譯結(jié)果的準(zhǔn)確率為98.8%。
圖1 EI敘詞表輔助漢化平臺(tái)用戶界面
圖2 JST敘詞表輔助漢化平臺(tái)用戶界面
平行語料(Parallel corpora)長(zhǎng)期以來在機(jī)器翻譯研究領(lǐng)域中被廣泛用于獲取詞對(duì)知識(shí),構(gòu)建翻譯詞典,以提高機(jī)器翻譯的翻譯質(zhì)量[8-9]。此外,平行語料庫(kù)對(duì)科技文獻(xiàn)信息的組織和分析同樣具有重要的研究意義?;谄叫姓Z料,可以輔助建立有效的科技文獻(xiàn)組織方法和模型,實(shí)現(xiàn)多語言科技文獻(xiàn)的有效組織和檢索,為科技文獻(xiàn)的深層次分析服務(wù)。平行語料的獲取有兩種方式:一種是自動(dòng)處理對(duì)齊質(zhì)量良好的多語言文本來獲取平行語料;二是購(gòu)買多語言數(shù)據(jù),進(jìn)行平行句對(duì)的二次加工。平行語料的獲取效果主要依賴于翻譯質(zhì)量的高低,特別是對(duì)于前者更是如此,其采用的技術(shù)方法主要是利用統(tǒng)計(jì)計(jì)算模型來自動(dòng)實(shí)現(xiàn)兩種或兩種以上語言的句子級(jí)自動(dòng)對(duì)齊處理,利用機(jī)器翻譯技術(shù)實(shí)現(xiàn)兩種或兩種以上語言的句子和術(shù)語的自動(dòng)匹配和抽取處理。
中國(guó)科學(xué)技術(shù)信息研究所語言技術(shù)與知識(shí)技術(shù)研究組基于已經(jīng)擁有的美國(guó)工程索引EI英漢主題詞表和日本科技振興機(jī)構(gòu)JST的日漢科學(xué)技術(shù)主題詞表,獲取英漢雙語詞1萬以上,日漢雙語詞4萬以上。英漢平行句對(duì)150萬以上,日漢平行句對(duì)60萬以上,日英的文獻(xiàn)標(biāo)題對(duì)2000多萬。基于這些已有資源,通過采用計(jì)算機(jī)自動(dòng)處理技術(shù),我們?cè)谄叫姓Z料方面取得了一定的成果積累。例如,我們基于國(guó)家知識(shí)產(chǎn)權(quán)專利局網(wǎng)站(http://www.sipo. gov.cn)上公布的漢英國(guó)際專利分類表(IPC)第8版(高級(jí)版)進(jìn)行平行語料的建設(shè),如圖3所示,通過人工抽樣評(píng)測(cè),平行語料的獲取準(zhǔn)確率約為90%。平行術(shù)語的獲取是通過在已經(jīng)完成分詞和詞性標(biāo)注的中外文語料中分別形成各自的詞語單元集合,并組成對(duì)應(yīng)的漢外詞語等價(jià)單元,最后通過計(jì)算、分析和處理它們之間的關(guān)聯(lián)概率值來解決漢外的詞語對(duì)齊問題。關(guān)聯(lián)概率值的計(jì)算是通過統(tǒng)計(jì)漢外詞語單元在雙語句對(duì)中的共現(xiàn)概率來確定的。分別將每個(gè)漢語詞匯對(duì)應(yīng)的所有外語詞語單元的關(guān)聯(lián)概率值,以及每個(gè)外語詞匯對(duì)應(yīng)的所有漢語詞語單元的關(guān)聯(lián)概率值均進(jìn)行降序排列,則可以生成雙語詞語集合,通過對(duì)生成的詞語集合進(jìn)行匹配分析過濾,最終得到雙語術(shù)語的匹配生成結(jié)果,如圖4所示。
采用隨機(jī)抽樣的方法,人工對(duì)生成的術(shù)語對(duì)進(jìn)行正確率的判斷,正確率的計(jì)算方法如下:
Pright%=(正確的詞對(duì)數(shù)目+0.5×部分正確的詞對(duì)數(shù)目)/詞語集合中詞對(duì)的總數(shù)×100%
經(jīng)過計(jì)算可知:構(gòu)建的雙語術(shù)語集合的正確率為78.8%。
圖3 IPC 中英文平行語料庫(kù)的局部?jī)?nèi)容示例1
圖4 IPC 中英文平行語料庫(kù)的局部?jī)?nèi)容示例2
圖5 中英日平行語料示例(平行術(shù)語)
圖6 中日文平行語料示例(平行句對(duì))
語法資源的建設(shè)是開展自然語言處理研究的基礎(chǔ)[10-11],語法資源的豐富和完善程度影響到自然語言處理的效果,建設(shè)良好的語法資源可以支持許多領(lǐng)域的研究工作,特別是對(duì)科技文獻(xiàn)內(nèi)容的語義分析具有重要的價(jià)值,例如,基于不同語言的語法資源,實(shí)現(xiàn)對(duì)科技文獻(xiàn)內(nèi)容的自動(dòng)語法解讀和分析,將可以較好的提高科技文獻(xiàn)信息的挖掘和分析效果。
目前,我們的研究?jī)H涉及漢語和英語的語法,研究工作尚處于初級(jí)階段,已初步構(gòu)建了基于賓州樹庫(kù)的中文樹庫(kù)ISTIC-Tree和詞匯化樹鄰接語法樹(Lexicalized Tree Adjoining Grammar, LTAG)LTAG-Tree樹庫(kù)的管理平臺(tái),初步實(shí)現(xiàn)對(duì)賓州大學(xué)的中文樹庫(kù)和詞匯化樹鄰接語法樹(Lexicalized Tree Adjoining Grammar, LTAG)樹庫(kù)的管理,具體包括:(1)語言資源的存儲(chǔ):賓州大學(xué)中文樹庫(kù)的文件形式是文本文件,只有一個(gè)文件,每一行為一顆中文樹庫(kù)的語法表示形式, LTAG樹資源也是以文本文件形式存儲(chǔ),有多個(gè)文件,分類存放,平臺(tái)采用XML格式和關(guān)系數(shù)據(jù)庫(kù)同步進(jìn)行資源的存儲(chǔ)和管理,將這些信息組織成容易讀取的形式,并梳理這些資源相互之間的關(guān)系;(2)語言資源的管理:目前的語言資源還是相對(duì)分散,分散存儲(chǔ),分散下載,分散利用。沒有形成統(tǒng)一的管理平臺(tái),本平臺(tái)利用MVC(Model模型,View視圖,Controller控制)架構(gòu)的思想將資源的模型、控制和顯示相互分離。模型是該平臺(tái)的業(yè)務(wù)邏輯,作為類的方法封裝在每一個(gè)對(duì)象類的內(nèi)部;控制部分是模型與視圖之間溝通的橋梁,用于分派用戶的請(qǐng)求并選擇恰當(dāng)?shù)囊晥D以用于顯示,同時(shí)也解釋用戶的輸入并將它們映射為模型層可執(zhí)行的操作;視圖部分用于與用戶的交互,通過網(wǎng)頁編程語言JSP來實(shí)現(xiàn)。例如,ISTIC-Tree可以分頁瀏覽樹庫(kù),查看樹的詳細(xì)信息,對(duì)樹進(jìn)行編輯、修改、刪除和添加符合語法規(guī)則的樹。LTAG-Tree可以分頁瀏覽LTAG樹族(Family)庫(kù)、樹庫(kù)、詞匯庫(kù),檢索詞法信息等,分別如圖7和圖8所示。
圖7 查看ISTIC-Tree樹詳細(xì)信息示例
圖8 詞匯化樹鄰接語法(LTAG)句法詞典的檢索結(jié)果
該平臺(tái)為語言研究和信息處理提供一個(gè)有利的數(shù)據(jù)分析平臺(tái):(1)語法資源中的句法標(biāo)注作為分詞、詞性標(biāo)注和語義標(biāo)注的中間環(huán)節(jié),將為下一步的語義標(biāo)注工作打下良好的基礎(chǔ);(2)語法資源蘊(yùn)涵著豐富的句法信息,它為研究者提供了帶有句法標(biāo)記的漢語句法知識(shí),我們能夠從中獲得有關(guān)句法的各種信息。例如,從詞類入手,可以考察某一特定類別詞語的句法功能;從短語功能類型人手,可以考察某一特定類型短語的內(nèi)部構(gòu)造模式等等;(3)語法資源可以進(jìn)行數(shù)據(jù)統(tǒng)計(jì),信息抽取等工作,為情報(bào)分析、計(jì)算語言學(xué)等領(lǐng)域的研究提供便利條件;(4)標(biāo)注各種句法和語義關(guān)系的語法資源對(duì)于語言研究具有重要意義,像謂詞論元的標(biāo)注將大大提高機(jī)器翻譯、信息檢索、信息抽取等技術(shù)的發(fā)展,使信息處理更加準(zhǔn)確,有益于情報(bào)分析與預(yù)測(cè)。
多語言科技語料庫(kù)建設(shè)是開展數(shù)字化科技文獻(xiàn)有效服務(wù)和進(jìn)行數(shù)據(jù)分析的基礎(chǔ),不僅可以服務(wù)于數(shù)字圖書館及情報(bào)學(xué)研究人員的科技文獻(xiàn)信息組織和分析工作,同時(shí)可以向用戶提供更高質(zhì)量的、更具價(jià)值的國(guó)內(nèi)外科技文獻(xiàn)信息翻譯服務(wù)。目前,我們的研究工作還處于發(fā)展階段,例如,在科技語料加工工具和語法分析處理工具等問題的研究工作尚有欠缺,仍需改進(jìn)。此外,還需注重語料庫(kù)資源和功能多樣化的研究工作,特別是在詞表的互操作技術(shù)方面、科技語料的多語言性以及不同語言的語法資源等方面仍需完善,以豐富和完善現(xiàn)有的科技語料庫(kù)資源,使其更具有實(shí)用性。
[1] 張東,王惠臨. 關(guān)于建立中國(guó)國(guó)家科學(xué)技術(shù)語料庫(kù)的思考[J].圖書情報(bào)工作,2010,54(6): 102-106.
[2] Berna Altinel,Murat Can Ganiz, Banu Diri. A corpus-based semantic kernel for text classification by using meaning values of terms[J]. Engineering Applications of Artificial Intelligence,2015,43(8):54-66.
[3] 冷雪蓮. 基于COCA語料庫(kù)辨析英語同義詞Capable和Competent[J].成都師范學(xué)院學(xué)報(bào),2015,31(2): 54-58.
[4] 趙勇,施應(yīng)鳳,羅瑞等. 基于語料庫(kù)和數(shù)據(jù)驅(qū)動(dòng)的英語同義詞的構(gòu)式語法研究[J].文山學(xué)院學(xué)報(bào),2015,28(1): 75-77,98.
[5] ISO5964:Guidelines for the establishment and development of multilingual thesauri [S/OL].[2011-09-05].http://www.iso.org/iso/ catalogue_detail.htm?csnumber-12159.
[6] Reinhard Rapp1.The automatic generation of thesauri of related words for English, French, German, and Russian[J].International Journal of Speech Technology, 2009(11):147-156.
[7] Technical Committee ISO/TC46. ISO CD 25964-1 Information and Documentation Thesauri and Interoperability with other Vocabularies-part1 Thesauri for Information Retrieval [EB/OL].(2012-12-10)[2013-02-24].http://www.iso.org/iso/iso_catalogue/ catalogue_ics/catalogue_detail_ic-s.htm?ics1=01&Ics2=140&ics3=2 0&csnumber=53657.
[8] 宗成慶. 統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社, 2008:10-15.
[9] 劉洋. 樹到串統(tǒng)計(jì)翻譯模型研究[D]. 北京:中國(guó)科學(xué)院研究生院,2007.
[10] 蘇勁松. 基于形式化句法的統(tǒng)計(jì)機(jī)器翻譯若干問題研究[D]. 北京:中國(guó)科學(xué)院研究生院, 2011.
[11] 熊德意. 基于括號(hào)轉(zhuǎn)錄語法和依存語法的統(tǒng)計(jì)機(jī)器翻譯研究[D]. 北京:中國(guó)科學(xué)院研究生院, 2007.
Multilingual Science and Technology Corpus Construction
ZENG Wen1, ZHANG JunSheng1, XU HongJiao1, LI Ying1, LIU Min1, QU Peng1, LIU Dan2
(1. Institute of Scientific and Technical Information of China, Beijing 100038, China; 2. Peking University Library, Beijing 100871, China)
The important significance of the construction of multilingual corpus is that it can serve the organization of the information of multilingual, automatic translation of scientific documents, and information analysis of scientific literature. The main technology methods of science and technology corpus construction are that use natural language processing and computer technology to realize the automatic collection, processing and processing of data. This paper introduced the research work about multilingual science and technology corpus construction,it included multilingual vocabulary, parallel corpus acquisition and processing, and multilingual grammar resources construction, etc. And the deficiencies of the research work are that the quality and size of corpus data resources and grammatical need to be improved.
Multilingual; Science and Technology; Corpu
G35
10.3772/j.issn.1673-2286.2015.08.008
曾文,1973年生,博士,副研究員,研究方向:智能信息處理、數(shù)字圖書館,E-mail:zengw@istic.ac.cn。
2015-07-24;編輯:雷雪)
* 本研究得到國(guó)家社會(huì)科學(xué)基金項(xiàng)目“基于事實(shí)型科技大數(shù)據(jù)的情報(bào)分析方法及集成分析平臺(tái)研究”(編號(hào):14BTQ038)和中國(guó)科學(xué)技術(shù)信息研究所預(yù)研資金項(xiàng)目“多語言科技語料庫(kù)建設(shè)與應(yīng)用研究”(編號(hào):YY2015-08)資助。