□王 翊 張瑞娥 韓名利
21世紀(jì)以來(lái),以微電子技術(shù)為基礎(chǔ)的現(xiàn)代信息技術(shù)蓬勃發(fā)展,與社會(huì)經(jīng)濟(jì)產(chǎn)生了廣泛而深度的融合,數(shù)據(jù)信息呈現(xiàn)出規(guī)??涨?、增長(zhǎng)率高、類型多樣及流轉(zhuǎn)快速等特征。對(duì)大數(shù)據(jù)的獲取、存儲(chǔ)、分析、加工及管理技術(shù)正對(duì)全球經(jīng)濟(jì)運(yùn)行機(jī)制及人類社會(huì)生活方式產(chǎn)生著深刻的影響。國(guó)務(wù)院于2015年9月印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(國(guó)發(fā)〔2015〕50號(hào)),明確了大數(shù)據(jù)的重要意義和發(fā)展形勢(shì),并提出用5-10年時(shí)間建立“經(jīng)濟(jì)運(yùn)行新機(jī)制”,培育“產(chǎn)業(yè)發(fā)展新生態(tài)”,開(kāi)啟“創(chuàng)新驅(qū)動(dòng)新格局”,打造“社會(huì)治理新模式”,構(gòu)建“民生服務(wù)新體系”的發(fā)展目標(biāo)[1]。大數(shù)據(jù)技術(shù)的研發(fā)和應(yīng)用深化,儼然已成為促進(jìn)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展,推動(dòng)國(guó)計(jì)民生建設(shè)的新動(dòng)力。
語(yǔ)料庫(kù)是大數(shù)據(jù)技術(shù)在語(yǔ)言信息處理方面的應(yīng)用,對(duì)于完善大數(shù)據(jù)產(chǎn)業(yè)鏈和豐富其產(chǎn)品體系具有重要意義。經(jīng)歷了20世紀(jì)上半葉手工數(shù)據(jù)收集統(tǒng)計(jì)的“1.0時(shí)代”,20世紀(jì)下半葉電子存儲(chǔ),計(jì)算機(jī)檢索的“2.0時(shí)代”,新世紀(jì)以來(lái),語(yǔ)料庫(kù)技術(shù)已逐漸進(jìn)入了集成海量語(yǔ)境信息的“3.0”時(shí)代[2],為自然語(yǔ)言處理、語(yǔ)言學(xué)、翻譯學(xué)等研究領(lǐng)域提供了高效的技術(shù)方法,且業(yè)已促成語(yǔ)料庫(kù)語(yǔ)言學(xué)、語(yǔ)料庫(kù)翻譯學(xué)、語(yǔ)料庫(kù)批評(píng)翻譯學(xué)等學(xué)科的建立和發(fā)展,應(yīng)用前景十分廣闊。
現(xiàn)今,國(guó)內(nèi)外語(yǔ)料庫(kù)的建設(shè)與開(kāi)發(fā)均呈現(xiàn)出較為明顯的兩極化趨勢(shì),即朝著“基于互聯(lián)網(wǎng)的通用型超大規(guī)模語(yǔ)料庫(kù)”和“行業(yè)型、專業(yè)化的小型專門(mén)用途語(yǔ)料庫(kù)”兩個(gè)方向發(fā)展[3]。相較于通用語(yǔ)料庫(kù),專門(mén)用途語(yǔ)料庫(kù)與特定領(lǐng)域的學(xué)科專業(yè)聯(lián)系緊密,其語(yǔ)料來(lái)源于特定語(yǔ)域及話語(yǔ)范疇,主題特征鮮明,為專門(mén)用途語(yǔ)言研究、語(yǔ)言教學(xué)、詞典編纂等領(lǐng)域研究提供了強(qiáng)有力的支撐。
目前,各類型專門(mén)用途語(yǔ)料庫(kù)的建設(shè)皆取得了長(zhǎng)足進(jìn)展,研究范圍涵蓋文學(xué)、商務(wù)、法律、旅游、醫(yī)藥、軍事等眾多學(xué)科領(lǐng)域,如英國(guó)埃塞克斯大學(xué)建立的“英語(yǔ)旅游文本語(yǔ)料庫(kù)”[4]、香港城市大學(xué)建立的“香港法律漢英雙語(yǔ)語(yǔ)料庫(kù)”[5]、上海交通大學(xué)研制的“英漢醫(yī)學(xué)平行語(yǔ)料庫(kù)”[6]、紹興文理學(xué)院建立的“中國(guó)古典文學(xué)英譯雙語(yǔ)平行語(yǔ)料庫(kù)”[7]、黑龍江大學(xué)建設(shè)的“商務(wù)英語(yǔ)語(yǔ)料庫(kù)”[8]、解放軍外國(guó)語(yǔ)學(xué)院建設(shè)的“軍事英語(yǔ)語(yǔ)料庫(kù)”[9]等。
然而,對(duì)于涉及農(nóng)業(yè)科技專門(mén)用途語(yǔ)料庫(kù)建設(shè)的探討尚不多見(jiàn),范晶晶、李麗霞提出了建立“農(nóng)業(yè)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)”的構(gòu)想及相關(guān)建庫(kù)思路[10];張永萍、婁瑞娟探討了“農(nóng)林英漢術(shù)語(yǔ)平行語(yǔ)料庫(kù)”的建設(shè)意義、整體設(shè)計(jì)、語(yǔ)料收集及標(biāo)注檢索設(shè)計(jì),并提出了將該語(yǔ)料庫(kù)用于翻譯教學(xué)及MTI學(xué)生術(shù)語(yǔ)能力培養(yǎng)的設(shè)想[11];葛曉帥、司艷輝從設(shè)計(jì)建設(shè)、用途、特點(diǎn)等方面對(duì)自建“山東農(nóng)業(yè)大學(xué)碩博士論文摘要語(yǔ)料庫(kù)”進(jìn)行了介紹[12]。雖然已有一些學(xué)者對(duì)農(nóng)科領(lǐng)域語(yǔ)料庫(kù)的研制提出了較有建設(shè)性的設(shè)想,然而語(yǔ)料庫(kù)所選語(yǔ)料的種類及涵蓋范圍有待進(jìn)一步擴(kuò)展,語(yǔ)料的采集標(biāo)準(zhǔn)、標(biāo)注方案、檢索工具的選擇及語(yǔ)料庫(kù)的具體應(yīng)用仍存在較大的探索空間。
此外,現(xiàn)階段基于語(yǔ)料庫(kù)的農(nóng)業(yè)科技專門(mén)用途英語(yǔ)(ESP)研究、翻譯研究等均反映出研究者對(duì)于建立農(nóng)科專門(mén)用途語(yǔ)料庫(kù)的需求,王閔利、李麗霞以254篇園藝專業(yè)及246篇?jiǎng)涌茖I(yè)英文論文為語(yǔ)料建立語(yǔ)料庫(kù),分析學(xué)術(shù)英語(yǔ)寫(xiě)作中主語(yǔ)“It”外置結(jié)構(gòu)的形式及功能特征[13];王利莉采用PowerConc及Colligator對(duì)收集自美國(guó)之音(VOA)的592篇農(nóng)業(yè)英語(yǔ)新聞報(bào)道中高頻動(dòng)詞進(jìn)行檢索觀察,分析探究其搭配規(guī)律、類連接及語(yǔ)意韻特征[14];祁雨思以“Bioresource Technology”期刊為采集載體,選取100篇農(nóng)業(yè)工程領(lǐng)域?qū)W術(shù)論文為語(yǔ)料并使用AntConc對(duì)其中名詞化后綴的分布情況進(jìn)行檢索描述,從而對(duì)其名詞化功能進(jìn)行分析探討[15];楊苗苗通過(guò)從聯(lián)合國(guó)糧農(nóng)組織(FAO)網(wǎng)站選取若干年份《糧食及農(nóng)業(yè)狀況》雙語(yǔ)報(bào)告構(gòu)建平行語(yǔ)料庫(kù),用Wordsmith提取“把”字句和“被”字句的雙語(yǔ)信息,并以此探究英語(yǔ)被動(dòng)句中謂語(yǔ)動(dòng)詞的語(yǔ)義特征與其漢語(yǔ)翻譯之間的聯(lián)系[16]。以上以單一研究目的驅(qū)動(dòng)的語(yǔ)料庫(kù)建設(shè)雖然有助于研究者對(duì)語(yǔ)料數(shù)據(jù)的充分闡釋,但由于容量較小,類型、主題較為局限,語(yǔ)料的代表性、平衡性仍不夠理想,對(duì)語(yǔ)料的加工仍有待深入。
有鑒于此,我們依托“安徽科技學(xué)院農(nóng)林英語(yǔ)研究所”擬建立“農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”,旨在擴(kuò)展專門(mén)用途語(yǔ)料庫(kù)的應(yīng)用范圍,為農(nóng)科專門(mén)用途英語(yǔ)(ESP)研究、翻譯研究創(chuàng)建平臺(tái),為相關(guān)語(yǔ)言及翻譯教學(xué)提供素材,助力涉外農(nóng)業(yè)人才培養(yǎng)及農(nóng)業(yè)產(chǎn)業(yè)信息化的應(yīng)用創(chuàng)新,同時(shí)也一定程度上響應(yīng)國(guó)家“十三五”規(guī)劃關(guān)于推進(jìn)農(nóng)業(yè)大數(shù)據(jù)的發(fā)展戰(zhàn)略。
本文所建“農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”由“漢-英平行語(yǔ)料庫(kù)”、“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”及“漢-英-英多向可比語(yǔ)料庫(kù)”三個(gè)子庫(kù)構(gòu)成。本文所涉“漢-英平行語(yǔ)料庫(kù)”指的是“由原文文本及其平行對(duì)應(yīng)的譯語(yǔ)文本構(gòu)成的雙語(yǔ)或多語(yǔ)語(yǔ)料庫(kù)”[17],即由所選農(nóng)科類學(xué)術(shù)論文漢語(yǔ)摘要及其對(duì)應(yīng)英文譯文構(gòu)成的“翻譯語(yǔ)料庫(kù)”,而非“由取樣標(biāo)準(zhǔn)一致的單語(yǔ)語(yǔ)料庫(kù)構(gòu)成”[18],且通過(guò)Tmxmall Aligner實(shí)現(xiàn)句級(jí)對(duì)齊;“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”即以英語(yǔ)為原語(yǔ)的農(nóng)科學(xué)術(shù)論文摘要語(yǔ)料庫(kù);“漢-英-英多向可比語(yǔ)料庫(kù)”包含上述“翻譯語(yǔ)料庫(kù)”及“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”,且兩者通過(guò)可比度計(jì)算在篇章層面進(jìn)行匹配對(duì)齊,以實(shí)現(xiàn)漢語(yǔ)原語(yǔ)、英語(yǔ)譯語(yǔ)及英語(yǔ)原創(chuàng)平行文本之間的多向可比。語(yǔ)料庫(kù)建庫(kù)的總體框架如圖1所示。
圖1 “農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”總體設(shè)計(jì)
平行語(yǔ)料庫(kù)可為語(yǔ)言特征的轉(zhuǎn)換與對(duì)等研究、詞匯提取與詞典編纂、翻譯教學(xué)以及相關(guān)實(shí)證研究提供語(yǔ)料基礎(chǔ),可比語(yǔ)料庫(kù)則有助于考查和描述不同原創(chuàng)語(yǔ)之間,譯語(yǔ)和原創(chuàng)語(yǔ)之間的系統(tǒng)性異同。本語(yǔ)料庫(kù)建設(shè)采用平行語(yǔ)料庫(kù)與可比語(yǔ)料庫(kù)相結(jié)合的架構(gòu),以期增強(qiáng)與相關(guān)學(xué)科研究及教學(xué)活動(dòng)的兼容度,擴(kuò)大其潛在應(yīng)用范圍。
從語(yǔ)料收集的類型及涵蓋范圍來(lái)看,本農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)具有明確的選材標(biāo)準(zhǔn),并注重選材的代表性和系統(tǒng)性,力求較為全面地反映特定領(lǐng)域的語(yǔ)言事實(shí),具有同質(zhì)性(homogeneity)、系統(tǒng)性(systematicness)及專用性(specificity)的特點(diǎn)[19]。鑒于性質(zhì)、用途以及實(shí)際操作的可及性考慮,將該語(yǔ)料庫(kù)的設(shè)計(jì)規(guī)模暫定為150萬(wàn)詞左右的小型語(yǔ)料庫(kù),其設(shè)計(jì)研制過(guò)程主要涉及語(yǔ)料收集、語(yǔ)料加工、語(yǔ)料檢索、管理與維護(hù)四個(gè)方面。
語(yǔ)料庫(kù)是依據(jù)一定采樣標(biāo)準(zhǔn)收集的,能夠反映某種語(yǔ)言或語(yǔ)言變體在真實(shí)語(yǔ)境下使用情況的大規(guī)模電子文本集合,采樣的標(biāo)準(zhǔn)和規(guī)范直接影響著語(yǔ)料的質(zhì)量和語(yǔ)料庫(kù)的使用效果。一般來(lái)說(shuō),語(yǔ)料采集需要遵循代表性和平衡性的原則,即既要保證所選語(yǔ)料能夠體現(xiàn)語(yǔ)言整體或其指定部分的特性[20],又需考慮語(yǔ)料所屬體裁、領(lǐng)域分布比率的均衡問(wèn)題。
本語(yǔ)料庫(kù)所選語(yǔ)料為學(xué)術(shù)論文摘要,設(shè)計(jì)意圖在于較為系統(tǒng)地涵蓋農(nóng)科各領(lǐng)域最新研究成果和方向,較為全面地反映當(dāng)前農(nóng)科專門(mén)用途語(yǔ)言(漢、英)的語(yǔ)言特征??紤]到語(yǔ)料的代表性,語(yǔ)料收集將以《中國(guó)農(nóng)業(yè)科學(xué)院院選核心期刊目錄》(20121219175534)為期刊選取依據(jù),“漢-英平行語(yǔ)料庫(kù)”以農(nóng)科類中文核心期刊,如:《中國(guó)農(nóng)業(yè)科學(xué)》、《農(nóng)業(yè)工程學(xué)報(bào)》、《土壤學(xué)報(bào)》、《作物學(xué)報(bào)》等為語(yǔ)料來(lái)源,收集近10年(2010-2019)相關(guān)研究中英文摘要;“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”則以農(nóng)科類國(guó)際核心期刊,如:“Genome Research”,“Agricultural Systems”,“Plant Physiology”,“Journal Of Animal Science” 等為語(yǔ)料來(lái)源,收集近10年(2010-2019)相關(guān)研究英文摘要。
出于語(yǔ)料平衡性考慮,收集過(guò)程將采取分層抽樣與簡(jiǎn)單隨機(jī)抽樣相結(jié)合的方法。依據(jù)語(yǔ)料庫(kù)的庫(kù)容標(biāo)準(zhǔn)(約150萬(wàn)詞)及單個(gè)摘要文本的平均字?jǐn)?shù)(200-250詞左右),所需文本的抽樣總量大致為6000-7500篇左右(包括具有翻譯轉(zhuǎn)換關(guān)系的文本對(duì)),結(jié)合抽樣操作的便捷性,將中英核心期刊抽樣數(shù)量定為各2400篇左右。參照學(xué)科二級(jí)子類劃分及中國(guó)農(nóng)業(yè)科學(xué)院給出的期刊分類,將文本抽樣分層為綜合類、作物科學(xué)類、植物保護(hù)類、畜牧類、農(nóng)業(yè)資源環(huán)境類等12個(gè)部類,每個(gè)部類平均抽取約200篇;各部類200篇文本按照10年歷時(shí)平均分布,每年抽取20篇;該20篇文章的來(lái)源期刊,按照其影響因子IF的分布,即:1≤IF<2、2≤IF<3、3≤IF<4、IF>4分為4層(根據(jù)各部類期刊IF值分布作具體調(diào)整)進(jìn)行選取,每層隨機(jī)抽取1種期刊,所刊論文按引用量抽取前5篇。以“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”2015年所選語(yǔ)料為例,具體抽樣方案如表1、表2、表3所示。
表1 “英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”2015年語(yǔ)料抽樣總體分布
表2 “農(nóng)業(yè)工程與機(jī)械”類文本抽樣分布
表3 期刊“Irrigation Science”論文抽樣情況
以上所涉中英語(yǔ)料將分別從中國(guó)知網(wǎng)(CNKI)及Elsevier SDOS、Springer-Verlag等期刊數(shù)據(jù)庫(kù)下載獲取并以Unicode內(nèi)碼格式存儲(chǔ)。由于所需語(yǔ)料數(shù)量眾多,純?nèi)斯な謩?dòng)收集效率較低,本語(yǔ)料庫(kù)擬采用Python爬蟲(chóng)技術(shù)通過(guò)獲取網(wǎng)站完整源碼,分析URL規(guī)律后設(shè)置相應(yīng)函數(shù)實(shí)現(xiàn)對(duì)語(yǔ)料信息的自動(dòng)獲取,并嘗試對(duì)文獻(xiàn)更新進(jìn)行跟蹤,為語(yǔ)料庫(kù)的擴(kuò)容做準(zhǔn)備。
語(yǔ)料庫(kù)所收集的語(yǔ)料若未經(jīng)任何加工處理,則屬生語(yǔ)料(Raw Text),無(wú)法有效地用于相關(guān)檢索及研究。語(yǔ)料的加工過(guò)程因語(yǔ)料庫(kù)的性質(zhì)和用途而各異,本“農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”的加工處理主要包括以下幾個(gè)方面。
1.語(yǔ)料降噪
通過(guò)網(wǎng)絡(luò)或其他方式收集的語(yǔ)料很可能會(huì)含有不合規(guī)范的段落標(biāo)記及文字、標(biāo)點(diǎn)符號(hào),如全角字母符號(hào)、跳格、軟回車等,這些“文本噪音”會(huì)對(duì)語(yǔ)料的加工及檢索產(chǎn)生干擾,在對(duì)語(yǔ)料進(jìn)行標(biāo)注前有必要通過(guò)“降噪”對(duì)其進(jìn)行預(yù)處理。由于手動(dòng)單個(gè)清理費(fèi)時(shí)費(fèi)力,這里將先使用相應(yīng)的文本整理器(Text Editor)進(jìn)行自動(dòng)批量處理,再人工進(jìn)行查驗(yàn)。
2.語(yǔ)料標(biāo)注
語(yǔ)料文本的產(chǎn)生往往受語(yǔ)境條件的制約且反映出不同的交際目的,語(yǔ)言研究中的對(duì)比分析不可避免,對(duì)文本各種信息的標(biāo)注記錄將成為重要的檢索依據(jù)[21]。對(duì)語(yǔ)料的標(biāo)注一般圍繞文本結(jié)構(gòu)信息及內(nèi)部語(yǔ)言信息兩方面進(jìn)行,出于整體設(shè)計(jì)及研究目的需要,本語(yǔ)料庫(kù)建設(shè)的初期標(biāo)注工作主要涉及分詞、詞形還原、詞性賦碼、元信息標(biāo)注等方面。
分詞是將文本中所有字符(character)轉(zhuǎn)換成形符(token)的過(guò)程,是進(jìn)行語(yǔ)料庫(kù)自動(dòng)標(biāo)注、詞頻統(tǒng)計(jì)及深度加工的前期準(zhǔn)備工作。如今基于Python的開(kāi)源分詞工具已不難獲取,這里考慮分別使用Jieba和NLTK對(duì)中英文本進(jìn)行分詞,分詞后的文本將分別以cn.seg及en.tok為擴(kuò)展名與原有純文本保存于同一文件夾內(nèi)。以“漢-英平行語(yǔ)料庫(kù)”2016年所選取《土壤學(xué)報(bào)》中一篇摘要文本為例,其分詞情況如圖2、圖3所示。
圖2 使用Jieba分詞步驟
圖3 “秦嶺…的探討”摘要文本分詞結(jié)果(部分)
詞形還原即是將英文文本中單詞的屈折形式(名詞詞形變化、動(dòng)詞詞位變化等)替換為單詞原形,以滿足特定研究的需要。NLTK模塊中的WordNet提供了詞形還原函數(shù),可以用于完成相關(guān)還原工作,還原后的所有屈折形式將被視為同一個(gè)類符(type)。
詞性賦碼是對(duì)文本進(jìn)行的詞性標(biāo)注,是對(duì)文本語(yǔ)法結(jié)構(gòu)和特征進(jìn)行分析研究的必要條件??捎玫脑~性賦碼工具有:TreeTagger、CLAW4、Thulac、Pynlpir等,以及一些在線工具,其賦碼思路和準(zhǔn)確性有所差別,使用之后再輔以人工查驗(yàn)。中文文本賦碼后如圖4所示。
圖4 “秦嶺…的探討”摘要文本分詞性賦碼結(jié)果(部分)
元信息(Metadata)可按照信息的類型分為編輯性信息、分析性信息、描述性信息及管理信息[22],具體包括文本說(shuō)明信息、文本信息、文本結(jié)構(gòu)信息、元元信息等,這里選擇采用XML標(biāo)注語(yǔ)言對(duì)文本元信息進(jìn)行簡(jiǎn)單的層級(jí)標(biāo)注,如圖5所示。
圖5 “Water balances and …dry-seeded rice systems”摘要文本元信息標(biāo)注
以上標(biāo)注包含了文本類型、來(lái)源期刊、頁(yè)碼、字?jǐn)?shù)、標(biāo)題、作者、關(guān)鍵詞等相關(guān)信息,便于進(jìn)行分類檢索。
3.可比度計(jì)算
本語(yǔ)料庫(kù)建設(shè)擬將“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”和“漢-英平行語(yǔ)料庫(kù)”兩個(gè)子庫(kù)中的英語(yǔ)語(yǔ)料進(jìn)行可比度計(jì)算及文本匹配,以構(gòu)建可比語(yǔ)料庫(kù)。對(duì)于可比語(yǔ)料庫(kù)而言,語(yǔ)料的可比度是衡量語(yǔ)料質(zhì)量的重要指標(biāo),雖然學(xué)界尚未對(duì)可比度有較為明確的定義,通常來(lái)說(shuō)可以將其理解為對(duì)應(yīng)語(yǔ)料在文體、語(yǔ)域、主題、語(yǔ)義等方面的相似程度,即多數(shù)情況下語(yǔ)料的“可比度”可以等同于其“相似度”[23]。鑒于語(yǔ)料抽樣方案已將文本抽取分為12個(gè)部類,相較于不同部類而言,同一部類的文本顯然具有較高相似度,故相似度計(jì)算將依次在各部類中200個(gè)文本間進(jìn)行。
自然語(yǔ)言處理(NLP)中對(duì)于文本相似度的計(jì)算方法大致基于文本表面相似度計(jì)算和文本語(yǔ)義相似度計(jì)算兩個(gè)方向[24]。文本表面相似度算法主要以字符或術(shù)語(yǔ)的匹配程度和距離為依據(jù),如:Levenshtein距離(編輯距離)、SimHash、Jaro距離等;文本語(yǔ)義相似度算法則更注重衡量字詞在文本中的真實(shí)含義,如:N-gram、Word2vec、TF-IDF及ConvNet等。
這里擬采用的基本思路是:1.提取“漢-英平行語(yǔ)料庫(kù)”中的英語(yǔ)語(yǔ)料文本特征;2.以每個(gè)文本的維度實(shí)數(shù)值構(gòu)建向量空間模型(VSM);3.基于VSM做分類運(yùn)算,得出分類模型;4.依照以上步驟1、2將“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”中的文本轉(zhuǎn)換成文本向量;5.將文本向量依次輸入分類模型,得出分類數(shù)值。其整體處理流程如圖6所示。
圖6 文本可比度計(jì)算整體流程
建立分類模型需要預(yù)先將文本分類標(biāo)注并導(dǎo)入類別數(shù)值,將“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”中文本的向量實(shí)數(shù)值輸入分類模型便可得出其與“漢-英平行語(yǔ)料庫(kù)”中文本的匹配值(區(qū)間為0-1),取最大匹配值進(jìn)行文本匹配即可。
4.語(yǔ)料對(duì)齊
對(duì)于平行語(yǔ)料庫(kù)的加工而言,語(yǔ)料對(duì)齊工作必不可少,對(duì)齊單位可分為篇章、段落、句、詞幾個(gè)層次,單位粒度越小,提供的語(yǔ)言信息就越多,其應(yīng)用的價(jià)值也就越大[25]。出于實(shí)際需求和加工成本考慮,本“漢-英平行語(yǔ)料庫(kù)”擬使用Tmxmall Aligner 進(jìn)行句級(jí)對(duì)齊,以2018年《生態(tài)學(xué)報(bào)》中所抽取的一篇摘要文本為例,其具體對(duì)齊結(jié)果如圖7所示。
圖7 “中國(guó)生態(tài)…建設(shè)”摘要漢英文本對(duì)齊
對(duì)齊后的文件將依據(jù)3.2.3可比度計(jì)算后的文本匹配結(jié)果與“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”中的文本實(shí)現(xiàn)篇章級(jí)對(duì)齊,以構(gòu)建“漢-英-英可比語(yǔ)料庫(kù)”,最終文本將分別以雙文本對(duì)齊和三文本對(duì)齊的形式存儲(chǔ)為tmx及txt兩種格式。此外可利用Tmxmall Aligner依據(jù)詞頻直接提取術(shù)語(yǔ),用于術(shù)語(yǔ)庫(kù)的制作。
語(yǔ)料檢索是對(duì)語(yǔ)料庫(kù)數(shù)據(jù)進(jìn)行篩選提取,發(fā)現(xiàn)及驗(yàn)證語(yǔ)言規(guī)律的重要途徑,正確選擇檢索工具和檢索方法是有效獲取和分析索引結(jié)果的重要保證。本“農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”建設(shè)涉及單語(yǔ)、平行、可比三種庫(kù)型,語(yǔ)料包含漢英雙語(yǔ)且反映二者間的轉(zhuǎn)換關(guān)系,所以對(duì)于語(yǔ)料檢索的要求不僅限于能夠分別提取漢英語(yǔ)料的信息,還需實(shí)現(xiàn)對(duì)語(yǔ)言間翻譯對(duì)應(yīng)關(guān)系的考察分析。
語(yǔ)料庫(kù)檢索工具可根據(jù)語(yǔ)言種類、載體及用途分為單語(yǔ)/雙語(yǔ)、基于網(wǎng)絡(luò)/單機(jī)、通用/專用等幾種類型[26],常用的處理軟件有AntConc、ParaConc、Wordsmith、BFSU ParaConc、GCEPCC等。鑒于本語(yǔ)料庫(kù)文本以Unicode編碼格式存儲(chǔ),且使用XML語(yǔ)言標(biāo)注結(jié)構(gòu)化信息,結(jié)合各檢索軟件的特色優(yōu)勢(shì),這里擬分別選用基于單機(jī)的AntConc和ParaConc工具對(duì)單語(yǔ)語(yǔ)料庫(kù)及平行語(yǔ)料庫(kù)進(jìn)行檢索分析。
此外,北京外國(guó)語(yǔ)大學(xué)近年開(kāi)發(fā)了面向大規(guī)模英漢平行語(yǔ)料庫(kù)的檢索工具“語(yǔ)料庫(kù)檢索平臺(tái)V2.0”[27],該工具同時(shí)具有單、雙語(yǔ)簡(jiǎn)單/復(fù)雜檢索及搭配分析功能;其自主設(shè)計(jì)的ProConc語(yǔ)言兼有通配符和正則表達(dá)式的優(yōu)點(diǎn),可有效用于對(duì)復(fù)雜信息的提取;其分別以Python和C語(yǔ)言編寫(xiě)框架和核心算法,高效且兼容性好[28]。雖然該工具設(shè)計(jì)目的在于處理上億詞量的大規(guī)模語(yǔ)料,其優(yōu)點(diǎn)及特色功能對(duì)于包含平行語(yǔ)料的小型專門(mén)用途語(yǔ)料庫(kù)來(lái)說(shuō)同樣適用,這里將考慮后期引入該檢索工具以提升檢索效果。
語(yǔ)料庫(kù)建設(shè)是一項(xiàng)長(zhǎng)期的系統(tǒng)工程,其投入使用后才是生命周期的開(kāi)始,仍需不斷進(jìn)行完善、管理和維護(hù)。后期可考慮根據(jù)研究需要定期更新或擴(kuò)充語(yǔ)料,調(diào)整語(yǔ)料的分布比例及邏輯結(jié)構(gòu),對(duì)語(yǔ)料進(jìn)行更深層次的標(biāo)注等。此外,語(yǔ)料庫(kù)中的語(yǔ)料經(jīng)過(guò)了篩選和加工,是具有研究?jī)r(jià)值的數(shù)據(jù)資料,其安全性理應(yīng)得到保障,后期建設(shè)可考慮自建語(yǔ)料管理程序,并以普通用戶、語(yǔ)料管理員、系統(tǒng)管理員三個(gè)級(jí)別設(shè)立用戶權(quán)限,避免數(shù)據(jù)被隨意復(fù)制刪改[29]。
本語(yǔ)料庫(kù)的設(shè)計(jì)特點(diǎn)在于將平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)相結(jié)合,這有助于揭示語(yǔ)言的共性和不同語(yǔ)言及語(yǔ)言變體所特有的內(nèi)在規(guī)律,對(duì)比探索原語(yǔ)、譯語(yǔ)及目的語(yǔ)母語(yǔ)之間的異同,為語(yǔ)言對(duì)比及翻譯研究提供語(yǔ)料資源,為相關(guān)教學(xué)實(shí)踐提供語(yǔ)料素材。具體來(lái)說(shuō),其應(yīng)用前景主要體現(xiàn)在以下幾個(gè)方面:
1.基于“農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”的專門(mén)用途英語(yǔ)(ESP)研究。本語(yǔ)料庫(kù)設(shè)計(jì)中的“英語(yǔ)單語(yǔ)語(yǔ)料庫(kù)”所含語(yǔ)料屬原創(chuàng)語(yǔ)料,且集中于特定文本類型、主題、語(yǔ)域,具有較為一致的語(yǔ)境特征,可為研究特定語(yǔ)境下的英語(yǔ)語(yǔ)言特點(diǎn)及語(yǔ)言使用提供有利條件。具體內(nèi)容可涉及語(yǔ)料庫(kù)語(yǔ)言學(xué)常關(guān)注的詞項(xiàng)搭配、句法類連接、語(yǔ)義韻等方面,此外還可以運(yùn)用定量研究法進(jìn)行語(yǔ)域、語(yǔ)篇、修辭及目標(biāo)情景分析,話語(yǔ)方式和策略研究等。
2.基于“農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”的翻譯研究。本語(yǔ)料庫(kù)設(shè)計(jì)中的“漢英平行語(yǔ)料庫(kù)”及“漢-英-英多向可比語(yǔ)料庫(kù)”包含大量具有翻譯轉(zhuǎn)換關(guān)系及譯語(yǔ)-原創(chuàng)語(yǔ)可比關(guān)系的雙語(yǔ)語(yǔ)料,且經(jīng)過(guò)對(duì)齊處理及可比度匹配,后期建設(shè)將繼續(xù)進(jìn)行語(yǔ)法標(biāo)注、翻譯信息標(biāo)注等深度加工。這有利于借助統(tǒng)計(jì)學(xué)方法從詞匯及句式的對(duì)應(yīng)關(guān)系、翻譯策略及方法的選擇等問(wèn)題入手,進(jìn)行相關(guān)翻譯實(shí)踐研究;從翻譯文本詞匯、句式的結(jié)構(gòu)特點(diǎn),句法、語(yǔ)篇的總體特征、語(yǔ)言搭配等方面入手,以原創(chuàng)語(yǔ)文本為參照,探索具體語(yǔ)言對(duì)翻譯語(yǔ)言特征、譯者風(fēng)格等語(yǔ)料庫(kù)翻譯學(xué)特有的研究領(lǐng)域[30];此外,經(jīng)過(guò)對(duì)齊的平行語(yǔ)料是制作翻譯記憶庫(kù)的優(yōu)質(zhì)資源,可直接服務(wù)于翻譯實(shí)踐或用于機(jī)器翻譯、計(jì)算機(jī)輔助翻譯等相關(guān)研究。
3.基于“農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”的教學(xué)研究。語(yǔ)料庫(kù)中語(yǔ)料來(lái)源真實(shí)、豐富且數(shù)量龐大,能夠較好地反映和解釋語(yǔ)言在實(shí)際使用過(guò)程中所呈現(xiàn)的典型特征和規(guī)律,從而為外語(yǔ)教學(xué)提供紀(jì)實(shí)性輔助和參考;同時(shí),其相關(guān)技術(shù)手段,如索引行、詞頻統(tǒng)計(jì)、術(shù)語(yǔ)表生成、關(guān)鍵詞表等,也可為自主學(xué)習(xí)提供有效的技術(shù)支持。從語(yǔ)料庫(kù)及其子庫(kù)分類、語(yǔ)料所屬語(yǔ)域、文體類型來(lái)看,本語(yǔ)料庫(kù)與農(nóng)科專門(mén)用途英語(yǔ)教學(xué)、學(xué)術(shù)論文寫(xiě)作教學(xué)及翻譯教學(xué)有著較強(qiáng)的內(nèi)在聯(lián)系,通過(guò)對(duì)語(yǔ)料的加工檢索可獲取行業(yè)高頻詞匯、習(xí)慣搭配,并以此為基礎(chǔ)分析總結(jié)語(yǔ)篇特點(diǎn),從而為傳統(tǒng)的ESP教學(xué)模式提供補(bǔ)充;通過(guò)引導(dǎo)寫(xiě)作學(xué)習(xí)者利用檢索工具獲取真實(shí)語(yǔ)料素材并進(jìn)行模仿創(chuàng)新,探索語(yǔ)料庫(kù)驅(qū)動(dòng)學(xué)習(xí)模式下的學(xué)術(shù)論文寫(xiě)作教學(xué)改革;通過(guò)剖析平行語(yǔ)料庫(kù)中典型翻譯案例的雙語(yǔ)特點(diǎn)、翻譯策略、譯法技巧,以彌補(bǔ)以往教學(xué)實(shí)例脫離語(yǔ)境的不足。
語(yǔ)料庫(kù)是信息技術(shù)應(yīng)用于語(yǔ)言處理的產(chǎn)物,為語(yǔ)言學(xué)、翻譯學(xué)等領(lǐng)域研究提供了全新的方法論及研究范式,其定量與定性相結(jié)合的研究方法也彌補(bǔ)了以往內(nèi)省式研究的不足,增強(qiáng)了相關(guān)研究的客觀性、科學(xué)性[31]。小型化專門(mén)用途語(yǔ)料庫(kù)的建設(shè)可滿足對(duì)于特定語(yǔ)域、主題、話語(yǔ)范疇語(yǔ)言及語(yǔ)言變體的研究需要,符合當(dāng)今語(yǔ)料庫(kù)的建設(shè)發(fā)展趨勢(shì)。本文所述“農(nóng)科學(xué)術(shù)論文摘要漢英語(yǔ)料庫(kù)”建成后以期用于農(nóng)科專門(mén)用途英語(yǔ)研究及相關(guān)領(lǐng)域的翻譯研究,且為ESP、學(xué)術(shù)論文寫(xiě)作、應(yīng)用翻譯等領(lǐng)域的教學(xué)改革提供新的路徑。誠(chéng)然,要實(shí)現(xiàn)語(yǔ)料庫(kù)的預(yù)期效用,現(xiàn)階段對(duì)于語(yǔ)料的加工尚顯不足,初期的元信息標(biāo)注和詞性標(biāo)注完成后語(yǔ)法標(biāo)注將繼續(xù)跟進(jìn),此外其他深加工的處理方式如翻譯信息標(biāo)注也在進(jìn)一步探索中。
山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2020年4期