盧華國(guó) 張 雅
(南京信息工程大學(xué)文學(xué)院,江蘇南京 210044)
為了提高語(yǔ)言內(nèi)部或語(yǔ)言之間專業(yè)交際的效率,術(shù)語(yǔ)學(xué)家借助術(shù)語(yǔ)標(biāo)準(zhǔn)化來(lái)消除專業(yè)語(yǔ)言中的歧義,其工作原則構(gòu)成了普通術(shù)語(yǔ)學(xué)的基本理念[1],其實(shí)踐成果主要表現(xiàn)為術(shù)語(yǔ)庫(kù)。自20世紀(jì)90年代開始,伴隨著術(shù)語(yǔ)學(xué)研究的描寫轉(zhuǎn)向[2-4],術(shù)語(yǔ)庫(kù)的宏觀和微觀結(jié)構(gòu)也發(fā)生了顯著的變化,不再只是以規(guī)范為導(dǎo)向的單語(yǔ)或雙語(yǔ)術(shù)語(yǔ)集,已經(jīng)轉(zhuǎn)變?yōu)榧婢邔iT用途語(yǔ)言描寫的術(shù)語(yǔ)知識(shí)庫(kù)。具體講,收錄的術(shù)語(yǔ)拓展至名詞以外的其他詞性;除了種-屬和部分-整體等層級(jí)概念關(guān)系,功能、因果、處所等聯(lián)想關(guān)系日益受到重視;術(shù)語(yǔ)的語(yǔ)言維度已然進(jìn)入編纂者的視野,對(duì)句法、搭配以及近義、派生等聚合關(guān)系的描寫在一定程度上模糊了術(shù)語(yǔ)與詞語(yǔ)之間的界限。西班牙格拉納達(dá)大學(xué)以框架術(shù)語(yǔ)學(xué)為依托,編纂了生態(tài)詞庫(kù)(EcoLexicon)[5],加拿大魁北克學(xué)派借鑒詞匯語(yǔ)義學(xué)相關(guān)理論,編纂了環(huán)境詞庫(kù)(DiCoEnviro)[6],二者可以看作是描寫范式下的術(shù)語(yǔ)知識(shí)庫(kù)的代表。
術(shù)語(yǔ)知識(shí)庫(kù)多樣化的信息類型對(duì)數(shù)據(jù)獲取提出了新要求,對(duì)內(nèi)省和文檔閱讀等傳統(tǒng)數(shù)據(jù)獲取方式提出了新挑戰(zhàn)。語(yǔ)料庫(kù)大大突破了編者能夠閱讀的文檔數(shù)量,彌補(bǔ)了編者在專業(yè)知識(shí)儲(chǔ)備和外語(yǔ)語(yǔ)感方面的不足,語(yǔ)料庫(kù)工具的使用又能顯著提高數(shù)據(jù)獲取的效率。因此,語(yǔ)料庫(kù)在術(shù)語(yǔ)知識(shí)庫(kù)編纂中發(fā)揮了不可或缺的作用。然而,筆者發(fā)現(xiàn)鮮有研究系統(tǒng)梳理面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的語(yǔ)料庫(kù)與一般用途的語(yǔ)料庫(kù)在設(shè)計(jì)上的共性和差異。一般認(rèn)為,目的性、代表性和可機(jī)讀性是語(yǔ)料庫(kù)應(yīng)該至少滿足的三個(gè)要求,也是語(yǔ)料庫(kù)設(shè)計(jì)中需要重點(diǎn)考慮的三個(gè)因素:目的性確定了語(yǔ)料庫(kù)的類型特征,代表性制約著語(yǔ)料的規(guī)模和選擇,可機(jī)讀性則對(duì)語(yǔ)料提出了具體的加工要求。本文將以氣象學(xué)科為例,從語(yǔ)料庫(kù)設(shè)計(jì)的類型定位以及語(yǔ)料的規(guī)模、選擇和處理四方面探討如何設(shè)計(jì)面向氣象術(shù)語(yǔ)知識(shí)庫(kù)編纂的氣象英語(yǔ)語(yǔ)料庫(kù)。
不同類型的語(yǔ)料庫(kù)對(duì)語(yǔ)料的規(guī)模、選擇和處理有著不同的要求。因此,明確氣象英語(yǔ)語(yǔ)料庫(kù)的類型定位是語(yǔ)料庫(kù)設(shè)計(jì)的前提。語(yǔ)料庫(kù)的分類可從多個(gè)角度切入:
(1)單語(yǔ)語(yǔ)料庫(kù)和多語(yǔ)語(yǔ)料庫(kù)。多語(yǔ)語(yǔ)料庫(kù)根據(jù)研究的目的又可以進(jìn)一步分為平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。在平行語(yǔ)料庫(kù)中,兩種語(yǔ)言的語(yǔ)料相互對(duì)應(yīng),即一種語(yǔ)言是另外一種語(yǔ)言的譯文。在可比語(yǔ)料庫(kù)中,兩種語(yǔ)言的語(yǔ)料的收集雖然參照同一個(gè)抽樣框架,但二者在內(nèi)容上并不存在翻譯對(duì)應(yīng)關(guān)系。
(2)通用語(yǔ)料庫(kù)和專用語(yǔ)料庫(kù)。通用語(yǔ)料庫(kù)廣泛采集某種語(yǔ)言的口、筆語(yǔ)形式,取樣時(shí)盡可能考慮口、筆語(yǔ)的主要社會(huì)變體、地域變體、行業(yè)變體等各種變異及語(yǔ)言使用的各種場(chǎng)合之間的平衡,力求最好地代表一種語(yǔ)言的全貌。而專用語(yǔ)料庫(kù)出于某種特定的研究目的,常常只收集某特定領(lǐng)域的語(yǔ)言使用樣本。
(3)共時(shí)語(yǔ)料庫(kù)和歷時(shí)語(yǔ)料庫(kù)。共時(shí)語(yǔ)料庫(kù)由同一時(shí)代(主要是當(dāng)代)的語(yǔ)言使用樣本構(gòu)成,歷時(shí)語(yǔ)料庫(kù)則由不同時(shí)代的語(yǔ)言使用樣本構(gòu)成。
(4)本族語(yǔ)語(yǔ)料庫(kù)和學(xué)習(xí)者語(yǔ)料庫(kù),前者收集的語(yǔ)言使用樣本全部源自本族語(yǔ)者,后者的語(yǔ)料則由非本族語(yǔ)學(xué)習(xí)者語(yǔ)言使用樣本構(gòu)成。
(5)口語(yǔ)語(yǔ)料庫(kù)和筆語(yǔ)語(yǔ)料庫(kù)。雖然,在日常生活中,口頭交際是最主要的交流方式。但是由于口語(yǔ)語(yǔ)料需要先轉(zhuǎn)寫成文本才能由語(yǔ)料庫(kù)分析軟件進(jìn)行識(shí)別和處理,口語(yǔ)語(yǔ)料庫(kù)的建設(shè)需要耗費(fèi)更多的人力和物力,因而純粹的口語(yǔ)語(yǔ)料庫(kù)非常少見[7]4[8]69-74。
綜上所述,語(yǔ)料庫(kù)的分類體系可以用圖1表示。
圖1 語(yǔ)料庫(kù)分類體系
在上述分類體系中,從同一視角對(duì)語(yǔ)料庫(kù)的二元?jiǎng)澐种皇菫榱朔奖阌懻?,并不能排除兩種劃分之間的過(guò)渡類型。例如,時(shí)間跨度只是一個(gè)相對(duì)的概念,歷時(shí)語(yǔ)料庫(kù)和共時(shí)語(yǔ)料庫(kù)之間僅僅存在度的差異,無(wú)法截然分開。盡管如此,該分類體系為理解氣象英語(yǔ)語(yǔ)料庫(kù)的類型特征提供了一個(gè)可參照的框架。首先,氣象英語(yǔ)語(yǔ)料庫(kù)不關(guān)心整個(gè)語(yǔ)言的使用情況,僅專注于氣象學(xué)科,顯然應(yīng)該歸于專用語(yǔ)料庫(kù),這是氣象英語(yǔ)語(yǔ)料庫(kù)最基本的類型特點(diǎn)。此外,氣象英語(yǔ)語(yǔ)料庫(kù)不以翻譯或跨語(yǔ)對(duì)比為研究目標(biāo)。其次,氣象英語(yǔ)語(yǔ)料庫(kù)屬單語(yǔ)語(yǔ)料庫(kù),僅涉及英語(yǔ)這一種語(yǔ)言,旨在記錄和描寫氣象專業(yè)英語(yǔ)的語(yǔ)義/概念或句法特征,所收集的語(yǔ)料源自能夠熟練使用英語(yǔ)進(jìn)行專業(yè)交際的氣象專家,主要指以英語(yǔ)為母語(yǔ)的氣象專業(yè)人士,與服務(wù)于中介語(yǔ)研究的學(xué)習(xí)者語(yǔ)料庫(kù)有著明顯的區(qū)別。再次,氣象交際主要是一種書面語(yǔ)交際,雖然也涉及課堂教學(xué)和學(xué)術(shù)講座等口頭形式,但是本質(zhì)上屬于正式的語(yǔ)體。因此,氣象英語(yǔ)語(yǔ)料庫(kù)可歸為筆語(yǔ)語(yǔ)料庫(kù)。最后,氣象英語(yǔ)語(yǔ)料庫(kù)關(guān)注的是當(dāng)代氣象英語(yǔ)的使用情況,并不特別關(guān)心氣象英語(yǔ)的發(fā)展變化,因而本質(zhì)上屬于共時(shí)語(yǔ)料庫(kù)。通過(guò)在語(yǔ)料庫(kù)的整個(gè)分類體系中對(duì)氣象英語(yǔ)語(yǔ)料庫(kù)進(jìn)行定位,可以幫助語(yǔ)料庫(kù)的設(shè)計(jì)者從宏觀上把握其類型特征,為確定語(yǔ)料的規(guī)模大小、語(yǔ)料選擇的具體標(biāo)準(zhǔn)、語(yǔ)料的加工處理奠定基礎(chǔ)。
語(yǔ)料的規(guī)模是指語(yǔ)料庫(kù)所包含的形符(token)總數(shù)(包含多次出現(xiàn)且被重復(fù)計(jì)入的詞),是設(shè)計(jì)者在語(yǔ)料庫(kù)建設(shè)之初就需要考慮的一個(gè)重要方面。20世紀(jì)60—70年代,語(yǔ)料的收集主要靠鍵盤輸入和光學(xué)掃描,需要耗費(fèi)大量的時(shí)間、人力和資金。受技術(shù)水平的限制,能夠存儲(chǔ)和處理的數(shù)據(jù)量也非常有限。而現(xiàn)在大部分文本都以電子形式存在,省去了人工輸入之苦。就硬件而言,普通的個(gè)人電腦已經(jīng)能夠滿足語(yǔ)料庫(kù)建設(shè)對(duì)海量數(shù)據(jù)的存儲(chǔ)和處理要求。因此,討論“語(yǔ)料規(guī)模需要有多大”比探討“語(yǔ)料規(guī)模能有多大”更有實(shí)際意義。
語(yǔ)料規(guī)模的大小首先取決于建庫(kù)的目的。語(yǔ)料庫(kù)可用于研究語(yǔ)法,也可以用于考察詞匯。與詞匯相比,語(yǔ)法結(jié)構(gòu)數(shù)量少且復(fù)現(xiàn)率高,所以用于研究語(yǔ)法特征的語(yǔ)料規(guī)模較小。例如,Biber[9]指出1000詞的語(yǔ)料就能滿足研究英語(yǔ)動(dòng)詞現(xiàn)在時(shí)和過(guò)去時(shí)的需要。用于考察詞匯特征的語(yǔ)料規(guī)模則需要大很多[10]。由齊普夫定律[11]可知,部分詞匯(如and、the)在文本中出現(xiàn)的頻率非常高,部分詞匯的出現(xiàn)頻率卻非常低。只有增加語(yǔ)料的規(guī)模,才可能增加相對(duì)生僻的詞匯在語(yǔ)料庫(kù)中出現(xiàn)的頻次。對(duì)詞典編纂而言,只有當(dāng)語(yǔ)料庫(kù)包含的類符總量足夠大時(shí),基于語(yǔ)料庫(kù)產(chǎn)生的詞表才能滿足詞典對(duì)收詞量的需要,為詞典編者提供足夠量的索引行作為描寫詞匯特征的數(shù)據(jù)基礎(chǔ)。Krishnamurthy[12]認(rèn)為形符量達(dá)到1億的語(yǔ)料庫(kù)能夠滿足袖珍詞典的編纂需要,但是還不足以用來(lái)描寫詞匯的類連接特征。Atkins和Rundell[8]54指出有時(shí)候一個(gè)詞即使在語(yǔ)料庫(kù)中出現(xiàn)100次也不足以保證描寫詞匯特征所需要的確定性(descriptive certainty)。如果被描寫的詞是多義詞,有著復(fù)雜的語(yǔ)法結(jié)構(gòu)和豐富的搭配型式,那么語(yǔ)料規(guī)模只有成倍增加才能滿足編者描寫多義詞的需要。
語(yǔ)料的規(guī)模還與涉及的領(lǐng)域(domain)或主題(topic)的多少和寬窄有關(guān)。就通用語(yǔ)料庫(kù)而言,為了取得平衡的效果,語(yǔ)料往往需要涵蓋多個(gè)主題,其規(guī)模也必然很大。相比之下,“專用語(yǔ)料庫(kù)往往較小,但是依然能夠代表專業(yè)語(yǔ)言變體,因?yàn)樯婕暗膶I(yè)領(lǐng)域越窄,代表該領(lǐng)域所需要的文本數(shù)量就越小”[13]408。專用語(yǔ)料庫(kù)在語(yǔ)料規(guī)模方面的這一特點(diǎn)與術(shù)語(yǔ)自身的特點(diǎn)是分不開的。首先,與通用詞匯比,術(shù)語(yǔ)具有專業(yè)特殊性(domain-specificity),數(shù)量相對(duì)少,在專業(yè)文本中的分布密集程度高。因此,規(guī)模較小的專用語(yǔ)料庫(kù)也能夠滿足術(shù)語(yǔ)研究對(duì)覆蓋范圍和復(fù)現(xiàn)率的要求。其次,由于術(shù)語(yǔ)在搭配方面透明度高且規(guī)律性強(qiáng),無(wú)需借助對(duì)大量語(yǔ)料的頻次統(tǒng)計(jì)以濾掉那些高度依賴語(yǔ)境的非典型搭配(例如,...went to the graveyard with weeping eyes and hairs 中的軛式搭配weeping eyes and hairs)。最后,在術(shù)語(yǔ)中,單義術(shù)語(yǔ)占據(jù)多數(shù),即使有多義術(shù)語(yǔ),其義項(xiàng)數(shù)量與通用語(yǔ)言中的常用詞匯(如break)也不可同日而語(yǔ)。因此,描寫術(shù)語(yǔ)需要的索引行的數(shù)量在理論上比描寫常用詞匯要小。
Bowker和Pearson[14]45指出“不應(yīng)該想當(dāng)然地認(rèn)為(專用語(yǔ)料庫(kù))總是越大越好”。李德俊[15]98也提醒說(shuō),由于“規(guī)模悖論”的存在,語(yǔ)料庫(kù)的規(guī)模并不是越大越好,在語(yǔ)料庫(kù)建設(shè)時(shí),要特別注意“收益遞減率”(the law of diminishing returns)。作為典型的專用語(yǔ)料庫(kù),氣象英語(yǔ)語(yǔ)料庫(kù)僅涉及氣象專業(yè)文本,其語(yǔ)料規(guī)模無(wú)需達(dá)到通用語(yǔ)料庫(kù)的級(jí)別。參考同類面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的專用語(yǔ)料庫(kù)的設(shè)計(jì)經(jīng)驗(yàn)(如[16]),筆者認(rèn)為氣象英語(yǔ)語(yǔ)料庫(kù)的語(yǔ)料規(guī)模至少達(dá)到百萬(wàn)級(jí)別,才能滿足氣象術(shù)語(yǔ)知識(shí)庫(kù)術(shù)語(yǔ)知識(shí)描寫對(duì)語(yǔ)料規(guī)模的要求。此外,考慮到氣象英語(yǔ)中新術(shù)語(yǔ)、新用法持續(xù)出現(xiàn)的特點(diǎn),氣象英語(yǔ)語(yǔ)料庫(kù)應(yīng)該呈現(xiàn)出一定的開放性,允許編者根據(jù)編纂的實(shí)際需要定期補(bǔ)充新文本。換言之,氣象英語(yǔ)語(yǔ)料庫(kù)的語(yǔ)料收集不是一次就能完成的,而是一個(gè)在百萬(wàn)級(jí)別基礎(chǔ)上不斷充實(shí)的動(dòng)態(tài)過(guò)程。
語(yǔ)料有規(guī)模大小之別,但代表性是其共同特點(diǎn)。語(yǔ)料的代表性主要通過(guò)對(duì)文本的選擇來(lái)實(shí)現(xiàn)。文本選擇的標(biāo)準(zhǔn)可以分為內(nèi)部標(biāo)準(zhǔn)和外部標(biāo)準(zhǔn)兩類。就通用語(yǔ)料庫(kù)而言,語(yǔ)料選擇的內(nèi)部標(biāo)準(zhǔn)是指文本所共享的語(yǔ)言或文體特征。Atkins和Rundell[8]54介紹了基于內(nèi)部標(biāo)準(zhǔn)的文本選擇過(guò)程:(1)選擇系列來(lái)源不同的文本;(2)分析文本中反復(fù)出現(xiàn)的詞匯或語(yǔ)法特征(如語(yǔ)態(tài)、人稱、搭配);(3)基于這些特點(diǎn)嘗試對(duì)文本進(jìn)行分類;(4)收集更多能夠包含這些語(yǔ)言特征的文本,繼續(xù)分析文本的語(yǔ)言特征,改進(jìn)其分類,收集更多文本,直至這些特征在語(yǔ)料庫(kù)中更清晰地反映出來(lái)。值得注意的是,依據(jù)內(nèi)部標(biāo)準(zhǔn)從語(yǔ)料中獲取的數(shù)據(jù)可能因循環(huán)論證而信度受損[17]171。鑒于此,Sinclair[17]提出按照文本的情景、功能等非語(yǔ)言(non-linguistic)或語(yǔ)言外(extra-linguistic)特征選擇語(yǔ)料,這樣至少可以使語(yǔ)言特征在語(yǔ)料庫(kù)建設(shè)的開始階段不受文本選擇的影響。語(yǔ)料庫(kù)的建設(shè)者在按照外部標(biāo)準(zhǔn)選擇語(yǔ)料的同時(shí),還可以根據(jù)從語(yǔ)料分析中獲取的語(yǔ)言特征評(píng)估和改進(jìn)語(yǔ)料的代表性[18]150,從而把外部標(biāo)準(zhǔn)和內(nèi)部標(biāo)準(zhǔn)統(tǒng)一到文本的選擇過(guò)程中。
專用語(yǔ)料庫(kù)也可以把語(yǔ)言特征作為選擇專業(yè)文本的內(nèi)部標(biāo)準(zhǔn)。Halskov[19]主張把易讀性(readability)和專業(yè)知識(shí)密度作為衡量專業(yè)文本質(zhì)量的重要指標(biāo)。他認(rèn)為易讀性是學(xué)術(shù)文本的重要特征,與句子長(zhǎng)度、詞(包括復(fù)合詞)長(zhǎng)度和被動(dòng)語(yǔ)態(tài)的使用量呈反比關(guān)系,與通用詞匯密度和人稱代詞的使用量呈正比關(guān)系。專業(yè)知識(shí)密度是學(xué)術(shù)文本的另一個(gè)特征,與未登錄詞(out of vocabulary words,指在自然語(yǔ)言處理中沒(méi)有被詞典收錄的各類專有名詞、縮略語(yǔ)、新增詞匯等)和知識(shí)型式(主要包含詞匯或語(yǔ)法標(biāo)記語(yǔ),能夠幫助文本讀者理解概念的意義和概念之間的關(guān)系)的密度呈正比關(guān)系。換言之,易讀性越低,知識(shí)密度越高,文本質(zhì)量就越高。易讀性和知識(shí)密度雖然為專用語(yǔ)料庫(kù)的文本選擇提供了參考,但是由于偏好知識(shí)密集型文本,容易造成文本類型單一的缺點(diǎn)。
Bowker 和 Pearson[14]51指出,為了保證更全面地覆蓋專門用途語(yǔ)言的概念和語(yǔ)言特征,專用語(yǔ)料庫(kù)應(yīng)該選擇與所涉學(xué)科相關(guān)的各類文本。他們根據(jù)參與方把專業(yè)交際分為專家-專家、專家-初學(xué)者(initiate)、相對(duì)專家(relative expert)-外行(uninitiate)和老師-學(xué)生四種類型[20]35-39。他們認(rèn)為,第三種交際不僅術(shù)語(yǔ)密度低,而且對(duì)術(shù)語(yǔ)的使用也比較隨意,因而主張把該類交際中涉及的文本排除在語(yǔ)料庫(kù)之外。筆者認(rèn)為在該類交際中,鑒于信息接受者的專業(yè)知識(shí)水平低,信息發(fā)出者為了有效傳遞專業(yè)信息,往往以深入淺出的方式對(duì)核心概念進(jìn)行解釋,專業(yè)文本因而提供了較豐富的認(rèn)知語(yǔ)境信息,也值得納入專用語(yǔ)料庫(kù)的選材范圍。
就氣象英語(yǔ)語(yǔ)料庫(kù)而言,這四類交際場(chǎng)景涉及專著(如SevereConvectiveStorms)和學(xué)術(shù)期刊(如AtmosphericResearch)、專業(yè)教材(如AnIntroductiontoDynamicMeteorology)、報(bào)刊科普或?qū)谖恼?如ScienceDaily網(wǎng)站上有關(guān)氣象的科普文章)、入門級(jí)教材(如EssentialsofMeteorology:AnInvitationtotheAtmosphere)等文本類型。Bergenholtz和Tarp[21]94指出專用語(yǔ)料庫(kù)在選擇文本的時(shí)候還應(yīng)該兼顧各個(gè)子學(xué)科并根據(jù)其重要性確定各類文本在語(yǔ)料中所占的比重。具體到氣象英語(yǔ)語(yǔ)料庫(kù),對(duì)語(yǔ)料的選擇應(yīng)該至少涵蓋大氣、大氣探測(cè)、大氣物理學(xué)、大氣化學(xué)、動(dòng)力物理學(xué)、天氣學(xué)、氣候?qū)W、應(yīng)用氣象學(xué)8個(gè)學(xué)科分支。
語(yǔ)料庫(kù)的一大優(yōu)勢(shì)是可以借助分析軟件對(duì)語(yǔ)料進(jìn)行多文本檢索,快速提取所需要的具體信息或統(tǒng)計(jì)某一語(yǔ)言特征的整體分布情況。語(yǔ)料的可機(jī)讀性是語(yǔ)料庫(kù)發(fā)揮這一優(yōu)勢(shì)的前提。為此,首先需要對(duì)選取的語(yǔ)料進(jìn)行清潔處理。用于氣象英語(yǔ)語(yǔ)料庫(kù)建設(shè)的語(yǔ)料資源多是PDF和HTML數(shù)字文本,在投入使用之前,需要統(tǒng)一轉(zhuǎn)換成純文本。在此過(guò)程中,還會(huì)產(chǎn)生一些不合規(guī)范的符號(hào)或格式,若不加以清理會(huì)導(dǎo)致詞匯分析、搭配統(tǒng)計(jì)不準(zhǔn)確以及詞性賦碼出錯(cuò)或無(wú)法進(jìn)行[7]32。此外,由于語(yǔ)料來(lái)源于各種類型的出版物,被選取的文本可能還包含致謝、版權(quán)頁(yè)、頁(yè)頭書名、圖表公式、索引目錄、參考文獻(xiàn)等內(nèi)容。它們對(duì)氣象術(shù)語(yǔ)知識(shí)庫(kù)編纂沒(méi)有參考價(jià)值,也需要從文本中清理出去[8]85。
在進(jìn)行必要的清理之后,還需要對(duì)語(yǔ)料做進(jìn)一步的處理,以便借助軟件從語(yǔ)料分析中得到更準(zhǔn)確的結(jié)果:(1)分詞處理(tokenization)是語(yǔ)料預(yù)處理中的一個(gè)常見步驟,指將一連串的字符轉(zhuǎn)換成相互分離、容易識(shí)別的形符。梁茂成、李文中和許家金[7]45指出,如果不對(duì)語(yǔ)料進(jìn)行分詞處理,一來(lái)容易導(dǎo)致檢索困難,二來(lái)可能會(huì)使語(yǔ)料庫(kù)的頻率統(tǒng)計(jì)出現(xiàn)誤差,還可能會(huì)影響語(yǔ)料庫(kù)的標(biāo)注和后期加工。(2)詞目還原(lemmatization)是語(yǔ)料預(yù)處理中的另一項(xiàng)基本操作,是指將詞匯的各種屈折形式映射至原形,使分析軟件能夠把它們歸并為同一個(gè)類符,從而把與詞目相關(guān)的各類統(tǒng)計(jì)信息匯總在一起。氣象英語(yǔ)語(yǔ)料庫(kù)同樣有必要進(jìn)行分詞和詞目還原,但是由于某些分析軟件(如術(shù)語(yǔ)提取軟件TermoStat、搭配關(guān)系和概念關(guān)系提取軟件Sketch Engine)已經(jīng)整合了這兩項(xiàng)功能,語(yǔ)料庫(kù)的建設(shè)者無(wú)需對(duì)語(yǔ)料再做這方面的處理。
Leech[22]4指出“為了從語(yǔ)料庫(kù)中提取信息,經(jīng)常得先從輸入信息開始”。對(duì)語(yǔ)料進(jìn)行清理、分詞和削尾處理之后,語(yǔ)料庫(kù)已經(jīng)可以投入使用,但是為了讓使用者更合理地解讀由軟件獲取的分析結(jié)果,還需要增加元數(shù)據(jù)(meta-data)標(biāo)記,盡可能恢復(fù)在語(yǔ)料采集中丟失的語(yǔ)境信息。在各類元數(shù)據(jù)中,文本分類信息和結(jié)構(gòu)信息對(duì)合理解讀從語(yǔ)料庫(kù)中獲取的數(shù)據(jù)特別重要[18]155。就英語(yǔ)氣象術(shù)語(yǔ)知識(shí)庫(kù)而言,前者旨在明確某一具體文本在氣象學(xué)學(xué)科體系中的定位,可以幫助編者確定某一術(shù)語(yǔ)或特征的學(xué)科分支來(lái)源。后者旨在說(shuō)明文本的各組件之間的界限(如學(xué)術(shù)論文的摘要、綜述、結(jié)論等組件)。這類信息可幫助編者確定某一語(yǔ)言特征在文本中的不同位置,從而結(jié)合文本結(jié)構(gòu)對(duì)數(shù)據(jù)做出更全面的解讀。
語(yǔ)料還需要進(jìn)行必要的標(biāo)注。對(duì)術(shù)語(yǔ)數(shù)據(jù)庫(kù)創(chuàng)建而言,術(shù)語(yǔ)、搭配和概念關(guān)系這三類信息至關(guān)重要,一般需要利用正則表達(dá)式設(shè)置復(fù)雜的檢索條件才能加以提取。以下是兩款軟件從語(yǔ)料中提取術(shù)語(yǔ)、搭配和概念關(guān)系等信息類型所使用的檢索語(yǔ)法:
TermoStat的名詞術(shù)語(yǔ)檢索語(yǔ)法[23]:
(A|N)? (A|N)?(A|N)?(A|N)?(A|N)?N
Sketch Engine的“動(dòng)詞+名詞”搭配檢索語(yǔ)法[24]:
1: "V" "(DET|NUM|ADJ|ADV|N)"* 2: "N"
Sketch Engine的種屬關(guān)系檢索語(yǔ)法[24]:
HYPONYM,|(|:|is|belongs (to) (a|the|...) type|category|...of HYPERNYM
從以上檢索語(yǔ)法可知,增加詞性標(biāo)注是提取以上信息類型的前提。因此,對(duì)語(yǔ)料進(jìn)行詞性賦碼是面向術(shù)語(yǔ)數(shù)據(jù)庫(kù)的語(yǔ)料加工處理的基本內(nèi)容。術(shù)語(yǔ)提取軟件TermoStat默認(rèn)對(duì)上傳的語(yǔ)料進(jìn)行賦碼處理。語(yǔ)料庫(kù)檢索軟件Sketch Engine為英語(yǔ)就提供了11種詞性賦碼集,語(yǔ)料庫(kù)建設(shè)者根據(jù)需要選擇其中一種賦碼后,軟件自動(dòng)完成對(duì)語(yǔ)料的詞性賦碼。
語(yǔ)料庫(kù)設(shè)計(jì)是從語(yǔ)料庫(kù)中提取可靠數(shù)據(jù)的關(guān)鍵。為了建設(shè)面向術(shù)語(yǔ)知識(shí)庫(kù)編纂的語(yǔ)料庫(kù),編者需要首先在語(yǔ)料庫(kù)分類體系中為專用語(yǔ)料庫(kù)定位以明確其類型特征,然后根據(jù)語(yǔ)料庫(kù)的建設(shè)目的和涉及的主題范圍確定語(yǔ)料的大致規(guī)模,并根據(jù)數(shù)據(jù)提取中出現(xiàn)的新情況向語(yǔ)料庫(kù)中添加新語(yǔ)料。為了保證語(yǔ)料庫(kù)的代表性,編者還需要根據(jù)專業(yè)交際的特點(diǎn)和學(xué)科的內(nèi)部構(gòu)成確定語(yǔ)料選擇的標(biāo)準(zhǔn)。最后在使用語(yǔ)料之前,還應(yīng)該對(duì)收集的文本進(jìn)行必要的格式轉(zhuǎn)換、內(nèi)容清理、信息標(biāo)注等處理。