亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向術(shù)語知識庫編纂的專用語料庫設(shè)計

2021-10-08 04:04:43盧華國張雅

中國科技術(shù)語 2021年4期

盧華國張雅

摘要：術(shù)語信息的多樣化需求對術(shù)語數(shù)據(jù)來源提出了新要求，專用語料庫在術(shù)語知識庫編纂中發(fā)揮了愈益重要的作用。文章以氣象學(xué)科為例，通過與通用語料庫比較，從類型定位、語料規(guī)模、語料選擇和語料加工四方面明確了如何設(shè)計面向術(shù)語知識庫編纂的專用語料庫。

關(guān)鍵詞：術(shù)語信息;術(shù)語數(shù)據(jù);術(shù)語知識庫;專用語料庫

中圖分類號：H083? 文獻標(biāo)識碼：A? DOI：10.12339/j.issn.1673-8578.2021.04.002

Designing Specialized Corpora for Compiling Terminological Knowledge Bases//LU Huaguo， ZHANG Ya

Abstract： Due to the diversified needs of terminological information， new requirements are put forward for the sources of terminological data， and specialized corpora play an increasingly important role in the compilation of terminological knowledge bases. Using meteorology as an example and making a comparison with general corpora， this paper discusses how to design a special corpus for term knowledge base compilation from the following four aspects： corpus classification， text size， text selection， and text processing.

Keywords： terminological information; terminological data; terminological knowledge base; specialized corpora

收稿日期：2021-05-17? 修回日期：2021-06-04

基金項目：江蘇高校哲學(xué)社會科學(xué)研究項目“英漢學(xué)習(xí)詞典中多義詞認知表征及習(xí)得效果研究”（2020SJA0193） ;國家語言文字工作委員會漢語辭書研究中心開放課題“基于描寫術(shù)語學(xué)的英漢?？茖W(xué)習(xí)詞典語境化設(shè)計研究”（CSZX-YB-202013）

引言

為了提高語言內(nèi)部或語言之間專業(yè)交際的效率，術(shù)語學(xué)家借助術(shù)語標(biāo)準(zhǔn)化來消除專業(yè)語言中的歧義，其工作原則構(gòu)成了普通術(shù)語學(xué)的基本理念[1]，其實踐成果主要表現(xiàn)為術(shù)語庫。自20世紀90年代開始，伴隨著術(shù)語學(xué)研究的描寫轉(zhuǎn)向[2-4]，術(shù)語庫的宏觀和微觀結(jié)構(gòu)也發(fā)生了顯著的變化，不再只是以規(guī)范為導(dǎo)向的單語或雙語術(shù)語集，已經(jīng)轉(zhuǎn)變?yōu)榧婢邔ｉT用途語言描寫的術(shù)語知識庫。具體講，收錄的術(shù)語拓展至名詞以外的其他詞性;除了種-屬和部分-整體等層級概念關(guān)系，功能、因果、處所等聯(lián)想關(guān)系日益受到重視;術(shù)語的語言維度已然進入編纂者的視野，對句法、搭配以及近義、派生等聚合關(guān)系的描寫在一定程度上模糊了術(shù)語與詞語之間的界限。西班牙格拉納達大學(xué)以框架術(shù)語學(xué)為依托，編纂了生態(tài)詞庫（EcoLexicon）[5]，加拿大魁北克學(xué)派借鑒詞匯語義學(xué)相關(guān)理論，編纂了環(huán)境詞庫（DiCoEnviro）[6]，二者可以看作是描寫范式下的術(shù)語知識庫的代表。

術(shù)語知識庫多樣化的信息類型對數(shù)據(jù)獲取提出了新要求，對內(nèi)省和文檔閱讀等傳統(tǒng)數(shù)據(jù)獲取方式提出了新挑戰(zhàn)。語料庫大大突破了編者能夠閱讀的文檔數(shù)量，彌補了編者在專業(yè)知識儲備和外語語感方面的不足，語料庫工具的使用又能顯著提高數(shù)據(jù)獲取的效率。因此，語料庫在術(shù)語知識庫編纂中發(fā)揮了不可或缺的作用。然而，筆者發(fā)現(xiàn)鮮有研究系統(tǒng)梳理面向術(shù)語知識庫編纂的語料庫與一般用途的語料庫在設(shè)計上的共性和差異。一般認為，目的性、代表性和可機讀性是語料庫應(yīng)該至少滿足的三個要求，也是語料庫設(shè)計中需要重點考慮的三個因素：目的性確定了語料庫的類型特征，代表性制約著語料的規(guī)模和選擇，可機讀性則對語料提出了具體的加工要求。本文將以氣象學(xué)科為例，從語料庫設(shè)計的類型定位以及語料的規(guī)模、選擇和處理四方面探討如何設(shè)計面向氣象術(shù)語知識庫編纂的氣象英語語料庫。

1 類型定位

不同類型的語料庫對語料的規(guī)模、選擇和處理有著不同的要求。因此，明確氣象英語語料庫的類型定位是語料庫設(shè)計的前提。語料庫的分類可從多個角度切入：

（1）單語語料庫和多語語料庫。多語語料庫根據(jù)研究的目的又可以進一步分為平行語料庫和可比語料庫。在平行語料庫中，兩種語言的語料相互對應(yīng)，即一種語言是另外一種語言的譯文。在可比語料庫中，兩種語言的語料的收集雖然參照同一個抽樣框架，但二者在內(nèi)容上并不存在翻譯對應(yīng)關(guān)系。

（2）通用語料庫和專用語料庫。通用語料庫廣泛采集某種語言的口、筆語形式，取樣時盡可能考慮口、筆語的主要社會變體、地域變體、行業(yè)變體等各種變異及語言使用的各種場合之間的平衡，力求最好地代表一種語言的全貌。而專用語料庫出于某種特定的研究目的，常常只收集某特定領(lǐng)域的語言使用樣本。

（3）共時語料庫和歷時語料庫。共時語料庫由同一時代（主要是當(dāng)代）的語言使用樣本構(gòu)成，歷時語料庫則由不同時代的語言使用樣本構(gòu)成。

（4）本族語語料庫和學(xué)習(xí)者語料庫，前者收集的語言使用樣本全部源自本族語者，后者的語料則由非本族語學(xué)習(xí)者語言使用樣本構(gòu)成。

（5）口語語料庫和筆語語料庫。雖然，在日常生活中，口頭交際是最主要的交流方式。但是由于口語語料需要先轉(zhuǎn)寫成文本才能由語料庫分析軟件進行識別和處理，口語語料庫的建設(shè)需要耗費更多的人力和物力，因而純粹的口語語料庫非常少見[7]4[8]69-74。

綜上所述，語料庫的分類體系可以用圖1表示。

在上述分類體系中，從同一視角對語料庫的二元劃分只是為了方便討論，并不能排除兩種劃分之間的過渡類型。例如，時間跨度只是一個相對的概念，歷時語料庫和共時語料庫之間僅僅存在度的差異，無法截然分開。盡管如此，該分類體系為理解氣象英語語料庫的類型特征提供了一個可參照的框架。首先，氣象英語語料庫不關(guān)心整個語言的使用情況，僅專注于氣象學(xué)科，顯然應(yīng)該歸于專用語料庫，這是氣象英語語料庫最基本的類型特點。此外，氣象英語語料庫不以翻譯或跨語對比為研究目標(biāo)。其次，氣象英語語料庫屬單語語料庫，僅涉及英語這一種語言，旨在記錄和描寫氣象專業(yè)英語的語義/概念或句法特征，所收集的語料源自能夠熟練使用英語進行專業(yè)交際的氣象專家，主要指以英語為母語的氣象專業(yè)人士，與服務(wù)于中介語研究的學(xué)習(xí)者語料庫有著明顯的區(qū)別。再次，氣象交際主要是一種書面語交際，雖然也涉及課堂教學(xué)和學(xué)術(shù)講座等口頭形式，但是本質(zhì)上屬于正式的語體。因此，氣象英語語料庫可歸為筆語語料庫。最后，氣象英語語料庫關(guān)注的是當(dāng)代氣象英語的使用情況，并不特別關(guān)心氣象英語的發(fā)展變化，因而本質(zhì)上屬于共時語料庫。通過在語料庫的整個分類體系中對氣象英語語料庫進行定位，可以幫助語料庫的設(shè)計者從宏觀上把握其類型特征，為確定語料的規(guī)模大小、語料選擇的具體標(biāo)準(zhǔn)、語料的加工處理奠定基礎(chǔ)。

2 語料規(guī)模

語料的規(guī)模是指語料庫所包含的形符（token）總數(shù)（包含多次出現(xiàn)且被重復(fù)計入的詞），是設(shè)計者在語料庫建設(shè)之初就需要考慮的一個重要方面。20世紀60—70年代，語料的收集主要靠鍵盤輸入和光學(xué)掃描，需要耗費大量的時間、人力和資金。受技術(shù)水平的限制，能夠存儲和處理的數(shù)據(jù)量也非常有限。而現(xiàn)在大部分文本都以電子形式存在，省去了人工輸入之苦。就硬件而言，普通的個人電腦已經(jīng)能夠滿足語料庫建設(shè)對海量數(shù)據(jù)的存儲和處理要求。因此，討論“語料規(guī)模需要有多大”比探討“語料規(guī)模能有多大”更有實際意義。

語料規(guī)模的大小首先取決于建庫的目的。語料庫可用于研究語法，也可以用于考察詞匯。與詞匯相比，語法結(jié)構(gòu)數(shù)量少且復(fù)現(xiàn)率高，所以用于研究語法特征的語料規(guī)模較小。例如，Biber[9]指出1000詞的語料就能滿足研究英語動詞現(xiàn)在時和過去時的需要。用于考察詞匯特征的語料規(guī)模則需要大很多[10]。由齊普夫定律[11]可知，部分詞匯（如and、the）在文本中出現(xiàn)的頻率非常高，部分詞匯的出現(xiàn)頻率卻非常低。只有增加語料的規(guī)模，才可能增加相對生僻的詞匯在語料庫中出現(xiàn)的頻次。對詞典編纂而言，只有當(dāng)語料庫包含的類符總量足夠大時，基于語料庫產(chǎn)生的詞表才能滿足詞典對收詞量的需要，為詞典編者提供足夠量的索引行作為描寫詞匯特征的數(shù)據(jù)基礎(chǔ)。Krishnamurthy[12]認為形符量達到1億的語料庫能夠滿足袖珍詞典的編纂需要，但是還不足以用來描寫詞匯的類連接特征。Atkins和Rundell[8]54指出有時候一個詞即使在語料庫中出現(xiàn)100次也不足以保證描寫詞匯特征所需要的確定性（descriptive certainty）。如果被描寫的詞是多義詞，有著復(fù)雜的語法結(jié)構(gòu)和豐富的搭配型式，那么語料規(guī)模只有成倍增加才能滿足編者描寫多義詞的需要。

語料的規(guī)模還與涉及的領(lǐng)域（domain）或主題（topic）的多少和寬窄有關(guān)。就通用語料庫而言，為了取得平衡的效果，語料往往需要涵蓋多個主題，其規(guī)模也必然很大。相比之下，“專用語料庫往往較小，但是依然能夠代表專業(yè)語言變體，因為涉及的專業(yè)領(lǐng)域越窄，代表該領(lǐng)域所需要的文本數(shù)量就越小”[13]408。專用語料庫在語料規(guī)模方面的這一特點與術(shù)語自身的特點是分不開的。首先，與通用詞匯比，術(shù)語具有專業(yè)特殊性（domain-specificity），數(shù)量相對少，在專業(yè)文本中的分布密集程度高。因此，規(guī)模較小的專用語料庫也能夠滿足術(shù)語研究對覆蓋范圍和復(fù)現(xiàn)率的要求。其次，由于術(shù)語在搭配方面透明度高且規(guī)律性強，無需借助對大量語料的頻次統(tǒng)計以濾掉那些高度依賴語境的非典型搭配（例如，...went to the graveyard with weeping eyes and hairs 中的軛式搭配weeping eyes and hairs）。最后，在術(shù)語中，單義術(shù)語占據(jù)多數(shù)，即使有多義術(shù)語，其義項數(shù)量與通用語言中的常用詞匯（如break）也不可同日而語。因此，描寫術(shù)語需要的索引行的數(shù)量在理論上比描寫常用詞匯要小。

Bowker和Pearso[14]45指出“不應(yīng)該想當(dāng)然地認為（專用語料庫）總是越大越好”。李德俊[15]98也提醒說，由于“規(guī)模悖論”的存在，語料庫的規(guī)模并不是越大越好，在語料庫建設(shè)時，要特別注意“收益遞減率”（the law of diminishing returns）。作為典型的專用語料庫，氣象英語語料庫僅涉及氣象專業(yè)文本，其語料規(guī)模無需達到通用語料庫的級別。參考同類面向術(shù)語知識庫編纂的專用語料庫的設(shè)計經(jīng)驗（如[16]），筆者認為氣象英語語料庫的語料規(guī)模至少達到百萬級別，才能滿足氣象術(shù)語知識庫術(shù)語知識描寫對語料規(guī)模的要求。此外，考慮到氣象英語中新術(shù)語、新用法持續(xù)出現(xiàn)的特點，氣象英語語料庫應(yīng)該呈現(xiàn)出一定的開放性，允許編者根據(jù)編纂的實際需要定期補充新文本。換言之，氣象英語語料庫的語料收集不是一次就能完成的，而是一個在百萬級別基礎(chǔ)上不斷充實的動態(tài)過程。

3 選擇標(biāo)準(zhǔn)

語料有規(guī)模大小之別，但代表性是其共同特點。語料的代表性主要通過對文本的選擇來實現(xiàn)。文本選擇的標(biāo)準(zhǔn)可以分為內(nèi)部標(biāo)準(zhǔn)和外部標(biāo)準(zhǔn)兩類。就通用語料庫而言，語料選擇的內(nèi)部標(biāo)準(zhǔn)是指文本所共享的語言或文體特征。Atkins和Rundell[8]54介紹了基于內(nèi)部標(biāo)準(zhǔn)的文本選擇過程：（1）選擇系列來源不同的文本;（2）分析文本中反復(fù)出現(xiàn)的詞匯或語法特征（如語態(tài)、人稱、搭配）;（3）基于這些特點嘗試對文本進行分類;（4）收集更多能夠包含這些語言特征的文本，繼續(xù)分析文本的語言特征，改進其分類，收集更多文本，直至這些特征在語料庫中更清晰地反映出來。值得注意的是，依據(jù)內(nèi)部標(biāo)準(zhǔn)從語料中獲取的數(shù)據(jù)可能因循環(huán)論證而信度受損[17]171。鑒于此，Sinclair[17]提出按照文本的情景、功能等非語言（non-linguistic）或語言外（extra-linguistic）特征選擇語料，這樣至少可以使語言特征在語料庫建設(shè)的開始階段不受文本選擇的影響。語料庫的建設(shè)者在按照外部標(biāo)準(zhǔn)選擇語料的同時，還可以根據(jù)從語料分析中獲取的語言特征評估和改進語料的代表性[18]150，從而把外部標(biāo)準(zhǔn)和內(nèi)部標(biāo)準(zhǔn)統(tǒng)一到文本的選擇過程中。

專用語料庫也可以把語言特征作為選擇專業(yè)文本的內(nèi)部標(biāo)準(zhǔn)。Halskov[19]主張把易讀性（readability）和專業(yè)知識密度作為衡量專業(yè)文本質(zhì)量的重要指標(biāo)。他認為易讀性是學(xué)術(shù)文本的重要特征，與句子長度、詞（包括復(fù)合詞）長度和被動語態(tài)的使用量呈反比關(guān)系，與通用詞匯密度和人稱代詞的使用量呈正比關(guān)系。專業(yè)知識密度是學(xué)術(shù)文本的另一個特征，與未登錄詞（out of vocabulary words，指在自然語言處理中沒有被詞典收錄的各類專有名詞、縮略語、新增詞匯等）和知識型式（主要包含詞匯或語法標(biāo)記語，能夠幫助文本讀者理解概念的意義和概念之間的關(guān)系）的密度呈正比關(guān)系。換言之，易讀性越低，知識密度越高，文本質(zhì)量就越高。易讀性和知識密度雖然為專用語料庫的文本選擇提供了參考，但是由于偏好知識密集型文本，容易造成文本類型單一的缺點。

Bowker 和 Pearso[14]51指出，為了保證更全面地覆蓋專門用途語言的概念和語言特征，專用語料庫應(yīng)該選擇與所涉學(xué)科相關(guān)的各類文本。他們根據(jù)參與方把專業(yè)交際分為專家-專家、專家-初學(xué)者（initiate）、相對專家（relative expert）-外行（uninitiate）和老師-學(xué)生四種類型[20]35-39。他們認為，第三種交際不僅術(shù)語密度低，而且對術(shù)語的使用也比較隨意，因而主張把該類交際中涉及的文本排除在語料庫之外。筆者認為在該類交際中，鑒于信息接受者的專業(yè)知識水平低，信息發(fā)出者為了有效傳遞專業(yè)信息，往往以深入淺出的方式對核心概念進行解釋，專業(yè)文本因而提供了較豐富的認知語境信息，也值得納入專用語料庫的選材范圍。

就氣象英語語料庫而言，這四類交際場景涉及專著（如Severe Convective Storms）和學(xué)術(shù)期刊（如Atmospheric Research）、專業(yè)教材（如An Introduction to Dynamic Meteorology）、報刊科普或?qū)谖恼拢ㄈ鏢cienceDaily網(wǎng)站上有關(guān)氣象的科普文章）、入門級教材（如Essentials of Meteorology： An Invitation to the Atmosphere）等文本類型。Bergenholtz和Tarp[21]94指出專用語料庫在選擇文本的時候還應(yīng)該兼顧各個子學(xué)科并根據(jù)其重要性確定各類文本在語料中所占的比重。具體到氣象英語語料庫，對語料的選擇應(yīng)該至少涵蓋大氣、大氣探測、大氣物理學(xué)、大氣化學(xué)、動力物理學(xué)、天氣學(xué)、氣候?qū)W、應(yīng)用氣象學(xué)8個學(xué)科分支。

4 加工處理

語料庫的一大優(yōu)勢是可以借助分析軟件對語料進行多文本檢索，快速提取所需要的具體信息或統(tǒng)計某一語言特征的整體分布情況。語料的可機讀性是語料庫發(fā)揮這一優(yōu)勢的前提。為此，首先需要對選取的語料進行清潔處理。用于氣象英語語料庫建設(shè)的語料資源多是PDF和HTML數(shù)字文本，在投入使用之前，需要統(tǒng)一轉(zhuǎn)換成純文本。在此過程中，還會產(chǎn)生一些不合規(guī)范的符號或格式，若不加以清理會導(dǎo)致詞匯分析、搭配統(tǒng)計不準(zhǔn)確以及詞性賦碼出錯或無法進行[7]32。此外，由于語料來源于各種類型的出版物，被選取的文本可能還包含致謝、版權(quán)頁、頁頭書名、圖表公式、索引目錄、參考文獻等內(nèi)容。它們對氣象術(shù)語知識庫編纂沒有參考價值，也需要從文本中清理出去[8]85。

在進行必要的清理之后，還需要對語料做進一步的處理，以便借助軟件從語料分析中得到更準(zhǔn)確的結(jié)果：（1）分詞處理（tokenization）是語料預(yù)處理中的一個常見步驟，指將一連串的字符轉(zhuǎn)換成相互分離、容易識別的形符。梁茂成、李文中和許家金[7] 45指出，如果不對語料進行分詞處理，一來容易導(dǎo)致檢索困難，二來可能會使語料庫的頻率統(tǒng)計出現(xiàn)誤差，還可能會影響語料庫的標(biāo)注和后期加工。（2）詞目還原（lemmatization）是語料預(yù)處理中的另一項基本操作，是指將詞匯的各種屈折形式映射至原形，使分析軟件能夠把它們歸并為同一個類符，從而把與詞目相關(guān)的各類統(tǒng)計信息匯總在一起。氣象英語語料庫同樣有必要進行分詞和詞目還原，但是由于某些分析軟件（如術(shù)語提取軟件TermoStat、搭配關(guān)系和概念關(guān)系提取軟件Sketch Engine）已經(jīng)整合了這兩項功能，語料庫的建設(shè)者無需對語料再做這方面的處理。

Leech[22]4指出“為了從語料庫中提取信息，經(jīng)常得先從輸入信息開始”。對語料進行清理、分詞和削尾處理之后，語料庫已經(jīng)可以投入使用，但是為了讓使用者更合理地解讀由軟件獲取的分析結(jié)果，還需要增加元數(shù)據(jù)（meta-data）標(biāo)記，盡可能恢復(fù)在語料采集中丟失的語境信息。在各類元數(shù)據(jù)中，文本分類信息和結(jié)構(gòu)信息對合理解讀從語料庫中獲取的數(shù)據(jù)特別重要[18]155。就英語氣象術(shù)語知識庫而言，前者旨在明確某一具體文本在氣象學(xué)學(xué)科體系中的定位，可以幫助編者確定某一術(shù)語或特征的學(xué)科分支來源。后者旨在說明文本的各組件之間的界限（如學(xué)術(shù)論文的摘要、綜述、結(jié)論等組件）。這類信息可幫助編者確定某一語言特征在文本中的不同位置，從而結(jié)合文本結(jié)構(gòu)對數(shù)據(jù)做出更全面的解讀。

語料還需要進行必要的標(biāo)注。對術(shù)語數(shù)據(jù)庫創(chuàng)建而言，術(shù)語、搭配和概念關(guān)系這三類信息至關(guān)重要，一般需要利用正則表達式設(shè)置復(fù)雜的檢索條件才能加以提取。以下是兩款軟件從語料中提取術(shù)語、搭配和概念關(guān)系等信息類型所使用的檢索語法：

TermoStat的名詞術(shù)語檢索語法[23]：

（A|N）？（A|N）？（A|N）？（A|N）？（A|N）？N

Sketch Engine的“動詞+名詞”搭配檢索語法[24]：

1： "V" "（DET|NUM|ADJ|ADV|N）"* 2： "N"

Sketch Engine的種屬關(guān)系檢索語法[24]：

HYPONYM，|（|：|is|belongs （to）（a|the|...） type|category|...of HYPERNYM

從以上檢索語法可知，增加詞性標(biāo)注是提取以上信息類型的前提。因此，對語料進行詞性賦碼是面向術(shù)語數(shù)據(jù)庫的語料加工處理的基本內(nèi)容。術(shù)語提取軟件TermoStat默認對上傳的語料進行賦碼處理。語料庫檢索軟件Sketch Engine為英語就提供了11種詞性賦碼集，語料庫建設(shè)者根據(jù)需要選擇其中一種賦碼后，軟件自動完成對語料的詞性賦碼。

5 結(jié)語

語料庫設(shè)計是從語料庫中提取可靠數(shù)據(jù)的關(guān)鍵。為了建設(shè)面向術(shù)語知識庫編纂的語料庫，編者需要首先在語料庫分類體系中為專用語料庫定位以明確其類型特征，然后根據(jù)語料庫的建設(shè)目的和涉及的主題范圍確定語料的大致規(guī)模，并根據(jù)數(shù)據(jù)提取中出現(xiàn)的新情況向語料庫中添加新語料。為了保證語料庫的代表性，編者還需要根據(jù)專業(yè)交際的特點和學(xué)科的內(nèi)部構(gòu)成確定語料選擇的標(biāo)準(zhǔn)。最后在使用語料之前，還應(yīng)該對收集的文本進行必要的格式轉(zhuǎn)換、內(nèi)容清理、信息標(biāo)注等處理。

參考文獻

[1] WSTER E. The Machine Tool Dictionary. An Interlingual Dictionary of Basics Concepts[M]. London： Technical Press， 1968.

[2] SAGER J C. A Practical Course in Terminology Processing[M]. Amsterdam： John Benjamins Publishing Company， 1990.

[3] TEMMERMAN R. Towards New Ways of Terminological Description： The sociocognitive approach[M]. Amsterdam： John Benjamins Publishing Company， 2000.

[4] CABR M T. Theories of terminology： Their description， prescription and explanation[J]. Terminology， 2003， 9（2）： 163-200.

[5] FABER P. A Cognitive Linguistics View of Terminology and Specialized Language[M]. Berlin/New York： Mouton de Gruyter， 2012.

[6] LHOMME M-C. Lexical Semantics for Terminology： An Introduction：Vol. 20[M]. Amsterdam： John Benjamins Publishing Company， 2020.

[7] 梁茂成，李文中，許家金. 語料庫應(yīng)用教程[M]. 北京：外語教學(xué)與研究出版社， 2010.

[8] ATKINS B T， RUNDELL M. The Oxford Guide to Practical Lexicography[M]. Oxford University Press， 2008.

[9] BIBER D. Representativeness in corpus design[C]// ZAMPOLLI A， CALZOLARI N， PALMER M. Current Issues in Computational Linguistics： In Honor Of Don Walker：Vol. 9. Springer Science & Business Media， 1994：377-407.

[10] LAUDER A F. Data for lexicography： The central role of the corpus[J]. Wacana：Journal of the Humanities of Indonesia， 2010 （2）： 219-242.

[11] ZIPF G K. The Psycho-biology of Language[M]. Cambridge： Houghton Mifflin， 1935.

[12] KRISHNAMURTHY R. The corpus revolution in EFL dictionaries[J]. Kernerman Dictionary News， 2002（10）： 1-6.

[13] NESI H. ESP and corpus studies[M]//PALTRIDGE B， STARFIELD S. The Handbook of English for Specific Purposes：Vol. 120. John Wiley & Sons， 2013： 407-426.

[14] BOWKER L， PEARSON J. Working with Specialized Language： A Practical Guide to Using Corpora[M]. Routledge， 2002.

[15] 李德俊. 語料庫詞典學(xué)理論與方法探索[M]. 南京：譯林出版社， 2015.

[16] TERCEDOR SNCHEZ M， LPEZ-RODRGUEZ C I. Integrating corpus data in dynamic knowledge bases： The Puertoterm project[J]. Terminology， 2008，14 （2）： 159-182.

[17] SINCLAIR J. Corpus and text： Basic principles[C]// WYNNE M. Developing Linguistic Corpora： A Guide to Good Practice. Oxford， UK：AHDS， 2005：1-20.

[18] XIAO R.Corpus creation[M]//INDURKHYA N，DAMERAU F J. Handbook of Natural Language Processing （2nd Revised Edition）. CRC Press， 2010： 147-165.

[19] HALSKOV J， HANSEN D H， BRAASCH A， et al. Quality indicators of LSP texts-selection and measurements measuring the terminological usefulness of documents for an LSP corpus[C]// European language resources distribution agency. Proceedings of the Seventh International Conference on Language Resources and Evaluation， 2010.

[20] PEARSON J. Terms in Context：Vol. 1[M]. Amsterdam：John Benjamins Publishing Company， 1998.

[21] BERGENHOLTZ H， TARP S. Manual of Specialised Lexicography： The Preparation of Specialised Dictionaries：Vol. 12[M]. Amsterdam： John Benjamins Publishing， 1995.

[22] LEECH G. Introducing corpus annotation[C]// GARSIDE R， LEECH G， MCENERY V. Corpus Annotation： Linguistic Information From Computer Text Corpora. London： Longman， 1997： 1-18.

[23] DROUIN P. Term extraction using non-technical corpora as a point of leverage. Terminology， 2003（1）：99-115.

[24] LEN-ARAZ P， SAN MARTN A， FABER P. Pattern-based word sketches for the extraction of semantic relations//DROUIN P， GRABAR N， HAMON T， et al. Proceedings of the 5th International Workshop on Computational Terminology. Osaka， Japan， 2016： 73-82.

作者簡介：盧華國（1979—），男，博士，副教授，加拿大蒙特利爾大學(xué)（導(dǎo)師Marie-Claude LHomme）和英國曼徹斯特大學(xué)訪問學(xué)者，長期從事術(shù)語翻譯和?？圃~典學(xué)研究，2017年當(dāng)選為中國辭書學(xué)會雙語詞典分會理事，擔(dān)任International Journal of Lexicography期刊匿名評審，發(fā)表SSCI論文5篇、CSSCI論文7篇，主持翻譯類、詞典類各級各類課題7項，參與翻譯類國家社會科學(xué)基金重點項目、一般項目和教育部人文社會科學(xué)研究項目各1項，合作撰寫專著1部，參與編纂辭書2部，合譯書籍3部。通信方式：louisluhuaguo@163.com。

中國科技術(shù)語2021年4期

中國科技術(shù)語的其它文章: ISO、IEC和ITU-T智慧城市定義分析（in English with Chinese abstract）; 涵義與指稱理論對中醫(yī)核心術(shù)語范疇化及英譯的啟示; 呼吸病學(xué)標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語在電子病歷中的使用情況調(diào)研; 《民法典》術(shù)語“個人信息”的名與實：“個人信息/數(shù)據(jù)/資料”辨析; 深化國防和軍隊改革背景下的新軍語定名特征; 劉伯承的軍語翻譯理論建樹、實踐貢獻及啟示