摘要 語(yǔ)料庫(kù)對(duì)詞典學(xué)的價(jià)值已得到辭書界的普遍認(rèn)可,但傳統(tǒng)大規(guī)模語(yǔ)料庫(kù)由于缺乏必要的標(biāo)注,與詞典微觀結(jié)構(gòu)項(xiàng)之間的相關(guān)性不足,這使得它對(duì)詞典學(xué)研究和詞典編纂的貢獻(xiàn)受到很大的制約。文章從詞匯知識(shí)庫(kù)和數(shù)據(jù)庫(kù)的建設(shè)特點(diǎn)入手,探討它與詞典學(xué)的相關(guān)性及其在規(guī)模、速度和信息量等方面的局限;最后以COCA為例,從語(yǔ)料庫(kù)的標(biāo)注、語(yǔ)料庫(kù)的索引、語(yǔ)料的智能化檢索和顯示等方面探討語(yǔ)料庫(kù)的數(shù)據(jù)化特征及其詞典學(xué)意義。
關(guān)鍵詞 詞匯知識(shí)庫(kù) 詞匯數(shù)據(jù)庫(kù) 語(yǔ)料庫(kù)數(shù)據(jù)化 語(yǔ)料庫(kù)與詞典編纂
在語(yǔ)料庫(kù)發(fā)展的初期,人們對(duì)語(yǔ)料的評(píng)價(jià)和期望都十分高,似乎有了語(yǔ)料庫(kù),詞典的一切問(wèn)題都解決了:釋義和義項(xiàng)劃分有了依據(jù)、例證的采集可以變得輕松、詞典的編纂效率可以大大提高等等。人們的主要精力是要把語(yǔ)料庫(kù)做大,覺(jué)得大到一定程度就可以覆蓋和解決詞典編纂的一切語(yǔ)言問(wèn)題了。所以,語(yǔ)料庫(kù)迅速?gòu)陌偃f(wàn)級(jí)到千萬(wàn)級(jí),最后柯林斯的“Bank of English”在20世紀(jì)80年代就達(dá)到空前的近5億詞。這時(shí),詞典編纂者突然發(fā)現(xiàn),在使用這些大規(guī)模語(yǔ)料庫(kù)時(shí),隨便輸入一個(gè)詞查詢就會(huì)產(chǎn)生成千上萬(wàn)的索引行,顯示界面會(huì)把這個(gè)詞的各種用法實(shí)例都一股腦呈現(xiàn)出來(lái)。面對(duì)海量語(yǔ)料,詞典編纂者往往無(wú)從下手,只能逐條瀏覽;這會(huì)大大增加其工作量,影響詞典編纂的進(jìn)度。因此,西方語(yǔ)言學(xué)家和詞典學(xué)家早在20世紀(jì)七八十年代就開(kāi)始了語(yǔ)料的數(shù)據(jù)化加工,取得了一系列的成果。下面就語(yǔ)料數(shù)據(jù)化及其詞典學(xué)意義做一探討。
一、詞匯知識(shí)庫(kù)的建設(shè)
詞匯知識(shí)庫(kù)(knowledge base)是為了特定目的,根據(jù)一定應(yīng)用領(lǐng)域的要求、背景特征、屬性特征和使用特征等構(gòu)建的模塊化的語(yǔ)言知識(shí)集合,系統(tǒng)地滿足用戶某方面的知識(shí)需求。自20世紀(jì)70年代開(kāi)始,美國(guó)學(xué)者就開(kāi)始設(shè)想建立能進(jìn)行自動(dòng)語(yǔ)義描述的大規(guī)模詞庫(kù),并在20世紀(jì)80年代中期付諸實(shí)踐,我國(guó)的專家在20世紀(jì)90年代以后也進(jìn)行了這方面的嘗試?,F(xiàn)在,為人熟知的詞庫(kù)有詞網(wǎng)(WordNet)、 智網(wǎng)(MindNet)、框架網(wǎng)(FrameNet)、動(dòng)詞網(wǎng)(VerbNet)、命題庫(kù)(PropBank),以及國(guó)內(nèi)的知網(wǎng)(HowNet)和綜合知識(shí)庫(kù)(CLKB)等,分別用于句法分析、語(yǔ)義分析和自然語(yǔ)言處理或理解等,當(dāng)然也可以用于詞典學(xué)研究和詞典編纂。
這些詞庫(kù)的建設(shè)并沒(méi)有受當(dāng)時(shí)主流語(yǔ)言學(xué)重語(yǔ)言能力(competence)輕語(yǔ)言應(yīng)用(performance)學(xué)術(shù)思潮的影響,而是從語(yǔ)言實(shí)例(語(yǔ)料)入手,通過(guò)自下而上的方式對(duì)語(yǔ)言的屬性進(jìn)行描寫,如句法模式、題元角色、概念結(jié)構(gòu)等語(yǔ)言規(guī)則和語(yǔ)義關(guān)系等。譬如,詞網(wǎng)使用同義詞集合(synsets)來(lái)表征詞匯概念,在詞的形式和意義之間建立起映射關(guān)系,把名詞、動(dòng)詞、形容詞和副詞歸入認(rèn)知同義集合(sets of cognitive synonyms),每一集合表示一個(gè)不同的概念;同義集合之間通過(guò)概念—語(yǔ)義和詞匯系統(tǒng)關(guān)系相互聯(lián)系起來(lái)(Miller 1990;Lin Dekang 1998)。智網(wǎng)利用微軟的一個(gè)廣域自然語(yǔ)言分析器(broadcoverage parser)自動(dòng)分析詞典釋義和例證文本而獲得詞匯語(yǔ)言知識(shí),涉及24種關(guān)系,包括共同施事、擁有者、深層賓語(yǔ)、深層主語(yǔ)、領(lǐng)域、材料、來(lái)源、目標(biāo)、原因、意圖、方式、方法、同義等(Richardson et al. 1998)。框架網(wǎng)是基于Fillmore框架語(yǔ)義學(xué)、借助詞典釋義和語(yǔ)料建成的知識(shí)庫(kù),它利用“框架”和框架元素來(lái)解釋詞的結(jié)構(gòu)模式和語(yǔ)義角色,表征詞匯之間的共現(xiàn)特征和相互關(guān)系,語(yǔ)義結(jié)構(gòu)就蘊(yùn)涵在這種關(guān)系中。有了這些語(yǔ)言資源,研究者就可以設(shè)計(jì)機(jī)器學(xué)習(xí)算法,構(gòu)建語(yǔ)義角色標(biāo)簽的自動(dòng)標(biāo)注系統(tǒng),從而實(shí)現(xiàn)句子語(yǔ)義結(jié)構(gòu)的自動(dòng)識(shí)別,為各類精細(xì)的語(yǔ)言工程應(yīng)用服務(wù)(Fillmore et al. 2001;Fillmore 2003;Ruppenhofer et al. 2010 )。這些詞庫(kù)對(duì)于認(rèn)知詞典用戶的內(nèi)在知識(shí)結(jié)構(gòu)、按用戶的知識(shí)特點(diǎn)設(shè)置微觀結(jié)構(gòu)信息項(xiàng)及其組織方式有很好的借鑒作用,它們并不是為詞典編纂而建的,能直接用于詞典編纂的詞匯信息并不多。因此,一些語(yǔ)言學(xué)家和詞典學(xué)家嘗試建立能用于詞典編纂的通用詞匯數(shù)據(jù)庫(kù)。
二、詞匯數(shù)據(jù)庫(kù)的建設(shè)
詞匯數(shù)據(jù)庫(kù)(database)指的是把從語(yǔ)言實(shí)例(語(yǔ)料庫(kù))中提取的詞匯語(yǔ)言屬性,如形態(tài)、句法、搭配、語(yǔ)義和用法等各種基本信息按一定格式以多元子集的方式儲(chǔ)存在一起,以滿足用戶對(duì)共享詞匯語(yǔ)言數(shù)據(jù)的需求。數(shù)據(jù)庫(kù)一般是由字段(field)、記錄(record)和文件(file)構(gòu)成。在庫(kù)中,人們把字段定義為能反映詞目某一語(yǔ)言特征的簡(jiǎn)單數(shù)據(jù)項(xiàng),記錄是能反映詞目某一類語(yǔ)言屬性的、有特定指向或歸宿的復(fù)雜數(shù)據(jù)項(xiàng),而文件則是某一類詞典微觀數(shù)據(jù)項(xiàng)的集合。這樣,單一詞目(lemma)的拼寫、讀音、詞類、屈折變化、句法、搭配、釋義、例證,以及與其他詞項(xiàng)的各種關(guān)聯(lián)或關(guān)系以及多媒體信息都可以字段和記錄等形式存儲(chǔ)在庫(kù)中,以便在詞典編纂時(shí)按需調(diào)取。為了詞匯數(shù)據(jù)庫(kù)的建設(shè),西方詞典學(xué)家構(gòu)建了語(yǔ)料庫(kù)模式分析(Corpus Pattern Analysis,以下簡(jiǎn)稱CPA)理論(Hanks & Pustejovsky 2005;Hanks 2010)及語(yǔ)料索引和數(shù)據(jù)提取工具——詞匯速描引擎(Word Sketch Engine)(Kilgarriff & Tugwell 2001;Kilgarriff et al. 2014)。前者以“常態(tài)與拓展”(Norms and Exploitations)(Hanks 1994,2013)理論為基礎(chǔ)構(gòu)建了語(yǔ)料模式分析的原則和方法,主要是通過(guò)語(yǔ)料分析提取語(yǔ)詞使用的橫聚合原型模式;后者是模式分析中的語(yǔ)料索引和有效數(shù)據(jù)的提取工具。
CPA理論認(rèn)為,名詞和動(dòng)詞的模式是不同的,名詞的模式隱含在語(yǔ)料庫(kù)中的一些反復(fù)使用的“經(jīng)典”語(yǔ)句的共現(xiàn)結(jié)構(gòu)中,而動(dòng)詞的模式不但要看其基本論元結(jié)構(gòu)或配價(jià)結(jié)構(gòu),還要看其次配價(jià)特征(subvalency features),即一個(gè)語(yǔ)義角色有無(wú)其他修飾成分。譬如,“take place”與“take his place”的意思顯然是不一樣的。這就需要有特定的算法統(tǒng)計(jì)和分析它們的相關(guān)性,還需要人工干預(yù)來(lái)區(qū)別習(xí)語(yǔ)性搭配和一般搭配的語(yǔ)義特點(diǎn)。顯然,CPA不是解釋孤立的單詞意義,而是解釋語(yǔ)詞與原型構(gòu)式或句型模式(pattern)相關(guān)的意義,而且最近的標(biāo)注方式和成分凸顯與最初的方案相比有了很大的改進(jìn)。譬如動(dòng)詞“grind”條目(見(jiàn)圖1)共有13個(gè)模式和語(yǔ)義結(jié)構(gòu)(包括短語(yǔ)和習(xí)語(yǔ)),241個(gè)用法實(shí)例,其重點(diǎn)是揭示動(dòng)詞事件行為參與者,并以論元結(jié)構(gòu)和配價(jià)結(jié)構(gòu)的形式表征出來(lái)。如施動(dòng)者為“Device/設(shè)備或Human/人”:Device=Mill/磨房,且由“Human”操作來(lái)磨碎“Stuff/東西”;受事“Stuff/東西”= “Grain/糧食或Coffee Beans/咖啡豆或Raw Material/原材料”;方式是“Slowly/慢慢地;Systematically/有條理地;between a stationary stone and a rotating stone,or in some other similar device在固定和轉(zhuǎn)動(dòng)的石頭之間,或同類設(shè)備中”;成事為“Food/食物= Flour/面粉、Coffee/咖啡,或Stuff/東西 = Cement/水泥”。注意,數(shù)據(jù)庫(kù)把語(yǔ)義作為一種“隱含”(implicature)潛值來(lái)表達(dá),即“如果某設(shè)備或某人Grinds某東西或食品,就是該人操作磨房把糧食、咖啡豆或原材料在固定與轉(zhuǎn)動(dòng)的石頭之間慢而漸進(jìn)地磨碎”。這樣,通過(guò)論元結(jié)構(gòu)把被釋義詞的句法、語(yǔ)義和使用搭配成分都在一個(gè)平臺(tái)上表征出來(lái),既有釋義的抽象性、原型性,又有語(yǔ)用的具體性,加上200多個(gè)各種用法實(shí)例把被釋義詞的語(yǔ)義潛勢(shì)系統(tǒng)地表征出來(lái),這為語(yǔ)言學(xué)習(xí)或教學(xué),以及詞典編纂者提供了很好的、可靠的建設(shè)性參考信息。
該數(shù)據(jù)庫(kù)擬對(duì)5602個(gè)動(dòng)詞進(jìn)行數(shù)據(jù)處理,截至2015年5月,已經(jīng)處理1275個(gè),正在處理的有384個(gè)[1]。因此,目前的實(shí)際應(yīng)用價(jià)值還很有限。
另一詞匯數(shù)據(jù)庫(kù)是由英國(guó)詞典學(xué)培訓(xùn)公司(Lexicography MasterClass Ltd)創(chuàng)建的DANTE數(shù)據(jù)庫(kù),其設(shè)計(jì)目的就是為詞典編纂和計(jì)算語(yǔ)言學(xué)(包括計(jì)算機(jī)詞庫(kù))研究而服務(wù)。該數(shù)據(jù)庫(kù)收錄了9.45萬(wàn)個(gè)詞和短語(yǔ),對(duì)詞的義項(xiàng)劃分和語(yǔ)言屬性描寫都很細(xì)致,包含40個(gè)數(shù)據(jù)類型,以及詞目類型、拼寫變體、屈折變化、句法模式、搭配結(jié)構(gòu)、翻譯對(duì)等詞、語(yǔ)用說(shuō)明、語(yǔ)法說(shuō)明和功能說(shuō)明等內(nèi)容,并配有豐富的例證,對(duì)詞典編纂有很好的參考作用。相關(guān)的信息結(jié)構(gòu)和數(shù)據(jù)結(jié)構(gòu)已另文發(fā)表(章宜華 2012),這里不再贅述。
三、語(yǔ)料庫(kù)數(shù)據(jù)化開(kāi)發(fā)
雖然數(shù)據(jù)庫(kù)目的性和實(shí)用性更強(qiáng),但需要大量人力物力的投入,發(fā)展比較緩慢。針對(duì)這種情況,西方語(yǔ)言學(xué)者就開(kāi)始直接對(duì)語(yǔ)料庫(kù)進(jìn)行深加工處理,把語(yǔ)料庫(kù)的建設(shè)從追求量的擴(kuò)充向語(yǔ)料數(shù)據(jù)化方向轉(zhuǎn)化,即利用標(biāo)注、數(shù)據(jù)挖掘技術(shù)和計(jì)算機(jī)自動(dòng)運(yùn)算的方法對(duì)無(wú)序的語(yǔ)料索引行進(jìn)行梳理、統(tǒng)計(jì)、分類、歸納,按用戶需求有針對(duì)性地呈現(xiàn)各種典型的詞匯數(shù)據(jù)。美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)(Corpus of Contemporary American English,以下簡(jiǎn)稱COCA)[2]就是一個(gè)典型的代表。
COCA由美國(guó)楊百翰大學(xué)(Brigham Young University)的Mark Davies教授主持開(kāi)發(fā),語(yǔ)料規(guī)模達(dá)4.5億詞,是美國(guó)目前最新的當(dāng)代英語(yǔ)平衡語(yǔ)料庫(kù)。自2008年2月20日在互聯(lián)網(wǎng)上正式推出以來(lái),每年都要至少做兩次語(yǔ)料更新。語(yǔ)料庫(kù)的數(shù)據(jù)化主要體現(xiàn)在將雜亂無(wú)序的語(yǔ)料變得有條有序,能根據(jù)用戶的需要提供相對(duì)準(zhǔn)確的詞匯語(yǔ)言數(shù)據(jù),其關(guān)鍵就是“智能化”索引,而索引的基礎(chǔ)是對(duì)語(yǔ)料的標(biāo)注和基礎(chǔ)數(shù)據(jù)庫(kù)的支持。下面就從這幾個(gè)方面談?wù)凜OCA數(shù)據(jù)化的功能特征。
1.語(yǔ)料庫(kù)的標(biāo)注
詞典編纂者最想從語(yǔ)料庫(kù)中獲取的信息大多是語(yǔ)詞的各種語(yǔ)言屬性,包括形態(tài)、詞類、句法模式、搭配成分、語(yǔ)義表征和使用語(yǔ)境等,因此需要對(duì)庫(kù)內(nèi)的各種用詞進(jìn)行標(biāo)注。COCA在 SWECCL詞類賦碼的基礎(chǔ)上設(shè)計(jì)了150多種標(biāo)簽,對(duì)全部4.5億語(yǔ)料進(jìn)行了逐條標(biāo)注。譬如,連詞類7個(gè),如CC(并列連詞)、CS(從屬連詞)、CCB(轉(zhuǎn)折并列連詞)等;形容詞4個(gè),如JJ(普通形容詞)、JJR(形容詞一般比較級(jí))、JJT(形容詞一般最高級(jí))、JK(連接形容詞);限定詞類13個(gè),如DA(前置或后置限定詞)、DA1(后限定詞單詞形式)、DAR(后限定詞比較形式)等;名詞類22個(gè),NN(普通名詞)、ND1(方向性單數(shù)名詞)、NN1(單數(shù)普通名詞)、NN2(復(fù)數(shù)普通名詞)、NNL1(單數(shù)方位名詞)等;NNO(數(shù)量詞)、NNT1(單數(shù)時(shí)間名詞)、NNU(度量單位詞)等;動(dòng)詞31個(gè),如VB0(動(dòng)詞原形)、VDD(動(dòng)詞過(guò)去式)、VBM(系動(dòng)詞)、VBG(現(xiàn)在分詞)、VBN(過(guò)去分詞)等;代詞19個(gè),如PN(不定代詞)、PNQO(賓格WH代詞)、PNQS(主格WH代詞)和PNX1(反身不定代詞)等。其他還有副詞、介詞、冠詞、程式(FO)、未分類詞(FU)和外來(lái)詞(FW)等。
除詞類外,COCA還對(duì)所有語(yǔ)料做了詞匯語(yǔ)域和時(shí)間分布的標(biāo)注,因?yàn)檎Z(yǔ)詞的意義和用法與語(yǔ)域以及時(shí)間有著密切關(guān)系。語(yǔ)域維度分為口語(yǔ)、小說(shuō)、流行雜志、報(bào)紙和學(xué)術(shù)期刊五大類型,語(yǔ)料按這五個(gè)類型基本呈均勻平衡分布;時(shí)間維度分為:1990—1994、1995—1999、2000—2004、2005—2009、2010—2012等五個(gè)時(shí)段,用戶可以從這兩個(gè)維度查詢?nèi)魏我粋€(gè)詞的分布頻率。為了語(yǔ)詞的形態(tài)變體和同義詞查詢,庫(kù)內(nèi)還配置了詞的屈折變化和同義詞數(shù)據(jù)庫(kù)。
2.語(yǔ)料庫(kù)的索引
COCA根據(jù)標(biāo)注和用戶的查詢需要設(shè)計(jì)出一套索引句法(Search Syntax)來(lái)滿足“智能”檢索的需要。主要分以下幾類:[pos](精確詞類[vvg])、[pos*](各種詞類[v*])、[lemma](原型詞形態(tài)變體[speak])、[=word](同義詞)、word|word(兩詞比較)、*xx(以某前綴開(kāi)頭的詞)、x?xx(含某字母的詞)、x?xx*(含某字母+某詞綴的詞)、
word(某詞前成分,若要限定詞類則可加詞類標(biāo)簽,如[nn*])等。利用上述句法成分和詞類標(biāo)簽可以組合成各種復(fù)雜的索引句法結(jié)構(gòu),以便詞典編纂者準(zhǔn)確查找所需的各種信息。
3.語(yǔ)料的智能化檢索和顯示
這里說(shuō)的“智能”并不是說(shuō)它具有抽象思維和隨機(jī)應(yīng)變的能力,而是指檢索系統(tǒng)通過(guò)識(shí)別語(yǔ)料庫(kù)中的標(biāo)注代碼,按特定的索引句法提取語(yǔ)料數(shù)據(jù)。這樣,用戶便可以根據(jù)自己的查詢需要,按一定句法規(guī)則來(lái)組織“檢索模式”,語(yǔ)料庫(kù)便可以比較準(zhǔn)確地調(diào)出他們所需的各類信息。值得一提的是,即使是無(wú)限制的普通檢索,COCA也能做不同的結(jié)構(gòu)和句法/搭配成分分類顯示,如相同結(jié)構(gòu)的例句放在一起,各種句法成分用不同顏色顯示:名詞為藍(lán)色、動(dòng)詞為紫色、形容詞為綠色、副詞為棕色、代詞為灰色、介詞為黃色。這樣,可以使用戶對(duì)所顯示內(nèi)容一目了然。(見(jiàn)圖2)
四、語(yǔ)料數(shù)據(jù)化的詞典學(xué)意義
語(yǔ)料庫(kù)能輔助詞典編纂是辭書界的一個(gè)共識(shí),它對(duì)詞典學(xué)的理論研究和實(shí)踐都具有重要意義,具體的作用體現(xiàn)在以下幾個(gè)方面:選詞立目(詞頻)、義項(xiàng)劃分、詞典釋義、句法模式提取、例證配置、語(yǔ)法注釋、語(yǔ)用或用法注釋、同義詞語(yǔ)義與使用對(duì)比等。(參見(jiàn)章宜華 2013:173—176)然而,傳統(tǒng)的語(yǔ)料庫(kù)會(huì)把各種信息混雜在一塊,人工識(shí)別比較困難,而數(shù)據(jù)化語(yǔ)料庫(kù)可以按特定義項(xiàng)、特定詞類或形態(tài)、特定結(jié)構(gòu)或分布來(lái)提供信息。
1.特定單詞或范疇詞的查詢
查詢一般單詞或連續(xù)的固定短語(yǔ),可直接輸入所要查找的字符串,如輸入“child, children; give up, take measure; Actions speak louder than words.”等,就可以精確查到僅包含這些單位的句子。如果要查包含某些字母的一類詞就需用通配符“*”,如具有某種前綴、后綴、中綴或詞根的語(yǔ)詞:輸入“dis*, un*, anti*”等就能查找到所有以它們?yōu)榍熬Y的詞,輸入“*ness, *tion, *ly”能查到以它們?yōu)楹缶Y的詞。同理,查詞根就需要把通配符放在詞頭與詞尾之間,如輸入“dis*ly”能查到所有以“dis”開(kāi)頭、以“l(fā)y”結(jié)尾的詞的詞根;要查以特定詞為基礎(chǔ)的復(fù)合詞或變體,則需把通配符放在該詞的前后,如輸入“*speak*”會(huì)顯示出“speak, speaks, speaking, speaker, speakeasy, speakerphone”等。
如果想用一個(gè)檢索單位查得某詞的所有屈折變化形式,就要使用特定的“索引句法”及句法代碼。譬如,輸入“[ speak ].[ v* ]”會(huì)顯示出“speak, speaks, speaking, spoke, spoken”;如果要單獨(dú)查其過(guò)去式和過(guò)去/現(xiàn)在分詞形式則需在動(dòng)詞后加上相應(yīng)的標(biāo)簽:[speak].[vvd]/[vvn]/[vvg]。此外,英語(yǔ)還有很多兼類詞,如track (v/n), lower (v/adj),own (adj/v/pron), left/right (adj/n/v)等,若要查其特定詞類則需在單詞后邊加上詞類標(biāo)簽,如“l(fā)eft”名詞、形容詞和動(dòng)詞對(duì)應(yīng)的索引句法是:left.[n*]、left.[j*]和left.[v*];同理,若想?yún)^(qū)分相同詞尾的不同詞類,則需要與詞類標(biāo)簽組成特定的索引句法,如以“l(fā)y”結(jié)尾的大多是副詞,若輸入“*ly.[j*]”就可以查到全部以“l(fā)y”結(jié)尾的形容詞,如排在前面的有“only, early, likely, daily, holy, friendly, elderly, lovely”等??梢?jiàn),用索引句法的方式可以限定檢索詞的特定詞類、次語(yǔ)類和形態(tài),可以做到精確查詢,大大減少詞典編纂者的工作量。
2.詞匯搭配與句型模式的查詢
搭配和句型模式一直是外語(yǔ)學(xué)習(xí)者和學(xué)習(xí)詞典最為關(guān)注的語(yǔ)言現(xiàn)象之一,同時(shí)也是難點(diǎn)之一,因?yàn)槠胀ㄕZ(yǔ)料庫(kù)(如BNC)無(wú)法提供這類信息的查詢,即使是利用“詞匯速描”等索引工具也無(wú)法按用戶的需求準(zhǔn)確查詢。COCA的數(shù)據(jù)化處理就比較好地解決了這一問(wèn)題。
搭配和句型結(jié)構(gòu)都涉及多個(gè)詞的共現(xiàn),而這些共現(xiàn)關(guān)系的檢索就比單一語(yǔ)言單位更復(fù)雜一些,也更能體現(xiàn)語(yǔ)料庫(kù)的數(shù)據(jù)化特點(diǎn)。查兩詞的簡(jiǎn)單搭配可直接在單詞前/后空格加“*”,若要限定搭配的詞類則要在單詞后加詞類標(biāo)簽“[n*]、[j*]和[v*]”等;譬如,查“l(fā)eft”作為動(dòng)詞與副詞的搭配情況,可在詞串框中輸入“*left.[v*]”,在搭配框中輸入[r*]就可以得到“clockwise, abruptly, voluntarily, hurriedly, carelessly, purposely”等;而反過(guò)來(lái)也可以通過(guò)詞類標(biāo)簽鎖定被搭配詞的詞類,如用“pretty [nn*]”可查該詞作為形容詞與名詞或動(dòng)詞搭配的情況,如“pretty girl/woman/face/picture”等;用“pretty [vv*]”可以查“pretty”作為副詞與動(dòng)詞搭配的情況,如“pretty well, pretty much”等。
若要查找某一詞類(如動(dòng)詞)+任何詞與特定詞(如argument)的搭配,可輸入“[V*] * [argument]”,就可以得到與“argument”搭配的動(dòng)詞,如“make, reject, accept, hear, understand, win, support, lost, defend, strengthen, build”等,詞典編纂者可以從這些搭配中抽象出該詞的部分隱喻用法,如“argument is a war/battle (win, lost, defend, make)”,“argument is an idea (hear, understand, accept, reject, support)”,“argument is an architecture (build, strengthen)”等,這對(duì)促進(jìn)學(xué)習(xí)者的識(shí)解和記憶有重要意義。
句法模式是反映特定語(yǔ)詞用法的最有效手段之一,但其查詢遠(yuǎn)比搭配復(fù)雜,因?yàn)樗鼈兩婕暗某煞直容^多,且組配結(jié)構(gòu)復(fù)雜,如“permit sb/sth to do, prevent sb/sth from, provide sb with/for, put sb/sth through to sb, nod to/at sb to do sth”等,中間的插入成分是不固定的,而且往往有多種選擇,查找合乎這類句型需求的例句是詞典編寫中的棘手問(wèn)題,運(yùn)用傳統(tǒng)語(yǔ)料庫(kù)編纂者只能在海量的語(yǔ)料索引行中逐條尋找,耗時(shí)又費(fèi)力,而COCA的索引句法可讓人輕松地找到相應(yīng)結(jié)構(gòu)的例句,節(jié)省很多時(shí)間,可大大提升詞典編纂的速度和質(zhì)量。如輸入“[permit] * to [v*]”便可查到“permit them/us/him/it/individuals/Anna/students/busine
ss... to be/have/take/do/make/play/happen/see...”等與所需句型一致的例句;輸入“[provide] * with|for”可查到含“provide them/us/you/students/people/teachers with”和“provide opportunity/support/incentives/security/care/food/funds/evidence/guidance/service/benefits/training for”句型的例句。
此外,若想查找特定結(jié)構(gòu)的不同用詞或特定語(yǔ)詞的句法功能,也可以運(yùn)用相應(yīng)的索引句法來(lái)解決。譬如,想了解哪些詞可以用在“to be or not to be”結(jié)構(gòu)中,可以輸入“to [v*] or not to [v*]”,結(jié)果得到“be, do, buy, tell, see, engage, play, sell”等幾個(gè)較常見(jiàn)的動(dòng)詞;若想查找某一動(dòng)詞接任一詞+into 后接動(dòng)詞“-ing”形式構(gòu)成的動(dòng)結(jié)式結(jié)構(gòu),了解“into”表達(dá)致使義的句法功能,可輸入“[vv*] * into [vvgk]”便可以查得“fool you/people into thinking, brought them into being, delude ourselves into thinking, talked him into going, trick people into thinking”等。這對(duì)于說(shuō)明“into”在動(dòng)結(jié)式中的作用、抽象出動(dòng)結(jié)式的句型特征,以及發(fā)現(xiàn)動(dòng)結(jié)式動(dòng)詞和用法都具有重要意義。
3.同義詞組與其搭配成分的對(duì)比查詢
同義詞之間的語(yǔ)義和用法差異也是外語(yǔ)學(xué)習(xí)和詞典編纂處理的一個(gè)難點(diǎn),普通語(yǔ)料庫(kù)在這方面基本沒(méi)有作為。COCA數(shù)據(jù)化的一個(gè)重要特征就是同義詞組及其語(yǔ)域頻率分布查詢和各自搭配成分的相互比較。
對(duì)于同義詞,既可以查多義詞的所有意義,也可以查某一義項(xiàng)。譬如,輸入[=deliver]可查“deliver”的全部同義詞,結(jié)果為“give, bring, produce, free, provide, present, serve, send, save, produce, carry, release, supply, transfer, rescue, surrender, convey”等;如果要查該詞某一義項(xiàng)或分布結(jié)構(gòu)中的同義詞,則需要在后邊加特定搭配詞做語(yǔ)義限定,如用“[=deliver] the mail”可查得該動(dòng)詞作為“遞送”義時(shí)的同義動(dòng)詞,結(jié)果有“send, give, carry, bring”等,這些信息豐富、可靠,遠(yuǎn)勝過(guò)一些同義詞典,這對(duì)于同義辨析以及選擇最佳搭配詞都十分有效。
同義詞搭配比較查詢可用于一組同義詞的分布特征、搭配成分和使用頻率差異的對(duì)比研究,并以此來(lái)辨別它們細(xì)微的語(yǔ)義差異。對(duì)于同義詞分布特征的比較很簡(jiǎn)單,如選擇“COMPARE/比較”后在索引框中輸入“rent/hire”就能比較兩個(gè)詞的使用頻率,如果再選擇下方的“SHOW SECTIONS/顯示項(xiàng)”將會(huì)獲得這兩個(gè)詞在不同語(yǔ)域(口語(yǔ)、小說(shuō)、雜志、報(bào)紙和學(xué)術(shù)期刊)和不同時(shí)段的使用分布數(shù)據(jù);如果在比較模式下選擇“COLLOCATES/搭配詞”(1~n詞)和“POS LIST/詞類表”中的相關(guān)選項(xiàng)(名詞、形容詞、副詞等),系統(tǒng)便會(huì)自動(dòng)比較兩個(gè)詞的特定搭配詞及其出現(xiàn)的詞頻。對(duì)于同一詞搭配的比較,需要特定的句法組合,如輸入“fast|quick|rapid [nn*]”就能查得這三個(gè)同義詞的不同名詞搭配成分:fast food/lane/track,rapid transit/growth/change,quick/look/break/question等,而且后邊還給出了它們的共現(xiàn)頻率。這種信息對(duì)于詞典編纂者和英語(yǔ)學(xué)習(xí)者都是十分有用的,因?yàn)橹袊?guó)的EFL學(xué)習(xí)者很容易用漢語(yǔ)的思維來(lái)理解英語(yǔ)(語(yǔ)言遷移),對(duì)那些對(duì)應(yīng)于同一漢語(yǔ)概念的同義詞往往難以區(qū)分,更會(huì)混淆這類詞的習(xí)慣搭配,如“提高”的對(duì)等詞有“improve, increase, enhance”,它們?cè)谡Z(yǔ)義上的差異以及與搭配詞之間的微妙關(guān)系常常讓中國(guó)EFL學(xué)習(xí)者茫然,難得要領(lǐng),甚至張冠李戴。如果在COCA中輸入“improve|increase|enhance [nn*]”進(jìn)行對(duì)比檢索,用戶不但能得到各自的常用搭配詞,而且還可知道其搭配詞在這個(gè)結(jié)構(gòu)中的共現(xiàn)頻率:improve health (187)/education (183)/relations (174) /quality(151);increase heat (212)/taxes (210)/production (184)/sales (104);enhance performance (86)/learning (80)/understanding (42)/communication (37)等。
此外,如果詞典編纂者想對(duì)某一詞進(jìn)行同義辨析,但又不清楚該詞到底有多少同義詞以及搭配的用法差異時(shí),也可以在COCA中得到解答。如輸入“[=cheat]. [v*] the [n*]”便可查得“cheat”做動(dòng)詞時(shí)其同義詞與“the+名詞”搭配的情況,最后的結(jié)果是:deceive the public/court, defraud the government/system, trick the eye/brain/enemy, bilk the taxpayers/area, con the people/airship等;然后再結(jié)合索引行實(shí)例的語(yǔ)義比較就可以輕松地完成這組同義詞的立目和辨析。
五、結(jié) 語(yǔ)
傳統(tǒng)的大規(guī)模語(yǔ)料庫(kù)雖然信息量豐富,但缺乏與詞典微觀數(shù)據(jù)結(jié)構(gòu)項(xiàng)相關(guān)的標(biāo)注,大多只具備提供簡(jiǎn)單索引行的檢索功能,詞典編纂者要想在海量語(yǔ)料中找到所需信息絕不是一件容易的事情,因此對(duì)詞典編纂的貢獻(xiàn)也是有限的。專門索引工具“詞匯速描引擎”的使用能較大地提升語(yǔ)料庫(kù)的使用效果,但它所提供的數(shù)據(jù)信息針對(duì)性不強(qiáng),無(wú)法區(qū)分多義詞的義項(xiàng),也無(wú)法進(jìn)行離合式句法結(jié)構(gòu)的檢索,更無(wú)法按用戶需求來(lái)提供詞匯語(yǔ)言數(shù)據(jù)。詞庫(kù)的建設(shè)發(fā)起比較早,對(duì)詞匯語(yǔ)言屬性的描述也比較詳盡,但它們都是為了某一目的或自然語(yǔ)言處理研究和應(yīng)用而設(shè)計(jì)的,對(duì)詞典學(xué)研究有很好的學(xué)術(shù)和參考價(jià)值,但由于其規(guī)模或數(shù)據(jù)結(jié)構(gòu)的限制,對(duì)詞典編纂的支持也有局限。COCA對(duì)詞匯語(yǔ)言屬性的精細(xì)標(biāo)注或數(shù)據(jù)化處理,建立了整套的索引句法和較為完善的智能化檢索系統(tǒng),基本能滿足語(yǔ)言學(xué)習(xí)、辭書研究和編纂的各種需求。同時(shí),該語(yǔ)料庫(kù)的建設(shè)使我們看到了國(guó)際語(yǔ)料數(shù)據(jù)化處理的發(fā)展趨勢(shì),積極研究、開(kāi)發(fā)和應(yīng)用數(shù)據(jù)化語(yǔ)料庫(kù),可以大大提升辭書研究和詞典編纂的效率和質(zhì)量。
附 注
[1]見(jiàn)http:∥nlp.fi.muni.cz/projekty/cpa。
[2]見(jiàn)http:∥corpus.byu.edu/coca。
參考文獻(xiàn)
1.章宜華.2012國(guó)際辭書現(xiàn)代化技術(shù)的新理念:辭書語(yǔ)料數(shù)據(jù)化.辭書研究,2012(2):1—9.
2.Fillmore C J. et al. Frame Semantics for Text Understanding. ∥Proceedings of NAACL WordNet and Other Lexical Resources Workshop. Pittsburgh,2001.
3.Fillmore C J. Background to FrameNet. International Journal of Lexicography, 2003:235—250.
4.Hanks P, Pustejovsky J. A Pattern Dictionary for Natural Language Processing. Revue Franaise de linguistique appliqué,2005(10):2.
5.Hanks P. Linguistic Norms and Pragmatic Exploitations, or Why Lexicographers Need Prototype Theory and Vice Versa. ∥Kiefer F. et al. (eds.) Computational Lexicography: Complex 94. Budapest:Linguistic Institute,1994.
6.Hanks P. Corpus Pattern Analysis: How People Use Words to Make Meanings. Speech in Center for Lexicographical Studies. Guangdong University of Foreign Studies,2010.
7.Hanks P. Lexical Analysis: Norms and Exploitations. Cambridge: MIT Press,2013.
8.Kilgarriff A, Tugwell D. Word Sketch: Extraction and Display of Significant Collocations for Lexicography. ∥Proceedings of Collocations Workshop, ACL 2001.Toulouse, 2001:32—38.
9.Kilgarriff A. et al. The Sketch Engine: Ten Years on. Lexicography, 2014(1): 7—36.
10.Lin Dekang. Wordnet: An Electronic Lexical Database. Computational Linguistics, 1998(2): 292—296.
11.Miller G. Nouns in WordNet: A Lexical Inheritance System. International Journal of Lexicography ,1990(4): 245—264.
12.Richardson S D. et al. MindNet: Acquiring and Structuring Semantic Information from Text. ∥COLING 98 Proceedings of the 17th International Conference on Computational Linguistics, 1998(2):1098—1102.
13.Ruppenhofer J. et al.FrameNet II: Extended Theory and Practice. http:∥framenet2.icsi.berkeley.edu/docs/r1.5/book.pdf,2010.
(廣東外語(yǔ)外貿(mào)大學(xué)詞典學(xué)研究中心 廣州 510420)
(責(zé)任編輯 李瀟瀟)