崔維霞 王均松
(1.西安外國語大學(xué),陜西西安 710061;2.西北工業(yè)大學(xué),陜西西安 710129)
詞表研究不僅是語言研究的重要組成部分,而且在外語教學(xué)領(lǐng)域也具有重要的應(yīng)用價值。相關(guān)研究表明[1-3],并不是所有詞匯都具有同樣的重要性。根據(jù)齊夫定律(ZiPf's Law),在一個自然語言的語料庫中,一個詞的出現(xiàn)頻數(shù)和這個詞在這個語料庫中的排名成反比,第n 常見詞的出現(xiàn)頻率是最常見詞出現(xiàn)頻率的1/n。比如,在Brown 語料庫中,“the”是最常見的單詞,它在這個語料庫中出現(xiàn)的頻率為每百萬詞69 971 次,居于第二位的單詞“of”的頻率為每百萬詞36 411 次,約為“the”出現(xiàn)頻率的1/2,而居于第三位的“and”每百萬詞出現(xiàn)28 852次,約為“the”出現(xiàn)頻率的1/3。盡管這種比例不是十分精確,但卻能夠在總體上體現(xiàn)出語言使用的規(guī)律或特征。統(tǒng)計結(jié)果顯示,Brown 語料庫詞表中前135 個詞匯就占了整個語料庫的50%,前1000 個詞匯的覆蓋率為72%,前3000 個詞匯的覆蓋率為84%。也就是說,在自然文本語料庫中,少量的高頻詞所占的比例很高,而低頻詞的數(shù)目雖然多,但是覆蓋率相對較低。顯然,詞匯習(xí)得的順序也要遵循自然語言的規(guī)律,首先學(xué)習(xí)頻率較高的詞匯,然后學(xué)習(xí)頻率較低的詞匯,最大程度地減輕記憶負(fù)擔(dān),提高學(xué)習(xí)效率。
然而,對處于不同階段和不同層次水平的學(xué)習(xí)者來說,詞匯的重要性是不同的。詞頻的高低并不是唯一的選詞標(biāo)準(zhǔn),了解哪些參數(shù)會影響詞匯在詞表中的位置和順序,顯然對于課程設(shè)置、教材編寫和詞典編纂等方面有很大的幫助。因此,詞表的創(chuàng)建和研究具有重要的理論價值和實踐思義。
詞表的研制與開發(fā)歷史悠久,早在計算機出現(xiàn)之前,各國學(xué)者就開始手工創(chuàng)建用于編制工具書和指導(dǎo)語言教學(xué)的詞頻表,如德國學(xué)者凱定(F.W.Kaeding)1898 年編寫的《德語頻率詞典》、中國教育家陳鶴琴1928 年編制的《語體文應(yīng)用字匯》以及美國的教育心理學(xué)家桑代克(Thorndike)1932 年出版的《教師兩萬詞詞匯手冊》等。這些詞表與今天計算機生成的詞表無異,甚至可以說是今天詞表的前身。自20 世紀(jì)50 年代以來,隨著計算機技術(shù)的不斷進(jìn)步和語料庫語言學(xué)的迅速發(fā)展,國內(nèi)外學(xué)者對于詞表研究表現(xiàn)出極大興趣,并且取得了豐碩的成果。
在當(dāng)今的眾多詞表中,韋斯特(M.West)1953年公布的通用英語詞匯表(general service list,簡稱GSL)最具代表性和影響力[4],該詞表是基于一個500 萬詞規(guī)模的語料庫建成的,詞表中列出了英語中使用頻率最高、覆蓋面最廣的2000 個詞匯,掌握這些詞匯的學(xué)習(xí)者能夠聽懂90%~95%的口語對話,看懂80%~85%的日常語篇。該詞匯表的公布對當(dāng)時的詞匯教學(xué)影響巨大,被稱作“20 世紀(jì)外語教學(xué)和詞匯研究最有創(chuàng)新思義的成果之一”[5]。另外一個享有較高聲譽的是新西蘭維多利亞大學(xué)從事語言學(xué)及應(yīng)用語言學(xué)研究的考克斯黑德(Avreil Coxhead)于2000 年創(chuàng)制的學(xué)術(shù)詞匯表[6](academic word list,簡稱AWL),包括570 個詞族、3112 個詞項。這570 個詞族是在剔除韋斯特的2000 個通用詞族及專屬特定學(xué)術(shù)領(lǐng)域的詞匯之后獲得的,各學(xué)科共有的常用詞匯。該詞匯表包含了學(xué)術(shù)交流中實用頻率最高的詞匯,因此在國際上得到了廣泛的認(rèn)可。
而在國內(nèi),早在20 世紀(jì)80 年代,上海交通大學(xué)楊惠中和黃人杰1982 年通過對自建的上海交通大學(xué)科技英語語料庫語料(簡稱JDEST)比較、統(tǒng)計和篩選,研究出基于該庫的正序詞表、詞頻詞匯表和十個分專業(yè)詞匯表,為確定大學(xué)英語教學(xué)大綱的詞匯表提供了可靠的量化依據(jù)[7]。近年來,專業(yè)領(lǐng)域語料庫的迅速發(fā)展為編制特點鮮明的專業(yè)英語教學(xué)詞表提供了有利的條件。如海軍航空工程學(xué)院曾依靠JDEST語料庫和英語國家語料庫,結(jié)合自身的教學(xué)目的,篩選確定了3000 個復(fù)用式詞匯作為詞匯教學(xué)的重點,收到了顯著的教學(xué)效果。嚴(yán)明于2010 年在黑龍江大學(xué)建設(shè)的商務(wù)英語語料庫(HUBEC)的基礎(chǔ)上開發(fā)了一系列的商務(wù)專業(yè)英語詞匯表,包括“商務(wù)英語專業(yè)參考詞匯表”“商務(wù)英語專業(yè)基礎(chǔ)參考詞匯表”“商務(wù)英語專業(yè)術(shù)語參考詞匯表”“商務(wù)英語專業(yè)縮寫詞表”,這些詞表的創(chuàng)建對于商務(wù)英語教學(xué)具有重要的指導(dǎo)價值[8]。
綜上所述,國內(nèi)外學(xué)者在詞表方面的研究和探索為外語學(xué)習(xí)者和英語教師提供了極大的幫助,同時也為教材編寫、課程內(nèi)容設(shè)計、測試開發(fā)以及詞典編纂提供了必要的參考依據(jù),詞表的開發(fā)與利用具有重要的現(xiàn)實思義和指導(dǎo)作用。本文以考克斯黑德的學(xué)術(shù)英語詞匯表為例探討基于語料庫的詞表開發(fā)與研制應(yīng)遵循的原則和步驟。
在詞表創(chuàng)建之前首先要明確詞表的使用對象和研究目標(biāo),這將對詞表開發(fā)和應(yīng)用中的一系列決策產(chǎn)生重要的影響。詞表設(shè)計者要從使用者的實際需求出發(fā),考慮使用者的范圍、層次和水平,因為不同的使用者對詞表的期望和需求是不同的。比如,初級學(xué)習(xí)者和高級學(xué)習(xí)者需求的詞表一定是有所不同的,專業(yè)技術(shù)人員和非專業(yè)技術(shù)人員需求的詞表也必然存在較大差異。此外,詞表的設(shè)計也不能脫離詞表具體的使用目的或用途,詞表在語言教學(xué)、課程設(shè)置、文本分析、語言測試等方面有廣泛的應(yīng)用,在詞表創(chuàng)建時要結(jié)合具體的研究目的有針對性地制定設(shè)計方案。考克斯黑德創(chuàng)建學(xué)術(shù)英語詞表的目標(biāo)是幫助學(xué)習(xí)者解決在閱讀學(xué)術(shù)類文章時遇到的由于學(xué)術(shù)詞匯缺乏而造成的困難。學(xué)術(shù)詞匯頻繁出現(xiàn)在各專業(yè)領(lǐng)域的學(xué)術(shù)性文本中,雖然不能傳遞主要的學(xué)術(shù)信息,但是在表達(dá)學(xué)術(shù)觀點、闡釋研究活動、解釋研究結(jié)果時經(jīng)常用到。雖然有學(xué)者質(zhì)疑創(chuàng)建一個涵蓋各學(xué)科的學(xué)術(shù)詞表的可行性,但是大量的實驗結(jié)果顯示該詞表有良好的普適性,包括了很多以往語言教學(xué)中被忽視的重要學(xué)術(shù)詞匯,具有重要的價值。
語料庫是指“按照一定的語言學(xué)原則運用隨機抽樣的方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片段而建成的具有一定容量的大型電子文庫”[9]。自計算機語料庫出現(xiàn)以來,絕大多數(shù)的詞表都建立在語料庫的基礎(chǔ)之上。語料庫的選擇和詞表研制的目標(biāo)緊密相關(guān),語料庫的構(gòu)成必須能夠滿足詞表使用者的需求。如果要為青少年學(xué)習(xí)者設(shè)計詞表,那么語料庫就必須最大限度地包括青少年經(jīng)常遇到和使用語言的典型用法。研究者可以選擇已有的語料庫來創(chuàng)建詞表,但是現(xiàn)有的語料庫大多根據(jù)設(shè)計者當(dāng)時的需求設(shè)計,不一定能完全滿足現(xiàn)有研究的需求。比如,英國國家英語語料庫(簡稱BNC)是一個庫容為1 億詞匯的大型平衡語料庫,但是該語料庫的口語部分比較?。?000 萬詞),而且收集的語料都是英式成人英語,語體較為正式。
另一方面,詞表研究者也可以根據(jù)需要來自建語料庫,隨著語料庫語言學(xué)的發(fā)展和各種檢索軟件的出現(xiàn),個人通過自建語料庫來研制詞表已經(jīng)成為潮流和趨勢。創(chuàng)建學(xué)術(shù)英語語料庫是考克斯黑德詞表研究的一個首要任務(wù),因為當(dāng)時沒有合適的學(xué)術(shù)英語語料庫可供選擇。在充分考慮代表性和典型性的基礎(chǔ)上,考克斯黑德建成了一個350 萬詞的學(xué)術(shù)英語語料庫,該語料庫分為人文、經(jīng)濟、法律和科學(xué)4 個大類,然后又細(xì)分為28 個同樣大小的學(xué)科小類。每一類中長短文本的比例基本相當(dāng),而且文本的來源也十分廣泛,包括教科書、期刊文章以及操作手冊等。盡管如此,仍有學(xué)者批評其子庫的容量較?。ú蛔?3 萬詞),不能滿足所選詞匯出現(xiàn)在所有學(xué)科子類中的要求。但是,總體來講,學(xué)術(shù)英語語料庫可以較好地代表當(dāng)時最新的學(xué)術(shù)英語書面語,是創(chuàng)建學(xué)術(shù)英語詞表的一個理想選擇。
在討論詞頻統(tǒng)計單位之前,首先要區(qū)分幾個語料庫語言學(xué)中使用的相關(guān)術(shù)語。在語料庫語言學(xué)中常見的詞頻統(tǒng)計單位包括形符(token)、類符(word tyPe)、詞項(lemma)以及詞族(word family)。形符是一個語言單位,類似于我們?nèi)粘Uf的“詞”,類符指不重復(fù)計算的形符數(shù),在文本中重復(fù)出現(xiàn)的形符只能記作一個類符,類符/形符比是衡量文本中詞匯密度的常用方法。詞項是由一個基礎(chǔ)詞(base word)與它的詞類相同的屈折形式(inflected forms)構(gòu)成的一系列單詞,例如動詞access這個詞項就由基礎(chǔ)詞access和它的屈折形式accesses、accessed 和accessing構(gòu)成,而詞族涵蓋的范圍更廣,不僅包括基礎(chǔ)詞及其屈折形式,還包括一系列的明顯派生詞,如accessible、inaccessible、accessibility等。
在詞表的研制過程中,詞頻統(tǒng)計單位的選擇和研究的目的密切相關(guān)??傮w來講,以接受知識為目標(biāo)的詞表研制通常以詞族為統(tǒng)計單位,假設(shè)學(xué)習(xí)者能夠理解詞族中的一兩個詞匯,那么理解詞族中其他成員就不會有很大的困難,因為詞族中的成員無論是在形式上還是在思義上都是密切相關(guān)的。而在以產(chǎn)出知識為目標(biāo)的詞表研究中,詞族單位并不適用,因為即使能夠正確使用詞族中的某個詞匯,并不思味著能夠正確使用詞族中的其他成員,因此詞項或類符應(yīng)當(dāng)是理想的詞頻統(tǒng)計單位。而考克斯黑德創(chuàng)建學(xué)術(shù)詞表的興趣主要在于學(xué)術(shù)文本的閱讀,所以選取詞族作為詞頻統(tǒng)計的單位。但某些時候?qū)W習(xí)者也需要產(chǎn)出學(xué)術(shù)詞匯,尤其是在寫作的過程中,因此也有人提出以詞項作為詞頻統(tǒng)計的單位。在具體的操作過程中可以考慮分別以類符、詞項和詞族為統(tǒng)計單位制作詞表,然后加以比較,選擇最佳的詞頻統(tǒng)計單位。
詞頻(word frequency)是詞表選詞時一個非常重要的指標(biāo),出現(xiàn)頻率越高的詞匯在詞表中的位置就越靠前,相反出現(xiàn)頻率越低的詞匯在詞表中的位置就越靠后。但這并不思味著詞頻是唯一的參照標(biāo)準(zhǔn)。在具體的實踐中,詞表的設(shè)計者通常把詞匯的跨文本分布情況(range)和詞頻綜合加以考慮。
考克斯黑德在學(xué)術(shù)詞匯表選詞時制定了以下三個原則:(1)特定出現(xiàn)的領(lǐng)域:詞族須為韋斯特編制的GSL前2000 詞匯外的詞匯;(2)詞匯的跨文本分布情況:詞族必須在該語料庫4 個子庫中至少出現(xiàn)10 次,并出現(xiàn)于28 小類中至少15 小類;(3)詞頻:詞族在語料庫中最低詞頻為100 次。按照這個標(biāo)準(zhǔn),考克斯黑德編制完成了包括570 個詞族的“學(xué)術(shù)詞匯表”,根據(jù)這些詞族在學(xué)術(shù)英語語料庫中出現(xiàn)頻率的高低,考克斯黑德進(jìn)一步將這些詞分成10 個子表:前9 個子表各包括60 個詞族,第10 個子表含30 個詞族。考克斯黑德之所以將詞頻放在跨文本分布之后是因為詞頻會受到文本篇幅較長和主題相關(guān)詞的影響。例如,在《柯林斯COBUILD英語詞典(第二版)》中,Yemeni和Lithuanian 被標(biāo)記為高頻詞,可能就是因為該詞典所借助的語料庫中包含了大量來自20 世紀(jì)90 年代初報紙的材料。
此外,在創(chuàng)建詞表時經(jīng)常會遇到一些特殊的詞匯,比如復(fù)合詞、專有名詞、縮略詞、外來詞等,它們是否應(yīng)該被錄人詞表是設(shè)計者必須要考慮的問題。辨別哪些詞匯可以列人詞表,哪些詞匯應(yīng)當(dāng)排除在詞表之外,或者列人某個單獨的詞表時應(yīng)遵循的一個主要原則就是學(xué)習(xí)負(fù)擔(dān)原則。該原則的主要內(nèi)容是,如果一個詞匯不需要先前的知識(如專有名詞)就可以理解其思義,或者從先前的知識可以推導(dǎo)出其思義(如一些詞匯的屈折形式或明顯復(fù)合詞),那么就不應(yīng)當(dāng)列人詞表中作為詞條。對于明顯復(fù)合詞來說,既可以參照BNC語料庫詞表的做法把它們單獨列人一個詞表,也可以歸到復(fù)合詞中出現(xiàn)頻率較低的那個詞匯的詞族中,例如lifesPan這個復(fù)合詞就可以歸到sPan 這個詞條中,作為它的詞族成員。但需要特別注思的是很多復(fù)合詞并非明顯復(fù)合詞,復(fù)合詞的思義并不能通過其組成部分詞匯的思義推導(dǎo)出來,(如doughnut、ladybird、walkman 等),這些詞匯應(yīng)當(dāng)納人到詞表中。專有名詞包括特定的人名、地名、機構(gòu)名稱等,在選詞時通常被歸到一個單獨的列表中。但是國名、國民的總稱以及國家使用的語言則納人到普通名詞表中,這是因為此類專有名詞要比其他的專有名詞更多依賴讀者的先驗知識。此外,這類詞表存在的一個很大的問題就在于其中相當(dāng)一部分詞匯(如Smith、Bill、Fanny、Bush 等)既是專有名詞又是普通名詞,這在文本分析時需要特別關(guān)注。外來詞和縮略詞也是詞表研制過程中經(jīng)常遇到的詞匯,前者通常被納人到詞表中,而后者則往往被排除在詞表之外單獨列表??伎怂购诘抡J(rèn)為在以上幾類詞匯中,專有名詞大多與主題密切相關(guān),不能與常用的學(xué)術(shù)詞匯等同視之,因此將此類詞匯排除在詞表之外。
詞表一旦建成就可以對其效度和適用性進(jìn)行評估。詞表一般在其來源的語料庫中測試結(jié)果良好,但是真正的測試或評估必須在一個獨立的語料庫中進(jìn)行。最理想的情況是,這個獨立的語料庫與來源語料庫類型相同、大小相似、內(nèi)容卻不同。還有一種方法就是將來源語料庫分為兩個子庫,然后分別抽取詞表并進(jìn)行比較。為了驗證該詞表的可靠性和準(zhǔn)確性,考克斯黑德使用了兩個不同的語料庫對學(xué)術(shù)英語詞表進(jìn)行測試,一個是非學(xué)術(shù)的小說文本語料庫,另一個則是學(xué)術(shù)文本語料庫。測試結(jié)果顯示,該詞表在非學(xué)術(shù)英語語料庫的覆蓋率較低,僅為2%;而在學(xué)術(shù)英語語料庫的覆蓋率約為10%,這說明學(xué)術(shù)英語詞表不是一個通用詞表而是一個專業(yè)詞表。與之前的詞匯表相比,學(xué)術(shù)英語詞匯表在學(xué)術(shù)用途英語教學(xué)方面具有突出優(yōu)勢和重要思義。但是關(guān)于該學(xué)術(shù)英語詞匯表,學(xué)者們也有一些不同思見。吳瑾和王同順基于上海交大科技英語語料庫(JDEST)從詞匯的覆蓋率、頻率等角度考察和分析該詞表在科技英語教學(xué)領(lǐng)域的適用性[10]。研究結(jié)果表明,AWL所包含的570 個學(xué)術(shù)詞族雖然總體上也同樣適用于自然與理工學(xué)科,但由于Coxhead 學(xué)術(shù)英語語料庫在所選專業(yè)方面的側(cè)重,AWL中有57 個詞族的子表位置相對于它們在以JDEST為基礎(chǔ)產(chǎn)生的子表位置有顯著差異。據(jù)此,建議在科技英語教學(xué)中參考研究結(jié)果,根據(jù)學(xué)生所學(xué)專業(yè),對AWL中57 個詞族所在子表的順序和內(nèi)容做適當(dāng)調(diào)整。
通用英語詞表自韋斯特提出之后,適用性一直非常好。但是隨著信息時代的到來,語言變化的速度越來越快。在過去60 年中,各個行業(yè),尤其是IT行業(yè)的發(fā)展催生了很多新的詞匯(如web、e-mail、Internet等),并逐漸演變?yōu)槿粘=浑H中頻繁使用的核心詞匯;而有些詞匯隨著時間的推移使用頻率越來越低,變得陳舊過時,但這些變化大多沒有在該詞表中得以體現(xiàn)。為了及時反映語言發(fā)展的最新動態(tài),有必要對該詞表進(jìn)行維護(hù)和升級。另一方面,隨著語料分析和索引工具的不斷完善和強大,可以考慮在詞表中適當(dāng)增加一些其他數(shù)據(jù),如搭配、分布、覆蓋率等信息輔助語言教學(xué)和研究。
詞表的研制和設(shè)計與研究目的密切相關(guān),沒有一個終極詞表可以滿足研究者的所有需要。根據(jù)不同的研究目的可以研制各種類型的專用詞表,滿足不同人群的需要。比如,提供一個面向兒童學(xué)習(xí)外語的詞表將會非常實用;同樣,創(chuàng)建各個專業(yè)領(lǐng)域的詞表(如法律、商務(wù)、醫(yī)學(xué)、旅游等)也會給該領(lǐng)域的從業(yè)人員和學(xué)習(xí)者提供巨大的幫助。但是無論創(chuàng)建何種類型的詞表,都要首先考慮兩個最基本的問題:一是基于什么類型的語料庫來研制當(dāng)前的詞表? 二是選詞的標(biāo)準(zhǔn)除了詞匯的跨文本分布情況和詞頻之外是否還有其他的標(biāo)準(zhǔn)可以參照?效度和適用性如何?
詞表創(chuàng)建的歷史非常悠久,迄今為止詞表研究在課程設(shè)置、語言教學(xué)、詞典編纂等諸多領(lǐng)域已經(jīng)取得了豐碩的成果。隨著計算機技術(shù)的進(jìn)步和語料庫語言學(xué)的興起與發(fā)展,基于語料庫的詞表研究已經(jīng)成為當(dāng)前的主流和趨勢。本文以Coxhead 的學(xué)術(shù)詞表為例討論了基于語料庫的詞表創(chuàng)建應(yīng)遵循的原則和步驟,主要包括明確詞表創(chuàng)建的目的或目標(biāo),選擇或自建合適的語料庫,確定詞頻統(tǒng)計單位,制定詞匯選取標(biāo)準(zhǔn)以及對詞表進(jìn)行評估與測試五個方面。但需要注思的是這幾個方面并非是孤立的,而是相互聯(lián)系相互影響的統(tǒng)一整體。其中詞表創(chuàng)建的目的和目標(biāo)是基礎(chǔ),語料庫的選擇、選詞的標(biāo)準(zhǔn)、詞頻單位的確定都要和研究目的緊密結(jié)合,受其制約;反過來,正確的選擇、合理的評估與測試可以促使設(shè)計者不斷修改和完善現(xiàn)有的詞表,更好地實現(xiàn)詞表創(chuàng)建的目標(biāo)。