石志亮
(中原工學(xué)院 外國(guó)語(yǔ)學(xué)院,河南鄭州 450007)
語(yǔ)塊類(lèi)似于詞匯和語(yǔ)法之間的橋梁,是一個(gè)完整的詞匯和語(yǔ)法單位,Wray(2002)認(rèn)為,語(yǔ)塊具有心理上的現(xiàn)實(shí)性、結(jié)構(gòu)上的完整性和語(yǔ)義上的一致性。上述特點(diǎn)使得語(yǔ)塊在交際中可以整存整取,減輕了交際者大腦處理的負(fù)擔(dān),節(jié)約語(yǔ)言處理的時(shí)間和精力,獲得像本族語(yǔ)者一樣的流利性,增加語(yǔ)言輸出的準(zhǔn)確性、流利性和地道性。近二十年來(lái),隨著認(rèn)知語(yǔ)言學(xué)、心理語(yǔ)言學(xué)和構(gòu)式語(yǔ)法理論的興起,語(yǔ)塊(lexical chunks)在二語(yǔ)產(chǎn)出過(guò)程中的重要作用日益凸顯。語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起為語(yǔ)塊的研究開(kāi)創(chuàng)了新的視角,近年來(lái)語(yǔ)塊已經(jīng)成為語(yǔ)言學(xué)研究和教學(xué)研究的一個(gè)熱點(diǎn),且研究視角呈現(xiàn)出多元化趨勢(shì)。本文主要從語(yǔ)料庫(kù)語(yǔ)言學(xué)的角度對(duì)語(yǔ)塊的提取方式進(jìn)行論述,以此來(lái)深化我們對(duì)語(yǔ)塊這一語(yǔ)言現(xiàn)象的理解。
目前語(yǔ)塊的研究呈現(xiàn)出三種視角:語(yǔ)法學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)和心理語(yǔ)言學(xué)。由于覆蓋范圍及研究重點(diǎn)不同,這三種視角對(duì)語(yǔ)塊的定義表述不一。語(yǔ)法學(xué)家將其看作“充當(dāng)句子成分、具有句法功能的詞的組合”;語(yǔ)料庫(kù)語(yǔ)言學(xué)家更多地“關(guān)注那些出現(xiàn)頻率超過(guò)提取頻點(diǎn)的重現(xiàn)詞叢,而忽略其地道性和結(jié)構(gòu)特征”;心理語(yǔ)言學(xué)家則認(rèn)為,語(yǔ)塊是“一串預(yù)制的連貫或不連貫的詞或其他意義單位,整體存儲(chǔ)于記憶中,使用時(shí)直接提取,無(wú)需經(jīng)過(guò)語(yǔ)法生成和分析”(Wray,2002:9)。這就是語(yǔ)塊儲(chǔ)存和提取的整體性(即心理現(xiàn)實(shí)性)。詞的組合能否作為整體被儲(chǔ)存和提取是決定詞的組合是否為語(yǔ)塊的重要指標(biāo)。
由此可見(jiàn),人們尚未對(duì)語(yǔ)塊給出一致的明確定義,國(guó)外創(chuàng)造和使用的術(shù)語(yǔ)多達(dá)57個(gè),如formulaic sequence, chunk, lexical chunk,prefabricated chunk, collocation, colligation,N-gram等,國(guó)內(nèi)對(duì)它的翻譯也是名稱(chēng)繁多,尚無(wú)定論。中國(guó)期刊全文數(shù)據(jù)庫(kù)文史哲輯專(zhuān)欄目錄(1997-2011)檢索的結(jié)果為:語(yǔ)塊、組塊、套語(yǔ)、多詞單位、預(yù)制語(yǔ)塊、搭配、習(xí)語(yǔ)、成語(yǔ)、慣用語(yǔ)、類(lèi)聯(lián)結(jié)等,如此大量的術(shù)語(yǔ)說(shuō)明了語(yǔ)塊研究的重要意義和語(yǔ)塊現(xiàn)象的多面性和復(fù)雜性(段士平,2008)。簡(jiǎn)單地說(shuō),語(yǔ)塊是真實(shí)言語(yǔ)交際中以高頻率出現(xiàn)的大于單個(gè)單詞的整體的多詞單位?;谡Z(yǔ)法學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)和心理語(yǔ)言學(xué)三個(gè)視角的研究發(fā)現(xiàn),語(yǔ)塊具有心理現(xiàn)實(shí)性和結(jié)構(gòu)上的連續(xù)與非連續(xù)性特征。
語(yǔ)塊是心理學(xué)概念組塊(chunking)的結(jié)果,組塊就是記憶對(duì)信息的加工過(guò)程,也就是把單個(gè)信息組成更多的信息單位。心理學(xué)家通過(guò)分析短時(shí)記憶與長(zhǎng)時(shí)記憶的差別,發(fā)現(xiàn)語(yǔ)塊具有組塊效應(yīng),對(duì)記憶及語(yǔ)言學(xué)習(xí)至關(guān)重要。心理學(xué)家Miller的研究表明,短時(shí)記憶所能加工與處理的信息容量非常有限,其容量大約為5~9個(gè)組塊或者有意義的信息單元(Miller,1956)。長(zhǎng)時(shí)記憶中加工與存儲(chǔ)的信息容量巨大,以語(yǔ)義方式進(jìn)行編碼與儲(chǔ)存,信息儲(chǔ)存的時(shí)間長(zhǎng),甚至可以保持永久。Simon(1974)的研究也驗(yàn)證了Miller的短時(shí)記憶容量的觀點(diǎn),認(rèn)為語(yǔ)塊是人類(lèi)記憶的基本單位。因此,人們可以通過(guò)加強(qiáng)語(yǔ)塊內(nèi)部信息單位之間的意義聯(lián)系來(lái)擴(kuò)大短時(shí)記憶的容量,重新編碼后的信息單位變?yōu)橛幸饬x的語(yǔ)塊即可進(jìn)入長(zhǎng)時(shí)記憶,以語(yǔ)塊的形式整體儲(chǔ)存、整體提取,這就是語(yǔ)塊的組塊效應(yīng),即心理現(xiàn)實(shí)性。McClelland的連通理論發(fā)現(xiàn),人類(lèi)大腦中無(wú)數(shù)的節(jié)點(diǎn)及其相互之間的連接構(gòu)成了一個(gè)巨大的網(wǎng)絡(luò),知識(shí)就儲(chǔ)存在這些聯(lián)結(jié)線上,聯(lián)結(jié)的強(qiáng)度決定知識(shí)掌握的程度(陳萬(wàn)會(huì),2008)。由于語(yǔ)塊中各個(gè)組成部分共現(xiàn)的頻率較高,所以它們之間的聯(lián)結(jié)會(huì)不斷增強(qiáng)。語(yǔ)言輸出時(shí),語(yǔ)塊更容易從心理詞庫(kù)中提取出來(lái),使交際變得流暢、高效。因此,Wray(2002)認(rèn)為,詞塊是指出現(xiàn)頻率高、作為整體儲(chǔ)存和使用的詞語(yǔ)程式。二語(yǔ)習(xí)得研究也表明,語(yǔ)言學(xué)習(xí)是通過(guò)規(guī)則學(xué)習(xí)和范例學(xué)習(xí)兩種途徑發(fā)展的,后者就是預(yù)制語(yǔ)塊的構(gòu)建(Skehan,1998 :49)。
語(yǔ)塊從結(jié)構(gòu)上可分為四類(lèi)(Nattinger &DeCarrico,1992:33):多元詞語(yǔ)塊(polywords)、習(xí)俗語(yǔ)語(yǔ)塊(institutionalized expressions)、短語(yǔ)架構(gòu)語(yǔ)塊(phrasal constraints)、句子構(gòu)建語(yǔ)塊(sentence builders)。Lewis(1993) 從 結(jié) 構(gòu)和功能上把語(yǔ)塊分為四種情況:聚合詞,指具有習(xí)語(yǔ)性質(zhì)的固定詞組,比如on the one hand,on the other hand;搭配詞,指共現(xiàn)頻率很高的詞語(yǔ),如動(dòng)詞+名詞、形容詞+名詞搭配,如put forward a suggestion;慣用話語(yǔ),指形式固定或半固定的具有語(yǔ)用功能的單詞組合,如If I were you;句子構(gòu)架和引語(yǔ),這一類(lèi)僅指書(shū)面語(yǔ)詞匯,如firstly... and finally。此外,還可以按照語(yǔ)塊成分間連續(xù)情況將其分為:連續(xù)性、固定語(yǔ)塊,如once upon a time, on the other hand等;非連續(xù)性可變語(yǔ)塊,如firstly...and finally,it occurred to sb.to do...基于語(yǔ)塊的心理現(xiàn)實(shí)性和結(jié)構(gòu)方面的特征并結(jié)合語(yǔ)料庫(kù)研究的方法,本文把語(yǔ)塊界定為:以整體形式儲(chǔ)存在大腦中,并可作為預(yù)制組塊供人們提取使用的多詞單位,這就把名稱(chēng)為語(yǔ)塊、搭配、類(lèi)聯(lián)結(jié)和預(yù)制語(yǔ)塊等多詞單位統(tǒng)統(tǒng)包括在內(nèi)。也就是說(shuō),語(yǔ)塊的概念模糊了原有的詞匯搭配之間的界限,它不僅包括多詞的搭配、句子框架,還可以擴(kuò)大到句子甚至語(yǔ)篇。
要研究語(yǔ)塊,首先必須快速識(shí)別和提取語(yǔ)塊,目前主要通過(guò)機(jī)器自動(dòng)識(shí)別和人工多方驗(yàn)證兩種方式。人工識(shí)別主觀性強(qiáng),速度太慢。語(yǔ)塊提取的經(jīng)典方法是基于語(yǔ)料庫(kù)的方法,這是語(yǔ)料庫(kù)語(yǔ)言學(xué)和自然語(yǔ)言結(jié)合的產(chǎn)物。語(yǔ)料庫(kù)的優(yōu)勢(shì)在于能快速檢索和統(tǒng)計(jì)大量語(yǔ)料,注重頻數(shù)信息是語(yǔ)料庫(kù)方法的一個(gè)顯著特征。事實(shí)上,現(xiàn)有的從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)提取語(yǔ)塊的方法多是以統(tǒng)計(jì)為主,輔之以詞性、句法等語(yǔ)言學(xué)規(guī)則(謝家成,2008)。隨著人們對(duì)語(yǔ)塊認(rèn)識(shí)的深入,語(yǔ)料庫(kù)的方法也不斷改進(jìn)。語(yǔ)料庫(kù)除了通過(guò)檢索行凸顯搭配外,還可實(shí)現(xiàn)搭配的自動(dòng)提取在自然語(yǔ)言處理領(lǐng)域,語(yǔ)言檢索的工具和技術(shù)進(jìn)展很快。語(yǔ)塊識(shí)別的技術(shù)也從人工識(shí)別進(jìn)入了機(jī)器識(shí)別。語(yǔ)塊檢索技術(shù)的起點(diǎn)是從語(yǔ)料庫(kù)中提取連續(xù)的、固定的詞串,經(jīng)過(guò)幾年的發(fā)展,已可以提取非連續(xù)的可變語(yǔ)塊。
語(yǔ)塊提取軟件
上表為六個(gè)語(yǔ)塊提取軟件的概貌,下文主要從以下三個(gè)方面對(duì)語(yǔ)塊提取軟件進(jìn)行分項(xiàng)闡述:語(yǔ)塊提取軟件的運(yùn)行方式與收費(fèi)情況,語(yǔ)塊的提取方式,即有無(wú)既定的中心詞及語(yǔ)塊的種類(lèi)。
軟件的運(yùn)行方式主要分為單機(jī)運(yùn)行和在線運(yùn)行兩種方式,一般情況下單機(jī)運(yùn)行的軟件多為收費(fèi)的商業(yè)軟件,功能也較全面,如Wordsmith Tools,在線運(yùn)行的軟件多為免費(fèi)軟件,功能相對(duì)單一,如N-Gram Phrase Extractor,Sketch Engine,Concgram。AntConc是免費(fèi)的,功能強(qiáng)大,界面友好,支持正則表達(dá)式檢索等因素,國(guó)內(nèi)研究者多傾向于使用它,目前是語(yǔ)料庫(kù)檢索的主流軟件。
語(yǔ)料庫(kù)提取語(yǔ)塊可分為基于既定中心詞和無(wú)既定中心詞兩種情況,本文將《新概念英語(yǔ)3》全部60篇文章作為檢索語(yǔ)料,以AntConc軟件為例進(jìn)行語(yǔ)塊提取的演示。
2.1 基于既定中心詞的連續(xù)語(yǔ)塊提取
以既定中心詞possible為例提取《新概念英語(yǔ)3》中相關(guān)的連續(xù)語(yǔ)塊。第一步,通過(guò)點(diǎn)擊菜單欄File下拉菜單中的Open File(s), 導(dǎo)入要提取的語(yǔ)料《新概念英語(yǔ)3》,再點(diǎn)擊軟件主界面上方的Clusters(詞叢)按鈕,然后在主界面下方的Search Term(搜索輸入框)中輸入檢索詞possible。第二步,設(shè)置Cluster Size, 通常提取的語(yǔ)塊長(zhǎng)度范圍為2~6個(gè)詞。由于不同長(zhǎng)度的語(yǔ)塊重疊,因此語(yǔ)塊的邊界的確定也是困擾研究者的一個(gè)問(wèn)題。我們可以采取從長(zhǎng)到短的順序提取語(yǔ)塊,并依次屏蔽已經(jīng)提取的語(yǔ)塊,這樣可以最大限度地避免語(yǔ)塊重疊問(wèn)題。本文中語(yǔ)塊長(zhǎng)度范圍設(shè)置,最小為4,最大也為4, 表示要提取包含檢索詞在內(nèi)的4詞短語(yǔ)。第三步,設(shè)置Min. Cluster Frequency(出現(xiàn)的最小頻數(shù))為默認(rèn)值1,設(shè)置Sort by為Sort by Fre (按頻率顯示)。第四步,點(diǎn)擊Start即可提取出包含possible在內(nèi)的所有連續(xù)4詞語(yǔ)塊來(lái)。語(yǔ)塊提取結(jié)果如下:
2.2 無(wú)既定中心詞的連續(xù)語(yǔ)塊提取
如果需要了解某篇文章中的語(yǔ)塊總體使用情況,可以如下操作:第一步,導(dǎo)入要提取的語(yǔ)料《新概念英語(yǔ)3》,點(diǎn)擊主界面上方的Clusters按鈕,勾選主界面下方的N-grams(N元結(jié)構(gòu)); 第二步,設(shè)置N-gram Size, 一般設(shè)置Min. Size 為2, Max. Size為6。本文把二者皆設(shè)置為4;第三步,設(shè)置Min. Cluster Frequency為默認(rèn)值1,設(shè)置Sort by為Sort by Fre;第四步,點(diǎn)擊Start即可提取出語(yǔ)料中的所有連續(xù)的4詞語(yǔ)塊來(lái)。語(yǔ)塊提取結(jié)果如下:
以這種方式提取的語(yǔ)塊多是基于詞形的外在物理毗鄰進(jìn)行人為切分,統(tǒng)計(jì)共現(xiàn)頻數(shù),忽視了詞語(yǔ)序列的內(nèi)部黏著力。因此,提取的數(shù)據(jù)中含有大量結(jié)構(gòu)不完整、語(yǔ)義不清晰的強(qiáng)干擾序列,識(shí)別的準(zhǔn)確率稍低,還需人工運(yùn)用語(yǔ)言學(xué)知識(shí)進(jìn)行篩選,但是這種機(jī)切語(yǔ)塊往往能凸顯容易被忽略的語(yǔ)言適用范式(何安平,2011;林維燕,2011)。
根據(jù)語(yǔ)塊的結(jié)構(gòu),可以將其分為連續(xù)性和非連續(xù)性語(yǔ)塊。連續(xù)性語(yǔ)塊的提取較為容易,非連續(xù)語(yǔ)塊的提取方法相對(duì)比較復(fù)雜。這種檢索主要是圍繞某個(gè)既定中心詞提取其相關(guān)的搭配模式,一次檢索只能針對(duì)一組詞語(yǔ)??梢岳肳ordsmith工具中的Concordance檢索工具中Context word語(yǔ)境詞功能,也可運(yùn)用ConcGram(框合結(jié)構(gòu))或Sketch Engine進(jìn)行檢索。下文仍以AntConc軟件為例,檢索in...of構(gòu)成的非連續(xù)語(yǔ)塊在新概念英語(yǔ)第三冊(cè)中出現(xiàn)的情況。
第一步,導(dǎo)入要提取的語(yǔ)料《新概念英語(yǔ)3》,在軟件主界面下方的Search Term中輸入in; 第二步,點(diǎn)擊其右側(cè)的Advanced(高級(jí)),在隨后彈出的界面上勾選Use Contexts Words and Horizons(使用語(yǔ)境詞和設(shè)置語(yǔ)境詞左右范圍),在Contexts Words(語(yǔ)境詞)框中輸入of,點(diǎn)擊Add,接著把Context Horizon(語(yǔ)境詞左右范圍)設(shè)置成From2R to 4R(右2至右4),表示of必須出現(xiàn)在檢索詞in 右邊的第二到第四的位置上;第三步,點(diǎn)擊Apply,自動(dòng)回到主界面,再點(diǎn)擊Start即可提取出在in...of 這個(gè)短語(yǔ)框架下的所有的非連續(xù)性語(yǔ)塊。語(yǔ)塊提取結(jié)果如下:
從上面的檢索結(jié)果可以看出,AntConc的局限性在于它只能檢索既定中心詞之間的單向搭配,即“in在前,of在后”的這個(gè)方向的搭配,而不能檢索“of在前,in在后”的反向搭配的語(yǔ)塊。ConcGram(框合結(jié)構(gòu))可以克服AntConc的這一局限性,檢索由多個(gè)中心詞構(gòu)成的非連續(xù)語(yǔ)塊,且不考慮這些詞的先后順序(即任意方向的強(qiáng)搭配)。ConcGram的具體操作步驟詳見(jiàn)詹宏偉 (2011)的《語(yǔ)料庫(kù)中語(yǔ)塊提取的工具與方法》,在此不再贅述。
綜上所述,語(yǔ)塊是語(yǔ)言中高頻共現(xiàn)的多詞組合。在結(jié)構(gòu)特征上,可以分為連續(xù)和非連續(xù)兩類(lèi);在語(yǔ)塊提取的方式上,又可分為基于既定中心詞和無(wú)既定中心詞兩種情況。并且語(yǔ)塊具有整存整取的心理現(xiàn)實(shí)性和統(tǒng)計(jì)上的顯著性。因此,語(yǔ)塊的提取應(yīng)充分考慮上述特征?;谡Z(yǔ)料庫(kù)自動(dòng)提取出的大量語(yǔ)塊,雖然頻率較高,但不一定都具有心理現(xiàn)實(shí)性,尚需結(jié)合心理語(yǔ)言學(xué)的相關(guān)知識(shí)進(jìn)行人工篩選。因此,我們相信心理語(yǔ)言學(xué)與語(yǔ)料庫(kù)語(yǔ)言學(xué)兩大研究視角的融合,將更能夠?qū)崿F(xiàn)二者的優(yōu)勢(shì)互補(bǔ),達(dá)到人工篩選和自動(dòng)識(shí)別的高度彌合,加深人們對(duì)語(yǔ)塊這一語(yǔ)言現(xiàn)象的認(rèn)識(shí),提高語(yǔ)塊研究的效率和深度。
[1]Lewis, M. The Lexical Approach[M]. Hove: Language Teaching Publications, 1993.
[2]Miller, G. a.The Magical Number of Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information[J].Psychological Review,1956,(63).
[3]Nattinger, J & J. DeCarrico. Lexical Phrases and Language Teaching[M]. Oxford: Oxford University Press, 1992.
[4]Simon, H. a.How Big Is a Chunk? [J].Science, 1974, (183).
[5]Skehan, P. A Cognitive Approach to Language Learning[M]. Oxford: Oxford University Press, 1998.
[6]Wray, a.Formulaic Language and the Lexicon[M]. Cambridge: Cambridge University Press,2002.
[7]陳萬(wàn)會(huì). 詞塊的心理現(xiàn)實(shí)性及其特征[J]. 外語(yǔ)學(xué)刊,2008,(6).
[8]段士平. 國(guó)內(nèi)二語(yǔ)語(yǔ)塊教學(xué)研究述評(píng)[J]. 中國(guó)外語(yǔ),2008,(4).
[9]何安平. 短語(yǔ)理論視角下的英語(yǔ)教師課堂話語(yǔ)探究[J]. 外語(yǔ)教學(xué)理論與實(shí)踐,2011,(3).
[10]林維燕. 機(jī)切語(yǔ)塊立場(chǎng)標(biāo)識(shí)特性的理論與實(shí)證研究[J]. 中國(guó)外語(yǔ),2011,(5).
[11]謝家成. 搭配的多視角透視[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2008,(2).
[12]詹宏偉. 語(yǔ)料庫(kù)中語(yǔ)塊提取的工具與方法[J]. 外語(yǔ)教學(xué),2011,(2).