亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語(yǔ)料庫(kù)語(yǔ)言學(xué)視角下的語(yǔ)塊自動(dòng)提取研究

2012-11-01 05:53:30石志亮

天津外國(guó)語(yǔ)大學(xué)學(xué)報(bào) 2012年6期

石志亮

（中原工學(xué)院外國(guó)語(yǔ)學(xué)院，河南鄭州 450007）

一、引言

語(yǔ)塊類(lèi)似于詞匯和語(yǔ)法之間的橋梁，是一個(gè)完整的詞匯和語(yǔ)法單位，Wray（2002）認(rèn)為，語(yǔ)塊具有心理上的現(xiàn)實(shí)性、結(jié)構(gòu)上的完整性和語(yǔ)義上的一致性。上述特點(diǎn)使得語(yǔ)塊在交際中可以整存整取，減輕了交際者大腦處理的負(fù)擔(dān)，節(jié)約語(yǔ)言處理的時(shí)間和精力，獲得像本族語(yǔ)者一樣的流利性，增加語(yǔ)言輸出的準(zhǔn)確性、流利性和地道性。近二十年來(lái)，隨著認(rèn)知語(yǔ)言學(xué)、心理語(yǔ)言學(xué)和構(gòu)式語(yǔ)法理論的興起，語(yǔ)塊（lexical chunks）在二語(yǔ)產(chǎn)出過(guò)程中的重要作用日益凸顯。語(yǔ)料庫(kù)語(yǔ)言學(xué)的興起為語(yǔ)塊的研究開(kāi)創(chuàng)了新的視角，近年來(lái)語(yǔ)塊已經(jīng)成為語(yǔ)言學(xué)研究和教學(xué)研究的一個(gè)熱點(diǎn)，且研究視角呈現(xiàn)出多元化趨勢(shì)。本文主要從語(yǔ)料庫(kù)語(yǔ)言學(xué)的角度對(duì)語(yǔ)塊的提取方式進(jìn)行論述，以此來(lái)深化我們對(duì)語(yǔ)塊這一語(yǔ)言現(xiàn)象的理解。

二、語(yǔ)塊的界定與特征

目前語(yǔ)塊的研究呈現(xiàn)出三種視角：語(yǔ)法學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)和心理語(yǔ)言學(xué)。由于覆蓋范圍及研究重點(diǎn)不同，這三種視角對(duì)語(yǔ)塊的定義表述不一。語(yǔ)法學(xué)家將其看作“充當(dāng)句子成分、具有句法功能的詞的組合”；語(yǔ)料庫(kù)語(yǔ)言學(xué)家更多地“關(guān)注那些出現(xiàn)頻率超過(guò)提取頻點(diǎn)的重現(xiàn)詞叢，而忽略其地道性和結(jié)構(gòu)特征”；心理語(yǔ)言學(xué)家則認(rèn)為，語(yǔ)塊是“一串預(yù)制的連貫或不連貫的詞或其他意義單位，整體存儲(chǔ)于記憶中，使用時(shí)直接提取，無(wú)需經(jīng)過(guò)語(yǔ)法生成和分析”（Wray，2002：9）。這就是語(yǔ)塊儲(chǔ)存和提取的整體性（即心理現(xiàn)實(shí)性）。詞的組合能否作為整體被儲(chǔ)存和提取是決定詞的組合是否為語(yǔ)塊的重要指標(biāo)。

由此可見(jiàn)，人們尚未對(duì)語(yǔ)塊給出一致的明確定義，國(guó)外創(chuàng)造和使用的術(shù)語(yǔ)多達(dá)57個(gè)，如formulaic sequence, chunk, lexical chunk,prefabricated chunk, collocation, colligation,N-gram等，國(guó)內(nèi)對(duì)它的翻譯也是名稱(chēng)繁多，尚無(wú)定論。中國(guó)期刊全文數(shù)據(jù)庫(kù)文史哲輯專(zhuān)欄目錄（1997-2011）檢索的結(jié)果為：語(yǔ)塊、組塊、套語(yǔ)、多詞單位、預(yù)制語(yǔ)塊、搭配、習(xí)語(yǔ)、成語(yǔ)、慣用語(yǔ)、類(lèi)聯(lián)結(jié)等，如此大量的術(shù)語(yǔ)說(shuō)明了語(yǔ)塊研究的重要意義和語(yǔ)塊現(xiàn)象的多面性和復(fù)雜性（段士平，2008）。簡(jiǎn)單地說(shuō)，語(yǔ)塊是真實(shí)言語(yǔ)交際中以高頻率出現(xiàn)的大于單個(gè)單詞的整體的多詞單位?；谡Z(yǔ)法學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)和心理語(yǔ)言學(xué)三個(gè)視角的研究發(fā)現(xiàn)，語(yǔ)塊具有心理現(xiàn)實(shí)性和結(jié)構(gòu)上的連續(xù)與非連續(xù)性特征。

1 語(yǔ)塊的心理現(xiàn)實(shí)性

語(yǔ)塊是心理學(xué)概念組塊（chunking）的結(jié)果，組塊就是記憶對(duì)信息的加工過(guò)程，也就是把單個(gè)信息組成更多的信息單位。心理學(xué)家通過(guò)分析短時(shí)記憶與長(zhǎng)時(shí)記憶的差別，發(fā)現(xiàn)語(yǔ)塊具有組塊效應(yīng)，對(duì)記憶及語(yǔ)言學(xué)習(xí)至關(guān)重要。心理學(xué)家Miller的研究表明，短時(shí)記憶所能加工與處理的信息容量非常有限，其容量大約為5～9個(gè)組塊或者有意義的信息單元（Miller，1956）。長(zhǎng)時(shí)記憶中加工與存儲(chǔ)的信息容量巨大，以語(yǔ)義方式進(jìn)行編碼與儲(chǔ)存，信息儲(chǔ)存的時(shí)間長(zhǎng)，甚至可以保持永久。Simon（1974）的研究也驗(yàn)證了Miller的短時(shí)記憶容量的觀點(diǎn)，認(rèn)為語(yǔ)塊是人類(lèi)記憶的基本單位。因此，人們可以通過(guò)加強(qiáng)語(yǔ)塊內(nèi)部信息單位之間的意義聯(lián)系來(lái)擴(kuò)大短時(shí)記憶的容量，重新編碼后的信息單位變?yōu)橛幸饬x的語(yǔ)塊即可進(jìn)入長(zhǎng)時(shí)記憶，以語(yǔ)塊的形式整體儲(chǔ)存、整體提取，這就是語(yǔ)塊的組塊效應(yīng)，即心理現(xiàn)實(shí)性。McClelland的連通理論發(fā)現(xiàn)，人類(lèi)大腦中無(wú)數(shù)的節(jié)點(diǎn)及其相互之間的連接構(gòu)成了一個(gè)巨大的網(wǎng)絡(luò)，知識(shí)就儲(chǔ)存在這些聯(lián)結(jié)線上，聯(lián)結(jié)的強(qiáng)度決定知識(shí)掌握的程度（陳萬(wàn)會(huì)，2008）。由于語(yǔ)塊中各個(gè)組成部分共現(xiàn)的頻率較高，所以它們之間的聯(lián)結(jié)會(huì)不斷增強(qiáng)。語(yǔ)言輸出時(shí)，語(yǔ)塊更容易從心理詞庫(kù)中提取出來(lái),使交際變得流暢、高效。因此，Wray（2002）認(rèn)為，詞塊是指出現(xiàn)頻率高、作為整體儲(chǔ)存和使用的詞語(yǔ)程式。二語(yǔ)習(xí)得研究也表明，語(yǔ)言學(xué)習(xí)是通過(guò)規(guī)則學(xué)習(xí)和范例學(xué)習(xí)兩種途徑發(fā)展的，后者就是預(yù)制語(yǔ)塊的構(gòu)建（Skehan，1998 ：49）。

2 語(yǔ)塊的結(jié)構(gòu)特征

語(yǔ)塊從結(jié)構(gòu)上可分為四類(lèi)（Nattinger &DeCarrico，1992：33）：多元詞語(yǔ)塊（polywords）、習(xí)俗語(yǔ)語(yǔ)塊（institutionalized expressions）、短語(yǔ)架構(gòu)語(yǔ)塊（phrasal constraints）、句子構(gòu)建語(yǔ)塊（sentence builders）。Lewis（1993）從結(jié) 構(gòu)和功能上把語(yǔ)塊分為四種情況：聚合詞，指具有習(xí)語(yǔ)性質(zhì)的固定詞組，比如on the one hand，on the other hand；搭配詞，指共現(xiàn)頻率很高的詞語(yǔ)，如動(dòng)詞+名詞、形容詞+名詞搭配，如put forward a suggestion；慣用話語(yǔ)，指形式固定或半固定的具有語(yǔ)用功能的單詞組合，如If I were you；句子構(gòu)架和引語(yǔ)，這一類(lèi)僅指書(shū)面語(yǔ)詞匯，如firstly... and finally。此外，還可以按照語(yǔ)塊成分間連續(xù)情況將其分為：連續(xù)性、固定語(yǔ)塊，如once upon a time, on the other hand等；非連續(xù)性可變語(yǔ)塊，如firstly...and finally，it occurred to sb.to do...基于語(yǔ)塊的心理現(xiàn)實(shí)性和結(jié)構(gòu)方面的特征并結(jié)合語(yǔ)料庫(kù)研究的方法，本文把語(yǔ)塊界定為：以整體形式儲(chǔ)存在大腦中，并可作為預(yù)制組塊供人們提取使用的多詞單位，這就把名稱(chēng)為語(yǔ)塊、搭配、類(lèi)聯(lián)結(jié)和預(yù)制語(yǔ)塊等多詞單位統(tǒng)統(tǒng)包括在內(nèi)。也就是說(shuō)，語(yǔ)塊的概念模糊了原有的詞匯搭配之間的界限，它不僅包括多詞的搭配、句子框架，還可以擴(kuò)大到句子甚至語(yǔ)篇。

三、語(yǔ)料庫(kù)語(yǔ)言學(xué)視角下的語(yǔ)塊提取

要研究語(yǔ)塊，首先必須快速識(shí)別和提取語(yǔ)塊，目前主要通過(guò)機(jī)器自動(dòng)識(shí)別和人工多方驗(yàn)證兩種方式。人工識(shí)別主觀性強(qiáng)，速度太慢。語(yǔ)塊提取的經(jīng)典方法是基于語(yǔ)料庫(kù)的方法，這是語(yǔ)料庫(kù)語(yǔ)言學(xué)和自然語(yǔ)言結(jié)合的產(chǎn)物。語(yǔ)料庫(kù)的優(yōu)勢(shì)在于能快速檢索和統(tǒng)計(jì)大量語(yǔ)料，注重頻數(shù)信息是語(yǔ)料庫(kù)方法的一個(gè)顯著特征。事實(shí)上，現(xiàn)有的從大規(guī)模語(yǔ)料庫(kù)中自動(dòng)提取語(yǔ)塊的方法多是以統(tǒng)計(jì)為主，輔之以詞性、句法等語(yǔ)言學(xué)規(guī)則（謝家成，2008）。隨著人們對(duì)語(yǔ)塊認(rèn)識(shí)的深入，語(yǔ)料庫(kù)的方法也不斷改進(jìn)。語(yǔ)料庫(kù)除了通過(guò)檢索行凸顯搭配外，還可實(shí)現(xiàn)搭配的自動(dòng)提取在自然語(yǔ)言處理領(lǐng)域，語(yǔ)言檢索的工具和技術(shù)進(jìn)展很快。語(yǔ)塊識(shí)別的技術(shù)也從人工識(shí)別進(jìn)入了機(jī)器識(shí)別。語(yǔ)塊檢索技術(shù)的起點(diǎn)是從語(yǔ)料庫(kù)中提取連續(xù)的、固定的詞串，經(jīng)過(guò)幾年的發(fā)展，已可以提取非連續(xù)的可變語(yǔ)塊。

語(yǔ)塊提取軟件

上表為六個(gè)語(yǔ)塊提取軟件的概貌，下文主要從以下三個(gè)方面對(duì)語(yǔ)塊提取軟件進(jìn)行分項(xiàng)闡述：語(yǔ)塊提取軟件的運(yùn)行方式與收費(fèi)情況，語(yǔ)塊的提取方式，即有無(wú)既定的中心詞及語(yǔ)塊的種類(lèi)。

1 語(yǔ)塊提取軟件的運(yùn)行方式與收費(fèi)情況

軟件的運(yùn)行方式主要分為單機(jī)運(yùn)行和在線運(yùn)行兩種方式，一般情況下單機(jī)運(yùn)行的軟件多為收費(fèi)的商業(yè)軟件，功能也較全面，如Wordsmith Tools，在線運(yùn)行的軟件多為免費(fèi)軟件，功能相對(duì)單一，如N-Gram Phrase Extractor，Sketch Engine，Concgram。AntConc是免費(fèi)的，功能強(qiáng)大，界面友好，支持正則表達(dá)式檢索等因素，國(guó)內(nèi)研究者多傾向于使用它，目前是語(yǔ)料庫(kù)檢索的主流軟件。

2 語(yǔ)塊的提取方式

語(yǔ)料庫(kù)提取語(yǔ)塊可分為基于既定中心詞和無(wú)既定中心詞兩種情況，本文將《新概念英語(yǔ)3》全部60篇文章作為檢索語(yǔ)料，以AntConc軟件為例進(jìn)行語(yǔ)塊提取的演示。

2.1 基于既定中心詞的連續(xù)語(yǔ)塊提取

以既定中心詞possible為例提取《新概念英語(yǔ)3》中相關(guān)的連續(xù)語(yǔ)塊。第一步，通過(guò)點(diǎn)擊菜單欄File下拉菜單中的Open File（s）, 導(dǎo)入要提取的語(yǔ)料《新概念英語(yǔ)3》，再點(diǎn)擊軟件主界面上方的Clusters（詞叢）按鈕，然后在主界面下方的Search Term（搜索輸入框）中輸入檢索詞possible。第二步，設(shè)置Cluster Size, 通常提取的語(yǔ)塊長(zhǎng)度范圍為2～6個(gè)詞。由于不同長(zhǎng)度的語(yǔ)塊重疊，因此語(yǔ)塊的邊界的確定也是困擾研究者的一個(gè)問(wèn)題。我們可以采取從長(zhǎng)到短的順序提取語(yǔ)塊，并依次屏蔽已經(jīng)提取的語(yǔ)塊，這樣可以最大限度地避免語(yǔ)塊重疊問(wèn)題。本文中語(yǔ)塊長(zhǎng)度范圍設(shè)置，最小為4，最大也為4, 表示要提取包含檢索詞在內(nèi)的4詞短語(yǔ)。第三步，設(shè)置Min. Cluster Frequency（出現(xiàn)的最小頻數(shù)）為默認(rèn)值1，設(shè)置Sort by為Sort by Fre （按頻率顯示）。第四步，點(diǎn)擊Start即可提取出包含possible在內(nèi)的所有連續(xù)4詞語(yǔ)塊來(lái)。語(yǔ)塊提取結(jié)果如下：

2.2 無(wú)既定中心詞的連續(xù)語(yǔ)塊提取

如果需要了解某篇文章中的語(yǔ)塊總體使用情況，可以如下操作：第一步，導(dǎo)入要提取的語(yǔ)料《新概念英語(yǔ)3》，點(diǎn)擊主界面上方的Clusters按鈕，勾選主界面下方的N-grams（N元結(jié)構(gòu)）；第二步，設(shè)置N-gram Size, 一般設(shè)置Min. Size 為2, Max. Size為6。本文把二者皆設(shè)置為4；第三步，設(shè)置Min. Cluster Frequency為默認(rèn)值1，設(shè)置Sort by為Sort by Fre；第四步，點(diǎn)擊Start即可提取出語(yǔ)料中的所有連續(xù)的4詞語(yǔ)塊來(lái)。語(yǔ)塊提取結(jié)果如下：

以這種方式提取的語(yǔ)塊多是基于詞形的外在物理毗鄰進(jìn)行人為切分，統(tǒng)計(jì)共現(xiàn)頻數(shù)，忽視了詞語(yǔ)序列的內(nèi)部黏著力。因此，提取的數(shù)據(jù)中含有大量結(jié)構(gòu)不完整、語(yǔ)義不清晰的強(qiáng)干擾序列，識(shí)別的準(zhǔn)確率稍低，還需人工運(yùn)用語(yǔ)言學(xué)知識(shí)進(jìn)行篩選，但是這種機(jī)切語(yǔ)塊往往能凸顯容易被忽略的語(yǔ)言適用范式（何安平，2011；林維燕，2011）。

3 語(yǔ)塊的種類(lèi)

根據(jù)語(yǔ)塊的結(jié)構(gòu)，可以將其分為連續(xù)性和非連續(xù)性語(yǔ)塊。連續(xù)性語(yǔ)塊的提取較為容易，非連續(xù)語(yǔ)塊的提取方法相對(duì)比較復(fù)雜。這種檢索主要是圍繞某個(gè)既定中心詞提取其相關(guān)的搭配模式，一次檢索只能針對(duì)一組詞語(yǔ)?？梢岳肳ordsmith工具中的Concordance檢索工具中Context word語(yǔ)境詞功能，也可運(yùn)用ConcGram（框合結(jié)構(gòu)）或Sketch Engine進(jìn)行檢索。下文仍以AntConc軟件為例，檢索in...of構(gòu)成的非連續(xù)語(yǔ)塊在新概念英語(yǔ)第三冊(cè)中出現(xiàn)的情況。

第一步，導(dǎo)入要提取的語(yǔ)料《新概念英語(yǔ)3》，在軟件主界面下方的Search Term中輸入in; 第二步，點(diǎn)擊其右側(cè)的Advanced（高級(jí)），在隨后彈出的界面上勾選Use Contexts Words and Horizons（使用語(yǔ)境詞和設(shè)置語(yǔ)境詞左右范圍），在Contexts Words（語(yǔ)境詞）框中輸入of，點(diǎn)擊Add，接著把Context Horizon（語(yǔ)境詞左右范圍）設(shè)置成From2R to 4R（右2至右4），表示of必須出現(xiàn)在檢索詞in 右邊的第二到第四的位置上；第三步，點(diǎn)擊Apply，自動(dòng)回到主界面，再點(diǎn)擊Start即可提取出在in...of 這個(gè)短語(yǔ)框架下的所有的非連續(xù)性語(yǔ)塊。語(yǔ)塊提取結(jié)果如下：

從上面的檢索結(jié)果可以看出，AntConc的局限性在于它只能檢索既定中心詞之間的單向搭配，即“in在前，of在后”的這個(gè)方向的搭配，而不能檢索“of在前，in在后”的反向搭配的語(yǔ)塊。ConcGram（框合結(jié)構(gòu)）可以克服AntConc的這一局限性，檢索由多個(gè)中心詞構(gòu)成的非連續(xù)語(yǔ)塊，且不考慮這些詞的先后順序（即任意方向的強(qiáng)搭配）。ConcGram的具體操作步驟詳見(jiàn)詹宏偉（2011）的《語(yǔ)料庫(kù)中語(yǔ)塊提取的工具與方法》，在此不再贅述。

四、結(jié)語(yǔ)

綜上所述，語(yǔ)塊是語(yǔ)言中高頻共現(xiàn)的多詞組合。在結(jié)構(gòu)特征上，可以分為連續(xù)和非連續(xù)兩類(lèi)；在語(yǔ)塊提取的方式上，又可分為基于既定中心詞和無(wú)既定中心詞兩種情況。并且語(yǔ)塊具有整存整取的心理現(xiàn)實(shí)性和統(tǒng)計(jì)上的顯著性。因此，語(yǔ)塊的提取應(yīng)充分考慮上述特征?；谡Z(yǔ)料庫(kù)自動(dòng)提取出的大量語(yǔ)塊，雖然頻率較高，但不一定都具有心理現(xiàn)實(shí)性，尚需結(jié)合心理語(yǔ)言學(xué)的相關(guān)知識(shí)進(jìn)行人工篩選。因此，我們相信心理語(yǔ)言學(xué)與語(yǔ)料庫(kù)語(yǔ)言學(xué)兩大研究視角的融合，將更能夠?qū)崿F(xiàn)二者的優(yōu)勢(shì)互補(bǔ)，達(dá)到人工篩選和自動(dòng)識(shí)別的高度彌合，加深人們對(duì)語(yǔ)塊這一語(yǔ)言現(xiàn)象的認(rèn)識(shí)，提高語(yǔ)塊研究的效率和深度。

[1]Lewis, M. The Lexical Approach[M]. Hove: Language Teaching Publications, 1993.

[2]Miller, G. a.The Magical Number of Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information[J].Psychological Review,1956,(63).

[3]Nattinger, J & J. DeCarrico. Lexical Phrases and Language Teaching[M]. Oxford: Oxford University Press, 1992.

[4]Simon, H. a.How Big Is a Chunk? [J].Science, 1974, (183).

[5]Skehan, P. A Cognitive Approach to Language Learning[M]. Oxford: Oxford University Press, 1998.

[6]Wray, a.Formulaic Language and the Lexicon[M]. Cambridge: Cambridge University Press,2002.

[7]陳萬(wàn)會(huì). 詞塊的心理現(xiàn)實(shí)性及其特征[J]. 外語(yǔ)學(xué)刊,2008,(6).

[8]段士平. 國(guó)內(nèi)二語(yǔ)語(yǔ)塊教學(xué)研究述評(píng)[J]. 中國(guó)外語(yǔ),2008,(4).

[9]何安平. 短語(yǔ)理論視角下的英語(yǔ)教師課堂話語(yǔ)探究[J]. 外語(yǔ)教學(xué)理論與實(shí)踐,2011,(3).

[10]林維燕. 機(jī)切語(yǔ)塊立場(chǎng)標(biāo)識(shí)特性的理論與實(shí)證研究[J]. 中國(guó)外語(yǔ),2011,(5).

[11]謝家成. 搭配的多視角透視[J]. 解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2008,(2).

[12]詹宏偉. 語(yǔ)料庫(kù)中語(yǔ)塊提取的工具與方法[J]. 外語(yǔ)教學(xué),2011,(2).