戴雪婷,梁怡洲,瞿云華
(浙江大學(xué)外國語言文化與國際交流學(xué)院,浙江杭州310058)
漢語公式化序列長度和頻數(shù)關(guān)系的協(xié)同理論研究
戴雪婷,梁怡洲,瞿云華
(浙江大學(xué)外國語言文化與國際交流學(xué)院,浙江杭州310058)
本研究采取語料庫驅(qū)動范式,探究漢語公式化序列長度和頻數(shù)的關(guān)系規(guī)律,旨在驗證協(xié)同理論構(gòu)建于詞匯層面的理論和模型在公式化語言上的適用性。研究結(jié)果表明,漢語公式化多詞序列的長度對其使用頻數(shù)產(chǎn)生負(fù)影響,二者之間的關(guān)系規(guī)律可以進(jìn)一步通過冪函數(shù)F=aLbe?cL描述。從長度—頻數(shù)關(guān)系出發(fā),研究結(jié)果拓寬了原有理論和模型的適用范圍,進(jìn)一步探討了語言的共性;通過跨語域的對比研究,發(fā)掘了公式化語言的特性。
漢語公式化序列;長度;頻數(shù);協(xié)同理論;語域
Zipf于1935年首次提出“詞匯的長度和其使用頻數(shù)呈負(fù)相關(guān)”[1]25①的理論假設(shè)。這一設(shè)想開啟了語言學(xué)界對詞匯長度(詞長)和使用頻數(shù)(詞頻)關(guān)系的探討研究。半個多世紀(jì)以來,國內(nèi)外語言學(xué)家通過對不同語種的考察,并以多種類型的語言單位來度量詞長,對Zipf的假設(shè)進(jìn)行了廣泛的驗證和拓展。Zipf最早基于德語語料對詞長和詞頻的關(guān)系進(jìn)行了簡單的闡釋,其他研究者則相繼基于英語(分別以字母和音素數(shù)量為詞長單位)[2]、拉丁語(以音節(jié)數(shù)為詞長單位)[3]、荷蘭語(以字母數(shù)為詞長單位)[3]、漢語(以漢字字?jǐn)?shù)為詞長單位)[4]等語料對這一假說進(jìn)行了反復(fù)驗證。
從建立假設(shè)到驗證拓展,以往研究對“長度”和“頻數(shù)”關(guān)系的探討大多建立在詞匯層面,也有研究者觀察到在多詞組合中同樣存在長度和頻數(shù)呈負(fù)相關(guān)的現(xiàn)象[5]②。然而到目前為止,多詞組合的長度—頻數(shù)關(guān)系研究僅僅停留在現(xiàn)象觀察的(observational)層面,尚未進(jìn)行系統(tǒng)、深入的探究和解釋,也缺少充足的語料支撐。相關(guān)的漢語研究更是有待挖掘。
近三十年來,語言學(xué)界廣泛關(guān)注的語言公式化問題為我們進(jìn)一步考察長度和頻數(shù)的關(guān)系提供了新的思路。本研究基于自建的浙江大學(xué)漢語語料庫,對漢語公式化序列的長度和使用頻數(shù)之間的關(guān)系進(jìn)行計量分析,旨在驗證協(xié)同理論的動態(tài)機(jī)制在公式化語言上的適用性,以進(jìn)一步發(fā)掘公式化語言的特性,探討語言共性。
正如Bolinger所言,語言的建構(gòu)并不要求我們?nèi)繌脑嫉摹皫讐K木材,幾顆釘子和一張圖紙”[6]1開始;相反,它為我們提供了大量的“預(yù)制件”。公式化語言(formulaic language)正是語言建構(gòu)中的“預(yù)制件”,它在日常語言使用中占據(jù)了較高的比重。Wray將公式化語言定義為預(yù)制的序列 (prefab?ricated sequences of words),這類序列往往“作為整體儲存在記憶中,并在使用時作為整體取出,不需要經(jīng)過語法的生成和分析”[7]9(例如 the end of the,in terms of,by and large,goods and service)。 因此,處理優(yōu)勢是公式化語言的一個重要特征:通過使用這些預(yù)制的序列,可以壓縮語言處理的時間,節(jié)約精力,符合語言使用的經(jīng)濟(jì)原則。從這一角度看,單個的公式化語言即公式化序列(formulaic sequences)與單個詞匯具有高度的相似性。除此之外,Wray&Perkins指出,公式化語言還具有語篇標(biāo)記(discourse marker)的功能,能夠促進(jìn)不同語境下的語言交際[8]。
根據(jù)公式化語言的定義和特征,語言學(xué)家建立了一套可操作的鑒別和提取標(biāo)準(zhǔn),其中較常用、相對可靠的方法是根據(jù)其高頻特征(recurrent),基于頻數(shù)標(biāo)準(zhǔn)(raw frequency)進(jìn)行語料庫驅(qū)動式抽取?;诓煌Z料和不同研究目的,研究者[5,7,9]使用的抽取標(biāo)準(zhǔn)也不盡相同,在一定程度上不可避免地存在任意性。因此不少研究者在鑒別時還使用了其他標(biāo)準(zhǔn),用以彌補(bǔ)頻數(shù)抽取的不足。如Biber設(shè)立抽取lexical bundle的標(biāo)準(zhǔn)為每百萬詞出現(xiàn)十次及以上[9],他還提出:“為了消除語料中說話人/作者的個人語言特質(zhì)影響,公式化語言必須在多個(≥5)文本中出現(xiàn)?!保?]282除了機(jī)器提取以外,不少研究者采用了母語使用者人工判斷篩選的方法。例如Wray&Namba制定了包含十一項標(biāo)準(zhǔn)的語言公式化的人工判斷量表 (checklists)[10]。
語料庫驅(qū)動的公式化語言研究在獲取語料時,不需要預(yù)設(shè)完整的語言單位和理論假設(shè),通常只將長度和頻數(shù)量級設(shè)定為條件,以充分發(fā)掘語料,盡可能地窮盡不同類別的公式化語言。這類研究往往將“長度”和“頻數(shù)”視為鑒別和提取公式化語言的標(biāo)準(zhǔn),而對于二者之間的關(guān)系則鮮有涉及。
Zipf對語言使用中詞長和詞頻呈負(fù)相關(guān)的觀察啟發(fā)了大量后繼研究。除了多語種、多種語言單位的橫向驗證和拓展以外,研究者們還對二者之間關(guān)系的統(tǒng)計規(guī)律進(jìn)行了深入的描述。其中,以K?hler為代表的協(xié)同語言學(xué)家構(gòu)建了較為完善的框架和模型,用以描述和解釋詞長—詞頻關(guān)系。
K?hler指出,協(xié)同方法(synergetic approach)以跨學(xué)科視閾,采用模型構(gòu)建的方法描述和解釋所有動態(tài)系統(tǒng),關(guān)注結(jié)構(gòu)的自發(fā)調(diào)整和發(fā)展變化過程。協(xié)同語言學(xué)主張,語言既是心理社會(psycho?social)現(xiàn)象,同時也是生物認(rèn)知(biological?cognitive)現(xiàn)象。語言被視為一個龐大的動態(tài)系統(tǒng),各個子系統(tǒng)之間相互協(xié)作、相互競爭,融合來自生物機(jī)體、心理社會等外部作用,共同構(gòu)成了語言體系的運作機(jī)制[11]761。交際活動中呈現(xiàn)的各種語言現(xiàn)象、語言結(jié)構(gòu)和語言各個屬性之間的協(xié)作關(guān)系,都是語言體系運作機(jī)制的反映,也是協(xié)同語言學(xué)的主要關(guān)注對象。
“語言的運作機(jī)制并非雜亂無章,而是有規(guī)律可循的?!保?]30協(xié)同語言學(xué)的核心目的在于:以演繹的方式對語言運作機(jī)制提出普遍性的理論假設(shè),運用數(shù)學(xué)計量方法對其運作規(guī)律進(jìn)行宏觀性的總結(jié)、建模和解釋。通過驗證理論假設(shè)和模型測試,揭示語言系統(tǒng)運作和發(fā)展的規(guī)律,并以數(shù)學(xué)定律的形式呈現(xiàn),逐漸形成并完善語言理論的網(wǎng)絡(luò)體系[11]761。
K?hler以德語為語料,構(gòu)建了首個針對詞匯的協(xié)同語言學(xué)模型,描述了四個詞匯屬性“詞長(length)”“詞頻(frequency)”“多義性(polysemy)”以及“多文度(polytextuality)”之間的協(xié)同關(guān)系[11]768。圖1為簡化的K?hler詞匯控制回路模型(lexical control circuit):箭頭代表影響作用及作用方向;加減號分別代表正、負(fù)影響。如圖1所示,詞頻對詞長產(chǎn)生直接性負(fù)影響,受語言系統(tǒng)運作中生成負(fù)擔(dān)最小化(Minimization of production effort,即MinP)要求的支配,與Zipf提出的省力原則(principle of least effort)相符。
圖1 K?hler詞匯控制回路模型(簡化)[11]768
K?hler進(jìn)一步將詞長和詞頻的關(guān)系表示為微分方程:變量x的相對變率與變量y成比例。
這一公式可以轉(zhuǎn)化為冪函數(shù)F=aLb(b<0;a,b為參數(shù))。 在該公式中,L(length)的取值為同一詞長范圍內(nèi)所有頻數(shù)量級F(frequency)的平均數(shù)值。
K?hler建立的詞長和詞頻關(guān)系模型和冪函數(shù)公式為二者之間的關(guān)系規(guī)律研究提供了新的分析方向。其后,不少研究者就K?hler提出的模型進(jìn)行了驗證和補(bǔ)充:Strausset al.[3]基于10種語言和多種語篇類型,證實了詞長和詞頻的協(xié)同規(guī)律在自然語言中的普遍性,并就函數(shù)模型中的參數(shù)變化規(guī)律進(jìn)行了分析;鄧&馮[4]將該模型引入漢語詞匯中進(jìn)行了驗證,同樣分析了函數(shù)模型中的參數(shù)變化規(guī)律;Altman 提出的 F=aLbe?cL(a,b,c 為參數(shù),e 為自然常數(shù)) 函數(shù)被證實具有相當(dāng)高的擬合效度[12]。
迄今為止,研究者對長度—頻數(shù)的協(xié)同關(guān)系規(guī)律已經(jīng)進(jìn)行了多語種、多語篇、多維度的分析。但相關(guān)研究均停留在詞匯層面,尚未拓展到其他語言單位。詞匯的協(xié)同規(guī)律是否同樣適用于多詞序列?這是本研究所要探討的重點:通過不同語言單位的驗證,進(jìn)一步揭示語言規(guī)律的共性。
為了探討以上問題,本研究先對漢語公式化序列作出界定,界定標(biāo)準(zhǔn)基于Wray(2002,2003)[7,10]對英文序列特征的定義及公式化判斷量表,結(jié)合漢語語法特征,內(nèi)容包括:1)使用頻數(shù)高;2)語義不透明,在感知上并不突出;3)語法結(jié)構(gòu)特殊,甚至有不規(guī)則現(xiàn)象;4)在語音上具有連續(xù)性;5)包含虛詞和實詞;6)較短的序列可以并入較長的序列;7)呈現(xiàn)固化和半固化性。具體地說,主要為:
1)與英語公式化序列定義相似,漢語公式化序列是指在日常漢語使用中經(jīng)常出現(xiàn)的,由多個詞構(gòu)成、具有整存整取預(yù)制特征的連續(xù)序列。漢語公式化序列同樣包括搭配、慣用語、成語、習(xí)語等固定或半固定的詞語序列。
2)但漢語公式化序列在構(gòu)成單位上與英語有所區(qū)別:英語公式化序列由單個詞匯構(gòu)成,序列長度通常以單詞為劃分單位,例如“on the other hand”為四詞序列。漢語公式化序列則以結(jié)合緊密、使用穩(wěn)定的漢語詞匯為最小單位,例如序列“我 不知道”和“你 告訴 我”由三個詞匯構(gòu)成,為三詞序列;“我跟你說”“我想問一下”為四詞序列。
另外,漢語公式化序列傾向于代指單個的、可數(shù)的序列,漢語公式化語言是將此類序列視為整體的總稱。本文為語料庫實證研究,側(cè)重序列的長度和頻數(shù)研究,因而采用漢語公式化序列這一名稱。
基于以上觀察,結(jié)合對公式化序列特征的考察,本研究提出假設(shè):協(xié)同理論關(guān)于詞長和詞頻的理論假設(shè)和數(shù)學(xué)模型可能同樣適用于漢語公式化序列。為驗證該假設(shè),本研究基于大量漢語公式化序列數(shù)據(jù),運用計量方法揭示其長度和頻數(shù)之間的協(xié)同關(guān)系,并探討公式化語言和協(xié)同規(guī)律在不同語體(書面語/口語)下的特征。
本研究數(shù)據(jù)來自于自建的浙江大學(xué)漢語語料庫(Zhejiang University Corpus of Spoken and Written Mandarin Chinese,簡稱ZCMC)。ZCMC共計100萬詞,均為漢語普通話,取自2000到2014年間的正式出版物或公開發(fā)表內(nèi)容??谡Z、書面語各50萬詞,包括新聞、社論、學(xué)術(shù)文章、政府文件、小說、電視節(jié)目、法庭辯論等多種語體。語言取樣時效性強(qiáng),類型廣泛,能夠充分反映當(dāng)代漢語口語和書面語使用的語言特征。
本研究以3—6詞的連續(xù)性漢語公式化序列為對象,研究數(shù)據(jù)包括:1)序列長度;2)相應(yīng)長度等級序列的頻數(shù)數(shù)據(jù)。序列長度以所包含的漢語詞匯數(shù)目來衡量,例如詞條“我不知道”,包含了“我”“不”“知道”三個語法上獨立完整的詞,因此被界定為三詞序列。頻數(shù)為該長度序列在語料庫中出現(xiàn)的次數(shù),以語料庫中該長度等級下所有序列的平均頻數(shù)為準(zhǔn)。
序列的抽取采用Antconc3.2.4軟件中的n?gram功能,基于頻數(shù)(50萬詞語料庫中出現(xiàn)5次及以上)和文本分布(跨越5個及以上文本)標(biāo)準(zhǔn)進(jìn)行自動抽取。再根據(jù)界定標(biāo)準(zhǔn)請多位母語使用者對抽取結(jié)果進(jìn)行人工篩選核對,主要刪去不符合要求的人名、地名、專業(yè)術(shù)語等,以確保處理結(jié)果的準(zhǔn)確性。
本研究以長度(L)為自變量,頻數(shù)(F)為因變量,運用SPSS16.0對二者關(guān)系進(jìn)行回歸分析、冪函數(shù)F=aLb(b<0)及F=aLbe-cL擬合度檢驗,以驗證公式化多詞序列長度和頻數(shù)關(guān)系的假設(shè)。
口語和書面語料中,漢語公式化序列長度和頻數(shù)數(shù)據(jù)以及公式擬合結(jié)果如表1所列:
表1 序列長度和頻數(shù)關(guān)系
表1中的數(shù)據(jù)統(tǒng)計結(jié)果顯示,口語和書面語料中,長度較短的三、四詞序列的總數(shù)量要遠(yuǎn)遠(yuǎn)高于五、六詞的總數(shù)量。且隨著序列長度增加,其使用頻數(shù)呈現(xiàn)明顯的下降趨勢,在口語和書面語料中均有體現(xiàn)。書面語料庫中,隨著序列長度的增加,其平均使用頻數(shù)從9.18下降到5.5;這一趨勢在口語語料中則更加明顯:從平均11.5次下降到僅出現(xiàn)1次。由此,研究假設(shè)得到證實,漢語公式化序列長度對其頻數(shù)產(chǎn)生負(fù)影響,即長度越長,使用頻數(shù)越低。
鄧&馮[4]選取了1—4詞的漢語詞匯,對詞長和詞頻關(guān)系進(jìn)行了統(tǒng)計,同樣發(fā)現(xiàn)了明顯的負(fù)相關(guān)趨勢(見圖2中的詞匯曲線)。將本研究所得的公式化序列曲線(見圖2中的公式化序列曲線)與詞匯曲線進(jìn)行對比可以發(fā)現(xiàn),隨著長度的增加,序列使用頻數(shù)變化的幅度要遠(yuǎn)遠(yuǎn)小于詞匯。換言之,公式化序列的長度對其使用頻數(shù)影響的顯著性要小于詞匯長度對詞頻的影響。其原因在于公式化語言不同于單個詞匯的特征,具體留待討論部分中再作詳細(xì)解釋。
圖2 詞匯/公式化序列長度—頻數(shù)關(guān)系曲線對比(書面語/口語)
通過觀察以上關(guān)系曲線發(fā)現(xiàn),隨著序列長度增加,其使用頻數(shù)呈現(xiàn)非線性模式遞減。因此,我們在序列頻數(shù)統(tǒng)計的基礎(chǔ)上,對長度和頻數(shù)關(guān)系進(jìn)行了回歸分析,檢驗冪函數(shù)模型,與頻數(shù)的觀測值進(jìn)行對比。
圖3和圖4呈現(xiàn)了觀測值(由點陣表示)和理論值曲線的擬合情況。總體來看,兩個函數(shù)模型大致上符合觀測值的變化趨勢。其中,F(xiàn)=aLbe-cL函數(shù)提供的理論值更加接近觀測數(shù)據(jù)。
圖3 頻數(shù)觀測值(一)和理論值(口語/書面語) F=aLb(b<0)
圖4 頻數(shù)觀測值(二)和理論值(口語/書面語)F=aLbe-cL
由圖3、圖4和表1可知,冪函數(shù)F=aLb(b<0)和F=aLbe-cL在口語和書面語料庫中的擬合效度相對都很高,且后者高于前者。這說明在口語和書面語中,冪函數(shù)F=aLbe-cL能更好地描述序列長度和頻數(shù)的關(guān)系規(guī)律。其中,書面語中的擬合效度稍微高于口語語料。除此之外,就當(dāng)前容量為100萬詞的漢語語料而言,冪函數(shù) F= 4.6L6.32e-2.02L和 F= 7.32L5.01e-1.72L能夠分別準(zhǔn)確地預(yù)測口語和書面語中3—6詞序列的使用頻數(shù)。
以跨語域的視角重新審視以上數(shù)據(jù),我們能夠發(fā)掘更多公式化語言的特征。公式化序列在漢語口語和書面語中均得到了高頻率的使用,但在具體的數(shù)據(jù)統(tǒng)計上呈現(xiàn)了明顯的差別。這些差別可以進(jìn)一步追溯到不同語境特征和交際目的。
口語和書面語在語境上的區(qū)別使其對該語境下語言的使用產(chǎn)生不同的要求,主要體現(xiàn)在交際性(interactivity)以及交際模式(physical mode)兩個方面[13]。書面語境中,語言使用者有相對充足的時間進(jìn)行規(guī)劃和修改;而口語語境則是即時和即興的,說話人需要承受更大的語言處理壓力,因而會傾向于訴諸更快、更為省力的途徑?!罢嬲 o需語法生產(chǎn)分析”的公式化語言便是這樣一條節(jié)省語言處理精力的捷徑。如表1數(shù)據(jù)所示,口語語料庫中抽取的公式化序列數(shù)量遠(yuǎn)遠(yuǎn)多于書面語料庫,并且前者各個長度等級下的序列使用頻數(shù)均高于后者。通過大量使用公式化語言,可以使說話人在言語交際中節(jié)省消耗。這既是口語語境的要求,也是語言經(jīng)濟(jì)原則的體現(xiàn)。
就交際目的而言,在書面語境中,書寫人的首要目的在于“傳達(dá)新信息”,而說話人在口語語境中更傾向于以“交際”為目的,與聽話人建立關(guān)系[13]109。Wray&Perkins指出,公式化語言除了語言加工優(yōu)勢以外,還可以起到凸顯說話人目的、掌控對話的交際功能,以滿足口語交際的要求[8]17?18。因此,公式化語言在口語語境中的使用頻率更高。
本文以協(xié)同理論為框架,采用數(shù)學(xué)計量方法,分析了漢語公式化多詞序列長度對使用頻數(shù)的影響規(guī)律。研究結(jié)果顯示,漢語公式化多詞序列的長度對其使用產(chǎn)生負(fù)影響,即序列越長,其使用頻數(shù)越低。二者存在依存關(guān)系,并且可以進(jìn)一步通過冪函數(shù)公式F=aLbe-cL準(zhǔn)確描述。這一結(jié)果與K?hler等協(xié)同語言學(xué)家對于詞長和詞頻關(guān)系的設(shè)想相同,也再次印證了語言機(jī)制運作中生成負(fù)擔(dān)最小化(MinP)的系統(tǒng)要求。
這一結(jié)果不是對協(xié)同理論和模型的簡單重復(fù)論證,研究表明長度和頻數(shù)的協(xié)同關(guān)系不僅僅適用于詞匯,還可以進(jìn)一步拓展到多詞序列的層面。這拓寬了原有理論模型的適用范圍,揭示了語言規(guī)律的普遍性。
另外,本研究在探討長度和頻數(shù)關(guān)系規(guī)律的基礎(chǔ)上,對漢語公式化語言自身的特征進(jìn)行了考察?;诠交蛄小罢嬲 ?,與單個詞匯高度相似的特征,我們提出了研究設(shè)想:構(gòu)建于詞匯層面的詞長—詞頻協(xié)同關(guān)系規(guī)律同樣適用于公式化序列。研究結(jié)果顯然證實了這一假設(shè),從詞長—詞頻關(guān)系的角度驗證了公式化語言的“預(yù)制性”和“整體性”特征。
然而我們也發(fā)現(xiàn),漢語公式化序列的長度—頻數(shù)關(guān)系規(guī)律與漢語詞匯有所不同??傮w而言,序列的長度對其使用頻數(shù)的影響顯著性要低于詞匯。鄧&馮的研究結(jié)果揭示了語言經(jīng)濟(jì)原則在漢語詞長和詞頻關(guān)系規(guī)律上的體現(xiàn):詞長一定程度代表了語言單位的復(fù)雜性,人類的惰性和大腦信息處理能力的有限性導(dǎo)致語言使用者在滿足交際目的的前提下,傾向于選擇短小簡單的詞匯來表達(dá)特定意義[4]37。然而,就公式化序列而言,首先,其本身就具有節(jié)省語言加工處理的優(yōu)勢。隨著長度的累加,公式化序列并未產(chǎn)生明顯的復(fù)雜性,因而長度對使用頻數(shù)的影響也較小。其次,與意義完整的單個詞匯不同,大部分公式化序列在結(jié)構(gòu)和意義上具有不完整性,加之漢語在拆分組合上的高度靈活性,長度較短的序列可以任意地延伸拓展為長序列(如:就是說—也就是說,多的是—更多的是),序列長度增加的同時也是信息的疊加和補(bǔ)充。因此在語言交際和信息傳遞的要求下,語言使用者對序列長度的敏感性有所降低。
書面語和口語兩個維度的對比分析揭示了口語語境下語言使用者對公式化語言的偏好。這一現(xiàn)象是由語境特征和公式化語言的特性共同決定的。另外,我們發(fā)現(xiàn)冪函數(shù)公式F=aLbe-cL對書面語料的擬合效度要稍高于口語語料。參數(shù)估計結(jié)果顯示,參數(shù)a、b在不同的語體中有所區(qū)別。針對模型參數(shù),有待于引入更多語體類別進(jìn)一步研究其變化規(guī)律。
本研究充分體現(xiàn)和證實了協(xié)同語言學(xué)的核心思想:語言運作于一個“自調(diào)節(jié)、自組織”的動態(tài)系統(tǒng)。我們所觀察到的語言現(xiàn)象和語言特征均可以通過數(shù)學(xué)模型來描述、解釋甚至預(yù)測,以提取語言共性,形成嚴(yán)密的語言理論系統(tǒng)。本研究沿用了協(xié)同理論的詞匯模型,得出其在漢語公式化序列上良好的擬合效度。為進(jìn)一步精確描述公式化序列的長度—頻數(shù)關(guān)系規(guī)律,后續(xù)研究可以基于更多的語料和語種數(shù)據(jù)進(jìn)行拓展和補(bǔ)充,也可考慮結(jié)合開放性測試,構(gòu)建更符合公式化語言的數(shù)學(xué)模型。
注釋:
①“That the magnitude of words tends,on the whole,to stand in an inverse (not necessarily proportionate) relationship to the number of occurrences.” Zipf[1]25.
②DeCock等(1998)從英語語料庫中抽取高頻詞組時發(fā)現(xiàn):詞組越長,使用頻率越低。Hyland(2008)觀察到了類似的現(xiàn)象:當(dāng)學(xué)術(shù)寫作中的序列擴(kuò)展到五詞及以上時,其使用頻數(shù)大幅下降。
[1]Zipf G K.The Psycho?Biology of Language:An Introduction to Dynamic Philology[M].New York:Houghton Mifflin,1935.
[2]Miller G A,Newman E B,F(xiàn)riedman E A.Length?frequency statistics for written English[J].Information and Control,1958,1:370?389.
[3]Strauss U,Grzybek P,Altmann G.Word length and word frequency[C] //Grzybek (ed.).Contributions to the Science of Text and Language:Word Length Studies and Related Issues.Dordrecht:Springer,2007:277?294.
[4]鄧耀臣,馮志偉.詞匯長度與詞匯頻數(shù)關(guān)系的計量語言學(xué)研究[J].外國語,2013,36(3):29?39.
[5]DeCock S,Granger S,Leech G,et al.An automated approach to the phrasicon of EFL learners[C] //Granger S(ed.).Learner English on Computer.London & New York:Addison Wesley Longman,1998:67?69.
[6]Bolinger D.Meaning and memory[J].Forum Linguisticum,1979,11:1?14.
[7]Wray A.Formulaic Language and the Lexicon[M].Cambridge:Camberige University Press,2002.
[8]Wray A,Perkins M R.The functions of formulaic language:an integrated model[J].Language & Communication,2000,20:1?28.
[9]Biber D.A corpus?driven approach to formulaic language in English:Multi?word patterns in speech and writing[J].Interna?tional Journal of Corpus Linguistics,2009,14(3):275?311.
[10]Wray A,Namba K.Use of formulaic language by a Japanese?English bilingual child:A practical approach to data analysis[J].Japan Journal of Multilingualism & Multiculturalism,2003,9:29?32.
[11]K?hler R.Synergetic linguisrics[C] //K?hler R,Altmann G,Piotrowski G (eds.).Quantitative Linguistics.Berlin/New York:Walter de Gruyter,2005:760?774.
[12]Altmann G.Prolegomena to Menzerath’s law[J].Glottometrika,1980,2:1?10.
[13]Biber D,Conrad S.Register,Genre and Style[M].Cambridge:Cambridge University Press,2009.
A Synergetic Approach to the Relationship between the Length and Frequency of Chinese Formulaic Sequences
DAI Xueting,LIANG Yizhou,QU Yunhua
(School of International Studies,Zhejiang University,Hangzhou 310058,China)
The present paper adopts a corpus?driven approach to explore the relationship between length and frequency among Chinese lexical bundles,in an attempt to test whether the synergetic model/formula constructed at the lexical level can extend its applicability to multi?word formulaic sequences.The results in?dicate that the length of Chinese lexical bundles exerts a negative influence on its frequency of occurrence.Power function F=aLbe-cLcan adequately describe this regularity.Based on the length?frequency relationship,this research shall prove universal language rules by testing and extending the scope of synergetic theory.It will also identify the characteristics of formulaic language through register analysis.
Chinese lexical bundles;length;frequency;synergetic linguistics;register
H030
A
2095-2074(2016)06-0024-08
2016-05-12
戴雪婷(1993-),女,浙江臺州人,浙江大學(xué)外國語言文化與國際交流學(xué)院碩士研究生;梁怡洲(1992-),女,浙江臺州人,浙江大學(xué)外國語言文化與國際交流學(xué)院本科生;瞿云華(1961-),女,浙江杭州人,浙江大學(xué)外國語言文化與國際交流學(xué)院教授,博士生導(dǎo)師。