【摘要】語(yǔ)料庫(kù)間多特征相似性比較可采用的統(tǒng)計(jì)方法包括卡方檢驗(yàn)、秩相關(guān)檢驗(yàn)和卡方相似性檢驗(yàn)。以350個(gè)常用詞匯為例的語(yǔ)料庫(kù)統(tǒng)計(jì)實(shí)驗(yàn)研究表明,在較大樣本的多特征語(yǔ)言研究中,卡方檢驗(yàn)很容易得出語(yǔ)料庫(kù)之間具有顯著性差異的結(jié)論,秩相關(guān)檢驗(yàn)同樣容易得出參與比較的文體具有顯著相關(guān)的結(jié)論,而卡方相似性檢驗(yàn)采用統(tǒng)計(jì)量相對(duì)值作為推斷的根據(jù),可得到較為細(xì)致的語(yǔ)料庫(kù)之間相似程度的研究結(jié)果。
【關(guān)鍵詞】語(yǔ)料庫(kù);多特征相似性比較;卡方相似性檢驗(yàn)
【中圖分類(lèi)號(hào)】G420【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2010)08—0083—05
“語(yǔ)料庫(kù)語(yǔ)言學(xué)是一種方法論,它幾乎可以應(yīng)用于語(yǔ)言學(xué)研究的所有領(lǐng)域”[1],而語(yǔ)料庫(kù)研究離不開(kāi)統(tǒng)計(jì)方法。目前,國(guó)內(nèi)基于語(yǔ)料庫(kù)的語(yǔ)言研究大多是對(duì)某一項(xiàng)特征或者多個(gè)特征中的每一項(xiàng)在不同語(yǔ)料庫(kù)之間的比較研究,采用的統(tǒng)計(jì)方法主要是卡方檢驗(yàn)[2][3],很少涉及多個(gè)特征或者說(shuō)一組特征作為一個(gè)整體在不同語(yǔ)料庫(kù)之間的比較。單項(xiàng)特征的分析可以發(fā)掘出不同語(yǔ)體中某個(gè)語(yǔ)言點(diǎn)的異同,但只有把多項(xiàng)特征作為一個(gè)整體來(lái)研究,才可能發(fā)現(xiàn)不同語(yǔ)體在某一個(gè)較大方面的總體差異,從而在更宏觀的層次上進(jìn)行語(yǔ)言研究。本研究通過(guò)語(yǔ)料庫(kù)統(tǒng)計(jì)的實(shí)驗(yàn)研究,探討語(yǔ)料庫(kù)之間多特征相似性比較的不同統(tǒng)計(jì)方法,并分析其各自的優(yōu)勢(shì)和不足。
一 文獻(xiàn)綜述
語(yǔ)料庫(kù)之間多個(gè)特征的比較,首先可用的是通過(guò)卡方檢驗(yàn)(Chi-square test),觀察數(shù)據(jù)之間分布的擬合狀況,從而判斷是否存在差異;第二個(gè)可選方案是Spearman秩相關(guān)檢驗(yàn)(Rank correlation analysis),觀察兩組數(shù)據(jù)間的相關(guān)性如何,高相關(guān)意味著兩組數(shù)據(jù)分布相似度較高;另外一個(gè)方法是Kilgarriff[11]在語(yǔ)料庫(kù)比較研究中提出的卡方相似性檢驗(yàn),即CBDF(chi by degrees of freedom)檢驗(yàn),結(jié)合語(yǔ)料庫(kù)中的詞頻信息比較多特征之間的相似度[4]。
1 卡方檢驗(yàn)
卡方檢驗(yàn)是利用隨機(jī)樣本對(duì)總體分布與某種特定分布擬合程度的檢驗(yàn),也就是檢驗(yàn)測(cè)量值與理論值之間的緊密程度[5]。語(yǔ)料庫(kù)研究中經(jīng)常采用的是兩語(yǔ)料庫(kù)中某特征是否存在差異的2×2列聯(lián)表檢驗(yàn)。2×2列聯(lián)表可推廣到具有r行c列的列聯(lián)表,即r×c列聯(lián)表,用以檢驗(yàn)不同語(yǔ)料庫(kù)中多項(xiàng)特征總體分布是否具有顯著性差異。
但卡方檢驗(yàn)用于語(yǔ)言研究存在一個(gè)問(wèn)題,就是隨著樣本量的增大,零假設(shè)會(huì)越來(lái)越容易推翻,即卡方檢驗(yàn)的樣本量相關(guān)性[4]。一個(gè)比較極端的例子就是,兩個(gè)對(duì)比的語(yǔ)料庫(kù)容量加倍,如果所研究的詞匯數(shù)量在兩個(gè)庫(kù)中同時(shí)加倍,得到的統(tǒng)計(jì)量就近乎加倍。這樣,原來(lái)不具有顯著性差異的可能就有差異了,原來(lái)差距較小的變得顯著了,但實(shí)際上該詞匯在兩個(gè)語(yǔ)料庫(kù)中的使用并沒(méi)有變化。雖然真實(shí)語(yǔ)料中的詞匯數(shù)量并不會(huì)隨語(yǔ)料量的增長(zhǎng)而同比增長(zhǎng),但二者之間確實(shí)是有聯(lián)系的,研究[6]表明,某個(gè)詞匯一旦在文檔中出現(xiàn),那么它再次在該文檔中出現(xiàn)的可能性就較大,即詞匯的出現(xiàn)并不是完全隨機(jī)或者是獨(dú)立的,而觀察獨(dú)立性是卡方檢驗(yàn)必要的前提條件之一[7][8]。由于該條件的違反,我們應(yīng)該對(duì)卡方檢驗(yàn)結(jié)果的解釋持謹(jǐn)慎態(tài)度。
2 Spearman秩相關(guān)檢驗(yàn)
相關(guān)檢驗(yàn)用于發(fā)掘數(shù)據(jù)中的關(guān)系模式[9],是一種應(yīng)用廣泛的測(cè)定變量關(guān)聯(lián)程度的方法。最常用的相關(guān)系數(shù)是簡(jiǎn)單相關(guān)系數(shù),即Pearson相關(guān)系數(shù),其計(jì)算需要變量為定距或定比變量[10],而且變量中的所有特征值均需獨(dú)立,并呈正態(tài)分布[4]。雖然語(yǔ)言研究中以計(jì)數(shù)數(shù)據(jù)為多,能夠符合定距數(shù)據(jù)的標(biāo)準(zhǔn),但詞匯等語(yǔ)言現(xiàn)象出現(xiàn)卻并不是獨(dú)立的;另外,語(yǔ)言中很多特征的分布不符合正態(tài)分布,這都會(huì)對(duì)相關(guān)系數(shù)的計(jì)算產(chǎn)生一定的影響。Pearson相關(guān)系數(shù)在語(yǔ)言研究應(yīng)用中的另外一個(gè)比較嚴(yán)重的問(wèn)題就是極端值的影響,一個(gè)嚴(yán)重的極端值甚至能夠改變整個(gè)相關(guān)的方向,對(duì)Pearson相關(guān)系數(shù)產(chǎn)生極強(qiáng)的破壞力。
因此,在語(yǔ)言現(xiàn)象研究中,往往不能直接使用簡(jiǎn)單相關(guān)系數(shù),而是使用秩相關(guān)檢驗(yàn),即Spearman相關(guān)系數(shù)rs,通過(guò)把變量進(jìn)行排序,然后利用變量的秩次大小作線性相關(guān)分析。該檢驗(yàn)可以較好地解決極端值影響的問(wèn)題,因?yàn)樵紨?shù)據(jù)轉(zhuǎn)換為秩以后,其影響就小得多。一個(gè)變量中的最大值可能比第二大的值要高很多,但從秩而言,只不過(guò)高一個(gè)等級(jí)而已。另外,秩相關(guān)檢驗(yàn)對(duì)原始變量的分布不作要求,屬于非參數(shù)統(tǒng)計(jì)方法,更適用于語(yǔ)言研究。
McEnery[1]利用Spearman秩相關(guān)系數(shù)研究了一定時(shí)間段內(nèi)人工標(biāo)注詞性的速度與準(zhǔn)確率的關(guān)系,表1是其研究數(shù)據(jù)的一個(gè)片段,X欄是每個(gè)研究對(duì)象在2小時(shí)內(nèi)標(biāo)注詞性的詞匯數(shù)量,Y欄是準(zhǔn)確率(%)。
利用公式或者統(tǒng)計(jì)軟件計(jì)算可得到Spearman相關(guān)系數(shù)rs為0.26。該結(jié)果顯示兩個(gè)變量存在較弱的正相關(guān)。但這僅是樣本的相關(guān)系數(shù),要據(jù)此判斷抽樣總體中兩個(gè)變量之間的相關(guān)關(guān)系,需要在確定的顯著性水平上,以樣本容量n查找統(tǒng)計(jì)表格,確定關(guān)鍵值。在5%的顯著性水平上,n=6時(shí),關(guān)鍵值為0.886。由于樣本相關(guān)系數(shù)遠(yuǎn)小于該關(guān)鍵值,因此,在5%的顯著性水平上,目前的數(shù)據(jù)難以說(shuō)明詞性標(biāo)注速度與標(biāo)注準(zhǔn)確率有相關(guān)關(guān)系。
Spearman相關(guān)系數(shù)的計(jì)算簡(jiǎn)單,對(duì)樣本量沒(méi)有要求。但是,有研究者指出,該方法用于多詞匯特征相似性研究存在一定的問(wèn)題。Kilgarriff[11]認(rèn)為,對(duì)于非常高頻的詞匯,如在不同文本間有著不同的秩,這個(gè)差異就是非常顯著的。比如the在語(yǔ)料庫(kù)X中是用得最多的詞匯,但在語(yǔ)料庫(kù)Y中排第3,這表明了兩種體裁的高度差異。但是對(duì)于尺度的另一端,情況卻完全相反。比如bread在語(yǔ)料庫(kù)X中排號(hào)為400,在Y中為500,從中看不出文體的差異。然而,Spearman相關(guān)系數(shù)中后者的分量遠(yuǎn)大于前者。因此,Kilgarriff[11]提出了基于卡方和語(yǔ)料庫(kù)詞匯信息的相似性檢驗(yàn)(CBDF)方法,用以檢驗(yàn)語(yǔ)料庫(kù)之間的相似性。該方法同樣可用于語(yǔ)料庫(kù)間多特征相似性比較研究。
3 CBDF檢驗(yàn)
CBDF的提出是為了比較語(yǔ)料庫(kù)的異同,而語(yǔ)料庫(kù)之間的相似程度是相對(duì)的,參照的標(biāo)準(zhǔn)就是語(yǔ)料庫(kù)自身的情況。因此,Kilgarriff[11]首先界定了語(yǔ)料庫(kù)的相似性(similarity)和一致性(homogeneity)兩個(gè)概念,并指出相似性的度量只能通過(guò)一致性來(lái)解釋?zhuān)疫@兩個(gè)概念都是通過(guò)語(yǔ)料庫(kù)距離來(lái)衡量的。表2(Kilgarriff [11)列出了相似性和一致性的關(guān)系。
在表2中,“高”分意味著某語(yǔ)料庫(kù)內(nèi)部距離較大或者兩語(yǔ)料庫(kù)之間的距離較大,因此,某語(yǔ)料庫(kù)是異質(zhì)的或者兩語(yǔ)料庫(kù)不相似;“低”分意味著距離較小,因此,某語(yǔ)料庫(kù)是同質(zhì)的或者兩語(yǔ)料庫(kù)是相似的?!案摺薄ⅰ暗汀焙汀跋嗟取笔窍鄬?duì)于同一行其他列來(lái)說(shuō)的。如在第一行,所有三個(gè)分值都是“相等”,意味著兩個(gè)語(yǔ)料庫(kù)是同一文本類(lèi)型。第二行,前兩列的“相等”說(shuō)明語(yǔ)料庫(kù)1的內(nèi)部距離(一致性)與語(yǔ)料庫(kù)2的內(nèi)部距離大致相等,而“距離”一列的“高”說(shuō)明兩個(gè)語(yǔ)料庫(kù)之間的距離顯著地高于兩個(gè)語(yǔ)料庫(kù)的內(nèi)部距離。因此,兩個(gè)語(yǔ)料庫(kù)之間的對(duì)比可以得到很直觀的解釋:由于兩個(gè)語(yǔ)料庫(kù)各自在內(nèi)部一致性方面沒(méi)有根本性的差異,而二者比較的結(jié)果說(shuō)明它們之間明顯屬于不同的語(yǔ)言變體。
第3和第4行展示了一個(gè)相對(duì)異質(zhì)的語(yǔ)料庫(kù)(語(yǔ)料庫(kù)1)與一個(gè)相對(duì)同質(zhì)的語(yǔ)料庫(kù)(語(yǔ)料庫(kù)2)比較的兩種可能的結(jié)果。兩個(gè)語(yǔ)料庫(kù)之間的距離不可能比相對(duì)異質(zhì)的語(yǔ)料庫(kù)1的內(nèi)部距離低很多。如果這個(gè)距離(兩語(yǔ)料庫(kù)之間的距離)大致等于語(yǔ)料庫(kù)1的內(nèi)部距離,其解釋就是語(yǔ)料庫(kù)2居于語(yǔ)料庫(kù)1的范圍內(nèi);如果這個(gè)距離較大,(語(yǔ)料庫(kù)2)就居于(語(yǔ)料庫(kù)1的范圍)之外。
最后兩行展示了通用語(yǔ)料庫(kù)與專(zhuān)用語(yǔ)料庫(kù)之間的差異。前兩列中高和低的分值是相對(duì)于語(yǔ)言規(guī)范來(lái)解釋的。特別是語(yǔ)料庫(kù)內(nèi)部距離的高分值表示了包括多種語(yǔ)言變體的通用語(yǔ)料庫(kù)。通用語(yǔ)料庫(kù)之間的相似性展示的實(shí)際上是各自語(yǔ)料庫(kù)所代表的語(yǔ)言變體是否相同,以及在多大程度上相同。語(yǔ)料庫(kù)內(nèi)部距離分值較低的比較典型的情況是:語(yǔ)料庫(kù)只包含單獨(dú)一種語(yǔ)言變體。因此這里的分值可以解釋為兩種語(yǔ)言變體之間距離的度量。
Kilgarriff的距離度量是通過(guò)計(jì)算兩個(gè)語(yǔ)料庫(kù)中N個(gè)詞匯特征的卡方值,然后除以自由度得到的。因?yàn)樽杂啥鹊扔谒芯吭~匯的數(shù)量N加上剩余詞匯(reminder)減一,因此,實(shí)際上就等于要研究的詞匯特征數(shù)量N。Kilgarriff[11]的實(shí)驗(yàn)表明,采用320個(gè)到640個(gè)詞匯特征,比較的效果較為理想。語(yǔ)料庫(kù)一致性度量步驟如下:1)語(yǔ)料庫(kù)切分成“塊”;2)把所有的塊隨機(jī)地分派到兩個(gè)集合,構(gòu)成兩個(gè)子語(yǔ)料庫(kù);3)測(cè)量?jī)蓚€(gè)子語(yǔ)料庫(kù)的相似性;4)重復(fù)2和3;5)計(jì)算所有測(cè)量的均值和標(biāo)準(zhǔn)差。語(yǔ)料庫(kù)相似性的計(jì)算方法類(lèi)似,只是第2)步的兩個(gè)子語(yǔ)料庫(kù)分別由語(yǔ)料庫(kù)1隨機(jī)分出的一半和語(yǔ)料庫(kù)2隨機(jī)分出的一半構(gòu)成。
Kilgarriff[11]通過(guò)相似度已知的語(yǔ)料庫(kù)集合的比較證明,該方法比其他方法都更適用于語(yǔ)料庫(kù)差異性的比較。這里所謂的“語(yǔ)料庫(kù)差異性”比較的實(shí)際上就是代表語(yǔ)料庫(kù)性質(zhì)的特征集合的差異性,因此,可以直接用以衡量語(yǔ)料庫(kù)之間的多個(gè)特征的相似程度。
二 研究設(shè)計(jì)
1 研究問(wèn)題
本研究以詞匯特征為研究對(duì)象,力圖回答下列兩個(gè)問(wèn)題:
(1)卡方檢驗(yàn)、秩相關(guān)檢驗(yàn)和CBDF檢驗(yàn)對(duì)語(yǔ)料庫(kù)之間多特征差異的統(tǒng)計(jì)結(jié)果有什么區(qū)別?
(2)在語(yǔ)料庫(kù)之間多詞匯特征差異比較方面,三種方法哪一種更適合?其優(yōu)勢(shì)是什么?各種方法的局限性有哪些?
2語(yǔ)料來(lái)源及預(yù)處理
本研究使用的語(yǔ)料庫(kù)是中國(guó)學(xué)習(xí)者語(yǔ)料庫(kù)CLEC(Chinese Learners English Corpus)[12]。為了確保統(tǒng)計(jì)方法評(píng)測(cè)的準(zhǔn)確性,本研究?jī)H統(tǒng)計(jì)文本中的詞形(token),不對(duì)詞匯做任何變換,所有縮寫(xiě)都保持原形。編程過(guò)濾掉所有標(biāo)注和標(biāo)點(diǎn)(保留縮寫(xiě)標(biāo)點(diǎn))之后,統(tǒng)計(jì)語(yǔ)料庫(kù)詞匯數(shù)量列于表3。
桂詩(shī)春、楊惠中[12]對(duì)CLEC詞匯的統(tǒng)計(jì)數(shù)量為1,070,602個(gè),與本研究稍有差別,其原因可能是本研究對(duì)漢語(yǔ)拼音和英語(yǔ)縮寫(xiě)詞的處理不夠精細(xì),但這些詞匯顯然不屬于常用詞匯,數(shù)量也較少,對(duì)本研究不會(huì)構(gòu)成較大的負(fù)面影響。
為了采用CBDF方法,編程對(duì)五個(gè)子語(yǔ)料庫(kù)進(jìn)行切塊處理,每塊包含2000至2100個(gè)詞匯。切塊首先以每篇作文為單位,但如果加入一篇作文超過(guò)上限,不加入又低于下限,則拆散該篇作文,以句子為單位加入,剩下的句子加入下一個(gè)切塊。最后得到527個(gè)切塊。各子語(yǔ)料庫(kù)的切塊情況見(jiàn)表4。
3 統(tǒng)計(jì)數(shù)據(jù)收集
根據(jù)Kilgarriff[11]的研究和本研究所用語(yǔ)料庫(kù)的情況,確定選取的詞匯特征為350個(gè),即選取CLEC中最常用,并且在各子庫(kù)中的出現(xiàn)均不低于5次的詞匯350個(gè),作為本研究中的高頻詞匯,其他詞匯作為非高頻詞匯。
對(duì)于卡方統(tǒng)計(jì),編程統(tǒng)計(jì)5個(gè)子語(yǔ)料庫(kù)中高頻詞匯各自出現(xiàn)的次數(shù),并結(jié)合子語(yǔ)料庫(kù)詞匯總數(shù),計(jì)算非高頻詞匯總數(shù),最后計(jì)算5個(gè)子語(yǔ)料庫(kù)兩兩之間的卡方擬合統(tǒng)計(jì)量。
秩相關(guān)統(tǒng)計(jì)所需數(shù)據(jù)與卡方檢驗(yàn)基本相同,只是不需要非高頻詞匯數(shù)量。編程計(jì)算5個(gè)子語(yǔ)料庫(kù)兩兩之間的秩相關(guān)統(tǒng)計(jì)量。
對(duì)于CBDF統(tǒng)計(jì)方法,按照Kilgarriff[11]的算法,編程進(jìn)行計(jì)算。首先把每個(gè)子庫(kù)的所有切塊隨機(jī)分為兩部分,然后計(jì)算兩部分之間的卡方相似度,最后每個(gè)子庫(kù)各取一部分計(jì)算兩兩之間的卡方相似度。該過(guò)程進(jìn)行30次,得到的結(jié)果計(jì)算均值和標(biāo)準(zhǔn)差。
三 結(jié)果與討論
對(duì)CLEC五個(gè)子庫(kù)兩兩之間的350個(gè)常用詞匯的卡方擬合統(tǒng)計(jì)數(shù)據(jù)列于表5。
表5中所有檢驗(yàn)的自由度均為350,經(jīng)估算,在p為0.95時(shí),關(guān)鍵值為394.34,在p為0.99時(shí),關(guān)鍵值為413.70。表中所有數(shù)值均遠(yuǎn)遠(yuǎn)超過(guò)這兩個(gè)關(guān)鍵值。這說(shuō)明由卡方統(tǒng)計(jì)量來(lái)看,所有CLEC的5個(gè)子庫(kù)在350個(gè)常用詞的使用上,在0.99的顯著性水平上均存在差異。但各個(gè)子庫(kù)之間差異的大小卻是不盡相同,這可以從卡方統(tǒng)計(jì)量的數(shù)值大小看出。這其中最明顯的如st6與其他幾個(gè)子庫(kù)之間的統(tǒng)計(jì)數(shù)據(jù)。st6與st5之間的卡方統(tǒng)計(jì)量最小,與st4、st3、st2之間的統(tǒng)計(jì)量逐漸增大。這從一定程度上說(shuō)明了英語(yǔ)專(zhuān)業(yè)高年級(jí)英語(yǔ)的代表子庫(kù)st6在這350個(gè)基本詞匯的使用上與英語(yǔ)專(zhuān)業(yè)低年級(jí)子庫(kù)st5最相像,盡管它們之間也存在顯著性差異,而與高中英語(yǔ)的st2差異最大,非專(zhuān)業(yè)的大學(xué)英語(yǔ)子庫(kù)居于二者之間。st3和st4有著同樣的規(guī)律,即與其相鄰的子庫(kù)間卡方統(tǒng)計(jì)量較小,距離越遠(yuǎn),統(tǒng)計(jì)量逐漸增大。這說(shuō)明st3和st4與其相鄰子庫(kù)較為相像,距離越遠(yuǎn),差異越大。這都比較符合人們的預(yù)期。
但是到了st2和st5情況就復(fù)雜的多了。對(duì)于st5,它與st6和st4的統(tǒng)計(jì)量差異不大,說(shuō)明英語(yǔ)專(zhuān)業(yè)低年級(jí)子庫(kù)在這350個(gè)詞匯的使用上可能居于非英語(yǔ)專(zhuān)業(yè)高年級(jí)與英語(yǔ)專(zhuān)業(yè)高年級(jí)之間,而與非英語(yǔ)專(zhuān)業(yè)低年級(jí)的st3子庫(kù)差異較大。這都比較容易理解。但是st5與st2之間的統(tǒng)計(jì)量卻是所有卡方統(tǒng)計(jì)量中的最小值,該統(tǒng)計(jì)量的解釋就需要對(duì)語(yǔ)料庫(kù)進(jìn)行詳細(xì)的探究。對(duì)于st2,它與st5有著最小的卡方統(tǒng)計(jì)量,但與其他3個(gè)子庫(kù)有著最大的三個(gè)卡方統(tǒng)計(jì)量。這說(shuō)明在這350個(gè)常用詞匯的使用上,高中英語(yǔ)子庫(kù)st2與英語(yǔ)專(zhuān)業(yè)低年級(jí)子庫(kù)st5最是相近,但與其他子庫(kù)差距甚遠(yuǎn)。對(duì)CLEC語(yǔ)料庫(kù)的深入檢索發(fā)現(xiàn),st2和st5主要是以學(xué)生日常寫(xiě)作,如日記和信件為多,而其他子庫(kù)均以議論文為主。這也從一個(gè)側(cè)面說(shuō)明,雖然有研究[13]表明,英語(yǔ)學(xué)習(xí)者書(shū)面語(yǔ)存在較強(qiáng)的口語(yǔ)化傾向,但這些書(shū)面語(yǔ)之間語(yǔ)體差異在一定程度上存在的。
雖然從表5可以得到更多結(jié)論,但如上所述,由于詞匯特征并非隨機(jī)出現(xiàn),卡方檢驗(yàn)應(yīng)用于語(yǔ)言現(xiàn)象的統(tǒng)計(jì)檢驗(yàn)時(shí),具有一定的局限性,所以對(duì)表5中的統(tǒng)計(jì)結(jié)果的解釋需持謹(jǐn)慎態(tài)度。為確保檢驗(yàn)的科學(xué)性,以下是其他統(tǒng)計(jì)方法進(jìn)行同樣的檢驗(yàn)的結(jié)果。首先是秩相關(guān)檢驗(yàn)結(jié)果,列于表6。
表6列出的是CLEC中5個(gè)子庫(kù)之間350個(gè)常用詞匯的秩相關(guān)統(tǒng)計(jì)量rs(350),并且檢驗(yàn)結(jié)果顯示,在0.01的顯著性水平上,所有統(tǒng)計(jì)量均具有顯著性。即所有5個(gè)子庫(kù)之間在這350個(gè)詞匯的使用上都具有顯著相關(guān)。這里是對(duì)350個(gè)常用詞匯的統(tǒng)計(jì),即特征量為350。由于大特征量使得相關(guān)性統(tǒng)計(jì)更容易變得顯著,即使統(tǒng)計(jì)量的絕對(duì)值并不是很大(Cohen 2008:271),所以對(duì)這種相關(guān)性的解釋?zhuān)饬x不是很大。然而,我們可以通過(guò)不同子庫(kù)間相關(guān)性的比較,看出哪些子庫(kù)之間在常用詞匯的使用上更加相近。
在這一點(diǎn)上,秩相關(guān)檢驗(yàn)結(jié)果與卡方檢驗(yàn)結(jié)果較為類(lèi)似,即除了最明顯的st2和st5之間,各子庫(kù)基本上都是與其相鄰的子庫(kù)較為相似,距離越遠(yuǎn),相關(guān)性越低。當(dāng)然,這其中還存在一個(gè)特例就是st4與st6比st4與st5更為相近,但是其差異的絕對(duì)值(0.05)并不是很大,所以這個(gè)反例不能夠否定總體的趨勢(shì)。
最后再看CBDF的檢驗(yàn)結(jié)果。
表7是采用Kilgarriff[11]的方法對(duì)CLEC的5個(gè)子庫(kù)一致性和相似性的比較。比較進(jìn)行了30次,表中所列結(jié)果為30次的平均值,括號(hào)中的數(shù)字是30個(gè)測(cè)量結(jié)果的標(biāo)準(zhǔn)差。參照表2可以看出,所有測(cè)量結(jié)果基本都屬于表2第二行的情況,即各子語(yǔ)料庫(kù)的內(nèi)部距離大致相等,各子庫(kù)之間的距離顯著地高于各子庫(kù)的內(nèi)部距離。因此,各子庫(kù)之間的對(duì)比可以得到很直觀的解釋:由于各子庫(kù)在常用詞匯的使用上,各自在內(nèi)部一致性方面沒(méi)有根本性的差異,而相互之間比較的結(jié)果說(shuō)明它們之間在這些詞匯的使用上明顯屬于不同的語(yǔ)言變體。
當(dāng)然,這種相同或不同存在程度上的差異。在內(nèi)部一致性方面,5個(gè)子庫(kù)中,st2最高,st6、st5、st4逐漸降低,st3內(nèi)部一致性最低。但所有子庫(kù)的內(nèi)部一致性均屬于一個(gè)數(shù)量級(jí),并且與各個(gè)子庫(kù)之間對(duì)比,差異不大,所以我們認(rèn)為各個(gè)子庫(kù)內(nèi)部一致性沒(méi)有根本性的差異。但是各子庫(kù)之間的相似性度量差異較大,差異最小的st2與st5CBDF統(tǒng)計(jì)量為24.90,差異最大的st2與st6高達(dá)62.93。
表7的總體趨勢(shì)類(lèi)似于表5和表6,都是子語(yǔ)料庫(kù)與其相鄰的子庫(kù)較為相近或相似,距離越遠(yuǎn),相似度越低,而且st2與st5的關(guān)系較為特殊。仔細(xì)觀察表7可以發(fā)現(xiàn),各子庫(kù)與其相鄰子庫(kù)的CBDF統(tǒng)計(jì)量基本上都是30多,每隔一個(gè)子庫(kù),統(tǒng)計(jì)量會(huì)增加10點(diǎn)左右。這種變化較為符合我們的預(yù)期,即中國(guó)英語(yǔ)學(xué)習(xí)者在350個(gè)常用詞匯的使用上,在各個(gè)學(xué)習(xí)階段有所不同,并且這種不同會(huì)隨著學(xué)習(xí)階段的提高有所增加。但是這里也有例外,即st2與st3和st2與st4。按照規(guī)律,前者應(yīng)該是30余點(diǎn),后者應(yīng)該是40余點(diǎn),但實(shí)際上后者超過(guò)50點(diǎn),前者更是高達(dá)60點(diǎn)。對(duì)這個(gè)例外的解釋一方面涉及到語(yǔ)體的差異,其原因類(lèi)似于st2與st5的較高相似度,即st2主要是日常寫(xiě)作,以日記和信件為主,而st3和st4的大部分文章都是考試作文,這就使得口語(yǔ)化詞匯,如I、was、my、the等在st2中更為頻繁地出現(xiàn)。另一個(gè)更重要的方面是st3和st4兩個(gè)子庫(kù)的作文題目較為集中,使得涉及作文題目的常用詞使用頻度極高,但卻很少在st2中出現(xiàn)。
四 結(jié)論與建議
采用3種不同統(tǒng)計(jì)方法對(duì)中國(guó)學(xué)習(xí)者語(yǔ)料庫(kù)(CLEC)中5個(gè)子庫(kù)在350個(gè)常用詞匯使用差異的統(tǒng)計(jì)分析得到以下結(jié)論:
1)傾向于測(cè)量樣本間差異的統(tǒng)計(jì)方法,如卡方檢驗(yàn),對(duì)于多特征差異性檢驗(yàn),由于特征數(shù)量較大,以及詞匯特征獨(dú)立性要求難以滿足,統(tǒng)計(jì)量很容易超過(guò)較高顯著性標(biāo)準(zhǔn)上的關(guān)鍵值,從而得出樣本所代表的語(yǔ)言變體之間在這些特征方面存在顯著性差異。
2)傾向于測(cè)量樣本間相關(guān)性的統(tǒng)計(jì)方法,如秩相關(guān)檢驗(yàn),對(duì)于多特征差異性檢驗(yàn),同樣由于特征數(shù)量較大,統(tǒng)計(jì)量很容易超過(guò)較高顯著性標(biāo)準(zhǔn)上的關(guān)鍵值,從而得出樣本所代表的語(yǔ)言變體之間在這些特征方面存在顯著相關(guān)。
3)由于多特征差異性檢驗(yàn)的特殊性,上述兩種統(tǒng)計(jì)方法所得到的統(tǒng)計(jì)量相對(duì)于關(guān)鍵值的解釋(即在某一顯著性水平上存在差異)意義不大,而統(tǒng)計(jì)量之間相對(duì)數(shù)量差異的解釋卻能夠說(shuō)明一定的問(wèn)題。這也是CBDF統(tǒng)計(jì)檢驗(yàn)所采用的策略。
4)CBDF檢驗(yàn)實(shí)際上是卡方檢驗(yàn)的變形,去除了統(tǒng)計(jì)量絕對(duì)值與關(guān)鍵值的比較,代之以樣本內(nèi)部和樣本之間統(tǒng)計(jì)量的相對(duì)值比較得出統(tǒng)計(jì)結(jié)論。該方法從設(shè)計(jì)上就比較符合樣本間多特征差異性比較。但卡方和秩相關(guān)檢驗(yàn)統(tǒng)計(jì)量的相對(duì)解釋基本也可以達(dá)到同樣的檢驗(yàn)效果。
對(duì)比卡方、秩相關(guān)和CBDF檢驗(yàn)的結(jié)果可以看出,前兩者統(tǒng)計(jì)量的相對(duì)解釋與CBDF檢驗(yàn)結(jié)果非常相似,只是后者得到的數(shù)據(jù)更為整齊,規(guī)律性更強(qiáng),從而能夠揭示樣本間較為細(xì)微的差異。這主要是由于CBDF檢驗(yàn)需要拆散樣本、隨機(jī)組合、多次檢驗(yàn),所以其結(jié)果更細(xì)致。其代價(jià)就是設(shè)計(jì)更復(fù)雜、操作難度較大,而前兩者都屬于常用統(tǒng)計(jì)方法,可以利用很多統(tǒng)計(jì)軟件包,如SPSS,輕易地實(shí)現(xiàn)。因此,在語(yǔ)言研究中,可視情況采用不同的統(tǒng)計(jì)方法。如果樣本量足夠大,并且要求的檢驗(yàn)結(jié)果較為細(xì)致,研究人員有編程實(shí)現(xiàn)文本操作的能力,采用CBDF檢驗(yàn)效果較好;如果粗略的檢驗(yàn)即可達(dá)到要求,或者研究人員不具有這方面的能力,常用統(tǒng)計(jì)方法基本上也可以達(dá)到研究目標(biāo)。
參考文獻(xiàn)
[1] McEnery, T. Wilson, A. Corpus Linguistics [M]. Britain: Edinburgh University Press, 1996.
[2] 王春艷. 基于語(yǔ)料庫(kù)的中國(guó)學(xué)習(xí)者英語(yǔ)近義詞區(qū)分探討[J].
外語(yǔ)與外語(yǔ)教學(xué),2009(6): 27-31.
[3] 王立非,錢(qián)娟. 我國(guó)學(xué)生英語(yǔ)演講中的語(yǔ)塊特點(diǎn):基于語(yǔ)料庫(kù)的考察[J]. 外語(yǔ)學(xué)刊,2009(2):115-120.
[4] Oakes, M.P. Statistics for Corpus Linguistics Edinburgh Textbooks in Empirical Linguistics [M]. Edinburgh: Edinburgh University Press, 1998.
[5] 劉漢良. 統(tǒng)計(jì)學(xué)教程[M].上海:上海財(cái)經(jīng)大學(xué)出版社,1999.
[6] Church, K. and Gale, W. Poisson mixtures [J]. Journal of Natural Language Engineering, 1995, 1(2): 163–190.
[7] Larson, R Farber, B. 基礎(chǔ)統(tǒng)計(jì)學(xué)[M]. 北京:清華大學(xué)出版社,2003.
[8] Cohen, B.H. Explaining Psychological Statistics [M]. NJ: John Wiley Sons, 2008.
[9] Larson-Hall, J. A Guide to Doing Statistics in Second Language Research Using SPSS [M]. New York: Taylor Francis, 2009.
[10] Boslaugh, S. Watters, P.A. Statistics in a Nutshell: A Desktop Quick Reference [M]. CA: O’Reilly Media, Inc., 2008.
[11] Kilgarriff, A. Comparing Corpora [J]. International Journal of Corpus Linguistics, 2001, 6(1): 97–133.
[12] 桂詩(shī)春,楊惠中. 中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)[M]. 上海:上海外語(yǔ)教育出版社,2002.
[13] 文秋芳,丁言仁,王文宇. 中國(guó)大學(xué)生英語(yǔ)書(shū)面語(yǔ)中的口語(yǔ)化傾向—高水平英語(yǔ)學(xué)習(xí)者語(yǔ)料對(duì)比分析[J]. 外語(yǔ)教學(xué)與研究,2003,35(4): 268-274.