摘? ? 要:隨著語料庫(kù)在語言研究中的地位越來越重要,WordSmith、Antconc、Editplus等檢索工具對(duì)文本信息和語言特點(diǎn)的檢索分析也更多的使用在信息查詢、實(shí)際教學(xué)、詞典編寫和翻譯領(lǐng)域中。通過在軟件中語料檢索、詞表和主題詞表的生成,可以提取一定數(shù)量的句子或結(jié)構(gòu),通過一系列的統(tǒng)計(jì)分析可以對(duì)檢索結(jié)果的真正意義加以說明。本文針對(duì)語料庫(kù)分析中常用的頻數(shù)標(biāo)準(zhǔn)化和卡方檢驗(yàn)來解決日常生活中的實(shí)際問題,借此來深入研究語料庫(kù)樣本的出現(xiàn)和分布情況以及某種語言項(xiàng)目在文本間表現(xiàn)出來的差異性。
關(guān)鍵詞:語料庫(kù)分析;統(tǒng)計(jì)方法;頻數(shù)標(biāo)準(zhǔn)化;卡方檢驗(yàn)
引言
語料庫(kù)不僅能進(jìn)行快速準(zhǔn)確的分析,同時(shí)具有規(guī)模大,語域?qū)捄头秶鷱V的特點(diǎn),“既有定量分析,又有定性解釋功能,對(duì)語言的描寫比較全面”(王克非等,2004:4-5)。語料庫(kù)的這些特點(diǎn)要求我們要采取不同的統(tǒng)計(jì)方法來對(duì)不同語料進(jìn)行分析,比如采集樣本的分布情況、不同項(xiàng)目在一定語境下的共現(xiàn)概率以及不同變量間的差異性分析。頻數(shù)標(biāo)準(zhǔn)化及頻數(shù)差異檢驗(yàn)統(tǒng)計(jì)法是最常用的語料庫(kù)語料分析法,但因其定義和應(yīng)用過于程式化,造成不少研究者在語言項(xiàng)目的分析中對(duì)其采取回避的態(tài)度,如何采取淺顯實(shí)用的方法來驗(yàn)證這兩種統(tǒng)計(jì)方法的有效性將是本文的重點(diǎn),從而對(duì)運(yùn)用于語料庫(kù)的統(tǒng)計(jì)方法進(jìn)行實(shí)際驗(yàn)證。
一、解析頻數(shù)標(biāo)準(zhǔn)化
何為“標(biāo)準(zhǔn)化”?為什么在統(tǒng)計(jì)分析中使用標(biāo)準(zhǔn)化?我們以WordSmith軟件中詞表功能提取的標(biāo)準(zhǔn)化類符形符比為例。我們知道,形符數(shù)指語篇有多少個(gè)詞,類符數(shù)指語篇有多少個(gè)不同的詞,用它們的比率我們來判斷語料用詞的多樣性,而標(biāo)準(zhǔn)化類符形符比(standardized TTR)是按一定長(zhǎng)度,通常是1000詞,分批計(jì)算文本的類符形符比,然后求平均值。主要在文本長(zhǎng)度不一,詞匯密度不均勻的情況下,標(biāo)準(zhǔn)化的比值能更準(zhǔn)確的反應(yīng)不同文本用詞的多樣性(劉澤權(quán),2010:65)。又如,我們通過語料檢索和詞表生成后會(huì)報(bào)告頻數(shù),以檢索單詞“and”為例,and在第一個(gè)語料庫(kù)中出現(xiàn)50次,在第二個(gè)語料庫(kù)中出現(xiàn)89次,我們能得出結(jié)論說and在第二個(gè)語料庫(kù)中更常用么?顯然不能。只有當(dāng)我們把a(bǔ)nd在兩個(gè)語料庫(kù)中的出現(xiàn)頻率歸于一個(gè)共同基數(shù)時(shí),即得到一種標(biāo)準(zhǔn)化的頻率時(shí)才能準(zhǔn)確的反映語言真實(shí)的頻率情況。
標(biāo)準(zhǔn)化頻率的公式表示為:
上述公式里觀測(cè)頻數(shù)即是檢索結(jié)果實(shí)際出現(xiàn)的次數(shù),總體頻數(shù)則是語料庫(kù)中總字?jǐn)?shù)。有數(shù)據(jù)表明:“good”在學(xué)生的作業(yè)中出現(xiàn)362次,而且歐洲國(guó)家母語口語語料中出現(xiàn)568次。兩個(gè)語料庫(kù)大小分別為48566次和252468次,我們利用Excel或SPSS工具可直接得出標(biāo)準(zhǔn)化頻率即每千次使用“good”為7.45次和2.25次。如圖1:
二、解析頻數(shù)差異檢驗(yàn)
頻數(shù)標(biāo)準(zhǔn)化可以通過共同的基數(shù)(如1000)來對(duì)不同頻數(shù)加以比較,但在復(fù)雜的語料庫(kù)統(tǒng)計(jì)中,我們要參與比較的數(shù)據(jù)之間是否有顯著性也是我們要重點(diǎn)考察的內(nèi)容,本文我們將重點(diǎn)放在卡方檢驗(yàn)這個(gè)方法來檢驗(yàn)頻數(shù)之間的差異性??ǚ綑z驗(yàn)的名稱來源于英文Chi-Square Test,在統(tǒng)計(jì)學(xué)的大數(shù)據(jù)運(yùn)行中,多用在證明某個(gè)變量和應(yīng)變量間是否有顯著關(guān)系。簡(jiǎn)單來講,卡方檢驗(yàn)就是為了測(cè)試兩個(gè)挑選的變量間有沒有關(guān)系。
我們生活中有很多具有兩面的物體,如撲克牌,硬幣等,我們拿撲克牌來做個(gè)試驗(yàn)?,F(xiàn)在我們手上有一張正常的撲克牌,我們隨意丟50次,按照我們的經(jīng)驗(yàn)來看,最理想的情況會(huì)是25個(gè)正面,25個(gè)反面。但實(shí)際操作中發(fā)現(xiàn)很難達(dá)到這樣理想的效果,正常23個(gè)正面,27個(gè)反面或者24個(gè)正面,26個(gè)反面,28個(gè)正面,22個(gè)反面也是可能的,但40個(gè)正面,10個(gè)反面就是非常低的概率了。我們通過以上的分析和推斷,等于是拿已經(jīng)確定的結(jié)果(撲克是沒人動(dòng)過手腳,它是均衡的)來推斷會(huì)出現(xiàn)的不同現(xiàn)象的次數(shù)。而我們要論證的卡方檢驗(yàn)恰恰相反,它是用實(shí)際看到的現(xiàn)象(例如正面或反面的次數(shù))來判斷結(jié)果(撲克本身是否是均衡的)。
還是撲克牌這個(gè)情況,我們?nèi)恿?0次,22個(gè)正面,28個(gè)反面,如何用卡方檢驗(yàn)來證明撲克牌本身是均衡還是不均衡?我們這里還要了解下卡方檢驗(yàn)的公式:
其中observed指我們實(shí)際扔出來的次數(shù),expected則指正常的撲克牌在理論上可以扔出的次數(shù)。我們按照這個(gè)理論值和實(shí)際觀察值來做個(gè)表格,如下圖:
代入卡方公式中我們得出第一考察因素卡方值為:
同時(shí)第二考察因素自由度我們可以通過公式得出:(行數(shù)-1)*(列數(shù)-1)=1。
第三考察因素置信度我們則可按照意愿挑選,比如90%或95%,這里我們以95%為例。依據(jù)以上三個(gè)因素我們來參考卡方實(shí)驗(yàn)表格,如下表:
根據(jù)自由度1和置信度95%我們從上表查出3.841的數(shù)值,此數(shù)值大于我們求出的卡方值0.72,所以我們能夠得出撲克牌是均衡的結(jié)論(置信度為95%)。
撲克牌的卡方檢驗(yàn)手段讓我們得出牌的本身是均衡的,但生活中的一些物品則未必像我們想象中的一樣。我們?cè)倌靡粋€(gè)小孩子平時(shí)玩的長(zhǎng)方體的積木為例,我們把這塊隨機(jī)挑選的積木扔36次,積木的六個(gè)面分別擲出來的次數(shù)是10次,9次,8次,4次,3次和2次,這里還是需要借助前文用過的表格,如下:
代入卡方公式中我們得出第一考察因素卡方值為:
同時(shí)第二考察因素自由度我們可以通過公式得出:(行數(shù)-1)*(列數(shù)-1)=5。
第三考察因素置信度我們則可按照意愿挑選,比如90%或95%,這里我們以95%為例。依據(jù)以上三個(gè)因素我們來參考卡方實(shí)驗(yàn)表格,如下表:
根據(jù)自由度5和置信度95%我們從上表查出11.070的數(shù)值,此數(shù)值大于我們求出的卡方值9.6,所以我們能夠得出這個(gè)積木是均衡的結(jié)論(置信度為95%)。但當(dāng)我們把自由度5和置信度90%放在一起考量的時(shí)候,從表中我們得出的數(shù)值是9.235,是小于卡方值9.6的,這樣的話這個(gè)積木就不是均衡的(置信度為90%)。所以通過投擲36次的現(xiàn)象我們得出無法判斷此積木是否均衡的結(jié)論。
三、卡方檢驗(yàn)與變量分析
在通過語料庫(kù)來對(duì)搜索結(jié)果進(jìn)行比較和研究時(shí),如果我們選取的某個(gè)變量并不顯著,我們就可以刪除掉這個(gè)變量,從而去選取其他顯著的變量,但是這個(gè)時(shí)候一定要搞清楚你判斷此變量是否顯著所采用的卡方值是多少,置信度選取的多少,只有是顯著的變量才能被放入我們做語言研究的模型貨或分析中去。
我們上邊談到,通過語料庫(kù)得出的結(jié)論我們是需要進(jìn)一步統(tǒng)計(jì)和分析的,最常見的統(tǒng)計(jì)分析就是兩個(gè)所比較的變量之間到底是否具有顯著關(guān)系,這將直接決定我們提取的樣本是否具有代表性,能否準(zhǔn)確代表我們所要研究的目標(biāo)。
例如,現(xiàn)在社會(huì)中網(wǎng)購(gòu)已經(jīng)成為極為普遍的現(xiàn)象,各個(gè)年齡層都在購(gòu)物時(shí)會(huì)考慮到網(wǎng)購(gòu),同時(shí)各種針對(duì)蔬菜水果的公眾號(hào)或者app都開始推出,那不同性別與在網(wǎng)上買不買蔬菜水果之間有沒有顯著關(guān)系呢?我們對(duì)隨機(jī)采訪的不同性別的人群的采購(gòu)習(xí)慣進(jìn)行統(tǒng)計(jì),具體如下:
根據(jù)上表的統(tǒng)計(jì),我們可以計(jì)算出66%的人群是不通過網(wǎng)絡(luò)買菜的(599/907),而剩下的34%則是會(huì)在網(wǎng)上購(gòu)菜,這樣的話男性在網(wǎng)絡(luò)購(gòu)菜的理論人數(shù)就是733*66%=484人,女性的理論購(gòu)菜人數(shù)就是174*66%=115。由此我們得出的理論值表格統(tǒng)計(jì)如下:
同時(shí)第二考察因素自由度我們可以通過公式得出:(行數(shù)-1)*(列數(shù)-1)=1。
第三考察因素置信度我們則可按照意愿挑選,這次我們以90%為例。依據(jù)以上三個(gè)因素我們來參考卡方實(shí)驗(yàn)表格,得出不同性別和在網(wǎng)絡(luò)上購(gòu)菜是有關(guān)系的。
如果用TF-IDF判斷選取樣本重要性
在語料庫(kù)的分析統(tǒng)計(jì)方法中,我們最常接觸到的考察因素就是詞頻(Term Frequency,縮寫為TF),顧名思義,詞頻就是一個(gè)詞在文章中重復(fù)出現(xiàn)的次數(shù),如果統(tǒng)計(jì)出來的詞多次出現(xiàn),那么我們就要考慮這個(gè)詞在文本中可能起著一定的作用,這種統(tǒng)計(jì)方法對(duì)我們考量選取的文本樣本或關(guān)鍵詞樣本是否顯著作用明顯,但在實(shí)際對(duì)提取的結(jié)果做分析時(shí),我們發(fā)現(xiàn)統(tǒng)計(jì)出來的詞頻數(shù)前幾位的都是如“的”,“是”,“在”這樣的詞,這種詞對(duì)我們的分析毫無作用,甚至?xí)蓴_我們的判斷,我們需要利用停用詞語料庫(kù)來過濾掉這種無意思的詞語。
當(dāng)過濾掉所有無意義的詞后,文本中剩下的就是有實(shí)際意義的詞。在所有這些詞中,我們會(huì)發(fā)現(xiàn)有一些詞出現(xiàn)的次數(shù)一樣多,這種結(jié)果是不是就說明這些詞具有同種重要性?我們舉例來說明。比如通過語料庫(kù)統(tǒng)計(jì),我們得出某文本中,“人民”和“民主制”出現(xiàn)的次數(shù)一樣多,那么如何來看待這兩個(gè)詞的重要程度?“人民”本身就是很常見的詞,相對(duì)而言,“民主制”則不那么常見,如果兩個(gè)詞在某文本中出現(xiàn)的詞頻一樣,我們有理由認(rèn)為,“民主制”的重要程度要大于“人民”,對(duì)于研究的重要性上,“人民”很可能反映了所在文本的特性,對(duì)于關(guān)鍵詞或顯著樣本的選擇上,類似于“民主制”這樣的詞就會(huì)給予較大的權(quán)重,這種權(quán)重又稱為“逆文檔頻率”(Inverse Document Frequency,縮寫為IDF)。IDF和我們之前討論的TF相乘就得到一個(gè)TF-IDF值,這個(gè)值越大,就說明所提取的詞或樣本重要性越高,對(duì)我們選取的樣本是否顯著有重要的參考。
四、文本分類特征選擇法
上面我們討論TF-IDF在有效評(píng)估關(guān)鍵詞在文本集或者一個(gè)語料庫(kù)中一份文件的重要程度,但在文本分類中單純用這個(gè)TF-IDF數(shù)值來判斷一個(gè)特征是否有區(qū)分度是不夠的。一方面它沒有考慮特征詞在類間的分布,也就是說選取的特征應(yīng)該在某類出現(xiàn)的頻率多,在其他類別出現(xiàn)的頻率少,即考察各類別文檔頻率的差異。另一方面沒有考慮特征詞在類內(nèi)部文檔中的分布情況,如果僅僅出現(xiàn)在幾個(gè)文檔中,而在此類其他文檔中不出現(xiàn),就證明選取的特征詞不能夠代表這個(gè)類特征。我們從文本中往往可觀察到的量有兩個(gè):詞頻和文檔頻率,這兩個(gè)量是所有統(tǒng)計(jì)方法的基礎(chǔ),上述TF-IDF值用于向量空間模型,進(jìn)行文檔相似度計(jì)算是有用的,但其選擇出來的特征卻不具備類別區(qū)分度,而此時(shí)卡方檢驗(yàn)作為最佳特征選擇方法的優(yōu)勢(shì)就凸顯了出來。
我們?cè)诹信e的實(shí)際例子中看到卡方檢驗(yàn)最基本的思想是通過觀察實(shí)際值與理論值的偏差來確定理論的正確性與否,(前文已對(duì)卡方檢驗(yàn)的實(shí)際操作做了具體說明,此處不再贅述。)先假設(shè)兩個(gè)變量是獨(dú)立的,然后觀察理論值和實(shí)際值的偏差,如偏差足夠小則說明兩變量間確實(shí)是獨(dú)立存在的,此時(shí)可接受原假設(shè);若偏差大到一定程度,以致于不太可能是偶然產(chǎn)生或測(cè)量不精確所致,我們可認(rèn)為兩變量實(shí)際是相關(guān)的,即否定原假設(shè)。在我們對(duì)文本分類的特征做出選擇時(shí),一般用“詞類t和類別c不相干”來做原假設(shè),得出的開方值越大,證明對(duì)原假設(shè)的偏離越大,則得出原假設(shè)的對(duì)立面是正確的。
卡方檢驗(yàn)對(duì)我們?cè)谧隽孔冮g顯著性研究時(shí)起了重要作用,但其“低頻詞缺陷”卻只統(tǒng)計(jì)文檔中是否出現(xiàn)詞,并不考慮出現(xiàn)了多少次,在不知不覺中夸大了低頻詞的作用,最終選擇的詞并不具有代表性,因?yàn)樵谶M(jìn)行特征選擇的時(shí)候篩選掉了那些開方數(shù)小的詞(這些詞其實(shí)是更具代表性的)。所以我們?cè)谶M(jìn)行文檔特征選擇時(shí)要將卡方檢驗(yàn)與詞頻等因素綜合考慮,以確保選取樣本的代表性。
結(jié)論
頻率標(biāo)準(zhǔn)化和卡方檢驗(yàn)現(xiàn)已具體的運(yùn)用到大數(shù)據(jù)運(yùn)營(yíng)場(chǎng)景中,對(duì)語料庫(kù)樣本選擇和變量顯著性的特征統(tǒng)計(jì)也起到重要作用。在語料庫(kù)研究逐步向量化發(fā)展的趨勢(shì)下,本文力圖通過更為通俗易懂的論證使常用語言統(tǒng)計(jì)方法和日常生活更為貼近,將語料庫(kù)研究方法和我們平時(shí)的思維方式聯(lián)系起來,同時(shí)對(duì)文本特征的選取方法研究來說明提取結(jié)果的真正意義,從而準(zhǔn)確描述所得語料庫(kù)樣本的出現(xiàn)和分布情況,對(duì)語料庫(kù)應(yīng)用中統(tǒng)計(jì)方法的深入運(yùn)用提供新的思路。
參考文獻(xiàn):
[1] 劉澤權(quán).《紅樓夢(mèng)》四個(gè)英譯本的譯者風(fēng)格初探——基于語料庫(kù)的統(tǒng)計(jì)與分析[J]. 中國(guó)翻譯,2011(9):3-4.
[2] 韓金龍.語料庫(kù)間多特征相似性的統(tǒng)計(jì)方法研究[J].現(xiàn)代教育技術(shù),2016(8):42-43.
[3] 葛詩(shī)利.語料庫(kù)間詞匯差異的統(tǒng)計(jì)方法研究[J]. 現(xiàn)代外語, 2010(5):37-39.
[4] 魯慶云,劉紅霞. 關(guān)于列聯(lián)表卡方檢驗(yàn)在數(shù)學(xué)教育研究中的使用方法分析[J].統(tǒng)計(jì)與決策, 2008(4):18-19.
[5] 王克非. 雙語對(duì)應(yīng)語料庫(kù)研制與應(yīng)用[M].北京:外語教學(xué)與研究出版社. 2004:45.
[6] 謝益武,郭俊芳,周生寶. 關(guān)聯(lián)規(guī)則相關(guān)性的度量[J]. 計(jì)算機(jī)應(yīng)用,2007(1):12-13.
[7] 陸運(yùn)清. 用pearsons卡方統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)檢驗(yàn)時(shí)應(yīng)注意的問題[J].統(tǒng)計(jì)與決策, 2009(4):19.
[8] 喻國(guó)明,李慧娟. 大數(shù)據(jù)時(shí)代傳播研究中語料庫(kù)分析方法的價(jià)值[J].傳媒, 2014(10):26.
[9] 隋桂嵐,孫利望. 語料庫(kù)、統(tǒng)計(jì)學(xué)與問題分析[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2003(4):6-7.
[10] 方稱宇,陳小力. 頻率統(tǒng)計(jì)在語料庫(kù)中的應(yīng)用[J]. 現(xiàn)代外語,1992(5):12-13.
[11] 李梅秀,Daniel,S.Worlton. 基于語料庫(kù)統(tǒng)計(jì)的“音-形”激活概率及加工機(jī)制[J]. 心理學(xué)探新, 2018(4):20-21。
[12] 郭曙綸. 漢語語料庫(kù)大規(guī)模統(tǒng)計(jì)與小規(guī)模統(tǒng)計(jì)的對(duì)比[R]. 全國(guó)教育教材語言專題學(xué)術(shù)研討會(huì), 2008.
[13] 劉澤權(quán). <紅樓夢(mèng)>中英文語料庫(kù)的創(chuàng)建及應(yīng)用研究[M]. 北京:光明日?qǐng)?bào)出版社. 2010:145.
[14] 梁茂成. 什么是語料庫(kù)語言學(xué)[M]. 上海:上海外語教育出版社.2016:128.
[15] 胡開寶. 語料庫(kù)翻譯學(xué)概論[M]. 上海:上海交通大學(xué)出版社.2011:59.
作者簡(jiǎn)介:禹琳琳(1988-),女,漢族,籍貫:河南鄭州,單位:河南牧業(yè)經(jīng)濟(jì)學(xué)院外國(guó)語學(xué)院,職業(yè):助教,學(xué)位:碩士,研究方向:翻譯,英美文學(xué)。