亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語料庫研究的常用方法

        2016-11-16 13:47:55孫若紅
        關鍵詞:互信息頻數(shù)語料庫

        孫若紅,劉 巖

        (沈陽師范大學 外國語學院,遼寧 沈陽 110034;沈陽工程學院 公共外語教學部,遼寧 沈陽 110136)

        語料庫研究的常用方法

        孫若紅1,劉 巖2

        (沈陽師范大學 外國語學院,遼寧 沈陽 110034;沈陽工程學院 公共外語教學部,遼寧 沈陽 110136)

        語料庫語言學中的量化不僅僅是語言特征的簡單計數(shù),而是對復雜的數(shù)據(jù)進行精確的數(shù)學分析,從雜亂的數(shù)據(jù)中尋找規(guī)律,力求比較確切地揭示不同體裁的文本、甚至是不同語言之間真正存在的差異。語料庫相關研究中應用的基本方法主要有詞語索引以及頻數(shù)的標準化、卡方檢驗、Z值、T值和M I值計算等常用的統(tǒng)計方法。

        詞語索引;頻數(shù)的標準化;卡方檢驗;Z值;T值;M I值

        語料庫語言研究的主要特點是定量與定性分析相結合,因為語料庫收集了大量的自然語言文本,能夠為定性分析提供客觀的數(shù)據(jù)支持。但語料庫語言學中的量化不僅僅是語言特征的簡單計數(shù),而是對復雜的數(shù)據(jù)進行精確的數(shù)學分析,從雜亂的數(shù)據(jù)中尋找規(guī)律,力求比較確切地揭示不同體裁的文本、甚至是不同語言之間真正存在的差異,而不是因抽樣導致的偶然現(xiàn)象,這就要用到各種不同的研究方法。因此,本文主要介紹語料庫相關研究中應用的基本方法,如詞語索引以及頻數(shù)的標準化、卡方檢驗、Z值、T值和MI值計算等常用的統(tǒng)計方法。

        一、詞語索引

        詞語索引是最基本的語料庫分析手段,大多數(shù)研究都是通過觀察和分析導出的索引行來找出語言規(guī)律并對其進行解釋的。那么,常用的語料庫檢索工具有哪些?索引行是如何呈現(xiàn)的?從索引行提供的語言數(shù)據(jù)中我們能觀察到什么?

        (一)常用的語料庫檢索工具

        建成語料庫僅僅是完成了語料的收集、整理和加工,基于語料庫的調查研究必須依靠各種檢索工具。目前,我國語料庫研究者應用較多的檢索工具主要有WordSmith Tools和AntConc,當然還有很多功能各異的專用工具或針對專門語料庫設計的檢索軟件。WordSmith是英國利物浦大學語料庫語言學家M.Scott在MicroConcord基礎上重新設計的檢索工具,由英國牛津大學出版社出版。該工具主要有詞表(WordList)、檢索(Concord)和主題詞提?。↘eyWord)等三大功能,提供單詞或短語出現(xiàn)的語境和頻率、文本的主題意義等信息,使研究者可以從不同角度分析詞匯的運用。WordSmith受版權保護,如不購買,只能使用功能受到限制的演示版。AntConc則是一款免費軟件,設計者為日本早稻田大學的Laurence Anthony,其功能與WordSmith類似,既支持簡單檢索,也支持利用正則表達式進行的復雜檢索。

        (二)索引行及其提供的語言信息

        詞語索引是一個被搜索詞語及其所處語境的集合[1]。索引軟件一般以被搜索詞語為中心將索引行顯示在電腦屏幕上,出現(xiàn)在屏幕中間的被搜索詞語稱作節(jié)點詞(node word),有時也被稱作關鍵詞(key word)或搜索詞(search word),它們左邊和右邊的詞匯構成了它們所處的語境(見圖1)。索引行能為我們提供關于語言使用的多種信息:如“典型性”“中心性”、近義詞意義的差別以及意義與型式之間的關系等。

        圖1 詞語索引行樣本

        傳統(tǒng)的語言描述注重區(qū)分某種語言中“正確的”和“不正確的”話語,但卻很少關注實際語言運用中哪些話語經(jīng)常出現(xiàn),哪些話語極少出現(xiàn)。語料庫雖然不能而且也無法決定哪些話語是“正確的”或“不正確的”,但它能夠提供關于語言使用的“中心性”(centrality)和“典型性”(typicality)方面的信息。所謂典型性是指某個單詞或短語常用的意義、搭配或用法,如recipe for的典型意義是其隱喻意義,而不是字面意義。介詞for后面的詞匯多為名詞或名詞短語,它們的意義既有消極的(如disaster、trouble等),也有積極的(如successful learning、happiness、successful relationship等)或中性的(如game-bird stuffings),而且含有消極意義的名詞或短語略多一些。當recipe for具有隱喻意義時,其前面的詞匯通常是BE和限定詞a??梢?,雖然短語recipe for有一系列不同的意義、搭配和語法語境,但它的典型用法是用于“something is a recipe for something bad/good/neutral”這一型式中。

        “中心性”是指某一范疇的最常用的用法,而不是單個的詞匯。例如:在英語中,現(xiàn)在進行時表示現(xiàn)在(如he is listening to music at the moment)、未來(如he is leavingfor NewYork tomorrow)或不表示具體的時間(如she is always complaining)。但是,現(xiàn)在進行時表示未來或不表示具體時間的用法相對較少出現(xiàn),所以指“現(xiàn)在”才是該時態(tài)的中心用法。

        除了“典型性”和“中心性”等語言規(guī)律外,觀察語料庫中近義詞的典型用法可以澄清它們之間意義上的差別。這是詞典無法辦到的,因為詞典是分別定義詞語的,而不是采用對比的方法。例如:詞典對big、large和great三個近義詞的定義是類似的,甚至用其中的一個詞去定義另外兩個詞。雖然這些詞表面看來意義相似,但它們的典型搭配卻在很大程度上存在差異。Biber利用Longman-Lancaster Corpus對上述三個詞右1搭配詞的研究證明了這一點。big常用于表示實際大小,large最常用于表示數(shù)量,而great除與deal搭配表示數(shù)量外,還表示“強度”、“大小”等更廣泛的意義[2]。

        (三)索引行的抽樣

        語料庫研究的優(yōu)勢之一是樣本量大,客觀性強。但是,由于語料庫的規(guī)模不斷擴大,我們也面臨著如何處理大量語料的問題。例如:DISCUSSION在BNC中出現(xiàn)的頻數(shù)為8 356次,索引行數(shù)為8 349行;在COCA中,其出現(xiàn)的頻數(shù)和索引行數(shù)同為33 945,而逐一分析成千上萬個索引行是不可能實現(xiàn)的。這時,我們需要借鑒Sinclair所倡導的對索引行進行抽樣的方法。首先,任意抽取30個索引行,觀察詞語的使用型式;然后,再抽取30行,觀察是否有新的使用型式出現(xiàn);以此類推,直到?jīng)]有新的型式出現(xiàn)為止。

        BNC中DISCUSSION的前30個索引行顯示,緊跟在其后面出現(xiàn)的詞為event,of,with,by,paper;在之后的 30行中,又出現(xiàn)了 on,about,to,that;在61-90行中,除了已出現(xiàn)的部分詞語外,又增加了in,document,whether。仔細分析上述90個索引行,可以總結出下面的規(guī)律:當DISCUSSION后面出現(xiàn)名詞時(如event,paper,document),DISCUSSION作定語,限定后面的名詞;DISCUSSION后面的of,on,about介詞短語說明討論的對象;with短語說明討論的參與者;by短語引出的是討論的主體;that和whether引導同位語從句,說明討論的具體內容。另外兩個詞to與in的出現(xiàn)與DISCUSSION無關,to的出現(xiàn)是動詞cut的要求,“cut…to…”表示“縮減到何種程度”,而in則出現(xiàn)在了短語in principle(原則上,基本上)當中。請看圖1中的索引行例證。

        以上分析表明,Sinclair提出的索引行抽樣方法是切實可行的。我們可以通過觀察少量的索引行形成初步的假設,之后再增加索引行的數(shù)量反復驗證并修正假設,直到最終得出符合語言事實的結論。

        二、語料庫的常用統(tǒng)計方法

        基于語料庫的對比中介語分析(CIA)主要有兩個研究維度:一是中介語與目的語之間的對比分析,二是中介語之間的對比分析。那么,在進行對比中介語分析時如何將定性與定量分析技術結合起來,以使研究結果更科學、更有說服力呢?

        (一)描述統(tǒng)計

        語料庫中樣本的存儲方式是非常靈活的,可以把每個文本作為一個獨立的文件存儲,也可以對文本進行分類,把屬于同一類型的文本作為一個文件存儲。因此,對語料庫所做的描述統(tǒng)計是指對其中每個文本、每一類文本或整個語料庫的總體特征的統(tǒng)計。這些特征包括:文件的大?。╞ytes,字節(jié)數(shù))、文件的形符數(shù)(tokens,單詞的數(shù)量)、類符數(shù)(types,不同單詞的數(shù)量)、類符形符比(type/token ratio)、平均詞長(average word length)、句子數(shù)(sentences)、句長(paragraph length)、句長標準差(standard deviation of sentence length)、段落數(shù)(paragraphs)、段落長度(paragraph length)、段落長標準差(standard deviation of paragraph length)以及按字母數(shù)計算的單詞數(shù)量(如1字母單詞、2字母單詞)等。應用Wordsmith的詞表工具可以進行上述統(tǒng)計分析。

        (二)頻數(shù)統(tǒng)計的標準化

        運用語料庫的方法統(tǒng)計不同文本中某些語言特征的頻率時,確保數(shù)據(jù)的可比性是非常重要的。例如:DISCUSSION一詞在英國國家語料庫(BNC)中出現(xiàn)的頻數(shù)為8 356次,而在美國當代英語語料庫(COCA)中出現(xiàn)的頻數(shù)為33 945次。那么,是否可以說DISCUSSION在美國當代英語語料庫中更常用呢?顯然,這樣的結論是錯誤的,因為COCA的容量約為BNC的4.5倍,DISCUSSION出現(xiàn)的機會更多,簡單地比較原始數(shù)據(jù)無法準確地描述該詞在兩個語料庫中的使用情況。這時,我們可以將原始數(shù)據(jù)“標準化”,也就是計算DISCUSSION在兩個語料庫中出現(xiàn)的“標準化頻數(shù)”,之后就可以比較了。標準化頻數(shù)的計算方法為:用檢索項的實際觀察頻數(shù)(如8 356、33 945)除以總體頻數(shù)(文本或語料庫的總詞數(shù)),然后再乘以1百(1千、1萬、百萬)得到檢索項平均每百(千、萬、百萬)詞的出現(xiàn)頻率。

        (三)頻數(shù)差異檢驗

        在基于語料庫的對比中介語分析中還常常需要檢驗數(shù)據(jù)之間的差異是偶然的,還是具有顯著性。在語料庫語言學中,最常用的方法是卡方檢驗(chi-squared test或x2)。與其他顯著性檢驗相比,卡方檢驗的主要優(yōu)勢在于它無需假定數(shù)據(jù)是正態(tài)分布的,而多數(shù)語言數(shù)據(jù)也恰恰不服從正態(tài)分布[3]??ǚ綑z驗的主要缺點是:當頻數(shù)很小時,它的可靠性很差。所以,在計算卡方值時不能用比例數(shù)據(jù),如百分數(shù)等。

        卡方檢驗比較的是某個語言特征在語料庫中的實際觀察頻數(shù)和預期頻數(shù)之間的差異。預期頻數(shù)與觀察頻數(shù)越接近,觀察頻數(shù)為偶然結果的可能性越大。相反,預期頻數(shù)與觀察頻數(shù)之間的差異越大,觀察頻數(shù)越可能受到了非偶然因素的影響。

        計算卡方值非常方便、實用的工具是梁茂成、李文中、許家金等開發(fā)的 Chi-Square Calculator。DISCUSSION在BNC和COCA中分別出現(xiàn)8 356次和33 945次,那么,這兩個頻數(shù)之間是否存在顯著差異呢?只要打開上述工具的工作表,分別輸入BNC和COCA的總字數(shù),然后在數(shù)據(jù)表中輸入DISCUSSION在兩個語料庫中的頻數(shù),就會得到如圖2所示的卡方值及其對應的顯著性水平的p值。

        圖2 DISCUSSION在BNC和COCA中出現(xiàn)的頻數(shù)比較

        圖中的卡方值為70.2619,p值為0.000,說明DISCUSSION在兩個語料庫中出現(xiàn)的頻率具有顯著差異。

        (四)Z值、T值和MI值

        學習者的心理詞匯不僅僅由單個的詞組成,還包括更大的短語單位。因此,識別語篇中詞語的共現(xiàn)形式和短語對自然語言處理和語言教學具有重要意義。但是,在連續(xù)的語篇中,每個詞都是與其他詞一起出現(xiàn)的,如何確認哪些共現(xiàn)的詞語屬于顯著搭配而不是偶然共現(xiàn)呢?最常用的三個計算搭配顯著性的方法是互信息值(MI值)、Z值(Z-score)和T值(T-score)。

        在語料庫中,一個詞與另外一個詞的互信息值表明兩個詞關系的緊密程度。換句話說,一個詞只與某個詞共現(xiàn),而不會出現(xiàn)在其他詞附近時,其互信息值就會非常大。反之,一個詞與另外一個詞共現(xiàn)頻率很高,但與其他詞的共現(xiàn)頻率也很高,其互信息值就會很小。例如:solve與problem的共現(xiàn)頻率高,互信息值也高,但the與problem的共現(xiàn)頻率很高,互信息值卻很低,說明the也以很高的頻率出現(xiàn)在其他詞附近[4]。Hunston提出互信息值大于“3”的搭配詞為顯著搭配詞[5]。在BNC中,與suggestion一詞構成強搭配的部分動詞及其互信息值如下:refutes(9.20)、refuted(7.52)、refute(7.15)、rejects(6.15)、reject(5.11)、rejected(4.82)。這表明refute和reject的各種形式都是suggestion的顯著搭配詞。

        圖3 按Z值高低排序的搭配結果

        Z值比較的是被研究詞匯(節(jié)點詞)周圍一定語境范圍內(例如:節(jié)點詞右各5個詞)所有搭配詞的實際出現(xiàn)頻數(shù)與它們的期望頻數(shù)之間的差距。Z值越高,某一詞匯與節(jié)點詞之間的搭配力就越強。研究者通常把Z值定為“2”,也就是說,Z值超過2的搭配詞是有顯著意義的搭配詞。圖3是利用BFSUCollocator提取的LOCNESS語料庫(TheLouvainCorpusofNative EnglishEssays)中that一詞的搭配情況。

        從圖中可以看到,Z值較高的that的搭配詞主要是動詞,如argue,agree,assume,admit等,再觀察含節(jié)點詞和搭配詞的索引行,我們發(fā)現(xiàn)這些動詞都出現(xiàn)在節(jié)點詞that的左側,體現(xiàn)了that作為連接詞引出賓語從句這一常見用法。

        通過計算互信息值和Z值可以從語料庫中提取“多詞單位”,即我們通常所說的慣用語和多詞名詞短語?;バ畔⒅岛蚙值的另外一個作用是提取語料庫中詞語的一般搭配形式,進而將某一詞語的不同搭配進行分組,以便確定該詞的不同意義。例如:在BNC中,strong的顯著搭配詞主要有winds,swimmer,supporter,ties,resemblance,attachment,correlation和形容詞immensely等,這些詞與strong的共現(xiàn)頻率相對較高,MI值均大于3。powerful的顯著搭配詞主要有l(wèi)obby,tool,weapon,ally,header,locomotives和形容詞immensely等,它們與powerful的共現(xiàn)頻率和MI值也相對較高。除了形容詞immensely是strong和powerful的共同搭配詞外,其他搭配詞似乎沒有規(guī)律可循。盡管如此,上述搭配詞還是體現(xiàn)了strong和powerful的一些細微差別,有助于提高學習者詞語使用的準確性和地道性。

        如果說MI值測量的是兩個詞語之間聯(lián)系的密切程度,那么T值測量的是詞語搭配的確定性,因為T值計算出的搭配詞以高頻詞為主。T值約定俗成的臨界值為“2”。Z值和T值的差異則體現(xiàn)在以下兩個方面:1.兩者在計算方法上有細小的差異,前者更為簡單。2.Z值用于檢驗小樣本時不夠準確,只適用于大樣本的檢驗;T值即可用于小樣本的檢驗也可用于大樣本的檢驗。但是,在語料庫語言學研究中,個體數(shù)量小于30的小樣本非常少見,屬于大樣本。所以,Z值在實際研究中更為常用。

        三、結語

        MI值、Z值和T值都可用于計算詞語的搭配強度,但它們有各自的優(yōu)缺點。MI值和Z值容易將低頻詞視作某一詞語的強搭配詞,即偏重低頻詞,而T值有偏重高頻詞的問題。因此,我們很難說哪種搭配統(tǒng)計方法更合理。在實際運用中,應結合研究的需要選擇適當?shù)慕y(tǒng)計方法,或兼顧不同的統(tǒng)計方法。

        [1]Sinclair,J.Corpus,Concordance,Collocation[M]. Oxford:Oxford UniversityPress,1991:32.

        [2]Biber,D.et al.Corpus Linguistics[M].北京:外語教學與研究出版社,2000:44-52.

        [3]McEnery,T.&A.Wilson.Corpus Linguistics[M]. Edinburgh:Edinburgh UniversityPress,1996:61-84.

        [4]衛(wèi)乃興,李文中,濮建忠.語料庫應用研究[M].上海:上海外語教育出版社,2005:121.

        [5]Hunston,S.Corpora in Applied Linguistics[M].北京:世界圖書出版公司北京公司,2006:71.

        Methodology of Corpus Research

        Sun Ruohong1,Liu Yan2
        (1.College ofForeign Languages,ShenyangNormal University,ShenyangLiaoning110034;2.Department ofForeign Languages ShenyangInstitute ofEngineering,ShenyangLiaoning110136)

        The quantitative research of corpus linguistics doesn’t mean the simple counting of language characteristics.Rather,it refers to the precise mathematical analysis of data.The purpose of such research is to reveal the differences in language use between different genres oftext or even different languages.The frequentlyused research methods include concordancing and statistical methods like standardized frequency,chi-square test,Z-score,T-score and MI-score.Concordance lines provide a variety of information about language use like“centrality”,“typicality”and the sense differences between synonyms.MI-score,Z-score and T-score are usually used to calculate the strength of collocation,but they have their own advantages and disadvantages.MI-score and Z-score are biased towards low-frequency words,while T-score are biased towards high-frequency words.Therefore,in practice,research needs should be taken into account in the selection of statistical methods,and another way out is to employ different statistical methods.

        concordancing;standardizedfrequency;chi-squaretest;Z-score;T-score;MI-score

        H 313

        A

        1674-5450(2016)02-0072-04

        2015-10-25

        教育部人文社會科學研究規(guī)劃基金項目(11YJA740078)

        孫若紅,女,天津人,沈陽師范大學教授,主要從事語料庫語言學及英語教學研究。

        【責任編輯:趙踐責任校對:詹麗】

        猜你喜歡
        互信息頻數(shù)語料庫
        《語料庫翻譯文體學》評介
        把課文的優(yōu)美表達存進語料庫
        中考頻數(shù)分布直方圖題型展示
        學習制作頻數(shù)分布直方圖三部曲
        基于互信息的貝葉斯網(wǎng)絡結構學習
        聯(lián)合互信息水下目標特征選擇算法
        頻數(shù)和頻率
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        改進的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        国产熟女内射oooo| 国产精品自线一区二区三区| 中文字幕亚洲视频一区| 国产偷国产偷亚洲高清视频| 日韩视频在线观看| 少妇激情一区二区三区视频| 久久人人爽人人爽人人av| 粗了大了 整进去好爽视频| 无码日韩AⅤ一区二区三区| 久久亚洲私人国产精品va| 欧美亚洲日本国产综合在线| 无限看片在线版免费视频大全| 无码不卡一区二区三区在线观看| 波多野无码AV中文专区| 一区二区亚洲精美视频| 少妇下面好紧好多水真爽| 亚洲av综合国产av日韩| 亚洲人成无码区在线观看| 国产欧美日韩综合精品二区| 亚洲h视频| 久久网视频中文字幕综合| 女同性恋亚洲一区二区| 精品国产免费一区二区久久| 国产亚洲自拍日本亚洲| 玩弄放荡人妻少妇系列视频| 精品国产黑色丝袜高跟鞋| 亚洲男人堂色偷偷一区| 激情一区二区三区视频| 国产午夜福利小视频在线观看| 青青久在线视频免费视频| 人妻av无码一区二区三区| 国产成人无码区免费内射一片色欲| 国产精品九九久久一区hh| 高清亚洲成av人片乱码色午夜| 日本a爱视频二区三区| 麻豆国产精品va在线观看不卡| 久久精品国产亚洲av麻| 久久精品国产亚洲AV无码不| 高清不卡av在线播放| 国产自拍av在线观看视频| 色噜噜久久综合伊人一本|