中圖分類號:H319.3 文獻標識碼:A
摘要:計算機和網(wǎng)絡技術的迅速發(fā)展和一些優(yōu)秀的電子語料庫索引分析軟件的出現(xiàn)使電子文本的收集變得簡便而快捷,也使對語料庫的分析和深入研究成為可能。近年來,已有個別教師開始嘗試利用電子語料庫工具來輔助教學和科研。本文簡單介紹了電子語料庫的發(fā)展歷程、常用統(tǒng)計分析參數(shù)和原理以及幾個常用的語料庫索引分析軟件。
關鍵詞:電子語料庫;語料庫索引分析軟件
電子語料庫是指按照一定的語言學原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運用文本或話語片段而建成的具有一定容量的大型電子文庫。電子語料庫最重要的特點是能迅速且精確地呈現(xiàn)出與輸入關鍵詞有關的海量真實語言情境,并以KWIC(Key Words In Context)等形象的方式呈現(xiàn)。目前電子語料庫已廣泛應用于詞典編纂、語言學研究以及大規(guī)模語言測試的命題中,有些教師也開始嘗試將其運用于教學和科研。
一、語料庫的發(fā)展歷程
20世紀50年代以前,語料庫這個概念就已經存在。但是,這一時期的語料庫主要是人工收集起來的紙質文本材料,與今天所說的電子語料庫有很大的區(qū)別。這一時期主要是用人工方法對大量的紙質文本材料進行索引和統(tǒng)計,因而需要耗費大量的人力和時間,速度非常慢,效率低下。
20世紀50年代以后,計算機已經在一些科學研究領域得到應用。這一時期,計算機成為研究語料庫的有力工具。計算機和電子語料有機結合形成了效率較高的電子語料庫管理索引系統(tǒng)。
20世紀90年代以來,計算機的性能有了極大的提高,價格逐步下降,因特網(wǎng)的應用日趨廣泛,網(wǎng)絡上的電子文本材料數(shù)量飛速增長,將紙質文本材料電子化的各種設備逐漸普及,一些優(yōu)秀的電子語料庫分析統(tǒng)計軟件也被開發(fā)出來,這使電子文本的收集和分析變得簡便而快捷,一些較為知名的大型語料庫也開始出現(xiàn)。近年來,隨著計算機在教育領域的迅速普及,有個別語言教師特別是英語教師也開始嘗試利用電子語料庫工具來輔助教學和科研。
二、電子語料庫的常用統(tǒng)計分析參數(shù)
1、標準化類符形符比
形符數(shù)指語料中的單詞總數(shù),同一個單詞出現(xiàn)多次需要多次計數(shù)。類符數(shù)指語料中的單詞形態(tài)數(shù)目,若同一個單詞出現(xiàn)多次只能計數(shù)一次。將研究分析范圍內的語料分成等長的若干部分,先計算出各個部分的類符數(shù)與形符數(shù)的比值,再將這些比值取算術平均值,就得到研究范圍內語料的標準化類符形符比。該參數(shù)可以較好地反映出研究范圍內語料的用詞變化性,標準化類符形符比越高則用詞變化性越強。
2、平均詞長與平均句長
平均詞長是指語料中出現(xiàn)的形符的詞長的算術平均值。平均句長是指語料中全部句子中所包含形符數(shù)值的算術平均值。這兩個參數(shù)在語料分析與研究中也有重要參考意義。
3、詞頻、關鍵詞和關鍵性
詞頻是指語料中每一個類符出現(xiàn)的頻率。關鍵詞是指與某一標準相比其頻率明顯偏高的詞看,偏高的程度就是其關鍵性。僅因為某一特定類符在語料中的詞頻顯著地高就將其判定為關鍵詞是不可取的,還要看其在參照語料庫中的詞頻,而參照語料庫的規(guī)模要足夠大。
一般來說,我們用x2值來表示某一特定關鍵詞的關鍵性:
x2=(|fn-cm|-(f+c+m+n)/2)(f+c+m+n)/((f+n)(f+m)(f+c)(m+n))
其中,f代表某一單詞在研究范圍內的語料中的詞頻,c代表該單詞在參照語料庫中的詞頻,m代表研究范圍內的語料的形符總數(shù), c代表參照語料庫的形符總數(shù)。
一般來說,如果一個單詞的x。2值大于3.8,我們便可認定其在研究范圍內的語料中具有較為顯著的關鍵性。
4、搭配詞與搭配力
英國伯明翰大學的辛克萊教授認為搭配是兩個或兩個以上的詞在文本中很短距離內的共現(xiàn)。這一定義使得設計程序判斷某一特定單詞的搭配詞及兩者的搭配力變得可能。
我們一般用Z值來表征搭配力。表1是通過檢索得到的某單詞在某語料庫中的語境塊。每個單元格是一個形符,行數(shù)為t,左右跨距均為s,假設該語料庫的形符數(shù)目為n。Lij在該語料庫中共出現(xiàn)m次,則Lij的形符在該語料庫全部形符中的占比是r=m/n。Lij在該語境塊中的期望出現(xiàn)次數(shù)為e=mt(2s+1)/n。假設語境塊中一共有c個與Lij相同的形符,則我們可以求出Lij在表1所示的語境塊中分布的標準差SD=(r(1-r)t(2s+1))1/2。Z=(c-e)/SD。如果Z大于或等于2,則可以認為Lij與W之間的搭配力顯著。