陳 穎 梁甜甜
(沈陽建筑大學(xué)外國語學(xué)院 遼寧沈陽 110168)
基于語料庫的專門用途英語文體研究
——以土建英語為例
陳 穎 梁甜甜
(沈陽建筑大學(xué)外國語學(xué)院 遼寧沈陽 110168)
本文擬以自建土建英語語料庫為例探討如何使用語料庫詞表、檢索和主題詞功能對專門用途英語的文體特征和語言特點進(jìn)行分析。借助語料庫工具,采用實證手段對目標(biāo)文本的文體特征進(jìn)行定量描寫和定性分析,進(jìn)而可以拓展到對其他領(lǐng)域的專門用途英語文體進(jìn)行分析。
專門用途英語;語料庫;文體
隨著國際間各領(lǐng)域的交往日益加深,專門用途英語順應(yīng)各行業(yè)對英語的特殊需求而產(chǎn)生,各領(lǐng)域?qū)iT行業(yè)對于英語的需求從通用英語逐漸過渡到專門用途英語的需求上。不同學(xué)科的專業(yè)人才需要閱讀大量相關(guān)專業(yè)的英文文獻(xiàn)和書籍來獲取和了解本專業(yè)最前沿的信息,撰寫或發(fā)表的學(xué)術(shù)論文需要符合國際標(biāo)準(zhǔn),參加國際研討會議時需要使用英語對本專業(yè)的理論進(jìn)行探討或者進(jìn)行成果和應(yīng)用方面的說明。但是中國學(xué)者在運(yùn)用英語與本專業(yè)同行進(jìn)行口頭或書面的交流能力方面還存在欠缺。特別是對于某一專業(yè)領(lǐng)域文獻(xiàn)的文體特征還缺乏整體的、系統(tǒng)的、理性的認(rèn)識。專門用途英語文體的特殊功能使其在語言上具有區(qū)別于其他文體的顯著特點。語法上正確的句子不一定是特定交際場合里最得體的語句。文體規(guī)范就是要解決語言運(yùn)用里的優(yōu)化問題,說明在若干個準(zhǔn)確的用法中哪一種用法最適合特定語言的交際目的[1]。
為了詳細(xì)說明各類文體的語言特點,研究者們一直采用比較或分類分析的方法對各類文體的語言特征進(jìn)行詳細(xì)的觀察和研究。在對文體特征進(jìn)行描述時鮮見準(zhǔn)確數(shù)據(jù)支持,通常使用如“多”“少”“常常”等類似的模糊詞語。語料庫語言學(xué)為語言學(xué)研究提供了一種全新的研究思路,它以真實的語言數(shù)據(jù)位研究對象,從宏觀的角度對大數(shù)量的語言事實進(jìn)行分析,從中尋找語言使用的規(guī)律;在語言分析方面采用概率法,以實際使用中的語言現(xiàn)象的出現(xiàn)頻率為依據(jù)建立語法分析(楊慧中,2004,4)。
本文擬以自建土建英語語料庫為例探討如何使用語料庫對專門用途英語的文體特征和語言特點進(jìn)行分析。借助語料庫檢索工具,采用實證手段對目標(biāo)文本的文體特征進(jìn)行定量描寫和定性分析,進(jìn)而可以拓展到對其他領(lǐng)域的專門用途英語文體進(jìn)行分析。
基于語料庫的語言研究通常采取定性和定量相結(jié)合的研究方法,利用計算機(jī)強(qiáng)大的計算和信息處理功能,快速、便捷、徹底的在語料庫中對所需要的內(nèi)容進(jìn)行檢索,并根據(jù)檢索結(jié)果和統(tǒng)計數(shù)據(jù)進(jìn)行綜合觀察,從而發(fā)現(xiàn)語言的真實特點,例如目標(biāo)文本的用詞特點、語法特征和語言風(fēng)格等。本文使用Wordsmith軟件對目標(biāo)文本的形式特征進(jìn)行考察和數(shù)據(jù)統(tǒng)計。
文本的形式特征主要包括:文件的字節(jié)數(shù)(bytes)型符數(shù)(tokens),類符(types),類符/型符比(type/token ratio),標(biāo)準(zhǔn)化類符/型符比(standard type/token ratio),平均詞長(average word length),句子數(shù)(sentences),平均句長(sentence length),句長標(biāo)準(zhǔn)差(standard deviation of sentence length),段落數(shù)(paragraphs),平均段落長(paragraph length),段落長標(biāo)準(zhǔn)差等(standard deviation of paragraph length)(楊惠中,2002)。
目標(biāo)文本語篇的大小或長度可以依據(jù)文本的字節(jié)數(shù)、型符數(shù)和句子數(shù)判斷。為了了解某一專門用途英語的用詞特點可以利用頻次計算型/次。根據(jù)文本的型符數(shù)和類符數(shù)可以進(jìn)行詞匯變化程度分析。一般來說,型/次比值越高,使用的詞形就越多,意味著文本使用了比較多樣的詞匯,重復(fù)詞較少。比值小則說明文本的詞匯有限,經(jīng)常使用同樣的詞匯。但簡單的計算型/次比不一定能反映出不同文本中的詞匯變化度。因為詞匯總是相對有限的,因而文本越短,型/次比就會相對越高。文本長了,詞匯被重復(fù)使用,型/次比就會降低。為此,為了使型/次比有可能性,可運(yùn)用wordsmith做標(biāo)準(zhǔn)化處理,對文本的每1000個詞的型/次比都依次重新計算,最后算出各個1000詞的平均型/次比,即標(biāo)準(zhǔn)型/次比,據(jù)此可以判斷詞語使用的多樣性程度。
高頻出現(xiàn)的核心詞匯可以幫助區(qū)分不同的文本類型。運(yùn)用檢索工具對具體語言項的詞形出現(xiàn)頻次進(jìn)行統(tǒng)計,觀察排在最前面的詞。不同文體語料中抽取的詞表的高頻詞匯差異顯著。因此某些詞類在不同文體文本中出現(xiàn)頻率上的差異可以作為判別不同文體的主要標(biāo)志。利用詞匯頻率(包括使用頻率、覆蓋率和分布率)的統(tǒng)計對目標(biāo)文本可以進(jìn)行體裁及體裁差異分析[2]。
在語料庫分析中,主題詞指在單篇或多篇語篇中具有超高復(fù)現(xiàn)頻率的詞匯。利用檢索軟件提取專門用途英語語篇中的專業(yè)詞匯進(jìn)行主題詞分析,可以得出該語篇的主題相關(guān)性。語篇的主題取決于該詞在與之相對比的參照語料庫中的出現(xiàn)情況。選取某一參照語料庫(長于被檢索文本)與觀察語料庫進(jìn)行對比,生成主題詞表。通過表中排在較前的主題詞,可以得到該文本的關(guān)鍵信息。在某個特殊的科學(xué)領(lǐng)域里時,這些詞匯具有特定的含義,有些詞匯甚至僅在其特定的領(lǐng)域里使用。通過進(jìn)一步觀察這些詞語在多個文本中的分布及內(nèi)部意義和關(guān)系,可獲得某一知識領(lǐng)域的詞句集合相互聯(lián)系的概念群。
下面以自建土建英語語料庫為例,利用Wordsmith等工具對文本進(jìn)行分析,自動生成詞表和相關(guān)信息(如表1所示)。
表1數(shù)據(jù)表明,土建英語庫中型符數(shù)為498,174,類符數(shù)為28,497 。為判斷詞形使用多少,根據(jù)表2計算型/次比為5.82??紤]到BNC的平均標(biāo)準(zhǔn)型/次比為43.02 ,結(jié)果表明BNC的內(nèi)容覆蓋面較廣,需要較多的詞型,而土建英語庫中詞型變化少,表明語料庫圍繞土木行業(yè)建設(shè),用詞比較集中,可見專業(yè)性詞匯比通用性詞匯應(yīng)用范圍要窄一些。
土建英語庫中文本的平均詞長是5.21,表明語料庫的另一個特點:它的短詞數(shù)目較少,而長詞的數(shù)目較多。數(shù)據(jù)顯示出的平均句長是22.15,這意味著土建英語整體上句式要長,句子結(jié)構(gòu)也略復(fù)雜。長句能夠表達(dá)較為復(fù)雜的概念,準(zhǔn)確傳遞表達(dá)信息,多出現(xiàn)在
表1 土建英語文本總體統(tǒng)計數(shù)據(jù)(部分)
表2
書面語和正式場合中。土木英語屬于科技文體,因此長句所占比例較大。
將土建英語語料庫中最顯著的名詞檢索排序。由表3可以看出:所列出的土建英語當(dāng)中前10個最常用的名詞,完全與土建專業(yè)密切相關(guān),可見不同文體在常用詞匯的使用方面有著顯著地不同。這說明專門用途英語在詞匯的選用方面有相當(dāng)區(qū)別,因此在學(xué)習(xí)和使用專門用途的詞匯時需要特別注意。
G212
A
1000-9795(2014)08-000272-02
陳 穎(1976-),女,遼寧撫順人,副教授,研究方向:語料庫語言學(xué)。
沈陽建筑大學(xué)青年基金項目(2013211)。