周瑩
摘要:語料庫語言學(xué)的發(fā)展為文體分析開辟了一條新途徑,為研究文學(xué)作品的語言風(fēng)格和主題提供了詳細(xì)的定量依據(jù),并幫助讀者更好地理解原著的思想。借助AntConc語料庫工具,將LOB語料庫作為參考語料庫,利用形符(word tokens)、詞頻(word frequency)、關(guān)鍵詞(keywords)、索引(concordance)等功能對小說《呼嘯山莊》的敘事風(fēng)格,故事情節(jié)、人物性格、語言特征等進(jìn)行分析,為文學(xué)作品鑒賞提供新的解讀視角。
關(guān)鍵詞:呼嘯山莊 ?AntConc LOB語料庫
中圖分類號:I712.074 ?文獻(xiàn)標(biāo)識碼:A ?文章編號:1009-5349(2020)04-0112-02
隨著計(jì)算機(jī)技術(shù)的發(fā)展,語料庫語言學(xué)成為一門新興的學(xué)科,為文體分析開辟了一條新途徑。語料庫工具應(yīng)用的范圍也越來越廣泛,如翻譯研究、語法研究、文體學(xué)研究和詞典開發(fā)等。將語料庫工具應(yīng)用于文學(xué)作品分析,為文學(xué)文本中的語言特征、主題等提供了新的解讀途徑?!逗魢[山莊》作為艾米莉·勃朗特唯一的一部小說,受到國內(nèi)外許多學(xué)者的關(guān)注。但是,大多數(shù)研究都來自學(xué)者個(gè)人的主觀分析。相比之下,基于語料庫的方法比傳統(tǒng)的研究方法更具有客觀性,并且可以更準(zhǔn)確地分析出艾米莉·勃朗特是如何使用語言來揭示主題和描繪作品人物的。本文以LOB語料庫作為參考語料庫,通過AntConc工具中的形符(word tokens)、詞頻(word frequency)、關(guān)鍵詞(keywords)和索引(concordance)等功能依次分析小說情節(jié)、主題、語言特征、人物性格等。
一、數(shù)據(jù)收集
1.觀察語料庫和參考語料庫
根據(jù)Stubbs[1],參考語料庫是比觀察語料庫大得多、且包含相同體裁文本的或者是大型混合的一般語料庫。而英語本族語語料庫使用的是LOB語料庫。LOB語料庫是由500個(gè)文本的英國英語構(gòu)成,整個(gè)語料共有1123452形符(word tokens);因此選擇LOB語料庫作為參考語料庫(reference corpus),選擇《呼嘯山莊》原版英文小說作為觀察語料(observed corpus)?!逗魢[山莊》的英文純文本下載自https://www.gutenberg.org/ebooks/768[2]。
2.語料庫工具
使用語料庫軟件AntConc 3.5.7從觀察語料庫和參考語料庫中收集數(shù)據(jù)信息。這個(gè)工具是由日本早稻田大學(xué)的Laurence Anthon設(shè)計(jì)和開發(fā)的,是一款免費(fèi)的語料庫檢索工具,主要功能包括索引工具(concordance)、詞簇(Clusters)、搭配(Collocates)、詞表(Word List)、關(guān)鍵詞(Keyword List)等,被許多人廣泛地應(yīng)用于語料庫語言學(xué)研究和數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)。
二、數(shù)據(jù)分析與討論
1.形符(word tokens)與類符(word types)比值分析
形符表示在語料庫中出現(xiàn)的所有單詞,而類符表示在語料庫中的單詞類型。借助AntConc工具,可以收集兩個(gè)語料庫中形符與類符的基本統(tǒng)計(jì)信息。觀察語料庫有119398個(gè)形符,而參考語料庫有1123452個(gè)形符。下面是《呼嘯山莊》與LOB語料庫中的形符類符表1:
類符/形符比(Type/Token Ratio,簡稱TTR)指的是特定語料庫中類符數(shù)和形符數(shù)的比率[3] ,它被稱為詞匯密度,能反映文本所使用詞匯的豐富程度。TTR比值越大,說明該文本所使用的詞匯量越多;反之則越少。表1中LOB語料庫的TTR值是3.53,而《呼嘯山莊》中TTR值是7.7。從兩個(gè)語料庫的TTR數(shù)值看,《呼嘯山莊》的詞匯豐富程度是大于LOB語料庫的。然而,文本或語料庫越大,那么其TTR就越小。因此,比較不同大小語料庫的TTR值的意義不大。標(biāo)準(zhǔn)化類符/形符比(Sd. Type/Token Ratio)更適用于不同大小語料庫的詞匯量對比。到目前為止,AntConc還不包括該項(xiàng)功能,可借助wordsmith等語料庫工具進(jìn)一步分析。
2.詞頻分析(word frequency)
高頻詞匯的檢索是運(yùn)用語料庫檢索分析文學(xué)作品的主要方法之一。首先通過單詞表(word list)工具對語料庫中的所有單詞計(jì)數(shù),然后有序地列出語料庫中最常用的單詞。表2提取了《呼嘯山莊》小說中出現(xiàn)頻率最高的50個(gè)單詞。
由表2可以看出,《呼嘯山莊》小說頻繁使用人稱代詞,高頻詞中的人稱代詞多達(dá)9個(gè),其中,人稱代詞“ I(我)”是最常用的詞,這表明《呼嘯山莊》的故事是通過第一人稱來敘述的。而且,人稱代詞“you(你)”的重復(fù)使用表明文本中發(fā)生了很多對話。另外,發(fā)現(xiàn)“he(他)”,“his(他的)”和“him(他)”的發(fā)生次數(shù)(共4485次)比“she(她)”和“her(她)的”的發(fā)生次數(shù)(共2889次)要高得多。同時(shí),前50個(gè)高頻詞中也出現(xiàn)了“mr(先生)”一詞(共312次)。由此可以看出,男性角色在這部小說中占有重要的地位。
表中另外一個(gè)突出的特點(diǎn)是,“Heathcliff”“Linton” “Catherine”等名字出現(xiàn)在前50常用詞中。這意味著這部小說的故事很可能與出現(xiàn)的這些人名有關(guān)。此外,前50個(gè)高頻詞中包含5個(gè)動(dòng)詞:“was”排名第15,“be”排名第26,“is”排名第29,“said”排名第41,“were”排名第44。5個(gè)動(dòng)詞中有3個(gè)為過去時(shí),且出現(xiàn)頻率最高的是“was”,唯一的概念動(dòng)詞“said”也是過去式,這都表示小說中提到的大多數(shù)事物或故事都發(fā)生在過去。
3.關(guān)鍵詞(key words)分析
在語料庫語言學(xué)中,關(guān)鍵詞是在文本或語料庫中數(shù)據(jù)頻率統(tǒng)計(jì)上顯著出現(xiàn)的詞。語料庫軟件將文本的單詞列表與較大參考語料庫的單詞列表進(jìn)行比較,識別出關(guān)鍵詞。在文學(xué)作品中,主題詞有助于分析作品中的基本信息及主要情節(jié)。使用AntConc工具將觀察語料庫(Wuthering Height)與參考語料庫(LOB)進(jìn)行比較,得出排名前15位的常見關(guān)鍵詞,見表3。
從表3可以看出,“I”一詞排在第一位,說明故事是第一人稱來敘述的。在《呼嘯山莊》中,Lockwood是整個(gè)故事的敘述者。他首先以第一人稱的角度講述了自己居住在呼嘯山莊時(shí)的所見所聞。既是小說的敘事者,同時(shí)也是小說中的角色,但故事中發(fā)生的這些活動(dòng)他是沒有參與的。他只是一個(gè)觀察者,客觀而冷靜地描述了過去和現(xiàn)在發(fā)生的事情。因此,Lockwood這個(gè)名字在小說中很少出現(xiàn)。
從關(guān)鍵詞表中,還可以得出有關(guān)小說主題的一些信息??梢郧宄嘏袛喑觥逗魢[山莊》的主要角色。關(guān)鍵詞前10中的出現(xiàn)人名是Heathcliff,Linton和Catherine,可以確定整部小說都是圍繞這三個(gè)人物發(fā)展的。值得我們注意的還有關(guān)鍵詞是“Master(主人)”。這本書講述了三個(gè)主要角色之間的愛情以及Heathcliff的復(fù)仇故事。[4] Heathcliff重新回到呼嘯山莊和畫眉山莊,并最終成為這兩個(gè)地方的主人,因此經(jīng)??吹健癕aster”這個(gè)詞。
4.索引(concordance)分析
索引功能可以幫助搜索特定的關(guān)鍵詞并查看該關(guān)鍵詞所在的上下文。通過這種方式,可以查看事情發(fā)生時(shí)的語境和作者描述人物的語言,從而使讀者更好地理解作品。索引功能搜索關(guān)鍵詞“Heathcliff”,可以清楚地看到他所在的上下文。搜索結(jié)果顯示,與“Heathcliff”相關(guān)的大多數(shù)單詞都是消極的,例如自私、暴力、惡魔等。Heathcliff離開家后,性格變得陰暗且狂野;他非常殘酷,一心只想報(bào)仇。而通過索引功能顯示出來的描述凱瑟琳的詞主要分為兩種:一種用于描述凱瑟琳的性格特征,例如野性、狂熱。另一種則是用于描述凱瑟琳的生活狀態(tài),例如沉默、困惑、憂郁等。這兩種類型的詞充分體現(xiàn)了凱瑟琳的雙重性格,她狂野且渴望荒原,又無法抗拒名利雙收的誘惑;同時(shí)顯示了凱瑟琳失去愛情并離開曠野后的沮喪狀態(tài)。通過索引檢索,小說人物性格特征變得格外清晰。
三、結(jié)語
語料庫分析工具為分析文學(xué)作品提供了新途徑。它為研究文學(xué)作品的語言風(fēng)格和主題提供了詳細(xì)的定量依據(jù),并幫助讀者更好地理解原著的思想。通過對大量數(shù)據(jù)進(jìn)行定量分析,可以更直觀、客觀地解讀文本。當(dāng)然,文本檢索有其自身的局限性。研究人員需要以多種方式去解釋文本,以更好地理解作品。
參考文獻(xiàn):
[1]Stubbs, M. Text and Corpus Linguistics: Computer-Assisted Studies of Language and Culture [M].Cambridge: Blackwell Publishers, 2005.
[2] Bront?, E. Wuthering Heights[OL].http://www.gutenberg.org/etext/768,2007.
[3]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社, 2002.
[4]楊璐,西斯克利夫與凱瑟琳的愛恨情仇[J].世界文學(xué)評論,2010(2):87-91.
責(zé)任編輯:孫瑤