王 悅
(天津師范大學外國語學院,天津 300387)
主題學研究作為比較文學平行研究的重要分支,是中西文學文化交流互鑒的重要切入點。傳統(tǒng)意義上,人們對主題的獲取主要依靠人的直覺或邏輯概括,[1](P451)主題通常體現(xiàn)在人物和情節(jié)上。[2](P174)但這種傳統(tǒng)“文本細讀”方式很難做到文本信息的全面覆蓋,尤其當涉及多個文本或文本規(guī)模較大時,準確性和處理效率將進一步降低。當前,隨著“新文科”建設(shè)的不斷推進,計算機以其快速、準確以及大規(guī)模處理能力為包括主題學在內(nèi)的各類人文研究打開了新視野,展現(xiàn)出廣闊的研究前景。海斯(Heise)在2017 年的美國比較文學協(xié)會(ACLA)報告的開篇中也曾反復指出,當前的比較文學研究更加多元,更加接近世界文學,未來的比較文學面臨的最大挑戰(zhàn)是人文研究版圖的快速重塑,需要在繼續(xù)劃清學科邊界的同時加強跨學科、新媒體融合和數(shù)字量化研究。[3](P1-7)數(shù)字化研究已經(jīng)成為當前比較文學研究的重要方向,而“計算批評”作為“數(shù)字人文”研究的嶄新路徑,也開始引起學界的關(guān)注和探索。
2000年莫萊蒂(Moretti)在《世界文學猜想》[4](P54-68)一文中第一次提出了“遠讀”概念,使文學研究獲得一種“鳥瞰式的宏觀視野”。[5](P9)該范式顛覆性地革新了文學研究傳統(tǒng)的“文本細讀”范式,提出不直接閱讀文本,以犧牲細節(jié)的豐富性為代價,獲得一種對系統(tǒng)的整體理解,潛藏著一種對文學研究中文本細讀的經(jīng)典方法的顛覆性挑戰(zhàn)。[6](P178)如都嵐嵐教授所言,“遠讀實踐不僅為世界文學提出了切實可行的研究路徑,而且推動了文學研究與計算機技術(shù)交叉的趨勢”。[7](P191)過去的20年間,各大學和研究機構(gòu)紛紛開始建立數(shù)字人文實驗室,極大地擴大了影響研究的范圍和視角,提高了研究精度。
但是,隨著“數(shù)字人文”研究的不斷深入,在巨大的人力物力投入的背后,也有許多質(zhì)疑的聲音。布羅姆(Harold Bloom)在《紐約時報》上曾言稱莫萊蒂是“荒謬的”,小說、詩歌、戲劇等文學帶給我們的不是冷冰冰的數(shù)據(jù),而是指引我們走向充滿智慧的哲理性的思考,而定量研究將文學從智慧貶為信息。[8](P218)斯皮瓦克(Gayatri Spivak)也認為文學史不是一大堆事實性數(shù)據(jù)的羅列,而是像百科全書一樣復雜。許多學者認為莫萊蒂主張放棄對單一文本的閱讀是只見“森林”,不見“樹木”的做法,[9](P191)他們擔心遠讀會取代文本細讀的樂趣。甚至莫萊蒂本人也曾在2016年的訪談中感嘆,“數(shù)字人文研究的成果要低于預期”。[10](P37)對“數(shù)字人文”研究成果的失望使莫萊蒂在2016年提出了“計算批評”[10](P33)這一概念,試圖探索數(shù)字技術(shù)與文學研究融合的新模式。
“計算批評”的概念柔和了“數(shù)字人文”徹底革命人文研究方法的做法,它不否認和拋棄傳統(tǒng)的人文批評方法,恢復了文學文本的核心地位,“從而消解了文學闡釋和經(jīng)驗研究之間由來已久的敵意”。[11](P181)這種數(shù)字化研究不追求世界范圍內(nèi)的宏大圖景,而是更加聚焦作品文本特征的挖掘和比較,因此也被稱為“中距離閱讀”。日本現(xiàn)代文學研究者霍伊特·朗(Hoyt Long)和美國和亞太地區(qū)文學研究學者蘇真(Richard Jean So)建立的芝加哥大學文本實驗室,在“遠讀”的基礎(chǔ)上提出一種“可伸縮閱讀”(Scalable Reading)的概念,即“利用一系列工具和闡釋方法,通過多尺度的‘透鏡’來閱讀和分析文本文檔”,[11](P182)進一步將“數(shù)字人文”推向“計算批評”。這種研究在立足人文學科自身方法的同時,保持人文領(lǐng)域?qū)?shù)字時代的開放性,是一種數(shù)據(jù)驅(qū)動和算法支持的人文研究。
本文選擇了法國文學大師加繆出版于1947 年的《鼠疫》和中國知名作家遲子建2009年出版的描寫20世紀三十年代哈爾濱鼠疫災害的《白雪烏鴉》這兩部“存在主義”作品作為分析文本,選取Wordsmith 8.0,Editplus,Antsegment 和Excel 作為主要研究工具,對兩部小說進行了全文本數(shù)據(jù)考察和情感極性分析。
(一)研究模型建立 傳統(tǒng)意義來看,主題學研究大多從人物和情節(jié)入手?,F(xiàn)有研究對這兩部作品進行的主題分析均采用“人物-主題”的分析模式,基于“文本細讀”進行定性研究,聚焦在“里厄醫(yī)生”“伍連德醫(yī)生”“朗貝爾”“柯塔爾”“太監(jiān)翟役生”“于秀晴”“喜歲”等典型人物的形象分析上。這種關(guān)注個體人物分析的方式可能會忽略整部作品作為一個整體表現(xiàn)出的作品情緒。但如果采用大數(shù)據(jù)分析模式,對人物名稱進行提取很難形成明顯趨勢,情節(jié)方面作為可抽取指標的詞類過于復雜和多元,也較難捕捉。所以,我們需要對統(tǒng)計指標進行重新思考。
情感極性分析是基于文本的一種數(shù)據(jù)挖掘分析模式,指對文本的傾向性和觀點態(tài)度的分析挖掘,也稱為傾向性分析,包括情感的極性和強度兩個維度。按任務(wù)粒度可劃分為詞語級情感分析、語句級情感分析和篇章級情感分析。[12](P78)語料庫主題學研究主要是基于詞頻統(tǒng)計進行的。這種研究模式下,認為文本是由主題構(gòu)成的,主題卻是由詞語構(gòu)成的。當一些具有語義內(nèi)容的實義詞在多個文本中頻繁出現(xiàn)時,便可能形成一個主題。[1](P452)詞語級的情感分析主要基于兩類詞匯進行,即屬性詞和情感詞。屬性詞是關(guān)于描述主體的部位、屬性、性能等方面的詞語,如外觀、價格等;情感詞是對主題或其特征發(fā)表褒貶觀點的詞語,如好、不錯、糟糕等。[13](P1)文學文本中,屬性詞和情感詞通常不會成對或相鄰出現(xiàn),因此關(guān)聯(lián)性較弱。所以本文選取了情感詞這一更加確定并凸顯的詞類進行提取分析。
在生成的兩部作品的情感詞頻表的基礎(chǔ)上,我們手動篩選出情感詞,并將他們分別歸入包括正極性、弱正極性、弱負極性、負極性四個情感極性的17個情感子極性中,具體極性架構(gòu)見圖1:
(二)研究步驟 由于兩部作品書寫語言不同,而漢語和法語的分詞機制不同可能對最后的詞頻統(tǒng)計對比造成誤差。漢語語料的詞數(shù)和字數(shù)存在較大差距,和英語材料進行對比時詞頻統(tǒng)計的可比性將有所降低。因此本文選取了上海譯文出版社2013 年出版的《鼠疫》中文版和人民文學出版社2010 年出版的《白雪烏鴉》中文版作為建庫文本,來統(tǒng)一文本語言。
1.語料庫建立
首先,使用EditPlus 軟件對原始文本進行降噪處理,使用AntSegment軟件對文本進行分詞處理,最終導入WordSmith8.0生成兩個可比語料庫。其中《鼠疫》庫容486674詞,標準類符型符比(STTR)44.15%,平均句長9.45;《白雪烏鴉》庫容553200 詞,標準類符型符比(STTR)55.43%,平均句長16.95。總的來看,庫容詞數(shù)相當,可比性較強,《白雪烏鴉》的詞類稍顯豐富。使用WordSmith8.0詞表功能生成兩部作品的詞頻表(Word list),最低詞頻設(shè)定為8。生成的兩個詞表中,《鼠疫》詞頻大于8次的詞條2658個,《白雪烏鴉》2919個,兩部作品生成的有效詞匯類符數(shù)量大致相當,可比性較強。
2.情感極性聚類處理
在WordSmith 生成詞表的基礎(chǔ)上,篩選出《鼠疫》中情感詞135個,《白雪烏鴉》中情感詞99個。依照情感極性架構(gòu)(圖1),我們將兩部作品中的情感詞匯進行聚類處理,并計算出每個子極性詞匯的聚類總詞頻。從統(tǒng)計結(jié)果來看,《白雪烏鴉》中的正極性總詞頻(1272)略多于負極性總詞頻(1228),而《鼠疫》中的負極總詞頻(1636)略多于正極性總詞頻(1562),這說明后者的整體情感氛圍較為低沉,而前者情感氛圍則較為溫暖。另外,在生成的總詞表中,《白雪烏鴉》出現(xiàn)大于8 次的類符數(shù)較之《鼠疫》多出261 個,但生成的情感詞匯表中,《鼠疫》中的情感詞匯總詞頻卻多于《白雪烏鴉》,這表明相比之下,《鼠疫》這部作品的情感表達更為頻繁和密集。此外,兩部作品中的情感子極性分布也體現(xiàn)出較大差異性,所以我們需要生成情感子極性分布圖來進行更進一步的觀察。
3.情感極性分析
將兩部作品統(tǒng)計出的聚類情感詞頻數(shù)據(jù)導入Excel 軟件,生成情感正負極分布餅形圖和子極性分布雷達圖(圖2、圖3)。我們可以看到,《白雪烏鴉》中的正極性情感詞匯占比52%,明顯多于《鼠疫》中的41%,這表示《白雪烏鴉》這部作品的情感表達較為積極外顯。而《鼠疫》中的弱極性情感表達(33%)則明顯多于《白雪烏鴉》(23%),說明《鼠疫》中的情感表達較為含蓄內(nèi)斂,也就是說《鼠疫》在情感表達方面的表述更加理智和冷靜。負極性情感詞匯在兩部作品中的占比大致相當,表示兩部作品對悲傷和痛苦的直接表達程度大致相同。
圖2 《鼠疫》情感詞匯子極性分布圖
圖3《白雪烏鴉》情感詞匯子極性分布圖
在情感詞匯子極性分布圖(圖2、圖3)中,我們可以看到更精確的情感構(gòu)成情況。首先,在正向極性一側(cè),《白雪烏鴉》中詞頻數(shù)最高的四個子極性為高興(464)、肯定(338)、喜愛(316)和憧憬(70);《鼠疫》中詞頻數(shù)最高的三個子極性為高興(558)、肯定(208)、反抗(198)和喜愛(180)。我們確實可以看到,《白雪烏鴉》這部作品更加凸顯“憧憬”這種情感,更著重體現(xiàn)了絕望中的希望和溫情。而《鼠疫》中“反抗”這個子極性卻非常突出,《白雪烏鴉》中“反抗”這個子極性基本沒有出現(xiàn),詞頻總數(shù)為零,而且《鼠疫》中“勇氣”子極性詞頻總數(shù)(154)也明顯多于《白雪烏鴉》(28),因此《鼠疫》中一個較為突出的主題就是面對無序荒誕世界所進行的希緒弗斯式的反抗。這兩方面的突出數(shù)據(jù)與之前“文本細讀”模式下得出的結(jié)論基本一致。
但我們也發(fā)現(xiàn)了一些模糊地帶和新的主題分支。現(xiàn)有研究普遍認為《鼠疫》的主題相對冷峻,而《白雪烏鴉》則更多地表達“苦難中的溫情”以及“對死亡的終極關(guān)懷”。[14](P39-43)但從數(shù)據(jù)上來看,《鼠疫》中表達“憧憬”的總詞頻為136,占到正向總詞頻的8.7%,而《白雪烏鴉》中“憧憬”子極性詞頻總數(shù)為70,在正向總詞頻中的占比僅為5.5%。事實上,《鼠疫》中也表達了憧憬和希望的主題,而且占比高于《白雪烏鴉》,只是由于《鼠疫》中的情感極性較為豐富,在文本細讀過程中很難發(fā)現(xiàn)。除此之外,在兩部作品情感極性的對比中,我們可以看到“理性”這一子極性也存在巨大差異?!妒笠摺分蟹磸统霈F(xiàn)“冷靜”“耐心”“理智”等表現(xiàn)理性的情感詞,占到正向總詞頻的6.3%左右,但《白雪烏鴉》中卻沒有明顯體現(xiàn)。這就構(gòu)成了《鼠疫》中另一個差異性主題,即西方民族在重大危機面前的個人智慧和理性,這與西方文明從文藝復興到啟蒙運動建立起的理性主義文化是十分契合的,同時這與中國的集體主義人文關(guān)懷也存在顯著差異,這一點在現(xiàn)有的作品主題分析中則很少提及。
相對正極性詞匯一側(cè),負極性詞匯一側(cè)體現(xiàn)出更大的差異性,蘊藏了更多的差異性主題?!栋籽貘f》和《鼠疫》中“悲傷”這個子極性都占到了最大份額,表明兩部作品都表達了人類面臨疫情和死亡時所表現(xiàn)出了共通的悲傷情緒。但《白雪烏鴉》中更加突出“恐懼”和“憤怒”,詞頻總數(shù)分別為318和138,在負極性一側(cè)占比28.2%和11.2%。而《鼠疫》中更為突出的子極性則為“痛苦”和“忍受”,詞頻總數(shù)分別為390和198,在負極性一側(cè)占比23.8%和12.1%。除此之外,《鼠疫》中還出現(xiàn)了《白雪烏鴉》中很少出現(xiàn)的兩個情感子極性,“孤獨”和“焦慮”。綜合負極性詞匯一側(cè)我們可以看到,在情緒的表達方面兩部作品存在巨大差異,《白雪烏鴉》中的負面情緒表達較為外顯,而《鼠疫》中的負面情緒更多體現(xiàn)在個體人物內(nèi)心,較為內(nèi)斂。
在語料庫文本挖掘工具的幫助下,我們發(fā)現(xiàn)《白雪烏鴉》和《鼠疫》這兩部同題材的中西疫情小說雖然都是基于重大災難這一母題展開,卻體現(xiàn)出“理性”和“感性”、“內(nèi)”和“外”、“散”和“聚”的異質(zhì)主題,折射出中西方民族的異質(zhì)文化身份和價值體系:《白雪烏鴉》中的人物更加感性,面對苦難更傾向于在傾訴中獲得慰藉和希望,體現(xiàn)為集體主義精神;而《鼠疫》中人們則表現(xiàn)出更多的理性力量、孤獨的感受以及對苦難的忍受,體現(xiàn)為個人主義精神。這些結(jié)論在現(xiàn)有研究中都鮮有提及,在一定程度上體現(xiàn)了“計算批評”主題學研究對現(xiàn)有研究范式的補充作用和方法論意義。另外,此次研究拋棄了較為成熟的以“人物”和“情節(jié)”構(gòu)建作品主題的方式,嘗試從“情感”角度提取作品主題,進行了主題學“計算批評”領(lǐng)域的進一步探索。
“遠讀”概念催生的大數(shù)據(jù)研究方法推動了“計算批評”研究范式的發(fā)展。數(shù)字時代來臨后,研究者有限的精力與幾乎無窮的文本之間的矛盾更加突出。[6](P180)借助計算機技術(shù),我們可以伸縮文學觀察批評的視野,在“細讀”和“遠讀”之間建立起一座橋梁?!皵?shù)字人文”研究方法不是對傳統(tǒng)文學研究方法的替代和拋棄,而是多維度補充。正如紐約城市大學教授理查德·麥克斯威爾曾提到的那樣:“莫萊蒂的《歐洲小說地圖》關(guān)鍵并不在于他所說的一切都正確無誤,而在于它開啟了討論的空間”。[8](P215)雖然當前“計算批評”文學研究還不夠成熟,但這并不妨礙它成為文學研究的重要研究方向。