馬燕
摘 ? 要: 本文提出了一種新的、較為簡便的、即基于字層面的文本風格判定方法,即使用兩篇文本中的相同字做相對熵來計算兩篇文本在用字方面的差異。通過對《紅樓夢》前80回和后40回的內部相對熵比較,證明了其方法的可行性。又通過對李伯元的《官場現(xiàn)形記》、《活地獄》和《文明小史》與存在作者爭議的《海上繁華夢》做文本間的相對熵比較,得出了《海上繁華夢》確實不為李伯元所作的結論。
關鍵詞: 相對熵 ? ?作者判定 ? ?《紅樓夢》 ? ?李伯元 ? ?《海上繁華夢》
1.引言
近年來隨著語言研究的現(xiàn)代化,運用計算機和統(tǒng)計學的知識來分析文學作品的問題,已經(jīng)引起了社會科學和計算機科學界的普遍關注(李國強,李瑞芳,2006)。西方文體學界從20世紀30年代就開始關注定量分析,“人們開始利用這種方法去研究圣經(jīng)書籍的著作權以及柏拉圖等古典作家的著作年代,這其實就是在對作家個人風格或時代風格等進行科學的描寫分析的基礎上進行的,”這種研究經(jīng)歷了從最初的由手工計算到運用具有高速的運算能力計算機輔助計算,以實現(xiàn)更大規(guī)模、更加精確的定量分析。
而關于漢語風格的研究應始于20世紀七八十年代,黎運漢認為分析綜合法、比較法和統(tǒng)計法是語言風格研究中常用的三種方法①,國內最早正式倡導建立“計算風格學”的是錢鋒和陳光磊兩位學者,他們主張將計算機技術和數(shù)學方法相結合應用到風格學的研究當中。當然,語言風格研究的應用之一便是對文本作者的考證,如曾受到廣泛關注的《紅樓夢》作者問題等,也有不少的學者從定量分析的角度提出了自己的看法,這在下文會有詳細介紹。
本文提出了一種新的計算文本風格的方法,即借助計算機和統(tǒng)計學的方法,來計算兩篇文本間相同字的相對熵。本文在驗證同一篇文本內部相對熵差異程度的同時,也對不同文本間的相對熵進行了比較,發(fā)現(xiàn)也具有可行性。
2.相對熵
相對熵(relative entropy)又稱KL散度(Kullback-Leibler divergence,簡稱KLD),用以表示兩個概率分布的距離。對一個離散隨機變量的兩個概率分布p和q來說,他們的KL散度定義為:D(p||q)=■(p(x))*log(p(x)/q(x)))。其中p(x)和q(x)為兩個概率分布,相對熵不是嚴格意義上的距離,典型情況下,p表示數(shù)據(jù)的真實分布,q表示數(shù)據(jù)的理論分布、模型分布或p的近似分布。相對熵具有非負性(即D(p||q)≥0)和不對稱性(即D(p||q)≠D(q||p),除非對于所有的x,有p(x)=q(x))。
在自然語言處理時,可以利用相對熵進行分類或者是利用相對熵來衡量兩個隨機分布的差距,當兩個隨機分布相同時,其相對熵為0,當兩個隨機分布的差別增加時,其相對熵也增加。在這里我們使用相同字作為隨機分布的量,首先把一部文本中的相同字的隨機分布作為其真實分布,來分別計算與其他文本中的相同字的分布的距離,其結果越接近,則我們認為這兩篇文本的用字風格越相近,反之,結果越大,則其用字風格越有差距,即提出相對熵越小,則兩篇文本的用字風格越相近,反之,相對熵越大,則其用字風格越有差距的假設。
3.《紅樓夢》的作者判定研究
比較早的用統(tǒng)計的方法來研究《紅樓夢》語言的可以算是瑞典漢學家高本漢(1954),他取了《紅樓夢》中的24個語詞進行統(tǒng)計并得出了前80回和后40回為曹雪芹一人所寫的結論。持同樣觀點的還有美國威斯康星大學的陳炳藻先生,他在1980年6月的首屆國際《紅樓夢》討論會上發(fā)表了《從詞匯統(tǒng)計論證紅樓夢的作者》一文,并在1986年發(fā)表了《電腦在文學上的應用:〈紅樓夢〉與〈兒女英雄傳〉兩書作者用詞的比較》一文,后又出版了《電腦紅學:論〈紅樓夢〉作者》的專著。陳炳藻先生利用計算機對《紅樓夢》前80回和后40回的用字進行了測定,并從數(shù)理統(tǒng)計學的觀點出發(fā),探討《紅樓夢》前后用字的相關程度,由此推斷出后40回也出自曹雪芹之筆的結論(呂光明,2008)。
對此,持不同觀點的學者有蔣文野、王世華、劉鈞杰、陳大康、張衛(wèi)東、劉麗川、嚴安政、俞敏、晁繼周、鄭慶山、黃曉惠等(汪維輝,2010)。陳大康(1987)結合《紅樓夢》各個版本間的比較,采用數(shù)理統(tǒng)計的方法,分別從詞、字、句的角度否定了陳炳藻的說法。他分別對27個專用詞、46個字和89758個句子的句長分布及平均句長等共88個項目進行了考察,不僅否定了前80回和后40回為同一作者的說法,也得出了后四十回的前半部分中含有曹雪芹的少量殘稿。同樣,李賢平(1987)也對陳炳藻的觀點做出了駁斥,他發(fā)表的《<紅樓夢>成書新說》一文中將《紅樓夢》120回看成是120個樣本,以與情節(jié)無關的47個虛詞作為變量,統(tǒng)計出每一回里變量出現(xiàn)的次數(shù),用多元統(tǒng)計中的聚類分析法進行合并,果然將120回分成兩類即前80回為一類,后40回為一類,形象地證實了前80回和后40回不是出自同一人之手;之后又對曹雪芹的另一本著作做了類似計算,得出了用詞手法完全相同的結論,進一步論證了前80回出自曹雪芹之手,類似的論證還推翻了后40回是高鶚一人所寫的傳統(tǒng)認識(呂光明,2008)。陳大康(1988)對“成書新說”所使用的數(shù)學方法提出了異議,認為其采用的聚類方法缺乏客觀標準,但是沒有能夠揭示聚類方法實質,因此也就沒能從理論上證明“成書新說”的結論到底是否可靠。施建軍(2010)在此基礎上做了對用聚類分析研究文本作者的可信度分析,并得出了僅以《紅樓夢》一部作品作為樣本進行聚類分析,不能夠判別《紅樓夢》作者的所屬問題的結論。
3.1基于相對熵的《紅樓夢》作者判斷
為了更好地看出《紅樓夢》前80回和后40回中相同字在前后概率分布的差異程度,本文將前120回平均分為3組,即前40回,中40回和后40回,分別計算了以前40回為真實分布時與中40回和與后40回的相對熵,以及以中40回為真實分布時與前40回和與后40回的相對熵。
需要指明的是,本文是以前80回(前40回和中40回)的相同字分布情況作為真實分布,這是在默認即承認了紅學界普遍認為的前80回和后40回存在差別,而不是前90回和后30回或者是前70回和后50回存在差別的前提下進行的。對此,施建軍(2011)曾質疑張云良(2009)把《紅樓夢》的120回平均分為3個集合來進行分類鑒定作者的方法,認為“這個實驗實際上是在承認了前80回和后40回有差別的情況下做的,是一種迎合傳統(tǒng)結論的作法”,因而施建軍采用的是“支持向量機”(SV中)的方法,將《紅樓夢》的120回作為作者完全未知的文本來進行分類,結果也得出了《紅樓夢》前80回和后40回作者是兩個人的結果,這與紅學界多年的推斷一致。故本文在接受了前人實驗結論的基礎上仍采用傳統(tǒng)的認識,把前80回看成是真實分布,而不再細究。
3.2實驗及結果分析
將《紅樓夢》按照章回分為前、中、后三組后,利用計算機自動統(tǒng)計其字型和字例,再利用Excel表格刪選出各自與其他組的相同字,得到表1和表2中的《紅樓夢》(繁體程高本)的用字情況。從表中可以知道,《紅樓夢》120回的總字型為4509個,總字例為736699個,其中前40回有字型3729個,字例為230407個;41-80有字型3734個,字例271271個;前40回與中40回有相同字型3157個,前40回與后40回有相同字型2849個,中40回與后40回有相同字型2845個,從表中可以看出,這些相同字的頻數(shù)都占到了所在40回中總字數(shù)的98.9%以上。
表1 ? ?字符統(tǒng)計表
表2 ? ?相同字統(tǒng)計表
注:百分比=字例/所在分組的總字數(shù)*100%。
得出相同字之后,就可以帶入公式計算其相同字的相對熵,計算得到的相對熵值見下表3:
表3 ? ?《紅樓夢》內部相對熵
注:p表示數(shù)據(jù)的真實分布,q表示數(shù)據(jù)的理論分布、模型分布或p的近似分布。
通過觀察表格中的相對熵,可以看出,當以1-40回中相同字作為真實分布時,與41-80回中的相同字計算得到的相對熵較小,為0.0910586,而與81-120回中的相同字計算得到的相對熵較大,為0.158121426;同樣,在以41-80回中相同字作為真實分布時,與1-40回中的相同字的相對熵也比與81-120回中的相同字的相對熵小;且當以81-120回中相同字作為真實分布時,與1-40回和41-80的相同字相對熵都較大;從這些相對熵的明顯差距中可以得出,其前80回與后40回的相同字的分布情況距離較遠,可以判斷為前80回與后40回并非一人所寫。
4.相對熵的文本間比較
上面是以《紅樓夢》為例,用相對熵來判斷文本內部風格存在的爭議,但在同一個作者的不同文本之間,此方法是否適用呢?本文擬用清末著名譴責小說代表作家李伯元的小說作進一步的分析。
據(jù)一般文學史的記述,李伯元所作的小說主要有《官場現(xiàn)形記》(60回)、《文明小史》(60回)、《中國現(xiàn)在記》(12回)、《活地獄》(43回)、《海天鴻雪記》(20回)、《繁華夢》六部。但其存疑者很多,如阿英編《晚清文學叢鈔》小說一卷中認為《中國現(xiàn)在記》只寫了十二回,魏紹昌所編《李伯元研究資料》中認為《活地獄》第四十至四十二回由吳研人續(xù)作,第四十三回由歐陽矩源續(xù)作,胡適認為《官場現(xiàn)形記》也許是別人續(xù)到第六十回勉強結束的。此外,鄧季方(1990)認為《文明小史》的前二十回為季伯元所著,而后四十回當為他人代庖。王學鈞(2002)認為“《海天鴻雪記》是浙江人‘二春居士所作,并非李伯元之作;《繁華夢》實為孫玉聲《海上繁華夢》,也非李伯元之作”等等。其中爭議最大的便是《海上繁華夢》的作者是否為李伯元,因此,本文將選取《官場現(xiàn)形記》、《文明小史》、《活地獄》這三部作品與《海上繁華夢》進行文本間相同字的相對熵計算,看其結果是否存在顯著差異。
分別從《官場現(xiàn)形記》、《文明小史》、《活地獄》和《海上繁華夢》中隨機選取連續(xù)的10萬字左右的文本,提取相同字,得出文本間的相同字相對熵值,見表4。
表4 ? ?文本間相對熵比較
從表格中可以看出,以《官場現(xiàn)形記》作為真實分布的文本時,與作為模擬文本分布的《活地獄》、《文明小史》、《海上繁華夢》的相對熵分別為0.264222734、0.240928183和0.518866854,可以看出《海上繁華夢》的相對熵大于《活地獄》和《文明小史》的相對熵。同樣,以《活地獄》作為真實分布的文本時,與作為模擬文本分布的《官場現(xiàn)形記》、《文明小史》、《海上繁華夢》的相對熵分別為0.269838631、0.284102164和0.600203942,《海上繁華夢》的相對熵依舊大于其他兩篇文章。再看,當把《海上繁華夢》作為真實分布的文本時,其與《官場現(xiàn)形記》、《活地獄》和《文明小史》的相對熵分別為0.465435583、0.473658949和0.501873884,其相對熵的數(shù)量級較大,則說明《海上繁華夢》與其他三個文本在用字方面的差異度很大。
由此可以得出,《官場現(xiàn)形記》、《活地獄》和《文明小史》三篇文本不管是作為真實分布的文本還是作為模擬分布的文本,三者之間的相對熵相對接近,數(shù)量級都在0.24~0.285之間,而《海上繁華夢》與其他文本間的相對熵則較大,數(shù)量級在0.465~0.6之間。如果我們的假設成立,則由此可以判斷,《海上繁華夢》并不是李伯元所寫。
5.結語
通過以上的計算,可以認為利用文本相同字的相對熵來做作品的作者判定是可行的,而且從字的角度考察,方法也比較簡單可行,比從詞、句子的角度考察能省去很多分詞和統(tǒng)計的工作量。而且可以預測,如果文本規(guī)模越大則其判定的準確性也越高。
但同時,這個方法也存在著某些缺陷,即只能對有候選作者的爭議文本進行判斷,而且候選作者要有足夠的可作為真實分布的文本做參考。其次,本文實驗的樣本容量還不夠多,具體要得知文本間的相對熵規(guī)律還要依賴更多的文本間的計算,不僅有對同作者其他作品的橫向互檢,也要有與不同作者作品的縱向比較,同時也要考慮不同文本規(guī)模與相對熵值之間的影響等等??傊?,作為對作者判定的一種輔助方法,相對熵也是一種值得研究的途徑。
注釋:
①曾毅平、朱曉文:計算方法在漢語風格學研究中的應用,2006.
參考文獻:
[1]陳大康.從數(shù)理語言學看后四十回的作者——與陳炳藻先生商榷[J].紅樓夢學刊,1987,(1).
[2]李賢平.《紅樓夢》成書新說[J].復旦學報,1987,(5).
[3]陳大康.“《紅樓夢》成書新說難以成立”——與李賢平同志商榷[J].華東師范大學報,1988,(1).
[4]徐秉錚,蔡偉鴻.從信息論角度探討《紅樓夢》的作者[J].中文信息學報,1988,(4).
[5]陳炳藻.關于《紅樓夢》后四十回[J].紅樓夢學刊,2002,(3).
[6]曹詣珍.《紅樓夢》語言研究的對象及方法述略[J].紅樓夢學刊,2004,(3).
[7]李國強,李瑞芳.基于計算機的詞頻統(tǒng)計研究——考證《紅樓夢》作者是否唯一[J].沈陽化工學院學報,2006,(12):305-307.
[8]呂光明.《紅樓夢》作者的統(tǒng)計論證[J].數(shù)據(jù),2008(4).
[9]李瑞芳,孫軍波,常詩珧.基于計算機的《紅樓夢》字詞淺探[J].電腦知識與技術,2009,(5).
[10]張運良等.基于句類特征的作者寫作風格分類研究[J].計算機工程與應用,2009,(22).
[11]汪維輝.《紅樓夢》前80回和后40回的詞匯差異[J].古漢語研究,2010,(3).
[12]施建軍.關于以《紅樓夢》120回為樣本進行其作者聚類分析的可信度問題研究[J].紅樓夢學刊,2010,(5).
[13]施建軍.基于支持向量機技術的《紅樓夢》作者研究[J].紅樓夢學刊,2011,(5).
[14]C.-I Chang;Y.Du;J.Wang;S.-M.Guo and P.D.Thouin.Survey and comparative analysis of entropy and relative entropy thresholding techniques.IEE Proc.-Vis.Image Signal Process.,2006,153,(6):837-850.
[15]Wang,J.,Du,Y.,Chang,C.-I,and Thouin,P.“Relative entropy-based methods for image thresholding”.Int.Symp.Circuit and Systems(ISCAS)2002,Scottsdale,AZ,May,2002.
[16]Chang,C.-I,Chen,K.,Wang,J.,and Althouse,M.L.G.:“A relative entropy-based approach to image thresholding”,Pattern Recognit.,1994,27,(9):1275-1289.
[17]曾毅平,朱曉文.計算方法在漢語風格學研究中的應用[J].福建師范大學學報,2006,1.
[18]王學鈞.李伯元與“譴責小說”的興起[J].江蘇社會科學,2002,09.
[19]鄧季方.《文明小史》后四十回非李伯元著作考[J].西南師范大學學報,1990.
[20]杜家利,于屏方.計算語義學視角下的文本風格研究[J].計算機工程與應用,2011,47(30).