亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于相對熵的作品作者判定方法

        2014-03-21 10:59:26馬燕
        文教資料 2014年31期
        關(guān)鍵詞:現(xiàn)形記小史用字

        馬燕

        (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

        基于相對熵的作品作者判定方法

        馬燕

        (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

        本文提出了一種新的、較為簡便的、即基于字層面的文本風(fēng)格判定方法,即使用兩篇文本中的相同字做相對熵來計算兩篇文本在用字方面的差異。通過對《紅樓夢》前80回和后40回的內(nèi)部相對熵比較,證明了其方法的可行性。又通過對李伯元的《官場現(xiàn)形記》、《活地獄》和《文明小史》與存在作者爭議的《海上繁華夢》做文本間的相對熵比較,得出了《海上繁華夢》確實不為李伯元所作的結(jié)論。

        相對熵 作者判定 《紅樓夢》 李伯元 《海上繁華夢》

        1.引言

        近年來隨著語言研究的現(xiàn)代化,運用計算機和統(tǒng)計學(xué)的知識來分析文學(xué)作品的問題,已經(jīng)引起了社會科學(xué)和計算機科學(xué)界的普遍關(guān)注(李國強,李瑞芳,2006)。西方文體學(xué)界從20世紀30年代就開始關(guān)注定量分析,“人們開始利用這種方法去研究圣經(jīng)書籍的著作權(quán)以及柏拉圖等古典作家的著作年代,這其實就是在對作家個人風(fēng)格或時代風(fēng)格等進行科學(xué)的描寫分析的基礎(chǔ)上進行的,”這種研究經(jīng)歷了從最初的由手工計算到運用具有高速的運算能力計算機輔助計算,以實現(xiàn)更大規(guī)模、更加精確的定量分析。

        而關(guān)于漢語風(fēng)格的研究應(yīng)始于20世紀七八十年代,黎運漢認為分析綜合法、比較法和統(tǒng)計法是語言風(fēng)格研究中常用的三種方法①,國內(nèi)最早正式倡導(dǎo)建立“計算風(fēng)格學(xué)”的是錢鋒和陳光磊兩位學(xué)者,他們主張將計算機技術(shù)和數(shù)學(xué)方法相結(jié)合應(yīng)用到風(fēng)格學(xué)的研究當中。當然,語言風(fēng)格研究的應(yīng)用之一便是對文本作者的考證,如曾受到廣泛關(guān)注的《紅樓夢》作者問題等,也有不少的學(xué)者從定量分析的角度提出了自己的看法,這在下文會有詳細介紹。

        本文提出了一種新的計算文本風(fēng)格的方法,即借助計算機和統(tǒng)計學(xué)的方法,來計算兩篇文本間相同字的相對熵。本文在驗證同一篇文本內(nèi)部相對熵差異程度的同時,也對不同文本間的相對熵進行了比較,發(fā)現(xiàn)也具有可行性。

        2.相對熵

        相對熵(relative entropy)又稱KL散度(Kullback-Leibler divergence,簡稱KLD),用以表示兩個概率分布的距離。對一個離散隨機變量的兩個概率分布p和q來說,他們的KL散度定義為。 其中p(x)和q(x)為兩個概率分布,相對熵不是嚴格意義上的距離,典型情況下,p表示數(shù)據(jù)的真實分布,q表示數(shù)據(jù)的理論分布、模型分布或p的近似分布。相對熵具有非負性(即D(p||q)≥0)和不對稱性(即D(p||q)≠D(q||p),除非對于所有的x,有p(x)=q(x))。

        在自然語言處理時,可以利用相對熵進行分類或者是利用相對熵來衡量兩個隨機分布的差距,當兩個隨機分布相同時,其相對熵為0,當兩個隨機分布的差別增加時,其相對熵也增加。在這里我們使用相同字作為隨機分布的量,首先把一部文本中的相同字的隨機分布作為其真實分布,來分別計算與其他文本中的相同字的分布的距離,其結(jié)果越接近,則我們認為這兩篇文本的用字風(fēng)格越相近,反之,結(jié)果越大,則其用字風(fēng)格越有差距,即提出相對熵越小,則兩篇文本的用字風(fēng)格越相近,反之,相對熵越大,則其用字風(fēng)格越有差距的假設(shè)。

        3.《紅樓夢》的作者判定研究

        比較早的用統(tǒng)計的方法來研究《紅樓夢》語言的可以算是瑞典漢學(xué)家高本漢(1954),他取了《紅樓夢》中的24個語詞進行統(tǒng)計并得出了前80回和后40回為曹雪芹一人所寫的結(jié)論。持同樣觀點的還有美國威斯康星大學(xué)的陳炳藻先生,他在1980年6月的首屆國際《紅樓夢》討論會上發(fā)表了《從詞匯統(tǒng)計論證紅樓夢的作者》一文,并在1986年發(fā)表了《電腦在文學(xué)上的應(yīng)用:〈紅樓夢〉與〈兒女英雄傳〉兩書作者用詞的比較》一文,后又出版了《電腦紅學(xué):論〈紅樓夢〉作者》的專著。陳炳藻先生利用計算機對《紅樓夢》前80回和后40回的用字進行了測定,并從數(shù)理統(tǒng)計學(xué)的觀點出發(fā),探討《紅樓夢》前后用字的相關(guān)程度,由此推斷出后40回也出自曹雪芹之筆的結(jié)論(呂光明,2008)。

        對此,持不同觀點的學(xué)者有蔣文野、王世華、劉鈞杰、陳大康、張衛(wèi)東、劉麗川、嚴安政、俞敏、晁繼周、鄭慶山、黃曉惠等(汪維輝,2010)。陳大康(1987)結(jié)合《紅樓夢》各個版本間的比較,采用數(shù)理統(tǒng)計的方法,分別從詞、字、句的角度否定了陳炳藻的說法。他分別對27個專用詞、46個字和89758個句子的句長分布及平均句長等共88個項目進行了考察,不僅否定了前80回和后40回為同一作者的說法,也得出了后四十回的前半部分中含有曹雪芹的少量殘稿。同樣,李賢平(1987)也對陳炳藻的觀點做出了駁斥,他發(fā)表的《〈紅樓夢〉成書新說》一文中將《紅樓夢》120回看成是120個樣本,以與情節(jié)無關(guān)的47個虛詞作為變量,統(tǒng)計出每一回里變量出現(xiàn)的次數(shù),用多元統(tǒng)計中的聚類分析法進行合并,果然將120回分成兩類即前80回為一類,后40回為一類,形象地證實了前80回和后40回不是出自同一人之手;之后又對曹雪芹的另一本著作做了類似計算,得出了用詞手法完全相同的結(jié)論,進一步論證了前80回出自曹雪芹之手,類似的論證還推翻了后40回是高鶚一人所寫的傳統(tǒng)認識(呂光明,2008)。陳大康(1988)對“成書新說”所使用的數(shù)學(xué)方法提出了異議,認為其采用的聚類方法缺乏客觀標準,但是沒有能夠揭示聚類方法實質(zhì),因此也就沒能從理論上證明“成書新說”的結(jié)論到底是否可靠。施建軍(2010)在此基礎(chǔ)上做了對用聚類分析研究文本作者的可信度分析,并得出了僅以《紅樓夢》一部作品作為樣本進行聚類分析,不能夠判別《紅樓夢》作者的所屬問題的結(jié)論。

        3.1 基于相對熵的《紅樓夢》作者判斷

        為了更好地看出《紅樓夢》前80回和后40回中相同字在前后概率分布的差異程度,本文將前120回平均分為3組,即前40回,中40回和后40回,分別計算了以前40回為真實分布時與中40回和與后40回的相對熵,以及以中40回為真實分布時與前40回和與后40回的相對熵。

        需要指明的是,本文是以前80回(前40回和中40回)的相同字分布情況作為真實分布,這是在默認即承認了紅學(xué)界普遍認為的前80回和后40回存在差別,而不是前90回和后30回或者是前70回和后50回存在差別的前提下進行的。對此,施建軍(2011)曾質(zhì)疑張云良(2009)把《紅樓夢》的120回平均分為3個集合來進行分類鑒定作者的方法,認為“這個實驗實際上是在承認了前80回和后40回有差別的情況下做的,是一種迎合傳統(tǒng)結(jié)論的作法”,因而施建軍采用的是“支持向量機”(SV中)的方法,將《紅樓夢》的120回作為作者完全未知的文本來進行分類,結(jié)果也得出了《紅樓夢》前80回和后40回作者是兩個人的結(jié)果,這與紅學(xué)界多年的推斷一致。故本文在接受了前人實驗結(jié)論的基礎(chǔ)上仍采用傳統(tǒng)的認識,把前80回看成是真實分布,而不再細究。

        3.2 實驗及結(jié)果分析

        將《紅樓夢》按照章回分為前、中、后三組后,利用計算機自動統(tǒng)計其字型和字例,再利用Excel表格刪選出各自與其他組的相同字,得到表1和表2中的《紅樓夢》(繁體程高本)的用字情況。從表中可以知道,《紅樓夢》120回的總字型為4509個,總字例為736699個,其中前40回有字型3729個,字例為230407個;41-80有字型3734個,字例271271個;前40回與中40回有相同字型3157個,前40回與后40回有相同字型2849個,中40回與后40回有相同字型2845個,從表中可以看出,這些相同字的頻數(shù)都占到了所在40回中總字數(shù)的98.9%以上。

        表1 字符統(tǒng)計表

        表2 相同字統(tǒng)計表

        得出相同字之后,就可以帶入公式計算其相同字的相對熵,計算得到的相對熵值見下表3:

        表3 《紅樓夢》內(nèi)部相對熵

        通過觀察表格中的相對熵,可以看出,當以1-40回中相同字作為真實分布時,與41-80回中的相同字計算得到的相對熵較小,為0.0910586,而與81-120回中的相同字計算得到的相對熵較大,為0.158121426;同樣,在以41-80回中相同字作為真實分布時,與1-40回中的相同字的相對熵也比與81-120回中的相同字的相對熵??;且當以81-120回中相同字作為真實分布時,與1-40回和41-80的相同字相對熵都較大;從這些相對熵的明顯差距中可以得出,其前80回與后40回的相同字的分布情況距離較遠,可以判斷為前80回與后40回并非一人所寫。

        4.相對熵的文本間比較

        上面是以《紅樓夢》為例,用相對熵來判斷文本內(nèi)部風(fēng)格存在的爭議,但在同一個作者的不同文本之間,此方法是否適用呢?本文擬用清末著名譴責(zé)小說代表作家李伯元的小說作進一步的分析。

        據(jù)一般文學(xué)史的記述,李伯元所作的小說主要有《官場現(xiàn)形記》(60回)、《文明小史》(60回)、《中國現(xiàn)在記》(12回)、《活地獄》(43回)、《海天鴻雪記》(20回)、《繁華夢》六部。但其存疑者很多,如阿英編《晚清文學(xué)叢鈔》小說一卷中認為《中國現(xiàn)在記》只寫了十二回,魏紹昌所編《李伯元研究資料》中認為《活地獄》第四十至四十二回由吳研人續(xù)作,第四十三回由歐陽矩源續(xù)作,胡適認為《官場現(xiàn)形記》也許是別人續(xù)到第六十回勉強結(jié)束的。此外,鄧季方(1990)認為《文明小史》的前二十回為季伯元所著,而后四十回當為他人代庖。王學(xué)鈞(2002)認為“《海天鴻雪記》是浙江人‘二春居士’所作,并非李伯元之作;《繁華夢》實為孫玉聲《海上繁華夢》,也非李伯元之作”等等。其中爭議最大的便是《海上繁華夢》的作者是否為李伯元,因此,本文將選取《官場現(xiàn)形記》、《文明小史》、《活地獄》這三部作品與《海上繁華夢》進行文本間相同字的相對熵計算,看其結(jié)果是否存在顯著差異。

        分別從《官場現(xiàn)形記》、《文明小史》、《活地獄》和《海上繁華夢》中隨機選取連續(xù)的10萬字左右的文本,提取相同字,得出文本間的相同字相對熵值,見表4。

        表4 文本間相對熵比較

        從表格中可以看出,以《官場現(xiàn)形記》作為真實分布的文本時,與作為模擬文本分布的《活地獄》、《文明小史》、《海上繁華夢》 的 相 對熵 分 別為0.264222734、0.240928183和0.518866854,可以看出《海上繁華夢》的相對熵大于《活地獄》和《文明小史》的相對熵。同樣,以《活地獄》作為真實分布的文本時,與作為模擬文本分布的《官場現(xiàn)形記》、《文明小史》、《海上繁華夢》的相對熵分別為0.269838631、0.284102164和0.600203942,《海上繁華夢》的相對熵依舊大于其他兩篇文章。再看,當把《海上繁華夢》作為真實分布的文本時,其與《官場現(xiàn)形記》、《活地獄》 和 《文明小史》 的相對熵分別為0.465435583、0.473658949和0.501873884,其相對熵的數(shù)量級較大,則說明《海上繁華夢》與其他三個文本在用字方面的差異度很大。

        由此可以得出,《官場現(xiàn)形記》、《活地獄》和《文明小史》三篇文本不管是作為真實分布的文本還是作為模擬分布的文本,三者之間的相對熵相對接近,數(shù)量級都在0.24~0.285之間,而《海上繁華夢》與其他文本間的相對熵則較大,數(shù)量級在0.465~0.6之間。如果我們的假設(shè)成立,則由此可以判斷,《海上繁華夢》并不是李伯元所寫。

        5.結(jié)語

        通過以上的計算,可以認為利用文本相同字的相對熵來做作品的作者判定是可行的,而且從字的角度考察,方法也比較簡單可行,比從詞、句子的角度考察能省去很多分詞和統(tǒng)計的工作量。而且可以預(yù)測,如果文本規(guī)模越大則其判定的準確性也越高。

        但同時,這個方法也存在著某些缺陷,即只能對有候選作者的爭議文本進行判斷,而且候選作者要有足夠的可作為真實分布的文本做參考。其次,本文實驗的樣本容量還不夠多,具體要得知文本間的相對熵規(guī)律還要依賴更多的文本間的計算,不僅有對同作者其他作品的橫向互檢,也要有與不同作者作品的縱向比較,同時也要考慮不同文本規(guī)模與相對熵值之間的影響等等??傊鳛閷ψ髡吲卸ǖ囊环N輔助方法,相對熵也是一種值得研究的途徑。

        注釋:

        ①曾毅平、朱曉文:計算方法在漢語風(fēng)格學(xué)研究中的應(yīng)用,2006.

        [1]陳大康.從數(shù)理語言學(xué)看后四十回的作者——與陳炳藻先生商榷[J].紅樓夢學(xué)刊,1987,(1).

        [2]李賢平.《紅樓夢》成書新說[J].復(fù)旦學(xué)報,1987,(5).

        [3]陳大康.“《紅樓夢》成書新說難以成立”——與李賢平同志商榷[J].華東師范大學(xué)報,1988,(1).

        [4]徐秉錚,蔡偉鴻.從信息論角度探討《紅樓夢》的作者[J].中文信息學(xué)報,1988,(4).

        [5]陳炳藻.關(guān)于《紅樓夢》后四十回[J].紅樓夢學(xué)刊,2002,(3).

        [6]曹詣?wù)?《紅樓夢》語言研究的對象及方法述略[J].紅樓夢學(xué)刊,2004,(3).

        [7]李國強,李瑞芳.基于計算機的詞頻統(tǒng)計研究——考證《紅樓夢》作者是否唯一[J].沈陽化工學(xué)院學(xué)報,2006,(12):305-307.

        [8]呂光明.《紅樓夢》作者的統(tǒng)計論證[J].數(shù)據(jù),2008(4).

        [9]李瑞芳,孫軍波,常詩珧.基于計算機的《紅樓夢》字詞淺探[J].電腦知識與技術(shù),2009,(5).

        [10]張運良等.基于句類特征的作者寫作風(fēng)格分類研究[J].計算機工程與應(yīng)用,2009,(22).

        [11]汪維輝.《紅樓夢》前80回和后40回的詞匯差異[J].古漢語研究,2010,(3).

        [12]施建軍.關(guān)于以《紅樓夢》120回為樣本進行其作者聚類分析的可信度問題研究[J].紅樓夢學(xué)刊,2010,(5).

        [13]施建軍.基于支持向量機技術(shù)的《紅樓夢》作者研究[J].紅樓夢學(xué)刊,2011,(5).

        [14]C.-I Chang;Y.Du;J.Wang;S.-M.Guo and P.D.Thouin. Survey and comparative analysis of entropy and relative entropy thresholding techniques.IEE Proc.-Vis.Image Signal Process.,2006,153,(6):837-850.

        [15]Wang,J.,Du,Y.,Chang,C.-I,and Thouin,P.“Relative entropy-based methods for image thresholding”.Int. Symp.Circuit and Systems(ISCAS)2002,Scottsdale,AZ,May,2002.

        [16]Chang,C.-I,Chen,K.,Wang,J.,and Althouse,M.L. G.:“A relative entropy-based approach to image thresholding”,Pattern Recognit.,1994,27,(9):1275-1289.

        [17]曾毅平,朱曉文.計算方法在漢語風(fēng)格學(xué)研究中的應(yīng)用[J].福建師范大學(xué)學(xué)報,2006,1.

        [18]王學(xué)鈞.李伯元與“譴責(zé)小說”的興起[J].江蘇社會科學(xué),2002,09.

        [19]鄧季方.《文明小史》后四十回非李伯元著作考[J].西南師范大學(xué)學(xué)報,1990.

        [20]杜家利,于屏方.計算語義學(xué)視角下的文本風(fēng)格研究[J].計算機工程與應(yīng)用,2011,47(30).

        猜你喜歡
        現(xiàn)形記小史用字
        容易混淆的詞語
        《漢語大字典》“人名用字”考誤舉隅
        科技論文表格的編排要求(五):用線和用字
        能量小史
        油漬煙絲“現(xiàn)形記”
        遼代避諱用字“元”
        慈禧太后的“反腐指南”
        慈禧太后的“反腐指南”
        看科場現(xiàn)形記
        火力機動發(fā)展小史
        軍事歷史(1997年6期)1997-08-21 02:37:14
        肉体裸交丰满丰满少妇在线观看| 丝袜美腿一区二区国产| 精品乱人伦一区二区三区| 一本大道久久东京热无码av| 综合91在线精品| 国产免费一区二区三区三| 日韩亚洲精品中文字幕在线观看| 在线看片免费人成视频久网下载| 香蕉视频一级| 国产在线视频网站不卡| 亚洲综合日韩精品一区二区| 国产精成人品日日拍夜夜免费 | 亚洲AV无码一区二区三区天堂网| 国产成年女人特黄特色毛片免| 日产精品高潮一区二区三区5月| 亚洲av不卡一区二区三区| 456亚洲人成影视在线观看| 综合久久青青草免费观看视频| 最新国产不卡在线视频| 99精品国产在热久久| 亚洲制服无码一区二区三区| 中文字幕人妻久久一区二区三区| 亚洲精品无码不卡在线播he| 中文字幕有码无码av| 国产高清一级毛片在线看| 国产乱淫h侵犯在线观看| 高潮潮喷奶水飞溅视频无码| 欧美日韩国产成人高清视| 精品视频一区二区杨幂 | 人妖系列在线免费观看| 日本亲近相奷中文字幕| 亚洲欧美另类激情综合区| 无码专区无码专区视频网址| 在线观看视频免费播放| 97精品国产97久久久久久免费 | 大地资源中文在线观看官网第二页 | 日韩毛片在线看| 久久一二三四区中文字幕| 精品人妻av一区二区三区| 中国丰满熟妇xxxx| 久久久99精品视频|