亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        從高頻詞等級相關(guān)角度探析《紅樓夢》作者

        2018-12-20 06:18:42馬創(chuàng)新陳小荷
        中文信息學(xué)報(bào) 2018年11期
        關(guān)鍵詞:高頻詞語料均值

        馬創(chuàng)新,陳小荷

        (1. 江蘇師范大學(xué) 語言科學(xué)與藝術(shù)學(xué)院,江蘇 徐州 221009;2. 南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

        0 引言

        古今中外存在著很多作者存疑的文獻(xiàn),具體情況包括: 有些文獻(xiàn)本來就沒有作者署名;有些文獻(xiàn)署的是作者筆名,而世人無法確定該筆名在現(xiàn)實(shí)世界中的所指人物對象;有些文獻(xiàn)有具體可查的署名作者,但世人對該文獻(xiàn)作者的真實(shí)性產(chǎn)生懷疑或有爭議。比如,俄裔作家索爾仁尼對于《靜靜的頓河》是否為肖洛霍夫所寫表示公開質(zhì)疑,他認(rèn)為《靜靜的頓河》這樣的鴻篇巨著,不是當(dāng)時只有20多歲的年輕人——肖洛霍夫所能寫出的,還有人懷疑肖洛霍夫抄襲了已故作家克魯烏可夫的作品[1]。狄更斯和馬克·吐溫對于《羅密歐和朱麗葉》是否為莎士比亞所寫也表示過懷疑,因?yàn)樗麄冇X得莎士比亞的出身為英國平民,而《羅密歐和朱麗葉》描寫的是意大利上流社會的生活[2]。中國古典小說《紅樓夢》的作者也有懸疑,有些學(xué)者認(rèn)為《紅樓夢》全書120回為同一人所作,而有些學(xué)者認(rèn)為前80回與后40回并非同一人所作[3]。

        對于如何確定存疑文獻(xiàn)的真實(shí)作者,我們認(rèn)為可以從高頻詞的等級相關(guān)度方面來分析這個問題。相對于中低頻詞型來說,文獻(xiàn)中出現(xiàn)的高頻詞中,連詞、介詞和副詞占有更大的比例。如果把寫文章比作蓋房子的話,名詞、動詞、形容詞等實(shí)詞就相當(dāng)于磚瓦等建筑材料,連詞、介詞和副詞等虛詞就相當(dāng)于水泥、黃沙等黏合材料。同一作者在寫作兩部題材不同的作品時,兩部作品中所使用的名詞重合度會比較低,但所用的連詞、介詞和副詞等虛詞重合度會較高[4-5]。我們所提出的方法是基于這樣的考慮: 兩部文獻(xiàn)語言風(fēng)格的差異不僅體現(xiàn)在詞型的重合度上,還更細(xì)微地體現(xiàn)在高頻詞的等級相關(guān)度上。如果兩部作品是同一作者所寫,那么它們的相關(guān)系數(shù)就會比較高;如果兩部作品是不同作者所寫,那么它們的相關(guān)系數(shù)就會比較低。

        1 相關(guān)研究

        1984年,挪威奧斯陸大學(xué)的一個統(tǒng)計(jì)學(xué)家領(lǐng)導(dǎo)一個小組統(tǒng)計(jì)三組文獻(xiàn)中的詞語特征,三組文獻(xiàn)分別是肖洛霍夫的確認(rèn)作品、存疑作品《靜靜的頓河》、克魯烏可夫的作品。他們先是統(tǒng)計(jì)不同詞匯量與總詞匯量的比值,三組分別是65.5%、64.6%、58.9%;再選擇最常見20個俄語單詞,統(tǒng)計(jì)它們出現(xiàn)的頻率,分別是22.8%、23.3%、26.2%;然后統(tǒng)計(jì)出現(xiàn)多于一次的詞語所占百分比,分別是80.9%、81.9%、76.9%。上述三種統(tǒng)計(jì)結(jié)果都顯示,肖洛霍夫比克魯烏可夫更有可能是《靜靜的頓河》的真正作者[6]。

        在《紅樓夢》作者信息的研究方面,最早使用統(tǒng)計(jì)方法展開研究的是瑞典漢學(xué)家高本漢。高本漢(1952年)選取了32種語法、詞匯現(xiàn)象,統(tǒng)計(jì)它們在《紅樓夢》等五部作品中的出現(xiàn)頻率。高本漢根據(jù)統(tǒng)計(jì)結(jié)果,認(rèn)為《紅樓夢》全書120回為同一人所作[7]。1980年,在美國威斯康星大學(xué)舉行的《紅樓夢》研討會上,陳炳藻發(fā)表論文“從詞匯上的統(tǒng)計(jì)論《紅樓夢》的作者問題”,他把《紅樓夢》分為三組,分別是1~40回、41~80回、81~120回,另外還配上了《兒女英雄傳》。他按一定比例從各組中抽選特定詞類,再統(tǒng)計(jì)各組詞語之間的相關(guān)系數(shù),計(jì)算出《紅樓夢》前80回和后40回的詞匯相關(guān)度為78.57%,而《紅樓夢》與《兒女英雄傳》的詞匯相關(guān)度僅為32.14%。由此認(rèn)為《紅樓夢》前80回和后40回為一人所作[8]。

        劉鈞杰在《紅樓夢》前80回中選取40回,和后40回進(jìn)行比較,對六項(xiàng)語言材料在前部和后部的出現(xiàn)進(jìn)行統(tǒng)計(jì)比較,結(jié)論是前、后的語言風(fēng)格存在明顯差異[9]。陳大康選取27個詞、46個字,考察它們在《紅樓夢》前后出版的情況,并且分析89 758個句子的句長分布及平均句長,認(rèn)為《紅樓夢》前80回和后40回并非一人所作[10]。

        李賢平從《紅樓夢》中抽取了47個虛字,統(tǒng)計(jì)其在各回中的使用頻率,用統(tǒng)計(jì)學(xué)方法探索各回寫作風(fēng)格的接近程度,并用聚類方法對120回進(jìn)行分析,認(rèn)為《紅樓夢》各個部分是由不同的作者在不同的時期撰寫的[11]。

        徐秉錚等從詞的相關(guān)性和上下文的相關(guān)性、字符數(shù)的統(tǒng)計(jì)、字符串的統(tǒng)計(jì)等三方面判斷《紅樓夢》前80回與后40回的語言風(fēng)格有明顯的不同[12]。張運(yùn)良等將《紅樓夢》120回平均分成1~40回、41~80回、81~120回等三個集合,然后以句類為特征向量,采用K近鄰算法作為分類算法構(gòu)建分類器,實(shí)驗(yàn)發(fā)現(xiàn)集合1和集合2句類風(fēng)格相近,集合3句類風(fēng)格和前兩個集合差距較大[13]。施建軍使用支持向量機(jī)技術(shù),以44個文言虛字頻率為特征向量,對《紅樓夢》120回進(jìn)行分類研究,結(jié)果發(fā)現(xiàn),前80回與后40回在寫作風(fēng)格上存在明顯差別[14]。

        2 基于高頻詞等級相關(guān)度的方法

        2.1 理論依據(jù)

        布拉德福提出了頻次—等級排序法,這種方法在社會科學(xué)領(lǐng)域中被廣泛應(yīng)用[15],例如,把某部文獻(xiàn)中的詞型按照其出現(xiàn)頻次遞減排列,就會呈現(xiàn)出布拉德福分布。布拉德福分布的特點(diǎn)顯示: 我們考察的具體對象的大多數(shù)集中于少數(shù)主體來源。例如,人們寫文章時總是傾向于選擇自己常用的詞語。Zipf發(fā)現(xiàn)了詞型的出現(xiàn)頻率與等級序號之間的關(guān)系,任何一篇文章中詞型的頻次和頻次等級的乘積總為一個常數(shù)[16]。

        人們在表達(dá)一個觀點(diǎn)或者描述一個事物時,會有多個同類詞語可供選擇,有的詞語會被經(jīng)常用到,而有的詞語不常被使用。這種選擇上的頻度不均現(xiàn)象致使被選詞語的特征信息變得越來越突出,這又會反過來作為再次被選的影響因素。如果把個體在表達(dá)一個觀點(diǎn)或者描述一個事物時選用某詞語看作這個詞語的一次成功,那么這種成功的累積必然會產(chǎn)生新的成功,這就使得個體在語言運(yùn)用方面會形成思維定勢。文獻(xiàn)之間的語言風(fēng)格差異不僅體現(xiàn)在使用的高頻詞上,還更加細(xì)微地體現(xiàn)在高頻詞的使用頻率等級上[17]。

        2.2 計(jì)算方法

        為了能夠給鑒定作者存疑的文獻(xiàn)提供更多的參考信息,我們提出了一種“基于高頻詞等級相關(guān)度的方法”,測量各份語料之間在詞型等級方面的相關(guān)度,推斷“存疑文獻(xiàn)”的作者信息。這種算法分為三個步驟:

        (1) 首先,對于各份語料,詞型均按照出現(xiàn)頻次(即詞型的詞例數(shù))遞減順序排列;

        (2) 然后,對于已經(jīng)排序的詞型按照“頻序法”確定等級,把出現(xiàn)頻次最高的詞型等級定為1,次高的詞型等級定為2,……依次類推,頻次相等的詞型為一個等級,以其在語料中詞頻序值為等級[18]。

        (3) 接下來,計(jì)算各份語料之間高頻詞等級的相關(guān)度。相關(guān)度的計(jì)算方法采用“斯皮爾曼等級相關(guān)”,如式(1)所示。

        (1)

        其中,Di表示每一對數(shù)據(jù)相應(yīng)的兩個等級之差,n表示樣本數(shù)。

        斯皮爾曼等級相關(guān)適用于研究數(shù)據(jù)是具有等級性質(zhì)的成對數(shù)據(jù),并且變量之間呈線性關(guān)系[19-20]。但是,兩份語料中出現(xiàn)的詞型數(shù)據(jù)并不是成對的,所以采用這種計(jì)算方法所得到的相關(guān)系數(shù)是一個近似值。我們用ARs來表示“以語料A中特定數(shù)量詞型為樣本”與語料B中全部詞型比較所得到的相關(guān)系數(shù),對于在語料A中出現(xiàn)而語料B中沒有出現(xiàn)的詞型,不放在計(jì)算范圍內(nèi)。同樣,以BRs來表示“以語料B中特定數(shù)量詞型為樣本”與語料A中全部詞型比較所得到的相關(guān)系數(shù),對于在語料B中出現(xiàn)而語料A中沒有出現(xiàn)的詞型,也不在計(jì)算范圍內(nèi)。通常選取在語料中出現(xiàn)頻次排在前100、200、300位的高頻詞作為樣本。語料A與B的相關(guān)度用ABRs來表示,ABRs等于ARs與BRs的均值,即: ABRs=(ARs+BRs)/2。也就是說,語料A與B的相關(guān)度就等于: “以語料A中特定數(shù)量詞型為樣本”與語料B的全部詞型比較所得到的相關(guān)系數(shù),加上“以語料B中特定數(shù)量詞型為樣本”與語料A的全部詞型比較所得到的相關(guān)系數(shù),兩個系數(shù)之和再除以2所得到的商。

        2.3 實(shí)驗(yàn)與分析

        為了驗(yàn)證此方法的效果,我們選取《孟子》《荀子》這兩部先秦文獻(xiàn)作為實(shí)驗(yàn)語料,對這兩部文獻(xiàn)做人工分詞處理。這兩部文獻(xiàn)都是儒家經(jīng)典,在主題內(nèi)容上有著很大的相關(guān)性。學(xué)術(shù)界對于這兩部文獻(xiàn)的作者,也無異議。把《孟子》語料均分為兩部分,兩部分語料用“《孟子》一”和“《孟子》二”表示;把《荀子》語料均分為四部分,四部分語料用“《荀子》一”、“《荀子》二”、“《荀子》三”和“《荀子》四”表示。采用“頻序法”確定詞型等級,選取頻次排在前100位的詞型作為樣本,分別測量這七份語料兩兩之間的相關(guān)度,形成如表1所示的相似度矩陣。

        將表1、表2和表3中的數(shù)據(jù)分別劃分為三個區(qū),第一區(qū)位于表格左上角,是《孟子》兩份語料之間的相關(guān)度數(shù)據(jù),在表中都以黑色字體顯示;第二區(qū)位于表格右下角,是《荀子》四份語料相互之間的相關(guān)度數(shù)據(jù),在表中都以黑色斜體字顯示;第三區(qū)位于右上角和左下角,是《孟子》兩份語料與《荀子》四份語料之間的相關(guān)度數(shù)據(jù),都以常規(guī)字體顯示。

        表1 使用“基于高頻詞等級相關(guān)度的方法”得到的相關(guān)度矩陣(%)

        為了評估“基于高頻詞等級相關(guān)度方法”的有效性,我們使用另外兩種常用的分析文獻(xiàn)相似度的方法與之相比較[21]。一種是“基于詞型共現(xiàn)率的方法”。其計(jì)算方法如式(2)所示。

        語料A與語料B的相關(guān)度=(A與B的共現(xiàn)詞型數(shù))/(A與B的詞型數(shù))

        (2)

        式(2)中,“A與B的詞型數(shù)”并不等于“A的詞型數(shù)+B的詞型數(shù)”,因?yàn)檎Z料A與語料B中有一些共現(xiàn)詞型,這些共現(xiàn)詞型既出現(xiàn)在語料A中,又出現(xiàn)在語料B中,不能重復(fù)計(jì)算,所以“A與B的詞型數(shù)”等于“A的詞型數(shù)+B的詞型數(shù)-A與B的共現(xiàn)詞型數(shù)”。

        另一種是“基于詞例共現(xiàn)率的方法”。其計(jì)算方法如式(3)所示。

        語料A與語料B的相關(guān)度=(A與B的共現(xiàn)詞型的詞例數(shù)) /(A與B的詞例數(shù))

        (3)

        式(3)中,“A與B的詞例數(shù)”等于“A的詞例數(shù)+B的詞例數(shù)”。

        表2是使用“基于詞型共現(xiàn)率的方法”所得到的七份語料相互之間的相關(guān)度矩陣,表3是使用“基于詞例共現(xiàn)率的方法”所得到的相關(guān)度矩陣。

        表2 使用“基于詞型共現(xiàn)率的方法”得到的相關(guān)度矩陣(%)

        表3 使用“基于詞例共現(xiàn)率的方法”得到的相關(guān)度矩陣(%)

        為了能夠直觀地觀察到使用這三種方法所得到的數(shù)據(jù)在“量”上的特征,我們使用Excel 2016把表1、表2、表3中的數(shù)據(jù)轉(zhuǎn)化為柱形圖,如圖1所示。觀察圖1能夠發(fā)現(xiàn):

        (1) 使用“基于高頻詞等級相關(guān)度的方法”所得到的數(shù)據(jù)三個區(qū)之間的區(qū)別明顯,左上角第一區(qū)數(shù)據(jù)的柱形高度顯著高于第三區(qū),右下角第二區(qū)的柱形高度也顯著高于第三區(qū);

        (2) 使用“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所得到數(shù)據(jù)三個區(qū)之間也有區(qū)別,但不如使用“基于高頻詞等級相關(guān)度的方法”所得到數(shù)據(jù)區(qū)別度大,左上角第一區(qū)數(shù)據(jù)的柱形高度顯著高于第三區(qū),右下角第二區(qū)的柱形高度與第三區(qū)右上角柱形高度相關(guān)差不大,區(qū)分度較小。

        圖1 三種方法的數(shù)據(jù)柱形圖

        為了分析使用三種方法分別得到的數(shù)據(jù)的集中與離散情況,我們計(jì)算了每種方法所得到數(shù)據(jù)的各個區(qū)的標(biāo)準(zhǔn)差,把計(jì)算結(jié)果匯總起來,形成表4。通過分析表4,我們發(fā)現(xiàn): (1)使用“基于高頻詞等級相關(guān)度的方法”所得到的數(shù)據(jù)三個區(qū)的標(biāo)準(zhǔn)差分別為0、3.97%、3.59%,均略大于使用另外兩種方法所得到數(shù)據(jù)標(biāo)準(zhǔn)差,這說明使用“基于高頻詞等級相關(guān)度的方法”所得到的數(shù)據(jù)波動性略大; (2)使用“基于詞型共現(xiàn)率的方法”與“基于詞例共現(xiàn)率的方法”所得到的標(biāo)準(zhǔn)差數(shù)值都很小,這兩種方法所得到的標(biāo)準(zhǔn)差數(shù)值差異也很小。

        表4 三種方法的標(biāo)準(zhǔn)差對比(%)

        接下來,計(jì)算每種方法所得到數(shù)據(jù)的各個區(qū)的均值,并且計(jì)算了各區(qū)之間的均值之差,把計(jì)算結(jié)果匯總起來,形成表5。通過分析表5,我們發(fā)現(xiàn): (1)使用“基于高頻詞等級相關(guān)度的方法”所得到的數(shù)據(jù)三個區(qū)的均值分別為90.84%、83.77%、77.15%,介于使用另外兩種方法所得到的均值之間; (2)使用“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所得到的數(shù)據(jù)三個區(qū)之間的均值差異比較小; (3)使用“基于高頻詞等級相關(guān)度的方法”所得到的數(shù)據(jù)三個區(qū)之間的均值差異比較大,第一、三區(qū)均值之差為13.69%,第二、三區(qū)均值之差為6.62%,顯著高于使用另外兩種方法所得到的相應(yīng)數(shù)據(jù)。

        表5 三種方法的均值對比(%)

        分析上述數(shù)據(jù),能夠得出以下結(jié)論: (1)“基于高頻詞等級相關(guān)度的方法”所生成的數(shù)據(jù),在“第一、三區(qū)均值之差”和“第二、三區(qū)均值之差”方面均顯著高于另兩種方法所生成的數(shù)據(jù),證明這種方法區(qū)分語言風(fēng)格的能力最強(qiáng)。(2)“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所產(chǎn)生的數(shù)據(jù)波動較小,而“基于高頻詞等級相關(guān)度的方法”所產(chǎn)生的數(shù)據(jù)波動略大,離散度略高。

        3 探析《紅樓夢》的作者信息

        以《紅樓夢》作為實(shí)驗(yàn)語料,使用哈工大社會計(jì)算與信息檢索研究中心研發(fā)的“語言技術(shù)平臺”對語料作分詞處理,把《紅樓夢》的120回分為12份語料,每份語料包含10回,這樣第一份語料就包含第1至第10回,第二份語料包含第11回至第20回,……,依次類推,簡寫為: 一(第1~10回)、二(第11~20回)、三(第21~30回)、四(第31~40回)、五(第41~50回)、六(第51~60回)、七(第61~70回)、八(第71~80回)、九(第81~90回)、十(第91~100回)、十一(第101~110回)、十二(第111~120回)[22]。

        使用“基于高頻詞等級相關(guān)度的方法”計(jì)算這12份語料相互之間的相關(guān)度,均取出現(xiàn)頻次排在前100位的詞型作為樣本語料。把相關(guān)數(shù)據(jù)匯總起來,形成表6所示的相關(guān)度矩陣。為了便于發(fā)現(xiàn)前80回與后40回之間的區(qū)別,把表6中的數(shù)據(jù)也劃分為三個區(qū),第一區(qū)位于表格左上角,是前八份語料相互之間的相關(guān)度數(shù)據(jù),在表中都以黑色字體顯示;第二區(qū)位于表格右下角,是后四份語料相互之間的相關(guān)度數(shù)據(jù),在表中都以黑色斜體字顯示;第三區(qū)位于右上角和左下角,是前8份語料與后4份語料兩部分語料之間的相關(guān)度數(shù)據(jù),都以常規(guī)字體顯示。

        表6 使用“基于高頻詞等級相關(guān)度的方法”得到的相關(guān)度矩陣(%)

        計(jì)算出使用這種方法所得到數(shù)據(jù)的各個區(qū)均值,并且計(jì)算出各區(qū)之間的均值之差,把結(jié)果匯總起來,形成表7。通過分析表7,我們發(fā)現(xiàn): 使用“基于高頻詞等級相關(guān)度的方法”所得到的數(shù)據(jù)三個區(qū)的均值分別為68.51%、73.69%、50.74%,三個區(qū)之間的均值差異比較大,第一、三區(qū)均值之差為17.77%,第二、三區(qū)均值之差為22.95%,差異明顯。

        表7 各區(qū)均值及區(qū)間均值之差(%)

        分析上述數(shù)據(jù),能夠得到以下結(jié)論: (1)《紅樓夢》的前8份語料相互之間的相關(guān)度要高,后四份語料相互之間的相關(guān)度也高,即語言風(fēng)格相似度大; (2)前8份語料與后4份語料之間的相關(guān)度要低,即語言風(fēng)格差異度大。

        4 結(jié)語

        我們把《紅樓夢》的120回均分為12份語料,每10回作為一份語料,然后使用“基于高頻詞等級相關(guān)度的方法”,計(jì)算這12份語料兩兩之間的相關(guān)度,得到結(jié)論: “《紅樓夢》的前8份語料兩兩之間相關(guān)度高,后4份語料兩兩之間相關(guān)度也高,而前8份語料與后4份語料這兩部分語料之間相關(guān)度低?!币簿褪钦f,前80回之間語言風(fēng)格相似度高,后40回之間的語言風(fēng)格相似度也高,而前80回與后40回的語言風(fēng)格差異很大。由此推斷《紅樓夢》前80回應(yīng)是同一人所寫,后40回應(yīng)是另一人所寫。

        猜你喜歡
        高頻詞語料均值
        30份政府工作報(bào)告中的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        省級兩會上的高頻詞
        小康(2022年7期)2022-03-10 11:15:54
        28份政府工作報(bào)告中的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        省級兩會上的高頻詞
        小康(2021年7期)2021-03-15 05:29:03
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        均值不等式失效時的解決方法
        均值與方差在生活中的應(yīng)用
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        關(guān)于均值有界變差函數(shù)的重要不等式
        對偶均值積分的Marcus-Lopes不等式
        av在线观看免费天堂| 国产人成无码视频在线观看| 亚洲精品国精品久久99热| 中文成人无字幕乱码精品区| 久久国产亚洲精品超碰热 | 丝袜美腿av免费在线观看| 青青草免费在线爽视频| 亚洲av不卡一区二区三区| 国产精品一区二区电影| 日本高清视频在线一区二区三区| 午夜亚洲精品一区二区| 丰满人妻一区二区三区视频| 国产精品无码成人午夜电影| 亚洲AV无码成人精品区网页| 亚洲精品白浆高清久久| 极品美女调教喷水网站| 亚洲成av人片在线观看| 国产福利永久在线视频无毒不卡| 久久中文精品无码中文字幕下载| 国产精品23p| 久久天堂av综合合色| 天天躁夜夜躁狠狠躁婷婷| 青青草视频免费观看| a毛片全部免费播放| 午夜精品一区二区久久做老熟女 | 亚欧视频无码在线观看| 亚洲女厕偷拍一区二区| 久久精品中文字幕大胸| 亚洲免费视频播放| 免费看黄在线永久观看| 99久久久无码国产精品性| 精品在线视频在线视频在线视频| 国产精品永久免费| 久久永久免费视频| 亚洲麻豆av一区二区| 中国免费看的片| 夫妇交换刺激做爰视频| 91免费国产高清在线| 日韩在线精品视频一区| 天天天天躁天天爱天天碰| 亚洲日本va中文字幕久久|