孫龍龍,顧長(zhǎng)貴,馮 靖,吳果林
(1.上海理工大學(xué) 管理學(xué)院,上海 200093;2.上海工程技術(shù)大學(xué) 高等職業(yè)技術(shù)學(xué)院,上海 200437;3.桂林航天工業(yè)學(xué)院 理學(xué)院,桂林 541004)
近年來(lái),國(guó)內(nèi)外許多學(xué)者都對(duì)文本語(yǔ)言?xún)?nèi)的無(wú)標(biāo)度規(guī)律進(jìn)行了詳細(xì)的研究,并且取得了很多重要的成果。但前人大多數(shù)的研究對(duì)象都是英文文本,并且大多都是在單詞層面,忽略了文本語(yǔ)言在其他層次上的無(wú)標(biāo)度規(guī)律。本文的研究主要針對(duì)中文文本在句子、段落層次的無(wú)標(biāo)度規(guī)律進(jìn)行展開(kāi)。
人類(lèi)語(yǔ)言學(xué)是非常復(fù)雜的社會(huì)系統(tǒng)[1],是人類(lèi)文化在社會(huì)以及生物層面長(zhǎng)時(shí)間演化的結(jié)晶[2]。在過(guò)去的一百年里,統(tǒng)計(jì)理論的日益完善,使得人類(lèi)語(yǔ)言學(xué)的研究得到了長(zhǎng)足的發(fā)展。其中,Zipf[3]提出了著名的Zipf’s定律。它的主要思想是將單詞按照其出現(xiàn)頻率進(jìn)行排序,頻率最高的單詞標(biāo)記為等級(jí)1(rank 1),頻率第二高的單詞標(biāo)記為等級(jí)2(rank 2)……依次排列,在雙對(duì)數(shù)坐標(biāo)系里單詞頻率與等級(jí)標(biāo)號(hào)呈現(xiàn)負(fù)相關(guān)規(guī)律。由Zipf’s定律,文獻(xiàn)[4]中將Holy Bible翻譯成多種語(yǔ)言,研究了每一種語(yǔ)言的Zipf指數(shù)。文獻(xiàn)[5]對(duì)日文文本中平假名文字頻率分布進(jìn)行研究,指出日文中平假名的出現(xiàn)頻率服從weibull分布的論點(diǎn)。文獻(xiàn)[6]中指出了中文漢字出現(xiàn)頻率服從冪律分布的特點(diǎn)。
對(duì)于語(yǔ)言?xún)?nèi)部存在的無(wú)標(biāo)度規(guī)律(冪律分布)現(xiàn)象,許多學(xué)者也作了深入的研究。Altmann等[7]解釋了無(wú)標(biāo)度規(guī)律在單詞層次和單詞字母層次之間的演化。Deng等[8]對(duì)中國(guó)近現(xiàn)代小說(shuō)從漢字使用頻率角度加以研究,發(fā)現(xiàn)漢字的使用具有無(wú)標(biāo)度規(guī)律現(xiàn)象。Montemurro等[9]和Bhan等[10]使用去趨勢(shì)波動(dòng)分析法(detrended flutuation analysis,DFA)對(duì)英文文本和韓文文本加以分析,發(fā)現(xiàn)英語(yǔ)和韓語(yǔ)內(nèi)部存在的無(wú)標(biāo)度規(guī)律。在文獻(xiàn)[11-12]中,Ausloos和Gillet將英文文本轉(zhuǎn)化為世界語(yǔ)文本,同樣也得到了在英文文本和世界語(yǔ)文本中都存在無(wú)標(biāo)度規(guī)律的性質(zhì)。以上研究大多使用去趨勢(shì)波動(dòng)分析法分析非漢語(yǔ)語(yǔ)言文本的無(wú)標(biāo)度規(guī)律。此外,去趨勢(shì)波動(dòng)分析法還可以有效探測(cè)非平穩(wěn)性時(shí)間序列上的無(wú)標(biāo)度規(guī)律,在DNA核苷酸序列、脈搏信號(hào)序列、金融時(shí)間序列、天氣預(yù)測(cè)方面都有極為廣泛的應(yīng)用[13-20]。
目前對(duì)于語(yǔ)言文本無(wú)標(biāo)度規(guī)律的研究大多基于單詞的層面,而沒(méi)有從語(yǔ)句和段落的更高層次對(duì)文本加以研究[19]。對(duì)語(yǔ)言文本而言,語(yǔ)句和段落是其重要的組成單元[20]。一方面,語(yǔ)句為單詞的使用提供了具體的語(yǔ)境,另一方面,語(yǔ)句的邏輯排列形成語(yǔ)句群、段落乃至整個(gè)文本,從而清楚地表達(dá)作者思想。此外,上述文獻(xiàn)的研究對(duì)象大都是英文文本,而很少有研究者對(duì)中文小說(shuō)文本進(jìn)行研究。然而,中文小說(shuō)文本與西方文學(xué)作品有很大差別,即中國(guó)的漢字是由繪畫(huà)引申而來(lái)[21],其后漢字經(jīng)過(guò)幾千年的演化使得中國(guó)人的思想表達(dá)方式與西方有很大不同。概括而言,漢字語(yǔ)言是世界上最為成熟的語(yǔ)言之一,而對(duì)于漢字在語(yǔ)句和段落層次上的無(wú)標(biāo)度規(guī)律的研究,卻很少有學(xué)者涉及。本文從語(yǔ)句層次以及段落層次使用去趨勢(shì)波動(dòng)分析法對(duì)中國(guó)古代小說(shuō)文本四大名著加以研究。
本文所用到的數(shù)據(jù)均來(lái)自4大名著小說(shuō)文本。四大名著是中國(guó)文學(xué)史中的經(jīng)典作品,它們分別是《紅樓夢(mèng)》(A Dream of Red Mansions)簡(jiǎn)記為ADRM,《三國(guó)演義》(The Romence of Three Kingdoms)簡(jiǎn)記為T(mén)RTK,《水滸傳》(All Men are Brothers)簡(jiǎn)記為AMAB,《西游記》(The Pilgrimage to the West)簡(jiǎn)記為T(mén)PTW。表1給出了四大名著相關(guān)文本數(shù)據(jù)。
表1 四大名著相關(guān)文本數(shù)據(jù)Tab.1 Related data of Four Great Classical Novels
本文分別從以上4本小說(shuō)文本中提取每段字?jǐn)?shù)時(shí)間序列、每段句子數(shù)時(shí)間序列和每句字?jǐn)?shù)時(shí)間序列。忽略所有標(biāo)點(diǎn)符號(hào),僅計(jì)算每段漢字的個(gè)數(shù)Mt,來(lái)構(gòu)建每段字?jǐn)?shù)時(shí)間序列;以句號(hào)(‘.’)、問(wèn)號(hào)(‘?’)、感嘆號(hào)(‘!’)、省略號(hào)(‘……’)為一句話(huà)結(jié)束的標(biāo)志并忽略其他標(biāo)點(diǎn)符號(hào),來(lái)統(tǒng)計(jì)每句話(huà)漢字?jǐn)?shù)Mv和每段的句子數(shù)Mw,并構(gòu)建相應(yīng)的時(shí)間序列。圖1(a)為摘自《紅樓夢(mèng)》中的一段文字,其中標(biāo)記在紅框內(nèi)的標(biāo)點(diǎn)符號(hào)為每句話(huà)結(jié)束的標(biāo)志。圖1(b)為與上述文本相對(duì)應(yīng)的每句字?jǐn)?shù)時(shí)間序列 ξi={27,20,13,21,11,15,···},其中Num(n)表示句子數(shù)目,Mv(n)表示每句話(huà)的漢字?jǐn)?shù)目。
圖1 文本向時(shí)間序列的轉(zhuǎn)化Fig.1 Translation from text to time series
去趨勢(shì)波動(dòng)分析法是1994年由Peng等[13]基于DNA機(jī)理提出的標(biāo)度計(jì)算方法。該方法適用于分析非平穩(wěn)性時(shí)間序列的長(zhǎng)程相關(guān)性,其優(yōu)點(diǎn)是它可以有效濾去序列中的各階趨勢(shì)成分,并能檢測(cè)含有噪聲且疊加有多項(xiàng)式趨勢(shì)信號(hào)的長(zhǎng)程相關(guān)[13-20]。假設(shè)一時(shí)間序列為其中N為序列長(zhǎng)度。
首先對(duì)該序列進(jìn)行相空間重構(gòu),可得到一系列時(shí)間序列片段Yn:
式中,s為去趨勢(shì)波動(dòng)分析法中盒子的大小。
其次,對(duì)每個(gè)時(shí)間序列片段用q階多項(xiàng)式
如果原時(shí)間序列存在長(zhǎng)期相關(guān)性,則有
式中,H為標(biāo)度指數(shù)(scaling exponent)。若H=0.5,則表明時(shí)間序列可用隨機(jī)游走過(guò)程來(lái)描述;若0.5 計(jì)算過(guò)程中,多項(xiàng)式擬合函數(shù)中的階數(shù)q取2,即用最小二乘法擬合序列片段趨勢(shì)。用q值取2的多項(xiàng)式對(duì)序列片段進(jìn)行擬合,使得每個(gè)標(biāo)度范圍內(nèi)的數(shù)據(jù)點(diǎn)數(shù)目幾乎相同,提高了結(jié)果的準(zhǔn)確性[19]。 對(duì)四大名著每段句子數(shù)時(shí)間序列、每段字?jǐn)?shù)時(shí)間序列、每句字?jǐn)?shù)時(shí)間序列運(yùn)用去趨勢(shì)波動(dòng)分析法分析,結(jié)果如圖2所示。其中:lns為對(duì)盒子大小取對(duì)數(shù)值;lnDFA(s)為對(duì)漲落的大小取對(duì)數(shù)值。 每段句子數(shù)時(shí)間序列和每段字?jǐn)?shù)時(shí)間序列的標(biāo)度指數(shù)H幾乎相同,且接近于0.60。每句字?jǐn)?shù)時(shí)間序列的標(biāo)度指數(shù)H則偏小,但其標(biāo)度指數(shù)H值也接近于0.60。這說(shuō)明中國(guó)四大名著小說(shuō)無(wú)論在段落層次還是語(yǔ)句層次上均具有長(zhǎng)程相關(guān)性,且標(biāo)度指數(shù)H與Holy Bible[22]在單詞長(zhǎng)度層次得到的標(biāo)度指數(shù)H幾乎相同。這也進(jìn)一步表明在中文小說(shuō)文本中,其語(yǔ)言?xún)?nèi)部無(wú)論是段落層次還是語(yǔ)句層次均存在固有的無(wú)標(biāo)度規(guī)律。 為了更加細(xì)致地研究上述時(shí)間序列,對(duì)以上時(shí)間序列設(shè)置滑動(dòng)窗口S,把時(shí)間序列劃分成相應(yīng)的時(shí)序片段,分別對(duì)每一個(gè)時(shí)序片段采用去趨勢(shì)波動(dòng)分析法分析。每段句子數(shù)時(shí)間序列和每段字?jǐn)?shù)時(shí)間序列的序列長(zhǎng)為 103,且滑動(dòng)窗口長(zhǎng)度S=1 000,每句字?jǐn)?shù)時(shí)間序列的序列長(zhǎng)為1 04,且滑動(dòng)窗口S取10 000。在每段字?jǐn)?shù)時(shí)間序列結(jié)果中,《紅樓夢(mèng)》和《水滸傳》兩本小說(shuō)前后部分存在著標(biāo)度指數(shù)的明顯變化,結(jié)果如圖3所示。圖3 中(e),(f),(g),(h)分別為《紅樓夢(mèng)》、《三國(guó)演義》、《水滸傳》、《西游記》在各個(gè)時(shí)序片段上的擬合圖。其中:Num(n)表示滑動(dòng)窗口的數(shù)目;H(n)表示對(duì)應(yīng)滑動(dòng)窗口的標(biāo)度指數(shù)。 圖2 四大名著在各個(gè)層次的標(biāo)度律Fig.2 Scaling behaviors of Four Great Classical Novels across all levels 從圖3可以看出,《紅樓夢(mèng)》和《水滸傳》的標(biāo)度指數(shù)變化相對(duì)明顯,其變化區(qū)間分別為[0.55,0.65]和[0.52,0.71],且《紅樓夢(mèng)》和《水滸傳》存在標(biāo)度指數(shù)轉(zhuǎn)變點(diǎn)?!都t樓夢(mèng)》的標(biāo)度指數(shù)轉(zhuǎn)變點(diǎn)在第72章節(jié),且轉(zhuǎn)變點(diǎn)前或后標(biāo)度指數(shù)相對(duì)穩(wěn)定。《水滸傳》的標(biāo)度指數(shù)轉(zhuǎn)變點(diǎn)L1在第67章節(jié),其轉(zhuǎn)變點(diǎn)之前的標(biāo)度指數(shù)呈遞減趨勢(shì),轉(zhuǎn)變點(diǎn)之后的標(biāo)度指數(shù)呈遞增趨勢(shì)?!度龂?guó)演義》和《西游記》的標(biāo)度指數(shù)則無(wú)明顯變化,其浮動(dòng)區(qū)間分別為[0.57,0.60]和[0.56,0.59]。分別對(duì)《紅樓夢(mèng)》和《水滸傳》轉(zhuǎn)變點(diǎn)前后的標(biāo)度指數(shù)做雙樣本t檢驗(yàn)(two-samplettest),檢驗(yàn)結(jié)果如表 2 所示。 圖3 使用去趨勢(shì)波動(dòng)分析法分析每段字?jǐn)?shù)時(shí)序片段的結(jié)果Fig.3 DFA results of the time series’ segments for the number of characters in a paragraph 對(duì)于《紅樓夢(mèng)》和《水滸傳》,其標(biāo)度指數(shù)轉(zhuǎn)變點(diǎn)前后差異顯著(P<0.001)。事實(shí)上,對(duì)于《紅樓夢(mèng)》一書(shū)作者的爭(zhēng)議一直存在,當(dāng)下大眾比較認(rèn)可的一種說(shuō)法是《紅樓夢(mèng)》由曹雪芹和高鶚兩人前后歷經(jīng)十幾年時(shí)間創(chuàng)作完成,其中曹雪芹創(chuàng)作了前80章節(jié),后40章節(jié)由高鶚在曹雪芹的思想影響下續(xù)寫(xiě)完成[23]。而對(duì)于《水滸傳》一書(shū)的作者也存在很大爭(zhēng)議,普遍認(rèn)為《水滸傳》一書(shū)是由施耐庵一人完成[24-26]。但也有人指出《水滸傳》是由施耐庵和羅貫中共同完成的,即“施耐庵的本,羅貫中編次”[27-29]。本文從數(shù)理統(tǒng)計(jì)的角度分析,發(fā)現(xiàn)了《紅樓夢(mèng)》和《水滸傳》書(shū)中每段字?jǐn)?shù)時(shí)間序列存在標(biāo)度指數(shù)的轉(zhuǎn)變,且轉(zhuǎn)變點(diǎn)前后標(biāo)度指數(shù)顯著變化。為了驗(yàn)證上述發(fā)現(xiàn),本文從每段所含信息量的角度作了以下工作加以分析。 表2 轉(zhuǎn)變點(diǎn) L1前后雙樣本t檢驗(yàn)結(jié)果Tab.2 Results of two-sample t test for the data before and after separation points L1 令{Xi},i=1,2,···,Nv,表示每段字?jǐn)?shù)時(shí)間序列;{Yi},i=1,2,···,Nv,表示每段句子數(shù)時(shí)間序列; {Zi},i=1,2,···,Nw,表示每句字?jǐn)?shù)時(shí)間序列。其中,Nv表示段落數(shù),Nw表示句子數(shù)。則有: 將每句字?jǐn)?shù)時(shí)間序列 {Zi}均分成Nv段,每一段含有wv個(gè)元素,對(duì)每個(gè)片段運(yùn)用香農(nóng)熵(Shannon entropy)[30-32]: 由式(5),每一個(gè)片段會(huì)得到對(duì)應(yīng)的H(i)的值。在此將H(i)定義為每一段所包含的信息量,對(duì)每段信息量時(shí)間序列作去趨勢(shì)波動(dòng)分析,其結(jié)果如圖4所示。 圖4給出了四大名著每段信息量時(shí)間序列的標(biāo)度行為,《紅樓夢(mèng)》、《三國(guó)演義》、《水滸傳》、《西游記》的標(biāo)度指數(shù)分別為0.62,0.62,0.65,0.59。由此可得,每段信息量時(shí)間序列的標(biāo)度指數(shù)和每段字?jǐn)?shù)時(shí)間序列的標(biāo)度指數(shù)幾乎相同。 為了理解《紅樓夢(mèng)》和《水滸傳》兩本小說(shuō)存在轉(zhuǎn)變點(diǎn)的現(xiàn)象,對(duì)每段信息量時(shí)間序列劃分時(shí)序片段,其序列長(zhǎng)為1 03,且滑動(dòng)窗口S取1 000。同樣對(duì)每個(gè)時(shí)序片段運(yùn)用去趨勢(shì)波動(dòng)分析法分析,結(jié)果如圖5所示。 由圖5可知,《紅樓夢(mèng)》和《水滸傳》的信息量時(shí)間序列也存在標(biāo)度指數(shù)分段現(xiàn)象,《紅樓夢(mèng)》的每段信息量時(shí)間序列標(biāo)度指數(shù)的轉(zhuǎn)變點(diǎn)L2與每段字?jǐn)?shù)時(shí)間序列的標(biāo)度指數(shù)轉(zhuǎn)變點(diǎn)L1一致,均在第72章節(jié)?!端疂G傳》的每段信息量時(shí)間序列標(biāo)度指數(shù)的轉(zhuǎn)變點(diǎn)L2在第62章節(jié)。對(duì)《紅樓夢(mèng)》和《水滸傳》每段信息量轉(zhuǎn)變點(diǎn)前后進(jìn)行差異性檢驗(yàn),表3列出了雙樣本t檢驗(yàn)(two-samplettest)的檢驗(yàn)結(jié)果。 表3 轉(zhuǎn)變點(diǎn) L2前后雙樣本t檢驗(yàn)結(jié)果Tab.3 Results of two-sample t test for the data before and after separation pointsL2 表2和表3結(jié)果表明,《紅樓夢(mèng)》和《水滸傳》無(wú)論在每段字?jǐn)?shù)時(shí)間序列,還是在每段所含信息量時(shí)間序列上,均存在標(biāo)度指數(shù)的轉(zhuǎn)變現(xiàn)象,且轉(zhuǎn)變點(diǎn)前后的標(biāo)度指數(shù)差異性顯著(P<0.008)。 前人在英文版的Holy Bible[22]中,使用去趨勢(shì)波動(dòng)分析研究了由單詞長(zhǎng)度構(gòu)成的時(shí)間序列,發(fā)現(xiàn)了標(biāo)度指數(shù)接近為0.6的無(wú)標(biāo)度規(guī)律。本文在更高的層次即在段落層次和語(yǔ)句層次上使用去趨勢(shì)波動(dòng)分析我國(guó)的四大名著文本,即分析每一名著的每段句子數(shù)時(shí)間序列、每段字?jǐn)?shù)時(shí)間序列和每句字?jǐn)?shù)時(shí)間序列。研究發(fā)現(xiàn),中國(guó)四大名著在各個(gè)層次上存在標(biāo)度律,且每個(gè)層次上的標(biāo)度指數(shù)也都接近于0.60。這說(shuō)明中文小說(shuō)文本在各個(gè)層次上均滿(mǎn)足固有的無(wú)標(biāo)度規(guī)律,且具有相似的長(zhǎng)程相關(guān)性,各個(gè)層次相似的無(wú)標(biāo)度規(guī)律表明中文文本從微觀層次到宏觀層次具有相似的長(zhǎng)程關(guān)聯(lián)性,為重構(gòu)語(yǔ)言形成與發(fā)展的理論模型提供幫助。 此外,本文還佐證了《紅樓夢(mèng)》的作者為曹雪芹和高鶚兩人的說(shuō)法,并支持《水滸傳》一書(shū)有很大可能是施耐庵與羅貫中合作完成的觀點(diǎn)。用去趨勢(shì)波動(dòng)分析法對(duì)每段字?jǐn)?shù)時(shí)間序列的時(shí)序片段以及每段信息量時(shí)間序列的時(shí)序片段分析,得出了《紅樓夢(mèng)》和《水滸傳》這兩本小說(shuō)在段落字?jǐn)?shù)以及段落信息量上存在著標(biāo)度指數(shù)的前后顯著差別。《紅樓夢(mèng)》的標(biāo)度指數(shù)轉(zhuǎn)變點(diǎn)為第72章節(jié),即其前72章節(jié)和后48章節(jié)在段落結(jié)構(gòu)和段落信息量上存在著前后變化,該轉(zhuǎn)變點(diǎn)現(xiàn)象與學(xué)者們認(rèn)為的《紅樓夢(mèng)》前80章由曹雪芹創(chuàng)作、后40章由高鶚完成的說(shuō)法相接近。不同的標(biāo)度指數(shù)表征不同作者的寫(xiě)作習(xí)慣以及表達(dá)方式,在一定程度上標(biāo)度指數(shù)可以作為區(qū)分不同作者的依據(jù)[20]。而對(duì)于《水滸傳》,其標(biāo)度指數(shù)也存在轉(zhuǎn)變點(diǎn)現(xiàn)象,約為第70章節(jié),從而支持了《水滸傳》一書(shū)有很大可能是兩人共同編寫(xiě)的結(jié)論,與當(dāng)下許多學(xué)者認(rèn)為的《水滸傳》是“施耐庵的本,羅貫中編次”的說(shuō)法不謀而合[27-29]。4 無(wú)標(biāo)度規(guī)律分析結(jié)果
4.1 無(wú)標(biāo)度規(guī)律分析
4.2 時(shí)序片段的分析
5 結(jié) 論