亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

文獻(xiàn)中的詞語分布、詞型等級和風(fēng)格計(jì)算

2017-10-11 07:31:45馬創(chuàng)新陳小荷

中文信息學(xué)報 2017年4期

關(guān)鍵詞：總數(shù)論語詞語

馬創(chuàng)新,陳小荷

(1. 江蘇師范大學(xué) 語言科學(xué)與藝術(shù)學(xué)院，江蘇徐州 221009; 2. 南京師范大學(xué) 文學(xué)院，江蘇南京 210097)

文獻(xiàn)中的詞語分布、詞型等級和風(fēng)格計(jì)算

馬創(chuàng)新1,陳小荷2

(1. 江蘇師范大學(xué) 語言科學(xué)與藝術(shù)學(xué)院，江蘇徐州 221009; 2. 南京師范大學(xué) 文學(xué)院，江蘇南京 210097)

文獻(xiàn)的語言風(fēng)格是作者在語言運(yùn)用方面的思維定勢的體現(xiàn)，對于文獻(xiàn)之間語言風(fēng)格的差異，以前的研究大多采用定性分析的方式加以比較和概括，而在文獻(xiàn)檢索和文本分類領(lǐng)域需要得到量化的語言風(fēng)格相似度。該文首先分析文獻(xiàn)中詞語分布的普遍規(guī)律，以先秦八部經(jīng)典文獻(xiàn)為觀察語料，發(fā)現(xiàn)這些文獻(xiàn)中的詞語既呈離散分布，又呈集中分布；然后通過計(jì)算文獻(xiàn)之間詞型等級的相關(guān)系數(shù)，來獲取量化的語言風(fēng)格相似度，構(gòu)建了八部文獻(xiàn)之間的相似度矩陣，驗(yàn)證了語言風(fēng)格的差異不僅體現(xiàn)在使用的常用詞上，還更細(xì)微地體現(xiàn)在常用詞的使用頻率等級上。

詞語分布；離散；集中；檢索；風(fēng)格

Abstract: The language style of literature is the embodiment of the author’s mindset using language. For a quantitative analysis of the language style, this paper analyzes the word distribution in the pre-Qin literatures, collecting eight classic literatures as the corpus. The power-law distribution is again testified. Then the correlation coefficient of the word type grades between the literatures are calculated. We show that the language style differs not only in the use of common words, but also in the word types grade.

Key words: words distribution; dispersion; concentration; retrieval; style

收稿日期： 2016-07-11 定稿日期： 2017-02-23

基金項(xiàng)目：江蘇省社科基金(15YYC001)；國家社科基金(15BYY096)

1 引言

人類行為由于受到思維定勢的影響，會表現(xiàn)出相對固定的模式。思維定勢是個體受到生活環(huán)境、知識背景和過往經(jīng)驗(yàn)的影響而逐漸形成的相對穩(wěn)定的思維方式，在一定的時期內(nèi)，成為指導(dǎo)個體行為方式的固有模式。文獻(xiàn)的語言風(fēng)格就是作者在語言運(yùn)用方面的思維定勢的體現(xiàn)，是作者在遣詞造句方面的個性特征。當(dāng)作者在表達(dá)一個事物或者現(xiàn)象時，會有一系列的同類詞語可供選擇，有的詞語會被經(jīng)常選用，有的不常被選用。這種頻度不均的選擇本身使得被選詞語的特征信息更加突出，又會反過來作為再次被選擇的依據(jù)。如果把個體在表達(dá)一個事物或者現(xiàn)象時選用某個詞語看作是這個詞語的一次成功，那么這種成功的累積必然容易產(chǎn)生新的成功，這就逐漸形成個體在語言運(yùn)用方面的思維定勢[1]。

對于作品之間語言風(fēng)格的差異，以前的研究大多采用定性分析的方式，加以比較、歸納和概括。那么，如何才能得到文獻(xiàn)之間量化的語言風(fēng)格相似度呢?這成為文獻(xiàn)檢索和文本分類領(lǐng)域亟需解決的關(guān)鍵問題。本文在分析文獻(xiàn)中詞語分布普遍規(guī)律的基礎(chǔ)上，首次提出通過計(jì)算文獻(xiàn)之間在詞頻等級方面的相關(guān)系數(shù)來嘗試獲取量化的語言風(fēng)格相似度的方法。

2 相關(guān)研究

在詞頻等級的研究方面，布拉德福提出了一種在社會科學(xué)領(lǐng)域中應(yīng)用廣泛的重要研究方法，即頻次-等級排序法。按某一具體事項(xiàng)在其主體來源中的出現(xiàn)頻次按遞減順序排列起來，就會導(dǎo)出布拉德福分布。比如，如果把某篇文章中的詞語按照其出現(xiàn)頻次遞減排列，就會呈現(xiàn)出布拉德福分布。布拉德福分布的特點(diǎn)顯示出我們考察的具體對象的大多數(shù)集中于少數(shù)主體來源。比如，人們寫文章時總是傾向于選擇自己常用的詞語。齊普夫定律[2]描述了詞語的頻率與等級序號之間的關(guān)系，發(fā)現(xiàn)任何一篇文章中詞的頻次和頻次等級的乘積總是一個常數(shù)。孫清蘭[3]研究高頻、低頻詞界分公式，分析詞頻與同頻詞數(shù)量的內(nèi)在規(guī)律。

在計(jì)算語言風(fēng)格的研究方面，徐秉錚等[4]從詞的相關(guān)性和上下文的相關(guān)性、字符數(shù)的統(tǒng)計(jì)、字符串的統(tǒng)計(jì)等三方面判斷《紅樓夢》前八十回與后四十回的語言風(fēng)格有明顯的不同。日本學(xué)者金明哲[5]采用基于詞性組合的統(tǒng)計(jì)分析方法，使用以字符為單位的unigram 和以詞性為單位的n-gram 作為特征，分析文本的語言風(fēng)格。武曉春等[6]依據(jù)文體學(xué)理論,利用HowNet知識庫,提出一種基于詞匯語義分析的相似度評估方法,有效利用了功能詞以外的其他詞匯,達(dá)到了較好的作者身份識別性能。王少康等[7]基于對句長的統(tǒng)計(jì)構(gòu)建段長的序列組合，分析寫作風(fēng)格，利用不同作者寫作時在文章語句節(jié)奏控制方面的特點(diǎn)，對十位作家進(jìn)行識別分類。陳芯瑩等[8]對兩個語料樣本進(jìn)行統(tǒng)計(jì)分析，從中總結(jié)出句長、型例比、名詞比例、代詞比例、標(biāo)點(diǎn)符號比例、感嘆句比例、單現(xiàn)詞比例等七個具有顯著分布差異的語言結(jié)構(gòu)特征，并以這些特征作為文本的表示特征對兩個未知作家文本進(jìn)行了相關(guān)系數(shù)統(tǒng)計(jì)和分析，準(zhǔn)確地判定了這兩個文本的作者。

3 文獻(xiàn)中詞語分布的普遍規(guī)律

為了考察文獻(xiàn)中的詞語分布規(guī)律，我們選取了八部先秦經(jīng)典文獻(xiàn)作為觀察語料。這八部文獻(xiàn)中包含三部儒家著作：《論語》、《孟子》、《荀子》；兩部道家著作：《老子》、《莊子》；兩部法家著作：《韓非子》、《管子》；一部墨家著作：《墨子》。我們首先對這八部文獻(xiàn)作了人工分詞處理，然后再考察它們的詞語分布狀況[9-10]。通過對文獻(xiàn)中出現(xiàn)的詞語進(jìn)行排序、統(tǒng)計(jì)和比較，我們發(fā)現(xiàn)文獻(xiàn)中的詞語分布普遍存在兩個相互對立而又統(tǒng)一的規(guī)律，即離散分布和集中分布。

3.1 離散分布

詞型(word types)是指詞表中所包含的一個個詞語條目，詞例(word tokens)是指某個詞型在特定語料中的使用實(shí)例，如果某個詞型被多次使用，這個詞型就會有多個詞例。我們首先統(tǒng)計(jì)了文獻(xiàn)中出現(xiàn)的詞型總數(shù)和詞例總數(shù)(詞例總數(shù)等于所有詞型的出現(xiàn)次數(shù)之和)，再把各個詞型按照其出現(xiàn)次數(shù)(即各個詞型的詞例數(shù))從高到低排序[11-12]，我們發(fā)現(xiàn)各個文獻(xiàn)中出現(xiàn)一次的詞型數(shù)占總詞型數(shù)的比例是基本相同的，全都呈現(xiàn)出極具規(guī)律性的離散分布。如表1所示。

表1 文獻(xiàn)中詞語的離散分布情況

續(xù)表

分析表1，發(fā)現(xiàn)如下特點(diǎn)。

(1) 在各部文獻(xiàn)中，詞型的平均出現(xiàn)次數(shù)差異很大，在6.25次～23.46次之間，均值為14.88。在《老子》中每個詞型平均出現(xiàn)次數(shù)最少，為6.25次，《管子》中每個詞型平均出現(xiàn)次數(shù)最多，為23.46次，這兩個文獻(xiàn)中的每個詞型平均出現(xiàn)次數(shù)相差17.21次。

(2) 在各個文獻(xiàn)中，“僅出現(xiàn)一次的詞型數(shù)量”與“詞型總數(shù)”之比是相近的，在39.02%～49.50%之間，均值為44.13%，全距為10.48%?！皟H出現(xiàn)兩次的詞型數(shù)量”與“詞型總數(shù)”之比也是相近的，在13.55%～16.15%之間，均值為14.81%，全距為2.6%?！皟H出現(xiàn)三次的詞型數(shù)量”與“詞型總數(shù)”之比也是相近的，在7.12%～9.95%之間，均值為7.79%，全距為2.83%。

(3) 文獻(xiàn)中出現(xiàn)的大量詞型是呈離散分布的。在這八部文獻(xiàn)中，平均44.13%的詞型僅出現(xiàn)一次，14.81%的詞型只出現(xiàn)兩次，7.79%的詞型僅出現(xiàn)三次。也就是說，僅出現(xiàn)一次、兩次和三次的詞型就占了詞型總數(shù)的66.73%。

(4) “詞型的出現(xiàn)頻次”與“出現(xiàn)該頻次的詞型數(shù)量”之間基本上呈負(fù)相關(guān)趨勢。為了能夠得到準(zhǔn)確的分析結(jié)果，我們統(tǒng)計(jì)了《孟子》中出現(xiàn)頻次在1～20次之間的詞型數(shù)量，統(tǒng)計(jì)結(jié)果如表2所示。其中,出現(xiàn)一次的詞型數(shù)量為1 186，出現(xiàn)二次的詞型數(shù)量為433，出現(xiàn)三次的詞型數(shù)量為211, ……詞型的出現(xiàn)次數(shù)越多，出現(xiàn)相同頻次的詞型數(shù)量就會越少，例外情況極少，兩者之間基本上呈負(fù)相關(guān)關(guān)系。

表2 “詞型的出現(xiàn)頻次”與“出現(xiàn)該頻次的詞型數(shù)量”之間關(guān)系

3.2 集中分布

我們分別統(tǒng)計(jì)文獻(xiàn)中出現(xiàn)頻次排前5%、10%、15%、20%的詞型的出現(xiàn)頻次之和，計(jì)算它們占詞例總數(shù)的比例，把數(shù)據(jù)匯總起來，形成表3。

通過對表3的分析，發(fā)現(xiàn)如下特點(diǎn)：

(1) 在各個文獻(xiàn)中，雖然出現(xiàn)的詞型總數(shù)和詞例總數(shù)相差很大，但在各個文獻(xiàn)中“出現(xiàn)頻次排前5%的詞型的出現(xiàn)頻次之和”與“詞例總數(shù)”之比是相近的，在51.92%～72.21%之間，均值為66.75%，全距為20.29%?！俺霈F(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”與“詞例總數(shù)”之比更加相近，在77.23%～92.12%之間，均值為87.13%，全距為14.89%。

表3 文獻(xiàn)中詞語的集中分布情況

(2) 在各部文獻(xiàn)中，詞語均呈現(xiàn)出集中分布的狀況，“出現(xiàn)頻次排前5%的詞型的出現(xiàn)頻次之和”就占“詞例總數(shù)”的66.75%左右，“出現(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.13%左右，呈現(xiàn)出高度集中的狀況。

我們還分別統(tǒng)計(jì)了文獻(xiàn)中出現(xiàn)頻次排在前400位、500位、600位、700位、800位、900位的詞型出現(xiàn)頻次之和，并且計(jì)算頻次之和與詞例總數(shù)的比率，把數(shù)據(jù)匯總起來，形成表4。通過分析，我們發(fā)現(xiàn)雖然各部文獻(xiàn)中出現(xiàn)的詞型總數(shù)和詞例總數(shù)相差很大，比如《管子》中出現(xiàn)的詞型總數(shù)是《老子》的5.36倍，出現(xiàn)的詞例總數(shù)更是相差20多倍。但是在各部文獻(xiàn)中，“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和” 與“詞例總數(shù)”的比率卻是非常相近，在78.84%～88.70%之間，均值為82.03%，全距為9.86%。

表4 出現(xiàn)頻次排在前列的詞型出現(xiàn)頻次之和及其與詞例總數(shù)之比

續(xù)表

另外，文獻(xiàn)中的詞語分布呈現(xiàn)高度集中的狀況，“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和” 就占到“詞例總數(shù)”的82.03%左右，“前500位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的85.27%左右，“前600位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.54%左右，“前700位的詞型的出現(xiàn)頻次之和” 占到“詞例總數(shù)”的89.30%左右，“前800位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的90.79%左右，“前900位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的92.11%左右。

3.3 小結(jié)

文獻(xiàn)中的詞語既呈現(xiàn)離散分布，又呈現(xiàn)集中分布，并且離散分布是絕對的，集中分布是相對的。從低頻詞的詞型方面看，詞語在文獻(xiàn)中呈現(xiàn)離散分布，在本文考察的八部文獻(xiàn)中，平均44.13%的詞型僅出現(xiàn)一次，14.81%的詞型只出現(xiàn)兩次，7.79%的詞型僅只出現(xiàn)三次；從高頻詞的詞例方面看，詞語在文獻(xiàn)中呈現(xiàn)出高度集中的分布狀況，“出現(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.13%左右，“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和”就占到“詞例總數(shù)”的82.03%左右?！扒?00位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的92.11%左右。

我們認(rèn)為齊普夫所提出的“最小努力原則”可以解釋這種詞語分布狀況。齊普夫發(fā)現(xiàn)自然語言的詞匯使用服從“最小努力原則”這個定律，就是當(dāng)人們用語言表達(dá)思想時，同時受到“單一化的力”和“多樣化的力”的共同作用，說話者希望盡量簡短，只用一個詞表達(dá)要領(lǐng)最為省力，而聽話者希望盡量詳盡，每個概念都用一個詞表達(dá)，理解起來最為省力。這兩者的相互作用，取得平衡，使自然語言的詞匯出現(xiàn)頻次雙曲線。

4 語言風(fēng)格的相似度計(jì)算

4.1 詞型等級的確定方法如何確定詞型的等級是一個非常重要的問題。一般情況下，“詞型等級”是按照詞型在文獻(xiàn)中的出現(xiàn)頻次(即詞型的詞例數(shù))以遞減順序排列，把出現(xiàn)頻次最高的詞型等級定為1，次高的詞型等級定為2，依次類推。然而，還有大量的同頻詞型存在，如何確定同頻詞型的等級，國內(nèi)外學(xué)者提出過四種方法[13-14]。

(1) 并列法。把同一頻次的詞型都當(dāng)作一個詞型對待，以其在文獻(xiàn)中詞頻序值為等級。

(2) 最大值法。對同一頻次的詞型排序，排法任意，取它們在文獻(xiàn)中序值的最大值作為這些詞型的等級。國內(nèi)外語言研究者一般認(rèn)為齊普夫定律采用的是這種確定等級的方法。

(3) 最小值法。對同一頻次的詞型任意排序，取它們在文獻(xiàn)中序值的最小值作為這些詞型的等級。

(4) 平均值法。對同一頻次的詞型任意排列，取這些同頻詞在文獻(xiàn)中序值的算術(shù)平均數(shù)作為它們的等級。

表5以《孟子》中出現(xiàn)頻次排前30位的詞型為例，對比了這四種詞型等級的確定方法。

表5 詞型等級的確定實(shí)例(以《孟子》中出現(xiàn)頻次排前30位的詞型為例)

續(xù)表

4.2 相似度的計(jì)算方法

本文通過計(jì)算文獻(xiàn)之間詞型等級的相關(guān)系數(shù)，來估量文獻(xiàn)之間語言風(fēng)格的相似度。相關(guān)系數(shù)是統(tǒng)計(jì)學(xué)中廣泛使用的一種量數(shù)，它表示兩組變量之間聯(lián)系的強(qiáng)度。根據(jù)研究目的和研究數(shù)據(jù)的不同，選擇不同的相關(guān)系數(shù)計(jì)算方法[15-16]。當(dāng)研究數(shù)據(jù)是具有等級性質(zhì)的順序變量，數(shù)據(jù)的總體分布不是正態(tài)分布時，可以計(jì)算數(shù)據(jù)的“斯皮爾曼等級相關(guān)”，它是英國統(tǒng)計(jì)學(xué)家、心理學(xué)家斯皮爾曼根據(jù)積差相關(guān)的概念推導(dǎo)出來的。斯皮爾曼等級相關(guān)的計(jì)算如式(1)。

(1)

其中Di表示每一對數(shù)據(jù)相應(yīng)的兩個等級之差，n表示樣本數(shù)。

斯皮爾曼等級相關(guān)適用于研究數(shù)據(jù)是具有等級性質(zhì)的成對數(shù)據(jù)，并且變量之間呈線性關(guān)系。但是，文獻(xiàn)之間出現(xiàn)的詞型數(shù)據(jù)并不是成對的，從表1可見，各部文獻(xiàn)中出現(xiàn)的詞型數(shù)量差異很大，比如，《論語》中出現(xiàn)1 622個詞型，《孟子》中出現(xiàn)2 723個詞型，不僅詞型數(shù)量不同，而且《論語》中出現(xiàn)的1 622個詞型在《孟子》中也不一定都會出現(xiàn)。所以，我們不能照搬斯皮爾曼等級相關(guān)來計(jì)算詞型等級的相似度，需要對原公式作一些改進(jìn)和限定。

我們用ARs來表示“以文獻(xiàn)A中詞型為樣本”與文獻(xiàn)B比較所得到的相關(guān)系數(shù)，對于在文獻(xiàn)A中出現(xiàn)而文獻(xiàn)B中沒有出現(xiàn)的詞型，不放在計(jì)算范圍內(nèi)。同樣，以BRs來表示“以文獻(xiàn)B中詞型為樣本”與文獻(xiàn)A比較所得到的相關(guān)系數(shù)，對于在文獻(xiàn)B中出現(xiàn)而文獻(xiàn)A中沒有出現(xiàn)的詞型，也不在計(jì)算范圍內(nèi)。

由于語言風(fēng)格體現(xiàn)在常用的詞語和句式中，并且從3.2節(jié)我們得知文獻(xiàn)中“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和”就占到“詞例總數(shù)”的82.03%左右。所以，本文選取在文獻(xiàn)中出現(xiàn)頻次排在前400、500、600、700、800、900位的詞型作為樣本。當(dāng)然，采用這種計(jì)算方法所得到的相關(guān)系數(shù)是一個近似值。

例如，以《論語》中出現(xiàn)頻次排在前400位的詞型作為樣本，計(jì)算它們與《孟子》中對應(yīng)詞型的等級相關(guān)性，首先要計(jì)算這400個詞型在《論語》和《孟子》中的詞型等級差，對于沒有在《孟子》中出現(xiàn)的詞型不作統(tǒng)計(jì)，然后再使用斯皮爾曼等級相關(guān)公式計(jì)算它們相關(guān)系數(shù)。

我們假定為詞型等級的相關(guān)系數(shù)就是語言風(fēng)格的相似度，文獻(xiàn)A與B的語言風(fēng)格相似度用ABRs來表示，ABRs等于ARs與BRs的均值，即： ABRs=(ARs+BRs)/2。也就是說，文獻(xiàn)A與B的語言風(fēng)格相似度就等于“以文獻(xiàn)A中詞型為樣本”與文獻(xiàn)B比較所得到的相關(guān)系數(shù)，加上“以文獻(xiàn)B中詞型為樣本”與文獻(xiàn)A比較所得到的相關(guān)系數(shù)，兩個系數(shù)之和再除以2所得到的商。

4.3 實(shí)驗(yàn)和分析

為了驗(yàn)證本文所提出理論和方法的有效性，我們選取《論語》作為參照文獻(xiàn)，采用“并列法”確定詞型等級，計(jì)算《論語》的折半相似度(所謂折半相似度，即把《論語》均分成兩部文獻(xiàn)，再計(jì)算這兩部文獻(xiàn)的相似度)，以及《論語》分別與另外七部文獻(xiàn)之間的風(fēng)格相似度。實(shí)驗(yàn)數(shù)據(jù)如表6所示，表6中第一行的“400”表示選取文獻(xiàn)中出現(xiàn)頻次排在前400位的詞型作為樣本，依此類推，500、600、700、800和900也表示同類含義。

表6 以《論語》為參照的相似度數(shù)據(jù)

觀察表6中的數(shù)據(jù)，可以發(fā)現(xiàn)如下特點(diǎn)。

(1) 《論語》的折半相似度高于《論語》與其他任一文獻(xiàn)之間的相似度。

(2) 《論語》作為儒家文獻(xiàn)，與其他兩部儒家文獻(xiàn)之間的相似度較高，與道家文獻(xiàn)的相似度也比較高，與法家、墨家文獻(xiàn)的相似度比較低。

(3) 選取的詞型樣本數(shù)越多，相似度越大。比如，在選取頻次排在前400位的詞型作為樣本時，《論語》《管子》的相似度是63.24%，選取前500位的詞型作為樣本時，相似度是72.05%，選取前600位的詞型作為樣本時，相似度是77.97%，隨著選取樣本數(shù)的增加，相似度也在增加。

(4) 無論選取多少個詞型樣本，不管是400個、500個，還是900個，相似度的高低順序是相同的。按照相似度由高到低排列，依次是：《論語》折半相似度、《論語》與《孟子》、《論語》與《老子》、《論語》與《莊子》、《論語》與《荀子》、《論語》與《墨子》、《論語》與《韓非子》、《論語》與《管子》。

(5) 隨著樣本數(shù)的增加，相似度之間的差距在縮小。比如，在選取頻次排在前400位的詞型作為樣本時，《論語》折半相似度是99.88%，《論語》與《墨子》相似度是78.95%，兩個相似度之間的差距是20.93%；而在選取頻次排在前500位的詞型作為樣本時，兩個相似度之間的差距是15.51%；選取前600位的詞型作為樣本時，兩個相似度之間的差距是11.09%，差距都是越來越小。

以上的觀察，證明了本文所提出的方法是能夠有效測量文獻(xiàn)之間語言風(fēng)格相似度的。

為了能夠更全面地分析八部先秦經(jīng)典文獻(xiàn)之間的風(fēng)格相似度，我們采用并列法確定詞型等級，全部選取頻次排在前500位的詞型作為樣本，分別測量八部文獻(xiàn)兩兩之間的相似度，以及它們各自的折半相似度，形成如表7所示的相似度矩陣[17]。

表7 八部文獻(xiàn)之間的相似度矩陣

表7中黑體加粗的數(shù)字表示的是文獻(xiàn)自身的折半相似度，比如第二行第二列的99.93%就是《論語》的折半相似度，第三行第三列的99.82%是《孟子》的折半相似度，依此類推。觀察表7，我們能夠得到如下規(guī)律：

(1) 文獻(xiàn)的折半相似度總是高于該文獻(xiàn)與其他文獻(xiàn)之間的相似度。例如，《墨子》的折半信度為98.36%，高于《墨子》與其他任一文獻(xiàn)之間的相似度；

(2) 同一學(xué)術(shù)流派內(nèi)文獻(xiàn)之間的相似度一般高于流派之間文獻(xiàn)的相似度。例如，《論語》與《孟子》的相似度為98.19%，《韓非子》與《管子》的相似度為96.32%。

5 結(jié)語

本文分析了文獻(xiàn)中詞語分布的普遍規(guī)律，提出通過計(jì)算文獻(xiàn)之間詞型等級的相關(guān)系數(shù)，來獲取量化的語言風(fēng)格相似度。實(shí)驗(yàn)證明，我們提出的方法是切實(shí)可行的，并且還驗(yàn)證了文獻(xiàn)語言風(fēng)格的差異不僅體現(xiàn)在使用的常用詞上,還更加細(xì)微地體現(xiàn)在常用詞的使用頻率等級上。

本文提出的方法，除了用于測量語言風(fēng)格的相似度，還具有一些其他用途[18]，比如本方法對于文獻(xiàn)的自動分類具有輔助作用，同一流派、同一體裁，或者同一時代的文獻(xiàn)之間語言風(fēng)格相似度會高于其他文獻(xiàn)之間的相似度。此外，本方法還可作為鑒定文獻(xiàn)作者的輔助方法，古代的一些文獻(xiàn)的作者難以認(rèn)定，當(dāng)今學(xué)者有著不同的看法，那么可把“存疑文獻(xiàn)”分別與多位作者的“確認(rèn)文獻(xiàn)”進(jìn)行對比，估量文獻(xiàn)之間在詞型等級方面的相似度，這能夠?yàn)楸鎰e“存疑文獻(xiàn)”的作者提供參考信息。

[1] 靖繼鵬,馬費(fèi)成,張向先. 情報科學(xué)理論[M].北京：科學(xué)出版社，2009： 33-50.

[2] G.K.Zipf, Human behavior and the principle of least effort[M], 1949: 5-12.

[3] 孫清蘭. 高頻、低頻詞的界分及詞頻估計(jì)方法[J]. 情報科學(xué)，1992，13(2)： 28-32.

[4] 徐秉錚，蔡偉鴻. 從信息論角度探討《紅樓夢》的作者[J].中文信息學(xué)報，1990，4(2)： 1-5.

[5] 金明哲.中文文章的作者識別[R].第二屆中國社會語言學(xué)國際學(xué)術(shù)研討會暨中國社會語言學(xué)會成立大會，2003.

[6] 武曉春，黃萱菁，吳立德.基于語義分析的作者身份識別方法研究[J].中文信息學(xué)報，2006，20(6): 61-68.

[7] 王少康，董科軍，閻保平.基于語句節(jié)奏特征的作者身份識別研究[J]. 計(jì)算機(jī)工程， 2011，37(9): 4-5.

[8] 陳芯瑩，李雯雯，王燕. 計(jì)量特征在語言風(fēng)格比較及作家判定中的應(yīng)用：以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012，48(3): 137-139, 208.

[9] 石民,李斌,陳小荷. 基于CRF的先秦漢語分詞標(biāo)注一體化研究[J]. 中文信息學(xué)報,2010, 24(2): 39-45.

[10] 段磊,韓芳,宋繼華. 古漢語雙字詞自動獲取方法的比較與分析[J]. 中文信息學(xué)報,2012,26(4): 34-42.

[11] 史存直.漢語詞匯史綱要[M].上海: 華東師范大學(xué)出版社,1989: 79-96.

[12] 潘允中.漢語詞匯史概要[M].上海: 上海古籍出版社,1989: 1-15.

[13] 劉偉成，孫吉紅. 跨語言信息檢索進(jìn)展研究[J]. 中國圖書館學(xué)報，2008(1): 88-92.

[14] Booth, A.D. A law of occurrences for words of low frequency[J],Information and control, 1967,10(4): 386-393.

[15] Michel J B, Yuan K S, Aiden A P, et al. Quantitative analysis of culture using millions of digitized books[J].Science, 2011,331(6014): 176-182.

[16] 羅德里克·弗拉德.計(jì)量史學(xué)方法導(dǎo)論[M]. 王小寬，譯. 上海: 上海譯文出版社,1997: 50-60.

[17] 陸宇杰，許鑫，郭金龍. 文本挖掘在人文社會科學(xué)研究中的典型應(yīng)用述評[J]. 圖書情報工作，2012(8): 18-25.

[18] 馬創(chuàng)新，陳小荷. 基于引文分析的古籍文獻(xiàn)影響力評估[J]. 大學(xué)圖書館學(xué)報，2016(1): 16-24.

馬創(chuàng)新(1980—)，博士，講師，主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)、知識組織。

E-mail: machxin@126.com

陳小荷(1952—)，博士，教授，博士生導(dǎo)師，主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)、漢語語法學(xué)。

E-mail: chenxiaohe5209@126.com

Word Distribution, Word Type Grades and Style Computing in Literatures

MA Chuangxin1, CHEN Xiaohe2

(1. Linguistic Sciences and Arts School， Jiangsu Normal University, Xuzhou, Jiangsu 221009, China; 2. College of Liberal Arts, Nanjing Normal University, Nanjing, Jiangsu 210097, China)

1003-0077(2017)04-0020-08

TP391