亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文獻中的詞語分布、詞型等級和風格計算

        2017-10-11 07:31:45馬創(chuàng)新陳小荷
        中文信息學報 2017年4期
        關鍵詞:總數(shù)論語詞語

        馬創(chuàng)新,陳小荷

        (1. 江蘇師范大學 語言科學與藝術學院,江蘇 徐州 221009; 2. 南京師范大學 文學院,江蘇 南京 210097)

        文獻中的詞語分布、詞型等級和風格計算

        馬創(chuàng)新1,陳小荷2

        (1. 江蘇師范大學 語言科學與藝術學院,江蘇 徐州 221009; 2. 南京師范大學 文學院,江蘇 南京 210097)

        文獻的語言風格是作者在語言運用方面的思維定勢的體現(xiàn),對于文獻之間語言風格的差異,以前的研究大多采用定性分析的方式加以比較和概括,而在文獻檢索和文本分類領域需要得到量化的語言風格相似度。該文首先分析文獻中詞語分布的普遍規(guī)律,以先秦八部經(jīng)典文獻為觀察語料,發(fā)現(xiàn)這些文獻中的詞語既呈離散分布,又呈集中分布;然后通過計算文獻之間詞型等級的相關系數(shù),來獲取量化的語言風格相似度,構建了八部文獻之間的相似度矩陣,驗證了語言風格的差異不僅體現(xiàn)在使用的常用詞上,還更細微地體現(xiàn)在常用詞的使用頻率等級上。

        詞語分布; 離散; 集中; 檢索; 風格

        Abstract: The language style of literature is the embodiment of the author’s mindset using language. For a quantitative analysis of the language style, this paper analyzes the word distribution in the pre-Qin literatures, collecting eight classic literatures as the corpus. The power-law distribution is again testified. Then the correlation coefficient of the word type grades between the literatures are calculated. We show that the language style differs not only in the use of common words, but also in the word types grade.

        Key words: words distribution; dispersion; concentration; retrieval; style

        收稿日期: 2016-07-11 定稿日期: 2017-02-23

        基金項目: 江蘇省社科基金(15YYC001);國家社科基金(15BYY096)

        1 引言

        人類行為由于受到思維定勢的影響,會表現(xiàn)出相對固定的模式。思維定勢是個體受到生活環(huán)境、知識背景和過往經(jīng)驗的影響而逐漸形成的相對穩(wěn)定的思維方式,在一定的時期內,成為指導個體行為方式的固有模式。文獻的語言風格就是作者在語言運用方面的思維定勢的體現(xiàn),是作者在遣詞造句方面的個性特征。當作者在表達一個事物或者現(xiàn)象時,會有一系列的同類詞語可供選擇,有的詞語會被經(jīng)常選用,有的不常被選用。這種頻度不均的選擇本身使得被選詞語的特征信息更加突出,又會反過來作為再次被選擇的依據(jù)。如果把個體在表達一個事物或者現(xiàn)象時選用某個詞語看作是這個詞語的一次成功,那么這種成功的累積必然容易產(chǎn)生新的成功,這就逐漸形成個體在語言運用方面的思維定勢[1]。

        對于作品之間語言風格的差異,以前的研究大多采用定性分析的方式,加以比較、歸納和概括。那么,如何才能得到文獻之間量化的語言風格相似度呢?這成為文獻檢索和文本分類領域亟需解決的關鍵問題。本文在分析文獻中詞語分布普遍規(guī)律的基礎上,首次提出通過計算文獻之間在詞頻等級方面的相關系數(shù)來嘗試獲取量化的語言風格相似度的方法。

        2 相關研究

        在詞頻等級的研究方面,布拉德福提出了一種在社會科學領域中應用廣泛的重要研究方法,即頻次-等級排序法。按某一具體事項在其主體來源中的出現(xiàn)頻次按遞減順序排列起來,就會導出布拉德福分布。比如,如果把某篇文章中的詞語按照其出現(xiàn)頻次遞減排列,就會呈現(xiàn)出布拉德福分布。布拉德福分布的特點顯示出我們考察的具體對象的大多數(shù)集中于少數(shù)主體來源。比如,人們寫文章時總是傾向于選擇自己常用的詞語。齊普夫定律[2]描述了詞語的頻率與等級序號之間的關系,發(fā)現(xiàn)任何一篇文章中詞的頻次和頻次等級的乘積總是一個常數(shù)。孫清蘭[3]研究高頻、低頻詞界分公式,分析詞頻與同頻詞數(shù)量的內在規(guī)律。

        在計算語言風格的研究方面,徐秉錚等[4]從詞的相關性和上下文的相關性、字符數(shù)的統(tǒng)計、字符串的統(tǒng)計等三方面判斷《紅樓夢》前八十回與后四十回的語言風格有明顯的不同。日本學者金明哲[5]采用基于詞性組合的統(tǒng)計分析方法,使用以字符為單位的unigram 和以詞性為單位的n-gram 作為特征,分析文本的語言風格。武曉春等[6]依據(jù)文體學理論,利用HowNet知識庫,提出一種基于詞匯語義分析的相似度評估方法,有效利用了功能詞以外的其他詞匯,達到了較好的作者身份識別性能。王少康等[7]基于對句長的統(tǒng)計構建段長的序列組合,分析寫作風格,利用不同作者寫作時在文章語句節(jié)奏控制方面的特點,對十位作家進行識別分類。陳芯瑩等[8]對兩個語料樣本進行統(tǒng)計分析,從中總結出句長、型例比、名詞比例、代詞比例、標點符號比例、感嘆句比例、單現(xiàn)詞比例等七個具有顯著分布差異的語言結構特征,并以這些特征作為文本的表示特征對兩個未知作家文本進行了相關系數(shù)統(tǒng)計和分析,準確地判定了這兩個文本的作者。

        3 文獻中詞語分布的普遍規(guī)律

        為了考察文獻中的詞語分布規(guī)律,我們選取了八部先秦經(jīng)典文獻作為觀察語料。這八部文獻中包含三部儒家著作: 《論語》、《孟子》、《荀子》;兩部道家著作: 《老子》、《莊子》;兩部法家著作: 《韓非子》、《管子》;一部墨家著作: 《墨子》。我們首先對這八部文獻作了人工分詞處理,然后再考察它們的詞語分布狀況[9-10]。通過對文獻中出現(xiàn)的詞語進行排序、統(tǒng)計和比較,我們發(fā)現(xiàn)文獻中的詞語分布普遍存在兩個相互對立而又統(tǒng)一的規(guī)律,即離散分布和集中分布。

        3.1 離散分布

        詞型(word types)是指詞表中所包含的一個個詞語條目,詞例(word tokens)是指某個詞型在特定語料中的使用實例,如果某個詞型被多次使用,這個詞型就會有多個詞例。我們首先統(tǒng)計了文獻中出現(xiàn)的詞型總數(shù)和詞例總數(shù)(詞例總數(shù)等于所有詞型的出現(xiàn)次數(shù)之和),再把各個詞型按照其出現(xiàn)次數(shù)(即各個詞型的詞例數(shù))從高到低排序[11-12],我們發(fā)現(xiàn)各個文獻中出現(xiàn)一次的詞型數(shù)占總詞型數(shù)的比例是基本相同的,全都呈現(xiàn)出極具規(guī)律性的離散分布。如表1所示。

        表1 文獻中詞語的離散分布情況

        續(xù)表

        分析表1,發(fā)現(xiàn)如下特點。

        (1) 在各部文獻中,詞型的平均出現(xiàn)次數(shù)差異很大,在6.25次~23.46次之間,均值為14.88。在《老子》中每個詞型平均出現(xiàn)次數(shù)最少,為6.25次,《管子》中每個詞型平均出現(xiàn)次數(shù)最多,為23.46次,這兩個文獻中的每個詞型平均出現(xiàn)次數(shù)相差17.21次。

        (2) 在各個文獻中,“僅出現(xiàn)一次的詞型數(shù)量”與“詞型總數(shù)”之比是相近的,在39.02%~49.50%之間,均值為44.13%,全距為10.48%。“僅出現(xiàn)兩次的詞型數(shù)量”與“詞型總數(shù)”之比也是相近的,在13.55%~16.15%之間,均值為14.81%,全距為2.6%。“僅出現(xiàn)三次的詞型數(shù)量”與“詞型總數(shù)”之比也是相近的,在7.12%~9.95%之間,均值為7.79%,全距為2.83%。

        (3) 文獻中出現(xiàn)的大量詞型是呈離散分布的。在這八部文獻中,平均44.13%的詞型僅出現(xiàn)一次,14.81%的詞型只出現(xiàn)兩次,7.79%的詞型僅出現(xiàn)三次。也就是說,僅出現(xiàn)一次、兩次和三次的詞型就占了詞型總數(shù)的66.73%。

        (4) “詞型的出現(xiàn)頻次”與“出現(xiàn)該頻次的詞型數(shù)量”之間基本上呈負相關趨勢。為了能夠得到準確的分析結果,我們統(tǒng)計了《孟子》中出現(xiàn)頻次在1~20次之間的詞型數(shù)量,統(tǒng)計結果如表2所示。其中,出現(xiàn)一次的詞型數(shù)量為1 186,出現(xiàn)二次的詞型數(shù)量為433,出現(xiàn)三次的詞型數(shù)量為211, ……詞型的出現(xiàn)次數(shù)越多,出現(xiàn)相同頻次的詞型數(shù)量就會越少,例外情況極少,兩者之間基本上呈負相關關系。

        表2 “詞型的出現(xiàn)頻次”與“出現(xiàn)該頻次的詞型數(shù)量”之間關系

        3.2 集中分布

        我們分別統(tǒng)計文獻中出現(xiàn)頻次排前5%、10%、15%、20%的詞型的出現(xiàn)頻次之和,計算它們占詞例總數(shù)的比例,把數(shù)據(jù)匯總起來,形成表3。

        通過對表3的分析,發(fā)現(xiàn)如下特點:

        (1) 在各個文獻中,雖然出現(xiàn)的詞型總數(shù)和詞例總數(shù)相差很大,但在各個文獻中“出現(xiàn)頻次排前5%的詞型的出現(xiàn)頻次之和”與“詞例總數(shù)”之比是相近的,在51.92%~72.21%之間,均值為66.75%,全距為20.29%?!俺霈F(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”與“詞例總數(shù)”之比更加相近,在77.23%~92.12%之間,均值為87.13%,全距為14.89%。

        表3 文獻中詞語的集中分布情況

        (2) 在各部文獻中,詞語均呈現(xiàn)出集中分布的狀況,“出現(xiàn)頻次排前5%的詞型的出現(xiàn)頻次之和”就占“詞例總數(shù)”的66.75%左右,“出現(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.13%左右,呈現(xiàn)出高度集中的狀況。

        我們還分別統(tǒng)計了文獻中出現(xiàn)頻次排在前400位、500位、600位、700位、800位、900位的詞型出現(xiàn)頻次之和,并且計算頻次之和與詞例總數(shù)的比率,把數(shù)據(jù)匯總起來,形成表4。通過分析,我們發(fā)現(xiàn)雖然各部文獻中出現(xiàn)的詞型總數(shù)和詞例總數(shù)相差很大,比如《管子》中出現(xiàn)的詞型總數(shù)是《老子》的5.36倍,出現(xiàn)的詞例總數(shù)更是相差20多倍。但是在各部文獻中,“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和” 與“詞例總數(shù)”的比率卻是非常相近,在78.84%~88.70%之間,均值為82.03%,全距為9.86%。

        表4 出現(xiàn)頻次排在前列的詞型出現(xiàn)頻次之和及其與詞例總數(shù)之比

        續(xù)表

        另外,文獻中的詞語分布呈現(xiàn)高度集中的狀況,“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和” 就占到“詞例總數(shù)”的82.03%左右,“前500位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的85.27%左右,“前600位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.54%左右,“前700位的詞型的出現(xiàn)頻次之和” 占到“詞例總數(shù)”的89.30%左右,“前800位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的90.79%左右,“前900位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的92.11%左右。

        3.3 小結

        文獻中的詞語既呈現(xiàn)離散分布,又呈現(xiàn)集中分布,并且離散分布是絕對的,集中分布是相對的。從低頻詞的詞型方面看,詞語在文獻中呈現(xiàn)離散分布,在本文考察的八部文獻中,平均44.13%的詞型僅出現(xiàn)一次,14.81%的詞型只出現(xiàn)兩次,7.79%的詞型僅只出現(xiàn)三次;從高頻詞的詞例方面看,詞語在文獻中呈現(xiàn)出高度集中的分布狀況,“出現(xiàn)頻次排前20%的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的87.13%左右,“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和”就占到“詞例總數(shù)”的82.03%左右?!扒?00位的詞型的出現(xiàn)頻次之和”占到“詞例總數(shù)”的92.11%左右。

        我們認為齊普夫所提出的“最小努力原則”可以解釋這種詞語分布狀況。齊普夫發(fā)現(xiàn)自然語言的詞匯使用服從“最小努力原則”這個定律,就是當人們用語言表達思想時,同時受到“單一化的力”和“多樣化的力”的共同作用,說話者希望盡量簡短,只用一個詞表達要領最為省力,而聽話者希望盡量詳盡,每個概念都用一個詞表達,理解起來最為省力。這兩者的相互作用,取得平衡,使自然語言的詞匯出現(xiàn)頻次雙曲線。

        4 語言風格的相似度計算

        4.1 詞型等級的確定方法 如何確定詞型的等級是一個非常重要的問題。一般情況下,“詞型等級”是按照詞型在文獻中的出現(xiàn)頻次(即詞型的詞例數(shù))以遞減順序排列,把出現(xiàn)頻次最高的詞型等級定為1,次高的詞型等級定為2,依次類推。然而,還有大量的同頻詞型存在,如何確定同頻詞型的等級,國內外學者提出過四種方法[13-14]。

        (1) 并列法。把同一頻次的詞型都當作一個詞型對待,以其在文獻中詞頻序值為等級。

        (2) 最大值法。對同一頻次的詞型排序,排法任意,取它們在文獻中序值的最大值作為這些詞型的等級。國內外語言研究者一般認為齊普夫定律采用的是這種確定等級的方法。

        (3) 最小值法。對同一頻次的詞型任意排序,取它們在文獻中序值的最小值作為這些詞型的等級。

        (4) 平均值法。對同一頻次的詞型任意排列,取這些同頻詞在文獻中序值的算術平均數(shù)作為它們的等級。

        表5以《孟子》中出現(xiàn)頻次排前30位的詞型為例,對比了這四種詞型等級的確定方法。

        表5 詞型等級的確定實例(以《孟子》中出現(xiàn)頻次排前30位的詞型為例)

        續(xù)表

        4.2 相似度的計算方法

        本文通過計算文獻之間詞型等級的相關系數(shù),來估量文獻之間語言風格的相似度。相關系數(shù)是統(tǒng)計學中廣泛使用的一種量數(shù),它表示兩組變量之間聯(lián)系的強度。根據(jù)研究目的和研究數(shù)據(jù)的不同,選擇不同的相關系數(shù)計算方法[15-16]。當研究數(shù)據(jù)是具有等級性質的順序變量,數(shù)據(jù)的總體分布不是正態(tài)分布時,可以計算數(shù)據(jù)的“斯皮爾曼等級相關”,它是英國統(tǒng)計學家、心理學家斯皮爾曼根據(jù)積差相關的概念推導出來的。斯皮爾曼等級相關的計算如式(1)。

        (1)

        其中Di表示每一對數(shù)據(jù)相應的兩個等級之差,n表示樣本數(shù)。

        斯皮爾曼等級相關適用于研究數(shù)據(jù)是具有等級性質的成對數(shù)據(jù),并且變量之間呈線性關系。但是,文獻之間出現(xiàn)的詞型數(shù)據(jù)并不是成對的,從表1可見,各部文獻中出現(xiàn)的詞型數(shù)量差異很大,比如,《論語》中出現(xiàn)1 622個詞型,《孟子》中出現(xiàn)2 723個詞型,不僅詞型數(shù)量不同,而且《論語》中出現(xiàn)的1 622個詞型在《孟子》中也不一定都會出現(xiàn)。所以,我們不能照搬斯皮爾曼等級相關來計算詞型等級的相似度,需要對原公式作一些改進和限定。

        我們用ARs來表示“以文獻A中詞型為樣本”與文獻B比較所得到的相關系數(shù),對于在文獻A中出現(xiàn)而文獻B中沒有出現(xiàn)的詞型,不放在計算范圍內。同樣,以BRs來表示“以文獻B中詞型為樣本”與文獻A比較所得到的相關系數(shù),對于在文獻B中出現(xiàn)而文獻A中沒有出現(xiàn)的詞型,也不在計算范圍內。

        由于語言風格體現(xiàn)在常用的詞語和句式中,并且從3.2節(jié)我們得知文獻中“出現(xiàn)頻次排在前400位的詞型的出現(xiàn)頻次之和”就占到“詞例總數(shù)”的82.03%左右。所以,本文選取在文獻中出現(xiàn)頻次排在前400、500、600、700、800、900位的詞型作為樣本。當然,采用這種計算方法所得到的相關系數(shù)是一個近似值。

        例如,以《論語》中出現(xiàn)頻次排在前400位的詞型作為樣本,計算它們與《孟子》中對應詞型的等級相關性,首先要計算這400個詞型在《論語》和《孟子》中的詞型等級差,對于沒有在《孟子》中出現(xiàn)的詞型不作統(tǒng)計,然后再使用斯皮爾曼等級相關公式計算它們相關系數(shù)。

        我們假定為詞型等級的相關系數(shù)就是語言風格的相似度,文獻A與B的語言風格相似度用ABRs來表示,ABRs等于ARs與BRs的均值,即: ABRs=(ARs+BRs)/2。也就是說,文獻A與B的語言風格相似度就等于“以文獻A中詞型為樣本”與文獻B比較所得到的相關系數(shù),加上“以文獻B中詞型為樣本”與文獻A比較所得到的相關系數(shù),兩個系數(shù)之和再除以2所得到的商。

        4.3 實驗和分析

        為了驗證本文所提出理論和方法的有效性,我們選取《論語》作為參照文獻,采用“并列法”確定詞型等級,計算《論語》的折半相似度(所謂折半相似度,即把《論語》均分成兩部文獻,再計算這兩部文獻的相似度),以及《論語》分別與另外七部文獻之間的風格相似度。實驗數(shù)據(jù)如表6所示,表6中第一行的“400”表示選取文獻中出現(xiàn)頻次排在前400位的詞型作為樣本,依此類推,500、600、700、800和900也表示同類含義。

        表6 以《論語》為參照的相似度數(shù)據(jù)

        觀察表6中的數(shù)據(jù),可以發(fā)現(xiàn)如下特點。

        (1) 《論語》的折半相似度高于《論語》與其他任一文獻之間的相似度。

        (2) 《論語》作為儒家文獻,與其他兩部儒家文獻之間的相似度較高,與道家文獻的相似度也比較高,與法家、墨家文獻的相似度比較低。

        (3) 選取的詞型樣本數(shù)越多,相似度越大。比如,在選取頻次排在前400位的詞型作為樣本時,《論語》《管子》的相似度是63.24%,選取前500位的詞型作為樣本時,相似度是72.05%,選取前600位的詞型作為樣本時,相似度是77.97%,隨著選取樣本數(shù)的增加,相似度也在增加。

        (4) 無論選取多少個詞型樣本,不管是400個、500個,還是900個,相似度的高低順序是相同的。按照相似度由高到低排列,依次是: 《論語》折半相似度、《論語》與《孟子》、《論語》與《老子》、《論語》與《莊子》、《論語》與《荀子》、《論語》與《墨子》、《論語》與《韓非子》、《論語》與《管子》。

        (5) 隨著樣本數(shù)的增加,相似度之間的差距在縮小。比如,在選取頻次排在前400位的詞型作為樣本時,《論語》折半相似度是99.88%,《論語》與《墨子》相似度是78.95%,兩個相似度之間的差距是20.93%;而在選取頻次排在前500位的詞型作為樣本時,兩個相似度之間的差距是15.51%;選取前600位的詞型作為樣本時,兩個相似度之間的差距是11.09%,差距都是越來越小。

        以上的觀察,證明了本文所提出的方法是能夠有效測量文獻之間語言風格相似度的。

        為了能夠更全面地分析八部先秦經(jīng)典文獻之間的風格相似度,我們采用并列法確定詞型等級,全部選取頻次排在前500位的詞型作為樣本,分別測量八部文獻兩兩之間的相似度,以及它們各自的折半相似度,形成如表7所示的相似度矩陣[17]。

        表7 八部文獻之間的相似度矩陣

        表7中黑體加粗的數(shù)字表示的是文獻自身的折半相似度,比如第二行第二列的99.93%就是《論語》的折半相似度,第三行第三列的99.82%是《孟子》的折半相似度,依此類推。觀察表7,我們能夠得到如下規(guī)律:

        (1) 文獻的折半相似度總是高于該文獻與其他文獻之間的相似度。例如,《墨子》的折半信度為98.36%,高于《墨子》與其他任一文獻之間的相似度;

        (2) 同一學術流派內文獻之間的相似度一般高于流派之間文獻的相似度。例如,《論語》與《孟子》的相似度為98.19%,《韓非子》與《管子》的相似度為96.32%。

        5 結語

        本文分析了文獻中詞語分布的普遍規(guī)律,提出通過計算文獻之間詞型等級的相關系數(shù),來獲取量化的語言風格相似度。實驗證明,我們提出的方法是切實可行的,并且還驗證了文獻語言風格的差異不僅體現(xiàn)在使用的常用詞上,還更加細微地體現(xiàn)在常用詞的使用頻率等級上。

        本文提出的方法,除了用于測量語言風格的相似度,還具有一些其他用途[18],比如本方法對于文獻的自動分類具有輔助作用,同一流派、同一體裁,或者同一時代的文獻之間語言風格相似度會高于其他文獻之間的相似度。此外,本方法還可作為鑒定文獻作者的輔助方法,古代的一些文獻的作者難以認定,當今學者有著不同的看法,那么可把“存疑文獻”分別與多位作者的“確認文獻”進行對比,估量文獻之間在詞型等級方面的相似度,這能夠為辨別“存疑文獻”的作者提供參考信息。

        [1] 靖繼鵬,馬費成,張向先. 情報科學理論[M].北京: 科學出版社,2009: 33-50.

        [2] G.K.Zipf, Human behavior and the principle of least effort[M], 1949: 5-12.

        [3] 孫清蘭. 高頻、低頻詞的界分及詞頻估計方法[J]. 情報科學,1992,13(2): 28-32.

        [4] 徐秉錚,蔡偉鴻. 從信息論角度探討《紅樓夢》的作者[J].中文信息學報,1990,4(2): 1-5.

        [5] 金明哲.中文文章的作者識別[R].第二屆中國社會語言學國際學術研討會暨中國社會語言學會成立大會,2003.

        [6] 武曉春,黃萱菁,吳立德.基于語義分析的作者身份識別方法研究[J].中文信息學報,2006,20(6): 61-68.

        [7] 王少康,董科軍,閻保平.基于語句節(jié)奏特征的作者身份識別研究[J]. 計算機工程, 2011,37(9): 4-5.

        [8] 陳芯瑩,李雯雯,王燕. 計量特征在語言風格比較及作家判定中的應用: 以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J]. 計算機工程與應用, 2012,48(3): 137-139, 208.

        [9] 石民,李斌,陳小荷. 基于CRF的先秦漢語分詞標注一體化研究[J]. 中文信息學報,2010, 24(2): 39-45.

        [10] 段磊,韓芳,宋繼華. 古漢語雙字詞自動獲取方法的比較與分析[J]. 中文信息學報,2012,26(4): 34-42.

        [11] 史存直.漢語詞匯史綱要[M].上海: 華東師范大學出版社,1989: 79-96.

        [12] 潘允中.漢語詞匯史概要[M].上海: 上海古籍出版社,1989: 1-15.

        [13] 劉偉成,孫吉紅. 跨語言信息檢索進展研究[J]. 中國圖書館學報,2008(1): 88-92.

        [14] Booth, A.D. A law of occurrences for words of low frequency[J],Information and control, 1967,10(4): 386-393.

        [15] Michel J B, Yuan K S, Aiden A P, et al. Quantitative analysis of culture using millions of digitized books[J].Science, 2011,331(6014): 176-182.

        [16] 羅德里克·弗拉德.計量史學方法導論[M]. 王小寬,譯. 上海: 上海譯文出版社,1997: 50-60.

        [17] 陸宇杰,許鑫,郭金龍. 文本挖掘在人文社會科學研究中的典型應用述評[J]. 圖書情報工作,2012(8): 18-25.

        [18] 馬創(chuàng)新,陳小荷. 基于引文分析的古籍文獻影響力評估[J]. 大學圖書館學報,2016(1): 16-24.

        馬創(chuàng)新(1980—),博士,講師,主要研究領域為計算語言學、知識組織。

        E-mail: machxin@126.com

        陳小荷(1952—),博士,教授,博士生導師,主要研究領域為計算語言學、漢語語法學。

        E-mail: chenxiaohe5209@126.com

        Word Distribution, Word Type Grades and Style Computing in Literatures

        MA Chuangxin1, CHEN Xiaohe2

        (1. Linguistic Sciences and Arts School, Jiangsu Normal University, Xuzhou, Jiangsu 221009, China; 2. College of Liberal Arts, Nanjing Normal University, Nanjing, Jiangsu 210097, China)

        1003-0077(2017)04-0020-08

        TP391

        A

        猜你喜歡
        總數(shù)論語詞語
        天天背《論語》,你知道它是怎么來的嗎?
        容易混淆的詞語
        如何讀懂《論語》?
        找詞語
        ◆我國“三品一標”產(chǎn)品總數(shù)超12萬個
        哈哈王國來了個小怪物
        “一半”與“總數(shù)”
        詞語欣賞
        《論語·為政第二》
        一枚詞語一門靜
        青青草免费在线视频导航| 久久久久国产一区二区三区| 日本一区不卡在线| 在线观看av片永久免费| av中文字幕在线直播| 国内少妇毛片视频| 精品福利视频一区二区三区| 精精国产xxx在线视频app| 国产一区二区在线中文字幕 | 日本不卡在线视频二区三区| 亚洲免费视频网站在线| 亚洲一区中文字幕视频| 色88久久久久高潮综合影院| 亚洲国产成人精品无码区99| 91久久国产情侣真实对白| 福利视频偷拍一区二区| 久久久久久久久毛片精品| 欧美成人精品第一区二区三区| 久久婷婷国产综合精品| 青青草原综合久久大伊人精品| 欧美成人aaa片一区国产精品| 精品国产高清a毛片无毒不卡 | 精品国产制服丝袜高跟| 久久精品国产av大片| av网站大全免费在线观看| 久久99精品国产麻豆不卡| 好吊妞人成免费视频观看| 加勒比特在线视频播放| 男人国产av天堂www麻豆| 中文字幕熟妇人妻在线视频 | 亚洲精品av一区二区日韩| 99国产精品99久久久久久| 欧美性大战久久久久久久| 蜜臀aⅴ永久无码一区二区| 日本在线观看不卡一区二区 | 国产精品揄拍100视频| 一片内射视频在线观看| 精品国产一区二区三区av天堂| 亚洲欧美aⅴ在线资源| 久久婷婷国产精品香蕉| 国产黑丝美女办公室激情啪啪 |