亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

先秦詞匯的時(shí)代特征自動(dòng)獲取及文獻(xiàn)時(shí)代的自動(dòng)判定

2013-04-23 07:38:57曲維光陳小荷

中文信息學(xué)報(bào) 2013年5期

劉瀏，李斌,2，曲維光，陳小荷

(1. 南京師范大學(xué) 語(yǔ)言信息科技研究中心，江蘇南京 210097； 2. 南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室，江蘇南京 210093； 3. 南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇南京 210097)

1 引言

先秦在史學(xué)中是秦朝以前時(shí)代的統(tǒng)稱(chēng)，以公元前221年秦始皇統(tǒng)一六國(guó)為界限。這一時(shí)代看似簡(jiǎn)略，卻包含了夏、商、西周，以及春秋、戰(zhàn)國(guó)長(zhǎng)達(dá)1 800年的歷史。由于是華夏文明的開(kāi)始階段，時(shí)代久遠(yuǎn)，大部分歷史都只能從古代流傳的史籍和現(xiàn)代出土的文物中尋得一絲端倪，真正留下大量典籍反映當(dāng)時(shí)文化的是春秋戰(zhàn)國(guó)時(shí)代。我們使用的25種先秦文獻(xiàn)也主要是春秋戰(zhàn)國(guó)時(shí)代的文獻(xiàn)，對(duì)于先秦詞匯時(shí)代特征的研究，主要就是對(duì)春秋戰(zhàn)國(guó)這一時(shí)期詞匯時(shí)代特征的研究。但即便是春秋戰(zhàn)國(guó)時(shí)代，也包含了從公元前770年到公元前221年共550年的歷史，這一歷史時(shí)期漢語(yǔ)詞匯依然存在著變化發(fā)展，對(duì)這一歷史時(shí)期詞匯時(shí)代特征的研究，也就是尋求這一時(shí)期漢語(yǔ)詞匯的變化特征，以期能夠在此基礎(chǔ)上發(fā)現(xiàn)更多社會(huì)文化發(fā)展變化的特征。

詞匯的時(shí)代特征是詞匯意義重要的組成部分，對(duì)于其進(jìn)行定量研究以助于更深一步的語(yǔ)義知識(shí)挖掘很有價(jià)值和必要性，本文立足于先秦文獻(xiàn)，通過(guò)定量方法研究先秦詞匯特點(diǎn)，分別基于向量相似度和樸素貝葉斯分類(lèi)器，在25種先秦文獻(xiàn)進(jìn)行分類(lèi)實(shí)驗(yàn)，發(fā)現(xiàn)在面向開(kāi)放語(yǔ)料時(shí)，后者的性能更為穩(wěn)定。

2 相關(guān)研究

有關(guān)先秦詞匯的研究豐富而多樣，主要見(jiàn)于以下幾種類(lèi)別：從詞匯看語(yǔ)言的發(fā)展變化，如文獻(xiàn)[1]；對(duì)詞匯本身進(jìn)行研究，如文獻(xiàn)[2-3]；還有利用詞匯信息研究古籍的成書(shū)年代，如文獻(xiàn)[4]。綜觀(guān)這些研究，可以發(fā)現(xiàn)對(duì)于先秦詞匯的研究目前還僅限于古漢語(yǔ)或詞匯學(xué)等本體語(yǔ)言學(xué)領(lǐng)域，從語(yǔ)言信息處理角度看待并研究先秦詞匯的并不多見(jiàn)，陳小荷在文獻(xiàn)[5]中的《詞匯概貌》一章詳細(xì)介紹了利用語(yǔ)言信息處理手段獲得的先秦詞匯知識(shí)，是這一領(lǐng)域難得的研究成果。其中沒(méi)有提及詞匯在時(shí)代特征方面的研究，而這是本文主要研究目的所在。

有關(guān)詞匯的時(shí)代特征，語(yǔ)言學(xué)界已有許多研究，這些研究多著力于發(fā)掘并描述詞匯所具有的時(shí)代特征本身的性質(zhì)或意義，如羅曼·雅克布森[6]曾指出， “語(yǔ)言社會(huì)往往把時(shí)間軸包括在那些可以直接感知的語(yǔ)言因素之內(nèi)，例如，人們會(huì)感覺(jué)到語(yǔ)言系統(tǒng)中的陳舊成分是古舊的，新鮮成分是時(shí)髦的。”楊振蘭[7]認(rèn)為詞語(yǔ)的時(shí)代特征 “是詞所體現(xiàn)出的某個(gè)歷史時(shí)代特殊的時(shí)代氛圍和時(shí)代氣息，是社會(huì)的變化發(fā)展在語(yǔ)言詞匯中的投影和映射?！薄氨仨毷欠从沉吮容^重要的社會(huì)歷史內(nèi)容的詞，才具備一定的時(shí)代氣息?！鄙蛎檄媅8]認(rèn)為時(shí)代色彩具備如“高頻率、時(shí)效性、選擇性、系列化、言文趨同化”等特征。王吉輝[9]認(rèn)為，詞語(yǔ)的時(shí)代特征不僅以其理性意義為基礎(chǔ)，更與詞語(yǔ)的使用狀況緊密聯(lián)系。利用詞匯時(shí)代特征的性質(zhì)特點(diǎn)，自動(dòng)發(fā)掘詞匯時(shí)代特征的研究見(jiàn)于文獻(xiàn)[10]，其提出了對(duì)現(xiàn)代漢語(yǔ)詞匯的時(shí)代特征自動(dòng)獲取的方法。

3 語(yǔ)料資源及時(shí)代劃分

3.1 語(yǔ)料資源我們選取了漢達(dá)文庫(kù)[11]共25種先秦文獻(xiàn)，包括《楚辭》《公羊傳》《管子》《谷梁傳》《國(guó)語(yǔ)》《韓非子》《老子》《禮記》《論語(yǔ)》《呂氏春秋》《孟子》《墨子》《商君書(shū)》《詩(shī)經(jīng)》《孫子兵法》《吳子》《孝經(jīng)》《荀子》《晏子春秋》《儀禮》《周禮》《周易》《莊子》《尚書(shū)》《左傳》。25種文獻(xiàn)類(lèi)型不一，成書(shū)的時(shí)代信息詳盡程度也不一，為了保持時(shí)代數(shù)據(jù)的一致性，保證后續(xù)時(shí)代特征獲取實(shí)驗(yàn)?zāi)軌蝽樌瓿?，我們?duì)每部文獻(xiàn)的成書(shū)時(shí)代劃定一個(gè)大致的區(qū)間。文獻(xiàn)時(shí)代信息可考的，參照考證時(shí)代；不確切的，參考作者的時(shí)代；若作者時(shí)代不可考，對(duì)于史書(shū)可參考史書(shū)記錄的時(shí)代；對(duì)于成書(shū)年代尚存疑的文獻(xiàn)，如《孝經(jīng)》《周禮》，我們選取較為可信的觀(guān)點(diǎn)。這25種文獻(xiàn)的成書(shū)時(shí)代大致情況如圖1所示。

圖1 25種先秦文獻(xiàn)大致成書(shū)時(shí)代

3.2時(shí)代劃分

先秦文獻(xiàn)年代的判定并不都是十分精確的，而且由于文獻(xiàn)語(yǔ)料規(guī)模的限制，詞匯的特征及其變化很難如現(xiàn)代漢語(yǔ)般鮮明地表現(xiàn)在一年甚至一個(gè)月上，因此我們按照先秦時(shí)代本身的特點(diǎn)以及語(yǔ)料規(guī)模的特點(diǎn)，將這25種按時(shí)代分為前春秋、春秋和戰(zhàn)國(guó)三個(gè)時(shí)代區(qū)間。這三個(gè)時(shí)代各自包含的文獻(xiàn)語(yǔ)料如表1所示。

表1 25種先秦文獻(xiàn)時(shí)代劃分

其中前春秋3部，占12%；春秋8部，占32%；戰(zhàn)國(guó)14部，占56%。

3.3 詞匯概貌

對(duì)文獻(xiàn)語(yǔ)料的分詞以及詞性標(biāo)注是對(duì)文獻(xiàn)詞匯的研究的前提和基礎(chǔ)。我們參照了石民[12]的方法，使用CRF模型對(duì)文獻(xiàn)進(jìn)行了分詞以及詞性標(biāo)注。并在此基礎(chǔ)上對(duì)劃分出的先秦三個(gè)時(shí)代所包含的文獻(xiàn)分別進(jìn)行了詞匯的頻次統(tǒng)計(jì)，得到一個(gè)先秦文獻(xiàn)的詞頻數(shù)據(jù)庫(kù)，對(duì)于先秦文獻(xiàn)詞匯的時(shí)代特征研究都是基于該數(shù)據(jù)庫(kù)進(jìn)行的，如表2所示。

表2 先秦詞頻次

25部先秦文獻(xiàn)總規(guī)模為1 221 202詞，其中前春秋頻次為113 238，占總頻次的9.27%；春秋詞頻次為361 188，占29.58%；戰(zhàn)國(guó)頻次為746 776，占61.15%?？偟念l次分布與各個(gè)時(shí)代文獻(xiàn)數(shù)目大致相符合。

4 時(shí)代詞語(yǔ)的獲取

4.1 時(shí)代獨(dú)有詞時(shí)代獨(dú)有詞，顧名思義，表示只屬于一個(gè)時(shí)代的那些詞匯。這樣的詞匯，其特征在于，從其產(chǎn)生到消亡的整個(gè)過(guò)程只是出現(xiàn)在一個(gè)時(shí)代的區(qū)間里*當(dāng)然也有可能某些詞匯在之后的某個(gè)時(shí)代又再度出現(xiàn)，這里的獨(dú)有僅限先秦這一更大的時(shí)代區(qū)間而論。。我們獲取這樣的詞匯，只需要嚴(yán)格按照定義，尋找那些在各個(gè)所屬時(shí)代出現(xiàn)頻率為0的那些詞即可。這樣的詞匯，由于其具有的“獨(dú)有性”的特點(diǎn)，對(duì)于古漢語(yǔ)尤其是詞匯學(xué)方面的研究，具有特殊的研究?jī)r(jià)值，因此我們單獨(dú)將這些詞語(yǔ)摘錄并建立數(shù)據(jù)庫(kù)，如表3所示。

表3春秋獨(dú)有詞示例

詞詞性詞頻次詞詞性詞頻次爲(wèi)v641佐食n116衞ns131曷為r115

我們統(tǒng)計(jì)的各時(shí)代獨(dú)有詞中，前春秋獨(dú)有詞有3 291例，春秋獨(dú)有詞有10 388例，戰(zhàn)國(guó)獨(dú)有詞有20 318例，分別占各個(gè)時(shí)代總詞次比例為： 2.9%，2.88%和2.72%。這是一個(gè)很有意思的現(xiàn)象，由于時(shí)代和語(yǔ)料兩方面規(guī)模的限制，我們還不能夠下一個(gè)確定的結(jié)論。但就已有語(yǔ)料的數(shù)據(jù)可以大膽猜測(cè)，那就是各個(gè)時(shí)代獨(dú)有詞匯占各個(gè)時(shí)代總詞匯的比例是大致固定的，這個(gè)比例可能在2.5%到3%之間。但從各個(gè)時(shí)代獨(dú)有詞匯的比例規(guī)模來(lái)看，獨(dú)有詞匯的數(shù)量還是比較龐大的，這與我們語(yǔ)感上預(yù)期的情況不太一致，原因在于這些獨(dú)有詞中，大部分詞語(yǔ)的出現(xiàn)頻次很低。我們統(tǒng)計(jì)各時(shí)代獨(dú)有詞中出現(xiàn)頻次小于各時(shí)代總頻次的0.001%的那些詞，發(fā)現(xiàn)三個(gè)時(shí)代這些“低頻獨(dú)有詞”所占比例分別為74.81%、88%和96.8%。為何“低頻獨(dú)有詞”會(huì)在獨(dú)有詞中占如此大比例的一部分，我們分析其主要原因是低頻獨(dú)有詞中含有大量人名、地名等命名實(shí)體。這些命名實(shí)體往往是只會(huì)出現(xiàn)在一個(gè)時(shí)代的，若是不重要的往往只會(huì)出現(xiàn)少數(shù)幾次或一次。

4.2時(shí)代特有詞

時(shí)代特有詞匯從概念上說(shuō)，應(yīng)該是顯著包含并表現(xiàn)了這個(gè)時(shí)代所特有信息的一類(lèi)詞。根據(jù)文獻(xiàn)[7-10]等人的研究，詞語(yǔ)的時(shí)代性(在這里就表現(xiàn)為時(shí)代特有詞)，主要是體現(xiàn)在詞語(yǔ)的高詞頻這一特點(diǎn)上的。這類(lèi)詞不應(yīng)在各個(gè)時(shí)代都是高頻，應(yīng)該只是在這些時(shí)代中的某一個(gè)時(shí)代區(qū)間內(nèi)高頻率。據(jù)此，我們篩選每個(gè)時(shí)代那些詞頻是別的時(shí)代詞頻5倍以上的詞*我們還排除了那些詞頻為0的詞語(yǔ)，因?yàn)檫@些詞語(yǔ)的特點(diǎn)已經(jīng)時(shí)代獨(dú)有詞中體現(xiàn)了，并且還將在下文所述的“時(shí)代發(fā)源詞”中進(jìn)一步分析。。得到先秦三個(gè)時(shí)代各自的時(shí)代特有詞，并建立數(shù)據(jù)庫(kù)，如表4所示。

表4 春秋特有詞示例

該方法得到的詞語(yǔ)，不僅具有高頻率的特點(diǎn)，而且限制了高頻率的時(shí)代區(qū)間，因此獲得的詞語(yǔ)都滿(mǎn)足“時(shí)代特有”這一特性及條件。通過(guò)該方法，我們得到前春秋特有詞367個(gè)，春秋特有詞138個(gè)，戰(zhàn)國(guó)特有詞86個(gè)。三個(gè)時(shí)代特有詞呈逐步減少的趨勢(shì)，可能是詞匯的傳承造成的。例如，戰(zhàn)國(guó)時(shí)代許多詞語(yǔ)是從春秋時(shí)代沿襲下來(lái)的，這些詞語(yǔ)一旦固化成常用詞語(yǔ)，詞頻就不會(huì)發(fā)生太大的變化，因此通過(guò)詞頻比較的方法，也就很難從戰(zhàn)國(guó)時(shí)代找到太多的時(shí)代特有詞。這也說(shuō)明戰(zhàn)國(guó)時(shí)代較之春秋時(shí)代雖然社會(huì)生活發(fā)生了劇烈的變化，但語(yǔ)言尤其是詞匯方面，依然表現(xiàn)出了一種穩(wěn)定的延續(xù)性和傳承性*之所以不將前春秋詞匯納入這一比較范圍，是因?yàn)槠湔Z(yǔ)料規(guī)模與另外兩個(gè)時(shí)代相差較大。春秋和戰(zhàn)國(guó)時(shí)代的語(yǔ)料規(guī)?；鞠喈?dāng)，這更便于我們得出以上的結(jié)論。，這種延續(xù)性和傳承性在下文的“時(shí)代發(fā)源詞”中將會(huì)進(jìn)一步分析。

4.3 時(shí)代發(fā)源詞

有些詞匯是從某一個(gè)時(shí)代開(kāi)始才出現(xiàn)的，這類(lèi)詞在發(fā)源的時(shí)代之前詞頻基本為0，從某一個(gè)時(shí)代開(kāi)始詞頻會(huì)有顯著的提升，例如，“然後c”在前春秋時(shí)代詞頻為0；到了春秋時(shí)代，詞頻為0.000 077 5；到了戰(zhàn)國(guó)時(shí)代，其詞頻增長(zhǎng)為0.000 155 3。從這個(gè)例子可以看出“然後c”這個(gè)詞發(fā)源與春秋時(shí)代并逐漸通行的特點(diǎn)。通過(guò)詞頻的篩選，我們就可以獲取這些時(shí)代發(fā)源詞。由于先秦的時(shí)代我們只劃分為三個(gè)時(shí)代，我們很難通過(guò)上述提出的方法，嚴(yán)格界定出發(fā)源于前春秋時(shí)代或戰(zhàn)國(guó)時(shí)代的詞語(yǔ)。因此這里我們只就發(fā)源于春秋時(shí)代的詞語(yǔ)進(jìn)行討論。

通過(guò)我們的方法得到了一個(gè)時(shí)代發(fā)源詞表如表5所示。

表5 春秋發(fā)源詞示例

觀(guān)察詞表可以發(fā)現(xiàn)，時(shí)代發(fā)源詞也分幾種情況：有些詞語(yǔ)發(fā)源于并流行于一個(gè)時(shí)代，并在之后的時(shí)代繼續(xù)保持著一定的使用頻率，這樣的詞語(yǔ)從發(fā)源開(kāi)始逐漸成為常用詞的一部分，例如，“然後c”；有些詞語(yǔ)發(fā)源于并流行于一個(gè)時(shí)代，在之后的時(shí)代中雖也見(jiàn)使用，但頻率遠(yuǎn)不及其發(fā)源的時(shí)代，這種詞匯與時(shí)代獨(dú)有詞和時(shí)代特有詞均有相似的成分，但卻又有明顯的區(qū)別，因此我們并未將其算作時(shí)代獨(dú)有詞或時(shí)代特有詞的特殊情況，而是作為時(shí)代發(fā)源詞的一類(lèi)，這類(lèi)詞如“觶n”；有些詞語(yǔ)發(fā)源于某一個(gè)時(shí)代，但真正流行卻是在之后的時(shí)代，這類(lèi)詞也有成為常用詞或以后某個(gè)時(shí)代的時(shí)代特有詞的可能性，例如，“下士n”。

5 文獻(xiàn)時(shí)代判定

文獻(xiàn)時(shí)代的判定可以看作一種將文獻(xiàn)劃分為不同時(shí)代類(lèi)別的文本分類(lèi)的任務(wù)。我們實(shí)現(xiàn)并比較了兩種文本分類(lèi)的方法，一種是基于向量相似度的計(jì)算，一種是使用樸素貝葉斯分類(lèi)器。下文將就這兩種分類(lèi)方法進(jìn)行詳細(xì)的說(shuō)明和分析。

5.1 向量空間模型及文檔特征選擇

5.1.1 向量空間模型

向量空間模型(VSM)由G.Salton[13]首先提出。給定任意一個(gè)文檔D，D可以表示為D(t1,w1;t2,w2; …;tn,wn)，其中各特征項(xiàng)tk(1

5.1.2 χ2統(tǒng)計(jì)量

文檔的特征項(xiàng)可以由字、詞、短語(yǔ)等來(lái)表示，不論選取哪一種作為特征項(xiàng)，一篇文檔的特征維度都會(huì)是非常高的，這樣高維的向量不利于此基礎(chǔ)上的進(jìn)一步計(jì)算，因此特征項(xiàng)的選擇至關(guān)重要。目前已有許多成熟的特征選擇方法，如利用信息增益(IG)、χ2統(tǒng)計(jì)量、互信息(MI)等方法[14]。本文通過(guò)實(shí)驗(yàn)比較，將詞作為文檔特征項(xiàng)，使用χ2統(tǒng)計(jì)量進(jìn)行文檔特征的選擇。

“χ2統(tǒng)計(jì)量(CHI)衡量特征項(xiàng)ti和類(lèi)別Cj之間的關(guān)聯(lián)程度，并假設(shè)ti和Cj之間符合具有一階自由度的χ2分布。特征對(duì)于某類(lèi)的χ2統(tǒng)計(jì)值越高，它與該類(lèi)之間的相關(guān)性越大，攜帶的類(lèi)別信息也較多，反之則越少?！盵15-16]*關(guān)于χ2統(tǒng)計(jì)量的公式及表格均參考文獻(xiàn)[18]。

“令N表示訓(xùn)練語(yǔ)料中文檔的總數(shù)，A表示屬于Cj類(lèi)且包含ti的文檔頻度，B表示不屬于Cj類(lèi)但包含ti的文檔頻度，C表示屬于Cj類(lèi)但不包含ti的文檔頻度，D是既不屬于Cj也不包含ti的文檔頻度。表6表示了這4種情況。”

表6 特征與類(lèi)關(guān)系示意圖

特征項(xiàng)ti對(duì)Cj的CHI值為[5]：

χ2(ti,Cj)

基于CHI統(tǒng)計(jì)量的的特征提取方法可以分別計(jì)算ti對(duì)每個(gè)類(lèi)別的CHI值，然后在整個(gè)訓(xùn)練語(yǔ)料上計(jì)算，見(jiàn)式(2)，其中M為類(lèi)別數(shù)。

通過(guò)計(jì)算25部文獻(xiàn)每個(gè)詞對(duì)于三個(gè)時(shí)代的χ2統(tǒng)計(jì)量，我們從訓(xùn)練語(yǔ)料45 238個(gè)詞例中選取了 6 240個(gè)詞例作為特征項(xiàng)，這些特征項(xiàng)的值均大于3.5*取該值綜合考慮了特征項(xiàng)占總數(shù)的比例以及特征項(xiàng)統(tǒng)計(jì)量值的分布。。

5.2 文獻(xiàn)時(shí)代判定

5.2.1 基于向量相似度計(jì)算

我們把每一個(gè)文獻(xiàn)都看做一個(gè)文檔Di,把每一個(gè)時(shí)代也看作一個(gè)文檔Dj，那么某一部文獻(xiàn)是否屬于一個(gè)時(shí)代，就可以用文檔Di和文檔Dj兩個(gè)向量的相似度來(lái)計(jì)算。某一篇文獻(xiàn)向量與哪一個(gè)時(shí)代向量的相似性最高，那么它就是屬于這一個(gè)時(shí)代。向量相似度可以用向量夾角的余弦值來(lái)表示，如式(3)所示。

使用之前選定特征項(xiàng)，并用詞頻作為向量特征項(xiàng)的權(quán)重。計(jì)算這每一部文獻(xiàn)向量與各個(gè)時(shí)代向量的相似度，選取相似度最高的那個(gè)時(shí)代作為該文獻(xiàn)的成書(shū)時(shí)代，如式(4)所示，T(Di)表示文獻(xiàn)的成書(shū)時(shí)代，j表示時(shí)代，得到的實(shí)驗(yàn)結(jié)果見(jiàn)表7，8：

T(Di)=argmaxjSim(Di,Dj)

(4)

由于語(yǔ)料規(guī)模較小，我們的開(kāi)放測(cè)試是從25部文獻(xiàn)中抽取24部訓(xùn)練之后，再對(duì)剩余的一本進(jìn)行分類(lèi)測(cè)試，測(cè)試結(jié)果是對(duì)25部文獻(xiàn)分別用此方法得到的結(jié)果。

該實(shí)驗(yàn)中，判定結(jié)果取的是相似度最大的值對(duì)應(yīng)的時(shí)代。根據(jù)夾角余弦公式，相似度為1時(shí)，兩向量完全相同，為0時(shí)完全不相關(guān)，因此相似度值越接近1，兩向量越相似。我們的實(shí)驗(yàn)中得到的判斷時(shí)代的相似度最大值的平均值在封閉測(cè)試中為0.76，在開(kāi)放測(cè)試中為0.68，均比較接近于1，這也驗(yàn)證了實(shí)驗(yàn)的有效性。

從封閉測(cè)試來(lái)看，該方法在前春秋和戰(zhàn)國(guó)兩個(gè)時(shí)代的文獻(xiàn)判定上召回率很高，在春秋時(shí)代的正確率很高，而春秋時(shí)代的召回率較低，這個(gè)現(xiàn)象可能是由于春秋和戰(zhàn)國(guó)兩個(gè)時(shí)代之間詞匯分布的差異并不是非常明顯造成的。從開(kāi)放測(cè)試來(lái)看，整體效果是不盡如人意的，原因很顯然，是因?yàn)榍按呵锖痛呵飪蓚€(gè)時(shí)代的語(yǔ)料規(guī)模遠(yuǎn)小于戰(zhàn)國(guó)時(shí)代，特征項(xiàng)在戰(zhàn)國(guó)時(shí)代的噪音信息較大，甚至掩蓋了其在前春秋和春秋時(shí)代有價(jià)值的信息。若能提供更大規(guī)模的訓(xùn)練語(yǔ)料，該分類(lèi)方法的性能會(huì)有顯著的改善。

5.2.2 基于樸素貝葉斯分類(lèi)器

樸素貝葉斯分類(lèi)器是文本分類(lèi)研究中最為普遍的一種分類(lèi)器，其基本思想時(shí)利用特征項(xiàng)與類(lèi)別的聯(lián)合概率估計(jì)給定文檔的個(gè)別概率，并且假定每個(gè)文檔中的詞與詞之間是相互獨(dú)立的，文本中詞的出現(xiàn)只依賴(lài)與文本類(lèi)別，不依賴(lài)其他詞及文本長(zhǎng)度。根據(jù)貝葉斯公式，文檔Doc屬于Ci類(lèi)的概率如式(5)所示：

使用詞頻TF表示向量V的特征權(quán)重，則該公式可以改寫(xiě)為：

根據(jù)樸素貝葉斯分類(lèi)器對(duì)25部文獻(xiàn)進(jìn)行的時(shí)代分類(lèi)實(shí)驗(yàn)結(jié)果如表9,10所示。

封閉集和開(kāi)放集的選取同基于向量相似度計(jì)算的實(shí)驗(yàn)。從表中可見(jiàn)，不論是面向封閉語(yǔ)料還是開(kāi)放語(yǔ)料，樸素貝葉斯分類(lèi)器的分類(lèi)性能都要遠(yuǎn)優(yōu)于單純利用向量相似度的計(jì)算方法。但是樸素貝葉斯分類(lèi)器也表現(xiàn)出了明顯的對(duì)語(yǔ)料的依賴(lài)性，這與基于向量相似度的計(jì)算是類(lèi)似的，語(yǔ)料規(guī)模最大的戰(zhàn)國(guó)時(shí)代總體性能遠(yuǎn)好于規(guī)模較小的另外兩個(gè)時(shí)代，但語(yǔ)料的分布不均勻也影響了分類(lèi)實(shí)驗(yàn)的結(jié)果。但我們預(yù)計(jì)在更優(yōu)質(zhì)的語(yǔ)料條件下，該分類(lèi)方法的性能還有很大的提升空間。

表925部文獻(xiàn)成書(shū)年代判定(基于樸素貝葉斯分類(lèi)器，封閉測(cè)試)

前春秋春秋戰(zhàn)國(guó)微平均宏平均正確率/%100．00100．0082．3588．0094．12召回率/%100．0062．50100．0088．0087．50F值/%100．0076．9290．3288．0090．69

表1025部文獻(xiàn)成書(shū)年代判定(基于樸素貝葉斯分類(lèi)器，開(kāi)放測(cè)試)

前春秋春秋戰(zhàn)國(guó)微平均宏平均正確率/%50．0060．0076．4769．2362．16召回率/%66．6737．5092．8672．0065．67F值/%57．1446．1583．8770．5963．87

樸素貝葉斯分類(lèi)器之所以比向量相似度方法的性能高出很多，原因在于向量相似度的計(jì)算方法需要將每個(gè)文獻(xiàn)文本與每個(gè)時(shí)代文本做相似度計(jì)算，由于我們的語(yǔ)料規(guī)模限制，每個(gè)時(shí)代文本的質(zhì)量并不高，因此判斷某一個(gè)文獻(xiàn)是否屬于某個(gè)時(shí)代的準(zhǔn)確率也就不高了。樸素貝葉斯分類(lèi)器不存在這種問(wèn)題，其直接利用條件概率估算每個(gè)文獻(xiàn)文本“符合”各個(gè)時(shí)代的條件概率，即使語(yǔ)料規(guī)模并不大，也能勝任我們的分類(lèi)任務(wù)。

5.3 《列子》的成書(shū)年代判定

關(guān)于《列子》一書(shū)，學(xué)界一直存有爭(zhēng)議，主要在于現(xiàn)存《列子》究竟是戰(zhàn)國(guó)列子原著，還是魏晉之士偽作，甚或是東晉張湛自作自注[17]。

由于目前基于向量相似度計(jì)算的方法面向開(kāi)放語(yǔ)料分類(lèi)效果并不很好，因此我們使用樸素貝葉斯分類(lèi)器判定方法對(duì)《列子》*這里所用是《列子》字頻表，而不是詞頻表。年代進(jìn)行判定。使用向量相似度計(jì)算，《列子》與三個(gè)時(shí)代的相似度分別為0.42,0.38,0.48，雖然與戰(zhàn)國(guó)時(shí)代的相似度最高，但由于這個(gè)相似度的值遠(yuǎn)小于之前實(shí)驗(yàn)的平均值 0.60，因此通過(guò)此方法，《列子》成書(shū)于先秦的可能性不高。使用樸素貝葉斯分類(lèi)器，求得的列子成書(shū)于先秦三個(gè)時(shí)代的概率的負(fù)對(duì)數(shù)值分別為3.9E5，4.2E5 和4.3E5，也遠(yuǎn)大于之前開(kāi)放測(cè)試的平均最小值5.9E4，因此該方法也驗(yàn)證了《列子》成書(shū)于先秦的可能性不高。兩種方法均認(rèn)為《列子》成書(shū)于先秦的可能性不高，如果有可靠的魏晉時(shí)代分詞語(yǔ)料，將可以更有力的判定《列子》的成書(shū)年代是否真的是魏晉時(shí)代，限于論文篇幅，這里不做贅述。

6 結(jié)論

本文從時(shí)代獨(dú)有詞、時(shí)代特有詞和時(shí)代發(fā)源詞三個(gè)角度分別研究了先秦詞匯時(shí)代特征。將先秦分為前春秋、春秋和戰(zhàn)國(guó)三個(gè)時(shí)代，自動(dòng)獲取了各個(gè)時(shí)代具有時(shí)代特征的三類(lèi)詞語(yǔ)，并對(duì)這些詞語(yǔ)的分布和特征做了進(jìn)一步的分析和討論。之后文章使用向量空間模型和樸素貝葉斯分類(lèi)器分別自動(dòng)判定文獻(xiàn)時(shí)代，封閉測(cè)試的結(jié)果是較好的，但由于語(yǔ)料規(guī)模的限制，開(kāi)放測(cè)試雖遜色于封閉測(cè)試，但基本也是令人滿(mǎn)意的。

由于我們選取的語(yǔ)料限于25種文獻(xiàn)，得出的某些結(jié)論較為有限，但是本文主要是旨在探索一種獲取詞匯的時(shí)代特征及文本時(shí)代判定的方法。在語(yǔ)料的規(guī)模及范圍得到充分拓展的情況下，本研究提出的方法將可以得到更加科學(xué)和嚴(yán)謹(jǐn)?shù)慕Y(jié)論。有關(guān)文獻(xiàn)年代的自動(dòng)判定，使用其他文本分類(lèi)的方法是否效果更好，這也是以后要研究的主要方面。

[1] 譚書(shū)旺.從《孟子章句》看戰(zhàn)國(guó)至東漢的語(yǔ)言發(fā)展[J].古漢語(yǔ)研究，2001，2： 62-66.

[2] 吳寶安，黃樹(shù)先.先秦“皮”的語(yǔ)義場(chǎng)研究[J].古漢語(yǔ)研究，2006，2： 69-72.

[3] 葉南.《爾雅》與先秦語(yǔ)言研究[J].西南民族學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)，1996，s6： 74-77.

[4] 謝祥娟.從詞匯角度看《晏子春秋》的成書(shū)年代[J].中南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)，2011，8： 207-210.

[5] 陳小荷，馮敏萱，徐潤(rùn)華,等.先秦文獻(xiàn)信息處理[M].北京：世界圖書(shū)出版公司北京公司，2013： 146-168.

[6] 羅曼·雅克布森，潑沫斯卡.雅克布森文集[C].錢(qián)軍.北京：商務(wù)印書(shū)館，1980： 130-144.

[7] 楊振蘭.詞的時(shí)代色彩初探[J].山東大學(xué)學(xué)報(bào)，1988，3： 102-106.

[8] 沈孟瓔.論詞語(yǔ)時(shí)代色彩的主要特征[J].內(nèi)蒙古民族師院學(xué)報(bào)，1991，3： 24-29.

[9] 王吉輝.詞語(yǔ)的時(shí)代色彩與詞語(yǔ)的使用[J].理論與現(xiàn)代化，2001，2： 72-77.

[10] Liu Liu, Li Bin, et al. Automatic Acquisition of Chinese Words’ Property of Times[J]. Chinese LexicalSemantics.Lecture Notes in Computer Science, 2013, Volume 7717:154-165.

[11] 漢達(dá)文庫(kù).先秦文獻(xiàn)[DB/OL].http://www.chant.org/.2010.

[12] 石民，李斌，陳小荷.基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究[J].中文信息學(xué)報(bào)，2010，2： 39-45.

[13] Salton G. The SMART Retrieval System. Experiments in Automatic Document Processing[M]. Prentice Hall, 1971:115-411.

[14] Yang, Y., Pedersen, J.P. A Comparative Study on Feature Selection in Text Categorization[C]//Proceedings of 14th International Conference on Machine Learning, 1997:412-420.

[15] Dunning, T. Accurate Method for the Statistics of Surprise and Coincidence[J]. Computational Linguistics, 1993, 19(1):61-74.

[16] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社，2008： 340-353.

[17] 王光照，卞魯曉. 20世紀(jì)《列子》及張湛注研究述略[J]. 安徽大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)，2008，3： 14-19.