劉 瀏,李 斌,2,曲維光,陳小荷
(1. 南京師范大學(xué) 語(yǔ)言信息科技研究中心,江蘇 南京 210097; 2. 南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210093; 3. 南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210097)
先秦在史學(xué)中是秦朝以前時(shí)代的統(tǒng)稱(chēng),以公元前221年秦始皇統(tǒng)一六國(guó)為界限。這一時(shí)代看似簡(jiǎn)略,卻包含了夏、商、西周,以及春秋、戰(zhàn)國(guó)長(zhǎng)達(dá)1 800年的歷史。由于是華夏文明的開(kāi)始階段,時(shí)代久遠(yuǎn),大部分歷史都只能從古代流傳的史籍和現(xiàn)代出土的文物中尋得一絲端倪,真正留下大量典籍反映當(dāng)時(shí)文化的是春秋戰(zhàn)國(guó)時(shí)代。我們使用的25種先秦文獻(xiàn)也主要是春秋戰(zhàn)國(guó)時(shí)代的文獻(xiàn),對(duì)于先秦詞匯時(shí)代特征的研究,主要就是對(duì)春秋戰(zhàn)國(guó)這一時(shí)期詞匯時(shí)代特征的研究。但即便是春秋戰(zhàn)國(guó)時(shí)代,也包含了從公元前770年到公元前221年共550年的歷史,這一歷史時(shí)期漢語(yǔ)詞匯依然存在著變化發(fā)展,對(duì)這一歷史時(shí)期詞匯時(shí)代特征的研究,也就是尋求這一時(shí)期漢語(yǔ)詞匯的變化特征,以期能夠在此基礎(chǔ)上發(fā)現(xiàn)更多社會(huì)文化發(fā)展變化的特征。
詞匯的時(shí)代特征是詞匯意義重要的組成部分,對(duì)于其進(jìn)行定量研究以助于更深一步的語(yǔ)義知識(shí)挖掘很有價(jià)值和必要性,本文立足于先秦文獻(xiàn),通過(guò)定量方法研究先秦詞匯特點(diǎn),分別基于向量相似度和樸素貝葉斯分類(lèi)器,在25種先秦文獻(xiàn)進(jìn)行分類(lèi)實(shí)驗(yàn),發(fā)現(xiàn)在面向開(kāi)放語(yǔ)料時(shí),后者的性能更為穩(wěn)定。
有關(guān)先秦詞匯的研究豐富而多樣,主要見(jiàn)于以下幾種類(lèi)別: 從詞匯看語(yǔ)言的發(fā)展變化,如文獻(xiàn)[1];對(duì)詞匯本身進(jìn)行研究,如文獻(xiàn)[2-3];還有利用詞匯信息研究古籍的成書(shū)年代,如文獻(xiàn)[4]。綜觀(guān)這些研究,可以發(fā)現(xiàn)對(duì)于先秦詞匯的研究目前還僅限于古漢語(yǔ)或詞匯學(xué)等本體語(yǔ)言學(xué)領(lǐng)域,從語(yǔ)言信息處理角度看待并研究先秦詞匯的并不多見(jiàn),陳小荷在文獻(xiàn)[5]中的《詞匯概貌》一章詳細(xì)介紹了利用語(yǔ)言信息處理手段獲得的先秦詞匯知識(shí),是這一領(lǐng)域難得的研究成果。其中沒(méi)有提及詞匯在時(shí)代特征方面的研究,而這是本文主要研究目的所在。
有關(guān)詞匯的時(shí)代特征,語(yǔ)言學(xué)界已有許多研究,這些研究多著力于發(fā)掘并描述詞匯所具有的時(shí)代特征本身的性質(zhì)或意義,如羅曼·雅克布森[6]曾指出, “語(yǔ)言社會(huì)往往把時(shí)間軸包括在那些可以直接感知的語(yǔ)言因素之內(nèi),例如,人們會(huì)感覺(jué)到語(yǔ)言系統(tǒng)中的陳舊成分是古舊的,新鮮成分是時(shí)髦的。”楊振蘭[7]認(rèn)為詞語(yǔ)的時(shí)代特征 “是詞所體現(xiàn)出的某個(gè)歷史時(shí)代特殊的時(shí)代氛圍和時(shí)代氣息,是社會(huì)的變化發(fā)展在語(yǔ)言詞匯中的投影和映射?!薄氨仨毷欠从沉吮容^重要的社會(huì)歷史內(nèi)容的詞,才具備一定的時(shí)代氣息?!鄙蛎檄媅8]認(rèn)為時(shí)代色彩具備如“高頻率、時(shí)效性、選擇性、系列化、言文趨同化”等特征。王吉輝[9]認(rèn)為,詞語(yǔ)的時(shí)代特征不僅以其理性意義為基礎(chǔ),更與詞語(yǔ)的使用狀況緊密聯(lián)系。利用詞匯時(shí)代特征的性質(zhì)特點(diǎn),自動(dòng)發(fā)掘詞匯時(shí)代特征的研究見(jiàn)于文獻(xiàn)[10],其提出了對(duì)現(xiàn)代漢語(yǔ)詞匯的時(shí)代特征自動(dòng)獲取的方法。
3.1 語(yǔ)料資源 我們選取了漢達(dá)文庫(kù)[11]共25種先秦文獻(xiàn),包括《楚辭》《公羊傳》《管子》《谷梁傳》《國(guó)語(yǔ)》《韓非子》《老子》《禮記》《論語(yǔ)》《呂氏春秋》《孟子》《墨子》《商君書(shū)》《詩(shī)經(jīng)》《孫子兵法》《吳子》《孝經(jīng)》《荀子》《晏子春秋》《儀禮》《周禮》《周易》《莊子》《尚書(shū)》《左傳》。25種文獻(xiàn)類(lèi)型不一,成書(shū)的時(shí)代信息詳盡程度也不一,為了保持時(shí)代數(shù)據(jù)的一致性,保證后續(xù)時(shí)代特征獲取實(shí)驗(yàn)?zāi)軌蝽樌瓿?,我們?duì)每部文獻(xiàn)的成書(shū)時(shí)代劃定一個(gè)大致的區(qū)間。文獻(xiàn)時(shí)代信息可考的,參照考證時(shí)代;不確切的,參考作者的時(shí)代;若作者時(shí)代不可考,對(duì)于史書(shū)可參考史書(shū)記錄的時(shí)代;對(duì)于成書(shū)年代尚存疑的文獻(xiàn),如《孝經(jīng)》《周禮》,我們選取較為可信的觀(guān)點(diǎn)。這25種文獻(xiàn)的成書(shū)時(shí)代大致情況如圖1所示。
圖1 25種先秦文獻(xiàn)大致成書(shū)時(shí)代
3.2時(shí)代劃分
先秦文獻(xiàn)年代的判定并不都是十分精確的,而且由于文獻(xiàn)語(yǔ)料規(guī)模的限制,詞匯的特征及其變化很難如現(xiàn)代漢語(yǔ)般鮮明地表現(xiàn)在一年甚至一個(gè)月上,因此我們按照先秦時(shí)代本身的特點(diǎn)以及語(yǔ)料規(guī)模的特點(diǎn),將這25種按時(shí)代分為前春秋、春秋和戰(zhàn)國(guó)三個(gè)時(shí)代區(qū)間。這三個(gè)時(shí)代各自包含的文獻(xiàn)語(yǔ)料如表1所示。
表1 25種先秦文獻(xiàn)時(shí)代劃分
其中前春秋3部,占12%;春秋8部,占32%;戰(zhàn)國(guó)14部,占56%。
3.3 詞匯概貌
對(duì)文獻(xiàn)語(yǔ)料的分詞以及詞性標(biāo)注是對(duì)文獻(xiàn)詞匯的研究的前提和基礎(chǔ)。我們參照了石民[12]的方法,使用CRF模型對(duì)文獻(xiàn)進(jìn)行了分詞以及詞性標(biāo)注。并在此基礎(chǔ)上對(duì)劃分出的先秦三個(gè)時(shí)代所包含的文獻(xiàn)分別進(jìn)行了詞匯的頻次統(tǒng)計(jì),得到一個(gè)先秦文獻(xiàn)的詞頻數(shù)據(jù)庫(kù),對(duì)于先秦文獻(xiàn)詞匯的時(shí)代特征研究都是基于該數(shù)據(jù)庫(kù)進(jìn)行的,如表2所示。
表2 先秦詞頻次
25部先秦文獻(xiàn)總規(guī)模為1 221 202詞,其中前春秋頻次為113 238,占總頻次的9.27%;春秋詞頻次為361 188,占29.58%;戰(zhàn)國(guó)頻次為746 776,占61.15%??偟念l次分布與各個(gè)時(shí)代文獻(xiàn)數(shù)目大致相符合。
4.1 時(shí)代獨(dú)有詞 時(shí)代獨(dú)有詞,顧名思義,表示只屬于一個(gè)時(shí)代的那些詞匯。這樣的詞匯,其特征在于,從其產(chǎn)生到消亡的整個(gè)過(guò)程只是出現(xiàn)在一個(gè)時(shí)代的區(qū)間里*當(dāng)然也有可能某些詞匯在之后的某個(gè)時(shí)代又再度出現(xiàn),這里的獨(dú)有僅限先秦這一更大的時(shí)代區(qū)間而論。。我們獲取這樣的詞匯,只需要嚴(yán)格按照定義,尋找那些在各個(gè)所屬時(shí)代出現(xiàn)頻率為0的那些詞即可。這樣的詞匯,由于其具有的“獨(dú)有性”的特點(diǎn),對(duì)于古漢語(yǔ)尤其是詞匯學(xué)方面的研究,具有特殊的研究?jī)r(jià)值,因此我們單獨(dú)將這些詞語(yǔ)摘錄并建立數(shù)據(jù)庫(kù),如表3所示。
表3春秋獨(dú)有詞示例
詞詞性詞頻次詞詞性詞頻次爲(wèi)v641佐食n116衞ns131曷為r115
我們統(tǒng)計(jì)的各時(shí)代獨(dú)有詞中,前春秋獨(dú)有詞有3 291例,春秋獨(dú)有詞有10 388例,戰(zhàn)國(guó)獨(dú)有詞有20 318例,分別占各個(gè)時(shí)代總詞次比例為: 2.9%,2.88%和2.72%。這是一個(gè)很有意思的現(xiàn)象,由于時(shí)代和語(yǔ)料兩方面規(guī)模的限制,我們還不能夠下一個(gè)確定的結(jié)論。但就已有語(yǔ)料的數(shù)據(jù)可以大膽猜測(cè),那就是各個(gè)時(shí)代獨(dú)有詞匯占各個(gè)時(shí)代總詞匯的比例是大致固定的,這個(gè)比例可能在2.5%到3%之間。但從各個(gè)時(shí)代獨(dú)有詞匯的比例規(guī)模來(lái)看,獨(dú)有詞匯的數(shù)量還是比較龐大的,這與我們語(yǔ)感上預(yù)期的情況不太一致,原因在于這些獨(dú)有詞中,大部分詞語(yǔ)的出現(xiàn)頻次很低。我們統(tǒng)計(jì)各時(shí)代獨(dú)有詞中出現(xiàn)頻次小于各時(shí)代總頻次的0.001%的那些詞,發(fā)現(xiàn)三個(gè)時(shí)代這些“低頻獨(dú)有詞”所占比例分別為74.81%、88%和96.8%。為何“低頻獨(dú)有詞”會(huì)在獨(dú)有詞中占如此大比例的一部分,我們分析其主要原因是低頻獨(dú)有詞中含有大量人名、地名等命名實(shí)體。這些命名實(shí)體往往是只會(huì)出現(xiàn)在一個(gè)時(shí)代的,若是不重要的往往只會(huì)出現(xiàn)少數(shù)幾次或一次。
4.2時(shí)代特有詞
時(shí)代特有詞匯從概念上說(shuō),應(yīng)該是顯著包含并表現(xiàn)了這個(gè)時(shí)代所特有信息的一類(lèi)詞。根據(jù)文獻(xiàn)[7-10]等人的研究,詞語(yǔ)的時(shí)代性(在這里就表現(xiàn)為時(shí)代特有詞),主要是體現(xiàn)在詞語(yǔ)的高詞頻這一特點(diǎn)上的。這類(lèi)詞不應(yīng)在各個(gè)時(shí)代都是高頻,應(yīng)該只是在這些時(shí)代中的某一個(gè)時(shí)代區(qū)間內(nèi)高頻率。據(jù)此,我們篩選每個(gè)時(shí)代那些詞頻是別的時(shí)代詞頻5倍以上的詞*我們還排除了那些詞頻為0的詞語(yǔ),因?yàn)檫@些詞語(yǔ)的特點(diǎn)已經(jīng)時(shí)代獨(dú)有詞中體現(xiàn)了,并且還將在下文所述的“時(shí)代發(fā)源詞”中進(jìn)一步分析。。得到先秦三個(gè)時(shí)代各自的時(shí)代特有詞,并建立數(shù)據(jù)庫(kù),如表4所示。
表4 春秋特有詞示例
該方法得到的詞語(yǔ),不僅具有高頻率的特點(diǎn),而且限制了高頻率的時(shí)代區(qū)間,因此獲得的詞語(yǔ)都滿(mǎn)足“時(shí)代特有”這一特性及條件。通過(guò)該方法,我們得到前春秋特有詞367個(gè),春秋特有詞138個(gè),戰(zhàn)國(guó)特有詞86個(gè)。三個(gè)時(shí)代特有詞呈逐步減少的趨勢(shì),可能是詞匯的傳承造成的。例如,戰(zhàn)國(guó)時(shí)代許多詞語(yǔ)是從春秋時(shí)代沿襲下來(lái)的,這些詞語(yǔ)一旦固化成常用詞語(yǔ),詞頻就不會(huì)發(fā)生太大的變化,因此通過(guò)詞頻比較的方法,也就很難從戰(zhàn)國(guó)時(shí)代找到太多的時(shí)代特有詞。這也說(shuō)明戰(zhàn)國(guó)時(shí)代較之春秋時(shí)代雖然社會(huì)生活發(fā)生了劇烈的變化,但語(yǔ)言尤其是詞匯方面,依然表現(xiàn)出了一種穩(wěn)定的延續(xù)性和傳承性*之所以不將前春秋詞匯納入這一比較范圍,是因?yàn)槠湔Z(yǔ)料規(guī)模與另外兩個(gè)時(shí)代相差較大。春秋和戰(zhàn)國(guó)時(shí)代的語(yǔ)料規(guī)?;鞠喈?dāng),這更便于我們得出以上的結(jié)論。,這種延續(xù)性和傳承性在下文的“時(shí)代發(fā)源詞”中將會(huì)進(jìn)一步分析。
4.3 時(shí)代發(fā)源詞
有些詞匯是從某一個(gè)時(shí)代開(kāi)始才出現(xiàn)的,這類(lèi)詞在發(fā)源的時(shí)代之前詞頻基本為0,從某一個(gè)時(shí)代開(kāi)始詞頻會(huì)有顯著的提升,例如,“然後c”在前春秋時(shí)代詞頻為0;到了春秋時(shí)代,詞頻為0.000 077 5;到了戰(zhàn)國(guó)時(shí)代,其詞頻增長(zhǎng)為0.000 155 3。從這個(gè)例子可以看出“然後c”這個(gè)詞發(fā)源與春秋時(shí)代并逐漸通行的特點(diǎn)。通過(guò)詞頻的篩選,我們就可以獲取這些時(shí)代發(fā)源詞。由于先秦的時(shí)代我們只劃分為三個(gè)時(shí)代,我們很難通過(guò)上述提出的方法,嚴(yán)格界定出發(fā)源于前春秋時(shí)代或戰(zhàn)國(guó)時(shí)代的詞語(yǔ)。因此這里我們只就發(fā)源于春秋時(shí)代的詞語(yǔ)進(jìn)行討論。
通過(guò)我們的方法得到了一個(gè)時(shí)代發(fā)源詞表如表5所示。
表5 春秋發(fā)源詞示例
觀(guān)察詞表可以發(fā)現(xiàn),時(shí)代發(fā)源詞也分幾種情況: 有些詞語(yǔ)發(fā)源于并流行于一個(gè)時(shí)代,并在之后的時(shí)代繼續(xù)保持著一定的使用頻率,這樣的詞語(yǔ)從發(fā)源開(kāi)始逐漸成為常用詞的一部分,例如,“然後c”;有些詞語(yǔ)發(fā)源于并流行于一個(gè)時(shí)代,在之后的時(shí)代中雖也見(jiàn)使用,但頻率遠(yuǎn)不及其發(fā)源的時(shí)代,這種詞匯與時(shí)代獨(dú)有詞和時(shí)代特有詞均有相似的成分,但卻又有明顯的區(qū)別,因此我們并未將其算作時(shí)代獨(dú)有詞或時(shí)代特有詞的特殊情況,而是作為時(shí)代發(fā)源詞的一類(lèi),這類(lèi)詞如“觶n”;有些詞語(yǔ)發(fā)源于某一個(gè)時(shí)代,但真正流行卻是在之后的時(shí)代,這類(lèi)詞也有成為常用詞或以后某個(gè)時(shí)代的時(shí)代特有詞的可能性,例如,“下士n”。
文獻(xiàn)時(shí)代的判定可以看作一種將文獻(xiàn)劃分為不同時(shí)代類(lèi)別的文本分類(lèi)的任務(wù)。我們實(shí)現(xiàn)并比較了兩種文本分類(lèi)的方法,一種是基于向量相似度的計(jì)算,一種是使用樸素貝葉斯分類(lèi)器。下文將就這兩種分類(lèi)方法進(jìn)行詳細(xì)的說(shuō)明和分析。
5.1 向量空間模型及文檔特征選擇
5.1.1 向量空間模型
向量空間模型(VSM)由G.Salton[13]首先提出。給定任意一個(gè)文檔D,D可以表示為D(t1,w1;t2,w2; …;tn,wn),其中各特征項(xiàng)tk(1 5.1.2 χ2統(tǒng)計(jì)量 文檔的特征項(xiàng)可以由字、詞、短語(yǔ)等來(lái)表示,不論選取哪一種作為特征項(xiàng),一篇文檔的特征維度都會(huì)是非常高的,這樣高維的向量不利于此基礎(chǔ)上的進(jìn)一步計(jì)算,因此特征項(xiàng)的選擇至關(guān)重要。目前已有許多成熟的特征選擇方法,如利用信息增益(IG)、χ2統(tǒng)計(jì)量、互信息(MI)等方法[14]。本文通過(guò)實(shí)驗(yàn)比較,將詞作為文檔特征項(xiàng),使用χ2統(tǒng)計(jì)量進(jìn)行文檔特征的選擇。 “χ2統(tǒng)計(jì)量(CHI)衡量特征項(xiàng)ti和類(lèi)別Cj之間的關(guān)聯(lián)程度,并假設(shè)ti和Cj之間符合具有一階自由度的χ2分布。特征對(duì)于某類(lèi)的χ2統(tǒng)計(jì)值越高,它與該類(lèi)之間的相關(guān)性越大,攜帶的類(lèi)別信息也較多,反之則越少?!盵15-16]*關(guān)于χ2統(tǒng)計(jì)量的公式及表格均參考文獻(xiàn)[18]。 “令N表示訓(xùn)練語(yǔ)料中文檔的總數(shù),A表示屬于Cj類(lèi)且包含ti的文檔頻度,B表示不屬于Cj類(lèi)但包含ti的文檔頻度,C表示屬于Cj類(lèi)但不包含ti的文檔頻度,D是既不屬于Cj也不包含ti的文檔頻度。表6表示了這4種情況。” 表6 特征與類(lèi)關(guān)系示意圖 特征項(xiàng)ti對(duì)Cj的CHI值為[5]: χ2(ti,Cj) 基于CHI統(tǒng)計(jì)量的的特征提取方法可以分別計(jì)算ti對(duì)每個(gè)類(lèi)別的CHI值,然后在整個(gè)訓(xùn)練語(yǔ)料上計(jì)算,見(jiàn)式(2),其中M為類(lèi)別數(shù)。 通過(guò)計(jì)算25部文獻(xiàn)每個(gè)詞對(duì)于三個(gè)時(shí)代的χ2統(tǒng)計(jì)量,我們從訓(xùn)練語(yǔ)料45 238個(gè)詞例中選取了 6 240個(gè)詞例作為特征項(xiàng),這些特征項(xiàng)的值均大于3.5*取該值綜合考慮了特征項(xiàng)占總數(shù)的比例以及特征項(xiàng)統(tǒng)計(jì)量值的分布。。 5.2 文獻(xiàn)時(shí)代判定 5.2.1 基于向量相似度計(jì)算 我們把每一個(gè)文獻(xiàn)都看做一個(gè)文檔Di,把每一個(gè)時(shí)代也看作一個(gè)文檔Dj,那么某一部文獻(xiàn)是否屬于一個(gè)時(shí)代,就可以用文檔Di和文檔Dj兩個(gè)向量的相似度來(lái)計(jì)算。某一篇文獻(xiàn)向量與哪一個(gè)時(shí)代向量的相似性最高,那么它就是屬于這一個(gè)時(shí)代。向量相似度可以用向量夾角的余弦值來(lái)表示,如式(3)所示。 使用之前選定特征項(xiàng),并用詞頻作為向量特征項(xiàng)的權(quán)重。計(jì)算這每一部文獻(xiàn)向量與各個(gè)時(shí)代向量的相似度,選取相似度最高的那個(gè)時(shí)代作為該文獻(xiàn)的成書(shū)時(shí)代,如式(4)所示,T(Di)表示文獻(xiàn)的成書(shū)時(shí)代,j表示時(shí)代,得到的實(shí)驗(yàn)結(jié)果見(jiàn)表7,8: T(Di)=argmaxjSim(Di,Dj) (4) 由于語(yǔ)料規(guī)模較小,我們的開(kāi)放測(cè)試是從25部文獻(xiàn)中抽取24部訓(xùn)練之后,再對(duì)剩余的一本進(jìn)行分類(lèi)測(cè)試,測(cè)試結(jié)果是對(duì)25部文獻(xiàn)分別用此方法得到的結(jié)果。 該實(shí)驗(yàn)中,判定結(jié)果取的是相似度最大的值對(duì)應(yīng)的時(shí)代。根據(jù)夾角余弦公式,相似度為1時(shí),兩向量完全相同,為0時(shí)完全不相關(guān),因此相似度值越接近1,兩向量越相似。我們的實(shí)驗(yàn)中得到的判斷時(shí)代的相似度最大值的平均值在封閉測(cè)試中為0.76,在開(kāi)放測(cè)試中為0.68,均比較接近于1,這也驗(yàn)證了實(shí)驗(yàn)的有效性。 從封閉測(cè)試來(lái)看,該方法在前春秋和戰(zhàn)國(guó)兩個(gè)時(shí)代的文獻(xiàn)判定上召回率很高,在春秋時(shí)代的正確率很高,而春秋時(shí)代的召回率較低,這個(gè)現(xiàn)象可能是由于春秋和戰(zhàn)國(guó)兩個(gè)時(shí)代之間詞匯分布的差異并不是非常明顯造成的。從開(kāi)放測(cè)試來(lái)看,整體效果是不盡如人意的,原因很顯然,是因?yàn)榍按呵锖痛呵飪蓚€(gè)時(shí)代的語(yǔ)料規(guī)模遠(yuǎn)小于戰(zhàn)國(guó)時(shí)代,特征項(xiàng)在戰(zhàn)國(guó)時(shí)代的噪音信息較大,甚至掩蓋了其在前春秋和春秋時(shí)代有價(jià)值的信息。若能提供更大規(guī)模的訓(xùn)練語(yǔ)料,該分類(lèi)方法的性能會(huì)有顯著的改善。 5.2.2 基于樸素貝葉斯分類(lèi)器 樸素貝葉斯分類(lèi)器是文本分類(lèi)研究中最為普遍的一種分類(lèi)器,其基本思想時(shí)利用特征項(xiàng)與類(lèi)別的聯(lián)合概率估計(jì)給定文檔的個(gè)別概率,并且假定每個(gè)文檔中的詞與詞之間是相互獨(dú)立的,文本中詞的出現(xiàn)只依賴(lài)與文本類(lèi)別,不依賴(lài)其他詞及文本長(zhǎng)度。根據(jù)貝葉斯公式,文檔Doc屬于Ci類(lèi)的概率如式(5)所示: 使用詞頻TF表示向量V的特征權(quán)重,則該公式可以改寫(xiě)為: 根據(jù)樸素貝葉斯分類(lèi)器對(duì)25部文獻(xiàn)進(jìn)行的時(shí)代分類(lèi)實(shí)驗(yàn)結(jié)果如表9,10所示。 封閉集和開(kāi)放集的選取同基于向量相似度計(jì)算的實(shí)驗(yàn)。從表中可見(jiàn),不論是面向封閉語(yǔ)料還是開(kāi)放語(yǔ)料,樸素貝葉斯分類(lèi)器的分類(lèi)性能都要遠(yuǎn)優(yōu)于單純利用向量相似度的計(jì)算方法。但是樸素貝葉斯分類(lèi)器也表現(xiàn)出了明顯的對(duì)語(yǔ)料的依賴(lài)性,這與基于向量相似度的計(jì)算是類(lèi)似的,語(yǔ)料規(guī)模最大的戰(zhàn)國(guó)時(shí)代總體性能遠(yuǎn)好于規(guī)模較小的另外兩個(gè)時(shí)代,但語(yǔ)料的分布不均勻也影響了分類(lèi)實(shí)驗(yàn)的結(jié)果。但我們預(yù)計(jì)在更優(yōu)質(zhì)的語(yǔ)料條件下,該分類(lèi)方法的性能還有很大的提升空間。 表925部文獻(xiàn)成書(shū)年代判定(基于樸素貝葉斯分類(lèi)器,封閉測(cè)試) 前春秋春秋戰(zhàn)國(guó)微平均宏平均正確率/%100.00100.0082.3588.0094.12召回率/%100.0062.50100.0088.0087.50F值/%100.0076.9290.3288.0090.69 表1025部文獻(xiàn)成書(shū)年代判定(基于樸素貝葉斯分類(lèi)器,開(kāi)放測(cè)試) 前春秋春秋戰(zhàn)國(guó)微平均宏平均正確率/%50.0060.0076.4769.2362.16召回率/%66.6737.5092.8672.0065.67F值/%57.1446.1583.8770.5963.87 樸素貝葉斯分類(lèi)器之所以比向量相似度方法的性能高出很多,原因在于向量相似度的計(jì)算方法需要將每個(gè)文獻(xiàn)文本與每個(gè)時(shí)代文本做相似度計(jì)算,由于我們的語(yǔ)料規(guī)模限制,每個(gè)時(shí)代文本的質(zhì)量并不高,因此判斷某一個(gè)文獻(xiàn)是否屬于某個(gè)時(shí)代的準(zhǔn)確率也就不高了。樸素貝葉斯分類(lèi)器不存在這種問(wèn)題,其直接利用條件概率估算每個(gè)文獻(xiàn)文本“符合”各個(gè)時(shí)代的條件概率,即使語(yǔ)料規(guī)模并不大,也能勝任我們的分類(lèi)任務(wù)。 5.3 《列子》的成書(shū)年代判定 關(guān)于《列子》一書(shū),學(xué)界一直存有爭(zhēng)議,主要在于現(xiàn)存《列子》究竟是戰(zhàn)國(guó)列子原著,還是魏晉之士偽作,甚或是東晉張湛自作自注[17]。 由于目前基于向量相似度計(jì)算的方法面向開(kāi)放語(yǔ)料分類(lèi)效果并不很好,因此我們使用樸素貝葉斯分類(lèi)器判定方法對(duì)《列子》*這里所用是《列子》字頻表,而不是詞頻表。年代進(jìn)行判定。使用向量相似度計(jì)算,《列子》與三個(gè)時(shí)代的相似度分別為0.42,0.38,0.48,雖然與戰(zhàn)國(guó)時(shí)代的相似度最高,但由于這個(gè)相似度的值遠(yuǎn)小于之前實(shí)驗(yàn)的平均值 0.60,因此通過(guò)此方法,《列子》成書(shū)于先秦的可能性不高。使用樸素貝葉斯分類(lèi)器,求得的列子成書(shū)于先秦三個(gè)時(shí)代的概率的負(fù)對(duì)數(shù)值分別為3.9E5,4.2E5 和4.3E5,也遠(yuǎn)大于之前開(kāi)放測(cè)試的平均最小值5.9E4,因此該方法也驗(yàn)證了《列子》成書(shū)于先秦的可能性不高。兩種方法均認(rèn)為《列子》成書(shū)于先秦的可能性不高,如果有可靠的魏晉時(shí)代分詞語(yǔ)料,將可以更有力的判定《列子》的成書(shū)年代是否真的是魏晉時(shí)代,限于論文篇幅,這里不做贅述。 本文從時(shí)代獨(dú)有詞、時(shí)代特有詞和時(shí)代發(fā)源詞三個(gè)角度分別研究了先秦詞匯時(shí)代特征。將先秦分為前春秋、春秋和戰(zhàn)國(guó)三個(gè)時(shí)代,自動(dòng)獲取了各個(gè)時(shí)代具有時(shí)代特征的三類(lèi)詞語(yǔ),并對(duì)這些詞語(yǔ)的分布和特征做了進(jìn)一步的分析和討論。之后文章使用向量空間模型和樸素貝葉斯分類(lèi)器分別自動(dòng)判定文獻(xiàn)時(shí)代,封閉測(cè)試的結(jié)果是較好的,但由于語(yǔ)料規(guī)模的限制,開(kāi)放測(cè)試雖遜色于封閉測(cè)試,但基本也是令人滿(mǎn)意的。 由于我們選取的語(yǔ)料限于25種文獻(xiàn),得出的某些結(jié)論較為有限,但是本文主要是旨在探索一種獲取詞匯的時(shí)代特征及文本時(shí)代判定的方法。在語(yǔ)料的規(guī)模及范圍得到充分拓展的情況下,本研究提出的方法將可以得到更加科學(xué)和嚴(yán)謹(jǐn)?shù)慕Y(jié)論。有關(guān)文獻(xiàn)年代的自動(dòng)判定,使用其他文本分類(lèi)的方法是否效果更好,這也是以后要研究的主要方面。 [1] 譚書(shū)旺.從《孟子章句》看戰(zhàn)國(guó)至東漢的語(yǔ)言發(fā)展[J].古漢語(yǔ)研究,2001,2: 62-66. [2] 吳寶安,黃樹(shù)先.先秦“皮”的語(yǔ)義場(chǎng)研究[J].古漢語(yǔ)研究,2006,2: 69-72. [3] 葉南.《爾雅》與先秦語(yǔ)言研究[J].西南民族學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),1996,s6: 74-77. [4] 謝祥娟.從詞匯角度看《晏子春秋》的成書(shū)年代[J].中南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011,8: 207-210. [5] 陳小荷,馮敏萱,徐潤(rùn)華,等.先秦文獻(xiàn)信息處理[M].北京: 世界圖書(shū)出版公司北京公司,2013: 146-168. [6] 羅曼·雅克布森,潑沫斯卡.雅克布森文集[C].錢(qián)軍.北京: 商務(wù)印書(shū)館,1980: 130-144. [7] 楊振蘭.詞的時(shí)代色彩初探[J].山東大學(xué)學(xué)報(bào),1988,3: 102-106. [8] 沈孟瓔.論詞語(yǔ)時(shí)代色彩的主要特征[J].內(nèi)蒙古民族師院學(xué)報(bào),1991,3: 24-29. [9] 王吉輝.詞語(yǔ)的時(shí)代色彩與詞語(yǔ)的使用[J].理論與現(xiàn)代化,2001,2: 72-77. [10] Liu Liu, Li Bin, et al. Automatic Acquisition of Chinese Words’ Property of Times[J]. Chinese LexicalSemantics.Lecture Notes in Computer Science, 2013, Volume 7717:154-165. [11] 漢達(dá)文庫(kù).先秦文獻(xiàn)[DB/OL].http://www.chant.org/.2010. [12] 石民,李斌,陳小荷.基于CRF的先秦漢語(yǔ)分詞標(biāo)注一體化研究[J].中文信息學(xué)報(bào),2010,2: 39-45. [13] Salton G. The SMART Retrieval System. Experiments in Automatic Document Processing[M]. Prentice Hall, 1971:115-411. [14] Yang, Y., Pedersen, J.P. A Comparative Study on Feature Selection in Text Categorization[C]//Proceedings of 14th International Conference on Machine Learning, 1997:412-420. [15] Dunning, T. Accurate Method for the Statistics of Surprise and Coincidence[J]. Computational Linguistics, 1993, 19(1):61-74. [16] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008: 340-353. [17] 王光照,卞魯曉. 20世紀(jì)《列子》及張湛注研究述略[J]. 安徽大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2008,3: 14-19.6 結(jié)論