朱 曉,金 力
(復(fù)旦大學(xué)生命科學(xué)學(xué)院,上海200433)
從20世紀(jì)50年代起,自然語(yǔ)言處理就伴隨著圖靈機(jī)的提出成為計(jì)算機(jī)科學(xué)家們希望解決的問(wèn)題之一[1-4].自然語(yǔ)言處理的研究范圍主要包括以下幾類:機(jī)器翻譯、自動(dòng)分詞、詞性標(biāo)注、語(yǔ)法解析、名詞實(shí)體識(shí)別以及實(shí)體關(guān)系識(shí)別.隨著計(jì)算機(jī)技術(shù)在中國(guó)的快速發(fā)展,現(xiàn)代漢語(yǔ)的信息處理研究目前已經(jīng)取得很多成果[5-10].但是,對(duì)于現(xiàn)代漢語(yǔ)的前身——古漢語(yǔ)的信息處理研究至今為數(shù)較少.目前只有少數(shù)研究者開展對(duì)古漢語(yǔ)語(yǔ)料中人名識(shí)別的研究[11],而國(guó)際會(huì)議上也僅出現(xiàn)一篇對(duì)文言文進(jìn)行分句研究的文獻(xiàn)[12].
古漢語(yǔ)信息處理研究相對(duì)滯后的原因主要有以下幾點(diǎn):①古漢語(yǔ)的信息化程度比較低.雖然國(guó)家已經(jīng)設(shè)立重大項(xiàng)目資助歷史學(xué)家將史書資料轉(zhuǎn)換成電子版,但目前對(duì)古漢語(yǔ)的研究大部分還是基于紙質(zhì)書籍,很多疑難漢字甚至都沒(méi)有對(duì)應(yīng)的計(jì)算機(jī)編碼.② 古漢語(yǔ)的使用率低.在信息化的互聯(lián)網(wǎng)時(shí)代,幾乎不會(huì)有人在生活中以及互聯(lián)網(wǎng)上使用古漢語(yǔ).古漢語(yǔ)信息處理研究帶來(lái)的商業(yè)價(jià)值較低,因此缺乏吸引力.③古漢語(yǔ)研究與信息處理技術(shù)缺乏有機(jī)結(jié)合.目前,大部分資深的古漢語(yǔ)語(yǔ)言學(xué)家對(duì)信息技術(shù)方面的了解十分欠缺,而另一方面從事古漢語(yǔ)信息處理的計(jì)算機(jī)工作者亟需古漢語(yǔ)語(yǔ)言學(xué)家提供大量的語(yǔ)料庫(kù)以及語(yǔ)言學(xué)角度的科學(xué)幫助.
研究者們已經(jīng)發(fā)現(xiàn)不同類型的語(yǔ)料學(xué)習(xí)得到的模型有著顯著的差異.例如,新聞?lì)}材的知識(shí)模型應(yīng)用到科學(xué)論文中的效率是十分低下的.在古漢語(yǔ)中也存在著各種各樣的體裁:記敘類,如人物傳記、志等;抒情類,如詩(shī)賦、辭賦等;議論類以及應(yīng)用類等文體.編年體是中國(guó)傳統(tǒng)史書中記載歷史事件的一種體裁,以時(shí)間為中心,按年、月、日編排史實(shí).中國(guó)著名的史書《春秋》、《資治通鑒》、《二十四史》等都是編年體史書.由于編年體體裁語(yǔ)料的時(shí)間線索明確、語(yǔ)法規(guī)整、易于學(xué)習(xí),有利于學(xué)習(xí)模型的建立,因此本研究選用清張廷玉編的《明史》作為語(yǔ)料素材[13].
詞性標(biāo)注是序列標(biāo)記算法在自然語(yǔ)言處理中的應(yīng)用.序列標(biāo)記算法是基于馬爾可夫性質(zhì)的統(tǒng)計(jì)模型.由馬爾可夫性質(zhì)直接轉(zhuǎn)化的序列標(biāo)記算法是著名的隱馬爾可夫模型(HMM).然而,HMM的最大弱點(diǎn)是對(duì)狀態(tài)轉(zhuǎn)移的定義十分局限.隨后根據(jù)需求,研究者又提出了最大熵馬爾可夫模型(MEMM),該方法將最大熵算法中設(shè)置特征規(guī)則的方法借用到序列算法中.但是MEMM在實(shí)際應(yīng)用中也存在明顯缺陷,也就是經(jīng)典的標(biāo)識(shí)偏倚問(wèn)題.條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)的提出很好地解決了這個(gè)問(wèn)題[14].條件隨機(jī)場(chǎng)模型在現(xiàn)代漢語(yǔ)以及其他語(yǔ)言的詞性標(biāo)注研究被廣泛應(yīng)用,但是在古漢語(yǔ)詞性標(biāo)注中的應(yīng)用目前尚沒(méi)有.本研究將CRF應(yīng)用于《明史》的詞性標(biāo)注.
對(duì)于現(xiàn)代漢語(yǔ)而言,分詞(Word Segmentation)具有重要意義[6,10].現(xiàn)代漢語(yǔ)的詞匯可以分為兩大類,單音節(jié)詞與多音節(jié)詞.多音節(jié)詞是兩個(gè)或者三個(gè)及以上的音節(jié)(字)組成的詞,這些音節(jié)組合形成一個(gè)完整語(yǔ)義.但是,這些組合在識(shí)別上會(huì)出現(xiàn)歧義,因此分詞在現(xiàn)代漢語(yǔ)研究中是非常重要的一個(gè)步驟.然而,在古漢語(yǔ)中,文體主要由單音節(jié)詞組成,只有少數(shù)的名詞或動(dòng)詞以多音節(jié)詞形式出現(xiàn).這類詞多為一些專有名詞,如皇帝的稱號(hào)、固定的地名等.除了專有名詞比較難以判別,其他多音節(jié)詞的組合基本符合一定的詞法規(guī)則.因此,對(duì)于古漢語(yǔ)分詞而言,我們僅需要對(duì)專有名詞進(jìn)行分詞.本研究將在已分詞與未分詞基礎(chǔ)上探討CRF三種圖模型在古漢語(yǔ)詞性標(biāo)注中的應(yīng)用.
選取《明史》[13]第十五到第十八本紀(jì)進(jìn)行詞性標(biāo)注研究.該部分語(yǔ)料包含3 603個(gè)句子,20 037個(gè)單字,其中非重復(fù)詞2 130個(gè).
在對(duì)古漢語(yǔ)材料進(jìn)行詞性標(biāo)注研究之前,我們首先需要將古漢語(yǔ)語(yǔ)料轉(zhuǎn)換成計(jì)算機(jī)可處理的編碼.我們選擇以英語(yǔ)語(yǔ)法的10種詞性作為基本詞性,包括名詞、動(dòng)詞、副詞、形容詞、介詞、連詞、數(shù)詞、代詞、助詞、量詞.為了方便提取時(shí)間和人物信息,我們?cè)谶@套標(biāo)注系統(tǒng)中新增了時(shí)間和姓名相關(guān)的標(biāo)簽,將專有名詞中的時(shí)間以及人名單獨(dú)進(jìn)行標(biāo)記.將天干、地支、姓氏以及人名作為4類特殊的標(biāo)記,加上前面的11種標(biāo)記,一共設(shè)定了15大類標(biāo)簽.詞性的標(biāo)簽集合為1:名詞;2:專有名詞;3:動(dòng)詞;4:形容詞;5:副詞;6:數(shù)詞;7:助詞;8:量詞;9:代詞;10:介詞;11:連詞;12:姓氏;13:天干;14:地支;15:人名.
在未分詞詞性標(biāo)注研究中,我們對(duì)每個(gè)單音節(jié)詞進(jìn)行信息化處理.在已分詞詞性標(biāo)注研究中,我們還將對(duì)語(yǔ)料中的專有名詞進(jìn)行分詞,即將多音節(jié)專有名詞作為一個(gè)計(jì)算機(jī)字符處理.
在本研究中,我們將基于條件隨機(jī)場(chǎng)模型(CRF)的三種圖模型應(yīng)用在古漢語(yǔ)詞性標(biāo)注研究中[15].條件隨機(jī)場(chǎng)是一類鑒別式無(wú)向圖概率模型[14].對(duì)于一組觀察值x以及一組符合一定條件概率分布的隨機(jī)變量y,Lafferty對(duì)CRF的圖模型定義如下:給定一個(gè)圖G=(V,E),y對(duì)于G上的節(jié)點(diǎn)集合V中的每一個(gè)節(jié)點(diǎn)v都有一個(gè)標(biāo)簽yv,如果x能夠條件決定yv,并且對(duì)于G中的任意點(diǎn)的隨機(jī)變量yv滿足馬爾可夫性質(zhì),那么條件分布P(y|x)便是一個(gè)條件隨機(jī)場(chǎng)模型.根據(jù)隨機(jī)場(chǎng)的基礎(chǔ)理論,這個(gè)模型的聯(lián)合條件概率被定義為
其中,fk(·)和gk(·)分別表示邊特征函數(shù)和點(diǎn)特征函數(shù).λk和μk表示待估計(jì)的特征函數(shù)權(quán)重.Z表示一個(gè)固定的標(biāo)準(zhǔn)化因子.
1.3.1 條件隨機(jī)場(chǎng)模型的特征設(shè)置
特征設(shè)置的多樣化是CRF的主要優(yōu)勢(shì),對(duì)于常規(guī)的文本自動(dòng)標(biāo)注系統(tǒng)而言,常用的特征有以下幾種類型:①邊特征:該特征描述條件轉(zhuǎn)移概率.如果假設(shè)序列中只有鄰接的兩個(gè)元素存在轉(zhuǎn)移條件,那么CRF圖就是一條條轉(zhuǎn)移鏈.如果假設(shè)序列中的某個(gè)元素與周圍n個(gè)元素存在轉(zhuǎn)移條件,則整個(gè)隨機(jī)場(chǎng)成為一張連通圖.n越大計(jì)算復(fù)雜度越高,抽提的特征越豐富,但同樣也會(huì)帶來(lái)過(guò)擬合的現(xiàn)象.目前現(xiàn)代漢語(yǔ)使用的最高的n元模板的維度是6.②序列起始特征:記錄著序列標(biāo)簽的起始狀態(tài),在算法中負(fù)責(zé)檢測(cè)當(dāng)前的標(biāo)簽是否能成為一個(gè)起始狀態(tài)標(biāo)簽.③序列終止特征:記錄著序列標(biāo)簽的終止?fàn)顟B(tài),在算法中負(fù)責(zé)檢測(cè)當(dāng)前的標(biāo)簽是否能成為一個(gè)終止?fàn)顟B(tài)標(biāo)簽.④單詞特征:該特征負(fù)責(zé)檢查當(dāng)前的元素在詞典中的標(biāo)簽類型以及分布,并按照詞典中已有的標(biāo)簽分布給當(dāng)前元素一定的權(quán)重.⑤未登錄詞特征:該特征負(fù)責(zé)對(duì)詞典中查找不到的元素定義標(biāo)簽權(quán)重.
1.3.2 三種圖模型的選擇
比較三種基于條件隨機(jī)場(chǎng)的圖模型在古漢語(yǔ)詞性標(biāo)注中的應(yīng)用.①無(wú)邊圖模型:該模型構(gòu)建的圖不加入邊特征,而只考慮單詞自身的屬性進(jìn)行詞性判斷,如起始特征、結(jié)束特征以及在訓(xùn)練詞典中的詞性概率等.②完全圖模型:給定一組標(biāo)簽序列,該模型將構(gòu)建出每一對(duì)元素之間的邊,包括該元素與自己的邊特征.當(dāng)給定訓(xùn)練集后,該模型將使用訓(xùn)練集中的轉(zhuǎn)移概率來(lái)設(shè)定邊特征的權(quán)重.③ 嵌套圖模型:在這個(gè)圖模型的概念中,一個(gè)序列將被視為多個(gè)分節(jié)序列.每個(gè)分節(jié)之間組成的連通圖被認(rèn)為是具有馬爾可夫性質(zhì)的隨機(jī)場(chǎng),而每一個(gè)分節(jié)被視作一個(gè)子序列圖模型.
1.3.3 交叉檢驗(yàn)
采用交叉檢驗(yàn)方法評(píng)估CRF三種圖模型在古漢語(yǔ)詞性標(biāo)注中的應(yīng)用效果[16].首先,我們將元數(shù)據(jù)平均拆分成10份,每次選擇其中9份作為訓(xùn)練集進(jìn)行模型學(xué)習(xí),然后利用剩余一份作為測(cè)試集進(jìn)行模型測(cè)試.如此重復(fù)選擇不同的訓(xùn)練集和測(cè)試集,共進(jìn)行10次測(cè)試.最后,我們通過(guò)幾個(gè)統(tǒng)計(jì)量評(píng)估模型測(cè)試結(jié)果.①精確性(Precission):指預(yù)測(cè)結(jié)果中正確的結(jié)果占全部預(yù)測(cè)結(jié)果的比例,描述了預(yù)測(cè)模型的可信度;②召回率(Recall):指實(shí)際情況中被預(yù)測(cè)模型預(yù)測(cè)到的結(jié)果比例,描述了預(yù)測(cè)模型對(duì)現(xiàn)實(shí)數(shù)據(jù)的識(shí)別率;③Fβ測(cè)量值:是對(duì)前兩個(gè)指標(biāo)綜合評(píng)定的一個(gè)得分.具體的公式為
其中β參數(shù)的設(shè)定表示研究者認(rèn)為召回率在目標(biāo)模型中的重要性是精確性的β倍[17].本研究中,我們選擇使用F1測(cè)量值.
2.1.1 三種模型的詞性標(biāo)記結(jié)果
三種CRF圖模型的詞性標(biāo)注結(jié)果如表1所示,完全圖模型和嵌套圖模型的效率相當(dāng),比無(wú)邊圖模型的效率稍好一些.
在15個(gè)詞性標(biāo)記中,天干和地支的識(shí)別效率是最高的.這是因?yàn)榫幠牦w中天干、地支作為一個(gè)月里對(duì)時(shí)間的衡量,形式十分簡(jiǎn)單,構(gòu)詞完全固定,因此準(zhǔn)確率和召回率均相當(dāng)高.但在結(jié)果中也存在判斷錯(cuò)誤的極少個(gè)例,大部分情況是將天干地支標(biāo)注成了專有名詞.另外,數(shù)詞的詞性標(biāo)注也有很高的效率,因?yàn)閿?shù)詞是一個(gè)觀察值比較固定的詞性.數(shù)詞判別的主要錯(cuò)誤出現(xiàn)在精確性上,模型通常會(huì)將作為其他詞性出現(xiàn)的數(shù)字誤認(rèn)為是數(shù)詞.
實(shí)驗(yàn)結(jié)果中形容詞、量詞、連詞的識(shí)別效率相對(duì)于其他的詞性而言十分低下.其中,量詞和連詞的識(shí)別效率十分低下主要是因?yàn)閿?shù)據(jù)集中量詞和連詞的含量過(guò)少,導(dǎo)致模型學(xué)習(xí)不成功.形容詞的識(shí)別效率低下則是因?yàn)樵~性的活用過(guò)多,大部分形容詞可以作為名詞使用.反之,不少專有名詞也有形容詞參與構(gòu)成,因此對(duì)形容詞進(jìn)行詞性標(biāo)注的精確性和召回率都非常低.
2.1.2 登錄詞與未登錄詞結(jié)果比較
由于在編年體中一段時(shí)間內(nèi)會(huì)重復(fù)出現(xiàn)同一件事物,因此在測(cè)試集中識(shí)別出的姓名、專有名詞等可能是在訓(xùn)練集中已經(jīng)存在的.我們將測(cè)試集與訓(xùn)練集共同出現(xiàn)的詞定義為已登錄詞,而將測(cè)試集出現(xiàn)、訓(xùn)練集未出現(xiàn)的詞定義為未登錄詞.我們將未登錄詞與已登錄詞分開,檢驗(yàn)CRF三種圖模型的詞性標(biāo)注效果.由于大部分詞性標(biāo)記在訓(xùn)練集中已經(jīng)被覆蓋,因此在本次試驗(yàn)中我們排除了在訓(xùn)練集中已經(jīng)完整的標(biāo)記,而僅對(duì)剩下的5個(gè)標(biāo)記(名詞、專有名詞、動(dòng)詞、姓氏、人名)進(jìn)行檢驗(yàn).
統(tǒng)計(jì)結(jié)果如表2所示,總體而言,三種CRF圖模型對(duì)未登錄詞的識(shí)別效率要比已登錄詞的識(shí)別效率低很多.其中,無(wú)邊圖模型作為邊特征效率的負(fù)對(duì)照實(shí)驗(yàn),其對(duì)未登錄詞的識(shí)別效率幾乎為0.而完全圖模型和嵌套圖模型對(duì)未登錄詞的識(shí)別效率要高于無(wú)邊圖模型.
表2 無(wú)邊圖模型、完全圖模型和嵌套圖模型對(duì)未分詞已登錄詞與未登錄詞詞性標(biāo)注結(jié)果Tab.2 Part-of-Speech tagging results of no edge,complete and nested graph models on listed and unlisted words in testing set without word segmentation
在完全圖模型和嵌套圖模型的結(jié)果中,我們發(fā)現(xiàn)兩個(gè)模型對(duì)未登錄詞中姓氏和人名的識(shí)別效率已經(jīng)達(dá)到70%.相比于很多未登錄詞詞性標(biāo)注識(shí)別效率低下的結(jié)果而言,該現(xiàn)象表明CRF完全圖模型和嵌套圖模型對(duì)于姓氏和人名的推斷能力是比較強(qiáng)的,暗示著編年體中姓氏和人名周圍的詞較其他詞性標(biāo)簽擁有很好的規(guī)則.
上一組實(shí)驗(yàn)是基于未分詞的數(shù)據(jù)集,一般在現(xiàn)代漢語(yǔ)中詞性標(biāo)注是基于分詞之后的語(yǔ)料.而分詞在古漢語(yǔ)中與現(xiàn)代漢語(yǔ)有所不同,只有專有名詞才存在分詞單元的劃分問(wèn)題,其他的詞都是單音節(jié)詞,每個(gè)單字即為一個(gè)單獨(dú)的分詞單元.因此即使不單獨(dú)的進(jìn)行分詞,詞性標(biāo)注的結(jié)果仍然可以接受.然而專有名詞的多音節(jié)詞對(duì)于其他的詞性的標(biāo)注效率或多或少有一定的影響.因此在這組實(shí)驗(yàn)中,假設(shè)存在一個(gè)強(qiáng)大的專有名詞詞典,已經(jīng)將所有的專有名詞事先劃分開,而我們則在此基礎(chǔ)上進(jìn)行詞性標(biāo)注.
實(shí)驗(yàn)結(jié)果(表3)表明,對(duì)專有名詞進(jìn)行分詞之后三種CRF圖模型對(duì)15類詞性標(biāo)記的識(shí)別效率較未分詞前均有小幅的提升.
表3 無(wú)邊圖模型、完全圖模型和嵌套圖模型對(duì)專有名詞分詞訓(xùn)練集與測(cè)試集詞性標(biāo)記結(jié)果Tab.3 Part-of-Speech tagging results of no edge,complete and nested graph models on training and testing sets with word segmentation of proper nouns
我們同樣對(duì)未登錄詞與已登錄詞的識(shí)別效率進(jìn)行了一個(gè)統(tǒng)計(jì)比較,結(jié)果見表4.進(jìn)行專有名詞分詞之后,三種CRF圖模型對(duì)已登錄詞的詞性標(biāo)注效率明顯提高,但是對(duì)于未登錄詞的詞性標(biāo)記效率卻不盡然.對(duì)于未登錄詞,完全圖模型和嵌套圖模型對(duì)專有名詞、姓氏以及人名的識(shí)別效率較分詞之前有所提升,但是對(duì)于名詞以及動(dòng)詞的識(shí)別效率沒(méi)有提升.而無(wú)邊圖模型對(duì)除了專有名詞之外的未登錄詞的識(shí)別效率仍然十分低下.
表4 無(wú)邊圖模型、完全圖模型和嵌套圖模型對(duì)分詞后已登錄詞與未登錄詞詞性標(biāo)注結(jié)果Tab.4 Part-of-Speech tagging results of no edge,complete and nested graph models on listed and unlisted words in testing set with word segmentation
(續(xù)表)
古漢語(yǔ)作為一門承載了數(shù)千年中華文明的語(yǔ)言,對(duì)其進(jìn)行信息處理研究具有重要的價(jià)值.一直以來(lái),對(duì)于古漢語(yǔ)資料的研究?jī)H限于語(yǔ)言學(xué)專業(yè)研究者.這在一定程度上限制了中華文華傳承以及當(dāng)今交叉學(xué)科的發(fā)展.目前已經(jīng)有部分研究者開始重視古漢語(yǔ)的信息化處理,但是目前尚沒(méi)有完整的古漢語(yǔ)語(yǔ)料庫(kù)以及詞典,亟需語(yǔ)言學(xué)家與計(jì)算機(jī)信息技術(shù)人員的共同努力探討古漢語(yǔ)信息處理的相關(guān)問(wèn)題.
智能地從大量史書中提取信息對(duì)很多學(xué)科研究有著重要的輔助作用.例如,史書記載的家譜信息對(duì)人類學(xué)研究具有重要意義.目前歷史人類學(xué)家希望依賴分子生物學(xué)的手段去尋找一些歷史考證的線索,其中最具有解釋性的生物學(xué)證據(jù)就是Y染色體的父系進(jìn)化體系[18].父系在Y染色體上由于沒(méi)有同源重組的發(fā)生使得進(jìn)化足跡趨近于一顆龐大的多叉樹,每一代可能發(fā)生的突變代表著樹中的一個(gè)節(jié)點(diǎn).而中國(guó)的父系家族往往都有家譜的記載,也就是說(shuō)如果家譜中的記載準(zhǔn)確并且分子進(jìn)化樹的構(gòu)建足夠精細(xì),我們就能夠?qū)NA突變與歷史中某個(gè)時(shí)間甚至某個(gè)人對(duì)應(yīng).這不僅為解析歷史提供了很好的佐證,同時(shí)也為生物進(jìn)化研究賦予生命力.
古漢語(yǔ)的語(yǔ)法和詞法特點(diǎn)與現(xiàn)代漢語(yǔ)有相似之處,可能對(duì)現(xiàn)代漢語(yǔ)的研究有一些輔助作用.在現(xiàn)代漢語(yǔ)研究中,多數(shù)研究者認(rèn)為漢語(yǔ)相比于英語(yǔ)更難處理的地方在于漢語(yǔ)語(yǔ)法句法上的靈活性,很難依賴形式語(yǔ)法抽象出一套規(guī)則.古漢語(yǔ)是現(xiàn)代漢語(yǔ)的原型,句法和語(yǔ)法相對(duì)規(guī)則化,研究古漢語(yǔ)也許能夠給現(xiàn)代漢語(yǔ)的語(yǔ)法解析帶來(lái)啟發(fā).
條件隨機(jī)場(chǎng)模型(CRF)與最大熵馬爾可夫模型(MEMM)都是適用于自然語(yǔ)言處理的方法[19].CRF優(yōu)于MEMM之處在于CRF將標(biāo)簽之間的轉(zhuǎn)移特征以隨機(jī)場(chǎng)的圖形式展現(xiàn)出來(lái),抽象為點(diǎn)特征與邊特征[20].點(diǎn)特征描述某一個(gè)待標(biāo)記對(duì)象自身觀測(cè)值的概率,而邊特征描述待標(biāo)記對(duì)象周邊的標(biāo)簽對(duì)其條件轉(zhuǎn)移概率[15].這樣就解決了MEMM中觀測(cè)值的分布概率無(wú)法影響模型概率的標(biāo)簽偏倚問(wèn)題.條件隨機(jī)場(chǎng)模型在現(xiàn)代漢語(yǔ)的信息處理研究中已經(jīng)比較成熟,劉滔等對(duì)現(xiàn)代漢語(yǔ)詞性標(biāo)注的研究結(jié)果展示CRF對(duì)非兼類詞(單一詞性)的識(shí)別效率高達(dá)96%,對(duì)兼類詞的識(shí)別效率也達(dá)到94%[21].
在本研究中,我們發(fā)現(xiàn)基于條件隨機(jī)場(chǎng)的完全圖模型和嵌套圖模型在古漢語(yǔ)詞性標(biāo)注中的應(yīng)用效果均相當(dāng)好.我們還探討了古漢語(yǔ)分詞對(duì)詞性標(biāo)注的影響.在現(xiàn)代漢語(yǔ)中,研究者已經(jīng)成功使用分詞系統(tǒng)來(lái)輔助實(shí)體識(shí)別[5],但是在古漢語(yǔ)中還沒(méi)有完整的分詞系統(tǒng).在本研究中,我們發(fā)現(xiàn)所選語(yǔ)料中只有專有名詞存在分詞的必要,而其他詞匯基本是單音節(jié)詞.因此,我們比較了專有名詞未分詞與分詞之后三種CRF圖模型對(duì)古漢語(yǔ)語(yǔ)料詞性標(biāo)注的效果,發(fā)現(xiàn)分詞后的詞性標(biāo)注結(jié)果比未分詞的結(jié)果要好一些.這說(shuō)明古漢語(yǔ)分詞對(duì)提高詞性標(biāo)注的效率是有幫助的.
雖然在古漢語(yǔ)詞性標(biāo)注的實(shí)驗(yàn)結(jié)果中,整體效率已經(jīng)達(dá)到91%以上,但是其中仍然不乏大量錯(cuò)誤.我們將其總結(jié)為3大類錯(cuò)誤.
3.3.1 未登錄詞識(shí)別錯(cuò)誤
我們對(duì)測(cè)試集中的已登錄詞與未登錄詞分開探討,發(fā)現(xiàn)三種模型對(duì)未登錄詞的識(shí)別效果遠(yuǎn)遠(yuǎn)低于已登錄詞.尤其是無(wú)邊圖模型對(duì)未登錄詞的識(shí)別效果幾乎為0.這可能與無(wú)邊圖模型沒(méi)有考慮邊特征有關(guān).而且我們發(fā)現(xiàn)分詞對(duì)未登錄詞的詞性標(biāo)注效果也沒(méi)有很大提高.例如,在序列“命諸司詳議害民弊政”中,“害”實(shí)際上為形容詞,但在測(cè)試集里“害”是一個(gè)未登錄詞,于是CRF模型依據(jù)邊特征對(duì)“害”進(jìn)行了詞性判斷,考慮到上位單詞“議”是一個(gè)動(dòng)詞,模型錯(cuò)誤的將“害”標(biāo)記成名詞.
3.3.2 詞典中具有多個(gè)詞性的單詞詞性判斷錯(cuò)誤
詞典里單詞的詞性分布對(duì)標(biāo)注結(jié)果有著較大的影響.如果某個(gè)單詞具有多個(gè)詞性,而且不同詞性的分布差異很大,則很可能會(huì)導(dǎo)致模型將單詞自動(dòng)標(biāo)注為分布較大的詞性.如序列“修撰呂柟言大禮未正”中,“正”在編年體中最常出現(xiàn)的組合是“正月”,所以在詞典中“正”作為名詞的頻率要高于其他詞性.而實(shí)際上在這個(gè)序列中“未正”是一個(gè)副詞加上動(dòng)詞的組合,然而因?yàn)椤罢钡呐袛噱e(cuò)誤,模型將兩個(gè)單字都標(biāo)注為名詞.
3.3.3 強(qiáng)標(biāo)注轉(zhuǎn)移特征導(dǎo)致錯(cuò)誤
描述轉(zhuǎn)移規(guī)則的邊特征同樣也會(huì)帶來(lái)詞性判斷失誤.這一類錯(cuò)誤常見于一些出現(xiàn)頻率高的詞性組合,如姓氏和人名的組合、天干和地支的組合等.如序列“永順伯薛斌恭順伯吳克忠領(lǐng)馬隊(duì)”,動(dòng)詞后接一個(gè)人物是很常見的句式,而動(dòng)詞“領(lǐng)”的下位詞又恰好是一個(gè)常見的姓氏“馬”,因此模型將“馬”標(biāo)記為姓氏,將“隊(duì)”標(biāo)記為人名,但是這里“馬隊(duì)”顯然代表的是一只騎兵隊(duì)伍.又如序列“代府奉國(guó)將軍充灼謀反”中,由于“充灼”在訓(xùn)練集中已經(jīng)被觀測(cè)為人名,因此“充灼”的上位詞被標(biāo)注為姓氏.
這些錯(cuò)誤有些需要人為修正,例如單詞具有多個(gè)詞性導(dǎo)致的錯(cuò)誤,需要古漢語(yǔ)語(yǔ)言學(xué)專家與計(jì)算機(jī)信息處理研究人員共同合作對(duì)其加以修正.而有些錯(cuò)誤,例如未登錄詞識(shí)別錯(cuò)誤,可能需要發(fā)展更有效的計(jì)算機(jī)信息處理方法才能有效解決.總而言之,古漢語(yǔ)信息處理仍然需要古漢語(yǔ)語(yǔ)言學(xué)相關(guān)專家以及計(jì)算機(jī)信息處理研究人員的共同努力,以期取得長(zhǎng)足的發(fā)展.
我們的研究結(jié)果表明基于條件隨機(jī)場(chǎng)的完全圖模型和嵌套圖模型對(duì)編年體體裁的《明史》語(yǔ)料的詞性標(biāo)注效果不錯(cuò).但是,對(duì)于該方法是否適用于其他體裁的古漢語(yǔ)語(yǔ)料信息化處理,仍然需要研究者進(jìn)一步探討.
[1]Turing A.Computing Machinery and Intelligence[J].Mind,1950,59(236):433-460.
[2]Chowdhury GG.Natural language processing[J].Annual Review of Information Scienceand Technology,2003,37(1):51-89.
[3]Pereira F C N,Gross B J.Natural Language Processing[M].Cambridge:MIT Press,1994.
[4]Jurafsky D,Martin J H.Speech and Language Processing:An introduction to Natural Language Processing,Computational Linguistics,and Speech recognition[M].New Jersey:Pearson Education Inc.,2000.
[5]Gao J,Li M,Wu A,et al.Chinese Word Segmentation and Named Entity Recognition:A Pragmatic Approach[J].Computational Linguistics,2005,31(4):531-574.
[6]Huang C R,Chen K J,Chang L L.Segmentation standard for Chinese natrual language processing[C]∥Proceedings of the 16thConference on Computational Linguistics.Stroudsburg,1996:1045-1048.
[7]Jin G, Chen X.The Fourth International Chinese Language Processing Bakeoff:Chinese Word Segmentation,Named Entity Recognition and Chinese POSTagging[C]∥Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing.Hyderabad,India:Association for Computational Linguistics,2008:61-68.
[8]Levow G A.The Third International Chinese Language Processing Bakeoff:Word Segmentation and Named Entity Recognition[C]∥Proceedings of the 5thSIGHAN Wookshop on Chinese Language Processing.Sydney,Australia:Association for Computational Linguisties,2006:108-117.
[9]劉開瑛.中文文本自動(dòng)分詞和標(biāo)注[M].北京:商務(wù)印書館,2000.
[10]苗奪謙,衛(wèi)志華.中文文本信息處理的原理與應(yīng)用[M].北京:清華大學(xué)出版社,2007.
[11]汪青青.先秦人名識(shí)別初探[J].文教資料,2009(18):202-204.
[12]Huang H H,Sun C T,Chen H H.Classical Chinese Sentence Segmentation[C]∥Proceedings of the CIPSSIGHAN Joint Conference on Chinese Language Processing.Beijing,2010:15-22.
[13]張廷玉.明史[M].北京:中華書局,1974.
[14]邱 莎,段 玻,申浩如,等.基于條件隨機(jī)場(chǎng)的中文人名識(shí)別研究[J].昆明學(xué)院學(xué)報(bào),2011,33(6):64-66.
[15]Lafferty J,McCallum A,Peraira F C N.Conditional Ramdom Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]∥Proceedings of the 18thInternational Conference on Machine Learning.USA:Morgan Karfmann Publishers Inc.,2001:282-289.
[16]Kohavi R.A Study of Cross Validation and Bootstrap for Accuracy Estimation and Model Selection[C]∥Proceedings of The Fourteenth International Joint Conference on Artificial Intelligence.Montreal,Quebec,Canada,1995:1137-11.
[17]Chinchor N,Sundheim B.MUC-5 Evaluation Metrics[M].the 5thconference on Message Understanding.1993:69-78.
[18]Ke Y,Su B,Song X,et al.African Origin of Modern Humans in East Asia:A Tale of 12,000 Y Chromosomes[J].Science,2001,292(5519):1151-1153.
[19]McCallum A,F(xiàn)reitag D,Pereira F.Maximum Entropy Markov Models for Information Extraction and Segmentation[C]∥Proceedings of the 17thInternational Conference on Machine Learning.USA:Morgan Karfmann Publishers Inc.,2000:591-598.
[20]Duan H,Zheng Y.A Study on Features of the CRFs-based Chinese Named Entity Recogniztion[J].International Journal of Advanced Intelligence,2011,3(2):287-294.
[21]劉 滔,雷 霖,陳 犖,等.基于MapReduce的中文詞性標(biāo)注CRF模型并進(jìn)行訓(xùn)練研究[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013,49(1):147-152.