于麗麗
摘 要:本文調(diào)研了現(xiàn)代漢語領域的詞義消歧研究現(xiàn)狀,分析了目前詞義消歧所采用的相關技術,確定出面向古代漢語信息處理的詞語義項區(qū)分應該遵循的原則和方法。提出在現(xiàn)有的詞義消歧理論和技術的基礎上,采用機器學習的方法,選擇合適的特征,使用廣泛應用于信息處理的高效率的CRF分類模型,將統(tǒng)計模型和語言學知識有機結合起來,基于NaiveBayes、KNN、RFR-SUM、CRF、MaxEnt模型對“如”“將”“我”“信”“聞”“之”“能”等古代漢語高頻、典型詞進行單分類器的詞義消歧實驗。根據(jù)單分類器消歧性能,運用乘法法則、均值法則、最大值法則、投票法則等集成法則進行了分類器集成消歧實驗。
關鍵詞:古漢語 詞義 集成 分類器
詞義消歧一直是自然語言處理中的熱點和難點問題,諸多學者已在現(xiàn)代漢語領域展開了一定研究,而在古代漢語領域,卻很少有人涉足,本文主要就古代漢語的詞義消歧問題進行一些探索。
一、課題的提出
詞義研究有著悠久的歷史,可以粗略地分為語文學時期、傳統(tǒng)語義學時期和現(xiàn)代語義學時期。早在漢代,隨著儒家經(jīng)典的各種注書、辭書的大量涌現(xiàn),進而逐漸形成了一門以研究詞義為出發(fā)點和落腳點的具有實用意義的學問,即傳統(tǒng)的訓詁學。兩千多年的傳統(tǒng)訓詁學對上古漢語的詞義解釋、詞源考證、同義詞辨析等方面進行了深入的分析,取得了豐碩的成果,逐漸成為語言學的一個分支——詞匯學的重要內(nèi)容。
在現(xiàn)代語義學時期,漢語詞義系統(tǒng)和漢語語義學模式的建立一直是語言學界和信息處理界研究和關注的熱點。在信息處理迅猛發(fā)展的今天,訓詁學的發(fā)展應當從訓釋一詞一語的狹小天地中走出來,改變傳統(tǒng)以手工為主的研究方式,在研究方法上要有新突破,這都有待于計算機的參與,從而在浩渺的原始文獻中實現(xiàn)快速檢索和校對、考證研究、文白自動翻譯等工作。這是語言研究與計算機科學的結合在信息時代的一個突出要求。中文信息處理技術的先進性必能為傳統(tǒng)學科的研究提供更為科學的手段,推動訓詁研究的現(xiàn)代化。
古籍的詞匯考釋等整理工作歷來是靠人力手工。20世紀80年代以來,把計算機引入古漢字考釋領域,利用計算機技術進行古籍整理工作等受到越來越多研究者的重視,已經(jīng)研制出一些古籍整理計算機系統(tǒng),如四川大學的“中文索引編制”、陜西師范大學的“十三經(jīng)詞語索引”、臺灣東吳大學的“諸子集成系統(tǒng)”等,這些系統(tǒng)普遍具有閱讀、檢索、統(tǒng)計、排序、打印等功能。[1]目前古籍數(shù)字化的工作還剛剛起步,特別是先秦漢語的信息處理大體還處于字處理階段,以解決古文字的輸入輸出、文獻逐字索引等問題為主要研究內(nèi)容。文本詞匯級別上的古代漢語信息處理包括分詞、詞性標注等,有了一些嘗試性的探索實踐。而在詞義標注方面的研究更是相對比較薄弱,仍是自然語言理解系統(tǒng)面臨的最大問題?!霸~義瓶頸”問題還得需要我們從基礎入手,為建立一個大規(guī)模、高質(zhì)量的古代漢語詞義標注語料庫奠定基礎,以推動信息處理中詞匯級別上的這一最大難題的解決。簡言之,語言研究的發(fā)展和語言應用的需求,促使了我們本課題的提出。
二、研究內(nèi)容
詞義研究在中國語言學界屬于比較薄弱的領域,其原因主要有:① 語義研究本身固有的難度;② 缺乏相應的理論指導;③ 缺乏一套行之有效的可操作的分析方法。[2]隨著語言研究的深入以及語言工程實踐的推動,詞匯語義學成為當今語言學中一個備受關注的研究熱點。研究者越來越注重吸收語言學與其他學科領域如句法學、認知語言學、語料庫語言學、計算語言學等的相關理論和方法來充實詞匯語義研究,也越來越講究分析過程的可觀察性、可操作性及研究成果的客觀性和可驗證性,尤其強調(diào)要在詞語的使用環(huán)境中觀察詞義成分的差別,而不是僅僅依賴于內(nèi)省的直覺判斷。從計算的角度來看待漢語詞語的多義現(xiàn)象,或許會有一番新的景象。[3]
本文的研究內(nèi)容主要如下:
(1)通過對《春秋左傳》語料的詞匯、詞頻等的統(tǒng)計,結合陳克炯《左傳詳解詞典》 [4]和《漢語大詞典》 [5]的義項解釋考察,根據(jù)相關的詞義分類理論,基于上下文特征,重點研究“將”“我”“如”“信”“聞”“之”等義項復雜的詞的語義消歧。
(2)在資源建設問題上,以《春秋左傳》中的詞匯為底本,在考察了該部書的分詞、詞性標注以及詞頻統(tǒng)計等工作的基礎上,針對詞義分布的不同特點,通過抓典型,引入樸素貝葉斯(Naive Bayes,簡稱NB)、K近鄰(KNN)、相對詞頻比(RFR-SUM)、條件隨機場(CRF)及最大熵(MaxEnt)等分類模型進行了消歧實驗,并采用多分類器集成的方法,進行了多種集成模式的消歧效果研究。該研究將會使標注者的標注速度、標注正確率和標注一致性得到顯著的提高。
三、研究過程
(一)實驗過程
我們采用了五個性能各異的單分類器模型,即CRF、KNN、MaxEnt、NB、RFR-SUM,以及四種基于概率的集成法則(用Avg、Max、Pr、Mv分別代表均值法則、最大值法則、乘法法則、簡單投票)。為了考察如何能發(fā)揮分類器集成的優(yōu)勢,我們采取了一些集成策略,在具體實驗時,我們發(fā)現(xiàn)NB和KNN的輸出概率很多都為0,考慮這會影響乘法集成的效果,所以我們做了歸一化處理,即對每個概率加上一個小數(shù)0.00001,再求概率。用斜線柱形圖表示單分類器第一次利用集成法則形成的結果,網(wǎng)格柱形圖表示將集成后的結果再與CRF、KNN進行投票后產(chǎn)生的最終結果。
(1)對五個分類器進行四種集成,然后將所得的預測結果再與最好的兩個分類(CRF、KNN)進行投票預測。結果如圖1所示。
從圖1中的數(shù)據(jù)可以看出,用斜線表示的四種集成法則后的平均F值都低于CRF的F值,說明不管分類器的差異,把所有單分類器進行集成,效果并沒有提高。在進行了二次投票之后,四種法則的F值都有不同程度的提高,尤其是Pr的F值達到了87%以上,Mv的F值提高了1.33%。
(2)由于RFR-SUM效果相對較低,我們對CRF、KNN、MaxEnt、NB四個分類器按照Avg、Max、Pr法則進行集成,再將所得的預測結果與CRF、KNN進行投票預測。結果如圖2所示。
比較圖1與圖2,可以看出,除了Avg的F值沒有提高,Max和Pr的F值都有提高,并且Pr的最終F值達到87.17%。這說明在同樣的條件下,加入性能較差的分類器會影響集成的總體效果。Pr在圖1和圖2中效果均是最好的。
(3)由于CRF和KNN是這五個單分類器中最好的兩個,所以分別與MaxEnt、NB、RFR-SUM逐一按照四種法則進行集成,再將結果與CRF、KNN做投票,即兩個性能高的分類器和另外三個分類器逐一集成測試。結果分別如圖3—圖5所示。
比較圖3和圖4,可以看出,雖然MaxEnt模型對這幾個古代漢語高頻詞的消歧效果高于NB模型,但無論利用哪一種集成法則,MaxEnt模型與CRF、KNN模型的集成結果都不高于NB與CRF、KNN模型的集成結果。在圖3和圖5中,均是利用Avg得到的集成結果最好。但仍低于圖4中的利用Pr得到的集成結果,圖3是三個最好的單分類器的集成,但它們的結果均低于87%。這可以從一定程度上說明在進行集成的時候并不是效果最好的分類器放在一起集成效果就一定出色,而往往是互補性最好的再輔之利用合適的集成方法效果才會優(yōu)。
(4)區(qū)別于前一個實驗,我們進行CRF、MaxEnt、
NB的集成和CRF、MaxEnt、RFR-SUM的集成,再將所得的預測結果與CRF、KNN做投票預測。結果分別如圖6和圖7所示。
分別比較圖4與圖6、圖5與圖7,可以發(fā)現(xiàn)在其他條件不變的情況下,我們替換了一個處于中間性能的單分類器,將性能較好的KNN換成了稍遜的MaxEnt,四種法則下的集成結果都有明顯幅度的下降。參與集成的單分類器的效果性能直接影響著最終的集成結果。
(5)嘗試效果最差的三個集成模型(NB、MaxEnt、RFR-SUM),再將所得的預測結果與CRF、KNN做投票預測。目的是考察是否可以通過集成,使效果較差的幾個單分類器通過集成形成一個較好的分類系統(tǒng),結果如圖8所示。
將三個效果最差的單分類器進行集成實驗,目的是考察是否可以達到“三個諸葛亮,頂個臭皮匠”的效果。在我們的實驗中,四種法則下都超過了原來的最差的三個單分類器的效果,說明集成方法也是至關重要的,同時Pr達到了最好效果。
在上面八個圖中,我們進行了不同分類器組合的四種法則的集成,從結果可以看出Pr法則有五次取得最好效果,Avg法則三次取得最好效果??偟恼f來,在我們的實驗所運用的集成方法中,乘法法則的效果最好,而且參與乘法集成的分類器性能越好,集成效果越佳。比較圖2和圖3,三個性能最好的單分類器的集成效果卻均低于三個最好的再加一個較差的,這是模型所利用的特征等互補性強的緣故。
最后把效果最好的圖2的集成結果列在表1中。
通過表1可以反映出:① 被消歧的詞對詞義的消歧方法十分敏感,甚至不同的詞語需要不同的消歧策略方法。對于個別詞,如“信”,在KNN單個分類器學習時,相比于另外的分類器較差,單個分類器的差值達10%左右,說明并不適合這種分類器的學習。② 三種集成結果中,“如”“信”“之”的集成后最優(yōu)結果優(yōu)于單個分類器,集成性能尤佳,而“將”和“我”消歧的最好結果是由CRF模型得到的。③ 在集成的過程中,不同的集成方法對集成結果影響甚大,平均效果由高到低排列為:乘法法則集成﹥均值法則集成﹥最大值集成﹥投票法則集成。
由表1可見,集成分類器的整體表現(xiàn)均得到不等程度的提升,最終平均結果還是較理想的,保持在86%以上,除了Max的略低于CRF的,其他均高于單個分類器的性能。如“信”,從表1中可見,三種集成的測試結果均高于單個分類模型,其中高于CRF模型4.09%,比KNN模型提高了14.29%,高于MaxEnt模型達8.17%,比NB模型提高了4.09%,比RFR-SUM模型高6.13%。多分類器的集成是能夠減少單個分類器的誤差,提高預測性能和分類精度的,在我們的實驗中這樣的優(yōu)勢充分顯現(xiàn)了出來??梢员M可能多地充分利用各種有效的特征,如詞頻、詞形、詞性及其各種共現(xiàn)等,將這些特征一起運用于單個分類器本很困難,而通過對多個分類器的集成,增加了信息量,更加充分利用目標詞的上下文語境,減少單個分類器的誤差,提高了消歧的效果。
(二)實驗總結
對于實驗結果的分析,從語料方面看,① “如”“將”“聞”的強勢詞義和弱勢詞義所在的句子數(shù)量差別顯著,所以對于個別模型這也是消歧效果較好的原因之一。② “我”的義項分布比較均勻,而且意義的判別需要更大的上下文語境,簡單的句子字面信息反映不出該詞的實際意義。因此即使是我們在人工標注的過程中,也要不斷地回到原文中尋找更大的語境來判別標注詞義,對這樣的詞詞義消歧困難更大。③ 語料已經(jīng)過人工分詞和詞性標注,但仍存在一些標注失誤,在一定程度上影響了實驗結果。
從數(shù)據(jù)來看,CRF和KNN模型對于多分類問題表現(xiàn)出來較好的效果和穩(wěn)定性,主要在于CRF模型具有表達長距離依賴和組合特征的能力,把所有特征進行全局歸一化,進而求得最優(yōu)值;KNN由于其簡單的思想,取得令人滿意的效果。MaxEnt可以任意地選擇特征,由于在其每一節(jié)點都要進行歸一化而只能得到局部的最優(yōu)值,同時也帶來標記偏差的問題,所以F值略遜于CRF模型。RFR-SUM模型在并未對生語料深加工的情況下,未加入詞性等信息,仍取得了較好的效果。此外,現(xiàn)代漢語詞義消歧往往需要較大的上下文窗口,需考慮更多詞的搭配等信息,而古漢語實驗窗口的加大往往會產(chǎn)生更多的噪聲,導致正確率的下降,無論是CRF模型還是MaxEnt消歧,窗口選擇1或2效果均是最好的。
四、結語
本章主要研究有指導詞義消歧集成方法,效果較理想,比單分類器性能有了一定的提高。但同樣面臨著有指導詞義消歧方法的最大缺點——嚴重的數(shù)據(jù)稀疏問題。另外,當標注語料和測試語料不屬于同一個領域時,消歧性能也有所下降,可移植性差。而且,一些低頻義項可能在規(guī)模很大的語料中都不出現(xiàn)或者很少出現(xiàn),從而導致有指導詞義消歧方法的失效??傊?,面對自然語言問題的復雜性和多變性,現(xiàn)有的語言處理模型和方法,有待于進一步改進和完善,并期待著新的更有效的模型和方法的出現(xiàn)。
基于統(tǒng)計的方法有其必然的缺陷,而基于規(guī)則的方法又缺乏一定規(guī)模的面向計算機可利用的古代漢語語義資源。至今在整個自然語言處理領域,語義的形式化與計算問題也還尚未建立起一套完整、系統(tǒng)的理論框架體系。我們嘗試著使用了一些新的機器學習方法或新的數(shù)學模型,這些嘗試和實驗都帶有很強的主觀性。而且在技術實現(xiàn)上,許多實驗改進也往往局限于對一些邊角問題的修修補補,或者只是針對特定條件下一些具體問題的處理,未能從根本上建立一套廣泛適用的處理策略。[6]詞義消歧工作艱巨而意義重大,期望在一定程度上能促進實現(xiàn)工程化的實用目標。
第一,繼續(xù)探索語言學知識和統(tǒng)計模型的有機結合,仍是我們今后工作的首要任務。充分把握一些語言學規(guī)則對某些類別的多義詞或者多義詞的某些義項具有很高的識別率這一規(guī)律,將統(tǒng)計模型和語言學知識結合的有益嘗試推廣到自然語言處理的相關領域中。
第二,尋找利用主動學習策略,擴大詞義標注語料庫規(guī)模,以緩解數(shù)據(jù)稀疏問題,也由此解決由于標注語料和測試語料所屬領域不同而導致的消歧準確率下降問題。
參考文獻:
[1] 朱小健.古籍整理通用系統(tǒng)及其中字典的編纂[J].語言文字應用,2000(3):99-103.
[2] 朱彥.取得動詞釋義研究[D].北京:北京大學,2005.
[3] 吳云芳.詞義消歧研究:資源、方法與評測[J].當代語言學,2009(2):113-123.
[4] 陳克炯.左傳詳解詞典[M]. 1版.鄭州:中州古籍出版社,2004:96.
[5] 羅竹風.漢語大詞典[M].上海:漢語大詞典出版社,1993:237.
[6] 宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2008:117.