桑樂園,黃德根
(大連理工大學(xué)電信學(xué)部計算機學(xué)院,遼寧大連116024)
介詞短語(Preposition Phrase,PP)是漢語中一種重要的短語類型,對句法分析、機器翻譯、信息檢索有著重要作用。介詞[1]起標(biāo)記作用,與名詞、名詞短語或其他詞語構(gòu)成PP,充當(dāng)狀語、賓語、補語等成分,用于補充謂語或說明賓語。PP的正確識別能夠大大降低句法分析的難度,提高機器翻譯的性能,對信息檢索及文本分類效果都有較大的提升。因此,PP識別作為自然語言處理的一部分,具有重要的意義。
國內(nèi)外學(xué)者針對PP的自動定界問題展開了各種探索和研究。在英語方面的代表性方法包括:基于規(guī)則的轉(zhuǎn)換算法[2],啟發(fā)式無監(jiān)督的統(tǒng)計算法[3],基于句法分析及語義分析的消歧算法[4]等,這些方法針對英語PP的構(gòu)詞規(guī)則,應(yīng)用到漢語PP識別上效果較差。由于漢語PP內(nèi)部結(jié)構(gòu)復(fù)雜且定界不明,目前識別結(jié)果的F-值大都在90%左右。漢語PP識別的方法[5-8]集中在淺層句法分析上,即在分詞及詞性標(biāo)注后,用一個模型將PP作為一個整體識別出來。干俊偉等人[5]提出了基于三元統(tǒng)計模型的方法,首先利用搭配模板獲取可信搭配關(guān)系,依據(jù)可信搭配關(guān)系識別PP,然后利用三元統(tǒng)計模型與規(guī)則相結(jié)合的方法識別可信搭配關(guān)系未識別出來的PP,文中的三元統(tǒng)計模型中只考慮了介詞、后界的詞性及后詞的詞性三個特征,考慮的特征少,其F-值僅為87.37%;奚建清等人[6]提出了基于HMM模型的PP識別方法,并應(yīng)用依存語法進行錯誤校正,由于PP內(nèi)部結(jié)構(gòu)比較復(fù)雜,利用簡單特征函數(shù)無法涵蓋其所有特性,而HMM模型無法使用復(fù)雜特征,其F-值僅為85.67%;盧朝華等人[7]提出了基于最大熵模型的PP識別方法,并采用基于依存語法的錯誤界定方法對識別結(jié)果進行校正,由于最大熵模型不能統(tǒng)計特征的強度,并且數(shù)據(jù)稀疏問題嚴(yán)重,其F-值為88.22%;張杰[8]提出了基于多層CRFs的PP識別方法,并采用基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)方法對識別結(jié)果進行校正,識別F-值達到91.95%,是目前發(fā)表的識別結(jié)果最好的方法,但文中對PP的分析局限在詞上,沒有考慮PP的內(nèi)部成分特點,仍有提升空間。PP是由介詞與其他實體短語一起構(gòu)成,若先對語料進行實體短語識別,可以簡化PP的內(nèi)部結(jié)構(gòu),從而降低PP識別的復(fù)雜性??紤]到PP中介詞后面的短語大多是由名詞短語構(gòu)成,本文提出基于名詞短語識別的PP識別方法。
漢語名詞短語識別[9-12]分為基于規(guī)則的方法和基于統(tǒng)計的方法。Cardie等人[9]提出了一種基于基本名詞短語(Base Noun Phrase,BNP)的詞性串的規(guī)則剪枝方法;錢小飛等人[11]則提出了一種基于CRF模型的最長名詞短語(Maximal Noun Phrase,MNP)識別方法,并制定了基于邊界信息和內(nèi)部結(jié)構(gòu)信息的規(guī)則庫對識別結(jié)果進行校正;孫玉祥[12]提出了基于CRF模型的簡單名詞短語(Simple Noun Phrase,SNP)的識別方法,并利用基于語義分析的規(guī)則庫對識別結(jié)果進行校正。BNP簡單易識別,但易將作為整體結(jié)構(gòu)的短語割裂細化,形成粒度過小的短語結(jié)構(gòu),失去了在PP識別中加入名詞短語識別的意義;而MNP識別粒度大,有利于句子整體結(jié)構(gòu)分析,但卻合并了一些PP到MNP內(nèi),反而使識別PP的效果降低;SNP是指內(nèi)部不包含復(fù)雜修飾成分的名詞短語,其復(fù)雜程度介于BNP和MNP之間,既能保留充分的語法信息,又能夠減少歧義問題,進而提高PP識別的精度和效率,因此本文采用融入SNP信息到PP識別方法中對其進行優(yōu)化。
綜上,本文提出一種基于SNP的PP識別方法,即通過分詞融合將SNP信息融入到語料中,并對其訓(xùn)練得到多層PP識別模型,再使用該模型識別測試語料中的PP,最后使用規(guī)則校正其識別結(jié)果,得到最終識別結(jié)果。
本文把SNP識別問題及PP識別問題視為序列標(biāo)注問題,即通過CRF模型對測試語料進行序列標(biāo)注,識別出SNP及PP。首先,把語料進行分詞及詞性標(biāo)注,即把句子處理為S=word(1)/pos(1)word(2)/pos(2)…word(i)/pos(i)…word(n)/pos(n)格式(其中word(i)為句子中的第i個詞,pos(i)為第i個詞的詞性,n為句子S中含有詞的個數(shù))。目標(biāo)為獲得一個對應(yīng)的標(biāo)注序列T=T(1)T(2)…T(n),使得該序列在所有可能的標(biāo)注序列中概率最大,其中SNP識別過程中T(i)∈{B,I,O},B表示SNP的起始詞,I表示SNP的內(nèi)部詞語,O表示SNP的外部詞語,而PP識別過程中T(i)∈{B,I,E,O},B表示PP的起始邊界,I表示PP的內(nèi)部詞語,E表示PP的后邊界,O表示PP的外部詞語。
通過CRF機器學(xué)習(xí)模型[13]能夠充分地利用詞語的上下文信息特征,使用無向圖理論使序列標(biāo)注的結(jié)果達到整個序列上的全局最優(yōu),適用于詞性標(biāo)注及淺層句法分析任務(wù)。
本文使用線性鏈CRF,即給定參數(shù)Λ=(λ1,λ2,...,λn),定義在觀測序列X=x1,x2,...,xT上對應(yīng)的狀態(tài)序列Y=y(tǒng)1,y2,...,yT的條件概率為式(1)。
其中ZX是所有狀態(tài)序列的歸一化因子,fk(yt-1,yt,x,t)為關(guān)于整個觀測序列X、位置t以及位置t-1標(biāo)記的二值特征向量函數(shù),λk是在訓(xùn)練中得到的fk的權(quán)重,k的取值范圍取決于模版中特征的數(shù)量。訓(xùn)練的目標(biāo)是為CRF模型找到最優(yōu)的λ值,找到后即可用Viterbi算法對未標(biāo)記序列(測試語料)進行序列標(biāo)注。序列標(biāo)注的任務(wù)就是求出使條件概率PΛ(Y|X)最大的Y,即最大可能的標(biāo)記序列為式(2)。
對語料進行SNP識別后,依據(jù)識別出的SNP對詞語進行分詞及詞性標(biāo)注合并,將融合后的SNP的詞性標(biāo)記為“COM-NOUN”。舉例如下:
初始分詞及詞性標(biāo)注為:給/PREP自身/PERSON-PRON和/CNJ他人/PERSON-PRON的/DE-1生命/COM-NOUN財產(chǎn)/COM-NOUN安全/COM-NOUN造成/NVERB嚴(yán)重/ADJ威脅/NVERB-N。/WJ
識別出來的SNP為:生命財產(chǎn)安全、嚴(yán)重威脅
分詞融合后的分詞及詞性標(biāo)注為:給/PREP自身/PERSON-PRON和/CNJ他人/PERSONPRON的/DE-1生命財產(chǎn)安全/COM-NOUN造成/NVERB嚴(yán)重威脅/COM-NOUN。/WJ
首先,使用CRF構(gòu)建SNP識別模型,并使用該模型識別語料中的SNP,使用規(guī)則庫校正其識別結(jié)果得到SNP識別結(jié)果;之后,依據(jù)SNP識別結(jié)果對語料進行分詞融合,采用CRF構(gòu)建多層PP識別模型;最后,利用建立的PP識別模型識別PP,并通過錯誤驅(qū)動方法及語義分析確定轉(zhuǎn)換規(guī)則集,校正識別出的PP,得到最終結(jié)果。
本文使用CRF模型對語料進行SNP識別,并且針對PP內(nèi)名詞短語的特性制定了規(guī)則庫進行結(jié)果校正。
3.1.1 特征抽取及特征模板
本文使用的特征為詞特征(word)、詞性特征(pos),選取特征窗口大小為5,特征模板如表1所示,其中括號中的數(shù)字表示詞的位置,如word(-1)表示當(dāng)前詞的前詞,word(0)表示當(dāng)前詞,word(1)表示當(dāng)前詞的后詞。
表1 SNP識別特征模板
3.1.2 規(guī)則庫
依據(jù)PP內(nèi)名詞短語的特性制定以下規(guī)則,該規(guī)則能較好地校正SNP識別結(jié)果,并在最大程度上不合并PP的后界和后詞,明顯提升PP的識別效果。
1)若識別出的SNP的前詞為程度副詞時,該程度副詞修飾SNP的第一個詞,且第一個詞為形容詞,則將程度副詞合并到SNP中。如識別出的SNP為“好結(jié)果”,“好”的前詞為副詞“更”,合并“更”到短語內(nèi),則SNP為“更好結(jié)果”;
2)短語內(nèi)部包含并列成分,采用語義相似度和詞語組合數(shù)據(jù)庫方法進行并列消歧,分為三種情況,如表2所示;
表2 并列歧義的三種情形
3)若SNP后界為機構(gòu)名時,則SNP的后界為其前詞;
4)若SNP的后界為“全部”、“全程”等副詞,則SNP的后界為副詞的前詞;
5)當(dāng)SNP的前詞為介詞“沿”、“依”時,若組成SNP的前兩個詞為名詞,且SNP由三個或三個以上詞構(gòu)成時,則其前界為名詞的后詞,否則,標(biāo)記不是SNP;
6)若SNP的后界為“每個”等指示性代詞,則SNP的后界為其前詞。
3.2.1 特征抽取及特征模板
本文使用張杰[8]的特征抽取方式,使用原子特征模板和復(fù)合特征模板,選擇特征窗口的大小為5。原子特征模板即基本特征,選擇以下基本特征:
1)詞特征(word);
2)詞性特征(pos):即詞性標(biāo)注;
3)候選前界特征(CFB):即當(dāng)前分句中該詞前是否存在候選介詞。若存在候選介詞,則標(biāo)記為該介詞,若不存在,則標(biāo)記為“N”;
4)候選后界特征(CLB):即當(dāng)前詞是否可以作為介詞短語的后界。使用式(3)計算當(dāng)前詞作為后界的概率,本文選擇閾值為0.05,即若概率大于0.05,則標(biāo)記該特征為“Y”,否則標(biāo)為“N”。
5)候選后詞特征(CLW):即當(dāng)前詞是否可以作為介詞短語后面的詞。利用式(4)計算當(dāng)前詞作為后詞的概率,本文選擇的閾值為0.05,即若概率大于0.05,則標(biāo)記該特征為“Y”,否則標(biāo)為“N”。
6)詞長特征:即當(dāng)前詞的長度。復(fù)合模板側(cè)重特征間的搭配關(guān)系,提高了介詞短語識別的精度。復(fù)合特征模板如表3所示,其中括號中的數(shù)字表示詞的位置,如word(0)表示當(dāng)前詞。
表3 PP識別特征模板
3.2.2 轉(zhuǎn)換規(guī)則集
該轉(zhuǎn)換規(guī)則集由兩部分構(gòu)成,一部分是通過錯誤驅(qū)動學(xué)習(xí)(Transformation-based error-driven learning,TBL)自動獲?。涣硪徊糠质峭ㄟ^語義分析得到的固定搭配[1]。TBL的基本思想是通過錯誤驅(qū)動來修改標(biāo)記結(jié)果,根據(jù)預(yù)先設(shè)計好的轉(zhuǎn)換模板和目標(biāo)函數(shù)尋找修正錯誤最多的轉(zhuǎn)換規(guī)則,用生成的規(guī)則對標(biāo)注結(jié)果進行修正。重復(fù)上述過程,直到無新規(guī)則產(chǎn)生。這部分規(guī)則由觸發(fā)條件和轉(zhuǎn)換規(guī)則組成。在進行結(jié)果校正時,若滿足觸發(fā)條件,用相應(yīng)的轉(zhuǎn)換規(guī)則對當(dāng)前結(jié)果進行修改。例如,若分句為“統(tǒng)統(tǒng)/ADV記/COM-VERB在/PREP參加保險者/COM-NOUN的/DE-1名下/COM-NOUN”,其標(biāo)注結(jié)果為“O O B E O O”,滿足觸發(fā)條件介詞為“在”且其前面是動詞,若分句中存在“的”,則標(biāo)記“的”后的詞為“E”,介詞后的詞到“的”標(biāo)記為“I”(轉(zhuǎn)換條件),因此修改標(biāo)注結(jié)果為“O O B I I E”。固定搭配是通過對PP進行語義分析得到的,如“對……來說”、“當(dāng)……時”。當(dāng)進行結(jié)果校正時,若當(dāng)前分句滿足固定搭配,則修改其標(biāo)注結(jié)果。例如,若一個分句滿足“對……來說”規(guī)則,則將“對”和“來說”兩詞中間的詞標(biāo)注結(jié)果改為“I”,“來說”的標(biāo)注結(jié)果改為“E”,“來說”后詞的標(biāo)注結(jié)果改為“O”。
本文的實驗語料是《人民日報》2000年的語料,該語料經(jīng)過NIHAO分詞工具[14]進行分詞及詞性標(biāo)注,為保證實驗結(jié)果的準(zhǔn)確性,進行了人工校正。訓(xùn)練語料需格式化使其適合CRF訓(xùn)練,而測試語料需刪除不包含PP的句子后再進行格式化,然后使用CRF進行序列標(biāo)注。所有語料共包含7 049個PP。本文將語料平均分成五份,即語料1,語料2,語料3,語料4,語料5。實驗采用五倍交叉驗證,即用其中四份作為訓(xùn)練語料,另一份作為測試語料,進行五次實驗。本文將五次實驗結(jié)果的平均值作為最后的識別結(jié)果。
本文針對PP識別進行了四個對比實驗:實驗1是直接使用PP識別模型對測試語料進行PP識別得到的實驗結(jié)果;實驗2是首先對測試語料進行SNP識別,分詞融合后使用PP識別模型對測試語料進行PP識別得到的實驗結(jié)果;實驗3是對實驗1的實驗結(jié)果利用規(guī)則庫處理后得到的實驗結(jié)果;實驗4是對實驗2的實驗結(jié)果進行規(guī)則處理后得到的實驗結(jié)果。
實驗結(jié)果如表4所示。實驗2的精確率、召回率及F值比實驗1分別提高了0.57%、0.56%、0.56%,說明加入簡單名詞短語識別后的PP識別的效果有了明顯的提高;加入規(guī)則后,實驗3和實驗4的精確率、召回率、F-值分別提高了0.53個百分點和1.28個百分點,說明規(guī)則庫對識別效果是有明顯的提升作用,實驗4比實驗3的F-值多提升0.75個百分點,說明規(guī)則庫更適合SNP識別后的PP識別。
表4 PP識別結(jié)果
參照表5中各個參考文獻PP的識別結(jié)果可知,HMM模型識別PP的效果最差,這是由于介詞短語內(nèi)部結(jié)構(gòu)比較復(fù)雜,使用簡單特征函數(shù)不能涵蓋其關(guān)鍵特性,致使識別效果最差;三元模型只考慮三個基本特征,忽略了其他比較重要的特征,如后詞、后界,致使識別結(jié)果的F-值僅為87.37%;最大熵模型不忽略PP的任意特征,使其識別效果高于前兩個文獻的識別結(jié)果,但最大熵模型不能統(tǒng)計特征強度,降低了部分重要特征的權(quán)重,使其實驗結(jié)果仍差強人意;CRF模型能夠較好的利用上下文信息,并且通過特征的重要性對其加權(quán),使識別結(jié)果較好;本文通過對PP內(nèi)部結(jié)構(gòu)進行分析,把SNP信息融入到PP識別方法中,降低了PP內(nèi)部的復(fù)雜結(jié)構(gòu),提高了識別的精度和效率,精確率、召回率及F-值,分別比文獻[8]的方法高1.04%、1.03%、1.04%,說明了該方法的有效性。
表5 與其他文獻的結(jié)果對比
本文提出了融合簡單名詞短語信息的介詞短語自動識別方法,首先抽取語料中的簡單名詞短語;之后將簡單名詞短語融合為單一的名詞,并標(biāo)注其詞性為普通名詞;最后通過多層CRFs模型識別介詞短語。該方法通過降低介詞短語內(nèi)部結(jié)構(gòu)的復(fù)雜性,提高了識別結(jié)果,其F-值為92.99%。實驗結(jié)果表明,本文方法比目前發(fā)表的最好的實驗結(jié)果高1.03個百分點,驗證了簡單名詞短語信息在介詞短語識別中的重要性。接下來我們將加入簡單名詞短語內(nèi)部的詞性等細粒度信息,并且尋找更優(yōu)的規(guī)則對簡單名詞短語識別結(jié)果進行校正,以進一步提高介詞短語識別的性能。
[1] 張誼生,張斌.現(xiàn)代漢語虛詞[M].上海:華東師范大學(xué)出版社,2000.
[2] Brill E,Resnik P.A rule-based approach to prepositional phrase attachment disambiguation[C]//Proceedings of the 15th conference on Computational linguistics-Volume 2.Association for Computational Linguistics,1994:1198-1204.
[3] Ratnaparkhi A.Statistical models for unsupervised prepositional phrase attachment[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 2.Association for Computational Linguistics,1998:1079-1085.
[4] Branigan H P,Pickering M J,McLean J F.Priming prepositional-phrase attachment during comprehension[J].Journal of Experimental Psychology:Learning,Memory,and Cognition,2005,31(3):468-481.
[5] 干俊偉,黃德根.漢語介詞短語的自動識別[J].中文信息學(xué)報,2005,19(4):17-23.
[6] 奚建清,羅強.基于HMM的漢語介詞短語自動識別研究[J].計算機工程,2008,33(3):172-173,182.
[7] 盧朝華,黃廣君,郭志兵.基于最大熵的漢語介詞短語識別研究[J].通信技術(shù),2010(05):181-183,186.
[8] 張杰.基于多層CRFs的漢語介詞短語識別研究[D].大連:大連理工大學(xué)碩士學(xué)位論文,2013.
[9] Cardie C,Pierce D.Error-driven pruning of treebank grammars for base noun phrase identification[C]//Proceedings of the 17th international conference on Computational linguistics-Volume 1.Association for Computational Linguistics,1998:218-224.
[10] 胡乃全,朱巧明,周國棟.混合的漢語基本名詞短語識別方法[J].計算機工程,2009,35(20):199-201.
[11] 錢小飛,侯敏.基于混合策略的漢語最長名詞短語識別[J].中文信息學(xué)報,2013,27(6):16-22.
[12] 孫玉祥.漢語簡單名詞短語自動識別的研究[D].大連:大連理工大學(xué)碩士學(xué)位論文,2014.
[13] Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning 2001:282-289.
[14] Degen H,Deqin T.Context information and fragments based cross-domain word segmentation[J].China Communications,2012,9(3):49-57.