亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于簡單名詞短語的漢語介詞短語識別研究

2015-04-14 07:50:42桑樂園黃德根

中文信息學(xué)報 2015年6期

桑樂園，黃德根

（大連理工大學(xué)電信學(xué)部計算機學(xué)院，遼寧大連116024）

1 引言

介詞短語（Preposition Phrase，PP）是漢語中一種重要的短語類型，對句法分析、機器翻譯、信息檢索有著重要作用。介詞［1］起標(biāo)記作用，與名詞、名詞短語或其他詞語構(gòu)成PP，充當(dāng)狀語、賓語、補語等成分，用于補充謂語或說明賓語。PP的正確識別能夠大大降低句法分析的難度，提高機器翻譯的性能，對信息檢索及文本分類效果都有較大的提升。因此，PP識別作為自然語言處理的一部分，具有重要的意義。

國內(nèi)外學(xué)者針對PP的自動定界問題展開了各種探索和研究。在英語方面的代表性方法包括：基于規(guī)則的轉(zhuǎn)換算法［2］，啟發(fā)式無監(jiān)督的統(tǒng)計算法［3］，基于句法分析及語義分析的消歧算法［4］等，這些方法針對英語PP的構(gòu)詞規(guī)則，應(yīng)用到漢語PP識別上效果較差。由于漢語PP內(nèi)部結(jié)構(gòu)復(fù)雜且定界不明，目前識別結(jié)果的F－值大都在90%左右。漢語PP識別的方法［5－8］集中在淺層句法分析上，即在分詞及詞性標(biāo)注后，用一個模型將PP作為一個整體識別出來。干俊偉等人［5］提出了基于三元統(tǒng)計模型的方法，首先利用搭配模板獲取可信搭配關(guān)系，依據(jù)可信搭配關(guān)系識別PP，然后利用三元統(tǒng)計模型與規(guī)則相結(jié)合的方法識別可信搭配關(guān)系未識別出來的PP，文中的三元統(tǒng)計模型中只考慮了介詞、后界的詞性及后詞的詞性三個特征，考慮的特征少，其F－值僅為87.37%；奚建清等人［6］提出了基于HMM模型的PP識別方法，并應(yīng)用依存語法進行錯誤校正，由于PP內(nèi)部結(jié)構(gòu)比較復(fù)雜，利用簡單特征函數(shù)無法涵蓋其所有特性，而HMM模型無法使用復(fù)雜特征，其F－值僅為85.67%；盧朝華等人［7］提出了基于最大熵模型的PP識別方法，并采用基于依存語法的錯誤界定方法對識別結(jié)果進行校正，由于最大熵模型不能統(tǒng)計特征的強度，并且數(shù)據(jù)稀疏問題嚴(yán)重，其F－值為88.22%；張杰［8］提出了基于多層CRFs的PP識別方法，并采用基于轉(zhuǎn)換的錯誤驅(qū)動學(xué)習(xí)方法對識別結(jié)果進行校正，識別F－值達到91.95%，是目前發(fā)表的識別結(jié)果最好的方法，但文中對PP的分析局限在詞上，沒有考慮PP的內(nèi)部成分特點，仍有提升空間。PP是由介詞與其他實體短語一起構(gòu)成，若先對語料進行實體短語識別，可以簡化PP的內(nèi)部結(jié)構(gòu)，從而降低PP識別的復(fù)雜性?？紤]到PP中介詞后面的短語大多是由名詞短語構(gòu)成，本文提出基于名詞短語識別的PP識別方法。

漢語名詞短語識別［9－12］分為基于規(guī)則的方法和基于統(tǒng)計的方法。Cardie等人［9］提出了一種基于基本名詞短語（Base Noun Phrase，BNP）的詞性串的規(guī)則剪枝方法；錢小飛等人［11］則提出了一種基于CRF模型的最長名詞短語（Maximal Noun Phrase，MNP）識別方法，并制定了基于邊界信息和內(nèi)部結(jié)構(gòu)信息的規(guī)則庫對識別結(jié)果進行校正；孫玉祥［12］提出了基于CRF模型的簡單名詞短語（Simple Noun Phrase，SNP）的識別方法，并利用基于語義分析的規(guī)則庫對識別結(jié)果進行校正。BNP簡單易識別，但易將作為整體結(jié)構(gòu)的短語割裂細化，形成粒度過小的短語結(jié)構(gòu)，失去了在PP識別中加入名詞短語識別的意義；而MNP識別粒度大，有利于句子整體結(jié)構(gòu)分析，但卻合并了一些PP到MNP內(nèi)，反而使識別PP的效果降低；SNP是指內(nèi)部不包含復(fù)雜修飾成分的名詞短語，其復(fù)雜程度介于BNP和MNP之間，既能保留充分的語法信息，又能夠減少歧義問題，進而提高PP識別的精度和效率，因此本文采用融入SNP信息到PP識別方法中對其進行優(yōu)化。

綜上，本文提出一種基于SNP的PP識別方法，即通過分詞融合將SNP信息融入到語料中，并對其訓(xùn)練得到多層PP識別模型，再使用該模型識別測試語料中的PP，最后使用規(guī)則校正其識別結(jié)果，得到最終識別結(jié)果。

2 CRF模型及分詞融合

本文把SNP識別問題及PP識別問題視為序列標(biāo)注問題，即通過CRF模型對測試語料進行序列標(biāo)注，識別出SNP及PP。首先，把語料進行分詞及詞性標(biāo)注，即把句子處理為S＝word（1）／pos（1）word（2）／pos（2）…word（i）／pos（i）…word（n）／pos（n）格式（其中word（i）為句子中的第i個詞，pos（i）為第i個詞的詞性，n為句子S中含有詞的個數(shù)）。目標(biāo)為獲得一個對應(yīng)的標(biāo)注序列T＝T（1）T（2）…T（n），使得該序列在所有可能的標(biāo)注序列中概率最大，其中SNP識別過程中T（i）∈｛B，I，O｝，B表示SNP的起始詞，I表示SNP的內(nèi)部詞語，O表示SNP的外部詞語，而PP識別過程中T（i）∈｛B，I，E，O｝，B表示PP的起始邊界，I表示PP的內(nèi)部詞語，E表示PP的后邊界，O表示PP的外部詞語。

2.1 條件隨機場

通過CRF機器學(xué)習(xí)模型［13］能夠充分地利用詞語的上下文信息特征，使用無向圖理論使序列標(biāo)注的結(jié)果達到整個序列上的全局最優(yōu)，適用于詞性標(biāo)注及淺層句法分析任務(wù)。

本文使用線性鏈CRF，即給定參數(shù)Λ＝（λ1，λ2，...，λn），定義在觀測序列X＝x1，x2，...，xT上對應(yīng)的狀態(tài)序列Y＝y(tǒng)1，y2，...，yT的條件概率為式（1）。

其中ZX是所有狀態(tài)序列的歸一化因子，fk（yt－1，yt，x，t）為關(guān)于整個觀測序列X、位置t以及位置t－1標(biāo)記的二值特征向量函數(shù)，λk是在訓(xùn)練中得到的fk的權(quán)重，k的取值范圍取決于模版中特征的數(shù)量。訓(xùn)練的目標(biāo)是為CRF模型找到最優(yōu)的λ值，找到后即可用Viterbi算法對未標(biāo)記序列（測試語料）進行序列標(biāo)注。序列標(biāo)注的任務(wù)就是求出使條件概率PΛ（Y｜X）最大的Y，即最大可能的標(biāo)記序列為式（2）。

2.2 分詞融合

對語料進行SNP識別后，依據(jù)識別出的SNP對詞語進行分詞及詞性標(biāo)注合并，將融合后的SNP的詞性標(biāo)記為“COM－NOUN”。舉例如下：

初始分詞及詞性標(biāo)注為：給／PREP自身／PERSON－PRON和／CNJ他人／PERSON－PRON的／DE－1生命／COM－NOUN財產(chǎn)／COM－NOUN安全／COM－NOUN造成／NVERB嚴(yán)重／ADJ威脅／NVERB－N。／WJ

識別出來的SNP為：生命財產(chǎn)安全、嚴(yán)重威脅

分詞融合后的分詞及詞性標(biāo)注為：給／PREP自身／PERSON－PRON和／CNJ他人／PERSONPRON的／DE－1生命財產(chǎn)安全／COM－NOUN造成／NVERB嚴(yán)重威脅／COM－NOUN。／WJ

3 介詞短語識別方法

首先，使用CRF構(gòu)建SNP識別模型，并使用該模型識別語料中的SNP，使用規(guī)則庫校正其識別結(jié)果得到SNP識別結(jié)果；之后，依據(jù)SNP識別結(jié)果對語料進行分詞融合，采用CRF構(gòu)建多層PP識別模型；最后，利用建立的PP識別模型識別PP，并通過錯誤驅(qū)動方法及語義分析確定轉(zhuǎn)換規(guī)則集，校正識別出的PP，得到最終結(jié)果。

3.1 簡單名詞短語識別

本文使用CRF模型對語料進行SNP識別，并且針對PP內(nèi)名詞短語的特性制定了規(guī)則庫進行結(jié)果校正。

3.1.1 特征抽取及特征模板

本文使用的特征為詞特征（word）、詞性特征（pos），選取特征窗口大小為5，特征模板如表1所示，其中括號中的數(shù)字表示詞的位置，如word（－1）表示當(dāng)前詞的前詞，word（0）表示當(dāng)前詞，word（1）表示當(dāng)前詞的后詞。

表1 SNP識別特征模板

3.1.2 規(guī)則庫

依據(jù)PP內(nèi)名詞短語的特性制定以下規(guī)則，該規(guī)則能較好地校正SNP識別結(jié)果，并在最大程度上不合并PP的后界和后詞，明顯提升PP的識別效果。

1）若識別出的SNP的前詞為程度副詞時，該程度副詞修飾SNP的第一個詞，且第一個詞為形容詞，則將程度副詞合并到SNP中。如識別出的SNP為“好結(jié)果”，“好”的前詞為副詞“更”，合并“更”到短語內(nèi)，則SNP為“更好結(jié)果”；

2）短語內(nèi)部包含并列成分，采用語義相似度和詞語組合數(shù)據(jù)庫方法進行并列消歧，分為三種情況，如表2所示；

表2 并列歧義的三種情形

3）若SNP后界為機構(gòu)名時，則SNP的后界為其前詞；

4）若SNP的后界為“全部”、“全程”等副詞，則SNP的后界為副詞的前詞；

5）當(dāng)SNP的前詞為介詞“沿”、“依”時，若組成SNP的前兩個詞為名詞，且SNP由三個或三個以上詞構(gòu)成時，則其前界為名詞的后詞，否則，標(biāo)記不是SNP；

6）若SNP的后界為“每個”等指示性代詞，則SNP的后界為其前詞。

3.2 介詞短語的識別

3.2.1 特征抽取及特征模板

本文使用張杰［8］的特征抽取方式，使用原子特征模板和復(fù)合特征模板，選擇特征窗口的大小為5。原子特征模板即基本特征，選擇以下基本特征：

1）詞特征（word）；

2）詞性特征（pos）：即詞性標(biāo)注；

3）候選前界特征（CFB）：即當(dāng)前分句中該詞前是否存在候選介詞。若存在候選介詞，則標(biāo)記為該介詞，若不存在，則標(biāo)記為“N”；

4）候選后界特征（CLB）：即當(dāng)前詞是否可以作為介詞短語的后界。使用式（3）計算當(dāng)前詞作為后界的概率，本文選擇閾值為0.05，即若概率大于0.05，則標(biāo)記該特征為“Y”，否則標(biāo)為“N”。

5）候選后詞特征（CLW）：即當(dāng)前詞是否可以作為介詞短語后面的詞。利用式（4）計算當(dāng)前詞作為后詞的概率，本文選擇的閾值為0.05，即若概率大于0.05，則標(biāo)記該特征為“Y”，否則標(biāo)為“N”。

6）詞長特征：即當(dāng)前詞的長度。復(fù)合模板側(cè)重特征間的搭配關(guān)系，提高了介詞短語識別的精度。復(fù)合特征模板如表3所示，其中括號中的數(shù)字表示詞的位置，如word（0）表示當(dāng)前詞。

表3 PP識別特征模板

3.2.2 轉(zhuǎn)換規(guī)則集

該轉(zhuǎn)換規(guī)則集由兩部分構(gòu)成，一部分是通過錯誤驅(qū)動學(xué)習(xí)（Transformation－based error－driven learning，TBL）自動獲?。涣硪徊糠质峭ㄟ^語義分析得到的固定搭配［1］。TBL的基本思想是通過錯誤驅(qū)動來修改標(biāo)記結(jié)果，根據(jù)預(yù)先設(shè)計好的轉(zhuǎn)換模板和目標(biāo)函數(shù)尋找修正錯誤最多的轉(zhuǎn)換規(guī)則，用生成的規(guī)則對標(biāo)注結(jié)果進行修正。重復(fù)上述過程，直到無新規(guī)則產(chǎn)生。這部分規(guī)則由觸發(fā)條件和轉(zhuǎn)換規(guī)則組成。在進行結(jié)果校正時，若滿足觸發(fā)條件，用相應(yīng)的轉(zhuǎn)換規(guī)則對當(dāng)前結(jié)果進行修改。例如，若分句為“統(tǒng)統(tǒng)／ADV記／COM－VERB在／PREP參加保險者／COM－NOUN的／DE－1名下／COM－NOUN”，其標(biāo)注結(jié)果為“O O B E O O”，滿足觸發(fā)條件介詞為“在”且其前面是動詞，若分句中存在“的”，則標(biāo)記“的”后的詞為“E”，介詞后的詞到“的”標(biāo)記為“I”（轉(zhuǎn)換條件），因此修改標(biāo)注結(jié)果為“O O B I I E”。固定搭配是通過對PP進行語義分析得到的，如“對……來說”、“當(dāng)……時”。當(dāng)進行結(jié)果校正時，若當(dāng)前分句滿足固定搭配，則修改其標(biāo)注結(jié)果。例如，若一個分句滿足“對……來說”規(guī)則，則將“對”和“來說”兩詞中間的詞標(biāo)注結(jié)果改為“I”，“來說”的標(biāo)注結(jié)果改為“E”，“來說”后詞的標(biāo)注結(jié)果改為“O”。

4 實驗設(shè)計及結(jié)果分析

本文的實驗語料是《人民日報》2000年的語料，該語料經(jīng)過NIHAO分詞工具［14］進行分詞及詞性標(biāo)注，為保證實驗結(jié)果的準(zhǔn)確性，進行了人工校正。訓(xùn)練語料需格式化使其適合CRF訓(xùn)練，而測試語料需刪除不包含PP的句子后再進行格式化，然后使用CRF進行序列標(biāo)注。所有語料共包含7 049個PP。本文將語料平均分成五份，即語料1，語料2，語料3，語料4，語料5。實驗采用五倍交叉驗證，即用其中四份作為訓(xùn)練語料，另一份作為測試語料，進行五次實驗。本文將五次實驗結(jié)果的平均值作為最后的識別結(jié)果。

4.1 實驗設(shè)計

本文針對PP識別進行了四個對比實驗：實驗1是直接使用PP識別模型對測試語料進行PP識別得到的實驗結(jié)果；實驗2是首先對測試語料進行SNP識別，分詞融合后使用PP識別模型對測試語料進行PP識別得到的實驗結(jié)果；實驗3是對實驗1的實驗結(jié)果利用規(guī)則庫處理后得到的實驗結(jié)果；實驗4是對實驗2的實驗結(jié)果進行規(guī)則處理后得到的實驗結(jié)果。

4.2 實驗結(jié)果及分析

實驗結(jié)果如表4所示。實驗2的精確率、召回率及F值比實驗1分別提高了0.57%、0.56%、0.56%，說明加入簡單名詞短語識別后的PP識別的效果有了明顯的提高；加入規(guī)則后，實驗3和實驗4的精確率、召回率、F－值分別提高了0.53個百分點和1.28個百分點，說明規(guī)則庫對識別效果是有明顯的提升作用，實驗4比實驗3的F－值多提升0.75個百分點，說明規(guī)則庫更適合SNP識別后的PP識別。

表4 PP識別結(jié)果

參照表5中各個參考文獻PP的識別結(jié)果可知，HMM模型識別PP的效果最差，這是由于介詞短語內(nèi)部結(jié)構(gòu)比較復(fù)雜，使用簡單特征函數(shù)不能涵蓋其關(guān)鍵特性，致使識別效果最差；三元模型只考慮三個基本特征，忽略了其他比較重要的特征，如后詞、后界，致使識別結(jié)果的F－值僅為87.37%；最大熵模型不忽略PP的任意特征，使其識別效果高于前兩個文獻的識別結(jié)果，但最大熵模型不能統(tǒng)計特征強度，降低了部分重要特征的權(quán)重，使其實驗結(jié)果仍差強人意；CRF模型能夠較好的利用上下文信息，并且通過特征的重要性對其加權(quán)，使識別結(jié)果較好；本文通過對PP內(nèi)部結(jié)構(gòu)進行分析，把SNP信息融入到PP識別方法中，降低了PP內(nèi)部的復(fù)雜結(jié)構(gòu)，提高了識別的精度和效率，精確率、召回率及F－值，分別比文獻［8］的方法高1.04%、1.03%、1.04%，說明了該方法的有效性。

表5 與其他文獻的結(jié)果對比

5 總結(jié)及展望

本文提出了融合簡單名詞短語信息的介詞短語自動識別方法，首先抽取語料中的簡單名詞短語；之后將簡單名詞短語融合為單一的名詞，并標(biāo)注其詞性為普通名詞；最后通過多層CRFs模型識別介詞短語。該方法通過降低介詞短語內(nèi)部結(jié)構(gòu)的復(fù)雜性，提高了識別結(jié)果，其F－值為92.99%。實驗結(jié)果表明，本文方法比目前發(fā)表的最好的實驗結(jié)果高1.03個百分點，驗證了簡單名詞短語信息在介詞短語識別中的重要性。接下來我們將加入簡單名詞短語內(nèi)部的詞性等細粒度信息，并且尋找更優(yōu)的規(guī)則對簡單名詞短語識別結(jié)果進行校正，以進一步提高介詞短語識別的性能。

［1］張誼生，張斌.現(xiàn)代漢語虛詞［M］.上海：華東師范大學(xué)出版社，2000.

［2］ Brill E，Resnik P.A rule－based approach to prepositional phrase attachment disambiguation［C］／／Proceedings of the 15th conference on Computational linguistics－Volume 2.Association for Computational Linguistics，1994：1198－1204.

［3］ Ratnaparkhi A.Statistical models for unsupervised prepositional phrase attachment［C］／／Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics－Volume 2.Association for Computational Linguistics，1998：1079－1085.

［4］ Branigan H P，Pickering M J，McLean J F.Priming prepositional－phrase attachment during comprehension［J］.Journal of Experimental Psychology：Learning，Memory，and Cognition，2005，31（3）：468－481.

［5］干俊偉，黃德根.漢語介詞短語的自動識別［J］.中文信息學(xué)報，2005，19（4）：17－23.

［6］奚建清，羅強.基于HMM的漢語介詞短語自動識別研究［J］.計算機工程，2008，33（3）：172－173，182.

［7］盧朝華，黃廣君，郭志兵.基于最大熵的漢語介詞短語識別研究［J］.通信技術(shù)，2010（05）：181－183，186.

［8］張杰.基于多層CRFs的漢語介詞短語識別研究［D］.大連：大連理工大學(xué)碩士學(xué)位論文，2013.

［9］ Cardie C，Pierce D.Error－driven pruning of treebank grammars for base noun phrase identification［C］／／Proceedings of the 17th international conference on Computational linguistics－Volume 1.Association for Computational Linguistics，1998：218－224.

［10］胡乃全，朱巧明，周國棟.混合的漢語基本名詞短語識別方法［J］.計算機工程，2009，35（20）：199－201.

［11］錢小飛，侯敏.基于混合策略的漢語最長名詞短語識別［J］.中文信息學(xué)報，2013，27（6）：16－22.

［12］孫玉祥.漢語簡單名詞短語自動識別的研究［D］.大連：大連理工大學(xué)碩士學(xué)位論文，2014.

［13］ Lafferty J，McCallum A，Pereira F C N.Conditional random fields：Probabilistic models for segmenting and labeling sequence data［C］／／Proceedings of the 18th International Conference on Machine Learning 2001：282－289.

［14］ Degen H，Deqin T.Context information and fragments based cross－domain word segmentation［J］.China Communications，2012，9（3）：49－57.