劉利
(瀘州職業(yè)技術(shù)學(xué)院信息工程系,四川 瀘州 646005)
基于多特性融合的代詞消解方法研究
劉利
(瀘州職業(yè)技術(shù)學(xué)院信息工程系,四川 瀘州 646005)
互聯(lián)網(wǎng)已成為一個(gè)海量的開放式知識(shí)庫,其中包含著許多有價(jià)值的信息,而網(wǎng)頁是互聯(lián)網(wǎng)信息承載的載體,將信息結(jié)構(gòu)化成為知識(shí)庫構(gòu)建的基礎(chǔ)。網(wǎng)頁信息不僅包含許多指代詞,還含有自身的標(biāo)題。指代詞消解是信息結(jié)構(gòu)化的前提,綜合網(wǎng)頁信息具有的一般性和特殊性的特點(diǎn),本文提出基于多特性融合的代詞消解方法研究,能更好地適應(yīng)網(wǎng)頁信息代詞的消解,提高網(wǎng)頁信息代詞消解的準(zhǔn)確率。
多特性;標(biāo)題;代詞消解;信息結(jié)構(gòu)化
互聯(lián)網(wǎng)信息具有規(guī)模龐大、樣式多樣、信息散亂等特點(diǎn)。而網(wǎng)頁是互聯(lián)網(wǎng)信息承載的載體,利用互聯(lián)網(wǎng)構(gòu)建知識(shí)庫,成了對海量網(wǎng)頁信息的抽取及結(jié)構(gòu)化的過程。網(wǎng)頁信息結(jié)構(gòu)化的前提是代詞消解,代詞消解的結(jié)構(gòu)直接影響到信息結(jié)構(gòu)化的準(zhǔn)確率。當(dāng)前,絕大多數(shù)的網(wǎng)頁信息都具有標(biāo)題,對標(biāo)題的描述包含在信息正文中,網(wǎng)頁文本信息抽取模塊將充分考慮網(wǎng)頁信息的特征,建立適合它的文本信息抽取方法。
目前常見的代詞指代消解方法有王智強(qiáng)等[1]人提出了基于決策樹的漢語共指消解方法;龐寧等[2]人提出的利用最大熵來訓(xùn)練模型的方法;李國臣等人[3]結(jié)合龐寧等人的方法后提出了基于語料庫的決策樹機(jī)器學(xué)習(xí)算法;董國志等人[4]總結(jié)了基于規(guī)則和基于統(tǒng)計(jì)方法的缺點(diǎn),提出基于規(guī)則預(yù)處理與最大熵模型相互結(jié)合的方法,在準(zhǔn)確率和召回率上有所提高。
上述常用的指代消解方法不能很好地適應(yīng)網(wǎng)頁正文信息,比如:百度百科中有關(guān)李彥宏的介紹,標(biāo)題為“李彥宏_百度百科”,有一段話為:“他要參戰(zhàn)!在美國一批搜索引擎公司已崛起,而他選擇了回國創(chuàng)業(yè)。他回憶這段人生抉擇時(shí)說,‘我小時(shí)候有很強(qiáng)的不服輸心理,越是大家不看好的事,我越是要做成?!?其中并沒有出現(xiàn)過他的名字。如果用董國志等人的方法,則在這段話的代詞消解上不能實(shí)現(xiàn)。本文結(jié)合董國志等人的指代消解方法和網(wǎng)頁的特性提出基于多特性融合的代詞消解方法研究,能很好地適應(yīng)上述情況。
網(wǎng)頁信息抽取模塊產(chǎn)生的大量文本信息有其特殊性,比如抽取信息涉及主題范圍廣、絕大數(shù)網(wǎng)頁都有標(biāo)題或者子標(biāo)題等。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn)標(biāo)題中通常包含有該文本信息描述的命名實(shí)體,這個(gè)特征來源于網(wǎng)頁正文信息和標(biāo)題的關(guān)系。因此在命名實(shí)體識(shí)別方面,本文利用西南交大中文分詞系統(tǒng)[5]對網(wǎng)頁的標(biāo)題以及網(wǎng)頁內(nèi)容進(jìn)行分詞,然后利用統(tǒng)計(jì)的方法,統(tǒng)計(jì)出標(biāo)題的實(shí)體詞頻數(shù)最高的兩個(gè)詞(下面簡稱FWord和SWord),實(shí)驗(yàn)表明這兩個(gè)詞最有可能是文章的主旨詞。
采用的評價(jià)標(biāo)準(zhǔn)是正確率(P1),具體公式如下:
本文選取體育類、財(cái)經(jīng)類、人物類等領(lǐng)域各200個(gè)網(wǎng)頁和大規(guī)模網(wǎng)頁集中的200個(gè)網(wǎng)頁,用公式(1)計(jì)算主旨詞提取的正確率,其結(jié)果如表1所示。
表1 標(biāo)題詞頻統(tǒng)計(jì)實(shí)驗(yàn)
在醫(yī)藥招商類信息的正確率較低,究其原因在于標(biāo)題里面含有的噪聲信息太多,導(dǎo)致統(tǒng)計(jì)詞頻確定主旨詞時(shí)定位在噪聲信息上。從財(cái)經(jīng)類和體育類的詞頻統(tǒng)計(jì)結(jié)果來看,它們的標(biāo)題有些采用比喻的手法,導(dǎo)致在確定標(biāo)題主旨詞時(shí)定位出錯(cuò)。不過在整體上的正確率還是較高的,說明通過標(biāo)題的詞頻統(tǒng)計(jì)能反映出文章的主旨。
本文對網(wǎng)頁信息代詞消解具體流程,如圖1所示。
圖1 指代消解流程
先用西南交大分詞[5]對網(wǎng)頁文本信息進(jìn)行分詞,提取信息里面所有的代詞,再用算法消解代詞。
在算法消解代詞過程中,采取以下規(guī)則:
規(guī)則1:如果人稱代詞是單數(shù),則找到表示人并且是單數(shù)概念的名詞。如果人稱代詞是復(fù)數(shù),則找到連詞(比如“和”、“同”等)連接的并列結(jié)構(gòu)或有復(fù)數(shù)概念的詞。
規(guī)則2:如果指代詞是指男性概念的,比如他、他的等,則在候選消解詞中找到語義類相同并且性別相同的詞進(jìn)行消解。同理,如果代詞為“她”或者“她的”,則需要找相應(yīng)性別的人進(jìn)行消解。
規(guī)則3:指代詞和候選消解詞之間的語義類要相同,比如對于表人的代詞,候選消解詞語義也要表“人”。同理,對于表物的代詞,候選消解詞也要表“物”,比如公司、地點(diǎn)、組織等都表示為物的。在判斷實(shí)體詞的語義方面,本文用的是“知網(wǎng)”中文語義庫識(shí)別的[6,7]。
規(guī)則4:在選取候選消解詞時(shí)限制在指代詞所在位置的前兩句以內(nèi),在計(jì)算時(shí)設(shè)定一個(gè)句子的距離值為1,也就是限制距離為3的范圍以內(nèi)。并且距離指代詞越近則該候選消解詞的權(quán)重越大。
規(guī)則5:如果指代詞是第一人稱代詞,那么在該句子內(nèi)搜索語義為“人”并且后面緊跟動(dòng)詞的詞,若滿足條件則,用該詞進(jìn)行消解。否則,不予消解。比如:“小明說:‘我想...’?!钡男问匠霈F(xiàn)就符合規(guī)則5。
再采取基于統(tǒng)計(jì)的指代消解方法,主要是從語義一致性、同位語一致性和距離屬性三個(gè)特征屬性著手。
(1)語義一致性
比較候選消解詞同待消解指代詞的語義是否屬于同類,如果是則設(shè)置公式(2)中的特征函數(shù)為1,否則為0。
其中,x表示文本信息中命名實(shí)體或名詞,y表示文本信息中的代詞。
(2)同位語一致性
比較候選消解詞和待消解指代詞是否為同位語,如果是則設(shè)置公式(3)的值為1,否則設(shè)置為0。
其中,x和y同上述函數(shù)一致。比如“小明/nr、/w小紅/ nr還有/v我/rr,/w我們/rr一起/s打球/vi”,其中“小明、小紅、我”和“我們”是同位語。
(3)距離屬性
比較消候選消解詞和待消解指代詞是否在同一句,如果是則設(shè)置公式(4)的值為3;如果相差一句則設(shè)置公式值為2;如果相差兩句,則特征函數(shù)值為1;其他情況為0。公式如下:
其中,x和y同上述函數(shù)一致。
通過上面公式計(jì)算后,再用下面的權(quán)重公式進(jìn)行計(jì)算,如公式(6):
若p的值大于或等于5時(shí),則進(jìn)行消解,否則不進(jìn)行消解。
自然語言處理的三個(gè)評測指標(biāo),即準(zhǔn)確率、召回率。各個(gè)指標(biāo)定義如下公式所示:
其中,P為準(zhǔn)確率,R為召回率。
同其他消解方法的對比試驗(yàn)結(jié)果如表2所示:
表2 代詞消解結(jié)果對比
上述結(jié)果表明,較其他方法,本文方法能更好地適應(yīng)網(wǎng)頁信息代詞消解。
本文結(jié)合代詞消解的常用方法,找到一種適應(yīng)網(wǎng)頁代詞消解的方法,為網(wǎng)頁信息結(jié)構(gòu)化提供基礎(chǔ),但網(wǎng)頁信息結(jié)構(gòu)化還需要更高的準(zhǔn)確率,后期可結(jié)合句法分析方法提高代詞消解的準(zhǔn)確率。
[1]王智強(qiáng),李蕾,王樅.基于決策樹的漢語代詞共指消解[J].北京郵電大學(xué)學(xué)報(bào),2 0 0 6,2 9(4):1-5.
[2]龐寧,楊爾弘.基于統(tǒng)計(jì)模型與規(guī)則的指代消解研究[J].太原科技,2 0 0 7,16 0(5):6 1-6 2.
[3]李國臣,羅云飛.采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J].中文信息學(xué)報(bào),2 0 0 5,19(4):2 4-3 0.
[4]董國志,朱玉全,程顯毅.中文人稱代詞指代消解的研究[J].計(jì)算機(jī)應(yīng)用研究,2 0 11,2 8(5):17 74-17 79.
[5]西南交大中文分詞與智能問答系統(tǒng)[EB/O L].h t t p://i c s.s w j t u. e d u.c n/i n d e x.j s p
[6]知網(wǎng)庫和講解地址[EB/O L].h t t p://w w w.k e e n a g e.c o m/h t m l/ c_i n d e x.h t m l
[7]董振東,董強(qiáng),郝長伶.知網(wǎng)的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2 0 0 7,2 1(4):3-9.
Research on the Method of PronounsAnaphora Resolution Based on Heterogeneous Features Fusion
Liu Li
(Luzhou Vocational and Technical College,Luzhou 646005,Sichuan)
The Internet has become a mass of open knowledge base,which contains much valuable information.Web pages are the carriers of information,and the foundation of knowledge base construction.Web information contains many pronouns and titles. The pronouns anaphora resolution is the premise of information structure.The integrated web page information has general and special characteristics.This paper proposes a method of pronouns anaphora resolution based on heterogeneous features fusion,which can better adapt to the web information pronouns anaphora resolution and improve the accuracy.
heterogeneous features;title;pronouns anaphora resolution;information structure
TP391.1
A
1008-6609(2016)11-0042-03
劉利(19 8 8-),男,四川瀘州人,碩士研究生,研究方向?yàn)槿斯ぶ悄堋?shù)據(jù)挖掘。