劉紹毓 席耀一 李弼程 唐永旺 陳 剛
(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院 河南 鄭州 450001)
?
無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建
劉紹毓席耀一李弼程唐永旺陳剛
(解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院河南 鄭州 450001)
摘要傳統(tǒng)的實(shí)體關(guān)系觸發(fā)詞詞典構(gòu)建主要采用人工方法和有監(jiān)督的擴(kuò)展學(xué)習(xí)方法。但是,上述兩種方法都需要大量的人工參與,并且當(dāng)關(guān)系類型發(fā)生變化時(shí)需要重新構(gòu)建觸發(fā)詞詞典。提出一種無(wú)監(jiān)督的實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法。首先,對(duì)關(guān)系實(shí)例文檔集進(jìn)行分層狄利克雷過(guò)程建模,通過(guò)主題過(guò)濾和詞語(yǔ)概率權(quán)重過(guò)濾構(gòu)建候選觸發(fā)詞集合;然后,利用依存句法分析對(duì)候選觸發(fā)詞集合進(jìn)行再次過(guò)濾以得到最終的觸發(fā)詞詞典。該方法有效避免了傳統(tǒng)實(shí)體關(guān)系觸發(fā)詞詞典構(gòu)建所需的大量人工參與。實(shí)驗(yàn)表明,基于分層狄利克雷過(guò)程和依存句法分析的實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法有效降低了人工標(biāo)注成本,取得了較高的準(zhǔn)確率。
關(guān)鍵詞實(shí)體關(guān)系觸發(fā)詞詞典分層狄利克雷過(guò)程依存句法分析
0引言
實(shí)體關(guān)系觸發(fā)詞也稱實(shí)體關(guān)系指示詞、實(shí)體關(guān)系描述詞、實(shí)體關(guān)系語(yǔ)義標(biāo)簽等,是關(guān)系句子實(shí)例上下文中用來(lái)詳細(xì)說(shuō)明實(shí)體對(duì)構(gòu)成的實(shí)體關(guān)系表達(dá)意義的詞。例如雇傭關(guān)系觸發(fā)詞有“司機(jī)”、“部長(zhǎng)”、“主席”、“經(jīng)理”、“CEO”等,就學(xué)/畢業(yè)于關(guān)系的觸發(fā)詞有“學(xué)員”、“學(xué)士”、“碩士”、“博士”等,事務(wù)關(guān)系觸發(fā)詞有“合伙人”、“同伴”、“同事”、“上司”、“老板”等。實(shí)體關(guān)系觸發(fā)詞是實(shí)體關(guān)系的重要組成部分,是對(duì)實(shí)體間二元關(guān)系的擴(kuò)展和豐富。
自動(dòng)內(nèi)容抽取會(huì)議ACE(Automatic content Extraction)定義的實(shí)體關(guān)系抽取任務(wù)包括實(shí)體關(guān)系識(shí)別和描述RDC(Relation Detection and Characterization)兩個(gè)任務(wù)[1]。具體說(shuō)來(lái),即首先發(fā)現(xiàn)兩個(gè)實(shí)體之間是否存在關(guān)系,其關(guān)系類別是什么;然后抽取出實(shí)體關(guān)系觸發(fā)詞,從而完整地描述實(shí)體與實(shí)體間的關(guān)系。實(shí)體關(guān)系觸發(fā)詞在實(shí)體關(guān)系相關(guān)研究中具有重要的實(shí)際效用和理論價(jià)值。一方面,正確抽取實(shí)體關(guān)系觸發(fā)詞能幫助用戶更好地理解實(shí)體關(guān)系;實(shí)體關(guān)系觸發(fā)詞是結(jié)構(gòu)化關(guān)系知識(shí)庫(kù)中關(guān)系實(shí)例的重要標(biāo)志,因此其能幫助用戶快速準(zhǔn)確地從關(guān)系知識(shí)庫(kù)中檢索出特定關(guān)系類型的實(shí)例對(duì)。另一方面,實(shí)體關(guān)系觸發(fā)詞能夠有效指導(dǎo)實(shí)體關(guān)系抽取,提高實(shí)體關(guān)系抽取的性能,具有非常重要的實(shí)際效用和理論價(jià)值。
1相關(guān)工作
現(xiàn)有的構(gòu)建實(shí)體關(guān)系觸發(fā)詞詞典的研究較少,主要有兩種方法:一種是人工方法;一種是基于初始觸發(fā)詞庫(kù)的有監(jiān)督擴(kuò)展學(xué)習(xí)方法,其通過(guò)抽取關(guān)系句子實(shí)例的觸發(fā)詞擴(kuò)展初始觸發(fā)詞庫(kù)。
基于初始觸發(fā)詞庫(kù)的有監(jiān)督擴(kuò)展學(xué)習(xí)方法主要有以下研究:Villaverde[2]首先把實(shí)體關(guān)系觸發(fā)詞限定為動(dòng)詞并構(gòu)建初始觸發(fā)詞庫(kù),然后根據(jù)文本語(yǔ)料中實(shí)體對(duì)間的語(yǔ)法結(jié)構(gòu)和依賴性去確定觸發(fā)詞,進(jìn)而達(dá)到擴(kuò)展觸發(fā)詞庫(kù)的目的。但是,其研究具有局限性,除動(dòng)詞之外,實(shí)體關(guān)系觸發(fā)詞還可能是名詞。中文實(shí)體關(guān)系觸發(fā)詞詞典構(gòu)建研究起步較晚,其性能依賴于分詞工具和句法分析,難度比英文大,效果也不及英文。2007年,劉克彬[3]在利用基于規(guī)則的方法進(jìn)行實(shí)體關(guān)系識(shí)別的同時(shí)抽取實(shí)體關(guān)系觸發(fā)詞。該方法首先人工構(gòu)建初始實(shí)體關(guān)系觸發(fā)詞庫(kù),然后從訓(xùn)練語(yǔ)料中學(xué)習(xí)泛化得到候選觸發(fā)詞集的抽取規(guī)則,通過(guò)計(jì)算候選觸發(fā)詞集中詞與初始觸發(fā)詞詞典中詞的相似度來(lái)確定關(guān)系句子實(shí)例的觸發(fā)詞,進(jìn)而達(dá)到擴(kuò)展觸發(fā)詞詞庫(kù)的目的。2008年,孫曉玲[4]提出了一種基于同義詞詞林的實(shí)體關(guān)系觸發(fā)詞抽取方法。需要結(jié)合統(tǒng)計(jì)機(jī)器學(xué)習(xí)來(lái)快速高效地進(jìn)行實(shí)體關(guān)系觸發(fā)詞抽取。
人工構(gòu)建觸發(fā)詞詞典工作量大,無(wú)法保證其完備性,并且當(dāng)關(guān)系類型改變和語(yǔ)言發(fā)展變化時(shí),需要重新構(gòu)建。基于初始觸發(fā)詞庫(kù)的有監(jiān)督擴(kuò)展學(xué)習(xí)方法雖然能對(duì)實(shí)體關(guān)系觸發(fā)詞庫(kù)進(jìn)行有效擴(kuò)展,但仍無(wú)法擺脫其對(duì)人工構(gòu)建的初始觸發(fā)詞庫(kù)的依賴。因此,亟需一種無(wú)監(jiān)督學(xué)習(xí)方法快速高效地完成任意類型的實(shí)體關(guān)系觸發(fā)詞詞典的自動(dòng)構(gòu)建。
2實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建
2.1問題分析
觸發(fā)詞詞典構(gòu)建需要從關(guān)系語(yǔ)料集中自動(dòng)識(shí)別觸發(fā)詞。無(wú)監(jiān)督實(shí)體關(guān)系觸發(fā)詞自動(dòng)識(shí)別面臨的挑戰(zhàn)主要有:
(1) 關(guān)系語(yǔ)料集可能包含噪聲句子實(shí)例,需要消除噪聲句子實(shí)例中無(wú)關(guān)詞的干擾。例如,包含實(shí)體“馬化騰”和“騰訊”的句子“開會(huì)之前,馬化騰在騰訊公司的大會(huì)議室等待著董事會(huì)成員?!敝械摹暗却辈]有表達(dá)兩實(shí)體間的雇傭關(guān)系。
(2) 同一關(guān)系類型的語(yǔ)料往往涉及多個(gè)領(lǐng)域,各領(lǐng)域語(yǔ)言的不同增加了觸發(fā)詞識(shí)別的難度。例如,雇傭關(guān)系在體育領(lǐng)域的實(shí)例“孔卡效力于廣州恒大。”和在娛樂領(lǐng)域的實(shí)例“張韶涵是福茂唱片公司的簽約藝人。”的觸發(fā)詞分別是“效力”和“簽約”。本文特定實(shí)體關(guān)系在具體領(lǐng)域的子類型稱為關(guān)系子類型。
主題模型能夠自動(dòng)發(fā)現(xiàn)數(shù)據(jù)集中的隱含類別。如果利用主題模型對(duì)特定關(guān)系類型的關(guān)系語(yǔ)料進(jìn)行建模,可以有效地發(fā)現(xiàn)其中隱含的主題,即語(yǔ)料包含的關(guān)系子類型。主題模型不僅可以自動(dòng)發(fā)現(xiàn)關(guān)系子類型,而且可以得到每一關(guān)系子類型的詞語(yǔ)概率分布。在該概率分布中,最能表達(dá)該關(guān)系子類型的詞語(yǔ)一般具有較大的概率權(quán)重。例如,體育領(lǐng)域的雇傭關(guān)系對(duì)應(yīng)的關(guān)系子類型-詞分布中“前鋒”、“主教練”等詞具有較大的概率權(quán)重,娛樂領(lǐng)域的雇傭關(guān)系對(duì)應(yīng)的關(guān)系子類型-詞分布中“演員”、“藝人”等詞具有較大的概率權(quán)重,而這些詞正是雇傭關(guān)系的觸發(fā)詞。
主題模型僅利用關(guān)系語(yǔ)料中詞語(yǔ)的共現(xiàn)信息識(shí)別觸發(fā)詞,卻沒有考慮關(guān)系句子實(shí)例中實(shí)體對(duì)的上下文語(yǔ)境信息。2014年,王健等[5]發(fā)現(xiàn)事件觸發(fā)詞與事件元素在句法上存在依存關(guān)系,并利用依存句法分析實(shí)現(xiàn)了生物事件觸發(fā)詞的抽取。與事件觸發(fā)詞類似,實(shí)體關(guān)系觸發(fā)詞與句子實(shí)例的實(shí)體對(duì)也存在依存關(guān)系,因此可以利用關(guān)系句子實(shí)例中實(shí)體對(duì)的上下文依存信息來(lái)識(shí)別觸發(fā)詞。
因此,本文用基于分層狄利克雷過(guò)程HDP(Hierarchical Dirichlet Process)和依存句法分析相結(jié)合的方法自動(dòng)構(gòu)建實(shí)體關(guān)系觸發(fā)詞詞典。
2.2HDP原理介紹
LDA是自然語(yǔ)言處理研究中常用的主題模型,其屬于非監(jiān)督有向圖概率模型[6]。在進(jìn)行文本處理時(shí)LDA假設(shè)文檔由服從狄利克雷分布的主題組成,每個(gè)主題由服從多項(xiàng)式分布的單詞組成。LDA建模時(shí)文檔數(shù)據(jù)被視為詞袋模型,并且詞語(yǔ)滿足位置可交換性。LDA為實(shí)現(xiàn)多文檔之間的主題共享提供了解決途徑。但是,LDA模型需要預(yù)先指定文本中的主題個(gè)數(shù)。
2005年,Teh[7]提出了非參數(shù)貝葉斯模型HDP。HDP是LDA模型的非參數(shù)模型,其能自動(dòng)生成主題數(shù)目,為模型的自我優(yōu)化提供了可能。
HDP的超參數(shù)有三個(gè)[8]:基分布H、聚集度參數(shù)γ和α0?;植糎為θji提供先驗(yàn)分布。全局分布G0服從以H為基分布,γ為聚集度參數(shù)的狄利克雷過(guò)程,表示為:
G0|γH~DP(γ,H)
隨機(jī)分布Gj條件獨(dú)立于給定分布G0,并且服從以G0基分布的狄利克雷過(guò)程,即:
Gj|α0G0~DP(α0,G0)
如果1個(gè)HDP模型可以被用作已分組數(shù)據(jù)關(guān)于θji的先驗(yàn)分布。對(duì)任意組j,令θj1,θj2…為以Gj為分布的獨(dú)立同分布隨機(jī)變量。每個(gè)θji分布可以用來(lái)生成相應(yīng)的觀察xji。即:
θji|Gj~Gjxji|θji~F(θji)
從HDP的有向圖(如圖1所示)可以看到,各個(gè)文檔的主題均服從基分布H分布,保證了各個(gè)文檔之間的主題共享。首先,以基分布H和聚集度參數(shù)γ構(gòu)成了Dirichlet過(guò)程G0~DP(γ,H);然后以G0為基分布,以α0為聚集度參數(shù),對(duì)每一組數(shù)據(jù)構(gòu)造Dirichlet過(guò)程混合模型Gj~DP(α0,G0),Dirichlet過(guò)程混合模型能夠?qū)崿F(xiàn)數(shù)據(jù)的聚類和分布參數(shù)估計(jì)[9]。
圖1 HDP的有向圖模型
HDP過(guò)程有多種構(gòu)造方法,常用的是CRF(Chinese restaurant franchise)構(gòu)造方法,CRF由中國(guó)餐館過(guò)程CRP(Chinese restaurant process)擴(kuò)展而來(lái)[10]。CRP構(gòu)造的具體過(guò)程為:假設(shè)有無(wú)數(shù)家中國(guó)餐館,每家中國(guó)餐館有無(wú)數(shù)張餐桌,每張餐桌能容納下無(wú)數(shù)個(gè)顧客。所有餐館共用一份相同的菜單,菜單中有無(wú)數(shù)個(gè)菜。每張餐桌只能點(diǎn)用一個(gè)菜,同一餐館的不同餐桌可點(diǎn)用同一道菜,不同餐館的不同餐桌也可點(diǎn)用同一道菜。第一個(gè)顧客進(jìn)入餐館后選定一張餐桌坐下并確定這張餐桌的菜;第二個(gè)顧客進(jìn)入餐館后要么和第一個(gè)顧客同坐一張餐桌,要么另選一張餐桌坐下并確定該餐桌的菜……依此類推,第n個(gè)顧客會(huì)以c/(n-1+α)的概率選擇已有人坐的餐桌子(c表示已選擇該餐桌坐下的人數(shù)),或者以α/(n-1+α)的概率選擇一張新餐桌,其中α是此過(guò)程的標(biāo)量參數(shù)。HDP的CRF構(gòu)造實(shí)際上是為顧客分配餐桌和菜的過(guò)程,即首先為每一位顧客分配餐桌,然后為每張餐桌分配菜,每道菜都有可能被點(diǎn)到,同時(shí)也可能有新的菜被點(diǎn)到。
(1)
從式(1)可以看出,nk越大,第Xn+1個(gè)顧客越有可能選擇已有人的桌子坐下,即越大的群越容易變大,表明Dirichlet過(guò)程具有集群性質(zhì)。
2.3實(shí)體關(guān)系觸發(fā)詞詞典構(gòu)建流程
本文提出了一種基于HDP和依存句法分析的實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法。首先,對(duì)關(guān)系實(shí)例文檔集進(jìn)行HDP建模,通過(guò)主題過(guò)濾和詞語(yǔ)概率權(quán)重過(guò)濾構(gòu)建候選觸發(fā)詞集合;然后,利用依存句法分析對(duì)候選觸發(fā)詞集合進(jìn)行再次過(guò)濾以得到最終的觸發(fā)詞詞典。實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建的流程如圖2所示。
圖2 基于主題模型和依存句法分析的實(shí)體關(guān)系觸發(fā)詞詞典構(gòu)建框架
2.4候選觸發(fā)詞集合構(gòu)建
Step1將包含實(shí)體對(duì)的一個(gè)句子視為一篇文檔,得到一個(gè)文檔集合D={d1,d2,…,dD}。利用HDP對(duì)該文檔集合進(jìn)行建模,過(guò)程如下:選擇整體基分布G0~DP(γ,H)對(duì)文檔集D進(jìn)行建模。對(duì)于文檔dj,從G0中選擇局部分布Gj~DP(α0,G0)。對(duì)于文檔dj中的每個(gè)詞xji,首先根據(jù)Gj選擇該詞語(yǔ)的主題θji,然后根據(jù)θji對(duì)應(yīng)的分布F(θji)選擇詞語(yǔ)xji。根據(jù)CRF構(gòu)造HDP。模型挖掘文檔集合中的隱含主題T={T1,T2,…,TK},并得到每一主題Ti的特征分布φTi。
Step2統(tǒng)計(jì)每一主題Ti含有的非零特征數(shù)目Ni。主題中含有的非零概率詞語(yǔ)越多,其包含觸發(fā)詞的概率越大。若主題中含有的非零概率詞語(yǔ)較少,那么該主題有可能為噪聲主題。設(shè)θ1為每一主題所含有的非零概率詞語(yǔ)的下限閾值,若主題Ti滿足Ni<θ1,將其從主題集合T中濾除。
然后,根據(jù)每一主題Ti的詞語(yǔ)概率分布φTi利用式(2)計(jì)算其所包含詞語(yǔ)的權(quán)重,并按照大小排序。
(2)
其中,|Ti,w|表示主題Ti中特征w的出現(xiàn)次數(shù),|Ti|表示主題Ti中包含的特征數(shù)目。
最后,針對(duì)每一主題中不可避免包含的一些噪聲詞語(yǔ),可以利用其小權(quán)重值的特點(diǎn)對(duì)其進(jìn)行過(guò)濾。對(duì)于每一主題Ti,設(shè)θ2為噪聲特征閾值,若特征w的權(quán)重WeightTi,w>θ2,則將其添加入候選觸發(fā)詞集合CT。
2.5候選觸發(fā)詞集合過(guò)濾
利用主題模型得到候選觸發(fā)詞集合的方法僅僅考慮了詞語(yǔ)的共現(xiàn)信息,卻忽略了關(guān)系句子實(shí)例中實(shí)體對(duì)的上下文語(yǔ)境信息。而且單純依據(jù)詞語(yǔ)在主題中的權(quán)重選擇觸發(fā)詞會(huì)導(dǎo)致CT內(nèi)存在較多噪聲詞語(yǔ)。為此,本文擬利用依存句法分析獲取關(guān)系句子實(shí)例中實(shí)體對(duì)的上下文語(yǔ)境信息,并利用該信息對(duì)候選觸發(fā)詞集合CT進(jìn)行過(guò)濾。
依存句法分析由Tesniere最先提出[11],其將句子解析成一顆依存句法樹,用以描述各個(gè)詞語(yǔ)之間的語(yǔ)義依賴關(guān)系。在實(shí)體關(guān)系句子實(shí)例的上下文中,觸發(fā)詞一般與實(shí)體對(duì)之間存在依存關(guān)系。例如關(guān)系實(shí)例“雇傭關(guān)系<馬化騰,騰訊公司>”對(duì)應(yīng)的句子實(shí)例“馬化騰是騰訊的CEO?!钡囊来婢浞ǚ治鼋Y(jié)果如圖3所示。與實(shí)體“馬化騰”或“騰訊”有依賴關(guān)系的詞集合是{是,的,CEO},此詞集合包括觸發(fā)詞“CEO”。
圖3 雇傭關(guān)系句子實(shí)例依存句法分析示例
再如包含兩個(gè)人名實(shí)體“徐志摩”、“徐申如”的關(guān)系句子實(shí)例“徐志摩的父親徐申如曾經(jīng)擁有一座發(fā)電廠。”的依存句法分析的結(jié)果如圖4所示。與實(shí)體“徐志摩”或“徐申如”存在依存關(guān)系的詞有“父親”和“擁有”,甚至包括人名實(shí)體“徐申如”,顯然也包括實(shí)體關(guān)系觸發(fā)詞“父親”。
圖4 父子關(guān)系句子實(shí)例依存句法分析示例
上述兩個(gè)實(shí)例依存句法分析結(jié)果中與實(shí)體對(duì)存在依存關(guān)系的詞集合都包含觸發(fā)詞,但仍存在噪聲詞語(yǔ),如“是”、“的”、“擁有”。需要對(duì)這樣的噪聲詞語(yǔ)進(jìn)行過(guò)濾,步驟如下:
(1) 考慮到命名實(shí)體一般不是觸發(fā)詞,濾除觸發(fā)詞集合中的命名實(shí)體(人名、地名、組織機(jī)構(gòu)名)。
(2) 對(duì)同類實(shí)體關(guān)系的所有實(shí)體關(guān)系句子實(shí)例進(jìn)行依存句法分析,去除停用詞,并統(tǒng)計(jì)與實(shí)體對(duì)存在依存關(guān)系的詞語(yǔ)信息W={
對(duì)特定實(shí)體關(guān)系而言,觸發(fā)詞應(yīng)該同時(shí)存在于候選觸發(fā)詞集合CT和W中。因此,將CT中不存在于W中的詞語(yǔ)過(guò)濾掉,得到了觸發(fā)詞集合即為構(gòu)建的觸發(fā)詞詞典。
3實(shí)驗(yàn)及結(jié)果分析
3.1實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理
本文用中文維基資源,采用一種半自動(dòng)的方式獲取與人物相關(guān)的實(shí)體關(guān)系語(yǔ)料,用以減少人工標(biāo)注語(yǔ)料的工作量,具體步驟如下:
(1) 抽取中文維基模板頁(yè)面中的所有人物Infobox模板http://zh.wikipedia.org/wiki/Category:人物信息框模板,并對(duì)各個(gè)模板在所有維基頁(yè)面中的出現(xiàn)頻次進(jìn)行統(tǒng)計(jì),選取頻次最高的50個(gè)模板;
(2) 人工標(biāo)注各個(gè)Infobox模板中表達(dá)預(yù)定義實(shí)體關(guān)系的屬性名稱,將Infobox模板和屬性名稱加入對(duì)應(yīng)的實(shí)體關(guān)系中,如將“Infobox Officeholder”中的屬性“畢業(yè)院?!碧砑又痢澳感!标P(guān)系;
(3) 在所有維基頁(yè)面中提取指定Infobox模板和屬性名稱的屬性值,與當(dāng)前維基條目名稱形成實(shí)體關(guān)系對(duì),并加入對(duì)應(yīng)的實(shí)體關(guān)系中,如將維基條目“阿諾德·施瓦辛格”與正文中屬性“畢業(yè)院?!睂?duì)應(yīng)的屬性值“威斯康辛大學(xué)蘇必略分?!毙纬蓪?shí)體關(guān)系對(duì),加入“母?!标P(guān)系;
(4) 在維基中抽取包含上述實(shí)體對(duì)的所有句子,并粗略地認(rèn)為所有的句子都表達(dá)了該實(shí)體對(duì)對(duì)應(yīng)的實(shí)體關(guān)系,并將其作為實(shí)體關(guān)系標(biāo)注語(yǔ)料。
實(shí)驗(yàn)選取出現(xiàn)頻次高且數(shù)據(jù)豐富的四類實(shí)體關(guān)系作為測(cè)試對(duì)象,分別是:配偶、母校、雇傭、國(guó)籍。數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)特征如表1所示。
表1 實(shí)體關(guān)系語(yǔ)料的數(shù)據(jù)統(tǒng)計(jì)
本文實(shí)驗(yàn)采用NLPIR/ICTCLAS漢語(yǔ)分詞系統(tǒng)2014版http://ictclas.nlpir.org/對(duì)數(shù)據(jù)進(jìn)行中文分詞,并去除停用詞,保留名詞、動(dòng)詞和形容詞。采用斯坦福大學(xué)自然語(yǔ)言處理組提供的開源工具Stanford Parser version .3.1 http://nlp.stanford.edu/software/lex-parser.shtml對(duì)數(shù)據(jù)進(jìn)行依存句法分析。
3.2實(shí)驗(yàn)結(jié)果及其分析
以往的實(shí)體關(guān)系觸發(fā)詞詞典構(gòu)建需要大量的人工參與,費(fèi)時(shí)費(fèi)力且局限于特定關(guān)系類型。本文的方法是無(wú)監(jiān)督的,對(duì)各種關(guān)系類型具有通用性。為驗(yàn)證本文提出的基于HDP和依存句法分析的實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法的性能,本文構(gòu)建了System-1、System-2和System-3,具體如下:
System-1:僅采用依存句法分析構(gòu)建觸發(fā)詞詞典;
System-2:僅通過(guò)主題模型構(gòu)建觸發(fā)詞詞典;
System-3:采用基于主題模型和依存句法分析相結(jié)合的方法構(gòu)建觸發(fā)詞詞典。
評(píng)價(jià)機(jī)制:(1) 在相同的關(guān)系語(yǔ)料集上人工構(gòu)建實(shí)體關(guān)系觸發(fā)詞詞典,將本節(jié)方法獲得的觸發(fā)詞詞典與之比較,通過(guò)計(jì)算準(zhǔn)確率進(jìn)行評(píng)價(jià)。(2) 采用信息檢索中的常用評(píng)價(jià)指標(biāo)AP值比較觸發(fā)詞抽取算法的性能。
從表2實(shí)體關(guān)系觸發(fā)詞抽取的實(shí)驗(yàn)結(jié)果可以看出,基于主題模型和依存句法分析相結(jié)合的方法性能明顯優(yōu)于其他兩種方法?;谝来婢浞ǚ治龅姆椒ㄐЧ^差,原因在于與實(shí)體對(duì)存在依存關(guān)系的詞語(yǔ)較多,因此噪聲也較多?;谥黝}模型的方法假設(shè)觸發(fā)詞在主題中具有較大權(quán)重,其利用關(guān)系語(yǔ)料中隱含的統(tǒng)計(jì)特性,通過(guò)挖掘隱含主題識(shí)別觸發(fā)詞。實(shí)驗(yàn)證明該方法優(yōu)于基于依存句法分析的方法,證明該假設(shè)有一定的合理性。基于主題模型和依存句法分析相結(jié)合的方法與前兩者相比具有更好的效果,說(shuō)明觸發(fā)詞一般在主題中具有較大權(quán)重,同時(shí)與實(shí)體對(duì)之間也存在依存關(guān)系,證明了本文方法的有效性。
表2 不同方法構(gòu)建的觸發(fā)詞詞典準(zhǔn)確率比較
另外,不同關(guān)系類型的準(zhǔn)確率具有一定差異,主要原因有:(1) 數(shù)據(jù)集中不同關(guān)系類型的語(yǔ)料句子數(shù)目不同,數(shù)據(jù)集不平衡;(2) 有些實(shí)體關(guān)系的觸發(fā)詞比較明確,例如“配偶”關(guān)系的觸發(fā)詞通常是“結(jié)婚”、“夫人”、“夫婦”、“娶”等意義明顯的詞,而有些關(guān)系的觸發(fā)詞比較隱晦,而且在不同領(lǐng)域差異較大,例如娛樂領(lǐng)域的“雇傭”關(guān)系觸發(fā)詞通常為“藝人”、“歌手”等,在體育領(lǐng)域通常出現(xiàn)的則為“租借”、“主教練”等。
為進(jìn)一步比較System-3與System-1、System-2的性能,本文采用信息檢索中的AP指標(biāo)判斷所抽取觸發(fā)詞的質(zhì)量好壞,AP指標(biāo)用于評(píng)價(jià)有序檢索結(jié)果的好壞。AP值可以較好地體現(xiàn)一個(gè)抽發(fā)詞抽取算法性能的好壞,如果一個(gè)抽發(fā)詞抽取算法能夠使正確的觸發(fā)詞排名盡量靠前,那么該算法的AP值就比較高。圖5-圖8分別給出了上述三種算法在四種實(shí)體關(guān)系上的AP值大小比較。實(shí)驗(yàn)給出了上述算法所抽取的觸發(fā)詞前10、20、50、100、150、200個(gè)觸發(fā)詞的性能。
圖5 配偶關(guān)系A(chǔ)P值比較
圖6 母校關(guān)系A(chǔ)P值比較
圖7 雇傭關(guān)系A(chǔ)P值比較
圖8 國(guó)籍關(guān)系A(chǔ)P值比較
由圖5-圖8可以看出,采用AP值比較觸發(fā)詞抽取算法的性能時(shí),基于主題模型和依存句法分析相結(jié)合的方法依然具有最佳性能。僅采用依存句法分析與僅利用主題模型的方法或者僅考慮實(shí)體對(duì)的上下文語(yǔ)境信息,或者僅利用關(guān)系語(yǔ)料中詞語(yǔ)的共現(xiàn)信息識(shí)別觸發(fā)詞,性能均比較差。而將兩者相結(jié)合的方法避免了各自的缺陷,在各種實(shí)體關(guān)系語(yǔ)料中均提升了性能。另外,采用AP值評(píng)價(jià)觸發(fā)詞抽取算法性能時(shí),基于依存句法分析的方法略優(yōu)于基于主題模型的方法。通過(guò)觀察觸發(fā)詞排序結(jié)果發(fā)現(xiàn)這是因?yàn)榛谝来婢浞ǚ治龅姆椒ㄏ鄬?duì)基于主題模型的方法能將觸發(fā)詞排序提前一些,導(dǎo)致其AP值略高一些。隨著觸發(fā)詞識(shí)別數(shù)目的增多,AP值均呈下降趨勢(shì),只有雇傭關(guān)系例外。經(jīng)過(guò)分析是因?yàn)榇罅坑|發(fā)詞的排序介于20至50之間,使得觸發(fā)詞數(shù)50對(duì)應(yīng)的AP值略有上升。
4結(jié)語(yǔ)
實(shí)體關(guān)系觸發(fā)詞詞典對(duì)實(shí)體關(guān)系抽取具有重要意義。目前,實(shí)體關(guān)系觸發(fā)詞詞典的構(gòu)建大都采用人工構(gòu)建或有監(jiān)督的觸發(fā)詞擴(kuò)展學(xué)習(xí)方法,這兩種方法需要大量的人工參與,并且當(dāng)關(guān)系類型發(fā)生變化時(shí)需要重新進(jìn)行構(gòu)建。本文提出了一種無(wú)監(jiān)督的實(shí)體關(guān)系觸發(fā)詞詞典自動(dòng)構(gòu)建方法。該方法在對(duì)實(shí)體關(guān)系句子實(shí)例進(jìn)行HDP建模后,采用主題過(guò)濾、詞語(yǔ)概率權(quán)重過(guò)濾得到候選觸發(fā)詞集合,然后采用基于依存句法分析的候選觸發(fā)詞集過(guò)濾以得到觸發(fā)詞詞典。實(shí)驗(yàn)結(jié)果表明,該方法能自動(dòng)構(gòu)建各種類型的實(shí)體關(guān)系觸發(fā)詞詞典,并且取得了較高的準(zhǔn)確率。盡管構(gòu)建的觸發(fā)詞詞典具有一定的準(zhǔn)確率,但仍有待提高。一方面,這是因?yàn)楂@得的關(guān)系句子實(shí)例集中存在較多噪聲;另一方面,算法在主題過(guò)濾和概率權(quán)重過(guò)濾過(guò)程中涉及的閾值因子對(duì)過(guò)濾操作具有較大影響。下一步工作:采用合適方法對(duì)關(guān)系句子實(shí)例集進(jìn)行噪聲過(guò)濾;尋找過(guò)濾閾值因子的快速尋優(yōu)方法。
參考文獻(xiàn)
[1] Zhou G,Qian L,Fan J.Tree kernel-based semantic relation extraction with rich syntactic and semantic information[J].Information Sciences,2010,180(8):1313-1325.
[2] Villaverde J,Persson A,Godoy D,et al.Supporting the Discovery and Labeling of Non-taxonomic Relationships in Ontology Learning[J].Expert Systems with Applications,2009,36(7):10288-10294.
[3] 劉克彬,李芳,劉磊,等.基于核函數(shù)中文關(guān)系自動(dòng)抽取系統(tǒng)的實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,2007,44(8):1406-1411.
[4] 孫曉玲,林鴻飛.人際網(wǎng)絡(luò)關(guān)系抽取和結(jié)構(gòu)挖掘[J].微電子學(xué)與計(jì)算機(jī),2008,25(9):233-236.
[5] 王健,吳雨,林鴻飛,等.基于深層句法分析的生物事件觸發(fā)詞抽取[J].計(jì)算機(jī)工程,2014,40(1):25-30.
[6] 馮時(shí),景珊,楊卓,等.基于LDA模型的中文微博話題意見領(lǐng)袖挖掘[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版,2013,34(4):490-494.
[7] Teh Y W,Jordan M I,Beal M J,et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association,2006,101(476):1566-1581.
[8] 段瑞雪,王小捷,孫月萍,等.HDP主題模型的用戶意圖聚類[J].北京郵電大學(xué)學(xué)報(bào),2011,34(S1):55-58.
[9] 周建英,王飛躍,曾大軍.分層Dirichlet過(guò)程及其應(yīng)用綜述[J].自動(dòng)化學(xué)報(bào),2011,37(4):389-407.
[10] Blei D M,Griffiths T L,Jordan M I,et al.Hierarchical Topic Models and the Nested Chinese Restaurant Process[C]//Proceedings of the Conference on Neural Information Processing Systems,2003:16.
[11] 吳佐衍,王宇.基于HNC理論和依存句法的句子相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(3):97-102.
AUTOMATIC CONSTRUCTION OF ENTITY-RELATION TRIGGER WORD DICTIONARY BASED ON UNSUPERVISED METHOD
Liu ShaoyuXi YaoyiLi BichengTang YongwangChen Gang
(SchoolofInformationSystemEngineering,PLAInformationEngineeringUniversity,Zhengzhou450001,Henan,China)
AbstractTraditional construction of entity-relation trigger word dictionary mainly uses artificial or supervised extended learning methods. However, both of the methods require a lot of human involvement, and when the relation type changes, there has the need to rebuild trigger word dictionary. This paper proposes an unsupervised automatic construction method for entity-relation trigger word dictionary. First, we use hierarchical Dirichlet process to model the relation instance document set, and build candidate trigger word set by topics filtration and words probability weight filtration; then we make use of the dependency parsing to filter the candidate trigger word set once again for acquiring final trigger word dictionary. This method effectively avoids the extensive human involvement required by traditional construction of entity-relation trigger word dictionary. Experiments show that the automatic entity-relation trigger dictionary construction method based on hierarchical Dirichlet process and dependency parsing effectively reduces the manual annotation costs and achieves a higher accuracy.
KeywordsEntity-relation trigger word dictionaryHierarchical Dirichlet processDependency parsing
收稿日期:2014-09-08。國(guó)家高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目(2011AA 7032030D);全軍軍事研究生課題(軍事學(xué)YJS1062)。劉紹毓,碩士生,主研領(lǐng)域:實(shí)體關(guān)系抽取。席耀一,博士生。李弼程,教授。唐永旺,碩士。陳剛,講師。
中圖分類號(hào)TP391
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.05.018