周惠巍,楊 歡,黃德根,李 瑤,李麗雙
(大連理工大學 計算機科學與技術(shù)學院,遼寧 大連 116024)
模糊限制語最早是由G. Lakoff提出的,用來指“把一些事情弄得模模糊糊的詞語”,表示的是不確定性和臨時性的觀點[1]。由模糊限制語所引導的信息為模糊限制性信息(Hedge Information)。
統(tǒng)計表明,在線生物醫(yī)學文獻數(shù)據(jù)庫MEDLINE的論文摘要中,11%的句子包含模糊限制信息[2];在用于模糊限制信息檢測研究的BioScope語料庫[3]中,正文中22.29%的句子,和摘要中17.69%的句子包含模糊限制信息。在Medlock和Briscoe標注的語料中,32.41%的基因名出現(xiàn)在模糊性的句子中[4]。在生物醫(yī)學領(lǐng)域進行模糊限制信息檢測,能提高抽取信息的可靠性和真實性。
近年來,模糊限制信息檢測引起了國內(nèi)外研究人員的廣泛關(guān)注,國際計算語言學協(xié)會將模糊限制性句子識別和模糊限制信息范圍檢測定為2010年CoNLL(Conference on Computational Natural Language Learning) 共享任務(wù)[5]。共享任務(wù)包含生物醫(yī)學和維基百科兩個領(lǐng)域,其中生物醫(yī)學領(lǐng)域訓練語料源自BioScope語料庫[3]。BioScope語料庫對模糊限制語及其范圍進行了標注,如例句(1),模糊限制語“appear”的模糊限制范圍為“the Ras/Raf/ERK pathway did not appear to mediate the effect of the antioxidant”?;贐ioScope的模糊限制性句子識別研究已經(jīng)取得了一定的進展,由模糊限制語所引導的模糊限制信息范圍檢測仍然是一個難點。目前模糊限制信息范圍檢測方法主要有基于規(guī)則的方法、基于統(tǒng)計的方法和基于規(guī)則和統(tǒng)計相結(jié)合的方法。
例句(1)Transfection of trans-dominant negative expression vectors of ras and raf, together with AP-1-dependent reporter constructs, as well as Western blot analysis using anti-ERK (extracellular signal-regulated kinase) antibodies, indicated that
模糊限制信息范圍是由模糊限制語引導的具有一定語義的連續(xù)字符串,往往是句法結(jié)構(gòu)上與模糊限制語相關(guān)的一個短語或一個從句。因此,基于規(guī)則和基于統(tǒng)計的方法都利用了句法結(jié)構(gòu)樹?;谝?guī)則的方法是根據(jù)模糊限制語的詞性及句子的短語結(jié)構(gòu)或依存結(jié)構(gòu)制定模糊限制信息范圍檢測規(guī)則[6-7]?;诮y(tǒng)計的方法往往將句法結(jié)構(gòu)信息平面化,用于模糊限制信息范圍檢測[8-9]。Morante等[8]基于依存結(jié)構(gòu)特征確定模糊限制信息范圍,在CoNLL-2010測試集上取得了57.32%的F值,獲得了模糊限制信息范圍評測的第一名。為減少結(jié)構(gòu)信息平面化產(chǎn)生的數(shù)據(jù)稀疏問題,Zhou等[10]研究了模糊限制信息范圍的結(jié)構(gòu)化表達方法,定義了最短路徑包含樹等多種短語結(jié)構(gòu)特征,并與平面特征相結(jié)合,采用樹核和多項式核的復合核方法,在CoNLL-2010測試集上取得57.47%的F值。為實現(xiàn)規(guī)則方法和統(tǒng)計方法的優(yōu)勢互補,Rei和Briscoe[11]提出了基于規(guī)則和統(tǒng)計相結(jié)合的方法,將基于規(guī)則的檢測結(jié)果作為特征引入基于統(tǒng)計的檢測模型,取得了55.6%的F值,在模糊限制信息范圍檢測任務(wù)中獲得了第二名。Velldal等[12]分別構(gòu)建了基于依存結(jié)構(gòu)的規(guī)則子系統(tǒng)和基于短語結(jié)構(gòu)的統(tǒng)計子系統(tǒng),并通過融合兩個子系統(tǒng),實現(xiàn)規(guī)則方法和統(tǒng)計方法的結(jié)合,在標準的模糊限制語標注語料上獲得69.60%的F值?;诰浞ńY(jié)構(gòu)規(guī)則的模糊限制信息范圍檢測系統(tǒng)缺乏靈活性,而基于句法結(jié)構(gòu)特征的統(tǒng)計系統(tǒng)不但需要進行繁瑣而艱苦的特征選擇,而且容易產(chǎn)生數(shù)據(jù)稀疏問題,難以挖掘有效的句法結(jié)構(gòu)信息。
本文提出一種基于句法結(jié)構(gòu)約束的模糊限制信息范圍檢測方法。首先利用依存結(jié)構(gòu)和短語結(jié)構(gòu)構(gòu)建決策樹模型,獲取句法結(jié)構(gòu)約束集,然后基于句法結(jié)構(gòu)約束集產(chǎn)生句法結(jié)構(gòu)約束特征,用于模糊限制信息范圍檢測。本文中使用的句法結(jié)構(gòu)約束集是由決策樹算法自動產(chǎn)生的,比人工制定規(guī)則更具靈活性和準確性,有效地將依存結(jié)構(gòu)和短語結(jié)構(gòu)信息用于模糊限制范圍檢測,提高了模糊限制信息范圍檢測性能。
2.1 系統(tǒng)概述 模糊限制信息范圍檢測問題可以轉(zhuǎn)化為序列標注問題,即F-scope表示模糊限制信息序列的第一個詞,L-scope 表示模糊限制信息序列的最后一個詞,而NONE表示其他詞?;诰浞ńY(jié)構(gòu)約束的檢測模型訓練過程如圖1所示,包括句法結(jié)構(gòu)約束集生成和模糊限制信息范圍檢測模型生成兩個部分。句法結(jié)構(gòu)約束集生成部分基于訓練語料的短語結(jié)構(gòu)和依存結(jié)構(gòu),利用決策樹算法分別訓練獲得兩個決策樹,產(chǎn)生基于短語結(jié)構(gòu)和依存結(jié)構(gòu)的句法約束集。模糊限制信息范圍檢測模型生成部分基于句法結(jié)構(gòu)約束集獲得模糊限制信息范圍檢測結(jié)果,作為句法約束特征,與基本特征共同訓練獲得基于句法結(jié)構(gòu)約束的CRF檢測系統(tǒng)?;诰浞s束的模糊限制信息范圍檢測過程與訓練過程相似,只是無需訓練獲得決策樹,直接基于句法約束集即可獲得句法約束特征,用于模糊限制信息范圍檢測。
圖1 句法結(jié)構(gòu)約束檢測模型的訓練過程
2.2基本特征
有的句子包含多個模糊限制語,每個模糊限制語對應一段模糊限制范圍,一段模糊限制信息可能是另一段模糊限制信息的子串,模糊限制信息范圍存在嵌套關(guān)系。為明確界定每個模糊限制語的限制范圍,我們把句子按照模糊限制語的數(shù)量進行復制,使得每個句子有且只有一個模糊限制語(包含單個詞模糊限制語和多詞短語模糊限制語),再進行訓練和檢測。
CRF模型是一種判別式的序列標注模型,在模糊限制信息范圍檢測任務(wù)中得到廣泛使用,本文采用CRF模型標注模糊限制信息范圍,選取的基本特征包括:
? 單詞特征:word(i)(i=-3,-2,-1,0,+1,+2,+3)
? 詞干特征:stem(i)(i=-3,-2,-1,0,+1,+2,+3)
? 詞性特征:pos(i)(i=-3,-2,-1,0,+1,+2,+3)
? 組塊特征:chunk(i)(i=-3,-2,-1,0,+1,+2,+3)
? 模糊限制語特征:hedge(i)(i=-3,-2,-1,0,+1,+2,+3),當前句子的模糊限制語作為模糊限制信息范圍檢測的重要特征,模糊限制語采用IOB2標注模式。
? 模糊限制語詞干鏈特征:hedgeStem(i)(i=-3,-2,-1,0,+1,+2,+3)
? 模糊限制語詞性鏈特征:hedgePos(i)(i=-3,-2,-1,0,+1,+2,+3)
? 當前詞與模糊限制語的距離:DH(i)(i=-3,-2,-1,0,+1,+2,+3),從當前詞到模糊限制語的單詞個數(shù)。
為比較句法結(jié)構(gòu)約束與常用的句法特征的區(qū)別,實驗中我們分別引入依存結(jié)構(gòu)和短語結(jié)構(gòu)兩種句法結(jié)構(gòu)特征如下:
? 依存標記特征:dependencyRel(i)(i=-3,-2,-1,0,+1,+2,+3)
? 短語路徑特征:hedgePath(i)(i=-2,-1,0,+1,+2),當前詞到模糊限制語的短語路徑。
2.3句法結(jié)構(gòu)約束特征
決策樹方法[13]能夠從訓練實例中歸納出一組樹形結(jié)構(gòu)表示的分類規(guī)則,分類時基于樹形分類規(guī)則從根節(jié)點逐步對樣本屬性進行測試,沿著相應的分支向下走,直至某個葉子節(jié)點,該葉子節(jié)點即為樣本類型。決策樹方法廣泛用于自然語言處理任務(wù),并取得了較好的分類效果[14-15],屬性選擇是利用決策樹算法進行分類的關(guān)鍵。
模糊限制語的限制范圍與模糊限制語本身具有很大關(guān)系,因此我們選取了模糊限制語屬性。除此之外,分別選取短語樹屬性和依存結(jié)構(gòu)樹屬性構(gòu)建短語結(jié)構(gòu)決策樹和依存結(jié)構(gòu)決策樹。以例句(1)為例,分別介紹各類屬性。假設(shè)當前詞為“mediate”,Y表示“是”,N表示“不是”,L表示“在左邊界上”、R表示“在右邊界上”、I表示“不在邊界上,但在邊界內(nèi)”、O表示“在邊界外”。
(1) 模糊限制語屬性
? 模糊限制語是否是單個詞: 此例為“Y”。
? 模糊限制語是單個詞時的詞性: 此例為“VB”。
? 模糊限制語是多詞時首詞的詞性: 此例為“NULL”。
? 模糊限制語是多詞時尾詞的詞性: 此例為“NULL”。
(2) 短語結(jié)構(gòu)屬性
例句(1)的短語結(jié)構(gòu)樹片段如圖2所示,其中“appear”是模糊限制語,“the”是模糊限制信息范圍的左邊界,“antioxidant”是模糊限制信息范圍的右邊界。
? 當前詞是否是模糊限制語的首詞: 此例為“N”。
? 當前詞是否在短語句法成分的邊界上: “mediate”在“VP81”短語的左邊界上,此例為“L”。
? 模糊限制語父親節(jié)點的短語類型: 此例為“VP”。
? 當前詞是否在以模糊限制語的父親節(jié)點為根的子樹內(nèi): 此例為“Y”。
? 模糊限制語和當前詞的最小包含樹的短語類型: 此例中最小包含樹為“VP56”,因此屬性值為“VP”。
? 模糊限制語和當前詞的最小包含樹的根節(jié)點與其父親節(jié)點是否具有相同的短語類型: 此例中最小包含樹的根節(jié)點“VP56”與其父親節(jié)點“VP42”短語類型相同,因此屬性值為“Y”。
圖2 例句(1)的短語結(jié)構(gòu)片段
(3) 依存樹屬性
圖3為例句(1)的依存樹片段,W表示單詞,R表示依存關(guān)系標記,“[]”中的為詞性。
? 當前詞是否是模糊限制語的首詞: 此例為“N”。
圖3 例句(1)的依存樹片段
? 模糊限制語的依存關(guān)系類型: 此例為“VC”。
? 當前詞是否在以模糊限制語為根的子樹的邊界上: 此例為“I”。
? 模糊限制語是否是依存樹的根節(jié)點: 此例為“N”。
? 模糊限制語的父親節(jié)點的依存關(guān)系標記: 此例為“SBAR”。
? 當前詞是否在以模糊限制語的父親節(jié)點為根的子樹的左右邊界上: 此例為“I”。
基于模糊限制語屬性和短語結(jié)構(gòu)屬性訓練獲得短語結(jié)構(gòu)決策樹,基于模糊限制語屬性和依存樹屬性訓練獲得依存結(jié)構(gòu)決策樹。選取短語結(jié)構(gòu)決策樹和依存結(jié)構(gòu)樹中準確率較高的決策規(guī)則,構(gòu)建短語結(jié)構(gòu)約束集和依存結(jié)構(gòu)約束集。應用短語結(jié)構(gòu)約束集和依存結(jié)構(gòu)約束集檢測句子的模糊限制信息范圍,將其檢測結(jié)果作為短語結(jié)構(gòu)約束特征和依存結(jié)構(gòu)約束特征用于CRF檢測系統(tǒng),提高系統(tǒng)檢測性能。短語結(jié)構(gòu)約束特征和依存結(jié)構(gòu)約束特征分別為:
? 短語結(jié)構(gòu)約束特征:phraseCh(i)(i=-3,-2,-1,0,+1,+2,+3),特征值為基于短語結(jié)構(gòu)約束集的規(guī)則檢測結(jié)果。
? 依存結(jié)構(gòu)約束特征:dependencyCh(i)(i=-3,-2,-1,0,+1,+2,+3),特征值為基于依存結(jié)構(gòu)約束集的規(guī)則檢測結(jié)果。
3.1實驗設(shè)置 本文僅研究模糊限制信息范圍檢測任務(wù),因此采用標準標注的模糊限制語評測模糊限制信息范圍檢測性能。實驗采用CoNLL-2010共享任務(wù)2語料,訓練語料包含有3327個模糊限制語,存在于2620個模糊性句子中;測試語料包含1033個模糊限制語,存在于790個模糊限制性句子中。在預處理中,使用GENIA Tagger*Available at http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/tagger/工具包獲得詞干、詞性和組塊信息;分別使用依存關(guān)系解析器GDep Parser*Available at http://people.ict.usc.edu/~sagae/parser/gdep/和短語結(jié)構(gòu)解析器Berkeley Parser*Available at http://code.google.com/p/berkeleyparser/解析句子,獲得依存結(jié)構(gòu)樹和短語結(jié)構(gòu)樹。采用C4.5R8*Available at http://www2.cs.uregina.ca/~dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html工具包來構(gòu)建決策樹,CRF模型使用CRF++-0.54*Available at http://crfpp.googlecode.com/svn/trunk/doc/index.html工具包獲得。模糊限制信息范圍是一段連續(xù)的字符串,然而,分類器的輸出結(jié)果不能保證只識別出一個左邊界和一個右邊界。因此,分類器的輸出必須經(jīng)過處理才能得到完整的模糊限制信息范圍。實驗采用文獻[10]的后處理算法。模糊限制信息范圍采用CoNLL-2010共享任務(wù)組織者提供的評測工具進行評測,包括召回率、準確率和F值三個評價指標。因采用正確標注的模糊限制語進行測試,所以召回率等于準確率,也等于F值,在此僅表示F值。
3.2實驗結(jié)果及分析
實驗時,我們首先建立一個基于基本特征的系統(tǒng),稱為基礎(chǔ)系統(tǒng);然后分別把依存標記特征和短語路徑特征加入基礎(chǔ)系統(tǒng),得到普通的句法結(jié)構(gòu)特征對系統(tǒng)性能的影響,如表1所示。由實驗結(jié)果可以看出,短語路徑特征和依存標記特征對系統(tǒng)檢測性能均有提高,短語路徑特征比依存標記特征更有效。
表1 普通的句法結(jié)構(gòu)特征對系統(tǒng)檢測性能的影響
選取短語結(jié)構(gòu)決策樹和依存結(jié)構(gòu)樹中準確率較高的決策規(guī)則,構(gòu)建短語結(jié)構(gòu)約束集和依存結(jié)構(gòu)約束集。
由C4.5決策樹生成的每條規(guī)則都有一個準確率來反映這個規(guī)則的準確程度,實驗設(shè)定一個規(guī)則準確率閾值p,選取具有一定準確率的決策規(guī)則,構(gòu)建句法結(jié)構(gòu)約束集,檢測具有不同可靠性的句法約束規(guī)則對模糊限制信息檢測性能的影響。
分別把依存結(jié)構(gòu)約束特征和短語結(jié)構(gòu)約束特征加入到基礎(chǔ)系統(tǒng)中,得到句法結(jié)構(gòu)約束特征對系統(tǒng)性能的影響,如表2所示。短語約束特征均取得了與短語路徑特征相當?shù)臋z測效果,當閾值p為60%和70%時,檢測性能高于短語路徑特征。依存約束特征對檢測系統(tǒng)性能的提高均較明顯,其對系統(tǒng)檢測性能的提高遠遠高于依存標記特征。兩種句法結(jié)構(gòu)約束共同作用時,系統(tǒng)性能進一步提高。這說明模糊限制信息范圍檢測系統(tǒng)對短語結(jié)構(gòu)和依存結(jié)構(gòu)均具有依賴性,且對依存結(jié)構(gòu)的依賴較強。最后將句法結(jié)構(gòu)特征與約束特征都加入基本系統(tǒng)中,最高可達到70.28%的F值,比基礎(chǔ)系統(tǒng)提高7.2%。閾值p在30%到85%的廣泛范圍內(nèi),基于句法結(jié)構(gòu)約束方法的檢測性能,均明顯優(yōu)于普通的基于句法結(jié)構(gòu)特征的方法。因此,本文方法對于未知的數(shù)據(jù),具有較強的魯棒性。
表2 句法結(jié)構(gòu)約束特征對系統(tǒng)檢測性能的影響
單純基于句法約束規(guī)則的檢測結(jié)果如表3所示,由檢測結(jié)果可以看出,基于決策樹方法獲得的句法結(jié)構(gòu)約束規(guī)則具有較好的檢測效果,因此將其檢測結(jié)果作為特征用于CRF檢測模型取得了更好的檢測性能。
表3 基于句法結(jié)構(gòu)約束規(guī)則的檢測結(jié)果
表4為本文方法的檢測結(jié)果與Rei和Briscoe[11]、Velldal等[12]方法的對比。Rei和Briscoe的系統(tǒng)是CoNLL-2010共享評測排名第二的系統(tǒng),排名第一的系統(tǒng)沒有公布在標準的模糊限制語標注語料上的模糊限制信息范圍檢測結(jié)果。
表4 與其他系統(tǒng)的比較
本文系統(tǒng)F值比Rei和Briscoe[11]高3.98%,比Velldal等[12]結(jié)果略高。本文通過構(gòu)建決策樹自動產(chǎn)生約束規(guī)則,理論上比Velldal等[12]人工制定的規(guī)則更具有適應性。
本文提出了一種基于句法結(jié)構(gòu)約束的模糊限制信息范圍檢測方法。采用決策樹算法分別學習獲得短語結(jié)構(gòu)決策樹和依存結(jié)構(gòu)決策樹,選取具有一定精確度的決策規(guī)則構(gòu)建句法結(jié)構(gòu)約束集,用于產(chǎn)生句法結(jié)構(gòu)約束特征,并加入到CRF模型中進行模糊限制信息范圍檢測。相比于傳統(tǒng)的基于句法結(jié)構(gòu)特征的檢測模型,本文方法利用決策樹模型學習獲得有效的模糊限制信息范圍檢測規(guī)則,輔助模糊限制信息范圍檢測,有效地提高了系統(tǒng)檢測性能。應用決策樹算法構(gòu)建檢測規(guī)則時,僅需進行屬性選擇,相對于人工制定規(guī)則的方法,處理相對簡單,并具有較強的適應性和魯棒性。本文僅研究了基于不同準確率的決策規(guī)則對檢測性能的影響,如何挖掘決策規(guī)則間的相互關(guān)系,分別將不同的決策規(guī)則用于句法結(jié)構(gòu)特征的生成和對分類器輸出進行后續(xù)處理,將是本文下一步主要研究工作之一。
[1] George L. Hedges: a study in meaning criteria and the logic of fuzzy concepts [J]. Journal of Philosophical Logic, 1973, 2(4): 458-508.
[2] Marc L, Qiu X Y, Pandmini S. The language of bioscience: facts, speculations, and statements in between[C]//Proceedings of the BioLINK, Boston, 2004, 17-24.
[3] Szarvas G, Vincze V, Farkas R, et al. The BioScope corpus: biomedical texts annotated for uncertainty, negation and their scopes [J]. BMC Bioinformatics, 2008, 9(11): S9.
[4] Medlock B, Briscoe T. Weakly supervised learning for hedge classification in scientific iterature[C]//Proceedings of ACL, the 45th Annual Meeting of the Association of Computational Linguistics, 2007, 992-999.
[5] Farkas R, Vincze V, Móra G, et al. The CoNLL 2010 Shared Task: Learning to detect hedges and their scope in natural language text [C]//Proceedings of the CoNLL, Uppsala, Sweden, 2010, 1-12.
[6] ?zgür A, Radev D R. Detecting speculations and their scopes in scientific text[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Singapore, August, Association for Computational Linguistics. 2009: 1398-1407.
[7] Velldal E, Ovrelid L, Oepen S. Resolving speculation: MaxEnt cue classification and dependency-based scope rules[C]//Proceedings of the CoNLL, Uppsala, Sweden, 2010, 48-55.
[8] Morante R, Asch V V, Daelemans W. Memory-based resolution of In-Sentence scopes of hedge cues[C]//Proceedings of the CoNLL, Uppsala, Sweden, 2010: 40-47.
[9] Qiaoming Zhu, Junhui Li, Hongling Wang, et al. A unified framework for scope learning via simplified shallow semantic parsing[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010:714-724.
[10] Huiwei Zhou, Degen Huang, Xiaoyan Li, et al. Combining Structured and Flat Features by a Composite Kernel to Detect Hedges Scope in Biological Texts [J]. Chinese Journal of Electronics, 2011, 20(3): 476-482.
[11] Rei M, Briscoe T. Combining manual rules and supervised learning for hedge cue and scope detection[C]//Proceddings of the CoNLL, Uppsala, Sweden, 2010, 56-63.
[12] Velldal E, ?vrelid L, Read J, et al. Speculation and Negation: Rules, Rankers, and the Role of Syntax [J]. Association for Computational Linguistics, 2012, 38(2): 369-410.
[13] Quinlan J R. C4.5: Programs for Machine Learning [M]. San Mateo, CA: Morgan Kaufman, 1993.
[14] 劉玲玲, 梁穎紅, 張永剛, 等. 基于決策樹的關(guān)鍵短語抽取[J]. 江南大學學報, 2010, 9(1): 71-74.
[15] 徐鵬, 林森. 基于C4.5決策樹的流量分類方法[J]. 軟件學報, 2009, 20(10): 2692-2704.