摘 要:對于一條給定的句子,目標(biāo)詞識別就是識別出句子中能夠激起語義場景的目標(biāo)詞。針對目標(biāo)詞識別中的特征選擇問題,本文把目標(biāo)詞識別任務(wù)看作是一個分類問題,在傳統(tǒng)的詞法特征和上下文特征基礎(chǔ)上,加入了句法結(jié)構(gòu)特征設(shè)計特征模板,識別句子中的目標(biāo)詞。在漢語框架網(wǎng)的標(biāo)注語料集上進行測試,實驗結(jié)果表明,相比于傳統(tǒng)的詞特征,基于句法結(jié)構(gòu)分析的目標(biāo)詞識別率有顯著地提升。
關(guān)鍵詞:框架語義分析;目標(biāo)詞識別;句法結(jié)構(gòu)分析;漢語框架網(wǎng)
中圖分類號:TP391 文獻標(biāo)識碼:A
1 引言(Introduction)
框架語義分析的任務(wù)是從語義角度,在給定的文本中自動地識別目標(biāo)詞,為目標(biāo)詞分配框架,如果分配時有歧義,進行框架排歧,最終識別出框架中的論元,為論元標(biāo)注語義角色。在整個任務(wù)中,首要解決的就是目標(biāo)詞的識別任務(wù)。例如,文本“根據(jù)周恩來的指示,賀龍等繞道香港去上海尋找黨中央。”的框架語義分析結(jié)果如圖1所示。要得到這個分析結(jié)果,首先要識別出文本的目標(biāo)詞“去”和“尋找”。
近年來,越來越多的學(xué)者關(guān)注框架語義分析在某些特定領(lǐng)域的應(yīng)用[1-3]。目前,與目標(biāo)詞識別任務(wù)相關(guān)的研究,主要有目標(biāo)詞擴展和目標(biāo)詞識別兩方面的工作。針對目標(biāo)詞擴展,Jahansson[4]與Das等[5]認(rèn)為待識別的目標(biāo)詞包含在例句和訓(xùn)練集詞表中,利用規(guī)則篩選目標(biāo)詞。文獻分別利用WordNet和SIM[6]詞典,識別和收集語義近似的目標(biāo)詞,實現(xiàn)目標(biāo)詞的擴展。針對目標(biāo)詞識別,文獻[7]使用基于規(guī)則的目標(biāo)詞過濾方法進行判定,若判定為非目標(biāo)詞,利用基于監(jiān)督學(xué)習(xí)的方法予以修正。文獻[8]利用分類模型,在特征模板中加入同義詞詞林編碼信息來識別句子中的核心目標(biāo)詞,但同義詞詞林信息的加入會導(dǎo)致識別性能下降。在上述文獻中,大多數(shù)是把句子中與目標(biāo)詞相近的詞都作為特征來進行分類,而沒有考慮到句子結(jié)構(gòu)特征對目標(biāo)詞識別的影響。事實上,句子中的很多詞對目標(biāo)詞識別并沒有幫助,反而會給目標(biāo)詞識別帶來噪音,如何合適地選擇句子中的某些詞作為分類特征是目標(biāo)詞識別的一個研究重點。
本文利用句法結(jié)構(gòu)來抽取目標(biāo)詞識別的特征,結(jié)合分類模型,提出了如何選擇句子中合適的詞語作為特征的方法。這種方法利用句法依存分析的結(jié)果,分析句子中各個詞之間的依存關(guān)系和關(guān)系類型,去掉那些對目標(biāo)詞識別沒有作用的詞語,選擇句子中關(guān)鍵的詞作為特征來進行識別目標(biāo)詞。
2 目標(biāo)詞識別模型(Target word identification model)
2.1 目標(biāo)詞識別任務(wù)形式化描述
對于一個待識別的文本,其中,表示文本中詞的個數(shù)。目標(biāo)詞識別,首先要識別出句子中的詞元,表示中的詞元個數(shù)。然后,在詞元中識別出目標(biāo)詞,表示中的目標(biāo)詞個數(shù)。
則目標(biāo)詞識別任務(wù),可形式化地描述為
2.2 基本概念
框架[8]:框架是指與一些激活性語境相一致的結(jié)構(gòu)化范疇系統(tǒng),它是儲存在人類認(rèn)知經(jīng)驗中的圖式化情境,是理解詞語的背景和動因。
詞元:在框架語義學(xué)中,詞通常被稱作為詞元。
目標(biāo)詞[8]:當(dāng)詞元在句子中能夠激起語義場景時,被稱為目標(biāo)詞。在一條包含多個目標(biāo)詞的句子中,如果某個目標(biāo)詞激起的框架及其在句中所支配的框架元素依存項相比其他框架更能完整表達該句的核心語義,該目標(biāo)詞即為核心目標(biāo)詞。
2.3 特征抽取
本文將目標(biāo)詞識別任務(wù)看作是一個分類問題。解決分類問題最重要的兩部分內(nèi)容是特征選擇和模型的選擇,本節(jié)重點介紹目標(biāo)詞識別任務(wù)中特征的選擇。本文利用句法結(jié)構(gòu)來提取目標(biāo)詞識別任務(wù)中的分類特征,以依存句法分析的結(jié)果為基礎(chǔ),分析句子中與目標(biāo)詞存在依存關(guān)系的詞,去掉句子中有噪音影響的詞,從而提高識別的性能。
句子特征提取方法分為三步:
第一步,查找句子中的目標(biāo)詞。這一步主要是在詞元庫中抽取所有的詞元構(gòu)成候選詞元列表。針對一條輸入的句子中,句子經(jīng)分詞后,句子中的詞逐個在候選詞元列表中進行匹配,若匹配成功,則標(biāo)記為目標(biāo)詞。
第二步,對句子進行句法分析,得到依存弧和關(guān)系類型。本文對句子句法分析利用依存句法分析工具,句子經(jīng)依存句法分析后,可得到句子中各個詞之間的依存關(guān)系和依存弧。
第三步,提取句子主干作為分類特征。以目標(biāo)詞為核心,在句子中抽取與目標(biāo)詞相關(guān)的句子主干特征,主要抽取的是句子中的主語、謂語和賓語成分。
針對目標(biāo)詞識別任務(wù),本文抽取句子的詞法特征、上下文特征和句法特征。
(1)詞法特征。詞法特征主要抽取的是當(dāng)前詞的詞性、詞。
(2)上下文特征。主要考慮的是詞語搭配對目標(biāo)詞識別的影響,一般考查的是在位置上與目標(biāo)詞相近的詞。
(3)句法特征。句法特征抽取的是句子主干及其附屬成分。句子主干抽取的是句子的主謂賓。主語成分抽取的是句子中依存關(guān)系標(biāo)記為SBV的詞,謂語成分抽取的是句子中依存關(guān)系為VOB的詞。
例如,句子“這里四周有冰山阻隔,海上白霧茫茫,絕不會被人發(fā)現(xiàn)?!笔褂镁浞ǚ治龊蟮囊来骊P(guān)系圖如圖2所示。
目標(biāo)詞識別就是識別出這個句子中的目標(biāo)詞“阻隔”,具體的特征值如表1所示。
3 實驗(Experiment)
3.1 數(shù)據(jù)來源
實驗語料來源于漢語框架網(wǎng)[9]中的例句庫。本文選取漢語框架網(wǎng)例句庫中30個常用框架的例句進行實驗,共包含2542條句子和2813個目標(biāo)詞。
3.2 評價指標(biāo)
本文采用準(zhǔn)確率P(Precision)和Avg_P平均準(zhǔn)確率評價目標(biāo)詞的識別性能。為了避免實驗過程中由語料規(guī)模小引起的過擬合問題,采用3折交叉驗證進行實驗。
其中,在式(1)中A表示正確識別的核心目標(biāo)詞個數(shù),B表示識別到的所有核心目標(biāo)詞個數(shù),C表示實驗的句子總數(shù)。在式(2)中,Pi表示使用第i份語料得到的準(zhǔn)確率。由于基于分類模型的核心目標(biāo)詞識別實驗中,采用3折交叉驗證,因此n的取值為3。
3.3 實驗結(jié)果
本文將目標(biāo)詞識別看作是一個分類問題,采用最大熵模型進行實驗。本節(jié)實驗用張樂的最大熵工具包[9]和表2中的特征模板進行目標(biāo)詞識別。特種模板中特征的抽取使用的是哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心的語言處理集成平臺LTP[10]。
為了驗證窗口大小和最大熵模型的迭代次數(shù)對核心目標(biāo)詞識別性能的影響,使用表2中的T1模板,窗口大小分別設(shè)置為[-1,1]、[-2,2]和[-3,3],迭代次數(shù)設(shè)置范圍為[50,500],相鄰迭代次數(shù)相差50,并與工具包中的默認(rèn)參數(shù)30做對比。具體的結(jié)果如圖3所示。
從圖3中可以看出,窗口大小為[-1,1]的時候識別性能最好,且迭代次數(shù)為100的時候,實驗結(jié)果基本趨于穩(wěn)定。因此,在后續(xù)的實驗中,窗口大小設(shè)定為[-1,1],最大熵模型的迭代次數(shù)設(shè)定為100。
上述實驗證明,采用句法結(jié)構(gòu)分析的方法抽取句子特征,能夠達到較高的識別率。但由于采用的訓(xùn)練語料比較小,限制了模型的性能。同時,從實驗結(jié)果可以看出,系統(tǒng)對于單一的主干成分,如句子的主語,識別的效果不是很好,主要原因是單一的句子主干成分不能完整地表示整個句子的語義。
4 結(jié)論(Conclusion)
利用句法結(jié)構(gòu)分析得到的特征識別句子中的目標(biāo)詞,實驗證明是有效可行的。在訓(xùn)練語料較小的情況下,模型取得了比較高的識別準(zhǔn)確率。由于單個主干成分在句子中起到的作用不大,因此識別性能不顯著。當(dāng)主干成分與基本特征組合識別目標(biāo)詞時,句子主干能較完整地表示整個句子的語義,因此識別效果較好。在以后的研究中,將不斷地擴充質(zhì)量較高的語料,改善數(shù)據(jù)稀疏,豐富例句庫。同時,將嘗試加入語義特征,提升目標(biāo)詞識別的性能。
參考文獻(References)
[1] Dipanjan Das,Desai Chen.Frame-Semantic Parsing[J].Computational Linguistics,2014,40(1):9-56.
[2] A Lakhfif,MT Laskri.A Frame-Based Approach for Capturing Semantics from Arabic Text for Text-to-Sign Language MT[J].International Journal of Speech Technology,2016,19(2):1-26.
[3] AO Bayer,G Riccadri.Semantic Language Models with Deep Neural Networks[J].Computer Speech & Language,2016,40:1-22.
[4] RICHARD Johansson,PIERRE Nugues.LTH:Semantic Structure Extraction Using Nonprojective Dependency Trees[C].Proceedings of the 4th International Workshop on Semantic Evaluation.Stroudsburg:Association for Computational Linguistics,2007:227-230.
[5] DIPANJAN Das,et al.Probabilistic Frame-Semantic Parsing[C].Human Language Technologies:the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg:Association for Computational Linguistics,2010:948-956.
[6] LIN Dekang.Automatic Retrieval and Clustering of Similar Words[C].Proceedings of the 17th International Conference on Computational Linguistics-Volume2.Stroudsburg:Association for Computational Linguistics,1998:768-774.
[7] 陳亞東,等.面向框架語義分析的目標(biāo)詞自動識別方法[J].山東大學(xué)學(xué)報(理學(xué)版),2015(7):45-53.
[8] 石佼,李茹,王智強.漢語核心框架語義分析[J].中文信息學(xué)報,2014(6):48-55.
[9] 劉開瑛.漢語框架語義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J].中文信息學(xué)報,2011(25):46-53.
[10] 張樂.最大熵工具包MaxEnt(2004).http://homepage.inf.ed.ac.uk/s0450736/maxent_toolkit.html.
作者簡介:
張立凡(1987-),女,碩士,助教.研究領(lǐng)域:中文信息處理,人工智能與模式識別.