亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存樹距離識(shí)別論元的語義角色標(biāo)注系統(tǒng)

        2012-06-29 01:55:30穗志方
        中文信息學(xué)報(bào) 2012年2期
        關(guān)鍵詞:論元剪枝語義

        王 鑫,穗志方

        (北京大學(xué) 計(jì)算語言學(xué)研究所,北京 100871)

        1 引言

        語義角色標(biāo)注是淺層語義分析的一種重要手段,基于依存的語義角色標(biāo)注將依存關(guān)系作為基本標(biāo)注單元,對依存關(guān)系識(shí)別出的中心詞進(jìn)行語義角色標(biāo)注。論元識(shí)別和論元分類是標(biāo)注過程中需要解決的主要問題,而且都可以通過兩類方法得以實(shí)現(xiàn),基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法和基于規(guī)則的方法。

        在基于依存的語義角色標(biāo)注研究中,現(xiàn)階段主要的論元識(shí)別方法都是基于機(jī)器學(xué)習(xí)的。本文通過對依存樹中論元節(jié)點(diǎn)的特征分析,發(fā)現(xiàn)大于98%的論元節(jié)點(diǎn)到目標(biāo)動(dòng)詞的依存樹路徑長度不超過3,這說明論元集中分布于依存樹上的一個(gè)局部范圍內(nèi)。充分利用這一特點(diǎn),本文參考趙海等[1]的剪枝算法,提出一種基于依存樹距離的論元識(shí)別方法,通過制訂規(guī)則,提取依存樹中由動(dòng)詞的兒子、父親、兄弟、第一祖父以及父親的兄弟節(jié)點(diǎn)構(gòu)成的候選論元集。在此識(shí)別方法基礎(chǔ)上,本文采用機(jī)器學(xué)習(xí)的方法進(jìn)行論元分類,綜合原句的特征以及由識(shí)別所得候選論元構(gòu)成的骨干句的特征,為候選論元標(biāo)注相應(yīng)的角色。在CoNLL2009中文語料上,以正確的依存樹為輸入,系統(tǒng)的F值達(dá)到89.46%,與前人的方法81.68%(王步康等[2])相比有很大改善。

        2 相關(guān)研究

        語義角色標(biāo)注通常分為四個(gè)步驟,剪枝、識(shí)別、分類、后處理,而前三個(gè)步驟都是在完成廣義分類任務(wù),因?yàn)榧糁妥R(shí)別本質(zhì)都是區(qū)分候選對象是否會(huì)是論元。這種廣義分類任務(wù)可以通過基于機(jī)器學(xué)習(xí)的方法和基于規(guī)則的方法來實(shí)現(xiàn),不同系統(tǒng)的實(shí)現(xiàn)方法不同。

        (1) 全過程不使用規(guī)則,完全使用基于機(jī)器學(xué)習(xí)的方法。Pradhan等[3]基于短語結(jié)構(gòu)句法樹使用SVM分類器(Kudo and Matsumoto[4-5])進(jìn)行論元識(shí)別和分類。Johansson等[6]在語義依存分析任務(wù)中使用基于線性邏輯回歸模型的LIBLINEAR分類器(Lin,et al[7])完成角色識(shí)別和分類。

        (2) 剪枝階段使用規(guī)則,后續(xù)階段使用機(jī)器學(xué)習(xí)方法。Xue等[8]基于短語結(jié)構(gòu)樹使用啟發(fā)式規(guī)則完成剪枝,使用最大熵分類器進(jìn)行角色識(shí)別和分類。王步康等[2]也提出一種剪枝算法,即在依存樹中,保留與謂詞具有一定關(guān)系的節(jié)點(diǎn),如父親、兒子、孫子等,其他節(jié)點(diǎn)都被過濾掉,之后再用機(jī)器學(xué)習(xí)方法進(jìn)行角色識(shí)別和分類。

        (3) 將剪枝和識(shí)別合為一步,并用基于規(guī)則的方法完成,只在分類階段使用機(jī)器學(xué)習(xí)技術(shù)。丁金濤等[9]使用規(guī)則,在CoNLL2005共享任務(wù)的WSJ測試集上,基于自動(dòng)句法分析識(shí)別出了 97.17% 的論元,在此基礎(chǔ)上角色標(biāo)注系統(tǒng)的F值達(dá)到了77.84%,在基于單一句法分析的角色標(biāo)注系統(tǒng)中處于領(lǐng)先位置。

        基于機(jī)器學(xué)習(xí)的方法和基于規(guī)則的方法各有特點(diǎn),基于機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)是需要的人工干預(yù)少,對研究者語言學(xué)背景要求少,但此方法的缺點(diǎn)在于對訓(xùn)練語料的依賴性強(qiáng),易出現(xiàn)數(shù)據(jù)稀疏問題;對訓(xùn)練語料中未出現(xiàn)的實(shí)例,分類效果較差;系統(tǒng)時(shí)間效率較低等問題。

        基于規(guī)則的方法在某種程度與基于機(jī)器學(xué)習(xí)的方法有著互補(bǔ)的關(guān)系,此方法中研究者可以根據(jù)豐富的語言學(xué)知識(shí)對規(guī)則進(jìn)行細(xì)化,利于處理分類中的細(xì)節(jié)問題,在一定程度上緩解了數(shù)據(jù)稀疏問題。此外,由于不必需要大規(guī)模語料庫支持也不必進(jìn)行模型訓(xùn)練,其在時(shí)間性能方面也表現(xiàn)出了較強(qiáng)優(yōu)勢。然而,由于規(guī)則需要人工制定,如果待區(qū)分的類別較多,并且某些待區(qū)分對象間相似度較高,就極大增加了制定規(guī)則的難度以及規(guī)則本身的復(fù)雜度,因此在一定意義上,相比于多分類問題,其處理二分類問題時(shí)優(yōu)勢更為顯著。

        因此,如果可以找到規(guī)則與機(jī)器學(xué)習(xí)運(yùn)用范圍的最佳組合,就可以將兩者優(yōu)勢相結(jié)合,充分發(fā)揮規(guī)則和統(tǒng)計(jì)各自的特點(diǎn),取得良好的標(biāo)注效果。對語義角色標(biāo)注任務(wù)來說,剪枝與識(shí)別本質(zhì)是二分類問題,在這兩個(gè)階段運(yùn)用規(guī)則方法既可以充分發(fā)揮規(guī)則在時(shí)間性能上的優(yōu)勢,又不會(huì)因?yàn)樾枰獏^(qū)分的類別過多而使規(guī)則過于復(fù)雜。而對于論元分類,由于論元類別較多,機(jī)器學(xué)習(xí)方法則更具優(yōu)勢。因此,本文將規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合,構(gòu)建出了一個(gè)性能良好的角色標(biāo)注系統(tǒng)。

        3 基于依存樹距離的論元識(shí)別

        3.1 依存樹距離對語義角色的影響分析

        在現(xiàn)代依存語法理論(又稱從屬關(guān)系語法,配價(jià)語法)中,周國光[10]對依存語法進(jìn)行了定義,“依存語法是一種結(jié)構(gòu)語法,主要研究以謂詞為中心而構(gòu)句時(shí)由深層語義結(jié)構(gòu)映現(xiàn)為表層句法結(jié)構(gòu)的狀況及條件,謂詞與體詞之間的同現(xiàn)關(guān)系,并據(jù)此劃分謂詞的詞類”。因此,基于依存理論所構(gòu)建的依存樹,在表達(dá)詞語間依賴關(guān)系的同時(shí),強(qiáng)調(diào)動(dòng)詞在句子中的重要作用。從這個(gè)角度講,在圍繞動(dòng)詞展開的角色標(biāo)注任務(wù)中,依存樹相比短語結(jié)構(gòu)樹而言,具有明顯的優(yōu)勢。在某種意義上,依存樹上的某些特征可以直接決定詞語間語義上支配關(guān)系的遠(yuǎn)近。例如,詞語與目標(biāo)動(dòng)詞的距離特征直接決定著這個(gè)詞語是否會(huì)與動(dòng)詞有語義上的依賴關(guān)系,即是否會(huì)成為謂詞的論元,距離特征在依存樹中的作用要大于其在短語結(jié)構(gòu)樹中的作用,主要原因有以下兩方面。

        1) 依存樹中節(jié)點(diǎn)數(shù)量比短語結(jié)構(gòu)樹少(張育等[11]),依存樹中節(jié)點(diǎn)都是句子中的詞語,而短語結(jié)構(gòu)樹中除了詞語節(jié)點(diǎn)外,還有句法成分節(jié)點(diǎn),因此詞語之間的距離包含了這些句法成分,距離特征對于詞語間關(guān)系遠(yuǎn)近的決定作用會(huì)因此受到影響。依存樹則不會(huì)存在此類問題;

        2) 依存樹偏重于一種關(guān)系結(jié)構(gòu),是語義層面的表示,節(jié)點(diǎn)間距離是他們語義關(guān)系遠(yuǎn)近的一種形式表現(xiàn)。短語結(jié)構(gòu)樹主要體現(xiàn)的是句子的句法層次結(jié)構(gòu),節(jié)點(diǎn)間距離基于句法關(guān)系,對語義的指示程度相對較低。

        綜合以上發(fā)現(xiàn),本文提出了基于依存樹距離規(guī)則的論元識(shí)別方法,充分利用依存樹本身的特點(diǎn)進(jìn)行語義角色標(biāo)注。

        3.2 基于依存樹的剪枝方法

        在基于依存的語義角色標(biāo)注研究中,趙海等[1]提出一種剪枝規(guī)則: 構(gòu)建集合S,由依存樹中目標(biāo)動(dòng)詞到根節(jié)點(diǎn)上的節(jié)點(diǎn)組成(包括目標(biāo)動(dòng)詞和根節(jié)點(diǎn))。集合S中的元素以及依賴于集合中元素的節(jié)點(diǎn)就會(huì)被保留下來進(jìn)入識(shí)別階段。為了方便說明,本文稱S中的節(jié)點(diǎn)為“主節(jié)點(diǎn)”。在趙海等[1]中,以上規(guī)則只覆蓋剪枝過程,此后,系統(tǒng)還將依賴機(jī)器學(xué)習(xí)方法進(jìn)行論元識(shí)別和分類。規(guī)則方法能否進(jìn)一步放大范圍來完成角色標(biāo)注中的論元識(shí)別這一主要任務(wù)?

        本文基線實(shí)驗(yàn)將趙海等[1]的剪枝算法直接用作論元識(shí)別的規(guī)則,結(jié)果表明,此方法的召回率較高(R=99.3%),但是準(zhǔn)確率很低(P=24.6%),這是因?yàn)楸A袅溯^多的非論元成分,保留的非論元數(shù)量是實(shí)際論元數(shù)量的三倍。因此,為提高論元識(shí)別的準(zhǔn)確率,需要對此基線方法進(jìn)行修改。

        3.3 基于依存樹距離的論元識(shí)別方法

        在基線實(shí)驗(yàn)基礎(chǔ)上,本文對經(jīng)過識(shí)別階段被標(biāo)注為候選論元的詞語特征進(jìn)行了分析。表1統(tǒng)計(jì)了不同路徑長度對應(yīng)的真正論元數(shù)目,從中發(fā)現(xiàn),真正的論元在與目標(biāo)動(dòng)詞的距離特征上表現(xiàn)出了明顯的聚集性: 訓(xùn)練集的真實(shí)論元總計(jì)17 547個(gè),其中只有1個(gè)論元與目標(biāo)動(dòng)詞的距離大于6,而當(dāng)距離大于4時(shí),論元的數(shù)目也急劇減少,這有力說明了依存樹在表達(dá)句子語義方面的優(yōu)勢: 依存樹結(jié)構(gòu)使句中核心詞語間的距離變短,依存樹上的論元分布的局部性更加明顯。如圖1所示,設(shè)目標(biāo)動(dòng)詞是“鼓勵(lì)”,真正的論元是“中國”、“企業(yè)家”和“投資”。在短語結(jié)構(gòu)樹中“鼓勵(lì)”和三個(gè)論元的距離都是3,而且三個(gè)論元在樹中分布的位置的局部性不明顯。而在依存樹中,目標(biāo)動(dòng)詞與三個(gè)論元的距離都是1,而且在樹狀結(jié)構(gòu)中三個(gè)論元都處于動(dòng)詞的下一層,表現(xiàn)出了極好的局部性特征。從表1中我們受到啟發(fā),利用詞語與目標(biāo)動(dòng)詞的距離特征,將距離限定在一定的閾值之內(nèi),滿足閾值條件下的詞語才可以被選為候選論元進(jìn)入分類階段,就可以有效地減少非論元被識(shí)別為論元的數(shù)量,提高識(shí)別階段的準(zhǔn)確率。

        表1 訓(xùn)練集中不同路徑長度下對應(yīng)的真正的論元數(shù)目

        圖1 短語結(jié)構(gòu)句法樹與依存句法樹的比較

        基于以上分析,本文提出了基于依存樹距離的論元識(shí)別方法: 提取從目標(biāo)動(dòng)詞到根節(jié)點(diǎn)路徑中與目標(biāo)動(dòng)詞距離不大于L的節(jié)點(diǎn)構(gòu)成集合S,集合S中的節(jié)點(diǎn)以及依賴于S中節(jié)點(diǎn)的節(jié)點(diǎn)構(gòu)成候選論元。在此條件下,候選論元與目標(biāo)動(dòng)詞的最長距離被限制為L+1。本文分別設(shè)置L=3、2、1進(jìn)行實(shí)驗(yàn),結(jié)果表明當(dāng)L=2時(shí),系統(tǒng)性能達(dá)到最優(yōu),此條件下,被識(shí)別為候選論元的節(jié)點(diǎn)包括動(dòng)詞的兒子、父親、兄弟、第一祖先和父親的兄弟。

        4 基于機(jī)器學(xué)習(xí)的論元分類

        在論元分類階段,由于候選論元的角色與其上下文有較為密切的關(guān)系,因此本文采用序列標(biāo)注模型,以識(shí)別所得的候選論元為基本標(biāo)注單元,選擇了現(xiàn)階段大多數(shù)角色標(biāo)注系統(tǒng)所廣泛使用的特征。表2 列舉了論元分類階段的特征集合。由于論元識(shí)別階段刪除了大量的非論元成分,被標(biāo)注為候選論元的詞語會(huì)構(gòu)成一個(gè)新的句子(本文稱之為“骨干句”)。對于候選論元來說,其在骨干句中的語境與其在原句中語境有很大不同,因此對于和語境相關(guān)的特征,如表2中基于詞語上下文的特征以及基于當(dāng)前詞語與目標(biāo)動(dòng)詞之間關(guān)系的特征,我們從原句以及識(shí)別后的“骨干句”中分別提取了相應(yīng)的特征。

        表2 論元分類階段的特征集

        5 后處理

        為了解決一個(gè)句子中出現(xiàn)多個(gè)相同核心論元的問題,本文提出了基于距離的后處理方法。從3.3的觀察中可以得出結(jié)論,絕大多數(shù)論元被限制在以目標(biāo)動(dòng)詞為中心的一定范圍內(nèi),從某種意義上講,與目標(biāo)動(dòng)詞距離近的節(jié)點(diǎn),有更高的概率成為論元。因此,如果多個(gè)候選論元被同時(shí)標(biāo)注為核心角色Ai,則可以首先比較這些節(jié)點(diǎn)在依存樹上與目標(biāo)動(dòng)詞的距離,距離近的候選論元優(yōu)先獲得此角色,其他候選論元?jiǎng)t標(biāo)注為空。如果基于依存樹的路徑長度相同,則可以比較候選論元與目標(biāo)動(dòng)詞在原句中的直線距離,較近的一個(gè)被標(biāo)注為核心論元。

        6 數(shù)據(jù)與實(shí)驗(yàn)結(jié)果分析

        本文選用CoNLL 2009 Closed Challenge提供的中文訓(xùn)練集語料進(jìn)行模型訓(xùn)練,使用開發(fā)集進(jìn)行系統(tǒng)測試。系統(tǒng)基于正確的依存樹進(jìn)行實(shí)驗(yàn), 在角色分類階段, 選用了隨機(jī)梯度CRF軟件包*http://leon.bottou.org/projects/sgd,借助此工具本文較快獲得了分類時(shí)的最優(yōu)特征集,并取得了較好的角色標(biāo)注結(jié)果。

        6.1 基線識(shí)別方法

        本文將趙海等[1]中的剪枝規(guī)則放大作用范圍來完成論元識(shí)別任務(wù),如表3所示,識(shí)別階段召回率較高(R=99.3%),但準(zhǔn)確率很低(P=24.6%)。因此增強(qiáng)對候選論元的約束,減少被錯(cuò)誤識(shí)別為候選論元的詞語數(shù)是十分必要的。表4對比了基線識(shí)別方法基礎(chǔ)上的角色標(biāo)注與王步康等[2]的角色標(biāo)注結(jié)果。兩個(gè)實(shí)驗(yàn)采用了相同的數(shù)據(jù)集和系統(tǒng)輸入,結(jié)果表明,本文基線角色標(biāo)注結(jié)果在F值上相比王步康等[2]已經(jīng)取得了大幅提高(7.3%)。

        表3 基線識(shí)別方法的識(shí)別結(jié)果

        表4 基線識(shí)別方法基礎(chǔ)上的角色標(biāo)注結(jié)果與前人工作的對比

        6.2 基于依存樹距離的論元識(shí)別方法

        表5表示了基于依存樹距離的識(shí)別方法中距離對于角色標(biāo)注系統(tǒng)的影響,其中L采用了3.3節(jié)中的定義,即集合S中的主節(jié)點(diǎn)與目標(biāo)動(dòng)詞的距離不超過L,結(jié)果表明,L=2時(shí)系統(tǒng)性能達(dá)到最優(yōu),這說明利用依存樹上節(jié)點(diǎn)與目標(biāo)動(dòng)詞的距離特征來對主節(jié)點(diǎn)進(jìn)行約束,進(jìn)而限制候選論元到目標(biāo)動(dòng)詞的距離對于取得良好的角色標(biāo)注性能有著重要意義。表6 表示了L=2條件下識(shí)別階段的結(jié)果,召回率為98.3%,相比基線實(shí)驗(yàn),進(jìn)入分類階段的候選論元數(shù)減少了38 345(占基線條件下候選論元總數(shù)的35.76%),有力證明了依存樹距離特征對于篩選候選論元的積極意義。

        表5 基于依存樹距離的識(shí)別方法中距離L對于角色標(biāo)注系統(tǒng)的影響

        表6 基于依存樹距離的識(shí)別方法中L=2條件下的識(shí)別結(jié)果

        6.3 后處理

        表7列出了測試集上同一語義角色在一個(gè)句子中出現(xiàn)多次的數(shù)量分布情況。從中可以發(fā)現(xiàn),后處理之前核心論元的重復(fù)出現(xiàn)次數(shù)總計(jì)332,經(jīng)過后處理,消除了核心論元重復(fù)出現(xiàn)的情況。表8是采用基于依存樹距離的識(shí)別方法并設(shè)置L=2時(shí),后處理前后系統(tǒng)的性能對比,F(xiàn)值提高了0.1%,證明了后處理方法的有效性。

        表7 重復(fù)出現(xiàn)的語義角色數(shù)量統(tǒng)計(jì)

        表8 后處理前后的語義角色標(biāo)注性能比較

        7 總結(jié)

        本文提出了一種基于依存樹距離的論元識(shí)別方法,由于依存樹結(jié)構(gòu)有利于縮短論元與目標(biāo)動(dòng)詞的距離,使論元分布的局部性更顯著,本文充分利用此種局部性特征,制訂規(guī)則將距離特征作為判定候選論元的重要條件,實(shí)現(xiàn)了基于規(guī)則的論元識(shí)別。結(jié)合基于機(jī)器學(xué)習(xí)的論元分類,基于正確的依存句法分析結(jié)果,本文角色標(biāo)注系統(tǒng)F值達(dá)到89.46%,相比前人工作取得了較大改進(jìn)。

        [1] Hai Zhao, Chunyu Kit. Parsing syntactic and semantic dependencies with two single-stage maximum entropy models[C]//Proceedings of the 12th CoNLL-2008, Manchester, August 2008: 203-207.

        [2] 王步康,王紅玲,袁曉虹,等.基于依存句法分析的中文語義角色標(biāo)注[J].中文信息學(xué)報(bào),2010,24(1): 25-29,47.

        [3] Sameer Pradhan, Wayne Ward, Kadri Hacioglu, et a1. Shallow Semantic Parsing Using Support Vector Machines[C]//Proceedings of NAACL-HLT 04.2004.

        [4] Taku Kudo,Yuji Matsumoto. Use of support vector learning for chunk identification [C]//Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal, 2000:142-144.

        [5] Taku Kudo, Yuji Matsumoto. Chunking with support vector machines[C]//Proceedings of the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL-2001).

        [6] Richard Johansson, Pierre Nugues. Dependency-based syntactic semantic analysis with PropBank and NomBank[C]//Proceedings of the 12th CoNLL-2008, Manchester, August 2008: 183-187.

        [7] Chih-Jen Lin, Ruby C.Weng, S. Sathiya Keerthi. Trust region Newton method for large-scale logistic regression[C]//Proceedings of the 24 th International Conference on Machine Learning, Corvallis, OR, 2007.

        [8] Nianwen Xue, Palmer M. Calibrating features for semantic role labeling[C]//Proceedings of EMNLP, Barcelona, Spain, 2004: 88-94.

        [9] 丁金濤,周國棟,王紅玲,等.語義角色標(biāo)注中有效的識(shí)別論元算法研究[J].計(jì)算機(jī)工程與應(yīng)用, 2008, 44(18), 153-156.

        [10] 周國光. 漢語配價(jià)語法論略[J].南京師范大學(xué)學(xué)報(bào):社科版,1994(4):103-106,121.

        [11] 張育,王紅玲,周國棟.基于兩種句法分析的語義角色標(biāo)注比較研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2010, 27(8): 565-573.

        猜你喜歡
        論元剪枝語義
        人到晚年宜“剪枝”
        基于YOLOv4-Tiny模型剪枝算法
        語言與語義
        成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        英語中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
        一種面向不平衡數(shù)據(jù)分類的組合剪枝方法
        九九久久精品国产免费av| 色综合久久无码中文字幕app| 精品无码一区二区三区小说| 中文字幕人妻激情在线视频| 欧美亅性猛交内射| 久久久精品国产av麻豆樱花| 久久精品成人欧美大片| 久久中文字幕乱码免费| 国产精品一区成人亚洲| 精品人妻码一区二区三区红楼视频| 日韩 无码 偷拍 中文字幕| 国产揄拍国产精品| 国产一区二区三区在线观看精品 | 美女草逼视频免费播放| 人妻久久一区二区三区蜜桃| 成人毛片无码一区二区三区| 日本色噜噜| 免费的黄网站精品久久| 一本一道久久精品综合| 性色av无码中文av有码vr| 亚洲成人观看| 色se在线中文字幕视频| 少妇被猛烈进入到喷白浆| 国产sm调教视频在线观看| 99久久国产亚洲综合精品| 在线视频自拍视频激情| 久久性爱视频| 国产美女在线精品免费观看网址| 欧美人与动牲交片免费播放| 亚洲综合在线观看一区二区三区| 国产av旡码专区亚洲av苍井空| 日韩欧美区| 久久精品国产亚洲av成人无人区| 国产精品黄色片在线看| 国产精品美女久久久久| 亚洲AⅤ男人的天堂在线观看| 蕾丝女同一区二区三区| 东北少妇不带套对白| 1769国产精品短视频| 国语自产啪在线观看对白| 伊人久久大香线蕉av波多野结衣|