亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        FrameNet中有定的零形式識別

        2013-04-23 10:10:39雷章章王智強
        中文信息學(xué)報 2013年3期
        關(guān)鍵詞:語料語義框架

        雷章章, 王 寧, 李 茹 2, 王智強

        (1. 山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006; 2. 山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)

        1 引言

        在FrameNet語料庫中,有些核心框架元素既不是謂詞的依存成分,也不能通過槽填充得以發(fā)現(xiàn),這種框架元素稱為零形式框架元素(Null Instantiation,簡記為NI),也稱為零形式[1]。其中,有定的零形式框架元素(Definite Null Instantiation,簡記為DNI)即有定的零形式在篇章理解中扮演著重要的角色,零形式識別的任務(wù)就是在框架語義角色標(biāo)注的語料上識別出其中的DNI。

        目前語義角色標(biāo)注(Semantic Role Labeling,簡記SRL)是淺層語義分析的一種重要實現(xiàn)方法,但是它只能為顯現(xiàn)表達(dá)的語義論元分配角色,并且只是作為句子內(nèi)部的任務(wù)而沒有上升到篇章級,這使得SRL在許多與文本理解相關(guān)的自然語言處理問題(如信息抽取、文本摘要或自動問答等)的應(yīng)用中受到了限制, 因而獲取未顯現(xiàn)表達(dá)的語義論元并將其與上下文語境中的共指項進行鏈接,對實現(xiàn)自然語言處理領(lǐng)域中的篇章理解及其應(yīng)用具有十分重要的意義。

        國際計算語言學(xué)會議ACL在2010年舉行了關(guān)于“連接語篇中的事件及其參與者”的語義評測[2], 即SemEval-2010 Task 10,任務(wù)組給出了Full Task和NIs only(也稱為NI Task)兩種任務(wù)模式。Full Task包括SRL和NI Task兩個部分,NI Task要求參與者在金標(biāo)準(zhǔn)語義角色標(biāo)注的語料上識別出有定的零形式并在上下文中找到其先行語,本文專注于其中的DNI識別部分。評測任務(wù)分別提供了FrameNet和Probank兩種標(biāo)注語料,只有兩支隊伍提交了NI Task。 Desai Chen等[3]采用了擴展的SEMAFOR 1.0[4]框架語義分析器,該系統(tǒng)將零形式識別看作論元識別問題,采用線性對數(shù)模型,將系統(tǒng)之前用于論元識別任務(wù)中的特征集稍做改動作為新的特征集,該團隊的零形式識別召回率和分類準(zhǔn)確率分別為63.4%和54.7%。Sara Tonelli等[5]采用了一個曾用于RTE的語義評測系統(tǒng)VENSES++,將零形式檢測任務(wù)按動詞和名詞兩種不同的情況分別處理,在隨后的零形式分類階段以是否找到缺失論元的先行語作為分類的依據(jù),若找到,則標(biāo)記為DNI,否則就標(biāo)記為INI,該團隊零形式識別的召回率為8.0%,在此基礎(chǔ)上分類的準(zhǔn)確率為62.4%。

        本文采用規(guī)則過濾與機器學(xué)習(xí)相結(jié)合的方法實現(xiàn)有定的零形式的識別任務(wù),其中主要工作包括零形式檢測規(guī)則的構(gòu)建與基于最大熵分類器的零形式分類模型的實現(xiàn)。

        2 相關(guān)概念介紹

        2.1 FrameNet

        FrameNet[6]是一個基于語料庫的、以框架為基礎(chǔ)的計算機詞典編纂項目,該項目以框架語義學(xué)理論為基礎(chǔ),其分析單元不再是一個個的詞而是框架??蚣苁切叛?、實踐、制度、想象等概念結(jié)構(gòu)或概念模式的圖解表征[7]。激起框架的詞元稱為目標(biāo)詞,在目標(biāo)詞激起一個框架的同時也激起了一個以框架名命名的場景,場景中的事件及參與者被稱為框架元素,框架元素表示與特定的詞相關(guān)的語義角色或者語義功能,這些詞或者出現(xiàn)在特定的句子中或者出現(xiàn)在特定的一組句子中??蚣茉赜钟泻诵呐c非核心之分,相比于非核心框架元素,核心框架元素與框架之間具有更為特定的語義聯(lián)系。

        2.2 零形式及其類型

        零形式是由核心框架元素缺失引起的[8-9]。核心框架元素缺失的現(xiàn)象可分為兩類情況,即允許缺失的語義實體類型和對所缺失論元的解釋類型。前者是由特定的詞項或句法結(jié)構(gòu)缺失引起的零形式。如例句2.1中缺失的施事者是由被動結(jié)構(gòu)引起的:

        例2.1. No doubt, mistakes were made 0Protagonist.

        這種缺失是結(jié)構(gòu)的缺失,它適用于任何有著合適的能用于被動語態(tài)語義信息的謂詞。例2.2展示了另外一種情況,這里的缺失是由特定詞項造成的: 動詞arrived允許它的Goal角色缺省,但是和它屬于同一個Arriving框架下的動詞詞元reach卻不允許。

        例2.2. We arrived 0Goalat 8pm.

        上面的兩個例子也展示了第二類缺失情況下的差異。作為對比,例句2.1中犯錯誤的施事者“Protagonist”能夠被理解,沒有必要為之找回或者建立一個特定的篇章所指(INI的例子),而例句2.2中缺失的角色Goal是一個談話人雙方必須從語篇或者上下文中才可以理解的實體(DNI的例子)。

        圖1給出的是FrameNet中Arrest框架下的詞元arrest.v的標(biāo)注情況,各個框架元素用不同顏色區(qū)分,其中核心框架元素在Core Type中用Core標(biāo)出。標(biāo)注框架下的兩條語句是FrameNet中由arrest.v激起的零形式句子標(biāo)注實例,其中CNI是指結(jié)構(gòu)的零形式。

        3 基于規(guī)則的零形式檢測

        零形式是由核心框架元素缺失引起的,但是缺失的核心框架元素并不一定就是零形式,因為核心框架元素之間還具有三種關(guān)系,只有充分考慮了這些關(guān)系才能夠判斷缺失的這個核心框架元素是否為零形式。

        3.1 核心框架元素間的關(guān)系

        在FrameNet的框架中,核心框架元素之間可能會有著某種特定的關(guān)系,使得它們并不完全獨立,這三種關(guān)系分別是:

        ? CoreSet: 這個關(guān)系表明,其中的核心框架元素可以一個或者多個需要顯示表達(dá)。有這種關(guān)系的情況比較復(fù)雜,可能在某種情況下,其中的一個核心框架元素缺失時不認(rèn)為是論元缺失從而不用標(biāo)記為零形式,而對于另外一個則必須進行標(biāo)記;也可能有的情況下進行標(biāo)記,有時又不需要標(biāo)記,這因框架不同而不相同。

        圖1 動詞arrest.v在FrameNet中的標(biāo)注

        例如,在Arrest框架中:

        Core: {Authorities, Charges, Offense, Suspect}

        FE CoreSet: {Charges, Offense}

        兩個角色Charges和Offense具有CoreSet關(guān)系,在FrameNet給出的標(biāo)注語料中,若二者中僅缺失Charges,需要標(biāo)記為零形式;而若僅缺失的是Offense,則不必標(biāo)記。

        ? Excludes: 這是個互斥的關(guān)系,擁有這種關(guān)系的兩個核心框架元素不可以同時出現(xiàn),這樣當(dāng)其中的一個出現(xiàn)的時候,與其互斥的論元沒有出現(xiàn)時也不認(rèn)為是論元缺失,從而不用標(biāo)記為零形式。

        ? Requires;這是個有序的關(guān)系,若核心框架元素A和B具有這種關(guān)系,且A在前面,則要求A出現(xiàn)時B一定要出現(xiàn)否則即認(rèn)為是論元缺失,但是B出現(xiàn)的時候不一定要求A也必須出現(xiàn)或被標(biāo)記為NI。

        例如,在Similarity框架中:

        Core: { Differertiating_fact, Entity_1, Entity_2, Dimension};

        Excludes: {};

        Requires: {};

        例3.1. [Entity_1The configuration of hard drives] is no differentTarget[Dimensioninthis respect].[Entity_2DNI]

        例3.1中,由目標(biāo)詞different激起的Similarity框架中, Entity_1和Entity_2都與Entities互斥,這樣在句中出現(xiàn)了 Entity_1時,就不會出現(xiàn)Entities,也不用將其標(biāo)為NI;又由于Entity_1和Entity_2有Requires關(guān)系,在只出現(xiàn)了Entity_1的前提下,有必要將Entity_2標(biāo)記為NI。從這個例子我們也可以看出,核心框架元素Differertiating_fact缺失,而且它也不在這三種關(guān)系中,卻沒有將其標(biāo)記為NI,這種情況是很少見的。

        3.2 零形式檢測的規(guī)則構(gòu)建

        根據(jù)核心框架元素之間三種關(guān)系,即: CoreSet,Excludes和Requires,本文構(gòu)造了三個零形式的檢測規(guī)則:

        規(guī)則1. 缺失的核心框架元素若與某個顯示表達(dá)的核心框架元素有Excludes關(guān)系,則沒有出現(xiàn)零形式,否則參考其他兩個規(guī)則;

        規(guī)則2. 缺失的核心框架元素若屬于某個顯示表達(dá)核心框架元素的Requires關(guān)系,則出現(xiàn)了零形式,并將該缺失的核心框架元素標(biāo)記為零形式;

        規(guī)則3. 缺失的核心框架元素與某些顯示表達(dá)的核心框架元素在同一個CoreSet集合中,而沒有其他兩種關(guān)系,則根據(jù)該CoreSet中各角色的標(biāo)注規(guī)律進行標(biāo)注,在我們的實驗處理中,如果有一個顯現(xiàn)的表達(dá)了,就默認(rèn)為其他的都不是零形式。

        3.3 零形式檢測的步驟

        依照零形式框架元素的特點及上面的檢測方法,設(shè)計檢測步驟如下:

        Step 1. 數(shù)據(jù)預(yù)處理: 第一,抽取FN中每個框架的核心框架元素及框架下的CoreSet、Excludes和Requires關(guān)系并記錄到數(shù)據(jù)庫中;第二,提取語料中所有句子的目標(biāo)詞、所屬框架、框架核心元素標(biāo)記等信息并記錄到數(shù)據(jù)庫中;

        Step 2. 全部改為. 對于測試語料,根據(jù)上步中提取的信息對比以判斷核心框架元素是否缺失,若沒有,就不做標(biāo)記,否則轉(zhuǎn)向Step 3;

        Step 3. 使用規(guī)則1判斷缺失的框架元素是否在某個Excludes關(guān)系中,若是,不做標(biāo)記,否則轉(zhuǎn)向Step 4;

        Step 4. 使用規(guī)則2判斷缺失的框架元素是否在某個Requires關(guān)系中,若是,轉(zhuǎn)向Step 6,否則轉(zhuǎn)向Step 5;

        Step 5. 使用規(guī)則3判斷缺失的框架元素是否在某個CoreSet中,若有,轉(zhuǎn)向Step 6;

        Step 6. 將缺失的句子信息記錄到文件中,以便后續(xù)試驗的進行。

        4 基于最大熵的零形式分類

        找到有定的零形式在上下文中的共指項有助于篇章理解的提高,因而對于檢測出來的零形式,我們還想進一步知道其解釋類型。參與評測的兩支團隊都是將零形式的分類和消解捆綁在一起進行的,即能夠消解的被認(rèn)為是有定的零形式,否則被判為無定的零形式。本文嘗試選用最大熵分類器,通過訓(xùn)練語料的訓(xùn)練,直接用來對測試語料中的零形式解釋類型進行分類預(yù)測。我們的做法是基于零形式的這樣一個規(guī)律: 框架不同,目標(biāo)詞不同,缺失的核心框架元素不同都可能導(dǎo)致對零形式的解釋類型不同[10]。

        最大熵模型在自然語言處理中獲得了廣泛的應(yīng)用,它是由最大熵原理推導(dǎo)而來,最大熵原理認(rèn)為在學(xué)習(xí)概率模型時,在所有可能的模型中,熵最大的模型是最好的。最大熵模型的學(xué)習(xí)過程就是求解最大熵模型的過程。最大熵模型的一般表示見式(1)。

        其中

        這里,Rn為n維歐式空間,x∈Rn為輸入,y∈{1, 2…,K}為輸出(K個類別),w∈Rn為權(quán)值向量,fi(x,y),i=1, 2…,n為任意實值特征函數(shù)。

        本文采用最大熵模型實現(xiàn)零形式分類問題,將有零形式的出現(xiàn)的框架作為輸入樣本x,把兩種零形式類型DNI和INI作為分類輸出,即y∈{DNI, INI},選擇的特征集列表如表1所示。

        表1 特征選取

        5 實驗及結(jié)果分析

        5.1 實驗語料

        實驗語料來源于SemEval-2010 Task10,其中訓(xùn)練語料是在SemEval-2007 Task 19的基礎(chǔ)上加入了Arthur Conan Doyle的小說《名偵探福爾摩斯》中的部分節(jié)選語料的全文標(biāo)注,測試語料是該小說中故事《巴克斯維爾的獵犬》的第13章(Chapter 13)和第14章(Chapter 14)節(jié)選部分的全文標(biāo)注,詳情參看表2,其中frame inst.是標(biāo)注的框架實例數(shù)(annotated frame instances)。

        表2 評測語料的數(shù)據(jù)詳情

        5.2 零形式檢測的實驗結(jié)果及分析

        按照基于規(guī)則方法,在測試語料上完成的零形式檢測的結(jié)果如表3所示,括號中的數(shù)據(jù)為實驗正確檢測出來的數(shù)據(jù)。

        根據(jù)表3的實驗結(jié)果,我們給出了零形式檢測實驗相應(yīng)的準(zhǔn)確率、召回率和F值作為評定,如表4所示。

        表3 零形式檢測的實驗數(shù)據(jù)統(tǒng)計

        表4 零形式檢測的實驗結(jié)果評定

        作為對比,我們給出了參與評測的兩支隊伍相應(yīng)的零形式檢測數(shù)據(jù),如表5所示,其中710是金標(biāo)準(zhǔn)標(biāo)注的零形式數(shù)目(NIs)。

        表5 參與評測的系統(tǒng)零形式檢測結(jié)果

        由上述幾個表的數(shù)據(jù)對比,我們認(rèn)為使用規(guī)則的方法識別零形式是可行的,SEMAFOR系統(tǒng)的本身的召回率是不高的,這個數(shù)據(jù)是由評測系統(tǒng)給出的,具體在5.3節(jié)中詳述。對實驗結(jié)果分析中,我們發(fā)現(xiàn)識別錯誤主要由以下三種情況造成: (1)選用的FrameNet版本不同,在評測任務(wù)中,標(biāo)注語料的框架庫來自于FrameNet1.4,而本實驗所采用的版本是FrameNet1.5,兩個版本中某些框架名和框架元素標(biāo)名不同造成了部分的識別錯誤;比如在FrameNet1.4中的“observable_bodyparts”,在FrameNet1.5中改為“observable_body_parts”這使得我們在按照規(guī)則發(fā)現(xiàn)零形式的時候丟失了該框架的信息,而這個框架在Chapter 13中出現(xiàn)了28次,其中核心框架元素“Possessor”缺失引起了零形式共有5次(3次DNI,2次INI)。例5.1給出的就是Chapter 13中S72里面的一個由“Possessor”缺失引起的DNI實例,它沒有被我們的實驗檢測出來。

        例5.1

        (2)未登錄框架名造成一些零形式未被發(fā)現(xiàn)。在測試語料中存在一些框架是參與評測時FrameNet框架庫中還沒有的,和第一個原因相同,對這部分框架中的零形式我們也沒有能夠檢測出來,而SEMAFOR系統(tǒng)在框架識別階段充分考慮了這個因素。(3)本文認(rèn)為影響實驗結(jié)果的最重要的因素是核心框架元素之間存在的CoreSet關(guān)系,這里以例5.2來說明。

        例5.2

        在“Hospitality”框架中:

        Core: { Behavior, Expressor, Guest, Host, Topic, Judge }

        FE Core set(s): {Behavior, Expressor, Host}、{Guest, Topic }

        例5.2列舉的是Chapter 13中S112里面框架“Hospitality”的金標(biāo)準(zhǔn)語料標(biāo)注情況,其中只有一個核心框架元素“Host”是顯現(xiàn)表達(dá)的,按照我們前面的檢測規(guī)則,由于“Behavior”、“Expressor”和“Host”屬于同一個CoreSet,這里即使前面兩個缺失了也不標(biāo)記為NI;在另外一個CoreSet中“Guest”和“Topic”都缺失了,我們只將第一個缺失的核心框架元素即“Guest”標(biāo)記為NI而不再關(guān)注“Topic”,而實際的金標(biāo)準(zhǔn)語料將所有缺失的核心框架元素(一共5個)都標(biāo)記為NI,這也影響了本文后續(xù)實驗中對NI的分類。為了了解這個現(xiàn)象對零形式檢測及分類結(jié)果的影響,我們對兩篇測試語料中包含的CoreSet關(guān)系進行了統(tǒng)計。

        表6 測試語料中CoreSet關(guān)系統(tǒng)計

        如表6所示,其中N.of mistakes 是由于CoreSet造成的零形式發(fā)現(xiàn)錯誤個數(shù),這也解釋了表3中Chapter 14的實驗結(jié)果不如Chapter 13得到的結(jié)果,且其召回率要遠(yuǎn)低于準(zhǔn)確率的原因。

        5.3 零形式分類的實驗結(jié)果及分析

        在零形式發(fā)現(xiàn)的基礎(chǔ)上,使用最大熵分類器對零形式分類做出了預(yù)測,實驗使用的是張樂博士的最大熵工具包[10],表7給出的實驗結(jié)果(Predicted),括號中的數(shù)據(jù)是預(yù)測正確的數(shù)目,同時也給出了VENSES++系統(tǒng)的預(yù)測結(jié)果,表8進一步給出了預(yù)測結(jié)果相應(yīng)的準(zhǔn)確率、召回率和F值。

        表7 零形式分類的實驗數(shù)據(jù)

        表8 本文零形式分類的結(jié)果評定

        SEMAFOR系統(tǒng)在檢測到的450個零形式中[2],有246個得到了正確的分類(DNI/INI),準(zhǔn)確率為54.7%(246/450),在該團隊評測任務(wù)提交的論文[3]給出的分類結(jié)果中,識別出來的DNI只有21個,這與評測系統(tǒng)對他們結(jié)果的評分策略有關(guān);而VENSES++系統(tǒng)的分類準(zhǔn)確率高達(dá)64.2%(35/57),不過該系統(tǒng)之前發(fā)現(xiàn)的零形式數(shù)目很少。本文

        識別正確的有定的零形式數(shù)目(284)較兩支參與評測的隊伍都要多,這說明我們提出的零形式分類方法是可行的。

        對零形式分類的評定的指標(biāo)(準(zhǔn)確率、召回率和F值)都不是很高,主要有兩個原因: (1)受限于之前零形式檢測的結(jié)果;(2)零形式分布的多樣性,框架、詞元或缺失的核心框架元素不同,對零形式的解釋類型都可能不同,很難構(gòu)建一個合適的統(tǒng)一分類模型。

        6 總結(jié)

        在FrameNet中,有定的零形式是包含了缺位填充的核心依存圖的重要組成部分,在篇章理解中扮演著重要角色。本文采用規(guī)則過濾與機器學(xué)習(xí)相結(jié)合的方法分兩步實現(xiàn)了有定的零形式的識別,在測試語料上取得了不錯的結(jié)果,說明了本文的方法是可行的。

        零形式存在的多樣性給有定的零形式的識別帶了很大的困難。在核心框架元素之間的三種關(guān)系中,由于CoreSet關(guān)系表現(xiàn)的零形式情況非常復(fù)雜,使得與之相關(guān)的零形式很難用本文的規(guī)則發(fā)現(xiàn),這也影響了后續(xù)的分類效果,零形式的多樣性同樣也給零形式分類建模帶來了挑戰(zhàn),這些都是本文以后工作的重點。

        [1] 俞士汶,黃居仁. 計算語言學(xué)前瞻[M]. 北京: 商務(wù)印書館, 2005: 21-74.

        [2] J Ruppenhofer, C Sporleder, R Morante, et al. SemEval-2010 Task 10: Linking Events and Their Participants in Discourse[C]//Proceedings of the 5th International Workshop on Semantic Evaluation.ACL 2010. Uppsala, Sweden: 15-16 July 2010: 45-50.

        [3] D Chen, N Schneider, D Das, et al. SEMATOR: Frame Argument Resolution with Log-Linear Models[C]//Proceedings of the 5th International Workshop on Semantic Evaluation.ACL 2010. Uppsala, Sweden: 15-16 July 2010: 264-267.

        [4] D Das, N Schneider, D Chen, et al. Probabilistic frame-semantic parsing[C]//Proceedings of the NAACL-HLT. ACL 2010. Los Angeles, California: June 2010: 948-956.

        [5] S Tonelli, R Delmonte. VENSES++: Adapting a deep semantic processing system to the identification of null instantiations[C]//Proceedings of the 5th International Workshop on Semantic Evaluation.ACL 2010. Uppsala, Sweden: 15-16 July 2010: 296-299.

        [6] J Fillmore, C R Johnson, M R L Petruck. Background to FrameNet[J]. International Journal of Lexi-cography, 2003, 16(3): 235.

        [7] J Fillmore, Charles. Linguistics in the Morning Calm[M]. Seoul, Korea: Hanshin Publishing Company, 1982: 111-137.

        [8] J Fillmore. Pragmatically controlled zero anaphora[C]//Proceedings of the 12th Annual Meeting of the Berkeley Linguistics Society. Berkeley, CA. 1986: 95-107.

        [9] J Ruppenhofer. Regularities in null instantiation.2005.

        [10] Zhang Le.Maximum entropy modeling toolkit for python and C++:[OL]http://homepages.inf.ed. ac.uk/s0450736/ maxent toolkit.html.

        猜你喜歡
        語料語義框架
        框架
        廣義框架的不相交性
        語言與語義
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        一種基于OpenStack的云應(yīng)用開發(fā)框架
        認(rèn)知范疇模糊與語義模糊
        《苗防備覽》中的湘西語料
        日韩精品极品免费在线视频| 老司机亚洲精品影院| 野外少妇愉情中文字幕| 成年女人永久免费看片| 91情侣在线精品国产免费| 亚洲天堂线上免费av| 国产午夜视频在线观看.| 日韩精品视频一区二区三区 | 久久无人码人妻一区二区三区| 日韩精品一区二区三区影音视频 | 伊人久久大香线蕉av网禁呦| 中文字幕无码无码专区| 热re99久久精品国产66热6| 国产一区二三区中文字幕| 亚洲精品一品区二品区三区| 真人做人试看60分钟免费视频| 国产嫖妓一区二区三区无码| 国产激情一区二区三区成人免费| 国产午夜在线观看视频| 亚洲色图视频在线免费看| 热久久国产欧美一区二区精品| 成 人 网 站 免 费 av| 福利片免费 亚洲| 亚洲av日韩综合一区尤物| 国产欧美日韩中文久久| 熟女人妇交换俱乐部| 免费黄色福利| 夜色视频在线观看麻豆| 男人天堂这里只有精品| 东北女人毛多水多牲交视频| 国产精品青草视频免费播放 | 久激情内射婷内射蜜桃| 无码精品一区二区三区超碰 | 玖玖资源站无码专区| 亚洲天堂av社区久久| 日本视频一中文有码中文| 亚洲av永久无码一区二区三区| 久久人妻少妇嫩草av蜜桃| 亚洲 美腿 欧美 偷拍| 日本在线观看一二三区| 熟女人妇 成熟妇女系列视频|