李濟(jì)洪,高亞慧,王瑞波,李國(guó)臣
(1. 山西大學(xué) 計(jì)算中心,山西 太原 030006; 2. 山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006;3. 太原工業(yè)學(xué)院,山西 太原 030008)
語(yǔ)義分析是自然語(yǔ)言處理的目前研究的熱點(diǎn)。近年來(lái),語(yǔ)義分析的相關(guān)評(píng)測(cè)任務(wù)在在SemEval2007[1]、CoNLL Shared Task 2008[2]、2009[3]、SemEval-2(2010)[4]等重要評(píng)測(cè)中頻繁出現(xiàn)。這些評(píng)測(cè)有效地推動(dòng)了自然語(yǔ)言處理技術(shù)的研究和發(fā)展。
近十年來(lái),基于認(rèn)知的框架語(yǔ)義學(xué)以及在其上構(gòu)建的英語(yǔ)FrameNet[5]得到許多研究者的關(guān)注,成為Senseval-3[6]、SemEval2007、SemEval-2(2010)語(yǔ)義分析評(píng)測(cè)任務(wù)的主要使用的語(yǔ)義資源。按照評(píng)測(cè)任務(wù)中的要求,對(duì)給定一個(gè)句子中的動(dòng)詞(或事件名詞),首先要自動(dòng)識(shí)別出其所屬框架,再標(biāo)注出該詞所支配的語(yǔ)義角色,進(jìn)而形式化出句子,乃至整個(gè)篇章的語(yǔ)義信息的一種描述,為問(wèn)題回答、篇章理解、信息檢索等應(yīng)用提供可用的語(yǔ)義線索。
漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)[7](CFN,Chinese FrameNet )是參照英語(yǔ)FrameNet而構(gòu)建的。類似于英文的框架自動(dòng)識(shí)別任務(wù)(SemEval2007 Task 19)[1],在漢語(yǔ)的框架識(shí)別(Frame Identification)中,對(duì)給定的一個(gè)目標(biāo)詞,需要判定其所屬框架。如例句: 全書(shū)的觀點(diǎn)
文獻(xiàn)中基于FrameNet對(duì)框架識(shí)別的研究已作過(guò)初步探討。Erk等[9]于2005年使用傳統(tǒng)的詞義消歧的方法針對(duì)德語(yǔ)FrameNet的框架消歧的任務(wù)進(jìn)行了研究。他們將消歧看作分類問(wèn)題,采用樸素貝葉斯分類器,并使用詞語(yǔ)的上下文窗口、詞包以及一些詞語(yǔ)搭配等特征。在其測(cè)試集上框架消歧的性能可以達(dá)到74.7%的F值。對(duì)未知框架檢測(cè),Erk[10]將這個(gè)任務(wù)看作“異常點(diǎn)檢測(cè)”,在其實(shí)驗(yàn)中取得了78%的精確率。SemEval 2007的Task 19主要針對(duì)英文FrameNet的框架識(shí)別、語(yǔ)義角色標(biāo)注和整個(gè)句子中詞語(yǔ)間語(yǔ)義關(guān)系的抽取進(jìn)行了評(píng)測(cè)[1]。其中,框架識(shí)別是其中的子任務(wù)之一。只有三個(gè)評(píng)測(cè)隊(duì)伍提交了框架識(shí)別任務(wù)的評(píng)測(cè)結(jié)果。其中,Richard Johansson等的結(jié)果最好,他們使用SVM分類器來(lái)對(duì)框架識(shí)別任務(wù)進(jìn)行建模,并從依存句法分析樹(shù)上抽取出目標(biāo)詞、目標(biāo)詞的子節(jié)點(diǎn)的詞及它們的依存關(guān)系,以及相應(yīng)的子范疇框架等信息作為特征。在給定的評(píng)測(cè)三篇語(yǔ)料“Dublin”、“China”和“Work”上,框架識(shí)別的結(jié)果分別達(dá)到了60.12%、69.18%和74.88%的F值。
目前,CFN的建設(shè)尚處于初始階段,共構(gòu)建了219個(gè)框架,涵蓋1 760個(gè)詞元和21 600條已標(biāo)注的句子。CFN構(gòu)建中,主要采用的輔助工具有山西大學(xué)FC2000,框架的語(yǔ)義角色自動(dòng)標(biāo)注器(在給定目標(biāo)詞及其框架下)[7],因此,進(jìn)一步研究框架消歧,將為自動(dòng)構(gòu)建CFN知識(shí)庫(kù)提供更多的輔助標(biāo)注工具,加快CFN的建設(shè)步伐。從CFN中統(tǒng)計(jì)結(jié)果看,其中有88個(gè)詞元可以激起兩個(gè)以上框架,涉及框架14個(gè),相應(yīng)的例句2 077條。本文正是基于這部分語(yǔ)料,對(duì)漢語(yǔ)框架消歧的研究進(jìn)行了初步探索,將框架消歧任務(wù)看作典型的單點(diǎn)分類問(wèn)題,使用最大熵對(duì)其進(jìn)行建模,選用詞、詞性、基本塊、依存句法樹(shù)上的若干特征,并且借助于開(kāi)窗口技術(shù)和BOW策略,采用3-fold交叉驗(yàn)證方式進(jìn)行了實(shí)驗(yàn),結(jié)果表明,框架消歧的精確率(Accuracy)達(dá)到69.28%,這是目前漢語(yǔ)框架消歧實(shí)驗(yàn)最好結(jié)果。
本文的組織結(jié)構(gòu)如下: 第2節(jié)描述了框架消歧任務(wù);第3節(jié)描述了實(shí)驗(yàn)所用的各種特征;第4節(jié)介紹了本文采用的評(píng)價(jià)指標(biāo);第5節(jié)給出了具體的實(shí)驗(yàn)結(jié)果及分析;第6節(jié)為總結(jié)與展望。
根據(jù)上文的描述,框架識(shí)別任務(wù)可以分為三個(gè)子任務(wù),1)詞元檢測(cè);2)未知框架檢測(cè);3)框架消歧(Frame Disambiguation,簡(jiǎn)記為 FD)。本文主要研究整個(gè)框架識(shí)別任務(wù)中的第三個(gè)子任務(wù),即框架消歧: 給定一個(gè)句子中目標(biāo)詞,已知其可以激起多個(gè)框架,要求計(jì)算機(jī)能夠基于上下文環(huán)境,從現(xiàn)有的框架庫(kù)中,為該目標(biāo)詞自動(dòng)地標(biāo)注一個(gè)適合的框架。 子任務(wù)的形式化描述如下。
給定一個(gè)句子,記為S, 將S看作一個(gè)由詞組成的序列,記為S=(w1,w2,…,wn),這里wi代表組成句子的第i個(gè)詞語(yǔ),1≤i≤n。記wt∈S為給定的待標(biāo)注的目標(biāo)詞,且其可以激起的框架集合記為F={f1,f2,…,fm},那么,框架消歧的任務(wù)為,尋找唯一一個(gè)f∈F,使其滿足:
顯然,給定句子S及目標(biāo)詞wt,上式是個(gè)一個(gè)典型的分類問(wèn)題,本文選用最大熵(ME,Maximum Entropy)來(lái)建立模型,其詳細(xì)描述請(qǐng)參見(jiàn)文獻(xiàn)[11]。由于自然語(yǔ)言處理中存在大量的稀疏特征,這會(huì)影響最大熵模型參數(shù)估計(jì)的穩(wěn)健性,因此,一般在其似然函數(shù)中加入懲罰項(xiàng),采用最大后驗(yàn)估計(jì)的方法進(jìn)行參數(shù)估計(jì)。本文實(shí)驗(yàn)中選用的懲罰項(xiàng)為服從均值為0, 方差為C的高斯分布,通過(guò)調(diào)節(jié)參數(shù)C(下文中稱為Gauss平滑參數(shù)),使得模型的分類性能達(dá)到最優(yōu)。
最大熵模型是較為常用的分類模型,其分類性能主要依賴于上下文中抽取的特征。如何抽取特征,并充分利用特征信息是框架消歧系統(tǒng)建模首先要解決的問(wèn)題。
本文選取的特征主要取自三個(gè)層面,詞層面、基本塊層面(BC,Base-Chuck)及依存語(yǔ)法關(guān)系層面(DP,Dependence-Tree),詳見(jiàn)表1。 詞層面主要包括詞、詞性以及目標(biāo)詞所在句子的詞包(BOW,Bag-of-Word)。語(yǔ)料庫(kù)中分詞和詞性體系使用的是山西大學(xué)FC2000體系。在下文的實(shí)驗(yàn)中,訓(xùn)練和測(cè)試集上的特征的提取直接取自語(yǔ)料庫(kù)中已分好詞(含命名實(shí)體標(biāo)注)的例句。
基本塊層面特征用來(lái)描述目標(biāo)詞所在基本塊與相鄰塊的塊層面組合關(guān)系。采用的是清華大學(xué)周強(qiáng)的基本塊描述體系[12],主要包括句法標(biāo)記(如np、vp等)、結(jié)構(gòu)標(biāo)記(如,定中結(jié)構(gòu)DZ、單詞塊SG等)、中心詞。實(shí)驗(yàn)中先采用周強(qiáng)的自動(dòng)分析器對(duì)每個(gè)例句自動(dòng)分析,然后再提取所用基本塊層面特征信息,因此,這部分的特征信息全部是自動(dòng)提取的,參見(jiàn)下文的例句和表2。
依存語(yǔ)法關(guān)系層面特征用來(lái)描述目標(biāo)詞在依存句法樹(shù)中與直接連接的成分及依存關(guān)系。本文采用的特征詳見(jiàn)表1的第三部分??紤]到目前的漢語(yǔ)依存句法自動(dòng)分析器還有待完善,實(shí)驗(yàn)中,本文分別使用了目前較好的三種分析器,它們是Stanford大學(xué)的依存句法分析器(v1.6)[15]、Mate依存分析器[13]和哈爾濱工業(yè)大學(xué)信息檢索研究中心(HIT)依存分析器[14],對(duì)所有例句進(jìn)行自動(dòng)分析,獲取相應(yīng)特征信息。具體的特征取值實(shí)例參見(jiàn)下文的例句和圖1。
表1 特征列表
為了對(duì)比評(píng)價(jià)各層面特征對(duì)框架消歧系統(tǒng)的貢獻(xiàn),本文將各特征進(jìn)行組合,設(shè)計(jì)了以下六個(gè)模型的實(shí)驗(yàn):
(1) Baseline: 僅使用詞和詞性特征,調(diào)節(jié)特征的窗口大小(從[-1,1]到[-5,5]),選擇最優(yōu)結(jié)果的特征窗口大小作為Baseline模型;
(2) Baseline +BOW: 在Baseline模型基礎(chǔ)上加入詞包特征。即一個(gè)句子中所有詞的集合,且與詞的順序無(wú)關(guān);
(3) Baseline +BC: 在Baseline模型基礎(chǔ)上加入基本塊特征,BC特征的窗口大小可以取[-1,1]到[-3,3];
(4) Baseline+DP: 在Baseline模型基礎(chǔ)上加入表1中依存句法特征;
(5) Baseline +BOW+DP: 在Baseline模型基礎(chǔ)上加入詞包特征和依存句法特征;
(6) Baseline+All: 表1中羅列的全部特征。
其中,使用詞、詞性和基本塊特征時(shí),窗口的選擇從[-1,1]到[-5,5]。這里[-n,n](n=1,2,…,5)表示選取特征的窗口大小,-n代表所選特征位于目標(biāo)詞左邊,n代表所選特征位于目標(biāo)詞右邊,開(kāi)大小為n的窗口(例如,以詞特征為例,窗口大小 [-2,2] 代表選取目標(biāo)詞左邊的兩個(gè)詞和右邊的兩個(gè)詞作為特征,其他依此類推)。下面以實(shí)例說(shuō)明相應(yīng)特征的取值,假設(shè)特征窗口取[-2,2],詞、詞性和基本塊特征的具體取值如表2所示。
表2 目標(biāo)詞“增加”的特征窗口取[-2,2]時(shí),相應(yīng)的詞、詞性和基本塊特征的具體取值
例句: [np-SG 奧運(yùn)會(huì)/jn ] 的/u [ap-SG 成功/a ] [vp-SG 舉辦/v ] [vp-AD 增加/v 了/u ] [np-SG 中國(guó)/nsh ] 在/p [np-SG 世界/n ] 的/u [np-SG 知名度/n ] 。/w
本文基于自動(dòng)獲得的依存句法分析樹(shù),抽取四種依存句法特征如下。參照上文的例句,下圖給出其基于Stanford、Mate、HIT三個(gè)自動(dòng)分析器得到的依存句法分析樹(shù)(見(jiàn)圖1)。
針對(duì)目標(biāo)詞“增加”,以Stanford分析器得到的依存句法分析樹(shù)為例,四種依存特征的具體取值如下給出:
(1) 子范疇框架: nsubj+dobj+asp ;
(2) 目標(biāo)詞的依存成分: {nsubj,asp,dobj};
(3) 目標(biāo)詞子節(jié)點(diǎn)的詞集合: {舉辦,了,知名度};
(4) 目標(biāo)詞父節(jié)點(diǎn)的詞: {null}。
其他兩種依存句法分析器的特征取值類似。
圖1 Stanford、Mate、HIT自動(dòng)分析的依存句法分析樹(shù)
給定一個(gè)目標(biāo)詞Wi(i=1,…,n),n為所選詞的總數(shù)(如本文n=88),在三份交叉驗(yàn)證試驗(yàn)CVj(j=1,2,3)下, 全部目標(biāo)詞的分類精確率(Accuracy)如下計(jì)算:
其中,Nij是目標(biāo)詞wi的第j份交叉驗(yàn)證實(shí)驗(yàn)CVj中測(cè)試?yán)涞膫€(gè)數(shù),ccij是目標(biāo)詞wi的第j份交叉驗(yàn)證實(shí)驗(yàn)CVj中框架分類正確的測(cè)試?yán)鋫€(gè)數(shù)。
本文以實(shí)驗(yàn)中選取的全部目標(biāo)詞的分類精確率作為評(píng)價(jià)指標(biāo)。
針對(duì)框架消歧任務(wù),本文選取漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)中可以激起多個(gè)框架的詞語(yǔ)的相應(yīng)例句作為訓(xùn)練、測(cè)試數(shù)據(jù)集。經(jīng)統(tǒng)計(jì)這樣的詞有88個(gè),其中,可以激起4個(gè)框架的詞有1個(gè),可以激起3個(gè)框架的詞有13個(gè),激起兩個(gè)框架的詞有74個(gè)。實(shí)驗(yàn)中,將所選出的88個(gè)詞中全部2 077條例句,按照每個(gè)詞元所屬的不同框架,將例句均勻分為3份。任意2份為訓(xùn)練集,另1份做測(cè)試集,做3-fold 交叉驗(yàn)證。以下的實(shí)驗(yàn)中Gauss平滑參數(shù)取1,2,3,…,20。
表3給出了僅以詞、詞性兩特征,在不同窗口大小以及最大熵模型的不同Gauss平滑參數(shù)(C >7的略去)下,框架消歧的實(shí)驗(yàn)結(jié)果。
表3 詞、詞性兩特征的實(shí)驗(yàn)結(jié)果(Accuracy/%)
從表3看出,框架消歧系統(tǒng)的性能分別在以下兩種情況時(shí)最好: 第一種情況,詞、詞性特征窗口為[-2,2],Gauss平滑參數(shù)C=2;第二種情況,詞、詞性特征窗口為[-3,3],Gauss平滑參數(shù)C=5,此時(shí),框架消歧系統(tǒng)精確率為64.42%。進(jìn)一步考慮到最大熵模型在詞、詞性特征窗口取2時(shí),特征數(shù)相對(duì)較少,訓(xùn)練時(shí)間較短,因此,本文以詞、詞性特征窗口取2時(shí)得到的模型為Baseline。以下分析分別加入其他特征對(duì)系統(tǒng)性能的影響。
(1) 在Baseline基礎(chǔ)上加入BOW特征后,框架消歧系統(tǒng)的性能取得了68.37%的結(jié)果,比Baseline提高了3.95%。BOW特征主要體現(xiàn)了在句子中常常與目標(biāo)詞同現(xiàn)的詞語(yǔ)??蚣芟缦到y(tǒng)性能的明顯提高說(shuō)明,目標(biāo)詞與其他詞的搭配信息在目標(biāo)詞的框架消歧任務(wù)中起重要作用,這基本符合語(yǔ)言學(xué)的規(guī)律。
(2) 在Baseline基礎(chǔ)上加入自動(dòng)獲得的BC特征,結(jié)果(為節(jié)省篇幅,將Gauss平滑參數(shù)C >5的略去)如下:
基于Baseline+BC,將BC特征窗口大小依次從[-1,1]到[-3,3]調(diào)整,發(fā)現(xiàn)框架消歧系統(tǒng)的性能在基本塊特征窗口為[-2,2]時(shí)最大。此時(shí)系統(tǒng)性能達(dá)到64.42%,與Baseline系統(tǒng)相同。這表明BC特征對(duì)框架消歧任務(wù)基本不起作用。 這其中可能的原因是: 本文使用的是基本塊的自動(dòng)分析器,而自動(dòng)分析器的性能在開(kāi)放語(yǔ)料環(huán)境下并不理想。
表4 Baseline基礎(chǔ)上基本塊特征的實(shí)驗(yàn)結(jié)果
例如,本文上面所給出的例句的BC特征的具體取值(見(jiàn)表2),自動(dòng)分析的結(jié)果大多為單詞塊(SG),BC特征與詞特征相比,除了標(biāo)記記號(hào)不同以外,基本上沒(méi)有為模型增加更多的信息,因此,對(duì)系統(tǒng)性能的提高作用不大。本文將以下含有BC特征的模型實(shí)驗(yàn)的BC特征的窗口統(tǒng)一固定為[-2,2]。
(3) 在Baseline基礎(chǔ)上加入自動(dòng)分析獲得的DP特征,結(jié)果如下:
表5 在Baseline基礎(chǔ)上加入三種依存句法分析器的結(jié)果
需要說(shuō)明的是,在使用Stanford的DP分析器對(duì)語(yǔ)料中所有句子自動(dòng)分析中,有14個(gè)句子不能輸出結(jié)果,占14/2 077=0.67%。即使如此,從上表可以看出,系統(tǒng)基于三種不同的依存句法分析器的結(jié)果抽取DP特征,系統(tǒng)性能均有不同程度的提高,說(shuō)明DP特征對(duì)框架消歧有一定的作用。系統(tǒng)性能提高的幅度不高,主要是由于目前在開(kāi)放語(yǔ)料測(cè)試環(huán)境下,自動(dòng)分析器的性能并不理想。
(4) 在Baseline+BOW的基礎(chǔ)上,加入自動(dòng)分析獲得的DP特征,結(jié)果見(jiàn)表6。
從表6可以看出,在Baseline+BOW基礎(chǔ)上加入DP特征,各系統(tǒng)性能也均有提高,這進(jìn)一步說(shuō)明DP特征對(duì)框架消歧任務(wù)有用。
(5) 使用全部特征, 即Baseline +BOW +DP+BC,結(jié)果見(jiàn)表7。
在Baseline+BOW+DP基礎(chǔ)上加入BC特征,系統(tǒng)性能均有不同程度下降,這進(jìn)一步說(shuō)明BC特征對(duì)系統(tǒng)沒(méi)有作用。
表6 在Baseline+BOW基礎(chǔ)上加入三種依存句法分析器的結(jié)果
表7 在Baseline+BOW+DP基礎(chǔ)上加入BC特征的結(jié)果
結(jié)論: Baseline +BOW +DP(Mate)組合特征的系統(tǒng)性能69.28%為所有模型中最好。圖2是六個(gè)模型的性能隨Gauss平滑參數(shù)C值變化的圖,其中DP特征是從Mate句法分析器自動(dòng)獲取的依存句法分析樹(shù)中抽取的。
圖2 各模型的性能隨Gauss平滑參數(shù)C值變化圖
本文將漢語(yǔ)框架消歧任務(wù)看作典型的分類問(wèn)題,使用最大熵對(duì)其進(jìn)行建模,并且借助于開(kāi)窗口技術(shù)和BOW策略分別選取了詞、詞性、基本塊、依存句法樹(shù)上的若干特征,構(gòu)建了漢語(yǔ)框架消歧模型,該模型的精確率(Accuracy)達(dá)到69.28%,這是目前漢語(yǔ)框架消歧實(shí)驗(yàn)的最好結(jié)果。綜合分析本文的實(shí)驗(yàn)結(jié)果,歸納幾點(diǎn)主要結(jié)論如下:
(1) 自動(dòng)分析得到的基本塊特征對(duì)框架消歧任務(wù)不起作用;
(2) 依存句法特征對(duì)框架消歧任務(wù)有作用。三種自動(dòng)依存句法分析器中Mate最好,其他兩個(gè)沒(méi)有差別;
(3) 詞包特征(BOW)對(duì)框架消歧任務(wù)作用明顯;
(4) 基于詞、詞性、詞包、依存句法(Mate)組合特征的模型,性能最高。
框架消歧是漢語(yǔ)框架網(wǎng)絡(luò)自動(dòng)語(yǔ)義分析中重要的步驟,與傳統(tǒng)的詞義消歧(主要是名詞的消歧)不同,框架消歧主要針對(duì)句子中核心動(dòng)詞或事件名詞,這些詞是句義的主要承擔(dān)者??蚣苷Z(yǔ)義學(xué)認(rèn)為,框架是人類認(rèn)知中逐漸形成且固定下來(lái)的概念結(jié)構(gòu),這些概念結(jié)構(gòu)相互聯(lián)系形成網(wǎng)絡(luò)。一個(gè)概念(框架)的理解不只是孤立考察這個(gè)概念本身,而是要將其放在整個(gè)框架網(wǎng)絡(luò)中才能理解。一個(gè)句子乃至篇章的語(yǔ)義是由其中的詞語(yǔ)激起的框架以及這些框架之間的關(guān)系來(lái)表達(dá)的。同一個(gè)詞語(yǔ)在不同的句子中可以激起不同的框架(概念結(jié)構(gòu)),導(dǎo)致不同的理解。因此,根據(jù)上下文正確識(shí)別出詞元的適當(dāng)框架對(duì)句子的理解非常重要。
然而,本文所構(gòu)建的漢語(yǔ)框架消歧模型中涉及的上下文只在句子層面。直觀地說(shuō),就是根據(jù)目標(biāo)詞在句中經(jīng)常搭配的詞語(yǔ),以及目標(biāo)詞所在依存句法分析樹(shù)的句法信息來(lái)判別目標(biāo)詞所激起的框架。這樣只用到句子層面的上下文信息是否充分,是否還需要更為豐富的上下文信息(比如段落或篇章),以及如何用?這是下一步需要研究的。 在SemEval-2007 Task 19評(píng)測(cè)任務(wù)中,測(cè)試是建立在整篇文本之上的,這說(shuō)明基于整個(gè)篇章對(duì)框架消歧任務(wù)進(jìn)行建模和評(píng)測(cè)更實(shí)用。事實(shí)上,框架語(yǔ)義學(xué)的初衷并不局限于句子層面的理解,而是瞄準(zhǔn)整個(gè)篇章的語(yǔ)義分析,因此,在英文FrameNet的語(yǔ)料中,有幾十篇的全文框架標(biāo)注,其目的是明確的。
另外,僅從框架消歧模型的技術(shù)層面來(lái)說(shuō),消歧模型可以考慮使用CFN中相應(yīng)框架定義描述中的信息,或定義中的例句信息,這些新特征都有可能增加系統(tǒng)的性能。另一方面,目前語(yǔ)料規(guī)模較小,雖然本文采用了交叉驗(yàn)證方法,減少了結(jié)果的波動(dòng),但是系統(tǒng)性能的提升仍受語(yǔ)料規(guī)模的限制,需要考慮如何使用未標(biāo)注語(yǔ)料,擴(kuò)大語(yǔ)料規(guī)模,減少特征信息的稀疏性,此外,也可以嘗試使用其他的分類模型,如SVM、神經(jīng)網(wǎng)絡(luò)等。這些都是下一步研究的主要方向。
實(shí)驗(yàn)過(guò)程中使用了山西大學(xué)FC2000分詞軟件、清華大學(xué)周強(qiáng)教授提供的漢語(yǔ)基本塊自動(dòng)標(biāo)注器、Stanford大學(xué)的句法分析器(v1.6)、哈爾濱工業(yè)大學(xué)信息檢索研究中心語(yǔ)言技術(shù)平臺(tái)LTP,Mate依存句法分析器,在此表示謝意!
[1] Collin Baker, Michael Ellsworth, Katrin Erk, SemEval’07 Task 19: Frame Semantic Structure Extraction [C]//Proceedings of the 4th International Workshop on Semantic Evaluations Prague, Czech Republic, June 23-24 2007: 99-104.
[2] Surdeanu M, Johansson R, Meyers A, Màrquez L, Nivre J. The CoNLL 2008 Shared Task on Joint Parsing of Syntactic and Semantic Dependencies [C]//Clark A, Toutanova K, eds. Proc.of the CoNLL-2008. Manchester: ACL Press, 2008: 159-177.
[3] Hajic J, Ciaramita M, Johansson R, Kawahara D, Marti MA, Màrquez L, Meyers A, Nivre J, Padó S, Stěpánek J, Stranak P, Surdeanu M, Xue NW, Zhang Y. The CoNLL-2009 shared task: Syntactic and Semantic Dependencies in Multiple Languages [C]//Stevenson S, Carreras X, eds. Proc. of the CoNLL-2009. Boulder: ACL Press, 2009.
[4] Josef Ruppenhofer,Caroline Sporleder and Roser Morante.SemEval-2010 Task 10: Linking Events and Their Participants in Discourse[C]//Boulder: ACL Press, 2010: 45-50.
[5] Baker CF, Fillmore CJ, Lowe JB. The Berkeley FrameNet project [C]//Morgan K, ed. Proc. of the COLING-ACL’98. Montreal: ACL Press, 1998: 86-90.
[6] Litkowski KC. Senseval-3 task automatic labeling of semantic roles [C]//Mihalcea R, Edmonds P, eds. Proc. of the 3rd Int’l Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Barcelona: ACL Press, 2004. 9-12.
[7] 李濟(jì)洪,王瑞波,王蔚林,李國(guó)臣. 漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注研究[J].軟件學(xué)報(bào), 2010,30(4): 597-611.
[8] Navigli, R. 2009. Word Sense Disambiguation: A Survey [J]. ACM Computing Survey. 41, 2 (Feb. 2009), 1-69. DOI=http://doi.acm.org/10.1145/1459352.1459355.
[9] Erk, K. (2005). Frame Assignment as Word Sense Disambiguation [C]//Proc.of IWCS-6, Tilburg University, Tilburg, the Netherlands, 2005.
[10] Erk, K. 2006. Unknown word sense detection as outlier detection [C]//Proc.of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics (New York,June 04-09,2006). Human Language Technology Conference. Association for Computational Linguistics, Morristown, NJ, 128-135. DOI=http://dx.doi.org/10.3115/1220835.1220852.
[11] Berger, A.L.,Pietra, V.J., and Pietra, S.A. A Maximum Entropy Approach to Natural Language Processing [J]. Computational Linguistic, 1996, 22(1): 39-71.
[12] 周強(qiáng).漢語(yǔ)基本塊描述體系[J].中文信息學(xué)報(bào), 2007, 21(3): 21-27.
[13] Bernd Bohnet. Top Accuracy and Fast Dependency Parsing is not a Contradiction[C]//The 23rd International Conference on Computational Linguistics (COLING 2010), Beijing, China. 2010.
[14] 馬金山.基于統(tǒng)計(jì)方法的漢語(yǔ)依存句法分析研究[D].哈爾濱工業(yè)大學(xué)博士學(xué)位論文. 2007.
[15] Marie-Catherine de Marneffe, Bill MacCartney and Christopher D.Manning. Generating Typed Dependency Parses from Phrase Structure Parses[C]//LREC 2006. 2006.