熊 皓, 劉 群, 呂雅娟
(1. 中國科學院計算技術研究所,北京 100190; 2. 橙譯中科信息技術有限公司,北京100010)
傳統(tǒng)的語義角色標注方法[1]通常是將語義角色映射到句法樹中的相應節(jié)點,通過抽取句法節(jié)點和謂詞之間的一些本地特征進行角色分類。Toutanova[2]等人的工作證明,在利用語義角色初步分類的基礎上,保留最好的5個分析結(jié)果,通過抽取一些全局特征對5個分析結(jié)果進行重新排序,最后能將標注的F值提高1.5%左右。但是Toutanova等人在文獻中也提到過,雖然可以利用初步分類的更多最好結(jié)果,如10個最優(yōu)結(jié)果進行重排序,理論上來說最后標注的上限可以更高,但是在實際實驗中反而帶來更多的分類噪聲,實驗結(jié)果不甚理想。在本文中我們提出另外一種重排序的方法,在保留更多初步最優(yōu)分析結(jié)果的情況下,仍然能夠提高最終標注的綜合性能。
在傳統(tǒng)的標注模型中,對角色的標注通常是單獨進行的,并且一般對于一個句子中的多個謂詞也是分別進行角色標注。因此對于同樣的謂詞來說,或者語義上相近的謂詞來說,由于標注時抽取的都是本地特征,所以最后的全局標注結(jié)果無法保證所有的角色標注都是一致的。例如,我們從測試集中找出了關于謂詞“spur”的三個不同例句,使用一般的基準系統(tǒng)[3]進行標注,標注的結(jié)果如下:
For weeks, the market had been nervous about takeovers, after [Campeau Corp.’s cash crunch]ARG1spurred[concern about the prospects for future highly leveraged takeovers]ARG2.
2. [Friday’s market tumble]ARG2[could]ARGM-MODspur[action on reconciling the House and Senateversions of the deficit-reduction measure]ARG1, a process that is not expected to begin until tomorrow at the soonest.
3. Beginning in mid-1987, prices began accelerating as [a growing U.S. economy and the weak dollar]ARG2spurred[demand]ARG1.
在上面的標注結(jié)果中,第1個句子錯誤的將謂詞前半部分的名詞短語標注為了ARG1而將謂詞后面的名詞短語標注為了ARG2,而后面的兩個句子則完全正確的標注了謂詞“spur”的所有角色。至于第1個句子為什么會被標注錯誤,原因比較難以分析,一種可能的解釋是前半部分的中心詞相關的特征在訓練語料中更多可能的是被標注為了ARG1。
不過如圖1所示,我們通過對比第1個句子和第2個句子的句法分析結(jié)果,發(fā)現(xiàn)兩個句子的候選節(jié)點之間無論從語義上還是句法上來說都存在很大的相似度。例如,第1個句子中的“cash crunch”和第2個句子中的“market tumble”在語義中都和經(jīng)濟、金融等語義概念相關,因此具有很強的語義相似性;并且在兩個句子中,謂詞后面的名詞短語具有很強的句法相似性。因此很自然的想法是能否利用在給定相同謂詞或者語義相近的謂詞情況下,通過候選節(jié)點之間的相似度,將錯誤的標注結(jié)果糾正過來。為了實現(xiàn)這個想法,本文提出一種基于圖模型的迭代算法,通過節(jié)點之間的相似度約束,循環(huán)迭代的調(diào)整標注的結(jié)果,最終達到相似度高的節(jié)點標注一致性。
注: 上面的例子是自動標注錯誤的,下面的例子是標注正確的。 圖1 兩個帶有謂詞“spur”的句子標注結(jié)果
本文的組織結(jié)構如下: 在第2節(jié)中我們將詳細介紹我們的重排序模型中使用的相似度算法以及標記傳播迭代算法;在第3節(jié)中將給出實驗結(jié)果;在第4節(jié)中將簡單介紹相關工作;最后在第5節(jié)中總結(jié)本文工作。
如前文所述,我們希望在輸出初步標注結(jié)果的情況下,利用一些候選節(jié)點之間的相似度關系,重新對標注的結(jié)果進行排序,使得給定相同謂詞或者語義相近謂詞的情況下,相似度高的候選節(jié)點標注的結(jié)果更一致。因此我們在針對每個謂詞的標注過程中,在生成當前最優(yōu)標注結(jié)果的同時,保留每個節(jié)點的前k個分類結(jié)果。值得注意的是,在這里我們不對所有候選節(jié)點輸出前k個分類結(jié)果,而僅針對那些最后生成最優(yōu)標注結(jié)果的節(jié)點輸出多個分類結(jié)果,這樣做的原因是盡可能的減少其他非語義角色節(jié)點帶來的噪聲。
如圖2所示,我們首先對每個謂詞進行初步角色標注,然后對每個謂詞中標注為語義角色的節(jié)點輸出k個分類結(jié)果。在完成整個測試集的初步標注后,我們計算每個謂詞和標注節(jié)點之間的相似度,并且構建圖模型,最后通過循環(huán)迭代,優(yōu)化標注的結(jié)果。需要說明的是,我們利用測試集中的每個句子中每個謂詞的所有候選節(jié)點,來構造圖模型。在實際應用中可以根據(jù)輸入的篇章信息對集合進行切割,由于我們使用的PropBank[4]并沒有篇章標記,因此在本文的后面實驗部分,我們采用的是利用整個測試集中候選節(jié)點建立圖模型。
在后面幾節(jié)中我們將重點討論如何建立節(jié)點之間的圖模型,以及節(jié)點之間的相似度計算等主要問題。
圖2 基于圖模型重排序的流程
2.1 圖模型基本定義
我們建立的標注圖模型定義如下:
定義1標注圖模型G由二元組
以第1節(jié)中的謂詞“spur”的前兩個句子標注結(jié)果為例,圖3給出了標注節(jié)點構建的圖模型示例,其中節(jié)點A和B為第1個句子標注的結(jié)果,C, D, E為第2個句子標注的結(jié)果,在圖3中,我們沒有將第3個句子的標注結(jié)果加入到圖模型中,以免圖規(guī)模太大難以解釋。
注: 圖中圓點為標注節(jié)點,邊權重為節(jié)點之間相似度,旁邊的弧形框為初步標注結(jié)果。圖3 標注圖模型
在下面一小節(jié)中我們將主要討論如何計算圖模型中的邊權重,即如何計算兩個節(jié)點之間的相似度。
2.2 相似度計算
在我們的標注圖模型框架中,最重要的一個環(huán)節(jié)是計算節(jié)點之間的相似度,相似度定義的好壞直接決定了圖模型中的標注節(jié)點能否收斂到最優(yōu)值。為了衡量兩個節(jié)點是否標記為同一語義角色,我們采用如下插值公式,如式(1)所示。
Simi,j=
其中SimPrei,j為兩個節(jié)點的謂詞之間相似度,SimArgi,j為節(jié)點之間的相似度。由于最后形成的圖非常巨大,因此我們通過SimPrei,j之間的大小來限制節(jié)點間的連線,提高運行效率的同時減少了噪聲,此外對于同一個句子的不同節(jié)點,我們也不進行連邊,因為在初步標注時已經(jīng)考慮過同一句子內(nèi)部的節(jié)點信息。對于SimPre和SimArg的計算,受Roth和Frank工作[5]的啟發(fā),我們分別計算節(jié)點謂詞以及節(jié)點中心詞之間的WordNet相似度SimWN,VerbNet相似度SimVN, 分布相似性(Distributional Similarity)SimDist,并且計算節(jié)點句法樹之間的樹核相似度SimKernel,最后通過插值得到兩個節(jié)點之間的標注相似度。下面我們將分別介紹以上四類相似度的計算方法。
WordNet相似度: 對于給定的兩個謂詞pre1和pre2,我們可以利用WordNet[6]獲取出他們的所有同義詞集合Syn1以及Syn2,我們計算兩個集合之間任意詞之間的最大值,即
其中SimWN_Lin為Lin[7]提出的利用WordNet計算兩個詞之間相似度的方法。在這里,為了計算兩個詞之間的WordNet距離,我們采用和Roth等人相同的方法: 首先獲取兩個詞在WordNet里面的最近公共包含LCS(Syni,Synj),以兩個常見的名詞“dog”和“cat”為例,圖4給出了它們的上位詞樹(Hypernyms Tree),并且將最近公共包含“carnivore”加粗標記出來。
對于Syni,Synj以及LCS(Syni,Synj)來說,我們利用Information Content(IC)[8]來計算它們之間的相似度。IC值是用來衡量WordNet中一個語義概念出現(xiàn)概率的方法之一,一般來說,對于WordNet分類C(taxonomy)中的一個概念c1和他的上位詞c2(c1IS-Ac2)來說,他們出現(xiàn)的概率一般滿足p(c1) ≤p(c2),并且分類中的最頂層節(jié)點的概率為1。Resnik定義的IC計算方式為式(3)。
其中N為語料庫中的所有單詞個數(shù),freq(c)為
其中words(c)為概念c包含的所有單詞,count(w)為單詞在語料庫中出現(xiàn)的次數(shù)。因此按照上面兩個公式計算,上位詞的出現(xiàn)概率要高于下位詞。
注: 其中實線為IS-A鏈接,虛線表示為了節(jié)省表述空間,中間省略了很多節(jié)點。圖4 WordNet中dog和cat的最近公共包含為carnivore
因為Pedersen等人[9]預先已經(jīng)計算好了WordNet中所有詞的IC值,并且提供了IC文件*http://www.d.umn.edu/~tpederse/similarity.html下載,因此我們直接從里面檢索結(jié)果來計算下面的公式,如式(5)所示。
VerbNet相似度: 由于在WordNet中對于動詞的標注存在一些設計錯誤[10],如Richens發(fā)現(xiàn)的在WordNet中有些動詞在上位詞樹中的關系形成了一個環(huán),因此為了更準確的計算謂詞之間的相似度,我們利用VerbNet[11]來進一步計算謂詞之間的語義距離。VerbNet中的動詞根據(jù)他們的一些句法特性將其歸為了多個類別,并且形成一個類別樹,即一個類別C可能存在多個子類別Cs使得Cs∈sub(C),我們采用Roth和Frank相同的特征函數(shù)計算兩個謂詞之間的SimVN(prei,prej)值:
SimVN(prei,prej)
分布相似性: 畢竟WordNet和VerbNet的覆蓋面有限,對于節(jié)點中的一些中心詞或者謂詞不一定出現(xiàn)在上面兩個資源庫中, 因此我們利用Giga- Word*http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2003T05來計算詞之間的分布相似性。分布相似性可以看作是給定大小的語義向量空間內(nèi)的語義距離[12],是一種通過大規(guī)模語料統(tǒng)計計算任意詞之間語義相似度的有效方法之一。我們參照一些成熟工作的做法[13-14],提取每個謂詞prei左右上下文單詞,并且利用從GigaWord中計算的頻度中選取最高頻的2 000個單詞(c1,c2,...,c2000)作為向量維度,通過計算每個謂詞和高頻詞之間的點間互信息(PMI)構成每個謂詞的向量空間:
PMI(prei,c2000))(7)
其中
freq(prei),freq(cj)以及freq(prei,cj)為謂詞、高頻詞在語料庫中單獨出現(xiàn)和共現(xiàn)的次數(shù)。
利用每個謂詞的向量空間值,我們采用最簡單的Cosin距離計算他們之間的分布相似性數(shù)值。
樹核相似度: 對于論元來說,通常包含多個單詞,僅僅使用詞級別的特征來衡量他們之間的相似度是不夠的,因此我們利用他們之間的句法樹來計算句法距離,即通過卷積樹核計算兩棵句法樹之間的相似度。不同于樹結(jié)構的字符串表示形式,卷積樹核[15]通過特征向量來表示不同的句法樹。一般來說,一棵句法樹t可以使用特征向量f來表示,f可以表示為f(t)=(st1(t), …,sti(t), …,stn(t),其中sti(t)表示的是句法樹t中第i棵子樹出現(xiàn)的次數(shù)。圖5給出了一棵句法樹拆分為子樹的例子,可以看出盡管圖例的句法片段很小,但是枚舉出來的子樹規(guī)模仍然多達5棵。
圖5 第一棵樹為句法樹片段,后面5棵樹為其拆分后的所有子樹。
一般而言,對于樹高度為l的滿二叉樹來說,其可以拆分枚舉的子樹個數(shù)為2l+1。因此對于一般的句法樹片段而言,直接枚舉所有子樹是不可能的,因此Collins和Duffy提出了使用卷積樹核來高效計算兩棵句法樹相似度的方法。
其中N1和N2分別是句法樹t1和t2的節(jié)點集合,Ii(n)表示句法樹的子樹是否以n作為根節(jié)點,是則為1,反之為0;表示兩棵句法樹中分別以n1和n2作為根節(jié)點的子樹個數(shù)。并且C(n1,n2)可以通過下面的定義在多項式時間內(nèi)計算出來:
其中nc(n1)表示節(jié)點n1包含的推導中子節(jié)點個數(shù),由于節(jié)點n1和n2的推導相同,所以nc(n1)=nc(n2),此外h(n1,j)表示n1包含的推導中第j個子節(jié)點。λ(0≤λ≤1)是懲罰因子,用來降低子樹規(guī)模對C(n1,n2)大小的影響。上面的式子可以通過動態(tài)規(guī)劃在多項式時間內(nèi)計算得出。
因此最后我們通過歸一化計算出圖模型中節(jié)點ai,aj之間的樹核相似度。
歸一化: 對于圖模型中的任意兩個節(jié)點ai,aj及其對應的謂詞prei,prej,我們通過式(12)計算節(jié)點之間邊權重:
Simai,aj=α·SimPrei,j+(1-α)·SimArgi,j
=α·(λ1SimWN(prei,prej)
+λ2SimVN(prei,prej)
+λ3SimDist(prei,prej))(12)
+(1-α)(θ1SimWN(hai,haj)
+θ2SimVN(hai,haj)
+θ3SimDist(hai,haj)
+θ4SimKernel(ai,aj))(13)
其中hai和haj分別為節(jié)點ai和aj的中心詞。并且當SimPrei,j< 0.5時,我們不建立ai和aj之間的邊。
為了便于參數(shù)調(diào)整我們對λ和θ兩組參數(shù)進行歸一化,即滿足λ1+λ2+λ3= 1.0和θ1+θ2+θ3+θ4=1.0。
2.3 標記傳播迭代算法
對于一個帶有標記的圖模型來說,根據(jù)每個節(jié)點的一些本地信息,我們通常利用一些迭代算法,也可以稱之為標記傳播,對節(jié)點的本地信息進行互相傳播,最終優(yōu)化到一個全局穩(wěn)定的最優(yōu)分布。標記傳播算法在自然語言處理中已經(jīng)被廣泛的使用,例如,用于詞性標注[16-17],無監(jiān)督語義角色標注[18]語義分析[19],機器翻譯[20],指代消解等問題[21-22]。
在前面小節(jié)中我們已經(jīng)對圖模型給出了基本的定義,在這里我們再定義一個表示節(jié)點vi標記為角色標注l的兼容度Sil。對于一個節(jié)點標記為某一標注的兼容度,可以有多種計算方式[23],在本文中,我們采取最簡單的計算方式,即一個節(jié)點的標注兼容度表示為和其相鄰的節(jié)點標記為同一標注的概率與邊權重之和,如式(14)所示。
其中A(vi)表示為和節(jié)點vi相連接的其他節(jié)點。
迭代算法的目標在于找到一組標注概率分布,使得圖模型中的節(jié)點最大可能的滿足標注一致性,也可以等價為最大化每個節(jié)點的標注兼容度。因此要達到一個全局最優(yōu)的標注概率分布H*必須滿足下面的約束條件。
Algorithm 1標記傳播迭代算法
1:輸入: 圖G,節(jié)點的初步標注概率分布H
2:輸出: 節(jié)點的全局最優(yōu)標注概率分布H*
3: for 循環(huán)次數(shù)t≤1000 do
4: for 對于圖中每個節(jié)點vido
5: for 對于節(jié)點的每個可能標注ldo
?計算每個節(jié)點的標注兼容度Sil
7: for 對于節(jié)點的每種可能標注ldo
?更新節(jié)點vi的標注概率分布
算法1給出了迭代算法的詳細過程,我們對圖中的每個節(jié)點迭代1 000輪,首先在第6行計算每個節(jié)點的當前標注兼容度,在第8行通過重新計算的標注兼容度歸一化后更新當前的標注概率分布,最后迭代1 000輪達到全局最優(yōu)概率分布。
3.1 實驗數(shù)據(jù) 我們采用PropBank數(shù)據(jù)集,根據(jù)CoNLL-2005的切分策略和自動句法分析樹進行實驗,使用PropBank中的02-21分塊作為訓練集,第24塊用于開發(fā)集,第23塊用于測試集。整個數(shù)據(jù)集由43 594個句子組成,其中有262 281個論元角色,包含35種語義角色,分別是ARG0-ARG5, AA, 14個修飾角色ARGM-X以及14個引用論元R-X。
3.1實驗結(jié)果
我們采用前人工作總結(jié)的比較有效的判別特征[1,24,25,2,26]設計基準對比系統(tǒng),并且我們進行性能測試時做了一些細微調(diào)整,以此來查看重排序潛在的提升空間。例如,如果準確的標注結(jié)果是ARG0,ARG1,ARG2,ARGM-MOD,ARGM-TMP這五個語料中分布最多的角色時,當我們將基準系統(tǒng)的最優(yōu)標注結(jié)果的節(jié)點輸出前k個概率最高的角色標注集合里面包含這五個角色時,則無論其是否為最優(yōu)的,我們都認為標注準確,以此來查看這個角色重排序時能達到的最高性能。例如某節(jié)點輸出的前2個標注結(jié)果是ARG1=0.5,ARG0=0.4,而此節(jié)點的正確標注是ARG0,則我們?nèi)哉J為此標注結(jié)果正確。表1給出了輸出1,2,3,5個概率最高角色標注結(jié)果時(去除標記為NULL的標注結(jié)果),在五個主要角色中重排序模型在開發(fā)集中所能達到的最高性能(F值),k=1實際上就是基準系統(tǒng)的性能。
從圖1中可以看出,隨著輸出的候選結(jié)果越多,幾個主要的語義角色都有了不少性能提升,并且僅輸出2個候選結(jié)果時,總體的性能上限都可以提升3個點左右。同時我們也發(fā)現(xiàn),最優(yōu)的標注結(jié)果一般都在前3個候選結(jié)果中,當k=5時性能已不再發(fā)生太大的變化,因此在后面的實驗中我們都只輸出標注的前3個結(jié)果。
特征參數(shù)實驗
由于我們使用了α,β,θ三組參數(shù)進行控制相似度計算,因此參數(shù)很不好調(diào)節(jié)。我們的參數(shù)調(diào)整策略為,每次剔除一個相似度計算方法,其他權重采用平均化處理,通過查看實驗結(jié)果大致給出每個相似度計算方法的權重比例。最后通過固定β和θ的值,每次對α調(diào)整0.1個單位。表2給出了以上實驗配置思路的不同實驗結(jié)果,其中WordNet_表示去除WordNet特征后的實驗結(jié)果,其他類似。優(yōu)化為根據(jù)前面幾組實驗結(jié)果優(yōu)化調(diào)整參數(shù)后的結(jié)果。從表2的實驗結(jié)果中,我們可以看出在前三個語義特征中Dist起到的作用最大,因為去除這個特征后系統(tǒng)所能取得的性能提升最小。此外我們發(fā)現(xiàn)去除kernel特征后,系統(tǒng)性能反而比基準系統(tǒng)還差了。一個可能的解釋在于去除這個特征后,對于節(jié)點的相似度只能完全依靠節(jié)點的中心詞相似度進行計算,而句法錯誤時中心詞也有可能是錯的,因此句法錯誤將會影響到圖中節(jié)點的相似度計算,但是采用樹核計算則可以減少句法分析錯誤的影響。因此根據(jù)上面四組的特征貢獻度,我們根據(jù)經(jīng)驗性的調(diào)整每個權重的大小,最后在如下權重設置時:α=0.6,λ1=0.2,λ2=0.3,λ3=0.5,θ1=0.1,θ2=0.15,θ3=0.25,θ4=0.5,如表2所示,系統(tǒng)達到了80%的F值。雖然最后的結(jié)果距離可能達到的系統(tǒng)性能上限82.08具有一定的距離,但是已經(jīng)超過基準系統(tǒng)2.4個點,并且超過了Toutanova等人得到的性能提升。
表1 重排序可能達到的最高性能
利用重排序改進語義角色標注性能的方法最有效的工作為前文詳細介紹過的Toutanova等人[2]的工作,和本文不同的是他們是對一個謂詞整體標注的前k個最好標注結(jié)果利用語言模型重排序,而本文是通過節(jié)點之間的相似度對標注結(jié)果進行重新排序。
類似的使用圖模型對問題建模,并且根據(jù)節(jié)點間的相似度對節(jié)點標注結(jié)果進行迭代的思想最早由Zhu和Zoubin于2002年[27]提出,最早用于解決半監(jiān)督的學習問題。
和本文較為相近的工作為Lang和Lapta[18]提出的利用圖分割算法對語義角色標注進行無監(jiān)督學習,他們通過利用詞匯和句法兩個插值特征來衡量候選論元之間的相似度,并且將最后的聚類問題轉(zhuǎn)化為圖分割算法進行求解。
表2 采用不同相似度公式配置下的實驗結(jié)果
本文提出了一種利用圖模型算法對語義角色標注結(jié)果進行重新排序的方法,通過對標注節(jié)點之間的相似度計算,利用標記傳播算法將不同節(jié)點的標注信息進行互相傳遞,最終達到全局標注結(jié)果的一致性。并且本文分析了理想情況下,迭代算法所能達到的最好性能,最后的實驗證明,使用標記傳播算法迭代調(diào)整后,在篇章級別上的語義角色標注性能有了2.4個F值的顯著提升。此外本文的工作還表明語義角色標注的標準結(jié)果基本保留在語義角色候選節(jié)點的前3個標注結(jié)果中,這個結(jié)論有利于將語義角色標注應用于如機器翻譯等應用中,進而彌補當前語義角色標注性能不足的缺陷。
[1] Daniel Gildea, Daniel Jurafsky. Automatic labeling of semantic roles[J]. Computational Linguistics, 2002, 8(3):245-288.
[2] Kristina Toutanova, Aria Haghighi, Christopher D Manning. A global joint model for semantic role labeling[J]. Computational Linguistics, 2008, 34(2):161-191.
[3] Sameer Pradhan, WayneWard, Kadri Hacioglu, et al. Semantic role labeling using different syntactic views[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Michigan State, USA: ACL Publication Chairs, 2005: 581-588.
[4] Martha Palmer, Daniel Gildea, and Paul Kingsbury. The proposition bank: an annotated corpus of semantic roles[J]. Computational Linguistics, 2005, 31(1):71-106.
[5] Michael Roth and Anette Frank. Aligning predicates across monolingual comparable texts using graph-based clustering[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea: ACL Publication Chairs, July 2012: 171-182.
[6] Christiane Fellbaum. Wordnet. Theory and Applications of Ontology: Computer Applications[M]. USA: Springer, 2010: 231-243.
[7] Dekang Lin. An information-theoretic definition of similarity[C]//Proceedings of the 15th International Conference on Machine Learning. San Francisco: ICML Publication Chairs, 1998, (1): 296-304.
[8] Philip Resnik. Using information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence. Montréal Québec, Canada: Morgan Kaufmann, 1995, (2): 448-453.
[9] Ted Pedersen, Siddharth Patwardhan, and Jason Michelizzi. Wordnet::similarity—measuring the relatedness of concepts[C]//Proceedings of HLT-NAACL 2004 Demonstration Papers. Boston, Massachusetts, USA: NAACL Publication Chairs, 2004: 38-41.
[10] Tom Richens. Anomalies in the WordNet verb hierarchy[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, UK: Coling 2008 Organizing Committee, August 2008: 729-736.
[11] Karin Kipper, Anna Korhonen, Neville Ryant, et al. A large-scale classification of english verbs[J]. Language Resources and Evaluation, 2008, 42(1):21-40.
[12] Thomas K Landauer, Susan T Dumais. A solution to plato’s problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge[J]. Psychological Review, 1997, 104(2):211.
[13] Jeff Mitchell, Mirella Lapata. Composition in distributional models of semantics[J]. Cognitive Science, 2010, 34(8):1388-1429.
[14] Weiwei Guo, Mona Diab. Semantic topic models: Combining word distributional statistics and dictionary definitions[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK: EMNLP Publication Chairs, July 2011: 552-561.
[15] Michael Collins, Nigel Duffy, et al. Convolution kernels for natural language[C]//Proceedings of NIPS. Granada, Spain: NIPS Publication Chairs, 2001, (14): 625-632.
[16] Lluis Marquez, Lluis Padro, Horacio Rodriguez. A machine learning approach to pos tagging[J]. Machine Learning, 2000, 39(1):59-91.
[17] Dipanjan Das, Slav Petrov. Unsupervised part-of-speech tagging with bilingual graph-based projections[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. Portland, Oregon, USA: ACL Publication Chairs, June 2011: 600-609.
[18] Joel Lang, Mirella Lapata. Unsupervised semantic role induction with graph partitioning[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK: EMNLP Publication Chairs, July 2011: 1320-1331.
[19] J Atserias. Towards Robustness in Natural Language Understanding[D]. Donosti, Spain:Dept. Lenguajes y Sistemas Inform′aticos. Euskal Herriko Unibertsitatea, 2006.
[20] Shujie Liu, Chi-Ho Li, Mu Li, et al. Learning translation consensus with structured label propagation[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, Jeju Island, Korea: ACL Publication Chairs, July 2012: 302-310.
[21] GuoDong Zhou, Fang Kong. Global learning of noun phrase anaphoricity in coreference resolution via label propagation[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: EMNLP Publication Chairs, 2009: 978-986.
[22] Emili Sapena, Llu′?s Padr′o, Jordi Turmo. A global relaxation labeling approach to coreference Resolution[C]//Proceedings of Coling 2010: Posters. Beijing, China: Coling 2010 Organizing Committee, August 2010, pages 1086-1094.
[23] Carme Torrasi Gems. Relaxation and neural learning: points of convergence and divergence[J]. Journal of Parallel and Distributed Computing, 1989, 6(2):217-244.
[24] Mihai Surdeanu, Sanda Harabagiu, John Williams, Paul Aarseth. Using predicate-argument structures for information extraction[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Japan: ACL Publication Chairs, 2003, 8-15.
[25] Sameer Pradhan, Wayne Ward, Kadri Hacioglu, James Martin, and Dan Jurafsky. Shallow semantic parsing using support vector machines[C]//Proceedings of HLT/NAACL. Boston, USA: 2004, page 233.
[26] 劉挺,車萬翔,李生. 基于最大熵分類器的語義角色標注[J]. 軟件學報, 2007, 18(3):565-573.
[27] Xiaojin Zhu, Zoubin Ghahramani. Learning from labeled and unlabeled data with label propagation[N]. Technical report, Technical Report CMU-CALD-02-107, Carnegie Mellon University, 2002.