曲維光 周俊生 吳曉東戴茹冰 顧 敏顧彥慧
(1. 南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院,南京, 210023; 2. 南京師范大學(xué)文學(xué)院,南京, 210097)
自然語言句子抽象語義表示AMR研究綜述*
曲維光1,2周俊生1吳曉東1戴茹冰2顧 敏1顧彥慧1
(1. 南京師范大學(xué)計算機科學(xué)與技術(shù)學(xué)院,南京, 210023; 2. 南京師范大學(xué)文學(xué)院,南京, 210097)
句子的語義處理是自然語言處理的重要難題與挑戰(zhàn)。抽象語義表示(Abstract meaning representation, AMR)是近幾年國際上新興的句子級語義表示方法,突破了傳統(tǒng)的句法樹結(jié)構(gòu)的限制,將一個句子語義抽象為一個單根有向無環(huán)圖,很好地解決了論元共享問題,成為語言資源建設(shè)和句子語義解析的研究熱點。本文從AMR概念與規(guī)范、解析算法和應(yīng)用等方面對AMR相關(guān)研究進行系統(tǒng)的梳理,特別對AMR的各種解析算法進行了比較深入的分析和比較,指出了現(xiàn)有算法存在的問題和不足,同時介紹了中文AMR的開發(fā)進展,最后展望了AMR未來的研究方向。
抽象語義表示; 句法語義; 語義解析; 自然語言處理
語義是語言形式所要表達的內(nèi)在含義,如何實現(xiàn)對自然語言句子的完整語義理解,是人工智能和自然語言處理研究領(lǐng)域的一個重要研究目標(biāo)。從某種意義上來講,自然語言處理研究的最終目標(biāo)就是在語義理解的基礎(chǔ)上實現(xiàn)各種類型的應(yīng)用,但是由于語義的模糊性、多義性,實現(xiàn)自然語言的語義理解是一個巨大的挑戰(zhàn)[1]。近年來語義標(biāo)注相關(guān)的研究有所進展,能夠分別進行命名實體識別、詞義消岐、語義角色關(guān)系和共指消解等各種單獨語義的標(biāo)注與分析任務(wù),每一種語義任務(wù)都有各自的評測方法,而缺少一個針對整句進行邏輯語義表示的規(guī)范和語料庫。為此,2013年Banarescu等提出了一種語義表示語言[2],即抽象語義表示(Abstract meaning representation,AMR),并開發(fā)了一個較大規(guī)模的標(biāo)注語料庫,它由自然語言句子和與其對應(yīng)的用AMR形式表示的句子的邏輯語義圖構(gòu)成。AMR建立了統(tǒng)一的標(biāo)注規(guī)范,其簡單可讀的特點方便人們理解,AMR表示的邏輯語義也方便計算機的處理。自此,對AMR解析與應(yīng)用等相關(guān)問題的研究受到了國內(nèi)外學(xué)者的高度關(guān)注,引發(fā)了一股AMR研究熱潮??梢灶A(yù)見,今后數(shù)年里AMR一定會受到更多研究者的關(guān)注。
本文將從AMR的定義與規(guī)范、AMR解析算法和AMR應(yīng)用等方面對抽象語義表示相關(guān)研究進展進行系統(tǒng)的梳理,特別對各種AMR解析算法進行比較深入的分析和比較,并指出一些算法存在的問題和不足,同時對中文AMR的開發(fā)進行簡介。最后展望了AMR未來的研究方向,以期對其在國內(nèi)的研究起到一定的推動作用。
1.1 AMR的定義
圖1 英文句子“He tries to affect a British accent.”的AMR圖表示Fig.1 AMR graph of sentence “He tries to affect a British accent.”
傳統(tǒng)的句子語義解析任務(wù)一般是針對一個特定的領(lǐng)域(例如地理數(shù)據(jù)庫查詢、航班信息查詢等)設(shè)計一個相對簡單的形式化的意義表示語言,然后再采用該意義表示語言對句子進行相應(yīng)的邏輯意義標(biāo)注[3,4]。AMR則是一種全新的、領(lǐng)域無關(guān)的句子語義表示方法,將一個句子的語義抽象為一個單根有向無環(huán)圖。圖1給出了一個英文句子的AMR圖表示的示例。其中,句子中的實詞抽象為概念節(jié)點,實詞之間的關(guān)系抽象為帶有語義關(guān)系標(biāo)簽的有向弧,且忽略虛詞和形態(tài)變化體現(xiàn)較虛的語義(如單復(fù)數(shù)、時態(tài)等)。這種表示方法相比樹結(jié)構(gòu)擁有較大的優(yōu)勢:(1)單根結(jié)構(gòu)保持了句子的樹形主干;(2)圖結(jié)構(gòu)的使用可以較好地描寫一個名詞由多個謂詞支配所形成的論元共享現(xiàn)象;(3)AMR允許補充句中隱含或省略的成分,以還原出較為完整的句子語義,能夠更加全面地描寫語義,并有利于語義的自動生成。
表 1 AMR概念關(guān)系
1.2 AMR的標(biāo)注規(guī)范
AMR圖中的每個節(jié)點表示一個語義概念,語義概念可以是單詞(如“he”,“accent”等)、也可以是PropBank framesets[5](如“try-01”,“affect-02”等)或者是特殊的關(guān)鍵詞。其中特殊關(guān)鍵詞包括實體類型(如“country”,“date-entity”等)、量詞(如“monetary-quantity”,“distance-quantity”等)以及邏輯連詞(“and”等)。有向邊的標(biāo)注表示的是兩個概念之間的關(guān)系。值得注意的是,有多個語義角色的詞在有向圖中只用一個節(jié)點來表示。所以當(dāng)實體在句子中的作用很重要時,允許給有向圖中的節(jié)點設(shè)置多個父節(jié)點(如圖1中的節(jié)點“he”有兩個父節(jié)點“try-01”和“affect-02”)。總體上,AMR涵蓋約一百種概念關(guān)系,表1中給出了部分關(guān)系示例。AMR還包括幾乎所有關(guān)系的逆關(guān)系(如“:arg0”對應(yīng)的“:arg0-of”、“:location”對應(yīng)的“:location-of”等)。此外每一個關(guān)系都有相關(guān)的具體化形式。例如,當(dāng)想要具體化關(guān)系“:location”時,它對應(yīng)的具體化形式就是轉(zhuǎn)化為概念為“be-located-at-91”的節(jié)點。所以AMR是一種可以擴展和修正的語義表示,詳細(xì)的AMR規(guī)范參見http://amr.isi.edu。AMR概念和概念關(guān)系的定義可以表示出任意形式的句子。AMR把所有的詞用一種既合理又統(tǒng)一的方式考慮進來,能輔助完成很多基于語義的任務(wù),在解決實際問題時有很大的潛在應(yīng)用價值。
1.3 AMR的評測方法
在設(shè)計好AMR表示規(guī)范后,AMR解析的任務(wù)就是對給定的輸入句子,預(yù)測和輸出一個相應(yīng)的AMR圖結(jié)構(gòu)。為評價一個AMR解析輸出圖結(jié)構(gòu)的準(zhǔn)確性,一種最簡單的方法是整句準(zhǔn)確性計算,即輸出AMR圖與人工標(biāo)注AMR圖(稱為參考AMR圖)完全一致時準(zhǔn)確率為1,否則為0。顯然這種評價方法粒度過粗,更合適的方法是評價一個輸出AMR圖結(jié)構(gòu)的部分準(zhǔn)確率,即準(zhǔn)確率在0-1之間。然而,計算一個輸出AMR圖與一個參考AMR圖之間部分匹配的程度是非常困難的問題,因為這兩個圖的節(jié)點集之間可能并不具有直接的匹配和映射關(guān)系,確定這兩個圖之間的最優(yōu)頂點對齊關(guān)系實質(zhì)上是一個NP完全問題。
針對AMR解析評測廣泛采用的是一種稱為Smatch的度量方法[6]。它在對兩個AMR圖進行匹配度計算時,首先將每個AMR圖轉(zhuǎn)化成一個邏輯三元組(triple)的集合,其中每個三元組表示圖中的一個頂點或一條邊;然后,Smatch方法計算兩個三元組集合之間的匹配或重疊程度,度量指標(biāo)也分為準(zhǔn)確率(precision)、召回率(recall)和F1值。更準(zhǔn)確地說,Smatch方法是通過搜索兩個圖之間的變量(節(jié)點)集的最優(yōu)匹配而獲取的最大的F1值。為給出多項式時間的Smatch值計算,一種方法是將計算問題轉(zhuǎn)化為一個整數(shù)線性規(guī)劃ILP問題,然后利用現(xiàn)有的ILP求解算法求解一個近似解;或者采用啟發(fā)式爬山算法進行貪心式搜索以獲取近似最優(yōu)解??紤]到評測效率,目前的Smatch值計算主要是采用爬山算法進行近似求解[6]。
近年來,對AMR解析問題的研究受到國內(nèi)外研究者的廣泛關(guān)注,先后提出多種不同的解析模型與算法。依據(jù)解析過程與解析策略的不同,將現(xiàn)有的AMR解析算法劃分成基于圖的解析方法、基于轉(zhuǎn)換的解析、基于組合范疇語法的解析方法和基于機器翻譯的解析方法等4種不同類型,并對這4種類型的解析算法分別進行分析與比較。
2.1 基于圖的解析方法
Flanigan等在2014年提出了第1個AMR解析器JAMR[7]。JAMR是一個基于統(tǒng)計的模型,由詞串直接得到AMR有向圖。JAMR使用管道式的方法分階段完成AMR解析的兩個子任務(wù):概念識別和關(guān)系識別。
(1)概念識別階段的任務(wù)是將輸入句子中的詞片段映射到概念圖片段。其中,概念圖片段大部分情況只含有單個的標(biāo)注概念節(jié)點,但它有時也可能是一個含有多個概念節(jié)點和標(biāo)注邊的子圖結(jié)構(gòu)。JAMR將概念識別任務(wù)看成是一個序列化標(biāo)注和切分任務(wù),使用半馬爾科夫模型[8]進行概念識別,并設(shè)計了一個動態(tài)規(guī)劃算法進行解碼。概念識別階段的輸出結(jié)果是概念圖片段的序列。
(2)關(guān)系識別是在第1階段輸出的概念圖片段序列中,通過添加帶標(biāo)注的有向邊而構(gòu)造一個AMR圖。JAMR將關(guān)系識別看作是一個基于約束的組合優(yōu)化問題,在給定約束集的條件下,搜索具有最大值的子圖。子圖的分值則采用按邊分解的模式和線性模型進行計算,即有
(1)
式中:EG為子圖的邊集,θ為模型的參數(shù),f(e)為用于計算邊e的特征函數(shù)。具體地,JAMR分兩個步驟實現(xiàn)關(guān)系識別:首先,設(shè)計了一個基于最小生成樹Kruskcal算法而改造的算法MSCG生成一個包含所有概念圖片段的最大連通子圖;然后采用拉格朗日松弛算法[9]調(diào)整該生成圖以滿足確定性性約束,使得從圖中每個頂點發(fā)出的有向邊的關(guān)系標(biāo)注類型(主要針對邊的標(biāo)注ARG0-ARG5)不重復(fù)。
為了訓(xùn)練解析器,需要將訓(xùn)練語料中的句子和標(biāo)注的AMR圖進行對齊,即需要知道句子中的詞片段對應(yīng)的AMR圖的概念片段。為此,JAMR建立一個自動對齊器來實現(xiàn)對齊。自動對齊器定義了一系列啟發(fā)式規(guī)則,對每個句子通過執(zhí)行一個貪心算法過程去匹配定義的規(guī)則,以實現(xiàn)句子與AMR圖的對齊,進而構(gòu)造一個包含所有詞片段到概念圖片段的映射關(guān)系的對齊表。另外,Pourdamghani等也嘗試采用統(tǒng)計機器翻譯中常用的IBM詞對齊模型來實現(xiàn)句子與AMR圖之間的對齊,也取得了基本相當(dāng)?shù)膶R效果[10]。Werling等認(rèn)為在JAMR中的關(guān)系識別子任務(wù)并不是解析過程中最大的挑戰(zhàn)[11],其已經(jīng)取得了較好的性能,解析過程中主要難點則在于概念識別。因此,他們提出一種關(guān)于改進概念識別的新算法NER++。該算法將由輸入句子中的詞片段映射到概念圖片段的任務(wù)看成是依次對句子中的詞(或短語)施加不同類型的動作而生成相應(yīng)概念圖片段的過程,并具體設(shè)計了9個不同的動作:IDENTITY,VERB,VALUE,LEMMA,DICT,NAME,PERSON,DATE和NONE。然后,再引入一個最大熵分類器,將各個詞片段到概念圖片段的映射通過動作分類而實現(xiàn)。相對于JAMR,該方法獲取了一定的解析性能提升;然而該方法的整體框架還是和JAMR一樣,采用了管道式方法。
為緩解管道式AMR解析模型的誤差傳播,Zhou等提出了一種增量式聯(lián)合模型同時執(zhí)行AMR解析的兩個子任務(wù)[12],即將給定的句子x,直接映射到AMR圖y,該聯(lián)合解碼問題的目標(biāo)函數(shù)可定義為
(2)
式中:第1項用于計算推導(dǎo)出的概念片段序列的分值,第2項則是一個推導(dǎo)出的AMR子圖的分值。顯然,執(zhí)行式(2)所表示的聯(lián)合解碼問題是一個難解的問題。為此,他們首先提出了一種新算法CWBS來實現(xiàn)增量式的關(guān)系識別,其基本思想是在追加當(dāng)前的概念片段到左邊的部分圖時,僅考察當(dāng)前概念片段與左邊的各個連通分量之間的關(guān)系。具體地,設(shè)計了一種從右到左的嵌套柱狀搜索算法,搜索當(dāng)前片段與左邊各連通分量之間的最優(yōu)邊集,并設(shè)計了SHIFT,LEFTARC,RIGHTARC和LEFT & RIGHT-ARCS4種類型的動作。CWBS算法不僅能保證最終輸出AMR圖的連通性,還可以有效避免搜索過程中的噪聲;然后,再采用一種類似于multiple-beam的segment-based解碼器來實現(xiàn)概念識別,并將關(guān)系識別的CWBS算法集成到一個聯(lián)合分析框架中,從而實現(xiàn)兩個子任務(wù)的增量式聯(lián)合分析。對模型的參數(shù)訓(xùn)練,采用一種改進的參數(shù)更新方法Max-volation prceptron[13],它在最大錯誤發(fā)生的位置對參數(shù)進行更新,這種參數(shù)更新算法的收斂速度更快并且精度也有所提高。實驗結(jié)果顯示,該聯(lián)合模型獲得了明顯的性能改進。
2.2 基于轉(zhuǎn)換(Transition-Based)的解析方法
以往的研究表明,基于轉(zhuǎn)換的分析方法在依存分析、短語結(jié)構(gòu)分析等句法分析任務(wù)中獲得了成功的應(yīng)用[14,15]。Wang等提出了一種通過對依存樹進行轉(zhuǎn)換的方法CAMR來實現(xiàn)AMR解析[16],該算法主要包括兩個步驟:(1)使用現(xiàn)有的依存解析器將句子生成相應(yīng)的依存句法樹;(2)采用一種新的轉(zhuǎn)換算法將依存樹轉(zhuǎn)換為AMR圖。解析器建立了一個轉(zhuǎn)換動作的集合[16],主要通過這個集合來完成依存樹向AMR圖的轉(zhuǎn)換。動作集合的定義對最終的解析結(jié)果非常重要,集合中主要包括8個動作:SWAP-lr,REATTACHk-lr,REENTRANCEk-lr,REPLACE HEAD,MERGE,NEXT EDGE-lr,NEXT NODE-lc和DELETE NODE。例如,圖2中的SWAP展示了節(jié)點間依存關(guān)系轉(zhuǎn)換的過程。首先將節(jié)點“and”刪除,然后將節(jié)點“and”插入到節(jié)點“Korea”之前,并修改節(jié)點相對應(yīng)的邊,這樣通過SWAP這個動作來修改依存樹與AMR圖不同的依存關(guān)系。對句子的依存樹進行AMR解析時,通過執(zhí)行一個貪心解碼算法選擇一個最優(yōu)的動作序列來完成依存樹到AMR圖的轉(zhuǎn)換?;谝来鏄滢D(zhuǎn)換的AMR解析避免了其他解析器中AMR對齊中產(chǎn)生的錯誤,該算法的主要錯誤則出現(xiàn)在依存樹轉(zhuǎn)換到AMR圖的過程中。他們又進一步對該算法進行了改進[17],主要是定義了一種用于推導(dǎo)隱含概念的新動作INFER,并在模型中加入了語義角色標(biāo)注、詞義消歧和共指消解等擴展特征,從而獲得了更好的解析性能。
圖2 SWAP動作示例Fig.2 Example of action SWAP
Goodman等認(rèn)為CAMR中采用的貪心解碼算法不可避免地存在錯誤累積和傳播問題,因此他們在CAMR算法的基礎(chǔ)上探索擴展模仿學(xué)習(xí)[18]到結(jié)構(gòu)化預(yù)測過程以實現(xiàn)AMR解析[19]。具體地,他們主要提出噪音消減和針對性搜索兩種新的手段有效地減小搜索的空間,提高模仿學(xué)習(xí)的效率和性能,從而改進了AMR解析的準(zhǔn)確性。
2.3 基于CCG的解析方法
Artzi等提出了一個基于組合范疇語法(Combinatory categorial grammar,CCG)的AMR解析算法[20]。CCG是一種可在句法和語義之間提供透明接口的范疇形式體系[21],它能很好地表示出句子的語言特性,已廣泛用于傳統(tǒng)的語義解析任務(wù)[22,23]。該算法的基本思想是采用CCG的句法分析過程生成組合性的AMR結(jié)構(gòu),再采用因子圖對非組合性語言現(xiàn)象(如指代關(guān)系等)建模求解。算法的處理過程分成兩個階段:
(1)通過CCG構(gòu)造基于lambda演算表示形式的組合性AMR結(jié)構(gòu),即通過對句子執(zhí)行CCG分析得到CCG分析樹,得到未指定的邏輯形式,其中包含有未確定的變量。在CCG分析的推導(dǎo)過程中,仍采用傳統(tǒng)的CKY分析算法去挑選最優(yōu)的未指定的邏輯形式。對推導(dǎo)的概率值計算則采用對數(shù)線性模型。若定義D(z)為包含最后邏輯形式z的推導(dǎo)子集,θ∈Rl是一個l維的參數(shù)向量,則可定義z的概率值為
(3)
而對于一個推導(dǎo)d,其概率計算公式為
(4)
(2)采用因子圖及對數(shù)線性模型將邏輯形式中的未確定的變量從候選集中搜索最優(yōu)的變量賦值,從而得到完整的邏輯形式,最后再通過自定義的一套簡單可逆的轉(zhuǎn)換過程,將邏輯形式轉(zhuǎn)換成標(biāo)準(zhǔn)AMR形式。這個基于CCG的兩階段AMR解析模型的學(xué)習(xí)。除了需要進行模型參數(shù)估計之外,面臨的一大挑戰(zhàn)是如何從訓(xùn)練數(shù)據(jù)中有效地歸納CCG詞典的詞匯項。顯然,CCG詞匯生成的質(zhì)量對CCG分析的準(zhǔn)確性有著重要的影響。而CCG詞典詞匯項的組合搜索空間巨大,是一個異常困難的問題[24]。因而如何有效解決CCG詞匯生成問題成為制約基于CCG的AMR解析模型提高性能的主要瓶頸。
2.4 基于機器翻譯框架的解析方法
Pust等將AMR解析看作是基于句法的機器翻譯(Syntax-based machine translation,SBMT)問題[25],也就是充分利用現(xiàn)有的串到樹SBMT框架,將句子轉(zhuǎn)換為相應(yīng)的AMR圖。為此,首先需要將AMR圖轉(zhuǎn)換為一種適用于SBMT機制的樹結(jié)構(gòu)。為實現(xiàn)從AMR圖到樹結(jié)構(gòu)的轉(zhuǎn)換,他們提出了一種多步驟的轉(zhuǎn)換過程,包括修改AMR圖為句法風(fēng)格樹結(jié)構(gòu)、樹重構(gòu)、樹重標(biāo)注和重排序等多個步驟。由于圖與樹在結(jié)構(gòu)上具有本質(zhì)上的差異性,因此在第1個轉(zhuǎn)換步驟中將會不可避免地丟棄一些信息。例如,對于圖中具有多個父節(jié)點的節(jié)點,在轉(zhuǎn)換后的樹結(jié)構(gòu)中僅能保留單個父節(jié)點。顯然,這種從AMR圖到樹結(jié)構(gòu)的轉(zhuǎn)換是一種有損轉(zhuǎn)換。進一步,他們在SBMT框架下引入了一種建立在AMR結(jié)構(gòu)上的語言模型。特別地,他們將多種外部的語義資源加入到模型中,包含層次的語義范疇、詞匯形態(tài)規(guī)范化和基于富含語義信息規(guī)則的對齊等,從而使系統(tǒng)獲得了較好的解析性能。
2.5 各種解析算法的性能比較
目前,各種AMR解析器的實驗主要是在幾個不同版本的公開數(shù)據(jù)集上進行,包括LDC2013E117,LDC2014T12和LDC2014T12-proxy,其中數(shù)據(jù)集LDC2014T12-proxy是僅包含了數(shù)據(jù)集LDC2014T12中的新聞?wù)Z料部分。實驗結(jié)果的評價都采用了目前公認(rèn)的Smatch值,分為準(zhǔn)確率(P)、召回率(R)和F1值。為表示方便,采用一些縮寫名稱表示前述的各種AMR解析器。其中,JAMR表示文獻[7]的解析系統(tǒng),NER++表示文獻[11]的解析系統(tǒng),JOINT表示文獻[12]的解析系統(tǒng),CAMR表示文獻[17]的解析系統(tǒng),IMITATION表示文獻[19]的解析,CCG表示文獻[20]的解析系統(tǒng),SBMT表示文獻[25]的解析系統(tǒng)。在以上的各個AMR解析器中,系統(tǒng)CAMR和SBMT在訓(xùn)練模型時除了使用訓(xùn)練數(shù)據(jù)外,還額外地使用了較多的外部語義資源。表2中給出了各個AMR解析系統(tǒng)在3個不同的數(shù)據(jù)集上的實驗結(jié)果。
表2 各種AMR解析系統(tǒng)的實驗性能比較
通過比較表2中各個AMR解析器的實驗數(shù)據(jù)可以看出:(1)目前英文AMR的自動解析效果普遍不高,最好成績的F1值僅為0.71。(2)AMR的自動解析需要一定的外部資源。在LDC2013E117和LDC2014T12-proxy兩個數(shù)據(jù)集上,系統(tǒng)JOINT均獲得最高的F1值;在數(shù)據(jù)集LDC2014T12上,系統(tǒng)SBMT產(chǎn)生了最高的F1值,這也說明在AMR解析模型中合理地使用一些外部語義資源能有助于解析性能的提高。因此,AMR的自動解析技術(shù)還有很大的提升空間,在算法和資源建設(shè)方面也需要不斷研究。此外,影響AMR解析效果還有一個重要因素。在自動解析之前,AMR需要進行概念和詞語的自動對齊,而目前對齊的F1值僅有0.9左右[7,10],如果能提升自動對齊的精度,則可以較大幅度提升解析效果。
隨著AMR標(biāo)注規(guī)范的提出和AMR解析算法研究的快速發(fā)展,有研究者開始對如何利用AMR結(jié)構(gòu)幫助解決各種自然語言處理領(lǐng)域的應(yīng)用問題進行探索性研究。目前已有文獻顯示,在文本摘要、實體鏈接、生物信息抽取和標(biāo)題生成等典型應(yīng)用問題上[26-32],利用AMR結(jié)構(gòu)確實能夠有效或顯著地提高效果和性能。以下將以文本摘要和實體鏈接這兩種典型應(yīng)用為例,介紹AMR的應(yīng)用方法與效果。
3.1 利用AMR實現(xiàn)文本抽象性摘要
圖3 一個簡單的英文抽象性摘要生成示例Fig.3 An example of a simple abstract generation
不同于傳統(tǒng)的壓縮式或抽取式摘要生成技術(shù)[33-35],抽象性摘要是指一種對給定的內(nèi)容要求從頭生成相應(yīng)的文本摘要的技術(shù)。Liu等利用AMR實現(xiàn)了一個抽象性摘要生成系統(tǒng)[26],該系統(tǒng)包含3個基本步驟:(1)使用現(xiàn)有的AMR解析器將源文本中的每個句子分別解析成對應(yīng)的AMR圖;(2)將第1步中得到的多個AMR圖經(jīng)過合并和轉(zhuǎn)化操作生成單個摘要AMR圖;(3)從單個的摘要AMR圖生成摘要文本。圖3給出了一個簡單的摘要生成過程實例。其中,第(2)步是一個關(guān)鍵和困難的步驟,第(2)步的實現(xiàn)又劃分成兩個階段:第一階段對第(1)步得到的多個句子AMR圖通過執(zhí)行概念融合、句子連接以及圖擴展等步驟,生成單個連通的AMR圖(稱之為源圖);第二階段再從第一階段得到的源圖中挑選部分節(jié)點和邊構(gòu)造一個子圖(稱之為摘要圖),而從源圖中選擇生成摘要子圖的任務(wù)可以看成是一個結(jié)構(gòu)化預(yù)測問題,其目標(biāo)是在不改變內(nèi)容主要語義信息的條件下輸出最簡潔和緊湊的表示結(jié)構(gòu)。具體的,通過引入合適的特征和約束表示,采用整數(shù)線性規(guī)劃求解該結(jié)構(gòu)化預(yù)測任務(wù),生成一個摘要子圖。采用ROUGE-1得分[36]對該抽象性摘要系統(tǒng)的摘要結(jié)果進行評測,最后在測試集上利用標(biāo)準(zhǔn)AMR標(biāo)注和JAMR解析結(jié)果生成的Oracle摘要的F值分別達到了65.8%和57.8%,這個初步的探索性研究的實驗結(jié)果顯示,利用AMR結(jié)構(gòu)生成抽象性文本摘要的方法能夠產(chǎn)生良好的結(jié)果。
3.2 基于AMR的無監(jiān)督實體鏈接實現(xiàn)
實體鏈接是指將在源文本中提及的實體與知識庫中的相關(guān)實體關(guān)聯(lián)到一起[37-39]。Pan等利用AMR實現(xiàn)了一個無監(jiān)督的實體鏈接系統(tǒng)[27],該系統(tǒng)利用AMR結(jié)構(gòu)中富含的深度語義信息提供描述各個實體指稱出現(xiàn)的上下文特征的豐富表示,從而有利于協(xié)作者實體指稱的最優(yōu)集合的選擇,進而有助于實現(xiàn)實體指稱的消歧;在此基礎(chǔ)上再采用無監(jiān)督的圖推導(dǎo)方法進行上下文比較,從而實現(xiàn)實體鏈接的目標(biāo)?;贏MR的實體消歧方法可分解為3個基本步驟:(1)將實體指稱出現(xiàn)的源文本解析成AMR,然后對給定的實體指稱m采用基于規(guī)則的方法構(gòu)造一個以m為中心的星形圖狀知識網(wǎng)絡(luò);(2)通過規(guī)則方法從知識庫構(gòu)造各個實體的知識網(wǎng)絡(luò),作為實體的上下文表示形式;(3)對于每個待鏈接的實體指稱,利用實體顯著度計算生成一個候選實體的列表,再采用基于上下文協(xié)作者的信息,對當(dāng)前實體指稱與各個候選實體之間根據(jù)之前構(gòu)造的知識網(wǎng)絡(luò)圖進行Jaccard相似度計算,以重排序的方式實現(xiàn)實體鏈接。采用這種無監(jiān)督的實體鏈接算法在增加人工實體鏈接標(biāo)注的AMR數(shù)據(jù)集LDC2013E117上進行了實驗,如果基于人工標(biāo)注的AMR結(jié)構(gòu),在測試集上獲得了91.13%的準(zhǔn)確率,略高于目前有監(jiān)督的實體鏈接方法達到的最高準(zhǔn)確率91.01%,該有監(jiān)督的實體鏈接方法是通過規(guī)則方法組合了兩個不同的系統(tǒng)[40,41],結(jié)合了兩者的優(yōu)勢,并在大規(guī)模的標(biāo)注數(shù)據(jù)集TAC-KBP2009-2014上訓(xùn)練重排序模型獲取的;如果基于AMR解析器的輸出,該算法也獲得了88.52%的準(zhǔn)確率。實驗結(jié)果表明,相對于實體鏈接的其他方法,AMR結(jié)構(gòu)確實能夠更好地捕捉和表示實體指稱的上下文信息。
與傳統(tǒng)的基于樹的句法語義表示方法不同,AMR使用單根有向無環(huán)圖來表示一個句子的語義,這種表示方法相比樹結(jié)構(gòu)擁有較大的優(yōu)勢。因此,增加更多語種的AMR語料和多語言自動解析技術(shù)就成為目前該領(lǐng)域最為迫切的研究內(nèi)容。捷克語、漢語也開始標(biāo)注了AMR小規(guī)模語料庫[42],微軟依托自建的句子邏輯語義語料庫,使用和AMR映射的規(guī)則方法,開發(fā)了英語、法語、德語、西班牙語和日語的AMR解析工具[43]。不過,受制于中文AMR語料的缺乏,針對中文的AMR自動解析方面的研究尚未展開。而中文AMR語料的構(gòu)建一方面可以滿足中文句法語義分析的應(yīng)用需求,另一方面對于漢語的句法語義研究也有重要的語言學(xué)價值。南京師范大學(xué)Li等近來已經(jīng)開始啟動中文AMR的規(guī)范設(shè)計和語料庫標(biāo)注工作[44]。Li等(2016)基于AMR的框架結(jié)構(gòu),將AMR語義表示體系引入到漢語中,同時也充分考慮漢語與英語的表達差異性,重點解決了AMR概念和詞語對齊的問題,初步建立了一套漢語抽象語義的表示方法和標(biāo)注規(guī)范法[44]。他們首先根據(jù)中文賓州樹庫(Chinese Penn treebank, CTB)的分詞規(guī)范,對1562句中文《小王子》語料進行了自動分詞和人工校對。然后,根據(jù)中文Propbank的動詞框架詞典[45],人工標(biāo)注了每個句子的中文AMR,從而獲得了一個與英文《小王子》 句對齊的雙語AMR語料庫,參見http:∥www.cs.brandeis.edu/~clp/camr/camr.html。在此基礎(chǔ)上,李斌等(2017)進一步比較了兩種語言中圖結(jié)構(gòu)的對應(yīng)情況、圖結(jié)構(gòu)存在的比例與圖結(jié)構(gòu)的共性和差異等,認(rèn)為AMR的跨語言表示能力和AMR對于漢語的句法語義表示能力都較為理想[46]。目前,他們正在進行對CTB的AMR標(biāo)注工作,以建立較大規(guī)模中文AMR標(biāo)注語料庫,將為漢語AMR的自動解析與應(yīng)用提供良好的研究基礎(chǔ)。
AMR對于句子語義較為簡潔而完整的表示、可計算評測的特點,使其至少具有兩點潛在價值:(1)提升文本摘要、事件分析和智能問答等應(yīng)用技術(shù);(2)為句子級別之上的篇章語義表示奠定研究基礎(chǔ)。因而自AMR提出之后,就引起了國際上的高度重視,涌現(xiàn)了從自動解析技術(shù)到轉(zhuǎn)化應(yīng)用等多方面的研究論文??v觀AMR的研究現(xiàn)狀,可以發(fā)現(xiàn),一方面由于AMR圖結(jié)構(gòu)能夠富含句子中完整的語義信息,因而能有利地促進各種自然語言應(yīng)用問題的解決;另一方面,AMR解析器的性能是AMR結(jié)構(gòu)能否有效應(yīng)用的關(guān)鍵。然而現(xiàn)有的AMR解析算法研究結(jié)果顯示,當(dāng)前AMR解析算法的準(zhǔn)確性還比較有限,最高F1值僅在70%左右,相對于句法分析算法當(dāng)前所能達到的準(zhǔn)確性,還存在不小的差距。因此認(rèn)為今后在以下方面值得進一步展開更多、更深入的AMR相關(guān)研究。(1)概念對齊與生成是AMR解析的一個重要子任務(wù),其性能的高低將是提高AMR解析準(zhǔn)確性的重要瓶頸,而目前這方面的研究相對較少。由于概念對齊與生成是AMR圖構(gòu)造的一個前提任務(wù),如何充分利用各種外部語義資源、設(shè)計有效的算法對輸入句子中的各個詞或短語生成有效的概念候選,特別是一些隱含或缺省概念的添加,是一個困難和重要的研究問題。(2)作為一種句子語義表示形式,AMR結(jié)構(gòu)與句子的句法結(jié)構(gòu)(特別是依存句法結(jié)構(gòu))之間存在很強的關(guān)聯(lián)性。如果能將句子的AMR解析與句法分析兩者構(gòu)建成一個聯(lián)合分析過程,使得句法分析與語義分析兩個任務(wù)之間能夠?qū)崿F(xiàn)信息交互,相互利用以促進彼此的結(jié)構(gòu)消歧,將會大大有益于句法分析與AMR語義解析兩者的性能提升。(3)近年來神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于自然語言處理的多個研究問題,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)生成詞、短語和句子等分布式表示,在句子切分、依存句法分析和成分句法分析等任務(wù)上的應(yīng)用均獲得了明顯的收益[47-50]。然而,將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于AMR解析任務(wù)還是一個有待研究的問題。不同于傳統(tǒng)的句法分析任務(wù),AMR結(jié)構(gòu)描述的是概念節(jié)點之間的語義關(guān)系,因此,如何學(xué)習(xí)生成有效的概念分布式表示是一個首先需要解決的問題。(4)進一步更廣泛地開展AMR在多個自然語言處理應(yīng)用領(lǐng)域中的應(yīng)用研究非常有意義。AMR作為一種句子級抽象語義表示形式,其主要設(shè)計目標(biāo)在于描述和揭示句子中蘊含的完整的、深度的語義信息,以利于和推動完美解決各種自然語言處理應(yīng)用問題。目前的一些AMR應(yīng)用研究已經(jīng)初步顯示了AMR語義結(jié)構(gòu)的應(yīng)用價值,然而還有必要針對更多的自然語言處理的應(yīng)用問題展開探索性的AMR應(yīng)用研究,例如信息抽取、問答系統(tǒng)、文本匹配和機器閱讀理解等。
[1] 孫茂松,劉挺,姬東鴻. 語言計算的重要國際前沿[J]. 中文信息學(xué)報,2014, 28(1):1-8.
SunMaosong,LiuTing,JiDonghong.Animportantinternationalforefrontoflanguagecomputing[J].JournalofChineseInformationProcessing, 2014: 28(1): 1-8.
[2]BanarescuL,BonialC,CaiS,etal.Abstractmeaningrepresentationforsembanking[C] //Proceedingsofthe7thLinguisticAnnotationWorkshop.Sophia,Bulgaria:TheAssociationforComputationalLinguistics, 2013: 178-186.
[3]ZettlemoyerLS,CollinsM.Learningtomapsentencestologicalform:Structuredclassificationwithprobabilisticcategorialgrammars[C] //Proceedingsofthe21stConferenceinUncertaintyinArtificialIntelligence(UAI).Edinburgh,Scotland:AUAIPress, 2005: 658-666.
[4]WongY,MooneyRJ.Learningforsemanticparsingwithstatisticalmachinetranslation[C] //ProceedingsoftheNorthAmericanChapteroftheACL(NAACL2006).NewYork,USA:TheAssociationforComputationalLinguistics, 2006: 439-446.
[5]KingsburyP,PalmerM.Fromtreebanktopropbank[C] //Proceedingsofthe3rdInternationalConferenceonLanguageResourcesandEvaluation(LREC2002).LasPalmas,CanaryIslands,Spain:EuropeanLanguageResourcesAssociation, 2002: 1989-1993.
[6]CaiS,KnightK.Smatch:Anevaluationmetricforsemanticfeaturestructures[C] //ProceedingsoftheAssociationforComputationalLinguistics(ACL2013).Sofia,Bulgaria:TheAssociationforComputationalLinguistics, 2013:748-752.
[7]FlaniganJ,ThomsonS,CarbonellJ,etal.Adiscriminativegraph-basedparserfortheabstractmeaningrepresentation[C]//ProceedingsoftheAssociationforComputationalLinguistics(ACL2014).Baltimore,MD,USA:TheAssociationforComputerLinguistic, 2014: 1426-1436.
[8]JanssenJ,LimniosN.Semi-Markovmodelsandapplications[M].[S.l.]:Springer, 1999.
[9]RushAM,CollinsM.AtutorialondualdecompositionandLagrangianrelaxationforinferenceinnaturallanguageprocessing[J].JournalofArtificialIntelligenceResearch, 2012, 45(1): 305-362.
[10]PourdamghaniN,YangG,HermjakobU,etal.AligningEnglishstringswithabstractmeaningrepresentationgraphs[C] //ProceedingsoftheEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2014).Doha,Qatar:TheAssociationforComputationalLinguistics, 2014: 425-429.
[11]WerlingK,AngeliG,ManningC.Robustsubgraphgenerationimprovesabstractmeaningrepresentationparsing[C] //ProceedingsoftheAssociationforComputationalLinguistics(ACL2015).Beijing,China:TheAssociationforComputationalLinguistics, 2015: 982-991.
[12]ZhouJ,XuF,UszkoreitH,etal.AMRparsingwithanincrementaljointmodel[C] //ProceedingsoftheEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2016).Austin,Texas,USA:TheAssociationforComputationalLinguistics, 2016: 178-186.
[13]HuangL,FayongS,GuoY.Structuredperceptronwithinexactsearch[C] //ProceedingsoftheHumanLanguageTechnologies:ConferenceoftheNorthAmericanChapteroftheAssociationofComputationalLinguistics(HLT-NAACL2012).Montreal,Canada:TheAssociationforComputationalLinguistics, 2012: 142-151.
[14]NivreJ.Algorithmsfordeterministicincrementaldependencyparsing[J].ComputationalLinguistics, 2008, 34(4): 513-553.
[15]ZhangY,ClarkS.Syntacticprocessingusingthegeneralizedperceptronandbeamsearch[J].ComputationalLinguistics, 2011, 37(1):105-151.
[16]WangC,XueNW,PradhanS.Atransition-basedalgorithmforAMRparsing[C] //ProceedingsoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(NAACL2015).Denver,Colorado,USA:TheAssociationforComputationalLinguistics, 2015: 366-375.
[17]WangC,XueN,PradhanS.Boostingtransition-basedAMRparsingwithrefinedactionsandauxiliaryanalyzers[C] //Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessingoftheAsianFederationofNaturalLanguageProcessing(ACL2015).Beijing,China:TheAssociationforComputationalLinguistics, 2015: 857-862.
[18]SilverD,BagnellJ,StentzA.Highperformanceoutdoornavigationfromoverheaddatausingimitationlearning[C] //Robotics:ScienceandSystemsIV.Zurich,Switzerland:TheMITPress, 2008: 262-269.
[19]GoodmanJ,VlachosA.Noisereductionandtargetedexplorationinimitationlearningforabstractmeaningrepresentationparsing[C] //ProceedingsofAssociationforComputationalLinguistics(ACL2016).Berlin,Germany:TheAssociationforComputationalLinguistics, 2016: 1-11.
[20]ArtziY,LeeK,ZettlemoyerL.Broad-coverageCCGsemanticparsingwithAMR[C] //ProceedingsofEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2015).Lisbon,Portugal:TheAssociationforComputationalLinguistics, 2015: 1699-1710.
[21]SteedmanM.Thesyntacticprocess[M].USA:TheMITPress, 2000.
[22]ZettlemoyerLS,CollinsM.OnlinelearningofrelaxedCCGgrammarsforparsingtologicalform[C] //ProceedingsoftheJointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning(EMNLP2007).Prague,CzechRepublic:TheAssociationforComputationalLinguistics, 2007: 678-687.
[23]KwiatkowskiT,ZettlemoyerL,GoldwaterS,etal.InducingprobabilisticCCGgrammarsfromlogicalformwithhigher-orderunification[C] //ProceedingsofEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2010).MITStataCenter,Massachusetts,USA:TheAssociationforComputationalLinguistics, 2010: 1223-1233.
[24]KwiatkowskiT,ZettlemoyerL,GoldwaterS,etal.LexicalgeneralizationinCCGgrammarinductionforsemanticparsing[C] //ProceedingsofEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2011).Edinburgh,UK:TheAssociationforComputationalLinguistics, 2011: 1512-1523.
[25]PustM,HermjakobU,KnightK,etal.Usingsyntax-basedmachinetranslationtoparseEnglishintoabstractmeaningrepresentation[C] //ProceedingsofEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2015).Lisbon,Portugal:TheAssociationforComputationalLinguistics, 2015: 482-489.
[26]LiuF,FlaniganJ,ThomsonS,etal.Towardabstractivesummarizationusingsemanticrepresentations[C] //The2015ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(NAACL2015).Denver,Colorado,USA:TheAssociationforComputationalLinguistics, 2015: 1077-1086.
[27]PanX,CassidyT,HermjakobU,etal.Unsupervisedentitylinkingwithabstractmeaningrepresentation[C] //The2015ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(NAACL2015).Denver,Colorado,USA:TheAssociationforComputationalLinguistics, 2015: 1130-1139.
[28]TakaseS,SuzukiJ,OkazakiN,etal.Neuralheadlinegenerationonabstractmeaningrepresentation[C]//ProceedingsofEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2016).Austin,Texas,USA:TheAssociationforComputerLinguistic, 2016: 1054-1059.
[29]SachanM,XingE.Machinecomprehensionusingrichsemanticrepresentations[C] //ProceedingsofAssociationforComputationalLinguistics(ACL2016).Berlin,Germany:TheAssociationforComputationalLinguistics, 2016: 486-492.
[30]GargS,GalstyanA,HermjakobU,etal.Extractingbiomolecularinteractionsusingsemanticparsingofbiomedicaltext[C]//ProceedingsofThirtiethAAAIConferenceonArtificialIntelligence(AAAI2016).Phoenix,Arizona,USA:AAAIPress, 2016: 2718-2726.
[31]PourdamghaniN,KnightK,HermjakobU.GeneratingEnglishfromabstractmeaningrepresentations[C] //ProceedingsoftheNinthInternationalNaturalLanguageGenerationConference.Edinburgh,UK:TheAssociationforComputationalLinguistics, 2016: 21-25.
[32]MitraA,BaralC.Addressingaquestionansweringchallengebycombiningstatisticalmethodswithinductiverulelearningandreasoning[C] //ProceedingsoftheThirtiethAAAIConferenceonArtificialIntelligence(AAAI2016).Phoenix,Arizona,USA:AAAIPress, 2016: 2779-2785.
[33]RushAM,ChopraS,WestonJ.Aneuralattentionmodelforabstractivesentencesummarization[C] //Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2015).Lisbon,Portugal:TheAssociationforComputationalLinguistics, 2015: 379-389.
[34]NallapatiR,ZhouB,SantosC,etal.Abstractivetextsummarizationusingsequence-to-sequenceRNNsandbeyond[C] //Proceedingsofthe20thSIGNLLConferenceonComputationalNaturalLanguageLearning.Berlin,Germany:TheAssociationforComputationalLinguistics, 2016: 280-290.
[35]ChengJ,LapataM.Neuralsummarizationbyextractingsentencesandwords[C] //Proceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(ACL2016).Berlin,Germany:TheAssociationforComputationalLinguistics, 2016: 484-494.
[36]LinC.ROUGE:Apackageforautomaticevaluationofsummaries[C] //ProceedingsofACLWorkshoponTextSummarizationBranchesOut.Barcelona,Spain:TheAssociationforComputationalLinguistics, 2004: 25-26.
[37]HacheyB,RadfordW,NothmanJ,etal.EvaluatingentitylinkingwithWikipedia[J].ArtificialIntelligence, 2013, 194(3):130-150.
[38]SilA,YatesA.Re-rankingforjointnamed-entityrecognitionandlinking[C] //Proceedingsofthe22ndACMInternationalConferenceonInformationandKnowledgeManagement(CIKM2013).SanFrancisco,CA,USA:ACM, 2013: 2369-2374.
[39]WickM,SinghS,PandyaH,etal.Ajointmodelfordiscoveringandlinkingentities[C] //Proceedingsofthe2013WorkshoponAutomatedKnowledgeBaseConstruction(AKBC@CIKM2013).SanFrancisco,California,USA:ACM, 2013: 67-72.
[40]ChenZ,JiH.Collaborativeranking:Acasestudyonentitylinking[C] //ProceedingsofEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2011).Edinburgh,UK:TheAssociationforComputationalLinguistics, 2011:771-781.
[41]ChengX,RothD.Relationalinferenceforwikification[C] //ProceedingsofEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2013).Seattle,Washington,USA:TheAssociationforComputationalLinguistics, 2013: 1787-1796.
[42]XueN,BojarO,HajicJ,etal.Notaninterlingua,butclose:ComparisonofEnglishAMRstoChineseandCzech[C]//ProceedingsoftheNinthInternationalConferenceonLanguageResourcesandEvaluation.Reykjavik,Iceland:EuropeanLanguageResourcesAssociationELRA, 2014: 1765-1772.
[43]VanderwendeL,MenezesA,QuirkC.AnAMRparserforEnglish,French,German,SpanishandJapaneseandanewAMR-annotatedcorpus[C] //The2015ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies(NAACL2015).Denver,Colorado,USA:TheAssociationforComputationalLinguistics, 2015: 26-30.
[44]LiB,WenY,QuW,etal.AnnotatingthelittleprincewithChineseAMRs[C] //Proceedingsofthe10thLinguisticAnnotationWorkshopheldinconjunctionwithACL2016.Berlin,Germany:TheAssociationforComputationalLinguistics, 2016: 7-15.
[45]XueN,PalmerM.AddingsemanticrolestotheChineseTreebank[J].NaturalLanguageEngineering, 2009, 15(1): 143-172.
[46] 李斌, 聞媛, 卜麗君, 等. 英漢《小王子》AMR語義圖結(jié)構(gòu)的對比分析[J]. 中文信息學(xué)報, 2017(1): 33-41.
LiBin,WenYuan,PuLijun,etal.AcontrastiveanalysisofAMRsemanticgraphfortheLittlePrinceinEnglishandChinese[J].JournalofChineseInformationProcessing, 2017(1): 33-41.
[47]CaiD,ZhaoH.NeuralwordsegmentationlearningforChinese[C] //ProceedingsofAssociationforComputationalLinguistics(ACL2016).Berlin,Germany:TheAssociationforComputationalLinguistics, 2016: 409-420.
[48]ZhouH,ZhangY,HuangS,etal.Aneuralprobabilisticstructured-predictionmodelfortransition-baseddependencyparsing[C] //ProceedingsofAssociationforComputationalLinguistics(ACL2015).Beijing,China:TheAssociationforComputationalLinguistics, 2015: 1213-1222.
[49]SocherR,BauerJ,ManningCD,etal.Parsingwithcompositionalvectorgrammar[C] //ProceedingsofAssociationforComputationalLinguistics(ACL2013).Sofia,Bulgaria:TheAssociationforComputationalLinguistics, 2013: 455-465.
[50]WatanabeT,SumitaE.Transition-basedneuralconstituentparsing[C] //ProceedingsofAssociationforComputationalLinguistics(ACL2015).Beijing,China:TheAssociationforComputationalLinguistics, 2015: 1169-1179.
Survey on Abstract Meaning Representation
Qu Weiguang1,2, Zhou Junsheng1, Wu Xiaodong1, Dai Rubing2, Gu Min1, Gu Yanhui1
(1. School of Computer Science and Technology, Nanjing Normal University, Nanjing, 210023, China; 2. School of Chinese language and literature, Nanjing Normal University, Nanjing, 210097, China)
Semantic processing is a key challenge in natural language processing. Abstract meaning representation (AMR) is a novel framework of representing the meaning of a sentence. Instead of a tree, it abstracts the meaning of a sentence into a rooted acyclic directed graph, which solves the argument sharing problem. Thus, the corpus construction and automated parsing of AMR become a heated research field. This paper introduces the AMR's basic concept, annotation guidelines, parsing algorithm and applications. Then we discuss the problems and shortcomings of the parsing algorithms by comparison experiments. We also introduce the development of Chinese AMR researches. At last, we discuss the potentials of AMR, which are fruitful for Chinese semantic processing.
abstract meaning representation; syntactic semantics; semantic parsing; natural language processing
國家自然科學(xué)基金(61272221,61472191)資助項目;江蘇省高校哲學(xué)社會科學(xué)研究項目(2016SJB74004)資助項目。
2016-11-27;
2017-01-20
TP391
A
曲維光(1964-),男,教授,博士生導(dǎo)師,研究方向:自然語言處理,E-mail:wgqu@njnu.edu.cn。
周俊生(1972-),男,教授,碩士生導(dǎo)師,研究方向:自然語言處理,E-mail:zhoujs@njnu.edu.cn。
吳曉東(1989-),男,碩士研究生,研究方向:自然語言處理,E-mail: 1041871851@qq.com。
戴茹冰(1989-),女,博士研究生,研究方向:計算語言學(xué),詞匯語義學(xué),E-mail:ice_dr@163.com。
顧 敏(1993-),女,碩士研究生,研究方向:自然語言處理,E-mail: 178408229@qq.com。
顧彥慧(1978-),男,副教授,碩士生導(dǎo)師,研究方向:自然語言處理,E-mail:gu@njnu.edu.cn。