魏庭新,曲維光,宋 麗,戴茹冰
(1.南京師范大學(xué)國(guó)際文化教育學(xué)院,2.南京師范大學(xué)文學(xué)院,3.南京師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210097;4.福建省信息處理與智能控制重點(diǎn)實(shí)驗(yàn)室(閩江學(xué)院),福建 福州 350121)
語(yǔ)義是語(yǔ)言符號(hào)的意義,是說(shuō)話人通過(guò)語(yǔ)言形式最終想傳達(dá)的信息.自然語(yǔ)言處理的一個(gè)重要研究目標(biāo)就是通過(guò)外在的詞匯、句法等語(yǔ)言形式來(lái)實(shí)現(xiàn)對(duì)語(yǔ)義的理解,因此對(duì)語(yǔ)義的解析一直是自然語(yǔ)言處理的熱點(diǎn)之一.近年來(lái)在詞匯語(yǔ)義標(biāo)注、語(yǔ)義角色標(biāo)注、共指消解等方面都取得了長(zhǎng)足的進(jìn)展,然而在整句邏輯語(yǔ)義表示和解析方面仍不甚理想.2013年美國(guó)賓夕法尼亞大學(xué)的語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)連同南加州大學(xué)、科羅拉多大學(xué)等共同提出了一種新型的語(yǔ)義表示語(yǔ)言,即抽象語(yǔ)義表示(abstract meaning representation AMR)[1],它采用圖結(jié)構(gòu)來(lái)表示一個(gè)句子的語(yǔ)義.這種表示方法在保留了句子樹(shù)形主干結(jié)構(gòu)的同時(shí),使用有向無(wú)環(huán)的邏輯圖結(jié)構(gòu),實(shí)現(xiàn)了對(duì)句子中論元共享現(xiàn)象的表示.同時(shí)它還允許添加原句缺省的概念節(jié)點(diǎn),以更好地表示其隱含意義[2].因此一經(jīng)推出,就受到國(guó)內(nèi)外學(xué)者的高度關(guān)注,引發(fā)了一股研究AMR的熱潮.目前AMR的標(biāo)注和解析都是以句子為基本單位進(jìn)行的,而自然語(yǔ)言中的句子根據(jù)復(fù)雜度可以分為單句和復(fù)句,兩者在句法、語(yǔ)義上有著巨大的不同.隨著AMR研究的深入,迫切需要對(duì)句子本身的邏輯語(yǔ)義進(jìn)行更深入細(xì)致的研究和挖掘.因此本文中對(duì)中文AMR(CAMR)的復(fù)句研究進(jìn)行綜述和分析,對(duì)CAMR在復(fù)句處理方面的工作提出了研究展望.
篇章是一定語(yǔ)境中表示完整語(yǔ)義的一系列句子或語(yǔ)段構(gòu)成的語(yǔ)言單位,而句子是篇章的基本單位.根據(jù)內(nèi)部結(jié)構(gòu)不同,句子可以分為單句和復(fù)句.如果一個(gè)句子是由兩個(gè)及以上的意義相關(guān)的句子組成的,彼此分立,互不作為句子成分,這樣的句子稱為“復(fù)句”[3].20世紀(jì)50年代語(yǔ)言學(xué)界曾經(jīng)有一場(chǎng)關(guān)于單復(fù)句的廣泛討論,雖然各家爭(zhēng)鳴,意見(jiàn)不同,但最后也達(dá)成了一些共識(shí):?jiǎn)尉浜蛷?fù)句結(jié)構(gòu)上有著本質(zhì)的不同,其中一個(gè)主要不同之處在于,復(fù)句除了分句本身的語(yǔ)義,還包含分句之間的邏輯語(yǔ)義.胡金柱等[4]形象地將之表示為:復(fù)句語(yǔ)義=邏輯語(yǔ)義+∑i分句i語(yǔ)義.同時(shí)他還指出,復(fù)句是連接分句與篇章的橋梁.Mann等[5]的修辭結(jié)構(gòu)理論(rhetorical structure theory,RST)認(rèn)為,篇章結(jié)構(gòu)具有組織性、連貫性、層級(jí)性、層級(jí)同質(zhì)性等特征.對(duì)于復(fù)句與篇章的關(guān)系,徐赳赳[6]將復(fù)句研究與RST比較之后認(rèn)為,復(fù)句已經(jīng)進(jìn)入篇章研究的范圍,特別是多重復(fù)句,篇章的特征更明顯.他發(fā)現(xiàn)漢語(yǔ)的復(fù)句理論與RST在研究的基本單位、研究對(duì)象上有很多相似之處.可以說(shuō),復(fù)句關(guān)系和篇章關(guān)系是同構(gòu)的,篇章語(yǔ)義關(guān)系幾乎都可以在復(fù)句語(yǔ)義關(guān)系中找到.搞清楚復(fù)句語(yǔ)義關(guān)系,篇章語(yǔ)義關(guān)系便能夠迎刃而解.因此,無(wú)論是對(duì)句子進(jìn)行句法分析,還是解析篇章語(yǔ)義,對(duì)復(fù)句進(jìn)行研究和處理都是十分必要的.
關(guān)于漢語(yǔ)復(fù)句的分類(lèi),學(xué)界并無(wú)統(tǒng)一標(biāo)準(zhǔn),各家均有自己的主張.比較有代表性的有以下幾種:黃伯榮等[7]采取兩分法(以下簡(jiǎn)稱黃廖二分法),將復(fù)句分為聯(lián)合復(fù)句和偏正復(fù)句兩大類(lèi),聯(lián)合復(fù)句下轄并列、順承、解說(shuō)、選擇、遞進(jìn)5個(gè)小類(lèi),偏正復(fù)句又分為轉(zhuǎn)折、條件、假設(shè)、因果、目的復(fù)句.邢福義[8]采取三分法,把復(fù)句分為因果、并列、轉(zhuǎn)折3大類(lèi),因果類(lèi)下分因果、推斷、假設(shè)、條件、目的小類(lèi),并列類(lèi)下分并列、連貫、遞進(jìn)、選擇等,轉(zhuǎn)折類(lèi)包括轉(zhuǎn)折、讓步和假轉(zhuǎn)等.胡明揚(yáng)等[9]則根據(jù)是否有形式標(biāo)志,將復(fù)句分為有關(guān)聯(lián)詞復(fù)句和無(wú)關(guān)聯(lián)詞復(fù)句,無(wú)關(guān)聯(lián)詞復(fù)句又分為意合句、流水句和排比句等.在英語(yǔ)中,由于語(yǔ)言本身的特點(diǎn),鮮有專(zhuān)門(mén)針對(duì)復(fù)句關(guān)系的研究,多數(shù)研究從篇章層面來(lái)考慮主從句、復(fù)句、句群之間的語(yǔ)義關(guān)系.如賓州樹(shù)庫(kù)體系[10]主要考慮句間語(yǔ)義關(guān)系,將篇章關(guān)系分成了因果、比較、擴(kuò)展、時(shí)序4大類(lèi).而RST[5]則從一致性、連貫性、主次關(guān)系等角度考慮篇章各層次語(yǔ)塊間的修辭關(guān)系,總結(jié)了包括證明、條件、解釋、對(duì)立等關(guān)系在內(nèi)的24種關(guān)系.
2016年LDC公布了英文《小王子》的AMR標(biāo)注語(yǔ)料,2017年又發(fā)布了AMR2.0版本[11],內(nèi)含來(lái)源于網(wǎng)絡(luò)論壇、博客、華爾街日?qǐng)?bào)、新華日?qǐng)?bào)英文版等在內(nèi)的39 260個(gè)句子的AMR標(biāo)注.AMR在標(biāo)注句子語(yǔ)義時(shí)有這樣2個(gè)特點(diǎn):
1) 以句子為基本單位,對(duì)句子的整體語(yǔ)義做抽象表示.切分后的AMR句子基本為單句,或者是帶有定語(yǔ)從句、主語(yǔ)從句或賓語(yǔ)從句的復(fù)合句.對(duì)于復(fù)句,AMR的處理方法是將之進(jìn)一步切分為單句,不以復(fù)句為單位進(jìn)行處理,也不處理切分后的句間關(guān)系.
2) 只允許一個(gè)句子有一個(gè)根節(jié)點(diǎn),對(duì)于帶有從句等結(jié)構(gòu)作修飾成分的復(fù)合句,則根據(jù)修飾成分與中心語(yǔ)的語(yǔ)義關(guān)系將其標(biāo)記為一個(gè)論元附著在相應(yīng)節(jié)點(diǎn)上.
從類(lèi)型學(xué)來(lái)說(shuō),漢語(yǔ)和英語(yǔ)是兩種非常不同的語(yǔ)言.漢語(yǔ)缺乏形態(tài)變化和形態(tài)標(biāo)志,重意合;而英語(yǔ)形態(tài)結(jié)構(gòu)完備,重形合.王力[12]指出,就句子的結(jié)構(gòu)而論,西洋語(yǔ)言是法治的,中國(guó)語(yǔ)言是人治的.這些特點(diǎn)反映在句子層面,使得英語(yǔ)多長(zhǎng)句,漢語(yǔ)多短句;英語(yǔ)多從句,漢語(yǔ)多分句;漢語(yǔ)還有獨(dú)特的流水句.英語(yǔ)句子雖長(zhǎng),各種語(yǔ)義角色能以從句形式依附在主干結(jié)構(gòu)上,這與AMR的分析方法是比較契合的.然而漢語(yǔ)由于缺乏形態(tài)標(biāo)記,多用分句來(lái)表達(dá)復(fù)雜語(yǔ)義,多個(gè)分句共同完成一個(gè)完整語(yǔ)義的表達(dá),且分句句法成分常常承前省略.如果還按照AMR處理復(fù)句的方法,將分句切分,勢(shì)必會(huì)使得句子語(yǔ)義表示不完整,因此如果想在漢語(yǔ)上使用AMR,必須根據(jù)漢語(yǔ)的特點(diǎn),對(duì)AMR的標(biāo)注方法做出相應(yīng)調(diào)整.
2016年,Li等[13]基于AMR框架結(jié)構(gòu),同時(shí)考慮了漢語(yǔ)與英語(yǔ)的差異,初步建立了一套中文抽象語(yǔ)義的表示方法和標(biāo)注規(guī)范.標(biāo)注規(guī)范針對(duì)中英文的差異做了很多調(diào)整,如對(duì)漢語(yǔ)特有的量詞、把字句、被字句等漢語(yǔ)特殊句式等做了相應(yīng)規(guī)定.在句子處理層面,對(duì)于復(fù)句,沒(méi)有采用英文AMR直接切割為單句的做法,而是將構(gòu)成復(fù)句的句間語(yǔ)義關(guān)系作為該句的根節(jié)點(diǎn),語(yǔ)義關(guān)系所涉及的分句作為該語(yǔ)義關(guān)系的論元arg1,arg2.同時(shí)根據(jù)漢語(yǔ)特點(diǎn),并借鑒中文語(yǔ)料樹(shù)庫(kù)(Chinese discourse treebank,CDTB)標(biāo)注漢語(yǔ)篇章關(guān)系的方法[14-15],在標(biāo)注時(shí)增加了10類(lèi)復(fù)句關(guān)系,包括:并列、因果、條件、轉(zhuǎn)折、時(shí)序、選擇、讓步、解釋、目的、遞進(jìn).例如,“孔子學(xué)生贖一奴,卻不報(bào)賬,人人夸學(xué)生高尚.”的CAMR可表示為:
(n0 / causation
:arg 1 (n1 / contrast
:arg1 (n2 / 贖-01
:arg0 (n3 / 學(xué)生
:poss (n4 / person
:name (n5 / name :op1 孔子)))
:arg1 (n6 / 奴
:quant (n7 / 1)))
:arg2 (n8 / 報(bào)賬-01
:polarity (n9 / -)
:arg0 n3))
:arg2 (n10 / 夸-01
:arg0 (n11 / 人)
:mod (n12 / every)
:arg2 (n13 / 高尚-01
:arg0 n3)
:arg1 n3))
可以看到,CAMR將句間語(yǔ)義關(guān)系“causation(因果)”作為復(fù)句根節(jié)點(diǎn),該關(guān)系所涉及的兩個(gè)句子作為其論元,然后再分別對(duì)兩個(gè)論元進(jìn)行表示,對(duì)于仍然包含一個(gè)復(fù)句語(yǔ)義關(guān)系的論元arg1,則繼續(xù)將語(yǔ)義關(guān)系“contrast(轉(zhuǎn)折)”作為根節(jié)點(diǎn),所涉及兩個(gè)分句作為其論元.另外CAMR標(biāo)注了分句之間的層次結(jié)構(gòu),以縮進(jìn)的形式清楚地呈現(xiàn)出來(lái).
2.4.1 CAMR復(fù)句語(yǔ)義關(guān)系與其他體系比較
本文中將CAMR的復(fù)句語(yǔ)義關(guān)系與目前語(yǔ)言學(xué)界廣泛使用的黃廖二分法[7]、邢福義的三分法[8]以及清華漢語(yǔ)樹(shù)庫(kù)[16]的句間語(yǔ)義關(guān)系、蘇州大學(xué)漢語(yǔ)篇章結(jié)構(gòu)語(yǔ)料庫(kù)[17]的篇章關(guān)系分類(lèi)方法進(jìn)行了比較,結(jié)果如表1所示.
表1 CAMR與不同體系復(fù)句語(yǔ)義分類(lèi)比較
可以看到,盡管各種分類(lèi)方法對(duì)語(yǔ)義關(guān)系的分層不同,但均包含并列、因果、條件、轉(zhuǎn)折、遞進(jìn)、選擇等幾種具體語(yǔ)義關(guān)系,CAMR吸收了這些學(xué)術(shù)界普遍認(rèn)同的關(guān)系.由于假設(shè)關(guān)系從邏輯上來(lái)說(shuō)也是一種條件關(guān)系,因此CAMR將之歸并入條件關(guān)系.解釋關(guān)系是否是一種主要的復(fù)句關(guān)系語(yǔ)言學(xué)界意見(jiàn)并不一致,時(shí)序關(guān)系是傳統(tǒng)漢語(yǔ)復(fù)句關(guān)系不太注重分析的,但賓州篇章樹(shù)庫(kù)、修辭結(jié)構(gòu)理論篇章樹(shù)庫(kù)(rhetorical structure theory discourse treebank,RST-DT)[18]等篇章關(guān)系語(yǔ)料庫(kù)普遍采用這兩種語(yǔ)義關(guān)系,說(shuō)明其對(duì)于揭示復(fù)句中分句間的邏輯語(yǔ)義有著重要的作用,因此CAMR也吸收了這兩種語(yǔ)義關(guān)系.特別是對(duì)于漢語(yǔ)特有的流水句,時(shí)序關(guān)系可以比較精準(zhǔn)地解釋各分句間的語(yǔ)義關(guān)系.如“開(kāi)放以后,大陸富裕了,香港人發(fā)現(xiàn),賺錢(qián)不是自己的獨(dú)門(mén)絕活.”的CAMR可表示為:
(n0 / temporal
:arg1 (n1 / 開(kāi)放)
:arg2 (n2 / 富裕-01
:aspect (n3 / 了)
:arg0 (n4 / 大陸))
:arg3 (n5 / 發(fā)現(xiàn)-01
:arg0 (n6 / 香港人)
:arg1 (n7 / 絕活
:mod (n8 / 獨(dú)門(mén))
:poss n6
:domain (n9 / 賺-01
:arg1 (n10 / 錢(qián)))
:polarity (n11 / -))))
可以看到,相比其他幾種語(yǔ)義關(guān)系,表示“大陸富裕了”和“香港人發(fā)現(xiàn)”兩個(gè)分句間語(yǔ)義最確切的就是時(shí)序關(guān)系.
2.4.2 CAMR復(fù)句標(biāo)注單位與其他體系的比較
CAMR復(fù)句標(biāo)注的對(duì)象是經(jīng)過(guò)Stanford CoreNLP切分后結(jié)構(gòu)為復(fù)句的句子,因此CAMR復(fù)句標(biāo)注的基本單位是具有獨(dú)立表述功能的最小單句,不僅包括了由逗號(hào)標(biāo)記的分句,還包括緊縮復(fù)句中有獨(dú)立表述功能的短語(yǔ)段,如果含有大于分句的語(yǔ)言片段則繼續(xù)切分.PDTB(Penn discourse treebank)在標(biāo)注時(shí)面向篇章關(guān)系,所以標(biāo)注單位是句子甚至是句群,與CAMR相比顆粒度較粗.RST-DT在短語(yǔ)級(jí)、句子級(jí)、篇章級(jí)都進(jìn)行切分和標(biāo)注,短語(yǔ)級(jí)的標(biāo)注更多揭示的是句內(nèi)謂詞論元關(guān)系,而非篇章關(guān)系.中文篇章關(guān)系分析如哈爾濱工業(yè)大學(xué)篇章關(guān)系語(yǔ)料庫(kù)(HIT-CDTB)也是以句群為切分單位,并沒(méi)有細(xì)化到最小分句.幾種體系的標(biāo)注單位比較如表2所示.
表2 CAMR與PDTB,RST-DT,HIT-CDTB標(biāo)注單位對(duì)比表
注:EDU(elementary discourse unit)即基本篇章單元.
可以看到,PDTB和HIT-CDTB的標(biāo)注體系中,篇章關(guān)系的論元仍可以包含多個(gè)小句,RST-DT的EDU可以是單句的一個(gè)部分;而CAMR的最小單位則是句子的最小分句.
2.4.3 CAMR復(fù)句層次標(biāo)注與其他體系比較
目前賓州篇章樹(shù)庫(kù)、清華漢語(yǔ)樹(shù)庫(kù)、漢語(yǔ)復(fù)句語(yǔ)料庫(kù)等都只關(guān)注語(yǔ)義關(guān)系,不對(duì)層次進(jìn)行標(biāo)注.進(jìn)行層次標(biāo)注的有RST-DT和漢語(yǔ)篇章結(jié)構(gòu)語(yǔ)料庫(kù),這些研究均采用樹(shù)結(jié)構(gòu)來(lái)對(duì)篇章單元之間的層次關(guān)系進(jìn)行描述,而CAMR是將句中所有概念的語(yǔ)義抽象出來(lái),對(duì)復(fù)句層次劃分采用樹(shù)結(jié)構(gòu)的同時(shí),允許論元共享,因此形成圖結(jié)構(gòu).如“問(wèn)題不是出在中國(guó)而是出在美國(guó).”的CAMR可表示如下:
(n0 / contrast
:arg1 (n1 / 出-07
:polarity (n2 / -)
:arg1 (n3 / 問(wèn)題)
:arg0 (n4 / country
:name (n5 / name :op1 中國(guó))))
:arg2 (n6 / 出-07
:arg1 n3
:arg0 (n7 / country
:name (n8 / name :op1 美國(guó)))))
可以看到,CAMR將該復(fù)句分為轉(zhuǎn)折關(guān)系的兩個(gè)分句之外,還指出后一分句的根節(jié)點(diǎn)與前一分句的根節(jié)點(diǎn)共享arg1“問(wèn)題”.這樣,CAMR的復(fù)句語(yǔ)義不僅含有句間邏輯語(yǔ)義關(guān)系,還將各分句缺省的論元補(bǔ)充完整,相較其他篇章關(guān)系分析體系只關(guān)注句間語(yǔ)義,這也是CAMR在句子語(yǔ)義表示方面的一大優(yōu)勢(shì).
要做好CAMR中復(fù)句的自動(dòng)標(biāo)注和解析工作,就要做好以下子任務(wù):1) 復(fù)句語(yǔ)料庫(kù)的建設(shè).2) 復(fù)句語(yǔ)義關(guān)系識(shí)別.根據(jù)是否含有關(guān)系詞可將復(fù)句分為有標(biāo)記復(fù)句和無(wú)標(biāo)記復(fù)句.對(duì)于有標(biāo)記復(fù)句,要做的是關(guān)系詞的識(shí)別,然后根據(jù)關(guān)系詞語(yǔ)義來(lái)進(jìn)行復(fù)句關(guān)系的識(shí)別;對(duì)于無(wú)標(biāo)記復(fù)句,需要做的則是隱式語(yǔ)義關(guān)系的判定.3) 復(fù)句結(jié)構(gòu)層次的生成.與一般篇章處理任務(wù)不同,CAMR在判斷語(yǔ)義后還要對(duì)各部分的語(yǔ)義進(jìn)行層次判定和生成,從而生成最終的邏輯語(yǔ)義關(guān)系樹(shù).
目前專(zhuān)門(mén)針對(duì)復(fù)句語(yǔ)義關(guān)系判定、解析的研究很少,大部分研究都是在篇章層面開(kāi)展的,不過(guò)仍可以作為對(duì)復(fù)句研究的借鑒.下面從資源建設(shè)、分句切分、關(guān)系識(shí)別、結(jié)構(gòu)樹(shù)生成等幾方面對(duì)目前的研究現(xiàn)狀進(jìn)行介紹.
目前關(guān)于復(fù)句語(yǔ)義關(guān)系的語(yǔ)料庫(kù)資源非常少,除了在建的CAMR語(yǔ)料庫(kù)(http:∥www.cs.brandeis.edu/~clp/camr/camr.html)之外,只有華中師范大學(xué)漢語(yǔ)復(fù)句語(yǔ)料庫(kù)[19],另外還有一些篇章關(guān)系語(yǔ)料庫(kù),如PDTB(http:∥www.seas.upenn.edu/~pdtb/)、RST-DT(http:∥www.isi.edu/~marcu/discourse)、HIT-CDTB(http:∥ir.hit.edu.cn/hit-cdtb/index.html)、蘇州大學(xué)漢語(yǔ)篇章結(jié)構(gòu)語(yǔ)料庫(kù)和清華漢語(yǔ)樹(shù)庫(kù)等可供借鑒.
CAMR語(yǔ)料庫(kù):由美國(guó)布蘭迪斯大學(xué)和南京師范大學(xué)共同開(kāi)發(fā),目前已標(biāo)注1 562句中文《小王子》[20]及10 325句中文樹(shù)庫(kù)(Chinese treebank,CTB)中的網(wǎng)絡(luò)語(yǔ)料,其中含有復(fù)句關(guān)系的有7 899句.
漢語(yǔ)復(fù)句語(yǔ)料庫(kù):華中師范大學(xué)開(kāi)發(fā)的漢語(yǔ)專(zhuān)用語(yǔ)料庫(kù),語(yǔ)料主要來(lái)自《人民日?qǐng)?bào)》和《長(zhǎng)江日?qǐng)?bào)》,同時(shí)還有一部分現(xiàn)當(dāng)代文學(xué)作品,共收有標(biāo)復(fù)句80萬(wàn)句.標(biāo)注內(nèi)容包括關(guān)系詞類(lèi)別、關(guān)系詞連接項(xiàng)功能、分句層次、復(fù)句句式類(lèi)別等.在復(fù)句語(yǔ)義關(guān)系體系上,采用了邢福義的三分法,將復(fù)句語(yǔ)義關(guān)系分為因果、轉(zhuǎn)折、并列3大類(lèi),每大類(lèi)下又各分小類(lèi),共12小類(lèi).該語(yǔ)料庫(kù)目前尚未對(duì)外公布.
賓州篇章樹(shù)庫(kù):是LDC 2006年發(fā)布的標(biāo)注篇章關(guān)系的語(yǔ)料資源,2008年發(fā)布了2.0版,內(nèi)容來(lái)源為華爾街日?qǐng)?bào)(WSJ)的2 300多篇文章,是目前最大、使用最多的篇章關(guān)系語(yǔ)料庫(kù).它參照Propbank的標(biāo)注方法,將篇章中的文本片段標(biāo)記為(連接詞、論元)結(jié)構(gòu),其中連接詞是聯(lián)系上下文本片段的關(guān)系詞,被連接的兩個(gè)文本片段被標(biāo)記為 Arg1、Arg2,它將篇章間的語(yǔ)義關(guān)系分為4種:顯式/隱式連接關(guān)系、基于實(shí)體的關(guān)系(EntRel)、詞匯替代關(guān)系(AltLex)、沒(méi)有關(guān)系(NoRel).其中顯式/隱式關(guān)系的語(yǔ)義體系又根據(jù)粒度不同分為3層,第1層4類(lèi),第2層16類(lèi),第3層23類(lèi).
RST-DT:是由LDC2002年發(fā)布的針對(duì)篇章修辭結(jié)構(gòu)標(biāo)注的語(yǔ)料資源,該語(yǔ)料庫(kù)基于Mann 等1988年提出的修辭結(jié)構(gòu)理論建立,將篇章文本進(jìn)行切分,形成獨(dú)立且能表達(dá)一定語(yǔ)義的EDU,并為篇章間語(yǔ)義定義了多種關(guān)系.它與PDTB的不同之處在于,它區(qū)別了篇章單元前后的主次關(guān)系,并將這種結(jié)構(gòu)關(guān)系分為單核和多核;將同一篇章內(nèi)篇章單元間的修辭關(guān)系層次劃分出來(lái),層層疊加,最終形成修辭結(jié)構(gòu)樹(shù).該語(yǔ)料庫(kù)規(guī)模較小,只標(biāo)注了華爾街日?qǐng)?bào)385篇英文文章.
HIT-CTDB:由哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心開(kāi)發(fā),語(yǔ)料來(lái)自O(shè)ntoNotes4.0上的525篇中文文本.針對(duì)每篇文本,均標(biāo)注了3種關(guān)系:分句篇章關(guān)系、復(fù)句篇章關(guān)系和句群篇章關(guān)系.標(biāo)注采用PDTB標(biāo)注體系,但篇章關(guān)系根據(jù)漢語(yǔ)特點(diǎn)做了相應(yīng)調(diào)整,共分為時(shí)序、因果、條件、比較、擴(kuò)展和并列6種關(guān)系[21].
漢語(yǔ)篇章結(jié)構(gòu)語(yǔ)料庫(kù):由蘇州大學(xué)開(kāi)發(fā),采用樹(shù)的形式來(lái)表示漢語(yǔ)的篇章結(jié)構(gòu),每個(gè)段落構(gòu)建一棵篇章結(jié)構(gòu)樹(shù),標(biāo)注了篇章中語(yǔ)義關(guān)系、連接詞、中心、層次等信息.在語(yǔ)義關(guān)系分類(lèi)上,該語(yǔ)料庫(kù)將篇章關(guān)系分成4個(gè)大類(lèi)、17個(gè)小類(lèi),其中4個(gè)大類(lèi)分別為因果、并列、轉(zhuǎn)折和解說(shuō)關(guān)系.
清華漢語(yǔ)樹(shù)庫(kù)(Tsinghua Chinese treebank):由清華大學(xué)開(kāi)發(fā),語(yǔ)料主要來(lái)自漢語(yǔ)平衡語(yǔ)料庫(kù),有文學(xué)、新聞、學(xué)術(shù)、應(yīng)用等4種文體.這個(gè)語(yǔ)料庫(kù)不僅標(biāo)注復(fù)句語(yǔ)義關(guān)系,還標(biāo)注了詞類(lèi)、短語(yǔ)結(jié)構(gòu)、功能等多個(gè)信息.該語(yǔ)料庫(kù)沒(méi)有標(biāo)注關(guān)系詞,將復(fù)句語(yǔ)義關(guān)系直接分為并列、連貫、遞進(jìn)、選擇、因果、目的、假設(shè)、條件、轉(zhuǎn)折、注解、流水11種關(guān)系.
復(fù)句常常由多個(gè)分句組成,要解析分句間的語(yǔ)義關(guān)系,首先要解決分句的邊界識(shí)別問(wèn)題,即語(yǔ)義關(guān)系涉及的論元邊界問(wèn)題.在基于RST-DT的研究中,關(guān)于EDU識(shí)別的研究較多,如Soricut等[22]采用概率模型,利用句子的句法和詞匯特征進(jìn)行句子級(jí)別的EDU識(shí)別和篇章結(jié)構(gòu)樹(shù)的構(gòu)建,在自動(dòng)句法樹(shù)上取得了F值為83.1%的識(shí)別效果;Hernault等[23]等使用支持向量機(jī)(SVM)模型,利用句子的句法、結(jié)構(gòu)、詞匯等特征,在EDU識(shí)別任務(wù)上F值達(dá)到了93.8%,效果良好.Lin等[24]在PDTB上做的論元識(shí)別F值達(dá)到82.6%.然而在漢語(yǔ)中,由于逗號(hào)除了做分句間隔之外還常常用作語(yǔ)氣停頓標(biāo)志,導(dǎo)致很多非分句片段的產(chǎn)生.要判定復(fù)句語(yǔ)義關(guān)系,首先要排除這些非分句短語(yǔ)片段的干擾.一些學(xué)者對(duì)此展開(kāi)了研究,如洪鹿平[25]使用SVM分類(lèi)器判斷逗號(hào)前的文本片段是否為分句;胡金柱等[26]利用規(guī)則和聚類(lèi)分析的方法對(duì)復(fù)句中的短語(yǔ)字段進(jìn)行自動(dòng)識(shí)別,準(zhǔn)確率達(dá)到92.1%.這些研究?jī)H進(jìn)行是否為分句的判斷,對(duì)于非分句的歸屬等后續(xù)問(wèn)題則沒(méi)有深入研究.
3.3.1 顯式關(guān)系識(shí)別
1) 關(guān)系詞識(shí)別
復(fù)句中的顯式關(guān)系指的是包含關(guān)系詞的復(fù)句所表示的邏輯語(yǔ)義關(guān)系.英語(yǔ)中的關(guān)系詞大部分是非歧義的[27],因此只要識(shí)別出關(guān)系詞,基本就可以推斷出其表示的語(yǔ)義關(guān)系.對(duì)于有歧義的關(guān)系詞,Pitler等[28]使用詞匯和句法特征來(lái)判斷其是否為篇章關(guān)系詞,準(zhǔn)確率可以達(dá)到96.26%,F(xiàn)值達(dá)94.19%,Lin等[24]在此基礎(chǔ)上抽取了詞性、上下文等特征來(lái)構(gòu)建其關(guān)系詞分類(lèi)器,最終準(zhǔn)確率達(dá)到97.25%,F(xiàn)值達(dá)到95.36%.與英語(yǔ)相比,漢語(yǔ)篇章中關(guān)系詞的語(yǔ)法性質(zhì)和詞性分布更加復(fù)雜.李艷翠等[29]指出,漢語(yǔ)中的關(guān)系詞不限于傳統(tǒng)連詞,還有介詞、副詞等諸多語(yǔ)法類(lèi)型.胡金柱等[30]建立了一個(gè)復(fù)句關(guān)系詞庫(kù),將復(fù)句中的關(guān)系詞分為3類(lèi),第1類(lèi)為語(yǔ)義單一型典型關(guān)系詞,如“因?yàn)?、所以”等,這些詞能夠固定地表示分句間的某種語(yǔ)義關(guān)系;第2類(lèi)為語(yǔ)義多樣型非典型關(guān)系詞,如“就、才、也”等副詞,可以兼表幾種語(yǔ)義關(guān)系;第3類(lèi)為語(yǔ)義單一型非典型關(guān)系詞,如“別管、怪不得、誰(shuí)知道”等形式上處于實(shí)義短語(yǔ)與關(guān)系詞的共存狀態(tài).因此,漢語(yǔ)中關(guān)系詞消歧任務(wù)比英語(yǔ)更加復(fù)雜和艱巨.李艷翠等[31]利用詞的詞匯、句法、位置特征使用決策樹(shù)分類(lèi)器在清華樹(shù)庫(kù)上進(jìn)行是否為關(guān)系詞的識(shí)別,在不帶功能標(biāo)記的詞上達(dá)到了92.1%的準(zhǔn)確率,但該研究只識(shí)別單個(gè)關(guān)系詞,而漢語(yǔ)中關(guān)系詞常常是成對(duì)成組出現(xiàn)的.針對(duì)這一問(wèn)題,楊進(jìn)才等[32]使用貝葉斯模型對(duì)關(guān)系詞的特征集合進(jìn)行訓(xùn)練和測(cè)試,將基于統(tǒng)計(jì)過(guò)程的結(jié)果轉(zhuǎn)換為規(guī)則,在漢語(yǔ)復(fù)句語(yǔ)料庫(kù)上取得了95.4%的準(zhǔn)確率.該研究實(shí)驗(yàn)數(shù)據(jù)較小,只驗(yàn)證了15組關(guān)系詞在1 000句上的準(zhǔn)確率.總的來(lái)說(shuō),目前漢語(yǔ)關(guān)系詞識(shí)別效果較好,但研究多是著眼于典型關(guān)系詞,對(duì)于非典型關(guān)系詞的識(shí)別較少.
2) 顯式語(yǔ)義關(guān)系判定
在連接關(guān)系識(shí)別領(lǐng)域,Pitler等[28]僅使用關(guān)系詞特征,在PDTB分類(lèi)體系下將篇章語(yǔ)義分成因果、比較、時(shí)序和擴(kuò)展,取得了93.9%的準(zhǔn)確率.Lin等[24]在特征中加入了關(guān)系詞,上下文等特征,在自動(dòng)句法樹(shù)上取得了86%的準(zhǔn)確率.漢語(yǔ)中由于關(guān)系詞歧義情況較為復(fù)雜,目前取得的效果較英文稍差.李艷翠等[31]在PDTB分類(lèi)體系下使用最大熵分類(lèi)器對(duì)連接詞語(yǔ)義進(jìn)行分類(lèi),4分類(lèi)的準(zhǔn)確率僅有78.9%,F(xiàn)值也僅有69.3%.張牧宇等[33]使用極大似然估計(jì)法,利用關(guān)系詞特征進(jìn)行關(guān)系分類(lèi),在因果、條件、比較關(guān)系上都取得比較好的效果,準(zhǔn)確率均超過(guò)95%,但在并列關(guān)系上效果較差,準(zhǔn)確率只有63.6%.以上研究都是在4大類(lèi)分類(lèi)上實(shí)驗(yàn),沒(méi)有將語(yǔ)義關(guān)系進(jìn)一步細(xì)分為小類(lèi).楊進(jìn)才等[34]對(duì)于只有部分分句含有關(guān)系詞的非充盈態(tài)有標(biāo)復(fù)句計(jì)算分句核心詞的語(yǔ)義相關(guān)度,作為判斷復(fù)句語(yǔ)義關(guān)系的依據(jù),準(zhǔn)確率達(dá)到了89%,但沒(méi)給出各類(lèi)別的準(zhǔn)確率.可以看到,漢語(yǔ)顯式語(yǔ)義關(guān)系識(shí)別仍有一定的提高空間.
3.3.2 隱式關(guān)系識(shí)別
顯式復(fù)句關(guān)系詞可以作為判定語(yǔ)義關(guān)系的強(qiáng)力標(biāo)志,而不含關(guān)系詞的隱式關(guān)系判定則給復(fù)句語(yǔ)義關(guān)系識(shí)別帶來(lái)巨大挑戰(zhàn),也是目前篇章關(guān)系研究領(lǐng)域的熱點(diǎn).
1) 基于特征的方法
Marcu等[35]抽取論元的詞對(duì)信息,利用互聯(lián)網(wǎng)抽取大量詞對(duì)信息實(shí)例,并將其中的關(guān)系詞移除構(gòu)建一個(gè)隱式關(guān)系語(yǔ)料庫(kù),然后使用貝葉斯分類(lèi)器對(duì)隱性語(yǔ)義關(guān)系進(jìn)行識(shí)別.Pitler等[36]則將詞的情感特征、動(dòng)詞類(lèi)別、動(dòng)詞短語(yǔ)長(zhǎng)度、情態(tài)、上下文和詞匯特征等用于篇章關(guān)系識(shí)別,在PDTB 4類(lèi)語(yǔ)義關(guān)系分類(lèi)任務(wù)上,各類(lèi)特征的使用對(duì)于結(jié)果的F值提升都有明顯作用.Lin等[37]使用前后論元信息、詞對(duì)信息、論元內(nèi)部成分和依存句法信息作為特征,利用最大熵分類(lèi)器,在PDTB第2層11類(lèi)語(yǔ)義關(guān)系上進(jìn)行識(shí)別,取得了40%的準(zhǔn)確率,比baseline提高了14.1%.Louis等[38]嘗試將文本中的指代信息以及指代詞的句法結(jié)構(gòu)和特征用于隱性語(yǔ)義關(guān)系的識(shí)別,效果雖較baseline有提升,但比傳統(tǒng)利用詞法特征的方法仍然相差較多.Rutherford 等[39-40]針對(duì)有些顯性關(guān)系移除關(guān)系詞后意義改變不能用于構(gòu)造隱性關(guān)系的問(wèn)題,通過(guò)計(jì)算關(guān)系詞的省略率來(lái)選出合格的關(guān)系詞論元對(duì),進(jìn)而擴(kuò)大訓(xùn)練數(shù)據(jù)集,提升了識(shí)別效果,在PDTB 4分類(lèi)上準(zhǔn)確率達(dá)到40.5%.車(chē)婷婷等[41]挖掘詞級(jí)和短語(yǔ)級(jí)的功能連接詞,建立功能連接詞的概念模型與篇章關(guān)系的映射體系,實(shí)現(xiàn)隱式篇章語(yǔ)義關(guān)系的推理,雖然結(jié)果取得了不錯(cuò)的效果,準(zhǔn)確率達(dá)53.84%,但是只比全部標(biāo)為最大類(lèi)別擴(kuò)展關(guān)系的baseline準(zhǔn)確率高0.1%,這也說(shuō)明目前隱式篇章關(guān)系識(shí)別的難度.
在漢語(yǔ)隱式篇章關(guān)系研究方面,張牧宇等[33]基于有指導(dǎo)方法的關(guān)系識(shí)別模型,利用核心動(dòng)詞、極性特征、依存句法特征、句首詞匯特征等,對(duì)因果、比較、擴(kuò)展、并列4類(lèi)關(guān)系進(jìn)行分類(lèi),結(jié)果只有擴(kuò)展關(guān)系的識(shí)別效果不錯(cuò),F(xiàn)值達(dá)到72.3%,其他3類(lèi)效果不佳,比較關(guān)系的F值最低,只有16.2%.孫靜等[42]利用上下文特征、詞匯特征、依存樹(shù)特征,采用最大熵分類(lèi)法對(duì)因果、并列、轉(zhuǎn)折、解說(shuō)4大類(lèi)關(guān)系進(jìn)行識(shí)別,總準(zhǔn)確率為62.15%,但除了并列類(lèi)效果很好之外,其他3類(lèi)效果都不佳,特別是轉(zhuǎn)折類(lèi)完全沒(méi)有識(shí)別出來(lái).李國(guó)臣等[43]利用漢語(yǔ)框架語(yǔ)義網(wǎng)識(shí)別11種篇章語(yǔ)義關(guān)系,結(jié)果顯示只有屬于關(guān)系識(shí)別效果較好,準(zhǔn)確率超過(guò)70%,其他關(guān)系效果都不盡理想,均低于40%.
可以看到,無(wú)論是在英語(yǔ)還是漢語(yǔ)中,傳統(tǒng)基于特征的方法準(zhǔn)確率都不高,擴(kuò)展或并列類(lèi)準(zhǔn)確率較高的原因是自然語(yǔ)言中這類(lèi)語(yǔ)義關(guān)系本身占比就較大,若剔除這個(gè)因素,準(zhǔn)確率可能還要更低.想要提高性能,必須表征句子更深層的語(yǔ)義關(guān)系.
2) 基于神經(jīng)網(wǎng)絡(luò)的方法
隨著近些年神經(jīng)網(wǎng)絡(luò)研究的興起,學(xué)者們發(fā)現(xiàn)相比于傳統(tǒng)方法使用淺層特征易于丟失文本序列、結(jié)構(gòu)等重要信息,使用詞嵌入(word embedding)對(duì)句子進(jìn)行表示更能獲取句子深層的語(yǔ)義信息.在機(jī)器翻譯、閱讀理解等領(lǐng)域取得卓越效果之后,一些學(xué)者也開(kāi)始將神經(jīng)網(wǎng)絡(luò)用于隱式篇章關(guān)系的識(shí)別.Ji等[44]最早將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于篇章隱式關(guān)系,他們用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)對(duì)句子的論元及實(shí)體進(jìn)行編碼,在PDTB 4類(lèi)語(yǔ)義分類(lèi)任務(wù)中將準(zhǔn)確率提升到了43.56%.Zhang等[45]則是使用了只有一個(gè)隱藏層的淺層卷積神經(jīng)網(wǎng)絡(luò)(SCNN)在PDTB上進(jìn)行隱式關(guān)系識(shí)別,并在4個(gè)關(guān)系分類(lèi)任務(wù)中的3個(gè)(因果、擴(kuò)展、時(shí)序)上取得了優(yōu)于基于SVM方法的結(jié)果.Liu等[46]使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)將隱式關(guān)系中的論元編碼,同時(shí)模仿人類(lèi)重復(fù)閱讀習(xí)慣,引入了多重注意力(multi-attention)機(jī)制,對(duì)隱式篇章關(guān)系進(jìn)行識(shí)別,在PDTB 4類(lèi)關(guān)系的分類(lèi)中準(zhǔn)確率和F值分別為57.57%和44.95%.Li等[47]對(duì)論元、句子和段落都進(jìn)行分布式語(yǔ)義表示并將之組合,使得最終每個(gè)論元的embedding中都含有詞語(yǔ)、句子和段落信息,在PDTB第1層4類(lèi)分類(lèi)任務(wù)上F值分別為41.91%,54.72%,71.54%,34.78%,同時(shí)在第2層分類(lèi)任務(wù)上取得44.75%的準(zhǔn)確率.另外,他們還將該模型用于賓州漢語(yǔ)樹(shù)庫(kù)篇章隱式關(guān)系的識(shí)別,準(zhǔn)確率達(dá)到82.56%,與全部標(biāo)記為最大類(lèi)別擴(kuò)展關(guān)系的baseline相比,提高了11.63%.Qin等[48]提出了一個(gè)挖掘關(guān)系特征的對(duì)抗網(wǎng)絡(luò)來(lái)進(jìn)行隱式關(guān)系識(shí)別,在4類(lèi)關(guān)系分類(lèi)上取得46.23%的準(zhǔn)確率.Geng等[49]認(rèn)為句子結(jié)構(gòu)信息對(duì)隱式關(guān)系的判定有十分重要的作用,因此應(yīng)該將句法樹(shù)信息融入論元的語(yǔ)義編碼,他們?cè)趯㈥P(guān)系論元使用Bi-LSTM編碼后,將句子的句法樹(shù)轉(zhuǎn)換成一個(gè)二叉樹(shù),然后將子節(jié)點(diǎn)的信息經(jīng)過(guò)轉(zhuǎn)換后計(jì)入父節(jié)點(diǎn)信息,最后取得了62.4%的準(zhǔn)確率和44.2%的F值.Wang等[50]在使用句法樹(shù)信息之外,也使用了句法樹(shù)每個(gè)節(jié)點(diǎn)標(biāo)簽的embedding,分別在第1層和第2層語(yǔ)義關(guān)系分類(lèi)中取得了59.85%和45.21%的準(zhǔn)確率.Dai等[51]借鑒序列化標(biāo)注思想,認(rèn)為句間關(guān)系要放在整個(gè)篇章中來(lái)考察,因此建立了一個(gè)篇章級(jí)神經(jīng)網(wǎng)絡(luò)模型,對(duì)顯式關(guān)系和隱式關(guān)系訓(xùn)練不同的分類(lèi)器,同時(shí)在模型最后一層加入了條件隨機(jī)場(chǎng)(CRF)層,最終取得了4分類(lèi)任務(wù)中隱式關(guān)系58.2% 的準(zhǔn)確率和顯式關(guān)系94.46%的準(zhǔn)確率.神經(jīng)網(wǎng)絡(luò)的應(yīng)用提高了隱式篇章關(guān)系的識(shí)別性能,但仍僅有60%左右的準(zhǔn)確率,F(xiàn)值也不到50%,仍然無(wú)法滿足實(shí)際應(yīng)用的需求.
目前,篇章層次樹(shù)生成的研究大多基于RST-DT展開(kāi).Soricut等[22]使用概率模型構(gòu)建句級(jí)篇章結(jié)構(gòu)樹(shù),并在18類(lèi)篇章關(guān)系標(biāo)注上取得49.0%的F值.LeThanh等[52]分別在句子層面和篇章層面進(jìn)行篇章結(jié)構(gòu)樹(shù)的構(gòu)建,在句子層面使用句法信息和短語(yǔ)信息切分EDU,以生成句子的篇章結(jié)構(gòu)樹(shù),并取得了66.2%的F值.在漢語(yǔ)的篇章關(guān)系構(gòu)建中,張益民等[53]利用主位模式等多個(gè)語(yǔ)言學(xué)特征,使用向量空間模型對(duì)篇章結(jié)構(gòu)進(jìn)行自動(dòng)分析.涂眉等[54]先使用序列化標(biāo)注方法對(duì)篇章語(yǔ)義單元進(jìn)行切分,然后使用最大熵模型對(duì)篇章結(jié)構(gòu)進(jìn)行推導(dǎo),在清華漢語(yǔ)樹(shù)庫(kù)上的實(shí)驗(yàn)結(jié)果為,當(dāng)篇章語(yǔ)義結(jié)構(gòu)樹(shù)高度不超過(guò)6層時(shí),篇章語(yǔ)義關(guān)系標(biāo)注的F值為63%.可以看到,過(guò)去對(duì)結(jié)構(gòu)層次樹(shù)生成的評(píng)測(cè)主要仍是針對(duì)層次生成后的語(yǔ)義關(guān)系標(biāo)注,對(duì)結(jié)構(gòu)層次本身的正確與否并無(wú)考察.對(duì)于含有多個(gè)分句的復(fù)句或篇章來(lái)說(shuō),句子之間的層次關(guān)系直接反映了它們之間的邏輯語(yǔ)義關(guān)系,因此對(duì)層次結(jié)構(gòu)樹(shù)本身的考察是今后研究亟待解決的關(guān)鍵問(wèn)題之一.
從上述國(guó)內(nèi)外研究現(xiàn)狀可以看出,目前的復(fù)句處理研究還存在以下問(wèn)題:
1) 缺乏一個(gè)統(tǒng)一的漢語(yǔ)復(fù)句語(yǔ)義分析的理論體系.語(yǔ)言學(xué)界對(duì)復(fù)句關(guān)系的劃分有多種方法,缺乏一個(gè)普遍認(rèn)同和遵從的標(biāo)準(zhǔn).因此目前研究使用的復(fù)句分類(lèi)體系劃分不同,有的使用兩分法,有的使用三分法,有的使用小類(lèi)分法,有的將英語(yǔ)PDTB體系借鑒到漢語(yǔ)中來(lái).無(wú)法在同一個(gè)平臺(tái)進(jìn)行橫向比較,不利于漢語(yǔ)復(fù)句的進(jìn)一步研究和建設(shè).
2) 缺乏針對(duì)復(fù)句的大規(guī)模語(yǔ)料庫(kù).目前常見(jiàn)的篇章關(guān)系語(yǔ)料庫(kù)在語(yǔ)料劃分粒度上不一致,有的是復(fù)句,有的是句群,有的甚至是段落.專(zhuān)門(mén)針對(duì)復(fù)句的語(yǔ)義關(guān)系和結(jié)構(gòu)層次劃分的語(yǔ)料庫(kù)還沒(méi)有.目前仍在建設(shè)中的CAMR語(yǔ)料庫(kù)雖然包含了復(fù)句間的語(yǔ)義關(guān)系和結(jié)構(gòu)層次,但若要作為復(fù)句結(jié)構(gòu)語(yǔ)義語(yǔ)料庫(kù)使用,還必須對(duì)關(guān)系詞、語(yǔ)義關(guān)系做更深入細(xì)致的描寫(xiě)和標(biāo)注.
3) 目前國(guó)內(nèi)外的研究主要著眼于篇章語(yǔ)義關(guān)系,專(zhuān)門(mén)針對(duì)復(fù)句的研究仍然較少.復(fù)句是篇章的組成單位,篇章各層級(jí)語(yǔ)段之間存在著高頻的復(fù)現(xiàn)關(guān)系,因此弄清楚復(fù)句中各分句的銜接方法和結(jié)構(gòu)層次,篇章關(guān)系才能夠得到更好地解決.目前的研究中不論是語(yǔ)義關(guān)系的判定還是結(jié)構(gòu)層次的劃分,都是在篇章層面上進(jìn)行的,復(fù)句相對(duì)于篇章來(lái)說(shuō),篇幅更短,在更短的文本中尋找其語(yǔ)義關(guān)系,劃分其結(jié)構(gòu)層次,是需要進(jìn)一步探索的.
4) 國(guó)內(nèi)目前關(guān)于復(fù)句的研究多是針對(duì)二分句的,少部分是針對(duì)三分句的研究,而在自然語(yǔ)言中,復(fù)句中的分句數(shù)目往往更多,其結(jié)構(gòu)層次的復(fù)雜程度呈指數(shù)級(jí)上升,而目前這方面的研究仍然少有涉獵.
5) 隱式語(yǔ)義關(guān)系的識(shí)別仍然是個(gè)難點(diǎn).雖然隱式語(yǔ)義關(guān)系一直是篇章關(guān)系研究的熱點(diǎn),近年來(lái)神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于隱式語(yǔ)義關(guān)系的識(shí)別,但由于該任務(wù)涉及深層語(yǔ)義理解,難度較大,效果一直不甚理想,目前最好的整體效果也只有40%~50%,這說(shuō)明要解決這一難題,仍然需要投入更多的努力.
AMR在句子語(yǔ)義表示方面有著得天獨(dú)厚的優(yōu)勢(shì),同時(shí)也是下一步篇章語(yǔ)義表示的基礎(chǔ).為了更好地對(duì)AMR中的句子進(jìn)行解析,有必要對(duì)復(fù)句進(jìn)行更加深入的研究.接下來(lái)我們的工作將從以下方面進(jìn)行:
1) 完善CAMR標(biāo)注體系,制定更符合漢語(yǔ)實(shí)際的標(biāo)注規(guī)范,在目前標(biāo)注的基礎(chǔ)上,完善與復(fù)句有關(guān)的標(biāo)注內(nèi)容.
2) 探索多種復(fù)句標(biāo)注體系間的對(duì)應(yīng)關(guān)系及轉(zhuǎn)換方法,從而實(shí)現(xiàn)復(fù)句語(yǔ)義資源的整合利用.
3) 對(duì)于有多個(gè)逗號(hào)隔開(kāi)的復(fù)句,進(jìn)行論元識(shí)別和邊界切分.從而為下一步語(yǔ)義關(guān)系識(shí)別打下基礎(chǔ).
4) 無(wú)標(biāo)記復(fù)句的語(yǔ)義關(guān)系本身存在模糊性,不同標(biāo)注者可能對(duì)同一無(wú)標(biāo)記復(fù)句標(biāo)注不同的語(yǔ)義關(guān)系,對(duì)機(jī)器來(lái)說(shuō),這更是一個(gè)具有挑戰(zhàn)性的問(wèn)題.因此,應(yīng)提高標(biāo)注的內(nèi)在一致性、尋找方法提高機(jī)器自動(dòng)識(shí)別無(wú)標(biāo)記復(fù)句語(yǔ)義關(guān)系性能.
5) 構(gòu)建復(fù)句邏輯語(yǔ)義結(jié)構(gòu)樹(shù),將指代消解、缺省回補(bǔ)等工作與復(fù)句邏輯語(yǔ)義結(jié)構(gòu)樹(shù)結(jié)合起來(lái),以更好地對(duì)復(fù)句語(yǔ)義關(guān)系進(jìn)行抽象表示.
隨著自然語(yǔ)言理解中語(yǔ)義分析的深入,AMR復(fù)句解析在信息抽取、自動(dòng)文摘、機(jī)器閱讀理解等領(lǐng)域有著重要的研究?jī)r(jià)值和光明的應(yīng)用前景,值得不斷地研究和探索.
廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版)2018年6期