亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語(yǔ)篇章理解研究綜述*

        2019-08-13 05:06:38王紅玲周國(guó)棟
        軟件學(xué)報(bào) 2019年7期
        關(guān)鍵詞:連接詞復(fù)句指代

        孔 芳, 王紅玲, 周國(guó)棟

        1(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)

        2(江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

        1 引 言

        人們理解自然語(yǔ)言通常是在篇章級(jí)進(jìn)行的.作為自然語(yǔ)言處理的一個(gè)核心任務(wù),篇章分析(discourse analysis)的主要任務(wù)就是從整體上分析出篇章結(jié)構(gòu)及其構(gòu)成單元之間的語(yǔ)義關(guān)系,并利用上下文理解篇章.根據(jù)不同的篇章分析目的,篇章單元及其關(guān)系可以表示為不同的篇章基本結(jié)構(gòu).篇章結(jié)構(gòu)可以是篇章內(nèi)部關(guān)系的不同結(jié)構(gòu)化表達(dá)形式,主要包括修辭結(jié)構(gòu)、話題結(jié)構(gòu)、指代結(jié)構(gòu)、功能結(jié)構(gòu)、事件結(jié)構(gòu)等范疇[1].從語(yǔ)言學(xué)角度講,這些不同的結(jié)構(gòu)表達(dá)形式從不同的角度對(duì)篇章進(jìn)行描述;從計(jì)算的角度來(lái)看,它們可用線性序列、樹(shù)和圖等數(shù)據(jù)結(jié)構(gòu)進(jìn)行抽象表示.隨著詞法、句法分析技術(shù)的不斷成熟,篇章分析已成為制約自然語(yǔ)言處理發(fā)展的一個(gè)瓶頸.

        作為篇章分析的基本概念,篇章(discourse)又稱為語(yǔ)篇或文本,是由一系列連續(xù)的詞、短語(yǔ)、子句、句子或段落構(gòu)成的語(yǔ)言整體單位[1].這里,詞被認(rèn)為是自然語(yǔ)言中有意義的最小單位,相繼可以構(gòu)成短語(yǔ)、子句和句子,句子又可以構(gòu)成段落,并最終構(gòu)成篇章.需要強(qiáng)調(diào)的是,篇章不是其構(gòu)成單元的無(wú)序堆砌,只有當(dāng)構(gòu)建的整體單位上下連貫相互關(guān)聯(lián),所含信息整體一致,表達(dá)完整的思想和意圖,才能具有明確的意義,從而稱為篇章.以圖 1給出的兩個(gè)例子進(jìn)行對(duì)比說(shuō)明.在例1中,盡管每個(gè)獨(dú)立子句語(yǔ)義正確,句法完整,但是順次連接在一起并不能夠構(gòu)成一個(gè)篇章.原因在于,這些子句所表達(dá)的意義彼此沒(méi)有關(guān)聯(lián),難以形成一個(gè)整體,也無(wú)法表達(dá)明確的主題.與此相比,例2中,盡管有些子句的句法成分缺失(例2所示的段落由6個(gè)基本篇章單元構(gòu)成,基本篇章單元分別用(a)~(f)表示;〈〉擴(kuò)起的內(nèi)容表示篇章關(guān)系中缺省的連接詞;[]表示對(duì)應(yīng)子句在該位置缺少相關(guān)的句法成分),然而借助于句子之間的意義關(guān)聯(lián),可以構(gòu)建形成一個(gè)以“李四”作為中心話題的語(yǔ)言整體,因而構(gòu)成了一個(gè)篇章.

        篇章一般圍繞某個(gè)話題展開(kāi).篇章信息的一致性(篇章信息性)和篇章意圖的整體性(篇章意圖性)通常表現(xiàn)為一個(gè)話題,該話題的完整性從形式和內(nèi)容兩方面分別體現(xiàn)為篇章的兩大基本特性,即篇章連貫性(coherence)和篇章銜接性(cohesion).篇章銜接性和篇章連貫性分別從內(nèi)容和形式兩個(gè)方面保證了篇章所要表達(dá)的意圖性,即作者所要表達(dá)話題的正確性和可理解性,二者相互依賴,相互補(bǔ)充.

        具體而言:一方面從篇章連貫性角度,話題在形式上的完整性往往體現(xiàn)為某種篇章基本構(gòu)成單元通過(guò)遞歸組合,基于不同層面的邏輯關(guān)系聯(lián)接,形成一種修辭上的層次化結(jié)構(gòu),即篇章修辭結(jié)構(gòu).如圖2所示,B和C之間構(gòu)成并列關(guān)系,B和C都是中心,BC的組合和A構(gòu)成遞進(jìn)關(guān)系,ABC的組合和DEF的組合之間構(gòu)成轉(zhuǎn)折關(guān)系,DEF的組合為中心.各基本篇章單元組合后形成高一級(jí)篇章單位,進(jìn)而通過(guò)再組合形成更高一級(jí)篇章單位,如此層層組合,最終可以表示成一棵篇章修辭結(jié)構(gòu)樹(shù).各層篇章單位賴以組合的原因在于其間存在一些為數(shù)不多的、反復(fù)出現(xiàn)的修辭結(jié)構(gòu)關(guān)系(如并列、遞進(jìn)等),這些修辭結(jié)構(gòu)關(guān)系有時(shí)以連接成分作為形式標(biāo)記(如例 2中的“既…又…”),有時(shí)則完全隱含(如例 2中的缺省連接詞,“〈而且〉”).

        上述篇章修辭結(jié)構(gòu)的分析結(jié)果對(duì)篇章話題理解非常重要.例如,在自動(dòng)問(wèn)答系統(tǒng)中,通過(guò)例2中的因果關(guān)系,可以較容易地自動(dòng)抽取出相關(guān)問(wèn)題的答案:“領(lǐng)導(dǎo)非常器重他”的原因是“不論做啥事情,他都認(rèn)真負(fù)責(zé)”.又譬如,對(duì)于自動(dòng)文摘而言,根據(jù)圖 2中最高層的“轉(zhuǎn)折”關(guān)系,可以得出“基本篇章單元 DEF的組合”比“基本篇章單元ABC的組合”更重要;而對(duì)于次一級(jí)“因果”關(guān)系而言,“基本篇章單元 F”可能比“基本篇章單元 DE的組合”更重要;如此層層推進(jìn),最終可以得到該段篇章的核心話題,即為“基本篇章單元 F”.當(dāng)然,上述推進(jìn)過(guò)程的實(shí)現(xiàn),主要依賴于篇章關(guān)系傳遞性及中心指向原則.

        另一方面,從篇章銜接性角度來(lái)看,話題在內(nèi)容上的完整性往往體現(xiàn)為思維的放射性與表達(dá)的線性之間的有機(jī)聯(lián)系.這里所謂“思維的放射性”是指一個(gè)話題(或稱主題)由若干子話題(或稱小主題)構(gòu)成,而“表達(dá)的線性”則是指各分話題的排序應(yīng)符合思維的邏輯性和次序性,兩者一起構(gòu)成篇章話題結(jié)構(gòu).

        譬如仍然以例 2作為分析對(duì)象,對(duì)于自動(dòng)問(wèn)答系統(tǒng)而言,我們能夠利用圖 2所示的篇章修辭結(jié)構(gòu)為問(wèn)答系統(tǒng)提供為什么“領(lǐng)導(dǎo)非常器重他”的答案(即回答“Why”問(wèn)題),但是,如果需要提供“‘他’是誰(shuí)?”這樣的問(wèn)題答案(即回答“Who”問(wèn)題)時(shí),圖2所示的篇章基本結(jié)構(gòu)就顯得力不從心了.這時(shí),需要我們構(gòu)建如圖3所示的篇章話題指稱結(jié)構(gòu)來(lái)解決該問(wèn)題.通過(guò)其所含的指稱鏈接關(guān)系,我們就能夠回答問(wèn)題“‘他’是誰(shuí)?”中的“他”即指“李四”.不過(guò),與上述篇章修辭結(jié)構(gòu)類似,圖3中的單一篇章指稱結(jié)構(gòu)也只能夠解決“Who”這一類問(wèn)題,對(duì)“Why”問(wèn)題無(wú)能為力.

        不同篇章基本結(jié)構(gòu)及其關(guān)系的研究可以提供不同層面的篇章理解.顯然,篇章修辭結(jié)構(gòu)和篇章話題結(jié)構(gòu)這兩者相互依賴,相互補(bǔ)充.對(duì)于需要解決包含5W1H問(wèn)題(Who,Why,Where,When,What,How)的篇章理解而言,迫切需要聯(lián)合不同類型的篇章結(jié)構(gòu)共同解決不同類型的篇章理解問(wèn)題.

        2 國(guó)內(nèi)外相關(guān)研究

        篇章理解是自然語(yǔ)言理解的最終目標(biāo).認(rèn)知科學(xué)家和語(yǔ)言學(xué)家對(duì)這個(gè)問(wèn)題的研究,始于20世紀(jì)70年代.其中,概念依存(concept dependency)理論[2]開(kāi)啟了篇章理解研究的先河,腳本(script)方法緊隨其后,用于分析理解某種具體的場(chǎng)景“故事”.通過(guò)對(duì)內(nèi)容的簡(jiǎn)化處理,類似腳本方法的技術(shù)思想已經(jīng)在信息抽取(information extraction)領(lǐng)域得到成功應(yīng)用.然而,腳本方法的缺陷在于對(duì)領(lǐng)域所在場(chǎng)景存在過(guò)度依賴,導(dǎo)致腳本的構(gòu)建需要隨時(shí)同步場(chǎng)景變化.這對(duì)于有些無(wú)法表示為場(chǎng)景的篇章而言,很難采用該類方法加以分析理解,因而進(jìn)一步需要發(fā)現(xiàn)更為通用及開(kāi)放的結(jié)構(gòu)來(lái)表示篇章.為達(dá)到此目的,通過(guò)探尋篇章的基本特征來(lái)尋求解決之道不失為可行方法.

        篇章的 7個(gè)基本特征[1]已被自然語(yǔ)言處理領(lǐng)域的研究者廣為接受,其中,前 4個(gè)基本特征,即連貫性(coherence)、銜接性(cohesion)、信息性(informativity)及意圖性(intentionality)更是有力地促進(jìn)了自然語(yǔ)言處理研究的發(fā)展[3-9].通過(guò)分析篇章的銜接性和連貫性,可以發(fā)現(xiàn)篇章表層的形式表示;而通過(guò)分析篇章的信息性和意圖性,則可以挖掘篇章的語(yǔ)義特征.同時(shí),后兩者的分析過(guò)程需要以前兩者為基礎(chǔ)關(guān)聯(lián)起來(lái)綜合考慮.例如,從內(nèi)容表示角度,篇章的信息性注重新舊信息的變化推進(jìn),強(qiáng)調(diào)在符合銜接和連貫的特點(diǎn)下,如何合理、恰當(dāng)?shù)叵蜃x者傳遞新信息.相比于傳遞新信息的篇章信息性,篇章意圖性更關(guān)注作者通過(guò)傳遞新信息后所產(chǎn)生的某種期望影響,這也反映了讀者對(duì)篇章的理解程度.因此,篇章的信息性和意圖性與篇章理解存在著密切的深層關(guān)系.

        無(wú)論西方語(yǔ)言或者漢語(yǔ),篇章的銜接性和連貫性都是最需要關(guān)注的兩個(gè)問(wèn)題,是篇章的兩個(gè)最基本特征[1].連貫體現(xiàn)篇章的整體性,是篇章中句子級(jí)的關(guān)聯(lián),采用句子間的語(yǔ)義連接來(lái)表示篇章的關(guān)聯(lián).而銜接是一種詞匯級(jí)的關(guān)聯(lián),采用詞匯(或短語(yǔ))之間的語(yǔ)義關(guān)聯(lián)來(lái)表示篇章中各語(yǔ)言單元之間的關(guān)聯(lián).從表達(dá)和內(nèi)容兩個(gè)角度,通過(guò)篇章的連貫性和銜接性的共同作用,篇章的信息性和意圖性得以體現(xiàn),即作者所要表達(dá)話題的正確性和可理解性得到保證.

        可以看到,篇章的信息性和意圖性的研究是以篇章的銜接性和連貫性研究為基礎(chǔ)的,目前,篇章分析的研究主要集中在銜接性和連貫性的研究方面,下面分別從篇章結(jié)構(gòu)分析的理論研究、資源建設(shè)、計(jì)算模型這3個(gè)方面,重點(diǎn)探討篇章修辭結(jié)構(gòu)(體現(xiàn)篇章連貫性)和話題結(jié)構(gòu)(體現(xiàn)篇章銜接性)這兩種結(jié)構(gòu),從而充分展現(xiàn)國(guó)內(nèi)外研究現(xiàn)狀.

        2.1 理論研究

        篇章結(jié)構(gòu)理論主要有淺層銜接理論[10]、Hobbs模型[4,5]、修辭結(jié)構(gòu)理論(rhetorical structure theory)[6,7]、賓州篇章樹(shù)庫(kù)理論(Penn discoursetreebank)[11,12]、意圖結(jié)構(gòu)理論(intentional structure theory)[8]、主述位結(jié)構(gòu)理論[13]、主位推進(jìn)理論(thematic progression theory)[14,15]、句群理論[16]、復(fù)句理論[17,18]、基于連接依存樹(shù)的漢語(yǔ)篇章結(jié)構(gòu)(connective-drivendependency tree)理論[19,20]、廣義話題結(jié)構(gòu)理論[21-23]等.

        2.1.1 篇章修辭結(jié)構(gòu)理論體系

        涉及篇章修辭結(jié)構(gòu)理論體系的理論主要包括Hobbs模型、修辭結(jié)構(gòu)理論、賓州篇章樹(shù)庫(kù)理論、漢語(yǔ)句群理論、漢語(yǔ)復(fù)句理論、基于連接依存樹(shù)的漢語(yǔ)篇章結(jié)構(gòu)理論等.

        (1) Hobbs模型

        Hobbs模型[4,5]提出篇章單元和篇章單元間的連接關(guān)系是組成篇章結(jié)構(gòu)的基本部分.其中,篇章單元可以是子句、句子、句群,甚至是篇章本身,而連接關(guān)系是指篇章單元間的語(yǔ)義關(guān)聯(lián)性.Hobbs定義了 12類關(guān)系,包括:詳述、并列、結(jié)果、背景和時(shí)機(jī)等.

        (2) 修辭結(jié)構(gòu)理論

        修辭結(jié)構(gòu)理論(RST)[6,7]是一種基于樹(shù)狀模型的修辭結(jié)構(gòu)理論,早期應(yīng)用于計(jì)算機(jī)文本自動(dòng)生成,目前主要作為篇章結(jié)構(gòu)和功能描述研究的理論基礎(chǔ).RST與Hobbs模型具有很大的相似性,共定義了4大類、25小類修辭關(guān)系,每個(gè)關(guān)系可連接兩個(gè)或多個(gè)篇章單元.如果修辭關(guān)系連接的篇章單元間存在主次,那么中心信息單元稱作“核(nucleus)”,傳達(dá)支撐信息的其他單元稱作“衛(wèi)星(satellite)”.當(dāng)修辭關(guān)系連接的單元無(wú)主次之分時(shí),則稱其為“多核”關(guān)系.與Hobbs模型相比,RST更注重句子內(nèi)部的結(jié)構(gòu),篇章單元可以小到短語(yǔ)或語(yǔ)塊.RST認(rèn)為功能語(yǔ)塊是最基本的篇章單元(elemental discourse unit,簡(jiǎn)稱EDU),EDU間的語(yǔ)義關(guān)系具有開(kāi)放性和可擴(kuò)充性.在RST構(gòu)造出來(lái)的樹(shù)形結(jié)構(gòu)中,葉節(jié)點(diǎn)、非葉節(jié)點(diǎn)、弧線和垂直線分別表示EDU單元、連續(xù)文本塊、修辭關(guān)系和核心語(yǔ)塊.這里的“核心”與RST中的3個(gè)基本概念之一,核心性有關(guān).核心性是指篇章由輔助單元和核心單元構(gòu)成,具有不對(duì)稱性.RST的另外兩個(gè)概念分別是“制約因素”和“效果”,前者表示輔助篇章單元及核心篇章單元至少有一個(gè)具有制約特性,從而表明命題存在的必要性;后者表示篇章關(guān)系的解釋機(jī)制,即可以用關(guān)系達(dá)到的效果反向解釋關(guān)系本身.

        (3) 賓州篇章樹(shù)庫(kù)理論

        賓州篇章樹(shù)庫(kù)(PDTB)[11,12]理論將源自修辭結(jié)構(gòu)理論的篇章修辭關(guān)系作了改進(jìn),將其劃分成 3層,其中,第 1層共4大類,第2層16類,第3層23類.相比RST,PDTB體系凸顯了篇章修辭關(guān)系中連接詞的作用,它以連接詞為核心,根據(jù)有無(wú)顯式的連接詞將篇章關(guān)系區(qū)分為顯式和隱式關(guān)系,并對(duì)隱式關(guān)系人工添加了可表示當(dāng)前語(yǔ)義關(guān)系的連接詞,在此基礎(chǔ)上再標(biāo)注相關(guān)的篇章單元.另外,PDTB體系中的篇章單元不再考慮短語(yǔ)級(jí),將從句作為最小篇章單位,從而大幅度增加了實(shí)用性.

        (4) 漢語(yǔ)復(fù)句理論

        漢語(yǔ)復(fù)句理論起始于 19世紀(jì)末,普遍認(rèn)為是以1898年馬建忠的《馬氏文通》出版為標(biāo)志[24],創(chuàng)建了漢語(yǔ)復(fù)句理論.《馬氏文通》是最早討論到復(fù)句問(wèn)題、首次把復(fù)句問(wèn)題引入漢語(yǔ)語(yǔ)法理論領(lǐng)域的語(yǔ)法著作.然而,另外也有人認(rèn)為《馬氏文通》在分析句子成分時(shí)使用的是自己的一套“句讀論”,固然已經(jīng)分析出了許多基本復(fù)句類型,但并未明確提出“復(fù)句”的概念,是“有實(shí)無(wú)名”.真正最先提出漢語(yǔ)復(fù)句系統(tǒng)之“名”的是嚴(yán)復(fù)的《英文漢詁》.

        復(fù)句由兩個(gè)或兩個(gè)以上意義相關(guān)、結(jié)構(gòu)上互不作為句子成分的分句組成.分句是結(jié)構(gòu)上類似單句而沒(méi)有完整句調(diào)的語(yǔ)法單位.復(fù)句中的各個(gè)分句之間一般有停頓,書面上用逗號(hào)、分號(hào)或冒號(hào)表示;復(fù)句前后有隔離性語(yǔ)音停頓,書面上用句號(hào)或問(wèn)號(hào)、嘆號(hào)表示.語(yǔ)法上是指能分成兩個(gè)或兩個(gè)以上相當(dāng)于單句的分段的句子.同一復(fù)句里的分句,說(shuō)的是有關(guān)系的事.一個(gè)復(fù)句只能有一個(gè)句終語(yǔ)調(diào),不同于連續(xù)幾個(gè)單句[17,18].

        (5) 漢語(yǔ)句群理論

        句群也叫句組,由前后連貫共同表示一個(gè)中心意思的幾個(gè)句子組成.如同分句組成復(fù)句,句子組合成為句群一樣的道理[16].語(yǔ)法學(xué)對(duì)句群的研究最早始于黎錦熙等人[25],在我國(guó)漢語(yǔ)語(yǔ)法研究史上首次詳盡地論述句群,并提出了“句群是介乎復(fù)式句和段落之間的一種語(yǔ)言單位”的定義.

        從構(gòu)成成分來(lái)看,句群是句子的組合,至少需要有兩個(gè)句子組合而成的語(yǔ)言單位才能叫作句群.從語(yǔ)義聯(lián)系上看,組成句群的句子之間要有緊密的邏輯關(guān)系,它們必須共同擁有一個(gè)中心思想.從組合方式來(lái)看,幾個(gè)句子運(yùn)用一定的方式組合在一起成為一個(gè)句群,組合方式有兩種:語(yǔ)義組合和關(guān)聯(lián)組合.

        句群的分類角度有很多,例如:根據(jù)句群中句子的結(jié)構(gòu)關(guān)系分類,可以將其分為“并列關(guān)系”“連貫關(guān)系”“遞進(jìn)關(guān)系”等 12種類別.從句群的功能角度來(lái)看,則可將其分為主題句群、過(guò)度句群和插入句群三大類.句群分類大都是借鑒句子和復(fù)句的分類方法,分類方法眾多,還未形成統(tǒng)一的標(biāo)準(zhǔn).

        (6) 基于連接依存樹(shù)的漢語(yǔ)篇章結(jié)構(gòu)理論

        蘇州大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室結(jié)合 PDTB體系中連接詞驅(qū)動(dòng)策略和 RST體系中篇章樹(shù)形表示結(jié)構(gòu)的優(yōu)勢(shì),同時(shí)結(jié)合漢語(yǔ)復(fù)句和句群理論,提出了一種基于連接依存樹(shù)(connective-driven dependency tree,簡(jiǎn)稱CDT)的漢語(yǔ)篇章結(jié)構(gòu)表示體系[19,20,26].該理論對(duì)完整的篇章結(jié)構(gòu)(包括篇章單位、連接詞、篇章結(jié)構(gòu)、篇章關(guān)系、篇章主次)進(jìn)行了系統(tǒng)的定義和描述.在該基于連接依存樹(shù)的篇章結(jié)構(gòu)中,葉子節(jié)點(diǎn)表示基本篇章單位(elementary discourse units,簡(jiǎn)稱 EDUs),內(nèi)部節(jié)點(diǎn)為連接詞(connective),由連接詞連接的基本篇章單位組合稱為篇章單位(discourse units,簡(jiǎn)稱 DUs).各子句之間通過(guò)連接詞形成更高一級(jí)的篇章單位,層次組合直至形成一棵完整的篇章結(jié)構(gòu)樹(shù).連接詞既可以表示篇章單位層次,也可以表示篇章單位之間的邏輯語(yǔ)義關(guān)系,一個(gè)連接詞可以連接兩個(gè)或多個(gè)篇章單位,篇章單位根據(jù)在篇章中的重要程度可分為主要篇章單位和次要篇章單位.

        2.1.2 篇章話題結(jié)構(gòu)理論體系

        涉及篇章話題結(jié)構(gòu)理論體系的主要包括淺層銜接理論[10]、主述位結(jié)構(gòu)及推進(jìn)模式理論[13-15]、意圖結(jié)構(gòu)理論[8]、話題鏈理論[27-32]、廣義話題結(jié)構(gòu)[21-23]、微觀話題結(jié)構(gòu)理論[33,34]等.

        (1) 淺層銜接理論

        淺層銜接理論是最早研究篇章銜接關(guān)系的理論體系.淺層銜接理論[10]指出,“當(dāng)篇章中的某個(gè)成分的解釋依賴于篇章中另一個(gè)成分的解釋時(shí),這兩個(gè)成分之間就產(chǎn)生了銜接關(guān)系”;銜接方式通常分為語(yǔ)法銜接和詞匯銜接兩大類,其中語(yǔ)法銜接手段包括指稱、省略、替代和(邏輯)連接,連接又劃分為增補(bǔ)型(additive)、轉(zhuǎn)折型(contrastive)、原因型(causal)、時(shí)間型(temperal)4類,詞匯銜接手段包括詞匯的重復(fù)和搭配.

        Grimes在深化 Halliday的淺層銜接理論時(shí)考慮了非詞匯化的命題關(guān)系,給出了更詳細(xì)的銜接關(guān)系類別.此外,Grimes首次提出了銜接關(guān)系的論元有主次之分,并明確指出,并列(paratactic)關(guān)系的論元同等重要,而主從(hypotactic)關(guān)系的論元有主次之分.

        (2) 主述位理論

        主述位理論中的主位、述位兩個(gè)概念,最早來(lái)自于布拉格學(xué)派提出的功能語(yǔ)句觀理論框架[13-15].Mathesius從功能語(yǔ)句觀的角度提出主位、述位信息理論,用于描述句子所傳遞的信息結(jié)構(gòu).主位是指在既定語(yǔ)境中已知或至少是明顯的信息,是說(shuō)話人信息的出發(fā)點(diǎn);述位是話語(yǔ)的核心,是說(shuō)話人對(duì)主位的闡發(fā).

        Mathesius對(duì)主位的界定涉及3個(gè)方面的內(nèi)容:句首性(sentence-initialness)、相關(guān)性(aboutness)、信息的新舊性(informational status).隨后,Firbas又從“交際動(dòng)力”的角度對(duì)主位作了進(jìn)一步闡釋:他提出主位是已知信息,所承載的交際動(dòng)力低;述位是新信息,所承載的交際動(dòng)力高;主位-述位的推進(jìn)更替推動(dòng)了篇章交際動(dòng)力的動(dòng)態(tài)傳遞.

        此后,以Halliday(1994年)為代表的系統(tǒng)功能語(yǔ)言學(xué)派認(rèn)為布拉格學(xué)派對(duì)主位的界定有些含混,故區(qū)分了主位研究的兩個(gè)層次:句法層次上的主位-述位結(jié)構(gòu)和語(yǔ)意層次上的信息結(jié)構(gòu).主位-述位結(jié)構(gòu)是從篇章產(chǎn)生的角度來(lái)界定的,突出小句或話語(yǔ)的起點(diǎn),而信息結(jié)構(gòu)(已知/未知信息)是從篇章接受的角度來(lái)界定的,側(cè)重篇章解讀者對(duì)信息的處理.

        從篇章功能的角度來(lái)看,每個(gè)小句和小句復(fù)合體的第 1個(gè)句法成分是主位,其余成分是述位.從系統(tǒng)功能語(yǔ)法學(xué)角度來(lái)看,主位和述位一起構(gòu)成一則信息,主位是信息的起點(diǎn),是小句組合的基礎(chǔ);述位是對(duì)主位的闡釋和發(fā)展.

        (3) 意圖結(jié)構(gòu)理論

        意圖結(jié)構(gòu)理論由Grosz和Sidner最早提出[8],他們認(rèn)為篇章是包含意圖的,原因在于篇章的作者就是懷有表達(dá)自身意圖的目的開(kāi)始寫作的.所以,篇章意圖的解釋應(yīng)該和篇章內(nèi)容一樣納入篇章結(jié)構(gòu)理論的研究范疇,因而意圖結(jié)構(gòu)完全可以成為篇章結(jié)構(gòu)理論的基礎(chǔ).在他們提出的篇章結(jié)構(gòu)中,包括 3個(gè)方面,分別是語(yǔ)言結(jié)構(gòu)(linguistic structure)、意圖結(jié)構(gòu)(intentional structure)、焦點(diǎn)狀態(tài)(attentional state).

        根據(jù) Grosz和 Sidner對(duì)篇章結(jié)構(gòu)的定義,篇章意圖(discourse purpose,簡(jiǎn)稱 DP)由篇章段意圖(discourse segment purpose,簡(jiǎn)稱 DSP)分解和表達(dá),顯示出篇章意圖的層次性特點(diǎn).同一個(gè)意圖層,如果 DSP1有助于表達(dá)DSP2,則 DSP2占主導(dǎo)地位,稱為支配(dominance)關(guān)系,支配關(guān)系與修辭結(jié)構(gòu)理論中的“核心-衛(wèi)星”結(jié)構(gòu)相似,因此可以看作是主次關(guān)系在篇章意圖層上的定義.

        Moser和 Moore的研究表明,意圖結(jié)構(gòu)理論和修辭結(jié)構(gòu)理論之間存在共性,如意圖結(jié)構(gòu)中的支配和修辭結(jié)構(gòu)理論中的核相對(duì)應(yīng).

        (4) 話題鏈理論

        曹逢甫[27]最早提出了漢語(yǔ)話題鏈(topic chain)的概念,細(xì)致地分析了話題在控制小句連接方面的作用.話題鏈的形成主要依賴各種指代回指(anaphor)形式,即零形回指(zero anaphor,簡(jiǎn)稱 ZA)、代詞回指(pronoun anaphora,簡(jiǎn)稱PA)和名詞回指(nominal anaphor,簡(jiǎn)稱NA)的選擇方法.曲承熹[28]總結(jié)了前人的研究成果,提出了操作性較強(qiáng)的話題鏈定義“一組以零回指ZA形式的話題連接起來(lái)的小句”.

        劉禮進(jìn)[29]使用人工標(biāo)注的小規(guī)模漢英篇章對(duì)比語(yǔ)料庫(kù),深入分析了話題鏈在漢英篇章的宏觀語(yǔ)義結(jié)構(gòu)描述功能上的差異情況;孫坤[30]對(duì)英漢篇章組織模式進(jìn)行了對(duì)比研究;王建國(guó)[31]把話題鏈的描述作用從句子拓展到句群和篇章,重新定義話題鏈為“由同一話題引導(dǎo)的系列語(yǔ)句”,并深入分析了話題鏈在漢英篇章中的不同描述特點(diǎn);周強(qiáng)[32]引入話題鏈描述形式,設(shè)計(jì)不同類型的話題評(píng)述關(guān)系集,構(gòu)建了以話題鏈為主,融合關(guān)聯(lián)詞語(yǔ)和其他連貫形式的描述機(jī)制.

        話題鏈?zhǔn)侵赣筛鱾€(gè)話題連接而成的鏈條.根據(jù)話題相同與否以及是否包含不同話題,話題鏈可分為“同題鏈”“異題鏈”和“包題鏈”3種基本類型.同題鏈?zhǔn)窍嗤脑掝}形成的話題鏈;異題鏈?zhǔn)怯刹煌脑掝}形成的話題鏈;包題鏈?zhǔn)怯捎邪蓐P(guān)系的話題形成的話題鏈.在實(shí)際的篇章中,同題鏈、異題鏈、包題鏈層層相套,互相交錯(cuò),交織形成話題網(wǎng),共同推進(jìn)篇章的發(fā)展(生成).

        (5) 廣義話題結(jié)構(gòu)理論

        宋柔等人針對(duì)漢語(yǔ)篇章話題結(jié)構(gòu)進(jìn)行了比較深入的研究,根據(jù)漢語(yǔ)篇章的特點(diǎn),以標(biāo)點(diǎn)句為基礎(chǔ),給出了廣義話題結(jié)構(gòu)的概念和相應(yīng)的表示方法,提出了“話題的不可穿越性”和“話題句的成句性”兩個(gè)廣義話題結(jié)構(gòu)性質(zhì);描述了漢語(yǔ)的話題結(jié)構(gòu)和話題句特征,給出了話題句動(dòng)態(tài)堆棧模型[21-23].這一研究成果是漢語(yǔ)篇章分析領(lǐng)域的一項(xiàng)開(kāi)創(chuàng)性工作.但同時(shí),廣義話題理論的動(dòng)態(tài)堆棧模型,強(qiáng)調(diào)子句語(yǔ)法成分的完整性,在分析層面描述粒度過(guò)細(xì),在操作層面也面臨可計(jì)算問(wèn)題.

        (6) 微觀話題結(jié)構(gòu)理論

        蘇州大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室在分析話題結(jié)構(gòu)相關(guān)理論的基礎(chǔ)上提出了基于主述位理論的篇章微觀話題結(jié)構(gòu)表示體系[33,34].該體系從篇章視角確立基本微觀話題單元,將該單元表示成包含主位和述位的實(shí)體形式化表示模式,并基于主位推進(jìn)理論搭建基本微觀話題的上下文關(guān)聯(lián)模式,再融合實(shí)體和上下文關(guān)聯(lián)形成完整的漢語(yǔ)篇章話題結(jié)構(gòu)表示體系.

        2.2 資源建設(shè)

        目前篇章結(jié)構(gòu)的資源建設(shè)主要與上述篇章修辭結(jié)構(gòu)(篇章連貫性)和篇章話題結(jié)構(gòu)(篇章銜接性)理論體系相關(guān),代表性資源包括修辭結(jié)構(gòu)篇章樹(shù)庫(kù)(rhetorical structure theory discourse treebank,簡(jiǎn)稱RST-DT)[35]、賓州篇章樹(shù)庫(kù)(Penn discourse treebank,簡(jiǎn)稱 PDTB)[36]、ACE(automatic content extraction)評(píng)測(cè)語(yǔ)料[37]、ARRAU[38]、OntoNotes[39]和篇章圖庫(kù)(GraphBank)[40]等.

        2.2.1 篇章修辭結(jié)構(gòu)資源建設(shè)

        目前與篇章修辭結(jié)構(gòu)有關(guān)的英文資源主要包括賓州篇章樹(shù)庫(kù)PDTB[36]和修辭結(jié)構(gòu)篇章樹(shù)庫(kù)RST-DT[35].

        (1) PDTB:由美國(guó)賓夕法尼亞大學(xué)、意大利托里諾大學(xué)和英國(guó)愛(ài)丁堡大學(xué)聯(lián)合標(biāo)注,并由 LDC(linguistic data consortium)于 2006年正式發(fā)布.2008年 PDTB 2.0發(fā)布,它是目前規(guī)模最大的英文篇章語(yǔ)料庫(kù),共標(biāo)注了40 600個(gè)關(guān)系,其中,包括18 439個(gè)顯式篇章關(guān)系,16 224個(gè)隱式篇章關(guān)系,624個(gè)由非連接詞表示的篇章關(guān)系,5 210個(gè)通過(guò)實(shí)體重復(fù)或共指表示的關(guān)系,還有254個(gè)相鄰句子不存在所定義的關(guān)系.

        (2) RST-DT:由美國(guó)南加州加利福尼亞大學(xué)標(biāo)注,并由LDC于2002年正式發(fā)布.RST-DT選用賓州樹(shù)庫(kù)的文章構(gòu)建二叉修辭結(jié)構(gòu)樹(shù).RST-DT對(duì)EDU進(jìn)行了嚴(yán)格的定義,規(guī)定主語(yǔ)或賓語(yǔ)從句不屬于EDU,充當(dāng)主要?jiǎng)釉~的補(bǔ)語(yǔ)的從句也不屬于EDU.此外,所有詞匯或句法標(biāo)記的起狀語(yǔ)作用的從句屬于EDU,定語(yǔ)從句、后置的名詞修辭短語(yǔ)或?qū)⑵渌鸈DU分割開(kāi)的從句或非謂語(yǔ)動(dòng)詞短語(yǔ)為內(nèi)置語(yǔ)篇單位.RST-DT完成了85篇文章的標(biāo)注,共標(biāo)注了53種單核心關(guān)系和25種多核心關(guān)系,這78種關(guān)系又分成16個(gè)組別,每組都具有相同的修辭功能.標(biāo)注的文章內(nèi)容涉及到財(cái)政報(bào)道、商業(yè)新聞、文化點(diǎn)評(píng)、讀者來(lái)信等多種話題.

        相比英語(yǔ),漢語(yǔ)篇章修辭結(jié)構(gòu)的資源構(gòu)建主要采用4種方法.

        (1) 基于RST的標(biāo)注

        樂(lè)明[41]以RST為指導(dǎo),參考漢語(yǔ)復(fù)句和句群理論,進(jìn)行了篇章結(jié)構(gòu)標(biāo)注的嘗試.他定義了12類47種漢語(yǔ)修辭關(guān)系,以句號(hào)、問(wèn)號(hào)、嘆號(hào)、分號(hào)、冒號(hào)、破折號(hào)、省略號(hào)及段落結(jié)束符等為標(biāo)記定義漢語(yǔ)基本篇章單位,完成97篇財(cái)經(jīng)評(píng)論文章的修辭結(jié)構(gòu)標(biāo)注,探索了中文篇章分析中采用 RST的可行性.陳莉萍[42]試圖采用RST標(biāo)注漢語(yǔ)篇章,其基本篇章單位以標(biāo)點(diǎn)分割,如“目前,…”中的“目前”也會(huì)作為基本篇章單位.他們的研究都表明RST的很多篇章關(guān)系無(wú)法在漢語(yǔ)中找到與之對(duì)應(yīng)的關(guān)系.

        (2) 基于PDTB體系的標(biāo)注

        Zhou和Xue[43]嘗試使用PDTB體系標(biāo)注漢語(yǔ),PDTB體系以連接詞為謂詞標(biāo)注其論元結(jié)構(gòu),結(jié)合漢語(yǔ)自身的特點(diǎn)對(duì)PDTB體系進(jìn)行了改進(jìn),并以此為參考從中文樹(shù)庫(kù)(Chinese Treebank,簡(jiǎn)稱CTB)中選取了98篇新聞?wù)Z料進(jìn)行了標(biāo)注.2015年,Zhou和Xue[44]進(jìn)一步將該語(yǔ)料擴(kuò)大到164篇,并最終提交LDC對(duì)外進(jìn)行發(fā)布.但漢語(yǔ)中連接詞大量缺省,PDTB體系表現(xiàn)出很大的不適應(yīng);又由于連接詞并不能覆蓋每一個(gè)篇章單位,PDTB體系通常不能構(gòu)建一個(gè)完整的篇章結(jié)構(gòu),這對(duì)篇章結(jié)構(gòu)分析而言顯然缺少了很重要的內(nèi)容.張牧宇等人[45]在英文篇章關(guān)系研究的基礎(chǔ)上分析了中英文的差異,總結(jié)了中文篇章語(yǔ)義分析的特點(diǎn),提出一套面向中文的層次化篇章關(guān)系體系,并進(jìn)行了標(biāo)注實(shí)踐,目前發(fā)布了哈爾濱工業(yè)大學(xué)中文篇章關(guān)系語(yǔ)料(HIT-CDTB),該語(yǔ)料選取 LDC發(fā)布的OntoNotes 4.0中的525篇漢語(yǔ)文本按照PDTB體系進(jìn)行了分句、復(fù)句和句群3個(gè)層次的篇章關(guān)系的標(biāo)注.標(biāo)注內(nèi)容包括顯式篇章關(guān)系的關(guān)系連接詞、關(guān)系元素和關(guān)系類別信息;以及隱式關(guān)系的可插入的連接詞和篇章關(guān)系類別信息.他們將篇章關(guān)系分為時(shí)序、因果、條件、比較、擴(kuò)展和并列這6類,標(biāo)注的關(guān)系連接詞共1 472類.

        (3) 采用漢語(yǔ)本土復(fù)句和句群理論標(biāo)注

        參考邢福義的漢語(yǔ)復(fù)句研究成果[17],華中師范大學(xué)標(biāo)注了漢語(yǔ)復(fù)句語(yǔ)料庫(kù)[46],目前已收有標(biāo)復(fù)句 658 447句,約44 395 000字,語(yǔ)料來(lái)源以《人民日?qǐng)?bào)》和《長(zhǎng)江日?qǐng)?bào)》為主.但漢語(yǔ)有標(biāo)復(fù)句只占漢語(yǔ)復(fù)句的30%左右,這就使得該語(yǔ)料庫(kù)的應(yīng)用受到很大限制.而且該語(yǔ)料庫(kù)僅關(guān)注復(fù)句內(nèi)部關(guān)系,沒(méi)有涉及句子及其以上篇章單位的結(jié)構(gòu)問(wèn)題,這顯然不能滿足篇章結(jié)構(gòu)分析的需求.清華漢語(yǔ)樹(shù)庫(kù)(Tsinghua Chinese Treebank,簡(jiǎn)稱TCT)[47]是從大規(guī)模的經(jīng)過(guò)基本信息標(biāo)注的漢語(yǔ)平衡語(yǔ)料庫(kù)中提取出100萬(wàn)漢字規(guī)模的語(yǔ)料文本,經(jīng)過(guò)自動(dòng)斷句、自動(dòng)句法分析和人工校對(duì),形成的高質(zhì)量漢語(yǔ)句法樹(shù)庫(kù)語(yǔ)料.TCT中標(biāo)出了復(fù)句內(nèi)各分句之間的關(guān)系信息,復(fù)句分類采用比較常用的并列關(guān)系、連貫關(guān)系、遞進(jìn)關(guān)系、選擇關(guān)系、因果關(guān)系、目的關(guān)系、假設(shè)關(guān)系、條件關(guān)系、轉(zhuǎn)折關(guān)系分類方法.但清華漢語(yǔ)樹(shù)庫(kù)中沒(méi)有標(biāo)注特定復(fù)句關(guān)系所對(duì)應(yīng)的復(fù)句關(guān)系詞,也沒(méi)有標(biāo)注句子之間的關(guān)系.

        (4) 基于連接依存樹(shù)的篇章結(jié)構(gòu)資源建設(shè)

        蘇州大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室結(jié)合PDTB和RST體系的優(yōu)勢(shì),提出了使用連接依存樹(shù)(CDT)表示漢語(yǔ)篇章修辭結(jié)構(gòu)的方案,并基于該方案,選取賓州漢語(yǔ)樹(shù)庫(kù)6.0版(Penn Chinese TreeBank,CTB 6.0)上的500篇文章進(jìn)行了篇章修辭結(jié)構(gòu)的標(biāo)注,構(gòu)建了漢語(yǔ)連接詞驅(qū)動(dòng)的篇章語(yǔ)料庫(kù)(CDTB)[19,20],每個(gè)段落標(biāo)注為一棵連接依存樹(shù),共有效標(biāo)注2 342個(gè)篇章(段落),標(biāo)注信息包括基本篇章單位、連接詞、篇章結(jié)構(gòu)、篇章關(guān)系和主次篇章單位.

        表1給出了篇章修辭結(jié)構(gòu)的4種核心體系的對(duì)比情況,從中可以看出,CDT借鑒了RST、PDTB和漢語(yǔ)的復(fù)句、句群理論,一方面明確了EDU和篇章樹(shù)結(jié)構(gòu),考慮漢語(yǔ)中的復(fù)句,以標(biāo)點(diǎn)句作為EDU判別的基本依據(jù);另一方面兼顧了連接詞在篇章關(guān)系中的地位,以連接詞為關(guān)系類別判斷的基點(diǎn),可實(shí)現(xiàn)關(guān)系不同分類體系的遷移.

        Table 1 Comparison of several important architectures of discourse rhetorical structure表1 篇章修辭結(jié)構(gòu)的核心體系的對(duì)比

        表2給出了3個(gè)具有一定影響力的漢語(yǔ)篇章修辭結(jié)構(gòu)語(yǔ)料庫(kù)的對(duì)比情況,其中,HIT-CDTB和LDC-CDTB都遵循了PDTB體系,進(jìn)行了篇章關(guān)系的淺層標(biāo)注,SUDA-CDTB則遵循了CDT體系,進(jìn)行了篇章樹(shù)結(jié)構(gòu)的標(biāo)注.

        Table 2 Comparison of Chinese corpora for discourse rhetorical structure表2 漢語(yǔ)篇章修辭結(jié)構(gòu)語(yǔ)料庫(kù)對(duì)比

        Table 2 Comparison of Chinese corpora for discourse rhetorical structure (Continued)表2 漢語(yǔ)篇章修辭結(jié)構(gòu)語(yǔ)料庫(kù)對(duì)比(續(xù))

        2.2.2 篇章話題結(jié)構(gòu)資源建設(shè)

        篇章話題結(jié)構(gòu)方面的語(yǔ)料庫(kù)相對(duì)較少,主要包括面向話題指稱結(jié)構(gòu)、面向篇章意圖性、漢語(yǔ)篇章廣義話題結(jié)構(gòu)和基于主述位理論的漢語(yǔ)微觀話題語(yǔ)料庫(kù)資源建設(shè)等.

        (1) 面向話題指稱結(jié)構(gòu)的語(yǔ)料庫(kù)資源建設(shè)

        指稱結(jié)構(gòu)是一種存在于篇章中前后兩個(gè)語(yǔ)言單位之間的特殊語(yǔ)義銜接關(guān)系,而確定兩者的過(guò)程即稱為指稱消解.目前主要的語(yǔ)料資源有ACE評(píng)測(cè)語(yǔ)料[37]、ARRAU語(yǔ)料庫(kù)[38]、OntoNotes語(yǔ)料庫(kù)[39].

        ? ACE評(píng)測(cè)語(yǔ)料

        ACE是美國(guó)政府支持的自然語(yǔ)言處理重要會(huì)議,ACE語(yǔ)料評(píng)測(cè)起始于2000年,自2004年開(kāi)始引入中文語(yǔ)料.ACE評(píng)測(cè)語(yǔ)料基于之前的MUC評(píng)測(cè)語(yǔ)料,其中的指代信息采用指代鏈的形式標(biāo)注而成,每個(gè)指代鏈獨(dú)立編號(hào)并被記錄在文件中,而相同指代關(guān)系的實(shí)體都位于同一個(gè)指代鏈上.MUC和 ACE評(píng)測(cè)語(yǔ)料為面向銜接關(guān)系的自然語(yǔ)言處理研究提供了重要的語(yǔ)料資源,但在它們通過(guò)指代形成的語(yǔ)料銜接關(guān)系資源中,僅僅標(biāo)注了顯式實(shí)體指代,而忽略了對(duì)隱式實(shí)體(或稱為省略)的指代標(biāo)注.

        ? ARRAU語(yǔ)料庫(kù)

        由University of Trento(意大利)和University of Essex(英國(guó))針對(duì)較難處理的指代問(wèn)題,聯(lián)合建立的指代標(biāo)注語(yǔ)料庫(kù).該語(yǔ)料包括對(duì)話、說(shuō)明文和新聞報(bào)道,不僅標(biāo)注了實(shí)體指代,也標(biāo)注了抽象指代(如事件、行為指代),但并不包含漢語(yǔ)部分.

        ? OntoNotes語(yǔ)料庫(kù)

        由 BBN Technologies、University of Colorado(美國(guó))、University of Pennsylvania(美國(guó))和 University of Southern California’s Information Sciences Institute(美國(guó))相互合作創(chuàng)立.OntoNotes集成了多層面的標(biāo)注,包括詞匯層面、句子層面和篇章層面的標(biāo)注,并不為特定評(píng)測(cè)服務(wù).OntoNotes在篇章層面主要包含實(shí)體間以及事件的共指關(guān)系.OntoNotes中既包含英語(yǔ),也包含漢語(yǔ),漢語(yǔ)部分還標(biāo)注了主語(yǔ)位置的零指代信息.

        雖然面向話題指稱結(jié)構(gòu)的語(yǔ)料庫(kù)資源相對(duì)豐富,但是對(duì)于漢語(yǔ)中非常突出的零指代問(wèn)題,資源卻非常匱乏.OntoNotes語(yǔ)料雖然包含了少量的主語(yǔ)位置的零指代信息,但該語(yǔ)料更多關(guān)注的是句法成分的缺失,面向篇章分析的零指代標(biāo)注資源極其匱乏.

        (2) 篇章意圖性資源建設(shè)

        為克服子句間的多種篇章關(guān)系不能被樹(shù)模型的篇章結(jié)構(gòu)有效表達(dá)這一缺陷,Wolf和Gibson提出了通過(guò)圖結(jié)構(gòu)表示篇章的方法[40],并研究了篇章圖庫(kù)(discourse graph bank,簡(jiǎn)稱DGB)的構(gòu)建問(wèn)題.同時(shí),以該結(jié)構(gòu)標(biāo)注了135篇文章.該方法主要分為 3步:首先,根據(jù)標(biāo)點(diǎn)符號(hào)將篇章分為基本單元(句子/子句),稱為篇章段(discourse segments);然后,再根據(jù)標(biāo)點(diǎn)符號(hào)和話題,將上述基本單元?dú)w并成組(group),每一個(gè)組都集中表達(dá)了某個(gè)話題;最后,確定基本單元、組之間的連貫關(guān)系(coherence).

        (3) 漢語(yǔ)篇章廣義話題結(jié)構(gòu)資源建設(shè)

        在針對(duì)廣義話題結(jié)構(gòu)理論的語(yǔ)料資源方面,宋柔課題組基于他們提出的廣義話題結(jié)構(gòu)的概念,以標(biāo)點(diǎn)句為基本篇章單位,開(kāi)展了漢語(yǔ)篇章的話題結(jié)構(gòu)標(biāo)注工作[21-23].目前,已標(biāo)注了《圍城》、《鹿鼎記》和其他語(yǔ)料(涉及章回小說(shuō)、現(xiàn)代小說(shuō)、百科全書、法律法規(guī)、散文、操作說(shuō)明書等語(yǔ)體),共約 40萬(wàn)字.其中,《鹿鼎記》第 1回的廣義話題結(jié)構(gòu)標(biāo)注及其說(shuō)明已在網(wǎng)上公開(kāi)發(fā)布(http://clip.blcu.edu.cn/).

        (4) 基于主述位理論的漢語(yǔ)微觀話題語(yǔ)料庫(kù)資源建設(shè)

        蘇州大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室提出了基于主述位理論的篇章微觀話題結(jié)構(gòu)表示體系[33,34],并據(jù)此標(biāo)注形成了500篇文本的微觀話題結(jié)構(gòu)語(yǔ)料庫(kù)CDTC(Chinese discourse topic corpus)[48,49].該語(yǔ)料從CTB 6.0中選取500篇文檔標(biāo)注了基本篇章單元、基本篇章話題的主位(theme)和述位(rheme)、篇章微觀話題結(jié)構(gòu)(micro-topic scheme)、微觀話題聯(lián)接、微觀話題鏈等信息,為微觀話題結(jié)構(gòu)的自動(dòng)分析奠定了基礎(chǔ).

        2.3 計(jì)算模型

        基于不同的理論體系和相應(yīng)的語(yǔ)料庫(kù),近年來(lái)很多有關(guān)計(jì)算模型的研究工作陸續(xù)展開(kāi),下面我們就按研究的不同角度分別展開(kāi)介紹.

        2.3.1 篇章修辭結(jié)構(gòu)計(jì)算模型

        (1) 基于RST-DT的研究

        基于RST-DT的篇章結(jié)構(gòu)分析主要包含兩個(gè)子任務(wù):EDU的識(shí)別和篇章連接關(guān)系的生成.其中,EDU的識(shí)別負(fù)責(zé)對(duì)文本進(jìn)行切分,提取出EDU,即構(gòu)造生成的修辭結(jié)構(gòu)樹(shù)的樹(shù)葉;連接關(guān)系的生成則采用自底向上的方法生成修辭結(jié)構(gòu)樹(shù)中的功能節(jié)點(diǎn),并為每一節(jié)點(diǎn)確定一個(gè)最可能的修辭關(guān)系.

        關(guān)于 EDU的自動(dòng)識(shí)別研究較多,結(jié)果也比較理想.其中比較有代表性的研究包括:Soricut等人[50]采用基于統(tǒng)計(jì)的方法進(jìn)行識(shí)別,EDU識(shí)別在自動(dòng)句法樹(shù)上獲得F1值為83.1%,在標(biāo)準(zhǔn)句法樹(shù)上F1值為84.7%.Hernault等人[51]給出了一個(gè)基于序列數(shù)據(jù)標(biāo)注的篇章分割模型,使用詞匯和句法特征,采用 CRF進(jìn)行學(xué)習(xí),實(shí)驗(yàn)結(jié)果表明,作者的序列篇章分割模型F1值達(dá)到94%,接近于人工篇章分割的F1值98%.綜上可知,目前RST-DT上EDU識(shí)別準(zhǔn)確率較高,但進(jìn)一步提升的空間不大.

        在篇章連接關(guān)系的生成方面,結(jié)果則不理想.Soricut等人[50]利用語(yǔ)法和詞法信息進(jìn)行句子級(jí)的篇章結(jié)構(gòu)分析,他們的算法稱為SPADE,在篇章關(guān)系識(shí)別時(shí)采用概率模型計(jì)算各種篇章關(guān)系的概率.篇章結(jié)構(gòu)分析模型采用全自動(dòng)的方法,識(shí)別無(wú)標(biāo)注的篇章關(guān)系F1值為70.5%,采用正確的基本篇章單位和正確句法樹(shù)的結(jié)果是96.2%.但是,SPADE并不對(duì)整篇文本進(jìn)行篇章關(guān)系識(shí)別.Huong等人[52]給出了一個(gè)文本自動(dòng)篇章結(jié)構(gòu)生成系統(tǒng),該系統(tǒng)分為兩個(gè)層次:句子級(jí)的篇章結(jié)構(gòu)分析和文本級(jí)的篇章結(jié)構(gòu)分析.句子級(jí)的篇章結(jié)構(gòu)分析使用句法和線索詞來(lái)進(jìn)行基本篇章單位的識(shí)別和篇章結(jié)構(gòu)的生成.對(duì)于篇章級(jí)別,為縮小篇章結(jié)構(gòu)分析的搜索空間,加入了文本相鄰和文本組織限制.最終在縮小搜索空間后,系統(tǒng)的F1值達(dá)到了 70.1%,其缺點(diǎn)就是計(jì)算量較大.Hernault等人[53]在RST上實(shí)現(xiàn)了基于SVM的篇章結(jié)構(gòu)分析器HILDA.對(duì)篇章切分和關(guān)系識(shí)別使用SVM訓(xùn)練了分類器,采用貪婪的自底向上的方法構(gòu)建篇章結(jié)構(gòu)樹(shù),篇章結(jié)構(gòu)樹(shù)構(gòu)建的時(shí)間復(fù)雜度取決于輸入文本的長(zhǎng)度.HILDA在樹(shù)構(gòu)建和篇章關(guān)系分析上的效果較好,結(jié)構(gòu)識(shí)別F1值為72.3%,完整句法樹(shù)識(shí)別F1值為47.3%.Feng[54]在HILDA的基礎(chǔ)上進(jìn)行了篇章結(jié)構(gòu)樹(shù)的構(gòu)建和關(guān)系識(shí)別,抽取了更豐富的特征,性能比 HILDA有所提升.Joty等人[55]給出一種使用動(dòng)態(tài)條件隨機(jī)場(chǎng)進(jìn)行句子級(jí)篇章分析的方法,使用人工 EDU切分結(jié)果識(shí)別 18類關(guān)系F1值為 77.1%.Surdeanu等人[56]利用感知器模型結(jié)合邏輯回歸算法進(jìn)行結(jié)構(gòu)創(chuàng)建和關(guān)系預(yù)測(cè),同時(shí),該分析器還借助預(yù)訓(xùn)練的句法依存樹(shù)獲取句法特征.近幾年來(lái),研究人員開(kāi)始注重用若干篇章中文本的分布特征來(lái)表示篇章的內(nèi)部單元.Braud等人[57]使用層次神經(jīng)網(wǎng)絡(luò)模型(hierarchical bi-LSTM)構(gòu)建了一個(gè)端到端的篇章分析器.Li等人[58]用基于注意力的層次型雙向LSTM模型結(jié)合CKY算法構(gòu)建了圖篇章解析器.Braud等人[59]使用一種前饋神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了兩種過(guò)渡型篇章分析器.Ji和Eisenstein[60]使用支持向量機(jī)結(jié)合shift-reduce轉(zhuǎn)移系統(tǒng)構(gòu)建了DPLP篇章分析器.導(dǎo)致篇章分析結(jié)果較低的主要原因是 RST-DT中標(biāo)注的篇章結(jié)構(gòu)樹(shù)的數(shù)量有限,模型沒(méi)有能力獲取深層次的語(yǔ)義信息.

        (2) 基于PDTB的研究

        賓州篇章語(yǔ)料庫(kù)(PDTB)的構(gòu)建,以及CoNLL 2015和2016年Shared Task的舉辦,顯著推動(dòng)了篇章結(jié)構(gòu)分析的研究,在篇章計(jì)算方面受到了極大的關(guān)注.

        基于PDTB的篇章分析包含論元的抽取、篇章關(guān)系的識(shí)別和端到端系統(tǒng)的構(gòu)建這3個(gè)方面,下面分別加以介紹.

        ? 論元的抽取

        代表性的工作包括:Dines等人[61]針對(duì)Subordinate類型的連接詞提出了一種tree subtraction算法來(lái)自動(dòng)完成句內(nèi)論元的抽取,但該方法使用了一套具有很強(qiáng)針對(duì)性的規(guī)則,對(duì)其他類別的連接詞并不完全適用.Lin等人[62]借鑒 Dinesh的 tree subtraction算法,借助機(jī)器學(xué)習(xí)方法首先識(shí)別覆蓋論元的最小子樹(shù),再利用 tree subtraction算法在子樹(shù)中抽取論元.但覆蓋論元的最小子樹(shù)也會(huì)包含非論元的部分,造成后續(xù)的抽取不能完全正確.他們的實(shí)驗(yàn)結(jié)果也證實(shí)了這一點(diǎn):完全精確匹配的標(biāo)準(zhǔn)下,Arg1和Arg2同時(shí)正確的性能僅為40%,而在部分匹配的標(biāo)準(zhǔn)下,這一性能可達(dá)到 80%以上.Wellner等人[63]提出一種機(jī)器學(xué)習(xí)的方法來(lái)確定連接詞對(duì)應(yīng)論元Arg1和 Arg2的 head,但是 PDTB語(yǔ)料中并沒(méi)有標(biāo)注論元的 head信息,因而評(píng)測(cè)上缺乏一致的標(biāo)準(zhǔn).Ghosh等人[64,65]基于條件隨機(jī)場(chǎng)模型將論元抽取看成序列標(biāo)注問(wèn)題,給出了一個(gè)論元識(shí)別方案,但他們使用了一些來(lái)自PDTB的標(biāo)準(zhǔn)信息,例如語(yǔ)義類別、Arg2信息等,給出的結(jié)果也只考慮了標(biāo)準(zhǔn)句法樹(shù),未對(duì)自動(dòng)句法分析結(jié)果進(jìn)行評(píng)測(cè).Kong等人[66]借鑒SRL中的句法樹(shù)裁剪策略給出了一個(gè)論元構(gòu)成子樹(shù)的提取方案,并借助ILP進(jìn)行全局最優(yōu),大大提升了完全精確匹配下論元識(shí)別的性能.

        ? 篇章關(guān)系識(shí)別

        Pitler等人[67]指出,在PDTB篇章語(yǔ)料庫(kù)中隱式篇章關(guān)系與顯式篇章關(guān)系大約各占一半.由于顯式篇章關(guān)系中連接詞(connective)的存在且歧義較少(大約只有 2%),因此比較容易識(shí)別.這使得隱式篇章關(guān)系研究成為篇章結(jié)構(gòu)關(guān)系分析成敗的關(guān)鍵.識(shí)別隱式篇章關(guān)系的研究可以歸納為 3類:基于偽隱式篇章關(guān)系語(yǔ)料的研究,基于純隱式篇章關(guān)系語(yǔ)料的研究和基于偽隱式和純隱式的篇章關(guān)系混合語(yǔ)料研究.基于偽隱式關(guān)系的研究的代表性工作包括:Marcu和 Echihabi[68]首次提出使用無(wú)監(jiān)督的方法識(shí)別隱式篇章關(guān)系.他們使用一系列文本模式從網(wǎng)絡(luò)上自動(dòng)獲取語(yǔ)料資源,同時(shí)去除篇章連接詞構(gòu)成一個(gè)偽隱式篇章關(guān)系語(yǔ)料.他們的實(shí)驗(yàn)結(jié)果表明,使用詞對(duì)(word-pairs)特征為識(shí)別隱式篇章關(guān)系提供了幫助.Saito等人[69]擴(kuò)展了他們的工作,從文本域中提取短語(yǔ)模式特征,實(shí)驗(yàn)結(jié)果表明,同樣有助于提高隱式篇章分析的性能.盡管如此,我們認(rèn)為偽隱式篇章關(guān)系并不能從真正意義上代表純隱式篇章關(guān)系,因?yàn)樗鼈冊(cè)诒硎娟P(guān)系上存在著很多的不同,比如隱式關(guān)系的存在表明上下文的聯(lián)系足夠強(qiáng)而不需要使用篇章連接詞來(lái)銜接.

        隨著PDTB 2.0的發(fā)布,該語(yǔ)料顯式地區(qū)分了隱式篇章關(guān)系和顯式篇章關(guān)系,并且僅針對(duì)段落內(nèi)相鄰句子間的隱式篇章關(guān)系進(jìn)行標(biāo)注.至此,很多工作開(kāi)始側(cè)重研究純隱式篇章關(guān)系識(shí)別.這方面具有代表性的工作包括:Pitler等人[67]首次提出使用不同的語(yǔ)言學(xué)特征,比如動(dòng)詞、極性和上下文環(huán)境等,識(shí)別隱式篇章關(guān)系.Lin等人[70]受Pitler等人的啟發(fā),首次提出使用兩類句法特征,即成分句法推導(dǎo)規(guī)則和依存句法推導(dǎo)規(guī)則,來(lái)識(shí)別PDTB中第2層隱式篇章關(guān)系.Park和 Cardie[71]使用了貪婪的特征選擇算法確定了識(shí)別隱式篇章關(guān)系的最優(yōu)特征子集.他們的實(shí)驗(yàn)在第1層4大類關(guān)系上取得了最好的F1值.近年來(lái),一些研究表明,樣本不平衡問(wèn)題成為了提高隱式篇章分析性能的重大阻礙.有人提出使用偽隱式和純隱式關(guān)系混合的篇章關(guān)系來(lái)進(jìn)行分析.相關(guān)工作包括:Zhou等人[72]使用語(yǔ)言模型來(lái)計(jì)算困惑度以判斷相鄰句子間插入連接詞的合理性.Biran和 McKeown[73]使用聚集詞對(duì)嘗試解決特征稀疏問(wèn)題,但他們的實(shí)驗(yàn)結(jié)果表明性能提升很小.為了解決隱式關(guān)系標(biāo)注樣本缺少的問(wèn)題,Lan等人[74]提出使用多任務(wù)學(xué)習(xí)的方法引入偽隱式篇章關(guān)系來(lái)輔助隱式篇章關(guān)系的識(shí)別.Zhou等人[75]提出一種基于信息檢索的無(wú)監(jiān)督方法識(shí)別隱式篇章關(guān)系,他們利用 Web上的資源提取大量的偽隱式關(guān)系輔助識(shí)別隱式篇章關(guān)系.

        近幾年,越來(lái)越多的研究人員開(kāi)始尋求用神經(jīng)網(wǎng)絡(luò)的方法來(lái)完成隱式篇章關(guān)系識(shí)別的任務(wù).同時(shí),為了緩解有標(biāo)數(shù)據(jù)缺少帶來(lái)的問(wèn)題,很多傳統(tǒng)算法和神經(jīng)網(wǎng)絡(luò)算法都借助沒(méi)有標(biāo)注的數(shù)據(jù),輔助完成隱式篇章關(guān)系識(shí)別.Lan等人[76]提出了一種基于多任務(wù)注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)來(lái)解決隱式篇章關(guān)系的表示和識(shí)別問(wèn)題,并取得了當(dāng)前最好的性能.

        ? 端到端的篇章結(jié)構(gòu)分析

        Lin[77]研究如何在PDTB上進(jìn)行篇章結(jié)構(gòu)分析,對(duì)于難度較大的隱式篇章關(guān)系識(shí)別,采用上下文、詞對(duì)、句法特征、依存樹(shù)特征進(jìn)行識(shí)別.整個(gè)系統(tǒng)包括連接詞識(shí)別、論元識(shí)別、顯式關(guān)系分類、隱式關(guān)系分類、屬性標(biāo)注,這是第一個(gè)端到端的PDTB分析工作.此后,隨著CoNLL 2015和2016年Shared Task以端到端的篇章邏輯語(yǔ)義分析為任務(wù),大量工作隨之展開(kāi),主要可以分成3類:一是跟隨Lin等人的工作,進(jìn)一步完善各個(gè)模塊;二是借助ILP、Structured Perceptron等全局優(yōu)化策略對(duì)系統(tǒng)進(jìn)行全局優(yōu)化;三是引入神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)框架對(duì)平臺(tái)中影響性能的論元識(shí)別和隱式關(guān)系識(shí)別進(jìn)行改進(jìn).

        (3) 漢語(yǔ)篇章修辭結(jié)構(gòu)分析

        由于語(yǔ)料缺乏,這部分研究受到了制約.代表性的工作包括:張牧宇等人[78]在哈爾濱工業(yè)大學(xué)中文篇章關(guān)系語(yǔ)料(HIT-CDTB)上進(jìn)行顯式篇章句間關(guān)系和隱式篇章句間關(guān)系識(shí)別,并給出初步的實(shí)驗(yàn)結(jié)果,但其所標(biāo)語(yǔ)料參考英語(yǔ) PDTB體系,不能進(jìn)行完全的篇章結(jié)構(gòu)分析,只能進(jìn)行部分篇章分析.CoNLL 2016的 Shared Task中以Zhou和Xue[44]標(biāo)注的、LDC發(fā)布的CDTB V0.5為語(yǔ)料,引入了漢語(yǔ)淺層篇章修辭結(jié)構(gòu)分析的任務(wù),使得漢語(yǔ)淺層篇章修辭結(jié)構(gòu)分析得到了一定的關(guān)注,但大部分工作都采取用英文一致的體系進(jìn)行.涂眉等人[79]在TCT上進(jìn)行了基于最大熵的漢語(yǔ)篇章結(jié)構(gòu)自動(dòng)分析方法,實(shí)驗(yàn)結(jié)果表明,篇章語(yǔ)義單元自動(dòng)切分的F1值能達(dá)到89.1%,當(dāng)篇章語(yǔ)義結(jié)構(gòu)樹(shù)高度不超過(guò)6層時(shí),篇章語(yǔ)義關(guān)系標(biāo)注的F1值為63%.Kong等人[80]基于蘇州大學(xué)的CDTB語(yǔ)料采用流水線的方式構(gòu)建的端到端的中文篇章解析器,該平臺(tái)包括子句識(shí)別、連接詞識(shí)別與分類、隱式篇章關(guān)系識(shí)別、篇章單位主次識(shí)別等部件,最終輸出構(gòu)建完成的篇章結(jié)構(gòu)樹(shù).在CDTB上的結(jié)構(gòu)性能的F1值達(dá)到了46.7%,但若再綜合進(jìn)篇章樹(shù)中的每個(gè)關(guān)系的具體屬性,整個(gè)分析器的F1性能只有20.0%.Jia等人[81]利用轉(zhuǎn)移系統(tǒng)和深度學(xué)習(xí)的方法,給出了一個(gè)完整的從平文本到樹(shù)形結(jié)構(gòu)的篇章結(jié)構(gòu)自動(dòng)解析框架,在英文RST和蘇州大學(xué)的 CDTB語(yǔ)料上都取得了較好的性能.孫成等人[82]給出了一個(gè)完整的基于轉(zhuǎn)移系統(tǒng)的篇章結(jié)構(gòu)樹(shù)的生成框架,并參考RST上相關(guān)評(píng)價(jià)體系給出了完整的漢語(yǔ)篇章結(jié)構(gòu)樹(shù)的評(píng)價(jià)體系.

        2.3.2 篇章話題結(jié)構(gòu)計(jì)算模型

        受限于理論體系的可計(jì)算性和相應(yīng)語(yǔ)料資源的匱乏,目前有關(guān)篇章話題結(jié)構(gòu)的計(jì)算模型研究主要集中在指代結(jié)構(gòu)的研究,而指代結(jié)構(gòu)的研究又分別從實(shí)體指代、事件指代和零指代3方面展開(kāi).

        (1) 實(shí)體指代消解研究

        作為信息抽取的核心組成部分之一,指代消解一直都是自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn).早期指代消解方法均采用啟發(fā)式規(guī)則方法,從 20世紀(jì) 90年代開(kāi)始,隨著各類指代消解標(biāo)注語(yǔ)料的不斷發(fā)布以及一些有影響力的自然語(yǔ)言處理會(huì)議和公開(kāi)評(píng)測(cè)的召開(kāi),例如 MUC(Message Understanding Conf.)[83,84]、ACE(automatic content extraction)[37]、CoNLL shared task[85,86]等,指代消解的研究重點(diǎn)也轉(zhuǎn)向了數(shù)據(jù)驅(qū)動(dòng)的指代消解方法研究.目前主流的方法有:

        · 基于規(guī)則的方法:2010年,Raghunathan等人[87]提出了一個(gè)基于多重過(guò)濾框架的共指消解模型.這個(gè)框架是由 7個(gè)消解模塊組成,這些模塊按照精度從高到低進(jìn)行排列,每一層的輸入以上一層輸出的實(shí)體聚類體為基礎(chǔ).該框架通過(guò)共享屬性傳遞全局信息保證了強(qiáng)屬性信息的功能要優(yōu)于弱屬性,也使得過(guò)濾模型做出共指判斷時(shí)能使用所有的屬性信息.2011年,Lee等人[88]基于Raghunathan的思想進(jìn)行了擴(kuò)展,通過(guò)添加過(guò)濾器,增加候選先行語(yǔ)的抽取和確定以及全局優(yōu)化,使得系統(tǒng)在CoNLL-2011 Shared Task測(cè)評(píng)中獲得最高的準(zhǔn)確率.

        · 基于統(tǒng)計(jì)的方法:1999年,Cardie等人[89]提出通過(guò)聚類方法進(jìn)行名詞短語(yǔ)的同指消解,其基本思想是收集篇章中的基本名詞短語(yǔ),根據(jù)短語(yǔ)的特征對(duì)名詞短語(yǔ)聚類,判斷兩個(gè)名詞是否屬于同一個(gè)類.

        · 基于分類的方法:1995年,McCarthy[90]把判斷先行語(yǔ)的問(wèn)題轉(zhuǎn)換成分類問(wèn)題,通過(guò)分類器判斷指代語(yǔ)與每個(gè)先行詞候選之間是否存在指代關(guān)系.這一思想為日后指代消解的研究開(kāi)辟了一條全新的道路.Soon等人[91]則給出了詳盡且完整的實(shí)現(xiàn)步驟,并開(kāi)發(fā)出實(shí)用的系統(tǒng).在此基礎(chǔ)上,許多研究者進(jìn)行了不同程度的擴(kuò)充和改進(jìn),主要包含3類:(1) 抽取強(qiáng)而有力的平面特征以及篇章中結(jié)構(gòu)化信息支持學(xué)習(xí)模型.例如,2012年,孔芳等人[92]提出基于樹(shù)核函數(shù)的中英文消解方法;(2) 單一模型向多重模型融合逐漸演變,并以此增強(qiáng)分類器效果.例如,2012年,Xu等人[93]提出融合基于規(guī)則與基于分類的方法用于指代消解;(3) 優(yōu)化共指鏈的形成.2012年,Belder等人[94]提出一種新的方法優(yōu)化二元分類后共指鏈鏈接問(wèn)題,把共指鏈接問(wèn)題看成是一個(gè)線性規(guī)劃問(wèn)題,并提出用列生成的方法獲取最優(yōu)解以此達(dá)到準(zhǔn)確消解的目的.

        · 深度學(xué)習(xí)方法:深度學(xué)習(xí)是通過(guò)模擬人腦神經(jīng)元和突觸處理感知信號(hào)的過(guò)程,構(gòu)建含多個(gè)隱層的機(jī)器學(xué)習(xí)模型.其主要優(yōu)勢(shì)在于能自動(dòng)地學(xué)習(xí)數(shù)據(jù)中比淺層特征更加抽象的高層特征表示.Wiseman[95]提出利用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)潛在的、全局的實(shí)體聚類的特征表示,利用貪婪搜索算法實(shí)現(xiàn)實(shí)體-實(shí)體表達(dá)模型.Clark[96]使用增強(qiáng)學(xué)習(xí)方法結(jié)合神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體表達(dá)排序模型進(jìn)行直接優(yōu)化,并提出了兩種優(yōu)化算法:增強(qiáng)策略梯度算法和獎(jiǎng)勵(lì)重調(diào)最大化算法,后者實(shí)現(xiàn)了更好的性能.Lee[97]利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體表達(dá)的上下文信息進(jìn)行編碼,結(jié)合單詞的分布式表達(dá),利用注意力機(jī)制形成 mention的有效表示,然后最大化得分函數(shù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),在CoNLL 2012任務(wù)上取得了最好的結(jié)果.

        上述研究主要針對(duì)英文.相比英文指代消解,目前漢語(yǔ)指代消解的研究要少很多,主要屬于跟進(jìn)型研究.代表工作包括:王厚峰等人[98-100]分別從領(lǐng)域和語(yǔ)義等知識(shí)出發(fā),提取規(guī)則進(jìn)行了指代消解的研究;李國(guó)臣等人[101]將英文平臺(tái)的類似做法移植到中文指代消解中,采用決策樹(shù)方法對(duì)中文人稱代詞的消解進(jìn)行了研究.周俊生等人[102]提出了一種基于圖劃分的無(wú)監(jiān)督的漢語(yǔ)指代消解算法,其性能與監(jiān)督的漢語(yǔ)指代消解性能相當(dāng);楊勇等人[103]給出了一個(gè)基于機(jī)器學(xué)習(xí)的指代消解平臺(tái),并對(duì)指代消解中各類距離特征對(duì)指代消解性能的影響進(jìn)行了深入的探索;王海東等人[104]探索了語(yǔ)義角色對(duì)指代消解性能的影響,他們的研究表明,語(yǔ)義角色信息的引入能夠顯著提高指代消解的性能;李渝勤等人[105]針對(duì)基于機(jī)器學(xué)習(xí)的中文共指消解中不同類別名詞短語(yǔ)特征向量的使用差異,提出一種基于特征分選策略的方法,提高了共指消解的性能.張牧宇等人[106]提出一種利用中心語(yǔ)信息的新方法.該方法首先引進(jìn)一種基于簡(jiǎn)單平面特征的實(shí)例匹配算法用于共指消解.在此基礎(chǔ)上,又引入了先行語(yǔ)與照應(yīng)語(yǔ)的中心語(yǔ)字符串作為新特征,并提出一種競(jìng)爭(zhēng)模式,將中心語(yǔ)約束融合進(jìn)實(shí)例匹配算法,提升了消解效果.Song等人[107]提出一種基于馬爾可夫邏輯網(wǎng)的共指消解模型.

        (2) 零指代研究

        除上述名詞短語(yǔ)的指代消解外,零指代現(xiàn)象在中文中頻繁出現(xiàn),近年來(lái),中文零指代成為研究熱點(diǎn).代表性的工作有:Zhao等人[108]給出一個(gè)完整的基于機(jī)器學(xué)習(xí)的中文零指代消解方案,并提出一套有效的適用于中文零指代任務(wù)的特征集合.但是他們的工作主要關(guān)注零指代的消解子任務(wù),對(duì)零指代項(xiàng)的識(shí)別僅給出一個(gè)保證高召回率的規(guī)則方法.他們的實(shí)驗(yàn)結(jié)果也表明,過(guò)低的零指代項(xiàng)識(shí)別準(zhǔn)確率會(huì)嚴(yán)重影響后續(xù)消解的性能.Kong等人[109]給出一個(gè)中文零指代消解的完整框架,將中文零指代消解清晰地劃分成零元素識(shí)別、零待消解項(xiàng)識(shí)別和零元素消解 3個(gè)子任務(wù),并采用基于樹(shù)核函數(shù)的方法分別給出每一個(gè)子任務(wù)適用的結(jié)構(gòu)化特征集.但是,他們僅關(guān)注平臺(tái)的統(tǒng)一性,只給出了標(biāo)準(zhǔn)句法樹(shù)上平臺(tái)的性能,未給出完全自動(dòng)狀況下方法有效性的驗(yàn)證.Chen等人[110]首次給出完整的端到端的全自動(dòng)狀況下的中文零指代消解平臺(tái),并提出一組更有效的句法和上下文特征.Chen等人[111]給出一個(gè)無(wú)監(jiān)督方法的生成式模型,并借助它進(jìn)行中文零指代消解.基于這一工作,Chen等人[112]進(jìn)一步在生成式模型中基于概率將零待消解項(xiàng)識(shí)別和消解任務(wù)進(jìn)行聯(lián)合學(xué)習(xí),取得了一定性能的提升.Chen等人[113]又進(jìn)一步在該平臺(tái)中引入深度學(xué)習(xí)方法,取得了更好的性能.Sheng等人[114]在傳統(tǒng)零指代消解平臺(tái)中考慮了篇章修辭結(jié)構(gòu)信息,從篇章修辭樹(shù)結(jié)構(gòu)中提取各類篇章級(jí)的信息來(lái)幫助中文零指代,并通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了修辭結(jié)構(gòu)信息的引入能夠提升中文零指代的性能.Kong和 Zhou[115]參考普通名詞短語(yǔ)消解平臺(tái)的研究進(jìn)展,提出了一種全新的鏈到鏈的中文零指代消解方案,其基本思想是將普通名詞短語(yǔ)的指代消解結(jié)果看作對(duì)中文零元素的先行詞候選的一種過(guò)濾,并以指代鏈為單位進(jìn)行中文零指代消解,實(shí)驗(yàn)取得了目前最好的性能.Yin等人[116]提出了一個(gè)借助深度記憶網(wǎng)絡(luò)將零元素的上下文信息向量化,從而自動(dòng)學(xué)習(xí)相關(guān)的語(yǔ)義信息來(lái)幫助零指代.Zhang等人[117]給出了一種深度神經(jīng)網(wǎng)絡(luò)方法,通過(guò)對(duì)零元素的上下文和可能的先行詞候選及其上下文進(jìn)行高效的向量化表征來(lái)提升零指代的性能.Liu等人[118]為了解決零指代標(biāo)注語(yǔ)料不足這一問(wèn)題提出了一種自動(dòng)生成大規(guī)模偽訓(xùn)練語(yǔ)料的方法,使用這些偽語(yǔ)料,借助神經(jīng)網(wǎng)絡(luò)方法提升漢語(yǔ)零指代消解的性能.進(jìn)一步地,Yin等人[119]在神經(jīng)網(wǎng)絡(luò)平臺(tái)中引入強(qiáng)化學(xué)習(xí)策略,進(jìn)一步提升了漢語(yǔ)零指代消解的性能.

        (3) 事件指代消解研究

        受限于標(biāo)注語(yǔ)料及任務(wù)的復(fù)雜度,相比實(shí)體指代消解而言,事件指代消解的相關(guān)研究剛剛起步,大多參考實(shí)體指代消解的解決思路.主要的代表性工作有:2006年,Ahn[120]通過(guò)構(gòu)建事件對(duì),計(jì)算事件對(duì)之間的相似度來(lái)判斷事件的同指關(guān)系.隨著機(jī)器學(xué)習(xí)方法的推進(jìn),事件指代消解任務(wù)的研究轉(zhuǎn)向通過(guò)人工構(gòu)建事件的特征來(lái)計(jì)算事件之間的“距離”,進(jìn)而判斷同指關(guān)系.Chen等人[121]利用最大熵模型建立事件指代消解系統(tǒng),并在各項(xiàng)評(píng)測(cè)指標(biāo)下評(píng)估了系統(tǒng)的性能.Bejan和Harabagiu[122]運(yùn)用無(wú)監(jiān)督的非參貝葉斯模型將詞匯特征和WordNet中的語(yǔ)義相似度引入事件指代消解任務(wù)中.2015年,Araki等人[123]首次提出一種聯(lián)合學(xué)習(xí)模型,即將事件抽取任務(wù)和事件指代消解任務(wù)同時(shí)研究.隨后Lu和Ng[124]也構(gòu)建了一個(gè)基于一元二元以及三元特征融合的聯(lián)合學(xué)習(xí)模型.近年來(lái),神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理的各個(gè)領(lǐng)域都取得不錯(cuò)的研究成果,Nguyen[125]通過(guò)非連續(xù)卷積模型在 KBP[126]語(yǔ)料上完成事件指代消解任務(wù)的研究.同年,Krause等人[127]也搭建了卷積神經(jīng)網(wǎng)絡(luò)模型,并在ACE和ACE++語(yǔ)料進(jìn)行了相關(guān)任務(wù)研究.在中文事件指代消解方面,受限于語(yǔ)料,目前只有少量工作,代表性工作包括:Lu和 Ng[124]構(gòu)建的平臺(tái)不僅匯報(bào)了英文事件指代消解的性能,也匯報(bào)了 KBP中文語(yǔ)料上的性能;滕佳月等人[128,129]基于ACE中文語(yǔ)料進(jìn)行了中文事件指代消解的研究,并提出了基于全局優(yōu)化進(jìn)行性能改善的策略.

        除指代外,針對(duì)篇章意圖性的計(jì)算模型的研究很少,代表性工作是Pustejovsky等人[130]在GraphBank上的相關(guān)工作,他們對(duì) GraphBank進(jìn)行了分析,認(rèn)為篇章連接詞和兩個(gè)句子間的跨度距離是高效識(shí)別顯式和隱式篇章關(guān)系的關(guān)鍵因素.

        2.4 存在的問(wèn)題和研究趨勢(shì)

        從上述國(guó)內(nèi)外研究現(xiàn)狀的分析中我們可以看到,相比英語(yǔ),漢語(yǔ)的篇章研究剛剛起步,漢語(yǔ)篇章閱讀理解研究鮮有見(jiàn)諸文獻(xiàn).目前漢語(yǔ)篇章理解還存在如下一些主要問(wèn)題.

        (1) 適用于漢語(yǔ)篇章閱讀理解的篇章結(jié)構(gòu)理論體系很不完善.有必要借鑒英語(yǔ)的相關(guān)篇章理論,并結(jié)合漢語(yǔ)特點(diǎn)和復(fù)句、句群、廣義話題結(jié)構(gòu)等本土理論,逐步建立漢語(yǔ)篇章結(jié)構(gòu)理論體系.

        (2) 適用于漢語(yǔ)篇章閱讀理解的篇章結(jié)構(gòu)大規(guī)模標(biāo)注資源非常缺乏.雖然有一些研究者,或基于英語(yǔ)篇章理論體系,或基于漢語(yǔ)的復(fù)句、句群和廣義話題結(jié)構(gòu)等理論,對(duì)漢語(yǔ)篇章結(jié)構(gòu)資源庫(kù)展開(kāi)了研究,但相關(guān)研究比較分散,大多屬于探索性工作,有待進(jìn)一步深入、系統(tǒng)地進(jìn)行研究.

        (3) 適用于漢語(yǔ)篇章閱讀理解的篇章結(jié)構(gòu)分析關(guān)鍵技術(shù)十分匱乏.由于適用于漢語(yǔ)篇章結(jié)構(gòu)分析的理論體系尚未有效建立,相關(guān)標(biāo)注資源缺乏,因此很難大規(guī)模有效地進(jìn)行關(guān)鍵技術(shù)研究.

        (4) 篇章理解需要涉及不同視角、不同層次的篇章結(jié)構(gòu)分析結(jié)果,各種結(jié)構(gòu)間也存在明顯的互補(bǔ)關(guān)系,構(gòu)建統(tǒng)一體系(包括理論體系和資源)進(jìn)行多視角、多層次的聯(lián)合分析研究,有待進(jìn)一步深入.

        2.5 機(jī)器閱讀理解的相關(guān)研究

        雖然適用于漢語(yǔ)篇章閱讀理解的篇章結(jié)構(gòu)分析研究處于起步階段,機(jī)器閱讀理解的相關(guān)研究卻吸引了眾多研究者.目前,機(jī)器閱讀理解方面已經(jīng)開(kāi)展了一些工作,具體包括:Hermann等人[131]借助爬蟲(chóng)技術(shù)從CNN和每日郵報(bào)新聞網(wǎng)頁(yè)爬取數(shù)據(jù),構(gòu)建了一個(gè)完形填空類型(cloze-style)的閱讀理解數(shù)據(jù)庫(kù)CNN and Daily Mail.2016年,斯坦福大學(xué)通過(guò)亞馬遜眾包平臺(tái)建立了一個(gè)新的閱讀理解數(shù)據(jù)集 SQuAD[132],它包含 536篇維基百科文章,100 000多個(gè)問(wèn)題,而且每篇文章都是經(jīng)過(guò)人工閱讀,提出問(wèn)題并給出答案片段.微軟公司選取了100 000多名用戶通過(guò)Bing搜索引擎提出的問(wèn)題,每一個(gè)問(wèn)題都會(huì)對(duì)應(yīng)大約10篇相關(guān)的從網(wǎng)頁(yè)抽取的文章,相關(guān)人員會(huì)根據(jù)10篇文章給出問(wèn)題的答案,以此構(gòu)建了MS MARCO[133]語(yǔ)料庫(kù).隨著這些語(yǔ)料的正式發(fā)布,各種機(jī)器學(xué)習(xí)方法、深度神經(jīng)網(wǎng)絡(luò)方法和 attention機(jī)制都不斷被提出并被應(yīng)用到這一任務(wù)中[134-142].此外,Cui等人[143]發(fā)布了第一個(gè)中文cloze-style閱讀理解語(yǔ)料People Daily News數(shù)據(jù)集和Children’s Fairy Tale(CFT)數(shù)據(jù)集.從2017年至今,“訊飛杯”中文機(jī)器閱讀理解評(píng)測(cè)已經(jīng)成功舉辦兩屆,從第1屆以填空型閱讀理解問(wèn)題為主,到第2屆關(guān)注基于篇章片段抽取的閱讀理解,評(píng)測(cè)會(huì)議發(fā)布了人工標(biāo)注的中文填空型和篇章片段抽取型閱讀理解的數(shù)據(jù)集[144],很多的相關(guān)研究也在這些數(shù)據(jù)集上有所展開(kāi).但本質(zhì)上,這些工作只是把篇章看作一個(gè)詞符號(hào)序列,缺乏真正意義上的篇章理解.當(dāng)然,從另一層面而言,這些研究也大大推動(dòng)了人們對(duì)篇章理解的關(guān)注和重視.例如,NSFC最近幾年就批準(zhǔn)了多個(gè)漢語(yǔ)篇章理解方向的重點(diǎn)項(xiàng)目和人工智能應(yīng)急重點(diǎn)項(xiàng)目,包括哈爾濱工業(yè)大學(xué)劉挺主持的篇章級(jí)中文語(yǔ)義分析理論與方法,中國(guó)科學(xué)院自動(dòng)化研究所宗成慶主持的漢語(yǔ)多層次語(yǔ)篇分析理論方法研究與應(yīng)用,蘇州大學(xué)張民主持的面向多層次篇章語(yǔ)義的機(jī)器翻譯理論、方法與實(shí)現(xiàn),北京理工大學(xué)黃河燕主持的中文語(yǔ)義深度計(jì)算與閱讀理解,以及蘇州大學(xué)周國(guó)棟主持的話題驅(qū)動(dòng)的漢語(yǔ)篇章機(jī)器閱讀理解等.

        3 總 結(jié)

        綜上所述,在自然語(yǔ)言處理領(lǐng)域,與詞法分析、句法分析等研究相比,篇章結(jié)構(gòu)分析研究相對(duì)滯后.特別是適用于漢語(yǔ)篇章閱讀理解的篇章結(jié)構(gòu)分析研究還處于起步階段,尚未形成一套有效的理論體系,相應(yīng)語(yǔ)料庫(kù)資源建設(shè)薄弱,關(guān)鍵技術(shù)研究嚴(yán)重滯后.相應(yīng)地,機(jī)器閱讀理解的相關(guān)研究也剛剛起步,目前主要是基于檢索技術(shù)的相關(guān)片段抽取,缺乏真正意義上的篇章理解.眾所周知,與英語(yǔ)等西方語(yǔ)言相比,漢語(yǔ)無(wú)論是篇章結(jié)構(gòu)和信息意圖表達(dá)方式,還是事件描述方式和話題表述方式等方面都有較大的差異.這就迫切需要進(jìn)一步完善適用于漢語(yǔ)篇章閱讀理解的篇章結(jié)構(gòu)理論體系,建立一定規(guī)模的適用于漢語(yǔ)篇章閱讀理解的漢語(yǔ)篇章結(jié)構(gòu)資源庫(kù),并在此基礎(chǔ)上建立漢語(yǔ)篇章結(jié)構(gòu)分析的計(jì)算模型,實(shí)現(xiàn)高性能的漢語(yǔ)篇章結(jié)構(gòu)分析和篇章深度理解平臺(tái),為自然語(yǔ)言理解和篇章級(jí)應(yīng)用提供基礎(chǔ)支撐.

        猜你喜歡
        連接詞復(fù)句指代
        Let’s Save Food To Fight Hunger
        奧卡姆和布列丹對(duì)指代劃分的比較
        連動(dòng)結(jié)構(gòu)“VP1來(lái)VP2”的復(fù)句化及新興小句連接詞“來(lái)”的形成
        漢語(yǔ)復(fù)句學(xué)說(shuō)的源流
        韓國(guó)語(yǔ)復(fù)句結(jié)構(gòu)的二分說(shuō)
        “不一而足”話討論
        復(fù)句內(nèi)部不應(yīng)當(dāng)用句號(hào)
        自然語(yǔ)言中的指代技術(shù)的研究
        河南科技(2014年10期)2014-02-27 14:09:37
        英語(yǔ)連接詞:傳統(tǒng)與反思
        英語(yǔ)連接詞的顯功能初探
        亚洲视频免费一区二区| 亚洲一区sm无码| 亚洲av综合日韩精品久久久| 精品高清一区二区三区人妖| 92午夜少妇极品福利无码电影| 国内揄拍国内精品人妻浪潮av| 日韩亚洲中文图片小说| 免费人成黄页在线观看国产| 国产女人好紧好爽| 精品日韩欧美一区二区在线播放 | 国内精品久久久久伊人av| 秋霞鲁丝片av无码| 亚洲精品乱码久久久久99| 99久久婷婷亚洲综合国产| 欧美最猛黑人xxxx黑人猛交| 国产色诱视频在线观看| 国产精品麻豆A在线播放| 国产高清精品一区二区| 亚欧色一区w666天堂| 精品2021露脸国产偷人在视频| 一区二区三区熟妇人妻18| 亚洲tv精品一区二区三区| 国产精品久久久久久亚洲av| 最新精品国偷自产在线婷婷| 视频一区二区三区国产| 在线观看特色大片免费视频| 亚洲中文字幕无码永久在线| 国产精品白浆免费观看| 亚洲av高清天堂网站在线观看| 国产av麻豆mag剧集| 亚洲AV无码成人品爱| 亚洲国产精品av麻豆一区| 在线观看免费无码专区| 久久亚洲av成人无码国产| 国产在线观看网址不卡一区| 日本一区二区三区视频免费观看 | 国产情侣一区二区三区| 国产午夜精品一区二区三区不卡| AV熟妇导航网| 久久夜色国产精品噜噜亚洲av| 乱人伦人妻中文字幕无码|