李佐文 嚴玲
(中國傳媒大學 外國語言文化學院, 北京 10024)
計算話語學是隨著自然語言處理和話語語言學研究的不斷深入提出的新概念。上世紀40-60年代機器翻譯熱潮直接催生了計算語言學的誕生。進入互聯(lián)網(wǎng)時代,承載各種信息的語言資源都匯聚在網(wǎng)上,為自然語言處理提供了豐富語料。在計算語言學發(fā)展歷程中,詞匯、句法層面的語言處理已取得一定成果。Wilks的優(yōu)選語義學、Fillmore的格語法,Shank的概念依存理論、Simmons的語義網(wǎng)絡理論和Montague的語法等為小句層面的語義分析提供了有力的理論支撐。Chomsky的短語結構語法被不斷改進,成為計算機句法分析的主流模式(蔡自興、王勇,2014:312)。與這些成果相比,話語層面涉及語言計算的理論還較為薄弱。目前自然語言處理中存在的諸多瓶頸問題都與語篇層面的語義計算未取得實質(zhì)性突破有關。因此,計算話語學研究是人工智能快速發(fā)展背景下自然語言處理技術提出的迫切要求,也是計算語言學不斷走向完善和深入的歷史必然。
話語的計算研究是一個極為復雜的領域。隨著計算機科學的發(fā)展,機器的計算能力不斷增強,特別是近年來深度學習的快速發(fā)展和應用,給計算機處理話語帶來希望。然而,人工智能領域的專家一般只擅長工程和算法,對話語語言學的理論和規(guī)律缺乏了解,使得計算話語學研究進展較為緩慢。因此,話語的計算研究成為現(xiàn)代話語語言學的重要研究領域和方向。
計算話語學(computational textlinguistics)是一門研究如何在語言學理論框架內(nèi)用可計算的形式抽象概括出話語意義操作模型的學科,是用話語形式特征實現(xiàn)語義計算的處理過程。它主要涉及話語語言學,認知語言學和計算語言學,是人工智能研究的重要內(nèi)容。
計算話語學的研究路徑需要首先探討話語理解和生成的心理機制,將這種運作方式形式化,研究算法讓計算機模擬人腦進行語言計算,驗證研究結果。其實質(zhì)就是希望電腦能夠像人腦一樣進行運算。這種研究路徑最關鍵的一步,就是揭示大腦處理語言的運作規(guī)律。計算語言學為計算話語學提供了一整套的研究框架、方法、目標導向,認知語言學為挖掘話語的可計算模型提供了邏輯推理的理論基礎,數(shù)學和計算機程序為計算話語學的研究成果轉(zhuǎn)化為可操作的應用提供了實現(xiàn)路徑,話語語言學則是計算話語學的母體和內(nèi)容庫。
自然語言處理系統(tǒng)一般包括理論、資源(樹庫、知識庫等)、計算模型三部分。根據(jù)系統(tǒng)功能語言學將語言的三大元功能界定為概念功能、人際功能、語篇功能,我們認為計算話語學的研究就是從話語謀篇布局的結構中發(fā)掘話語的概念意義和人際意義。根本問題就是揭示語篇的語義結構、信息結構、邏輯脈絡。
概念義對于語篇而言,主要指語篇的整體義,即主題義。主題義并不是語篇中所有小句義的簡單疊加,而是詞語通過線性文本建構出來的整體義。因此,要計算語篇的主題義,首先要研究語義和語篇結構的關系,揭示語義流是如何通過語篇結構的引導,匯聚成各種各樣的概念義。話語語言學對語義和語篇結構的研究集中在局部連貫和整體連貫方面,計算話語學則利用這些理論成果開展指代消解和語篇結構建模。
3.1.1 語篇連貫的理論研究
連貫問題是話語研究的經(jīng)典問題。自從Halliday提出英語的銜接機制以來,眾多學者從各個角度對這一問題展開了研究。就局部連貫而言,學者們探究了小句間各種銜接手段,以及語境和認知對語義連貫的作用。就語篇整體連貫而言,主要有以下幾種研究視角。第一,關注話語標記承擔了怎樣的語篇框架建構任務。這些話語標記包括話語的起始、終結標記,如“首先、此外、最后等”;話語的框架結構標記,如“第一、其次、另一方面、如前所述”等(李佐文,2003)。第二,揭示某一類語篇的常用結構框架。如Labov(1972)的敘事結構分析,廖秋忠(1988)的各種論證結構等。第三,關注主位推進模式。第四,從認知視角揭示整體連貫的機制。如框架、腳本、圖式、心理模型。第五,語篇宏觀結構提取(van Dijk,1980;陳忠華等,2004:190)。第六,Beaugrande(1980:102)的語篇世界模型。該模型由四個元素構成:概念(分主、次兩個層次)、關系(33種)、算子(8個)、優(yōu)選規(guī)則(12條)。概念是語篇語義網(wǎng)絡的結點,關系則是節(jié)點間的聯(lián)系,算子是邏輯運算符號,優(yōu)選規(guī)則是底層到表層映射的認知操作規(guī)則。
上述理論成果依據(jù)“形式到語義”的計算路徑可以分為四類。第一類,如局部連貫、語篇連貫的話語標記、語篇整體結構模板、主位推進模式,均關注語言形式,卻未能很好地將形式和語義的界面解釋清楚,無法解釋各種形式標記或語篇模板反映出怎樣的語義。第二類是從認知角度的研究,揭示了話語過程和概念間的聯(lián)系。它們對于高頻、固定結構的解釋比較準確,但應對自然語言變化多樣的語篇構造卻顯得力不從心。因此,這些圖式、框架、腳本的理論,更適合FrameNet、HowNet這樣的靜態(tài)知識庫建設。第三類理論對形式到語義的映射進行了細顆粒度的詳細刻畫,如Beaugrande的語義網(wǎng)絡。但缺乏對語篇核心語義的歸納總結機制。第四類理論描繪了形式到意義的認知計算,如宏觀結構的計算。這些計算過程對計算話語學研究有很好的啟發(fā)作用。需進一步研究如何讓計算機能進行類似的認知操作??傮w而言,針對概念義的語篇結構研究,積累了大量成果,但仍未真正解決語篇結構是如何構建概念語義這一問題。
3.1.2 語篇連貫的計算研究
在計算話語學中,研究連貫的主要目的是發(fā)現(xiàn)句子間的邏輯語義關系。已有語篇連貫計算模型包括:話語表現(xiàn)理論(DRT)(Kamp,1981)、話語鏈圖結構(chain-graph-based structure)(Wolf & Gibson,2005)、中心理論(Grosz & Candace,1986)、修辭結構理論(RST)(Mann & Thompson,1988.)、漢語廣義話題結構流水模型(宋柔,2013)等。下面重點介紹較為經(jīng)典的修辭結構理論(RST)和漢語廣義話題結構流水模型。
修辭結構理論(Rhetorical Structure Theory, RST) RST有四個基本元素:單位、語段、箭頭線、連貫關系,如圖1。單位是分析的最底層單元,用數(shù)字標號。圖1的單位1是文章標題,單位2、3、4是文章開頭的話語。語段是單位的結合體,用直線連接,用被連接的單位數(shù)字命名,如“3-4”。箭頭線的命名是單位或語段間的連貫關系,如“2”和“3-4”之間是條件關系(condition),箭頭方向指向的語段是核心成分(如“3-4”),箭頭離開的成分是衛(wèi)星成分(如“2”)。RST的連貫關系界定中,主要從語義和功能角度,而非形式和句法角度來判斷。在圖1中,我們可以看到箭頭從上至下,最終指向了“3”,可知這段話中“3”是語篇的中心,表達了語篇的主題。這是通過篇章關系的傳遞性和主輔性實現(xiàn)的。RST理論通過對局部連貫關系的逐級判定,最后將整個語篇建構成一個以核心、衛(wèi)星成分判定連貫關系的,具有層級結構的語篇樹(discourse tree)。
圖1 修辭結構理論示例(Taboada & Mann,2006)
RST理論需完善的地方在于單位(unit)的確定(Taboada & Mann, 2006)。RST的單位通常是一個獨立的小句以及它的附屬成分。但這樣的判斷標準有可能丟失重要的細節(jié)信息,也只適用于有小句結構的語言,不適用于口語。此外,對學術語篇中較長單位的關系判斷,以及像漢語這樣,78.8%的連貫屬于隱式連貫(梁國杰,2015:33)的語言如何判斷關系,還需要進一步研究。
廣義話題結構流水模型 該模型主要將“不成句的標點句”構造為“成句的話題自足句”,使得語篇處理簡化為對單句序列的處理,為語言計算提供便利。該模型具有高覆蓋率和易操作的特點,其分析的基本單位是標點句。話題結構由話題和說明兩部分構成,話題是某一標點句中被其他標點句談論的部分或整句。說明是談論話題的標點句。例如:
張莉努力讀書,
|希望能改變自己的命運。
王強早早輟學,
|進城打工,
|也希望能改變自己的命運。
這個例子中,“張莉”、“王強”是話題,其余是說明。由于話題不僅僅是實體類,還包括時間、處所類、狀性、謂性、推理前提等類型,所以稱之為廣義話題。廣義話題結構的堆棧模型,是將每一行文本的左邊看作棧底,右邊看作棧頂。棧底是話題,保持不動,棧頂是說明,隨著對話題談論的進行,不斷有新文本進入棧頂?shù)恼f明位置,而舊文本則從該位置退出,從而每一行都可以補足成話題自足句。上例的話題自足句為:
張莉努力讀書。張莉希望能改變自己的命運。
王強早早輟學。王強進城打工。王強也希望能改變自己的命運。
在廣義話題結構的縮進圖式中,從左至右,從上到下,直到標點句右端,所經(jīng)過的詞語串都是話題自足句。該模型還需解決的問題包括:哪些詞語是高頻話題詞語,充當廣義話題有哪些約束條件,以及話題之間的語義關系。
3.1.2 指代消解研究
指代消解是將語篇中指向同一對象的不同表達識別出來,形成詞匯指代鏈。指代消解從數(shù)學角度看是個聚類過程,將指向相同實體的先行詞和各種指代聚成一類。它的操作過程是,首先將待消解的指代詞識別出來形成待消解候選項集合。然后用基于規(guī)則或數(shù)據(jù)驅(qū)動的方法對這些候選項進行聚類篩選,確定最后的所指對象。
指代消解的理論模型有樸素Hobbs算法、中心理論、脈絡理論(Cristea et al.,1998)等。近期比較有影響的研究是斯坦福大學Raghunathan團隊基于多重過濾框架的共指消解模型(Raghunathan et al.,2010)。該模型利用多種特征,進行多層過濾。每一層的輸入是上一層消解候選項(mentions)聚類的輸出。在同一個聚類簇(cluster)中,每個候選項的屬性被所有候選項分享,使得全局性信息能在模型中傳遞。這樣的層次過濾保證了強勢特征(stronger features)享有超越弱勢特征(weaker features)的優(yōu)先權。具體的過濾層次和規(guī)則如圖2所示。
通道(pass)類別(Type)特征(Features) 1N精確匹配(exact extent match)2N, P同位成分(appositive) |謂語主格(predicate nominative)| 角色同位語(role appositive)| 關系代詞(relative pronoun) | 首字母縮略詞(acronym) |地方性稱謂詞(demonym)3N聚類簇中心詞匹配(cluster head match) &詞包含(word inclusion) & 修飾語兼容(compatible modifiers only)& 非其他NP的子節(jié)點(not i-within-i)4N聚類簇中心詞匹配(cluster head match) &詞包含(word inclusion)& 非其他NP的子節(jié)點(not i-within-i)5N聚類簇中心詞匹配(cluster head match) &修飾語兼容(compatible modifiers only) & 非其他NP的子節(jié)點(not i-within-i) 6N寬松聚類簇中心詞匹配(relaxed cluster head match) & 詞包含(word inclusion) &非其他NP的子節(jié)點(not i-within-i)7P代詞匹配(pronoun match)
圖2 指代消解的多重過濾標準匯總(Raghunathan,2010)
N 指名詞性表述(nominal), P 指代詞性表述(pronominal), & 表示合取, | 表示析取
指代消解目前的難題主要集中在三個方面(孔芳等,2010;周炫余等,2014):(1)跨文本指代消解,將不同文本中指向同一實體的名稱識別出來。(2)消解候選項的精準識別,如何去除大量非候選項噪音。(3)如何利用背景知識、語篇結構知識、深層語義知識進行指代消解。
人際義與情感分析(sentiment analysis)、意見挖掘(opinion mining)相關,體現(xiàn)了話語的評價含義。情感分析與意見挖掘有很大的重合性,為敘述方便,以下用情感分析指代兩者。
3.2.1 情感分析的語言學研究
情感分析的本質(zhì)是對語言評價義的挖掘。早期對評價的研究主要在立場(stance)(Biber et al.,1989)和言據(jù)性(evidentiality)(Chafe,1986)方面。Langacker也從認知角度討論了主觀性(subjectivity)問題(Langacker,1990)。對評價語言進行系統(tǒng)描寫的理論當屬Martin團隊提出的評價系統(tǒng)。評價系統(tǒng)由態(tài)度、介入、級差三個子系統(tǒng)構成,三者之間是合取關系。
態(tài)度子系統(tǒng)是核心,由涉及感情表達的“情感”,從道德方面衡量的態(tài)度表達“判斷”,從美學方面衡量的態(tài)度表達“鑒賞”三個變量組成(Martin & White,2008:42)。評價系統(tǒng)將表達態(tài)度的語言形式從顯性到隱性劃分為幾個等級,即:明顯表現(xiàn)態(tài)度的題寫形式(inscribe),用隱含態(tài)度詞語表達態(tài)度的激發(fā)形式(provoke),用隱喻等手段提示態(tài)度的標識形式(flag),靠語境和背景知識等暗示態(tài)度的陳述形式(afford)。在情感分析中,除了題寫形式,其他幾種形式的態(tài)度表達都是計算機判斷的難點,值得深入研究。
3.2.2 情感分析的計算研究
情感分析首先要區(qū)分客觀陳述和主觀陳述,然后對主觀陳述進行特征識別,提取其中的評價者(opinion holder)、評價對象(target)、評價表述(appraisal expression)等信息。最后,進行情感類別判斷。
對主觀陳述的識別主要依靠對情感詞、句子結構、上下文語境等內(nèi)容的主觀性判斷,也可以通過比較待判定陳述和已知主觀陳述之間的相似度進行。對評價者的識別主要依據(jù)命名實體,或依據(jù)FrameNet的語義角色標注。對評價對象的識別,也多數(shù)將其限定在名詞或名詞短語范疇,主要是基于句法、語義規(guī)則。對于評價詞語的提取可以在大型語料庫中提取評價性形容詞,或用點互信息方法(PMI)方法判斷待評價詞,或通過WordNet和HowNet的詞義關系來提取。對情感極性的判斷,可以利用情感詞之間的相似度計算情感極性,或利用HowNet的語義相似度和語義場計算情感傾向。
3.2.3 情感分析的難題
情感分析中利用文內(nèi)和文外語境進行情感義判斷的研究雖然已經(jīng)引起學者們關注,但尚未出現(xiàn)真正突破性成果,對反諷、隱喻、夸張等隱性評價無法準確判定。語篇級別的整體情感傾向分析,多數(shù)是詞匯情感極性的簡單疊加,沒有結合語篇特征開展。中文情感分析中,缺乏標注完善的大規(guī)模情感語料庫和情感詞典。在語料庫建設中,對于主觀表述、情感詞、情感表達,情感信息分布模式、情感信息流動方式等都有待進一步研究(徐琳宏等,2008)。
計算話語學的研究具有明確的問題導向性。以自動文摘為例,自動文摘涉及文章關鍵詞、中心思想的提取等,可以通過多種方式和路徑實現(xiàn)文摘的自動生成。因為研究成果要用于計算機處理,所以特征描寫一定要有明確、嚴格的界定方式。其次,很多計算話語學的問題可以轉(zhuǎn)變?yōu)榫垲悊栴},所以特征分類很重要。
基于規(guī)則的研究方法 理性主義關照下基于規(guī)則的方法,將語言視為符號規(guī)則的集成。研究者從語言中提取規(guī)則加以形式化,然后轉(zhuǎn)變?yōu)樗惴ㄝ斎胗嬎銠C,由計算機利用這些規(guī)則對語言進行處理?;谝?guī)則的方法中,語言特征的形式化和建模是兩個重要步驟。形式化是用有限的符號來表示語言的無限性,而語言特征建模則需要通過數(shù)學方式。常用的數(shù)學知識包括:數(shù)理邏輯、概率統(tǒng)計、以及離散數(shù)學的知識,如:集合論、邏輯、代數(shù)中與語言相關的部分(帕赫蒂等,2012:vii)。
基于統(tǒng)計的研究方法 基于統(tǒng)計的研究方法又稱為經(jīng)驗主義關照下語料庫驅(qū)動的方法。經(jīng)驗主義是將計算機視為具有體驗能力的“仿真人”,讓它自己從語言中學習規(guī)則。通常分為有指導學習和無指導學習。在有指導機器學習中,帶標注的語料庫是機器學習的老師,而標注什么、如何標注來自于計算話語學的研究成果。無指導學習是讓計算機從未標注語料中自己總結語言規(guī)律。但由于計算機沒有學習過標注好的語料,往往無法知道自己總結的語言規(guī)律是否正確,從而影響了語言處理的效果(馮志偉,2011)。在實際的語言處理中,基于規(guī)則和基于統(tǒng)計的方法往往結合使用,以謀求最佳效果(中文信息處理發(fā)展報告2016:29)。
深度學習和知識圖譜技術 深度學習是基于人工神經(jīng)網(wǎng)絡的機器學習,它將世界知識表示為嵌套的層次概念體系,具有很強的能力和靈活性,能從對象化樣本學到非對象化的對象識別。深度學習算法將一層或淺層難于處理的復雜映射或函數(shù)運算,分解為多個嵌套層次的簡單映射。這里的關鍵是“嵌套的隱含層”,也就是深度的出現(xiàn)。在一個層次上達不到的,卻可能在更多的嵌套疊層中實現(xiàn)。深度學習算法的層次性,裂隙化聯(lián)系,顯示出不可替代的構造功能。深度學習在多種自然語言處理任務上表現(xiàn)都很突出。
知識圖譜是由語義網(wǎng)絡構成的知識庫。從數(shù)據(jù)結構上講,圖譜是由節(jié)點和邊來構成,也可以把它理解成多關系圖(Multirelational graph)。它提供了實體之間的結構化聯(lián)系,就像話語世界中命題與命題之間的各種語義關聯(lián),因此知識圖譜非常適合于話語連貫關系的計算。知識圖譜的優(yōu)勢在于強大的數(shù)據(jù)描寫能力,各種機器學習算法雖然在預測能力上很不錯,但描寫能力有限,知識圖譜剛好填補了這一空缺。
計算話語學作為面向自然語言處理的新興話語研究方向,其發(fā)展之路任重而道遠。語篇主題義和人際義的計算是計算話語學的核心問題。主題義是語篇的語義流利用語篇結構而建構的,而人際義的正確解讀更多地依賴于動態(tài)語境知識。這些問題的解決依賴于認知語言學對人類話語理解和生成模式的解構,也依賴于計算機技術和算法的革新。對于計算話語學研究者而言,從認知角度研究語篇結構和人腦對語境知識的調(diào)用過程,從中推理人類普遍具有的邏輯思維模式,并設法將這些模式形式化,是一項相當重要而艱巨的任務。