亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合概念與邏輯的中文深層語(yǔ)義描述體系

        2019-09-05 12:33:34夏喬林穗志方常寶寶詹衛(wèi)東張坤麗柯永紅
        中文信息學(xué)報(bào) 2019年8期
        關(guān)鍵詞:論元謂詞深層

        夏喬林,穗志方,常寶寶,詹衛(wèi)東,張坤麗,柯永紅

        (1. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;2. 北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871;3. 北京大學(xué) 中文系,北京 100871; 4.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001)

        0 引言

        語(yǔ)義分析與理解在人工智能研究中的意義非比尋常,涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí),甚至認(rèn)知科學(xué)等多個(gè)學(xué)科,是一個(gè)典型的多學(xué)科交叉研究課題。開(kāi)展這項(xiàng)研究不僅對(duì)推動(dòng)相關(guān)學(xué)科發(fā)展具有深遠(yuǎn)意義,同時(shí)也是揭示人腦理解語(yǔ)言的奧秘、實(shí)現(xiàn)真正人工智能的必經(jīng)之路。

        要理解自然語(yǔ)言,首先要理解自然語(yǔ)言所要表達(dá)的語(yǔ)義,尤其是句子的語(yǔ)義,因?yàn)榫渥油ǔJ窍鄬?duì)完整的自然語(yǔ)言基本意義表達(dá)單位。但是,什么表示形式才能夠完整地描述句子的語(yǔ)義,這個(gè)問(wèn)題一直困擾著研究者們,至今仍沒(méi)有統(tǒng)一的答案。

        要全面理解句子語(yǔ)義,涉及的因素非常多。理論上,一句話至少可以分解為五個(gè)層面的意義: 基本命題義(句子的基本客觀事件語(yǔ)義)、情態(tài)義(主觀義,主要由句中的助動(dòng)詞表達(dá))、事件關(guān)聯(lián)義(多個(gè)動(dòng)詞表達(dá)的事件之間的關(guān)聯(lián)含義)、構(gòu)式義(簡(jiǎn)單加合其構(gòu)成成分無(wú)法得出其整體意義的部分)、語(yǔ)用義(文化等因素帶來(lái)的附加義或說(shuō)話人的感情色彩義等)。如例1所示:

        例1小明考試沒(méi)過(guò),現(xiàn)在可能非常難過(guò)。

        例1中就包含三個(gè)基本的命題: ①小明+考試; ②小明考試+(沒(méi))過(guò); ③小明+現(xiàn)在+難過(guò)。第一個(gè)命題中“小明”是“考試”的主體,第二個(gè)命題中“小明考試”是謂詞性成分(VP)整體作主體,第三個(gè)命題“小明”是“難過(guò)”的主體,“現(xiàn)在”是“難過(guò)”發(fā)生的時(shí)間。這部分意義可以稱為“謂詞論元結(jié)構(gòu)義”,是命題義中的一種,是過(guò)去語(yǔ)言學(xué)家關(guān)注的重點(diǎn),在許多著名的語(yǔ)料庫(kù)中有所體現(xiàn),例如,賓州大學(xué)命題樹(shù)庫(kù)(Penn PropBank)[1]、框架語(yǔ)義網(wǎng)(FrameNet)[2]等。此外,句中 “沒(méi)”代表對(duì)“過(guò)”的邏輯否定,而“非?!毙稳莸氖恰半y過(guò)”的程度,“難過(guò)”的時(shí)態(tài)是“現(xiàn)在時(shí)”。這些意義用于描述句子的主觀和附加的含義,我們稱為超命題義。另外,“過(guò)”表示“通過(guò)(考試)”而不是“經(jīng)過(guò)”或者“超過(guò)”的含義,這涉及到更加底層的概念義的區(qū)分。這些基本命題義之外的意義顯然也要包含在句子的整體語(yǔ)義解讀中。

        由例1可看出,自然語(yǔ)言語(yǔ)義的理解涉及多個(gè)層面的問(wèn)題,只有把每個(gè)層面的問(wèn)題都搞清楚,才有可能最終得到一個(gè)句子的完整語(yǔ)義解讀。目前主流的淺層語(yǔ)義分析缺少對(duì)概念義和深層邏輯義的支持,難以輔助對(duì)文本內(nèi)容的深度理解與知識(shí)推理任務(wù)。但就筆者所了解的情況來(lái)看,目前面向中文的深層語(yǔ)義描述體系研究在國(guó)內(nèi)外幾乎空白。本研究的目標(biāo)就是從計(jì)算機(jī)計(jì)算和語(yǔ)言工程的角度,對(duì)文本蘊(yùn)含的語(yǔ)義信息進(jìn)行分層次、細(xì)粒度的深入挖掘,并借鑒論元結(jié)構(gòu)理論、事件語(yǔ)義學(xué)、構(gòu)式語(yǔ)法理論等現(xiàn)代漢語(yǔ)語(yǔ)法語(yǔ)義理論成果,突破語(yǔ)義角色標(biāo)注等淺層語(yǔ)義分析的瓶頸,建立一套融合概念與邏輯的中文深層語(yǔ)義描述體系。在此基礎(chǔ)上,我們還通過(guò)對(duì)大規(guī)模真實(shí)文本的標(biāo)注,實(shí)現(xiàn)了對(duì)描述體系理論可行性的驗(yàn)證,并構(gòu)建了一個(gè)能夠服務(wù)于計(jì)算機(jī)輔助分析和理解的中文深層語(yǔ)義標(biāo)注語(yǔ)料庫(kù)。

        1 相關(guān)工作

        深層語(yǔ)義表達(dá)的目的是將整個(gè)句子轉(zhuǎn)化為某種形式化表示,如基于依存的組合式語(yǔ)義表達(dá)式(dependency-based compositional semantic representation)[3]和謂詞邏輯表達(dá)式(包括 lambda 演算表達(dá)式)。語(yǔ)義依存分析(broad-coverage semantic dependency parsing,SDP)項(xiàng)目及其語(yǔ)料庫(kù)[4]即建立在依存理論基礎(chǔ)上的描述體系之上。其提出的動(dòng)機(jī)有兩點(diǎn),一是旨在將依存分析任務(wù)從樹(shù)擴(kuò)展到圖,另一方面從語(yǔ)法擴(kuò)展到語(yǔ)義,直接分析“誰(shuí)對(duì)誰(shuí)做什么”[4-6]。SDP包含兩個(gè)步驟: 依據(jù)語(yǔ)法建立依存結(jié)構(gòu),然后對(duì)所有的修飾詞與中心詞對(duì)(謂詞論元結(jié)構(gòu))指定語(yǔ)義關(guān)系,展現(xiàn)形式主要是雙詞(Bilexical)語(yǔ)義依存圖。相比于以PropBank和FrameNet為代表的淺層語(yǔ)義描述方式,SDP跨越了句子的表層句法結(jié)構(gòu)而轉(zhuǎn)向直接獲取深層語(yǔ)義結(jié)構(gòu)。但該描述體系也存在一些問(wèn)題,比如一些常見(jiàn)語(yǔ)義現(xiàn)象被忽略,例如,否定及轄域、比較關(guān)系、所有格、從句連接等。SDP要求標(biāo)注句中所有語(yǔ)義依存關(guān)系,也就是覆蓋句中每個(gè)單詞,但是沒(méi)有觸及單詞組合而成的概念義,包括概念內(nèi)部和概念作為整體與句中其他成分的關(guān)系。

        哈爾濱工業(yè)大學(xué)與北京語(yǔ)言大學(xué)合作推出的H-SDP-v1語(yǔ)義依存表示體系[7],同樣建立在依存理論基礎(chǔ)上。車萬(wàn)翔等[8]整理后在SemEval-2012上組織了國(guó)際公開(kāi)測(cè)評(píng)。在關(guān)系類型上,針對(duì)漢語(yǔ)句式特點(diǎn)定義了反關(guān)系和間接關(guān)系,分別用于描述動(dòng)詞修飾名詞以及核心詞是動(dòng)詞名詞化形式兩種情況。該語(yǔ)料庫(kù)涵蓋語(yǔ)義關(guān)系123種,但一些語(yǔ)義關(guān)系在語(yǔ)料中出現(xiàn)次數(shù)較少。此外句子全部來(lái)自新聞?wù)Z料,涵蓋的語(yǔ)言現(xiàn)象可能受到一定限制。

        另一方面,抽象語(yǔ)義表示(abstract meaning representation,AMR)[9]是Banarescu等從融合多種語(yǔ)義資源角度出發(fā)提出的描述體系,動(dòng)機(jī)是為將原本分離的多種描述體系包括命名實(shí)體、指代消解、淺層語(yǔ)義、篇章連接、時(shí)體等統(tǒng)一到一個(gè)邏輯表達(dá)形式中,即有根節(jié)點(diǎn)的有向語(yǔ)義圖,圖中每個(gè)邊都有一個(gè)角色標(biāo)注。它的一個(gè)顯著特點(diǎn)是對(duì)文本所蘊(yùn)含的語(yǔ)義進(jìn)行了高度抽象,具體表現(xiàn)為: ①將實(shí)詞抽象為概念節(jié)點(diǎn),動(dòng)詞和角色沿用OntoNotes[10]體系; ②同一個(gè)AMR圖可能表示各種各樣語(yǔ)義相同的句子。這種抽象的表示確實(shí)使得語(yǔ)義的描述脫離了語(yǔ)法形態(tài)的限制,能夠展示更深層次的語(yǔ)義關(guān)系,但這也導(dǎo)致最終句子的語(yǔ)義表示和句中單詞不能一一對(duì)應(yīng),給之后自動(dòng)分析算法的研究帶來(lái)了困難,因?yàn)榻Y(jié)構(gòu)化表示與文本存在映射關(guān)系是很多成熟算法實(shí)施的先決條件,開(kāi)發(fā)人工或自動(dòng)文本對(duì)齊系統(tǒng)一方面會(huì)增加工程量,另一方面該系統(tǒng)產(chǎn)生的對(duì)齊錯(cuò)誤將對(duì)最終分析的準(zhǔn)確性產(chǎn)生影響。

        抽象語(yǔ)義表示也可應(yīng)用于中文(Chinese AMR,CAMR)[11]。CAMR有向圖的描述形式和英文AMR一致,標(biāo)注規(guī)范為貼合中文句子特點(diǎn)對(duì)AMR語(yǔ)義關(guān)系進(jìn)行了修改,忽略了一些難以標(biāo)注的特例,如不標(biāo)注“被”字句、“把”字句中的情態(tài)義等。并且為解決AMR本身無(wú)文本對(duì)齊的問(wèn)題,提出將 “單詞—概念”對(duì)應(yīng)關(guān)系納入標(biāo)注過(guò)程中。但CAMR公開(kāi)的語(yǔ)料庫(kù)規(guī)模目前只有1 562句,難以支持?jǐn)?shù)據(jù)驅(qū)動(dòng)的自動(dòng)分析算法。

        還有一種語(yǔ)義表達(dá)方式是一階謂詞邏輯表達(dá)式,典型的語(yǔ)料庫(kù)有GeoQuery[12],訓(xùn)練集包含880個(gè)示例和一個(gè)有800個(gè)地理事實(shí)的數(shù)據(jù)庫(kù)。每個(gè)示例包含一個(gè)提問(wèn)(文本和對(duì)應(yīng)的語(yǔ)義表達(dá)式)和一個(gè)回答,提問(wèn)例如,“What are the major cities in Kansas?”,對(duì)應(yīng)的語(yǔ)義表達(dá)式為“answer(C,(major(C),city(C),loc(C,S),equal(S,stateid(Kansas))))”.基于這種語(yǔ)義表達(dá)方式的確能夠幫助一些系統(tǒng)實(shí)現(xiàn)語(yǔ)義分析的終極目標(biāo),即自然語(yǔ)言的理解(對(duì)于提問(wèn))和推斷(對(duì)于答案),但一個(gè)明顯問(wèn)題是: 句型受到領(lǐng)域“美國(guó)地理”和數(shù)據(jù)量880句的限制,嚴(yán)重缺乏多樣性,是一種領(lǐng)域定制的專用語(yǔ)料庫(kù),語(yǔ)種也僅限于英語(yǔ)。

        總的來(lái)說(shuō),前述工作從一定程度上突破了句法樹(shù)型結(jié)構(gòu)和淺層語(yǔ)義分析的限制,但受到標(biāo)注語(yǔ)料的領(lǐng)域和規(guī)模限制,并且從英文理論出發(fā)的表述形式,在應(yīng)對(duì)中文文本時(shí)仍面臨諸多問(wèn)題。因此本文嘗試借鑒論元結(jié)構(gòu)理論[13]、事件語(yǔ)義學(xué)[14]、構(gòu)式語(yǔ)法理論[15],突破語(yǔ)義角色標(biāo)注等淺層語(yǔ)義分析的局限,建立了一種從中文出發(fā)的融合概念與邏輯的深層語(yǔ)義描述體系,并在此基礎(chǔ)上構(gòu)建了基于真實(shí)語(yǔ)料的大規(guī)模中文深層語(yǔ)義標(biāo)注語(yǔ)料庫(kù)。語(yǔ)言工程實(shí)踐也驗(yàn)證了該描述體系的完備性和覆蓋度。

        2 中文深層語(yǔ)義描述體系

        2.1 中文語(yǔ)義的特點(diǎn)

        對(duì)于給定句子,深層語(yǔ)義分析的目標(biāo)是將整個(gè)句子轉(zhuǎn)為某種形式化表示。這個(gè)過(guò)程涉及語(yǔ)言的多個(gè)層次和分面。目前中文語(yǔ)義角色標(biāo)注、詞義消歧、命名實(shí)體識(shí)別、指代消解、情感分析等研究都或多或少觸及語(yǔ)義描述的不同側(cè)面,但這些研究各自獨(dú)立進(jìn)行,擁有各自的研究目標(biāo),對(duì)應(yīng)不同的評(píng)估策略和標(biāo)注資源,表現(xiàn)出孤立局部的特點(diǎn),且缺乏對(duì)情態(tài)義、時(shí)體義等高階語(yǔ)義現(xiàn)象的計(jì)算處理。

        除此以外,中文意合為主、缺乏形態(tài)標(biāo)記的特點(diǎn)也為中文語(yǔ)義描述的研究帶來(lái)困難。例如,同樣是“要”字,在“領(lǐng)導(dǎo)要大家切實(shí)做好本職工作”中同一般動(dòng)詞“要求”的意思,可以標(biāo)注為命題義的謂詞,而“這個(gè)房間要干凈一些”中的“要”是助動(dòng)詞,不是命題義的標(biāo)注對(duì)象。情況相似的還有一些形式動(dòng)詞、虛化動(dòng)詞、泛義動(dòng)詞、謂詞性結(jié)構(gòu)中心詞等。除了謂詞選擇問(wèn)題,缺乏形態(tài)標(biāo)記還給概念義消歧、論元成分確定、超命題義的識(shí)別都帶來(lái)困難。我們?cè)诒疚闹袑?duì)上面提到的問(wèn)題也進(jìn)行了討論。

        綜合以上特點(diǎn),我們認(rèn)為目前中文深層語(yǔ)義描述主要有以下三個(gè)努力方向:

        (1) 根據(jù)中文語(yǔ)義特點(diǎn),進(jìn)一步規(guī)范化語(yǔ)義描述體系。受英文深層語(yǔ)義描述體系的影響,目前的研究多是對(duì)現(xiàn)有英文語(yǔ)義描述規(guī)范的繼承和改造。隨著中文語(yǔ)義理論基礎(chǔ)和語(yǔ)義知識(shí)庫(kù)的構(gòu)建和完善,結(jié)合漢語(yǔ)的具體特點(diǎn),探索面向中文的語(yǔ)義表達(dá)形式仍是一個(gè)重要問(wèn)題。

        (2) 建立從自然語(yǔ)言文本到實(shí)體、概念、關(guān)系謂詞之間的映射。同樣的詞匯和句法可以表示不同的語(yǔ)義;同樣的語(yǔ)義,可以由多種詞匯及句法來(lái)表達(dá)。因此,如何建立文本到語(yǔ)義之間的映射也是一個(gè)關(guān)鍵問(wèn)題。

        (3) 對(duì)邏輯命題義描述的范圍加以擴(kuò)充和完善。目前語(yǔ)義表示的主流研究主要集中在對(duì)句子基本的論元結(jié)構(gòu)的描述上。但理論上,命題義還包括情態(tài)邏輯、時(shí)態(tài)邏輯,甚至程度等主觀意義和附加意義。為便于區(qū)分,我們將這些命題語(yǔ)義之外的語(yǔ)義合稱為超命題義。

        2.2 中文深層語(yǔ)義描述體系架構(gòu)

        為解決上述關(guān)鍵問(wèn)題,需要建立融合概念與邏輯的中文深層語(yǔ)義描述體系。我們的整體解決思路是,從計(jì)算機(jī)深度計(jì)算和語(yǔ)言工程的角度對(duì)文本所蘊(yùn)含的語(yǔ)義進(jìn)行分層次、細(xì)粒度的深入挖掘。向下解決詞匯到概念映射的問(wèn)題,借助《漢語(yǔ)語(yǔ)法信息詞典》[16]和《現(xiàn)代漢語(yǔ)詞典》[17]對(duì)概念義進(jìn)行細(xì)化;向上從命題義向超命題義推進(jìn),突破淺層語(yǔ)義的局限對(duì)更廣泛的邏輯義進(jìn)行描述。根據(jù)以上思路我們初步建立了現(xiàn)代漢語(yǔ)謂詞語(yǔ)義角色標(biāo)注語(yǔ)料庫(kù)規(guī)范[18]。

        具體來(lái)說(shuō),三層表示機(jī)制自下而上分別為:

        (1) 概念義層 描述實(shí)體概念、事件狀態(tài)概念;

        (2) 命題義層 描述句子的客觀意義,具體對(duì)謂詞事件、論元成分進(jìn)行描述;

        (3) 超命題義層 描述句子的主觀和附加意義,具體包括情態(tài)義、時(shí)體義、程度義、否定義、情感義。

        中文深層語(yǔ)義描述可用語(yǔ)義圖這種圖結(jié)構(gòu)表示。但同時(shí)也可以拆分為若干線性表示的組合。如圖1所示,中文深層語(yǔ)義描述能夠?qū)⒕渥拥纳顚诱Z(yǔ)義表示為一個(gè)含邊和節(jié)點(diǎn)的有向圖。

        圖1 中文深層語(yǔ)義描述的圖狀表示

        圖1中,所有□或○表示句中蘊(yùn)涵的概念義,其余節(jié)點(diǎn)則描述了一般語(yǔ)義角色標(biāo)注中所沒(méi)有的超命題義。實(shí)有向邊描述了概念之間、概念與超命題義之間的語(yǔ)義關(guān)系;虛有向邊表示語(yǔ)義和其在原文中的單詞或語(yǔ)塊之間的對(duì)齊關(guān)系。

        中文深層語(yǔ)義描述還有與圖結(jié)構(gòu)等價(jià)的線性表示形式。例如圖1還可以用以下純文本的線性形式等價(jià)地表示,如例2所示。

        例2S: 即使你取得了很大成績(jī),也不應(yīng)自滿啊。

        P1: 即使[%當(dāng)事你] [#取得#]<義項(xiàng)1><了>tense_perfect[%系事很大成績(jī)],也不應(yīng)自滿啊。

        P2: 即使[%當(dāng)事你]取得了很大成績(jī),也<不>logic_neg<應(yīng)>mod_require[#自滿#]<義項(xiàng)1><啊>tone_sigh。

        P3: 即使[%接事你]取得了<很>dgr_high[#大#]<義項(xiàng)1>[%當(dāng)事成績(jī)],也不應(yīng)自滿啊。

        其中,S句是原文本。P1~P3是三個(gè)句子的部分廣義命題(同時(shí)帶有概念義、命題義、超命題義的描述)。每個(gè)廣義命題語(yǔ)義表示圍繞一個(gè)命題義進(jìn)行描述,并附帶與該命題關(guān)聯(lián)的超命題義。通過(guò)構(gòu)建多個(gè)廣義命題義,我們就能夠描述句子完整的圖狀結(jié)構(gòu)深層語(yǔ)義。上例中,“< >”之后接的就是超命題義的標(biāo)簽類別,如tense_perfect表示“時(shí)態(tài)義—完成”,log_neg表示“邏輯否定”等。這種表示方法雖不如圖狀表示形式直觀,但非常便于計(jì)算機(jī)自動(dòng)處理。

        此外,中文深層語(yǔ)義描述也可以看作若干謂詞表達(dá)的組合。如例2也可以由下面元組的組合表示:

        P1 取得(你,很大成績(jī)),(了: tense_perfect)

        P2 自滿(你,自滿),(不: logic_neg,應(yīng): mod_require,啊: tone_sigh)

        P3 大(你,成績(jī)),(很: dgr_high)

        下面我們按照由概念義、命題義和超命題義組成的三層結(jié)構(gòu)的順序,分別介紹其具體的描述方法。

        2.3 基本概念義的描述方法

        在描述體系中加入概念義,是為了更加細(xì)致地展現(xiàn)句中蘊(yùn)含的事件語(yǔ)義和組合語(yǔ)義。概念義是描述體系中語(yǔ)義的基本單位。基本概念義,即常見(jiàn)的由單詞表示的語(yǔ)義概念。

        基本概念義的描述對(duì)象是句子中的單詞。區(qū)分比較易混淆的中心謂詞離不開(kāi)一定的語(yǔ)言知識(shí)庫(kù)或語(yǔ)義詞典的支持。考慮語(yǔ)言計(jì)算、應(yīng)用的需求,我們通過(guò)《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》(grammatical knowledge-base of contemporary Chinese,GKB)以及第5版《現(xiàn)代漢語(yǔ)詞典》(簡(jiǎn)稱XH5)的輔助對(duì)基本概念義進(jìn)行選擇和標(biāo)注[19-21]。

        GKB是北京大學(xué)計(jì)算語(yǔ)言所為計(jì)算機(jī)實(shí)現(xiàn)漢語(yǔ)句子的自動(dòng)剖析與自動(dòng)生成而研制的一部電子詞典,具有科學(xué)嚴(yán)格的收詞原則,特別是語(yǔ)法功能和義項(xiàng)相結(jié)合的原則?!冬F(xiàn)代漢語(yǔ)詞典》是由中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所編纂的中國(guó)第一部規(guī)范性語(yǔ)文詞典??紤]到XH5的規(guī)范性和現(xiàn)階段工程需求,我們將GKB和XH5的交集動(dòng)詞(不含其他動(dòng)詞、其他詞類或非成詞語(yǔ)素)的義項(xiàng)(15 654個(gè))逐條人工合并和校對(duì),整理為新的結(jié)構(gòu)化概念義數(shù)據(jù)庫(kù)BCSD。每個(gè)概念的標(biāo)記格式為“拼音_詞語(yǔ)_義項(xiàng)編碼_義項(xiàng)釋義_示例”。其中,義項(xiàng)編碼是考慮標(biāo)注任務(wù)需要,在數(shù)據(jù)完備整理的基礎(chǔ)上新實(shí)現(xiàn)的字段。例如,“āi_挨_XH5@010201_靠近;緊接著_他家~著工廠|學(xué)生一個(gè)~一個(gè)地走進(jìn)教室”,其義項(xiàng)編碼是“XH5@010201”。在標(biāo)注概念時(shí)只需標(biāo)注其義項(xiàng)編碼,例如,

        例3他的朋友昨天從哈爾濱[#飛#]<%XH5@010702%>到了北京。

        其中,“飛”被[#·#]標(biāo)為謂詞,后面緊跟的<% XH5@010702 %>是其義項(xiàng)編號(hào)。它表明該義項(xiàng)是詞條“飛”在XH5中的第“1”次出現(xiàn),該詞共有“7”個(gè)義項(xiàng),當(dāng)前用法是其中的第“2”個(gè)義項(xiàng)。通過(guò)以上形式(對(duì)謂詞標(biāo)注義項(xiàng)編碼)詞語(yǔ)語(yǔ)義得到明確。

        2.4 命題義描述方法

        命題義描述的目標(biāo)是將自然語(yǔ)言轉(zhuǎn)換為某種事件框架表示,具體來(lái)說(shuō),就是句中主要?jiǎng)釉~(或形容詞、狀態(tài)詞)跟與其共現(xiàn)的體詞性詞語(yǔ)(名詞、體詞性代詞、時(shí)間詞、處所詞、方位詞等)之間的關(guān)系所描述的基本事件語(yǔ)義。我們按照標(biāo)注命題義三個(gè)環(huán)節(jié)(選定謂詞、識(shí)別論元成分、標(biāo)注論旨角色)分別進(jìn)行介紹。

        2.4.1 標(biāo)注對(duì)象“謂詞”的選擇方法

        句中的謂詞性成分,默認(rèn)都應(yīng)作為標(biāo)注對(duì)象。在賓州命題樹(shù)庫(kù)等體系中體現(xiàn)為動(dòng)詞、名詞、形容詞等形式[22],本描述體系還添加了復(fù)雜的謂詞性結(jié)構(gòu)的描述。普通動(dòng)詞等形式的謂詞性成分,例如2.2節(jié)中的例2“即使 你 取得 了 很 大 成績(jī),也 不 應(yīng) 自滿 啊”中三個(gè)謂詞“取得”“大”“自滿”就都作為標(biāo)注對(duì)象。為清晰起見(jiàn),我們目前的標(biāo)注體系規(guī)定: 每個(gè)謂詞標(biāo)注對(duì)象占據(jù)一個(gè)文本行,因此,如果一句中有兩個(gè)以上的謂詞標(biāo)注對(duì)象,就需要通過(guò)多次復(fù)制該句來(lái)標(biāo)注其中各個(gè)謂詞及其論元成分。如2.2節(jié)P1~P3所示。

        語(yǔ)義的圖狀表示可以通過(guò)合并多個(gè)標(biāo)注句子得到,同時(shí)完整保留了文本和標(biāo)簽的對(duì)應(yīng)關(guān)系。研究表明,這種對(duì)應(yīng)關(guān)系對(duì)后續(xù)自動(dòng)語(yǔ)義分析標(biāo)注器的訓(xùn)練十分重要[23]。

        (1)不作為標(biāo)注對(duì)象的動(dòng)詞特征在一些特定情況下,部分謂詞不適合作為語(yǔ)義關(guān)系標(biāo)注的處理對(duì)象。這類謂詞的特征是: ①概念語(yǔ)義比較虛,在句中主要起到語(yǔ)法作用,句中沒(méi)有體詞性成分與該謂詞有語(yǔ)義聯(lián)系; ②某些句法位置上的“謂詞”,在句中的實(shí)際功能不是陳述一個(gè)事件,而是起指稱或修飾限定的作用,因而語(yǔ)義上更接近體詞性成分,與典型的謂詞性成分的“述謂”功能有所不同。

        例如“這個(gè)房間要干凈些”中的“要”是典型的助動(dòng)詞用法,滿足第一個(gè)特征;又例如,“訓(xùn)練大概幾點(diǎn)開(kāi)始”中的“訓(xùn)練”是單個(gè)動(dòng)詞做主語(yǔ),而不是陳述現(xiàn)實(shí)世界中發(fā)生的具體事件,滿足第二個(gè)特征,故它們均不作為標(biāo)注對(duì)象。

        根據(jù)以上兩個(gè)特征,經(jīng)過(guò)總結(jié)我們發(fā)現(xiàn)如下類別的動(dòng)詞有可能不作為標(biāo)注對(duì)象: 助動(dòng)詞、形式動(dòng)詞、虛化東西、泛義動(dòng)詞。這些在我們制訂的詳細(xì)規(guī)范中均分情況進(jìn)行具體討論。

        (2)復(fù)雜的謂詞性結(jié)構(gòu)的處理方法有些復(fù)雜的謂詞性結(jié)構(gòu)雖然表面上也滿足上面的兩個(gè)特征,但仍需要作為標(biāo)注對(duì)象或者分情況討論。比如述賓結(jié)構(gòu)、述補(bǔ)結(jié)構(gòu)等做主語(yǔ)時(shí),該謂詞性結(jié)構(gòu)內(nèi)部的中心謂詞本身起述補(bǔ)作用,例如,

        例4[#看#][%受事電視%]是[%施事他%]唯一的消遣。

        其中,“看電視”是整句的主語(yǔ),其中心謂詞“看”并不是直接做主語(yǔ),需要作為標(biāo)注對(duì)象。

        此外,“定中結(jié)構(gòu)”定語(yǔ)位置上的謂詞需要根據(jù)是否能找到有語(yǔ)義關(guān)聯(lián)的論元成分分兩種情況討論;“并列式VP”中兩個(gè)并列項(xiàng)分別作為標(biāo)注對(duì)象;“重疊式VP”如“看一看”整體作為標(biāo)注對(duì)象,“動(dòng)結(jié)式VP”根據(jù)是否能夠分辨各自論元成分采取不同的標(biāo)注方法。除此以外,還有“動(dòng)趨式VP”“離合動(dòng)詞”、一些比較凝固的“述補(bǔ)式VP”的處理方法,限于篇幅在此不做詳細(xì)介紹。

        2.4.2 標(biāo)注對(duì)象“論元”的選擇方法

        論元成分的標(biāo)注有廣義和狹義之分,狹義的論元成分僅限于謂詞所對(duì)應(yīng)事件的最簡(jiǎn)單場(chǎng)景中的必要參與成分;廣義的論元成分則包含謂詞所對(duì)應(yīng)事件的真實(shí)場(chǎng)景中的各種可能參與成分,我們的描述體系按照廣義方式標(biāo)注論元,最大限度地標(biāo)記句中跟謂詞有直接語(yǔ)義聯(lián)系的各種不同成分。目的是使論元成分的標(biāo)注能充分反映一個(gè)謂詞對(duì)應(yīng)事件的各種可能的參與成分,從而為人機(jī)問(wèn)答系統(tǒng)提供支持。比如“吃”,真實(shí)場(chǎng)景中除了狹義論元考慮的“進(jìn)食者”和“食品”之外,往往還涉及“工具”(如筷子)、“場(chǎng)所”(如食堂)、“次數(shù)”等多種有語(yǔ)義聯(lián)系的成分,可以看作廣義論元。圖2為標(biāo)注的核心例句集中所出現(xiàn)角色的頻率統(tǒng)計(jì)圖。其中,“其他”包括低頻角色110種,包括“處所@受事”等組合而成的角色標(biāo)簽。

        圖2 各類角色在核心例句集中的頻率

        此外,論元成分不限于詞,也可以是詞組或小句。對(duì)論元成分的認(rèn)定主要基于語(yǔ)義標(biāo)準(zhǔn),即語(yǔ)義上描述了一個(gè)完整的實(shí)體、數(shù)量、時(shí)間、空間、事件(活動(dòng))等單位,構(gòu)成一個(gè)“語(yǔ)義塊”(chunk as a meaningful unit)。從句法性質(zhì)上看,論元成分通常為體詞性成分,比如名詞性短語(yǔ)(NP),還可能是介詞結(jié)構(gòu)(PP)、方位結(jié)構(gòu)(LocP)、數(shù)量結(jié)構(gòu)(NumP)等。例如,

        例5[%受事 這筆錢%]應(yīng)該[%時(shí)間在一年內(nèi)%][#歸還#]。

        其中,“在一年內(nèi)”就是介詞結(jié)構(gòu)和方位結(jié)構(gòu)整體充當(dāng)論元。

        另外也有一些跟謂詞有直接語(yǔ)義聯(lián)系的成分是謂詞性結(jié)構(gòu),大多是動(dòng)詞性短語(yǔ)(VP),應(yīng)標(biāo)記為[%VP角色名稱 %]。也有的形容詞性成分(AP)充當(dāng)論元,則標(biāo)記為[%AP角色名稱 %]。例如,

        例6[%VP當(dāng)事 這 位 同志 辦事 %] [# 認(rèn)真 #]。

        例7[%當(dāng)事 她 %] [# 感到 #] [%AP內(nèi)容 幸福 和 驕傲 %]。

        確定論元成分時(shí)還會(huì)面臨若干特殊問(wèn)題,例如,不連續(xù)成分、復(fù)指成分、省略成分的結(jié)構(gòu)、身份待定、論元成分的嵌套等。在語(yǔ)義標(biāo)注規(guī)范中,我們?yōu)檫@些特殊情況定義了特殊標(biāo)記,盡可能把句中的論元成分都納入到句中謂詞的論旨角色體系中。如對(duì)復(fù)指成分充當(dāng)論元的情況:

        例8a: [%受事 這些人 %] [%施事 我們 %] [# 聘 #] [%&受事 他們 %] 來(lái)當(dāng)顧問(wèn)。

        b: [%當(dāng)事 這些人 %]我們 聘 [%&當(dāng)事 他們 %] 來(lái) [# 當(dāng) #][%系事 顧問(wèn) %]。

        句中,普通名詞性成分按照一般的語(yǔ)義角色進(jìn)行標(biāo)注,而起復(fù)指作用的代詞成分則用 [%& %] 加以標(biāo)記。

        其他標(biāo)記詳見(jiàn)描述規(guī)范[18]。

        2.4.3 論旨角色標(biāo)注的處理策略

        在參考相關(guān)文獻(xiàn)[24]對(duì)謂詞論旨角色的分類基礎(chǔ)上,我們提出了用于標(biāo)注漢語(yǔ)句子謂詞的論旨角色體系,共包含有28種圍繞謂詞的論元角色。

        按照該成分跟謂詞語(yǔ)義關(guān)系的緊密程度不同,可以分為核心角色和外圍角色兩大類。如圖3所示。

        圖3 中文深層語(yǔ)義描述論旨角色體系

        一般而言,論旨角色標(biāo)注應(yīng)遵循“論旨角色唯一性原則”,即一個(gè)謂詞在句中不應(yīng)有兩個(gè)論旨角色完全相同的論元成分。但實(shí)際情況中有大量難以給出明確角色判定的情況。例如:

        例9a: 王老師在考小明。

        b: 小明在考語(yǔ)文。

        例9(b)中“小明”跟“考”是什么關(guān)系?“語(yǔ)文”跟“考”又是什么關(guān)系?就不太容易確定。例9(b)中的“小明”和例9(a)中的“小明”相對(duì)于“考試”事件來(lái)說(shuō),扮演的應(yīng)該說(shuō)是相同的語(yǔ)義角色,但如果把例9(b)中的“小明”的語(yǔ)義角色分析為“受事”不是很典型,因?yàn)槔?(b)中的“小明”即使作為“受事”,也沒(méi)有明顯的“被動(dòng)性”。另外,如果“小明”是主動(dòng)參加考試,那例9(b)中的“小明”是施事,還是受事呢?

        賓州樹(shù)庫(kù)和抽象語(yǔ)義表示標(biāo)注原則規(guī)定: 在遇到角色重合或模糊等情況時(shí),遵循核心角色優(yōu)先原則,中文動(dòng)詞詞匯語(yǔ)義網(wǎng)遵循框架[25]為本構(gòu)成為用。為兼顧語(yǔ)義分析的精度與語(yǔ)言工程工作量之間的合理平衡,在對(duì)大規(guī)模真實(shí)語(yǔ)料做論旨角色標(biāo)注的具體實(shí)踐中,我們主要遵循如下處理策略。

        (1) 典型范疇策略

        如果一個(gè)句子中的某個(gè)論元成分的角色歸屬不夠清晰,比如既像“受事”,又像“對(duì)象”,則應(yīng)該遵循典型范疇原則,即其論旨角色的判定應(yīng)盡量符合某種論旨角色的典型特征。在A、B兩個(gè)角色中做選擇時(shí),應(yīng)著重考慮當(dāng)前論元成分的屬性特征是接近A、B二者中哪一個(gè)角色的典型特征。最終論旨角色的歸屬應(yīng)該是符合典型特征多的那一個(gè)角色。

        (2) 角色半開(kāi)放策略

        在規(guī)范給出的初始論旨角色標(biāo)簽系統(tǒng)之外,允許標(biāo)注人員根據(jù)自己的認(rèn)識(shí),添加新的語(yǔ)義角色標(biāo)簽(即“用戶自定義標(biāo)簽”),對(duì)現(xiàn)有的標(biāo)簽做出更為詳細(xì)的說(shuō)明。在圖3給出的論旨角色基礎(chǔ)上,標(biāo)注人員可以對(duì)某一個(gè)論旨角色進(jìn)行細(xì)分,在基礎(chǔ)論旨角色標(biāo)簽之后,用 * * 標(biāo)記標(biāo)注人員自定義的論旨角色,如“[%施事*…* %]”。

        在 **中標(biāo)記的論旨角色可以給出一個(gè)初始的建議集,例如,“批評(píng)者、支持者、擁有物、……”。該論元成分作為這個(gè)角色范疇的一個(gè)成員,并不具有典型性。從某種程度上說(shuō),也可以認(rèn)為是暫且擱置疑難問(wèn)題,留待將來(lái)對(duì)這類論元成分的角色歸屬做進(jìn)一步的研究。

        (3) 標(biāo)注粒度彈性策略

        圖3中的葉子節(jié)點(diǎn)(如“施事、當(dāng)事、起點(diǎn)、終點(diǎn)”等)是進(jìn)行謂詞論旨角色標(biāo)注時(shí)應(yīng)優(yōu)先選擇的標(biāo)簽。例如,如果能判定一個(gè)論元是“施事”,就不應(yīng)該標(biāo)為“主體”。但是,在真實(shí)語(yǔ)料標(biāo)注時(shí),如果一個(gè)論元成分確實(shí)無(wú)法判定為“施事”或“當(dāng)事”,可以回退到二者的上層節(jié)點(diǎn),判定為“主體”?;赝说恼撝冀巧珮?biāo)注只允許到“主體、客體、時(shí)間、處所”這個(gè)層次。

        2.5 超命題義描述方法

        盡管目前語(yǔ)義分析研究還主要集中在對(duì)句子基本的客觀語(yǔ)義即命題義的描述上,命題義理論上包含的情態(tài)邏輯、時(shí)態(tài)邏輯,甚至程度等主觀意義和附加意義極少被實(shí)際標(biāo)注。為了對(duì)邏輯命題義描述的范圍加以完善,除沿用傳統(tǒng)語(yǔ)義角色(包括施事、受事、當(dāng)事、系事等)外,我們將情態(tài)義、時(shí)體義、否定義、程度義、情感義納入“超命題義”,融入到深層句義的描述對(duì)象中,并分別對(duì)它們進(jìn)行分析。

        2.5.1 情態(tài)義

        在模態(tài)算子后面一律加上mod_category作標(biāo)志,并用花括號(hào)標(biāo)志其轄域,這樣,不僅標(biāo)明了其所支配的動(dòng)詞性成分的范圍,而且還標(biāo)明了花括號(hào)中的語(yǔ)言表達(dá)在情態(tài)上表示的是一種非現(xiàn)實(shí)的斷言(irrealis assertion)。例如,

        例10農(nóng)民們非常<樂(lè)意>mod_intention地{幫助了我們}。

        其中,mod_intention是情態(tài)義的一個(gè)子類“意愿”。

        2.5.2 時(shí)體義

        “時(shí)”用來(lái)稱呼具體的時(shí)態(tài);“體”是用來(lái)描寫動(dòng)作行為進(jìn)行狀況。時(shí)體算子包括“將、剛、剛剛、已經(jīng)、曾經(jīng)、又、再、正、在、正在”等時(shí)間副詞、“著、了、過(guò)”等時(shí)態(tài)助詞、“了、呢、著呢、來(lái)著、來(lái)的”等語(yǔ)氣詞。其中,“將、即將、再”等表示將來(lái)時(shí)(future,簡(jiǎn)寫為tense_fut);“剛、剛剛、已經(jīng)、曾經(jīng)、又” 等表示過(guò)去時(shí)(past,簡(jiǎn)寫為tense_past),;其他還包括: 進(jìn)行體(progressive aspect,簡(jiǎn)寫為tense_prog)、完成體(perfect aspect,簡(jiǎn)寫為tense_perf)、現(xiàn)在完成體(present perfect,簡(jiǎn)寫為tens_pres_perf)、過(guò)去完成體(past perfect,簡(jiǎn)寫為tense_past_perf)。例如,

        例11快樂(lè) <在>tense_prog 等待 我們。

        其中“<在>tense_prog”表示階段一直在進(jìn)行。

        2.5.3 否定義

        否定算子(negative operator,neg)主要是副詞“不、不必、沒(méi)、沒(méi)有、未、未曾”等。標(biāo)注語(yǔ)料中,在否定算子后面一律加上neg作標(biāo)志,并用花括號(hào)標(biāo)志其轄域。例如,

        例12就 我 自己 的 愿望 來(lái)說(shuō),我 連 一 天 也 <不>neg {想 呆}。

        2.5.4 程度義

        程度算子(degree operator,dgr)主要是指副詞“很、非常、特別、蠻、過(guò)分、最、不大、稍微、稍許、有點(diǎn)兒”等,對(duì)于修飾的主要謂詞限制程度。標(biāo)注語(yǔ)料中,在程度算子后面一律加上dgr_high或dgr_low作標(biāo)志,并用花括號(hào)標(biāo)志其轄域。例如,

        例13理論 與 實(shí)際 的 結(jié)合 是 <非常>dgr_high {緊密} 的。

        2.5.5 情感義

        情感義是說(shuō)話人對(duì)句子韻律特征進(jìn)行加工而表達(dá)的體現(xiàn)自己交際意圖的主觀念。目前學(xué)者們?cè)谡Z(yǔ)氣是否屬于模態(tài)范疇這個(gè)問(wèn)題上還存在爭(zhēng)議: 臺(tái)灣中研院的謂詞語(yǔ)義角色體系中有評(píng)估語(yǔ)氣、感嘆詞、句尾語(yǔ)氣、選擇語(yǔ)氣等角色,賀陽(yáng)[26]把“Modality”稱之為“語(yǔ)氣”,張喜洪認(rèn)為意念系統(tǒng)中有三個(gè)子系統(tǒng): 情態(tài)、語(yǔ)氣和口氣。本文提出的描述體系中,情感義僅包含狹義的功能語(yǔ)氣,按表達(dá)的語(yǔ)氣分為陳述語(yǔ)氣、疑問(wèn)語(yǔ)氣、祈使語(yǔ)氣、感嘆語(yǔ)氣四大類,分別標(biāo)記為: intonation_statement、intonation_question、intonation_imperative、 intonation_exclaimation。例如,

        例14班長(zhǎng) 的 學(xué)習(xí) 是 全班 最 好 <的>intonation_statement。

        并對(duì)表現(xiàn)各種功能語(yǔ)氣的詞語(yǔ)以“詞語(yǔ)”“詞性”“ID”“釋義”“用法”“典型例句”和“語(yǔ)氣類別”來(lái)描述它們。

        超命題義的標(biāo)注雖可囊括大部分漢語(yǔ)語(yǔ)義現(xiàn)象,但在理論上,仍有一些問(wèn)題存在爭(zhēng)議或者模糊難以判別,如虛擬語(yǔ)氣(subjunctive mood)用于表示一種假想的情況或主觀愿望。是否單列出來(lái)?“不必”和“不用”,“用” 是許可還是要求?為保證現(xiàn)有體系的準(zhǔn)確性,我們暫時(shí)不做標(biāo)注,留待以后進(jìn)一步討論。超命題義的完整分類標(biāo)記集見(jiàn)附錄表格1。

        3 基于中文深層語(yǔ)義描述的語(yǔ)言資源構(gòu)建

        語(yǔ)料庫(kù)對(duì)于自然語(yǔ)言處理研究的巨大價(jià)值已經(jīng)得到學(xué)者們認(rèn)可。語(yǔ)義標(biāo)注的語(yǔ)料庫(kù)構(gòu)建目前主要以人工標(biāo)注為主,如賓州樹(shù)庫(kù)、框架語(yǔ)義網(wǎng)、抽象語(yǔ)義表示等。傳統(tǒng)人工標(biāo)注的優(yōu)點(diǎn)是在標(biāo)注量小的情況下準(zhǔn)確性高,但標(biāo)注的一致性、進(jìn)度、質(zhì)量受到標(biāo)注者相關(guān)因素影響較大,難以高效應(yīng)對(duì)大規(guī)模語(yǔ)料庫(kù)的標(biāo)注需求。

        為了獲得高質(zhì)量的中文深層語(yǔ)義語(yǔ)料庫(kù),同時(shí)避免傳統(tǒng)人工標(biāo)注的低效問(wèn)題,我們采用社會(huì)標(biāo)注(social annotation)中基于群體智慧(collective intelligence)語(yǔ)料標(biāo)注方法對(duì)語(yǔ)料資源進(jìn)行標(biāo)引、組織和標(biāo)注[27]?;谌后w智慧的標(biāo)注與其他社會(huì)化標(biāo)注方法(如眾包標(biāo)注等)不同的是: 該方法不只將標(biāo)注任務(wù)分工,更強(qiáng)調(diào)對(duì)標(biāo)注參與者的智慧的運(yùn)用和發(fā)掘,以及對(duì)其結(jié)果的有效歸納、加總,以形成最終的集體性成果,因此更加適合對(duì)準(zhǔn)確性和專業(yè)性要求較高的語(yǔ)義語(yǔ)料庫(kù)標(biāo)注需求。圖4描畫了我們所使用的基于群體智慧的標(biāo)注模型。

        圖4 基于群體智慧的標(biāo)注模型

        該模型的輸入項(xiàng)有三個(gè): 標(biāo)注者、待標(biāo)注語(yǔ)料和標(biāo)注規(guī)范。模型的處理部分包含: 能力評(píng)測(cè)、語(yǔ)料篩選、任務(wù)組織等,輸出為標(biāo)注語(yǔ)料庫(kù)。其中核心處理部分是: 語(yǔ)料篩選、協(xié)作標(biāo)注和決策加總。

        3.1 語(yǔ)料篩選

        就語(yǔ)料庫(kù)標(biāo)注來(lái)說(shuō),一個(gè)重要的指標(biāo)是語(yǔ)料的平衡。平衡語(yǔ)料能夠更好地覆蓋各種語(yǔ)言現(xiàn)象,并減輕數(shù)據(jù)稀疏問(wèn)題。語(yǔ)料平衡需要考慮多個(gè)因素(如語(yǔ)義角色標(biāo)注中,謂詞、句式、意義組合模式等都可以作為參考),因此標(biāo)注者的專業(yè)知識(shí)和經(jīng)驗(yàn)對(duì)于平衡語(yǔ)料十分重要。在基于群體智慧的語(yǔ)料標(biāo)注過(guò)程中,我們通過(guò)專家級(jí)標(biāo)注者提供語(yǔ)料特征分析、語(yǔ)料檢索、語(yǔ)料統(tǒng)計(jì)、詞典對(duì)比、語(yǔ)料抽取等工具,并由專家級(jí)用戶挑選代表性語(yǔ)料進(jìn)入候選標(biāo)注語(yǔ)料。

        最終用于標(biāo)注中文深層語(yǔ)義的原始語(yǔ)料由核心例句集(ICL平衡例句集)12萬(wàn)字以上、常用動(dòng)詞例句集31萬(wàn)字以上、《人民日?qǐng)?bào)》語(yǔ)料113萬(wàn)字以上、微博和網(wǎng)絡(luò)語(yǔ)料11萬(wàn)字以上,以及多領(lǐng)域文本語(yǔ)料800萬(wàn)字左右構(gòu)成(包括微信公眾號(hào)文章、小說(shuō)散文、社會(huì)科學(xué)、自然科學(xué)、中學(xué)課本、科普類文章)。所有語(yǔ)料合計(jì)超過(guò)1 000萬(wàn)字。其中核心例句集是經(jīng)過(guò)精加工的高質(zhì)量標(biāo)注數(shù)據(jù)集,其余部分是以機(jī)器自動(dòng)標(biāo)注為主,人工為輔完成的,在后續(xù)階段將會(huì)繼續(xù)完善。

        3.2 語(yǔ)料標(biāo)注

        收集到原始語(yǔ)料后,語(yǔ)料標(biāo)注的核心就在于協(xié)作標(biāo)注模塊。為了減輕用戶決策受到互相的影響,我們基于隔離標(biāo)注法,即多個(gè)用戶標(biāo)注同樣的語(yǔ)料,彼此之間無(wú)法看到對(duì)方的標(biāo)注結(jié)果,設(shè)計(jì)了專用標(biāo)注平臺(tái),并收集有差異的標(biāo)注進(jìn)行典型差錯(cuò)分析,進(jìn)而改進(jìn)標(biāo)注規(guī)范和標(biāo)注工具。

        此外,從語(yǔ)言工程角度講,把句子語(yǔ)義的分析分解為多個(gè)層面分階段處理,更有利于把握分析質(zhì)量、內(nèi)部一致性,控制工程進(jìn)度,因此本課題規(guī)定標(biāo)注者采用分層標(biāo)注、層層渲染的方式進(jìn)行句子語(yǔ)義標(biāo)注,即每一層標(biāo)注都針對(duì)句子三層語(yǔ)義架構(gòu)中的一個(gè)層面的(局部)問(wèn)題,最終匯聚成對(duì)句子語(yǔ)義的完整描述。

        3.3 語(yǔ)料聚合

        為了獲得最終的一致的集體性標(biāo)注成果,我們還需要進(jìn)行語(yǔ)料聚合——設(shè)計(jì)有效的決策機(jī)制,對(duì)群體的個(gè)人智慧進(jìn)行有效加總。決策加總機(jī)制實(shí)現(xiàn)為一個(gè)信息聚合模塊,包含三個(gè)單元: 生成方案單元、優(yōu)化方案單元以及評(píng)估方案單元。同時(shí)在生成、優(yōu)化以及評(píng)估方案中,我們選擇“外擴(kuò)”的方式彌補(bǔ)決策偏差。相對(duì)自組織、加權(quán)平均,外擴(kuò)實(shí)施起來(lái)困難最大,但最為有效[28]: 即在收集和評(píng)估決策方案的時(shí)候,去尋找外界的幫助,擴(kuò)大參與決策的個(gè)體數(shù)量。

        在我們的項(xiàng)目實(shí)踐中,基于群體智慧的標(biāo)注方法在面對(duì)一定規(guī)模的語(yǔ)料標(biāo)注任務(wù)時(shí),比傳統(tǒng)的手工標(biāo)注單人標(biāo)注速度提升至1.5倍,同等數(shù)量語(yǔ)料標(biāo)注速度提升至7倍,標(biāo)注質(zhì)量也有所提升。其原因在于: 在創(chuàng)新性很強(qiáng)的自然語(yǔ)言處理項(xiàng)目實(shí)施過(guò)程中,其探索的特點(diǎn)非常明顯。就我們的標(biāo)注任務(wù)來(lái)說(shuō),早期標(biāo)注規(guī)范是隨著語(yǔ)料標(biāo)注的進(jìn)展逐步提煉、修改、完善,這個(gè)過(guò)程需要有效的群體協(xié)作、信息發(fā)掘、智慧歸總,才能最終形成高質(zhì)量的大規(guī)模標(biāo)注成果。這種情況下,基于群體智慧的標(biāo)注方法相比傳統(tǒng)方法有明顯的優(yōu)勢(shì)。

        4 結(jié)論

        本文針對(duì)中文深層語(yǔ)義描述及其資源構(gòu)建進(jìn)行研究,研究工作及所取得的成果可以概括為以下三個(gè)主要方面。

        (1) 本文結(jié)合漢語(yǔ)本身特點(diǎn),提出以基本命題義為出發(fā)點(diǎn),向下融入概念義、向上融入超命題義的中文深層語(yǔ)義描述體系規(guī)范。

        (2) 基于相關(guān)理論和大量文本實(shí)例,對(duì)基本命題義的標(biāo)注對(duì)象(謂詞性成分和論元成分)和論旨角色重新定義,并對(duì)漢語(yǔ)中的特殊現(xiàn)象進(jìn)行單獨(dú)分析,并定制多種標(biāo)注策略。

        (3) 在中文深層語(yǔ)義描述體系的基礎(chǔ)上,建立了完善的語(yǔ)料標(biāo)注模型,通過(guò)自建平臺(tái)實(shí)現(xiàn)了快速、高質(zhì)量的大規(guī)模語(yǔ)料人工標(biāo)注。

        本文的特色在于,從中文“意合”的語(yǔ)言特點(diǎn)出發(fā),同時(shí)將語(yǔ)言學(xué)理論與計(jì)算機(jī)工程相結(jié)合,提出結(jié)合概念和邏輯的、涵蓋命題語(yǔ)義和超命題語(yǔ)義的中文深層語(yǔ)義描述體系,可以真正實(shí)現(xiàn)分層次、細(xì)粒度挖掘漢語(yǔ)文本中的語(yǔ)義信息。此外,在設(shè)計(jì)時(shí)就將自動(dòng)分析自動(dòng)推理作為考慮的首要因素,在概念義、命題義、超命題義的表示上既保證了語(yǔ)義圖結(jié)構(gòu)的完整性,同時(shí)保護(hù)了文本和標(biāo)注結(jié)果的關(guān)聯(lián)關(guān)系,能夠直接為自然語(yǔ)言處理和理解的多個(gè)研究領(lǐng)域(如詞義消歧、機(jī)器翻譯、信息抽取和大規(guī)模語(yǔ)料庫(kù)加工、歸納和推理)提供較為全面、深入的語(yǔ)義知識(shí),為自動(dòng)語(yǔ)義分析提供更為充分的支持。

        本文雖然在中文深層語(yǔ)義描述體系和資源的建設(shè)方面取得了一定成果,但是離實(shí)用化的目標(biāo)還有很長(zhǎng)的路要走,如下問(wèn)題均可進(jìn)一步展開(kāi): 如何提高自動(dòng)中文深層語(yǔ)義分析器的性能;如何對(duì)概念義涉及的短語(yǔ)、單詞嵌入的進(jìn)行學(xué)習(xí);如何解決隱式語(yǔ)義角色標(biāo)注的問(wèn)題。此外,非規(guī)范文本的語(yǔ)義標(biāo)注,如微博等社交媒體網(wǎng)站產(chǎn)生大量的口語(yǔ)化、弱規(guī)范甚至不規(guī)范的短文本,在標(biāo)注時(shí)的速度和質(zhì)量都相對(duì)較低,該如何解決?

        猜你喜歡
        論元謂詞深層
        被遮蔽的邏輯謂詞
        ——論胡好對(duì)邏輯謂詞的誤讀
        黨項(xiàng)語(yǔ)謂詞前綴的分裂式
        西夏研究(2020年2期)2020-06-01 05:19:12
        考慮各向異性滲流的重力壩深層抗滑穩(wěn)定分析
        SAM系統(tǒng)對(duì)TDCS數(shù)據(jù)的優(yōu)化處理與深層應(yīng)用
        成分重量和粵方言雙及物結(jié)構(gòu)的論元語(yǔ)序
        基于論元結(jié)構(gòu)和題元指派對(duì)漢語(yǔ)處置義“把”字句的句法語(yǔ)義分析
        也談“語(yǔ)言是存在的家”——從語(yǔ)言的主詞與謂詞看存在的殊相與共相
        對(duì)“醫(yī)患失去信任”的深層憂慮
        英語(yǔ)中動(dòng)構(gòu)式中施事論元句法隱含的認(rèn)知研究
        電視節(jié)目低俗化的深層反思
        国产精品毛片毛片av一区二区| 亚洲 欧美 综合 另类 中字| 中国精品视频一区二区三区| 中文字幕一区二区在线看| 一区二区三区人妻少妇| 高清不卡一区二区三区| 欧美视频在线观看一区二区| 精品中文字幕手机在线| 无码伊人66久久大杳蕉网站谷歌| 国产一区二区在三区在线观看| 自拍视频在线观看国产| 国产freesexvideos中国麻豆 | 久久国产精品久久久久久| 一区二区日韩国产精品| 日韩中文字幕久久久经典网 | 国产乱子伦精品无码专区 | 日本老熟妇毛茸茸| 亚洲无码a∨在线视频| 亚洲 国产 韩国 欧美 在线| 国产猛男猛女超爽免费av| 国产亚洲成人av一区| 精品久久久久久久久午夜福利| 亚洲暴爽av人人爽日日碰| 无码精品国产午夜| 亚洲一区亚洲二区视频在线| 人妻少妇偷人精品无码| 国产三级欧美| 亚洲国产人成自精在线尤物| 五月色丁香婷婷网蜜臀av| 午夜不卡久久精品无码免费| 99国产超薄丝袜足j在线播放| 一级黄色一区二区三区视频| 成人免费自拍视频在线观看 | 亚洲av无码无线在线观看 | 久久九九有精品国产尤物| 无码人妻专区一区二区三区| 一区二区三区免费观看日本| 国产精品免费观看调教网| 色悠久久久久综合欧美99| 国产精品无码久久AⅤ人妖| 青草久久婷婷亚洲精品|