亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文篇章零元素語料庫構建

        2019-01-29 05:48:18盛晨孔芳周國棟
        北京大學學報(自然科學版) 2019年1期
        關鍵詞:指代省略語料

        盛晨 孔芳 周國棟

        蘇州大學計算機科學與技術學院自然語言處理實驗室, 蘇州 215006; ? 通信作者, E-mail: kongfang@suda.edu.cn

        隨著人工智能如火如荼地發(fā)展, 為實現(xiàn)無障礙人機智能交互的終極目標, 自然語言處理作為其至關重要的分支, 承擔起語言理解的重任[1]。省略作為一種常見現(xiàn)象廣泛存在于漢語表述, 其省略成分稱為零元素(zero pronoun)。準確識別出該零元素并理解作者的真實意圖, 是自然語言處理面臨的重大挑戰(zhàn)任務之一。

        到目前為止, 盡管這些有關中文零元素的研究已取得一定的成果, 但其效果仍不盡如人意。首先,漢語的復雜性決定了該任務的難度, 大量的長句以及復雜的句法帶來巨大的挑戰(zhàn)。此外, 語料資源的稀缺也是限制中文零元素發(fā)展的重要原因之一。

        本文針對上述問題, 基于篇章理解層面, 對中文省略現(xiàn)象進行深入的探究, 提出篇章零元素的概念。在此基礎上, 完成中文篇章零元素語料庫構建,并進行語料庫相關的統(tǒng)計分析。

        1 相關工作

        近年來, 中文零元素現(xiàn)象備受關注, 針對中文的零元素識別與消解任務取得一系列的研究成果。然而, 這些研究主要側重于方法, 對語料庫的構建則考慮較少。

        Zhao 等[2]給出一個完整的基于機器學習的中文零指代識別及消解方案, 并提出一套有效的特征集合。Yang 等[3]基于 CTB 語料對零元素識別進行研究, 采用序列化標注模型來識別句中存在的零元素。Kong 等[4]給出一個基于樹核函數(shù)的中文零元素消解的完整框架, 將中文零指代消解任務清晰地劃分成 3 個子任務: 零元素識別、待消解項識別和零元素消解, 分別給出每一個子任務適用的結構化特征集。Chen 等[5-7]首次給出完整的端到端的全自動狀況下的中文零指代消解平臺, 并提出一組更有效的句法和上下文特征; 而后, 為了避免有監(jiān)督學習下對語料的依賴性, 在之前的工作基礎上, 又給出一個無監(jiān)督方法的生成式模型, 取得較好的性能。

        在語料資源方面, 得到大眾認可的中文零元素語料是 OntoNotes 語料[8]。該語料是由美國眾多科研機構聯(lián)合創(chuàng)立的權威語料庫, 存在中、英、阿拉伯 3 種標注語言。該語料的中文部分標注了漢語中主語位置的零元素省略及其指代鏈, 為目前已有的中文零元素研究工作提供資源支持。

        2 標注動機

        首先, 漢語的語言特點決定了篇章視角研究的必要性。從形式上看, 零元素被視為句中省略的詞。然而, 從語義理解的角度來看, 省略的語義成分卻是依賴于篇章的上下文表述。也就是說, 零元素并非句子內(nèi)部詞匯成分, 而是連貫上下文中特殊語義表述的載體。零元素體現(xiàn)的不是句子內(nèi)部的語言特點, 而是以篇章為單位的語義表達方式。在省略表述過程中, 只有先在前文中被提及, 后文中才可以省略, 并且前后文間必然存在相應的語義邏輯關系。由此可見, 篇章視角下的中文零元素研究工作有其必要性。

        其次, 語料庫資源的唯一性限制了研究的進展。中文省略表述屬于篇章的范疇, 然而 OntoNotes 語料標注卻傾向于句法層面, 以致目前大多數(shù)相關研究均是基于句法層面進行的: 研究對象是句子,所選特征也約束在詞法和句法特征之內(nèi)。眾所周知, 語言是文化的載體, 語言的不同反映文化的差異。西方文化特點決定其語言(英語)的表述更傾向于直來直去的方式, 大多時候一句話就可以清晰地表述說話者的意圖。然而, 中國的文化特點在于含蓄, 其語言表述方式也與英語大不相同。中文表述過程中, 說話者的意圖往往經(jīng)過多層鋪墊和轉折加以修飾, 委婉地表達出來。由此可見, 以句子為單位的零元素標注方式在西方語言的語料上取得令人滿意的成果, 但對于中文語料的研究, 這種標注方式不盡合理。

        此外, 從篇章視角來看, OntoNotes 語料標注存在不足之處。Li 等[9]參考修辭結構理論(rhetorical structure theory, RST)[10]以及賓州篇章樹庫(Penn Discourse Tree Bank, PDTB)[11]體系, 提出基于連接依存樹的漢語篇章結構表示體系, 并標注了中文篇章樹庫(Chinese Discourse Treebank, CDTB)。以基本篇章單元(elementary discourse unit, EDU)作為葉子節(jié)點, 修辭關系作為非葉子節(jié)點, 自底向上構成一棵樹結構, 用來表示漢語篇章結構。通過對CDTB 與 OntoNotes 重疊語料部分的統(tǒng)計, 我們發(fā)現(xiàn)以下問題。

        1)部分零元素標注不存在對應的指代鏈標注(chain), 占比約 12.9%。通過對這部分語料的逐一人工分析, 發(fā)現(xiàn)該部分零元素標注大多僅是為了句法結構的嚴謹性, 對于篇章語義的理解影響無關緊要。

        2)盡管已給出零元素對應的指代鏈標注, 然而其指代鏈上的指代項均為零元素, 這部分占比為5.2%。通過分析, 此處省略的成分較特殊, 一般為大眾熟知的常識內(nèi)容, 如“中國”此類概念性實體。

        3)統(tǒng)計結果顯示, 大約有 16.8%的零元素標注雖然存在有效指代關系, 但該關系并不在篇章內(nèi)部。也就是說零元素與其先行詞不在同一個篇章關系之中。此類指代屬于跨篇章的指代關系, 即便是漢語語言學家進行判斷, 也存在較大的歧義性, 不屬于本文研究的范圍。

        4)該語料存在一定的漏標現(xiàn)象, 如例1所示。

        例1[專家們認為, 在中國的五個經(jīng)濟特區(qū)中,的地理位置、資源條件、經(jīng)濟發(fā)展狀況較為特殊,應進一步擴大對外開放,率先實現(xiàn)與亞太區(qū)域經(jīng)濟一體化和國際貿(mào)易自由化的對接。]e3

        例1選自 chtb_0018 文檔, 零元素用φ標注, 并與其先行詞用特殊字體標注(加粗、下劃線)。分隔符“|”切分段落為對應基本篇章單元序列, 構成如圖 1 所示的篇章修辭結構關系: e2 與 e3 構成條件關系, 進一步與 e1 構成因果關系。例1 中段落表述的完整語義是: “專家們認為由于……, 所以應該讓進一步擴大對外開放, 才能讓率先實現(xiàn)……”。不僅在 e2 中存在語義省略, e3 內(nèi)部也存在語義省略。OntoNotes 語料僅給出前一處的標注而忽略了后一處。

        圖1 例1對應篇章層次化結構Fig.1 Discourse structure of example 1

        綜上所述, 一方面中文零元素語料庫資源緊缺,另一方面, 唯一被認可的語料也存在一系列的欠缺。因此, 構建基于篇章視角的零元素語料庫成為研究過程中不可或缺的一步。

        3 語料庫構建

        3.1 篇章零元素

        依照零元素是否承擔所在 EDU 主干語義成分,將其分為兩大類。漢語篇章結構表示體系對 EDU定義如下: 至少包含一個謂語部分, 至少表達一個命題[9]。我們認為 EDU 內(nèi)部的主、謂(賓)結構承擔其主干語義。例如, 若零元素作為 EDU 主干語義成分(例如主語成分), 則定義該零元素為篇章主干性零元素; 否則, 認為該零元素作為 EDU 主干的修飾性成分(例如主語的修飾成分), 定義該零元素為篇章修飾性零元素。

        例2[國家統(tǒng)計局一九九六年全球經(jīng)濟將繼續(xù)保持增長, ]e1 | [這種對中國的發(fā)展十分其面臨很多發(fā)展機遇。]e3

        如例2 所示, 斜體、雙下劃線字體標注 EDU 的驅動謂詞, 加粗、下劃線字體標注零元素φ及其指代先行詞。φ所在 EDU 對應主干語義:使其面臨更多的發(fā)展機遇”。該零元素承擔 EDU內(nèi)部謂詞的主語成分, 符合篇章主干性零元素的定義。

        例3是一項振興上海, 建設現(xiàn)代化經(jīng)濟、貿(mào)易、金融中心的跨世紀工程, ]e1 | [因此大量出現(xiàn)的是以前不曾遇到過的新情況、新問題。]e2

        例3 中零元素φ所在 EDU 表述主干語義為“大量出現(xiàn)的是……的新情況、新問題”, φ作為賓語“新情況、新問題”的修飾成分, 屬于篇章修飾性零元素。與篇章主干性零元素相比, 此處省略成分對篇章關系構建的影響較小, 對 EDU 內(nèi)部語義關系抽取以及局部句法分析影響較大。準確地識別該零元素有助于明確局部語義成分, 減少復雜的修飾性成分對篇章理解帶來的噪聲。

        3.2 語料資源

        我們從賓州樹庫語料(CTB 6.0)中抽取 325 篇文檔(chtb0001-chtb0325)作為語料標注資源。采用該語料的原因主要有以下幾方面。

        1)OntoNotes 中存在該部分對應語料。自其發(fā)布以來, OntoNotes 語料在多類自然語言處理任務中得到廣泛應用, 具有較高的認可度。在該語料上完成篇章零元素標注, 有利于與已有的研究工作進行對比。

        2)這部分語料對應的篇章修辭關系語料已經(jīng)構建。本課題組結合 PDTB 與 RST 體系的優(yōu)勢, 將漢語篇章結構表示成一棵樹結構, 并基于上述 CTB 語料發(fā)布了對應 CDTB 標注語料。該語料可提供本研究所需的篇章體系結構以及對應的篇章標注。

        3)該部分語料的來源對應為新華社的新聞語料。與其他領域(例如微博、推特、醫(yī)學領域等)相比, 作為大眾化書面語言, 新聞語料顯得更整齊,其表述更符合中文語法規(guī)范, 適合初步研究。

        4)CTB 語料包含豐富的詞法、句法等標注資源, 可以為后期的研究提供不同層次的特征。

        3.3 標注策略與流程

        3.3.1 中文篇章零元素標注策略

        基于漢語篇章結構理論體系[9], 作為篇章的基本單位, EDU 上層對應的篇章關系反映全局的語義結構信息, 下層對應的句法信息則可有效地輔助理解局部語義。此外, 零元素對應的語言成分也大多存在于省略之前。上述特點決定了如下的標注策略: 輸入與一個段落對應的篇章關系, 以 EDU 為標注單位, 向上考慮篇章修辭關系, 向下結合句法結構, 判斷其內(nèi)部是否包含零元素。如果存在零元素,在 EDU 內(nèi)部定位該零元素, 并向前搜索其對應的語言成分, 進而完成篇章零元素標注。

        3.3.2 人機結合的語料標注流程

        標注工作由一名導師與兩名研究生合作完成,整個標注過程分為 3 個階段。第 1 階段, 為保證語料標注的質量以及通用性, 我們制定初步的標注規(guī)范, 開發(fā)相應的標注工具。第 2 階段, 依照初步的標注規(guī)范, 所有標注者分別標注相同的 20 篇文檔(111 個段落, 237 個句子), 然后針對上述標注進行討論, 討論涉及零元素的定義、先行詞類型、標注方式以及標注屬性等內(nèi)容。通過小組內(nèi)的討論, 得到最終的標注規(guī)范, 并且完成所有的語料標注。第 3 階段, 對最終的標注文檔逐一校對, 修正或刪除不合理項, 形成完整的可發(fā)布的中文篇章零元素語料庫。

        為了簡化工作量, 提高標注效率以及標注一致性, 我們設計開發(fā)了零元素標注平臺, 工作流程如圖 2 所示。首先導入生語料, 利用計算機輔助工具生成可視化的篇章結構以及對應的句法結構; 然后通過人工分析, 識別 EDU 內(nèi)部零元素, 并進行相關屬性標注, 用 XML 文件格式保存標注結果; 最后對 XML 文件進行統(tǒng)計分析, 得出統(tǒng)計結果。

        3.4 標注規(guī)范

        3.4.1 標注總則

        首先通過一個例子來介紹篇章零元素標注的具體內(nèi)容。

        例4[崇明是中國第三大島, ]e1 | [具有優(yōu)越的地理條件和悠久的歷史, ]e2 | [改革開放以來, 崇明縣的經(jīng)濟建設和對外開放發(fā)展迅猛, ]e3 | [外商投資企業(yè)不斷增多, ]e4 | [進出口貨物大量增加, ]e5 | [是中國綜合實力百強縣之一。]e6

        如例4 所示, 分隔符“|”將段落切分為 6 個 EDU并構成圖 3 所示的篇章結構。對 e1 進行人工語義判斷, 其主、謂、賓結構清晰, 不存在省略成分; 繼續(xù)判斷 e2, 存在主語省略, 其表達的完整語義是具有優(yōu)越的地理條件和悠久的歷史”在此標注相應零元素及其指代先行詞。重復上述過程, 依次對段落中其他的 EDU 依次進行判斷、標注, 形成最終對應的XML標注文檔。

        3.4.2 篇章零元素標注

        <Zero> //零元素標簽

        ZID=[1…N]//零元素ID

        ZOffset=[0…N]//所在段落中的位置

        Classify=[***]//劃分零元素類別

        <CorefEDU Position=[a…b]Text=[***]> //指代先行詞對應EDU標簽

        <ZeroEDU Position=[a…b]Text=[***]> //零元素所在EDU標簽</Zero>

        例5<Zero ZID=“1” ZOffset=“66” Classify=“VPType”><CorefEDU Position=“22…66”><Text>上海浦東</Text></CorefEDU><ZeroEDU Position=“67…79”><Text>確保了浦東開發(fā)的有序進行。</Text></ZeroEDU></Zero>

        例5 所示為語料標注文檔實例, 相關說明如下。

        Zero 中的 ZID 表示零元素在標注文檔對應的唯一標識號, 起始為 1, 遞增標注, 增幅為 1。

        Zero 中的 ZOffset 表示零元素所在段落內(nèi)部的位置, 與 CDTB 語料庫位置標注保持一致。

        Zero 中的 ZeroEDU 表示零元素所在 EDU 的信息, Position 記錄該 EDU 在段落內(nèi)部的起始位置和終止位置, Text 記錄帶有零元素標記的文本(論文中用φ來指代零元素, 語料中是用[zero]標出的)。CorefEDU 標注參考 ZeroEDU 的格式記錄, 零元素指代先行詞對應EDU的信息。

        Zero 中的 Classify 表示當前零元素的子類別,存在 4 類取值, 分別為 IPType, VPType, MODIFYType和EDUType。

        IPType類型零元素滿足條件: 當前零元素為篇章主干性零元素、其所在的 EDU 對應句法節(jié)點為IP類型節(jié)點、零元素作為IP節(jié)點的主語成分。

        圖2 中文篇章零元素標注平臺處理流程Fig.2 Processing flow of annotation platform for Chinese discourse zero

        圖3 例4對應篇章層次化結構Fig.3 Discourse structure of example 4

        例6[建筑是開發(fā)的一項主要經(jīng)濟活動, ]e1 | [這些年有數(shù)百家建筑公司、四千余個建筑工地遍布在這片熱土上。]e2

        例6 所示為 IPType 類型零元素, 其所在 EDU表述的主干語義為: “[浦東]有……”。圖 4 為φ所在EDU 的句法結構, 該句法節(jié)點為 IP 類型節(jié)點, φ作為主語成分, 符合篇章主干性零元素的定義。

        VPType 類型零元素滿足條件: 當前零元素為篇章主干性零元素, 其所在的基本篇章單元對應句法節(jié)點為 VP 類型節(jié)點, 該零元素作為 EDU 驅動謂詞的主語成分。

        例7位于中國著名風景旅游城——杭州市區(qū)內(nèi), ]e1 | [是一九九一年國務院批準建設的國家級高新技術產(chǎn)業(yè)開發(fā)區(qū)。]e2

        例7 所示為 VPType 類型零元素。該零元素符合篇章主干性零元素的定義, 如圖 5 所示, φ所在EDU 對應的句法結構為 VP 類型節(jié)點, 并且零元素作為驅動謂詞的主語成分。

        圖4 例6零元素所在EDU句法結構Fig.4 Syntactic structure of EDU including zero in example 6

        進一步分析 VPType 類型零元素, 發(fā)現(xiàn)該類型零元素在句法結構中大多呈現(xiàn)為并列 VP 結構, 且共享同一個主語成分。我們稱這類現(xiàn)象為句法層面的共享主語現(xiàn)象, 其對應的句法結構如圖 6 所示,VP1, VP2 和 VP3 節(jié)點共享主語節(jié)點 SBJ。然而, 共享主語現(xiàn)象是句法層面的概念, 應與篇章零元素嚴格區(qū)分開來。我們認為, 若該 VP 節(jié)點與其主語位于同一個 EDU 內(nèi)部, 對上層篇章來說該 EDU 表述是完整的, 當前省略表述不作為篇章零元素。

        例8他說, 公署還積極配合中國駐外使領館,密切與特區(qū)政府有關部門聯(lián)系與合作,

        圖7 為例8 對應的句法結構, 表述的主干語義為“他說……”, 驅動謂詞“說”引導賓語從句, 其內(nèi)部存在共享主語現(xiàn)象, 表述的完整語義為“他說, 公署還積極配合中國駐外使領館, [公署]密切與特區(qū)政府有關部門聯(lián)系與合作”。然而, 該語義省略僅表現(xiàn)在 EDU 的句法層面, 不屬于篇章層面的零元素, 故忽略此處的語義省略標注。

        MODIFYType 與 EDUType 的判斷條件: 當前零元素為篇章修飾性零元素, 進一步判斷指代關系。若先行詞與零元素位于不同的 EDU, 劃分為MODIFYType, 否則為EDUType。

        例9(a)[以茂名三十萬噸乙烯工程為依托的水東不斷加大招商引資的力度, ]e1

        圖6 句法層面的共享主語結構Fig.6 Structure of share subject from sentence perspective

        例9(b)是一項振興上海, 建設現(xiàn)代化經(jīng)濟、貿(mào)易、金融中心的跨世紀工程, ]e1[因此大量出現(xiàn)的是以前不曾遇到過的新情況、新問題。]e2

        例9(a)和(b)中零元素均為篇章修飾性零元素(作為賓語的修飾成分), 依據(jù)其指代關系的類型,各自標注為EDUType和MODIFYType。

        3.5 統(tǒng)計與分析

        3.5.1 標注一致性檢測

        盡管標注人員遵循統(tǒng)一的標注規(guī)范, 由于個人的主觀性差異, 導致語料的標注結果依舊存在不一致的現(xiàn)象。語料的一致性檢驗是用來衡量上述一致性的重要標準, 反映語料的標注質量。本研究采取Kappa 檢驗進行一致性檢驗, 計算公式為

        其中, PO表示觀察一致率,PC表示偶然一致率。通常認為 Kappa 值大于 0.75 表示標注具有較好的一致性, Kappa 值小于 0.4 則表示一致性較差。

        我們選取兩名標注人員 A 和 B, 對相同的 30 篇文檔(chtb0101~chtb0130)進行獨立標注, 根據(jù)標注結果進行一致性測試。以 EDU 為單位, 當標注零元素的在 EDU 內(nèi)部的位置相同時, 認為零元素標注是一致的。通過計算, 零元素標注的 Kappa 值為0.85, 表明該語料的標注結果是可信的。

        3.5.2 語料庫統(tǒng)計

        CDZC 共有 325 篇文檔(chtb0001~chtb0325), 全部來源于 CTB 語料, 總共包含 1367 個段落, 4098 個句子, 標注零元素 2088 個, 平均每個段落包含零元素 1.53 個。下面從零元素分布以及零元素類別兩個方面對CDZC進行統(tǒng)計分析。

        1)零元素分布統(tǒng)計?;诙温鋵α阍胤植歼M行統(tǒng)計, 對應結果如表 1 所示。1367 個段落中,有 425 個段落不包含零元素, 占總數(shù)的 31.09%。也就是說, 中文篇章表述中, 68.91%的篇章中存在零元素。該數(shù)據(jù)直接地反映出中文省略的普遍性, 肯定了中文零元素的研究價值。

        2)零元素類別統(tǒng)計。對零元素類別 Classify 進行統(tǒng)計, 分布結果見表 2 。IPType 與 VPType 占據(jù)絕大部分, 比例高達 83%以上。這部分零元素對應為篇章主干性零元素, 對篇章語義理解分析起至關重要的作用。剩余的零元素占比約為 17%, 體現(xiàn)EDU 層面的細節(jié)語義, 輔助局部句法語義分析, 在后續(xù)的研究中有不可替代的作用。

        表1 基于段落的零元素分布統(tǒng)計Table 1 Chinese zero distribution statistics based on paragraph

        表2 零元素類別分布統(tǒng)計Table 2 Classify of Chinese zero distribution statistics

        圖7 例8對應句法結構Fig.7 Syntactic structure of example 8

        4 結束語

        本文針對漢語表述的語言特點, 結合漢語篇章結構體系, 對中文省略現(xiàn)象進行理論分析, 提出篇章層面的零元素概念, 并基于此構建中文篇章零元素語料庫(CDZC)。我們選取較有認可度的 CTB 語料進行標注。為確保標注一致性, 我們制定了一整套標注規(guī)范, 并采用合理的標注策略以及人機結合的標注方法進行語料標注。最終對該語料進行一致性檢測以及詳細的統(tǒng)計分析, 結果表明該語料較好地體現(xiàn)了零元素省略的語言現(xiàn)象以及其對應的語言特點。

        目前 CDZC 語料主要來源于新聞類的文本, 數(shù)量相對有限, 僅能滿足初步階段的研究需要。下一步的研究重點將放在擴大語料庫的規(guī)模以及生語料文本的類型上, 以便滿足進一步的研究需要。

        猜你喜歡
        指代省略語料
        Let’s Save Food To Fight Hunger
        奧卡姆和布列丹對指代劃分的比較
        科學咨詢(2022年19期)2022-11-24 04:23:25
        偏旁省略異體字研究
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實語料在翻譯教學中的應用
        中間的省略
        詩選刊(2015年6期)2015-10-26 09:47:13
        “不一而足”話討論
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學實證研究比較:語料類型與收集方法
        自然語言中的指代技術的研究
        河南科技(2014年10期)2014-02-27 14:09:37
        亚洲av日韩av无码污污网站| 中文字幕亚洲一区视频| 男女主共患难日久生情的古言| 久久99热狠狠色精品一区| 窝窝影院午夜看片| 青青青国产免A在线观看| 成人爽a毛片在线播放| 97se亚洲国产综合自在线观看| 女人夜夜春高潮爽a∨片传媒 | 免费在线观看av不卡网站| 亚洲av无码一区二区三区不卡| 国产亚洲欧美在线| 在线亚洲免费精品视频| av剧情演绎福利对白| 日日摸天天摸人人看| 久久久久久久妓女精品免费影院 | 久久国产成人午夜av影院| 国产超碰在线91观看| 国产精品麻豆va在线播放| av蓝导航精品导航| 国产亚洲女人久久久久久| 国产激情在线观看免费视频| 欧美人做人爱a全程免费| 在线免费观看国产精品| 日韩有码中文字幕av| 国产成人91久久麻豆视频| 国内精品久久久久影院一蜜桃| 色拍自拍亚洲综合图区| 中文字幕第1页中文字幕在| 日韩美女人妻一区二区三区| 成人日韩熟女高清视频一区| 玩50岁四川熟女大白屁股直播| 欧美日韩精品乱国产| av网站一区二区三区| 成人艳情一二三区| 人妻被黑人粗大的猛烈进出| 亚洲精品一区二区三区播放 | 欧美成人秋霞久久aa片| 亚洲gv白嫩小受在线观看| 国产亚洲一区二区三区成人 | 在线观看精品国产福利片100 |