史林林 邱立坤 亢世勇
?
基于規(guī)則的依存樹庫錯誤自動檢測與分析
史林林 邱立坤?亢世勇
魯東大學(xué)文學(xué)院, 煙臺264025; ?通信作者, E-mail: qiulikun@pku.edu.cn
嘗試將依存樹轉(zhuǎn)化為短語結(jié)構(gòu)樹, 并基于規(guī)則的方法自動檢測出人工標(biāo)注結(jié)果中的錯誤。將該方法應(yīng)用于已經(jīng)過兩遍人工校對的北京大學(xué)多視圖依存樹庫, 從50275個句法樹中發(fā)現(xiàn)1529處錯誤, 正確率為100%。進一步, 所有錯誤可以分為3個層次: 分詞錯誤、詞性與句法角色不符、句法角色錯標(biāo)。該方法可以有效提高依存樹庫的質(zhì)量, 并且適用于各類型的依存樹庫。
樹庫; 詞性; 句法角色; 錯誤檢測
樹庫是在分詞和詞性標(biāo)注的基礎(chǔ)上, 對句子中詞與詞之間句法關(guān)系進行標(biāo)注所形成的語料庫。近年來, 樹庫作為訓(xùn)練和評價統(tǒng)計句法分析器的數(shù)據(jù)基礎(chǔ), 越來越受到研究者的重視[1]。在用于訓(xùn)練統(tǒng)計句法分析器時, 樹庫質(zhì)量對句法分析器效果有較大影響, 因此提高樹庫質(zhì)量是一個重要的研究課題。目前已有較多學(xué)者探索使用統(tǒng)計方法自動檢測人工標(biāo)注的樹庫中存在的錯誤[2–5]。此類方法用于輔助人工進行第二遍校對, 在一定程度上可以降低工作量, 提高工作效率。經(jīng)過兩遍人工校對后的樹庫仍然可能存在一定的錯誤, 其中有許多是因為詞性和句法兩個層面標(biāo)注不協(xié)調(diào)造成的, 也可能是標(biāo)注人員偶然誤操作導(dǎo)致的。本文把經(jīng)過兩遍人工校對后的依存樹庫作為處理對象, 試圖找出人工標(biāo)注結(jié)果中的錯誤, 進一步提高樹庫質(zhì)量。
本文提出一種基于產(chǎn)生式規(guī)則的錯誤檢測方法, 其基本原理是從依存樹轉(zhuǎn)換到短語結(jié)構(gòu)樹時, 如果生成短語功能范疇失敗, 則通常是因為依存樹標(biāo)注錯誤導(dǎo)致。Rambow[6]認(rèn)為, 短語結(jié)構(gòu)樹和依存樹只是兩種不同的句法表現(xiàn)形式, 在表達(dá)能力上并沒有高下之分: 一般地, 短語結(jié)構(gòu)樹中標(biāo)注有短語功能范疇標(biāo)記和層次信息, 依存樹中標(biāo)注有中心語和語法角色信息; 但事實上在短語結(jié)構(gòu)樹中也可以標(biāo)注中心語和語法角色信息, 在依存樹中也可以標(biāo)注短語功能范疇標(biāo)記和層次信息。如果在其中任何一種形式的句法樹中同時標(biāo)注了中心語、語法角色、層次和短語功能范疇標(biāo)記信息, 則一定可以無歧義地向另一種句法樹轉(zhuǎn)換。本文主要考察從常規(guī)依存樹生成常規(guī)短語結(jié)構(gòu)樹中的短語功能范疇的過程, 并在這一過程中基于產(chǎn)生式規(guī)則自動檢測出人工標(biāo)注錯誤, 進而對錯誤進行分析, 給出各類型錯誤的分布。本文方法在理論上適用于各種類型的依存樹庫, 但是在具體實施時需要為所處理的依存樹庫構(gòu)建一套產(chǎn)生式規(guī)則, 這套規(guī)則涉及詞性、依存關(guān)系類型和短語功能范疇。
1 基于短語功能推導(dǎo)的錯誤檢測
1.1 短語功能的可推導(dǎo)性
對于短語整體功能的可推導(dǎo)性, 漢語學(xué)界很早就有過討論。朱德熙[7]提出: “內(nèi)部構(gòu)造相同的結(jié)構(gòu), 功能一般相同; 功能相同的結(jié)構(gòu), 內(nèi)部構(gòu)造不一定相同”。陳保亞[8]則將之總結(jié)為結(jié)構(gòu)功能原則, “如果兩個言語片斷的直接成分功能相同, 結(jié)構(gòu)關(guān)系相同, 它們的功能也相同”。“這個規(guī)律叫做結(jié)構(gòu)功能原則。根據(jù)這一原則, 只要知道了直接成分的功能和結(jié)構(gòu)關(guān)系, 結(jié)構(gòu)功能就知道了”。換言之, 如果已知具有依存關(guān)系的兩個詞的詞類以及它們之間語法關(guān)系的類型, 就可以推導(dǎo)出這兩個詞所構(gòu)成的短語的整體功能。
按照結(jié)構(gòu)功能原則, 推導(dǎo)短語整體功能時, 每一步都需要知道直接成分的功能。依存樹中只有詞的功能標(biāo)記, 沒有短語的功能標(biāo)記, 但通過遞歸的方式, 可以依次獲得各短語直接成分的功能標(biāo)記。
本文使用短語功能標(biāo)記作為推導(dǎo)的目標(biāo)標(biāo)記, 推導(dǎo)短語整體功能的規(guī)則為: 父結(jié)點詞類+子結(jié)點詞類+語法角色→短語整體功能標(biāo)記。比如“v+n+VOB→VP”表示父結(jié)點詞類為動詞(v)、子結(jié)點詞類為名詞(n)、子結(jié)點充當(dāng)父結(jié)點的賓語(VOB), 則整個短語的功能類型為動詞性短語VP。
1.2 依存句法體系
本文中采用北京大學(xué)多視圖依存樹庫(Peking University Multi-view Chinese Treebank, PMT)[9]的詞性體系和依存句法體系。該詞性體系對北京大學(xué)2003版詞性標(biāo)記集[10]進行簡化, 包含33個詞性標(biāo)記, 如名詞(n)、動詞(v)、形容詞(a)、副詞(d)、狀態(tài)詞(z)、介詞(p)、連詞(c)、助詞(u)、數(shù)詞(m)、處所詞(s)、人名(nr)、標(biāo)點符號(w)等; 依存句法體系中定義了30種句法角色, 如表1所示。
表1 PMT依存句法標(biāo)記集
1.3 推導(dǎo)規(guī)則集的建立
每個推導(dǎo)規(guī)則可以分為條件和結(jié)論兩部分, 例如“v+n+VOB→VP”這一規(guī)則的條件是“v+n+ VOB”, 結(jié)論是“VP”。因此, 推導(dǎo)規(guī)則集的建立分為如下兩個部分。
1)條件庫的自動抽取。給定一個人工檢查過的樹庫, 可以很容易地將所有可能的條件抽取出來。具體步驟為: 遍歷樹庫中每一棵樹, 對樹中的每一條弧, 獲取父結(jié)點詞性、子結(jié)點詞性和子結(jié)點的依存標(biāo)簽, 將三者連接成一個字符串, 即可生成一個條件, 將條件存儲到條件庫中即可。
2)人工填寫結(jié)論。條件庫中的條件可能存在錯誤, 因此需要進行人工審核。在審核時, 將所有條件按照頻次降序排列, 然后一一判斷。如果認(rèn)為條件可靠, 則為之添加一個結(jié)論(即短語功能標(biāo)簽); 否則, 將之剔除。
表2中列出一些高頻的推導(dǎo)規(guī)則作為示例。
表2 推導(dǎo)規(guī)則示例
1.4 錯誤自動檢測
使用前面建立的推導(dǎo)規(guī)則, 可以自動地生成短語結(jié)構(gòu)語法樹所需要的短語功能。如果所遇到的條件是推導(dǎo)規(guī)則中所沒有的, 系統(tǒng)將會認(rèn)為是一個人工標(biāo)注錯誤。具體流程如下。
遍歷每一棵依存樹:
遍歷每一個結(jié)點:
假定子結(jié)點詞性為Pc, 父結(jié)點詞性為Ph, 子結(jié)點依存關(guān)系標(biāo)簽為R, 通過字符串連接可得到條件“Ph+Pc+R”
檢索規(guī)則庫中的條件部分:
如果檢索成功, 則繼續(xù)處理
如果檢索失敗, 則簡化條件, 將父結(jié)點詞性和子結(jié)點依存關(guān)系標(biāo)簽連接成條件“Ph+R”, 重新檢索:
如果檢索成功, 則繼續(xù)處理
如果檢索失敗, 則將父結(jié)點記為人工標(biāo)注錯誤
如上所述, 在檢測過程中, 我們在嚴(yán)格條件匹配失敗的情況下放松了條件, 使系統(tǒng)對于訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過的條件也能夠匹配, 具有一定的適應(yīng)能力; 同時也確保錯誤檢測的高正確率。需要說明的是, 如果僅使用嚴(yán)格條件匹配, 則可以檢測出更多的人工標(biāo)注錯誤, 但相應(yīng)的正確率會降低。
2 實驗及分析
2.1 實驗結(jié)果
本文實驗數(shù)據(jù)為北京大學(xué)多視圖依存樹庫中的新聞樹庫[9]。樹庫文本來自人民日報1998年1月份前10天語料(共計14000余句)和2000年1月份全部語料(總計50000多個句子)。在建立規(guī)則庫時, 使用1998年1月份樹庫, 測試時使用2000年1月份樹庫。所有樹庫均經(jīng)過兩遍校對。
在建立規(guī)則庫時, 自動抽取的條件數(shù)為2279, 經(jīng)過人工檢測后是843條規(guī)則。被剔除的條件中, 有一些是因為頻次較低且可以被其他規(guī)則所覆蓋, 有一些屬于錯誤標(biāo)注。
基于該規(guī)則庫, 使用上述檢測方法, 從測試數(shù)據(jù)中檢測出1529處錯誤, 正確率為100% (自動檢測出的錯誤經(jīng)人工判定均為真正的錯誤)。進一步分析發(fā)現(xiàn), 標(biāo)注錯誤可以分為詞語切分、詞性標(biāo)注和句法標(biāo)注3個層次, 每個層次又有若干個小類。各類錯誤的分布如表3所示。
表3 錯誤類型及所占比例
2.2 分詞錯誤
漢語書面表達(dá)方式以漢字作為最小單位, 詞與詞之間沒有空格或其他分隔標(biāo)記, 因此詞語切分成為漢語文本處理中首先要解決的問題。自動詞語切分中主要的難題是分詞歧義消解和未登錄詞識別。本文在檢測樹庫標(biāo)注錯誤過程中發(fā)現(xiàn), 有一些句法標(biāo)注錯誤是由詞語切分不當(dāng)所引起的。此類型錯誤共有57處, 占總數(shù)的3.70%, 具體又分為組合型歧義和姓名處理不當(dāng)兩類。
2.2.1 組合型歧義
詞語切分歧義一般分為兩種: 交集型歧義和組合型歧義。對于交集型歧義, 可根據(jù)字段內(nèi)部提供的信息或以句法為主的局部上下文信息解決。對于組合型歧義, 切與不切, 導(dǎo)致分詞不同, 詞性不同, 語義不同, 如圖1所示。
“就是”合在一起, 有助詞、副詞、連詞3個詞性; 分開后, 則為兩個詞“就/d 是/v”, 是狀中結(jié)構(gòu)。圖1中, “就是”顯然為兩個詞, 這樣整個句子才會有一個謂語中心, 有一個根節(jié)點。從依存樹向短語結(jié)構(gòu)樹轉(zhuǎn)換時, 由于規(guī)則庫中不存在“d+v+ VOB”(父結(jié)點為“就是”, 其詞性為d; 子結(jié)點為“堅持”, 其詞性為v; 子結(jié)點句法關(guān)系標(biāo)注為VOB, 即賓語)這一條件, 檢索失敗; 放松條件后檢索“d+VOB”, 仍然失敗。沒有能夠生成相應(yīng)短語的功能范疇, 系統(tǒng)中直接顯示出父結(jié)點的詞性“d”(即副詞), 進而將之判斷為一個標(biāo)注錯誤。樹庫中類似詞語包括“就是”、“還是”、“才能”、“只有”等, 在人工校對中, 應(yīng)根據(jù)語境信息判斷該合還是該分。
2.2.2 姓名處理不當(dāng)
在PMT標(biāo)注體系中, 姓與名應(yīng)合成一個詞。實際語料中有少數(shù)姓名標(biāo)注不當(dāng), 造成錯誤, 如例1中的“廉頗”, 作為人名, 應(yīng)合在一起(為方便起見, 以下例句中用“P”標(biāo)識目標(biāo)詞的父節(jié)點)。
例1 盛澤田/nr “/w [廉/a_ATT ] [頗/d_SBV] 未/d [老/a_P] ”/w
2.3 詞性與句法角色標(biāo)記不符
非兼類詞在切分的同時一般就可以確定其詞性, 兼類詞的詞性則需要依據(jù)上下文語境予以判斷。因此, 詞性標(biāo)注導(dǎo)致的句法標(biāo)注錯誤主要由兼類詞詞性標(biāo)注不當(dāng)所導(dǎo)致。此類型錯誤有925處, 占總數(shù)的60.50%, 包含5種類型: 時間詞與句法角色不符, 動詞與句法角色不符, 形容詞與句法角色不符, 介詞與句法角色不符, 成語、簡稱、習(xí)用語處理不當(dāng)。
2.3.1 時間詞與句法角色不符
時間詞可做狀語, 與副詞有類似的語法功能?!巴凇敝浮巴粫r期”, 除做狀語外, 還可以做賓語、定語, 所以作為時間詞更合適?!巴凇卞e標(biāo)為副詞, 當(dāng)它充當(dāng)介詞賓語時就會形成“p+d+POB”這樣的不合法條件, 導(dǎo)致向短語結(jié)構(gòu)樹的轉(zhuǎn)換失敗,如例2。
例2 [比/p_P] 上年/t [同期/d_POB] 增加/v 11.1%/m
2.3.2 動詞與句法角色不符
1)動詞錯標(biāo)為介詞。
在現(xiàn)代漢語中, 單音介詞幾乎都是從動詞發(fā)展而來的, 單音介詞與動詞之間有來源關(guān)系和大量的兼類現(xiàn)象[11]。語言是動態(tài)的, 在變化與發(fā)展過程中, 部分動詞虛化為介詞。在虛化過程中, 有的詞虛化比較徹底, 完全失去動詞的意義和功能, 成為典型介詞; 有的還沒有失去動詞性, 有時表現(xiàn)為動詞功能, 有時表現(xiàn)為介詞功能, 這部分詞屬于動介兼類詞。因此在標(biāo)注動介兼類詞時, 往往難以抉擇, 如例3。
例3 俄新社/nt 把/p 這/r 篇/q 談話/n 作為/v 獨家/n新聞/n [提供/v_P] [給/p_CMP] 了/u 《/w匈牙利/ns 民族/n 報/n》/w。/w
動詞的4個特征: ①能用“不”或“沒”否定, ②能帶賓語, ③能帶動態(tài)助詞“著、了、過”, ④能重疊。介詞保存了動詞的前兩個特征, 失去后兩個特征[12]。因此, 判斷動詞和介詞時, 能加動態(tài)助詞或者重疊的是動詞, 反之是介詞。同時, 動詞可單獨使用, 單獨做謂語。例3中, “給”后有時態(tài)助詞“了”, 所以應(yīng)標(biāo)注為動詞v。否則, 就會出現(xiàn)介詞與助詞“了”搭配的條件, 導(dǎo)致轉(zhuǎn)換失敗。
2)動詞錯標(biāo)為副詞。
此類現(xiàn)象包含兩種情況: 一種是“沒有(沒)”, 動詞和副詞的區(qū)分有誤, 如例4; 一種是理解判別錯誤, 將動詞標(biāo)為副詞, 如例5。
例4 桃仙/ns 機場/n 已經(jīng)/d [沒有/d_P] 因/p 飛機/n 延誤/v 滯留/v 的/u [旅客/n_VOB]。/w
例5 我/v [決心/d_P] 把/p 我/r 的/u 后半生/n [貢獻/v_VOB] 給/p 我國/r的/u 科學(xué)/n 事業(yè)/n。/w
“沒有(沒)”是動副兼類詞。否定人物或事情的存在時是動詞, 否定動作或性狀的存在時是副詞。例4中“沒有”用于否定人物“游客”, 因此應(yīng)為動詞。例5這種情況, 屬于誤標(biāo)。
2.3.3 形容詞與句法角色不符
郭銳[13]提出用“很[不]~〈賓〉”格式把形容詞和能受“很”修飾的動詞區(qū)分開。然而一些詞既可以帶真賓語(端正態(tài)度), 也可以受“很”修飾, 不適用于“很[不]~〈賓〉”格式。這些詞帶真賓語時體現(xiàn)的是“使動”意義, 應(yīng)看做詞本身的意義。由于詞義不同, 受“很”修飾和帶真賓語時應(yīng)看做不同的詞, 處理為形容詞和動詞的兼類詞。
能否帶真賓語則是形容詞和動詞區(qū)分的標(biāo)準(zhǔn)。自動檢測中, 會將形容詞后帶賓語的情況當(dāng)做錯誤。這種情況下, 又分為兩種類型: 一是動形兼類, 將動詞標(biāo)為形容詞, 卻帶賓語, 如例6的“落后”; 二是形容詞詞性正確, 但直接帶了賓語, 如例7。
例6 在/p 8/m 分鐘/q 時間/n 里/f 將/p 比分/n 追/v 成/v 45:46/m,/w僅/d [落后/a_P] 一/m [分/q_VOB]
例7 江蘇/ns 玻璃廠/n 的/u 產(chǎn)品/n [走俏/ a_P] [市場/n_VOB]
2.3.4 介詞與句法角色不符
1)介詞錯標(biāo)為連詞。
介詞和連詞均為虛詞: 介詞用在詞或短語的前面, 構(gòu)成一個介賓結(jié)構(gòu), 表示時間、地點、方法、原因等關(guān)系; 連詞用來連接詞語或短語, 表示聯(lián)合關(guān)系或從屬關(guān)系?!耙颉奔鎸俳樵~和連詞, 二者意義上有聯(lián)系, 屬于兼類詞。在實際標(biāo)注時, 容易判別錯誤, 如例8。
例8 人們/n [因/c_ADV] 這個/r“/w新/a千年/t ”/w而/c [漾/v_P] 起/v無限/z遐思/n 。/w
“因”在后接名詞或名詞短語時往往充當(dāng)介詞, 所構(gòu)成的介賓結(jié)構(gòu)充當(dāng)狀語成分。上述例子中“因”后接名詞短語“新千年”, 所以應(yīng)為介詞。
2)介詞錯標(biāo)為副詞。
漢語中存在少量介副兼類詞, 比如“將”, 需要根據(jù)句法功能和語境小心判斷, 如例9。
例9 [將/d_P] 通過/p 資本/n 市場/n 得到/v的/u [資金/n_POB] ,/w集中/a用于/v集團/n戰(zhàn)略/n發(fā)展/v 產(chǎn)業(yè)/n
“將”為副詞時, 表示將要; 作為介詞時, 用于引介跟謂詞有關(guān)的受事。例9中, “將”引介跟“用于”有關(guān)的“資金”。
2.3.5 成語、簡稱、習(xí)用語處理不當(dāng)
北京大學(xué)2003版詞性標(biāo)記集中有成語、簡稱、習(xí)用語的獨立詞性標(biāo)記, 但PMT體系中依據(jù)語法功能將它們歸入相應(yīng)的詞類, 即名歸名, 動歸動。成語、簡稱和習(xí)用語不是根據(jù)句法功能劃分出來的詞類。由于人民日報語料庫中存在一些沒有標(biāo)注小類的成語、簡稱和習(xí)用語, 在進行詞性簡化時也無法將之歸入相應(yīng)的詞類, 因此在進行句法樹轉(zhuǎn)換時會導(dǎo)致轉(zhuǎn)換錯誤, 如例10, 11和12。這類錯誤也是數(shù)量最多的錯誤類型, 有529處, 占34.6%。
例10 效果/n 更/d [是/v_P] 如湯沃雪/i一般/a
例11 清華/n 、/w 北大/n 、/w對外經(jīng)貿(mào)大/j
、/w首師大/j 等/u 大多數(shù)/m 高校/n 也/d [成立/ v_P] 相關(guān)/n 領(lǐng)導(dǎo)/n 小組/n
例12 失業(yè)/n人員/n 只要/c[不挑不揀/l_P],/w保證/v 隨時/d 提供/v 就業(yè)/n 崗位/n
例10成語“如湯沃雪”應(yīng)歸入動詞, 例11簡稱“對外經(jīng)貿(mào)大”和“首師大”應(yīng)歸入名詞, 例12習(xí)用語“不挑不揀”則應(yīng)歸入動詞。
以上5種類型是詞性與句法角色不符的錯誤, 經(jīng)過分析可以得知: 除去誤標(biāo)情況外, 兼類詞最易引起分歧和錯誤, 比如動介兼類、動形兼類、介連兼類等, 所以, 在詞性標(biāo)注時應(yīng)注重兼類詞的判別。其次是未處理成語、習(xí)用語和簡稱, 導(dǎo)致出現(xiàn)錯誤, 此種錯誤較容易發(fā)現(xiàn)和改正。如果準(zhǔn)確地分析和判別兼類詞, 恰當(dāng)?shù)靥幚沓烧Z、習(xí)用語和簡稱, 仔細(xì)地排除誤標(biāo)情況, 那么依存樹庫中自動檢測出的錯誤就會減少很多。
2.4 詞性正確, 錯標(biāo)句法角色
2.3節(jié)中找到的錯誤是詞性不正確導(dǎo)致的句法角色不符。在自動檢測中, 還有一種錯誤, 即詞性正確但句法角色標(biāo)注錯誤。此類型錯誤有547處, 占總數(shù)的35.80%。
2.4.1 動賓結(jié)構(gòu)錯標(biāo)為介賓結(jié)構(gòu)
動賓結(jié)構(gòu)和介賓結(jié)構(gòu)是兩個區(qū)分度較大的結(jié)構(gòu), 并且語料中已有正確的動詞詞性, 但標(biāo)注人員在進行句法標(biāo)注時忽略了詞性, 因此容易將動詞賓語VOB標(biāo)記成介賓POB, 如例13和14。
例13 [隸屬/v_P] 以色列/ns [工黨/n_POB]的/u [羅賓什坦/nr_P]
例14 未/d [經(jīng)/v_P] 醫(yī)師/n [注冊/v_POB] 取得/v執(zhí)業(yè)/n證書/n
例13中的“工黨”和例14中的“注冊”, 實際上是“隸屬”和“經(jīng)”的賓語VOB, 但被標(biāo)為介詞賓語POB。這類現(xiàn)象是標(biāo)注時忽略詞性造成的。
2.4.2 數(shù)詞修飾動詞錯標(biāo)為數(shù)字
數(shù)詞通常跟量詞組成數(shù)量短語, 然后再做句法成分。但在新聞中領(lǐng)導(dǎo)人講話時, 會出現(xiàn)“數(shù)字+動詞”, 這是強調(diào)關(guān)于動詞的幾方面內(nèi)容, 應(yīng)為狀語, 而不是簡單地標(biāo)為數(shù)字, 如例15。
例15 [四/m_NUM] 到位/v —/w思想/n 到位/v 、/w感情/n到位/v 、/w工作/v 到位/v 、/w服務(wù)/v 到位/v
2.4.3 連詞句法角色錯標(biāo)為狀語
根據(jù)PMT句法標(biāo)注體系, 連詞標(biāo)為前附加LAD。上文中提到, 介連兼類時, 標(biāo)注人員容易混淆二者的語法角色。但是, 此類現(xiàn)象并不是因為詞性標(biāo)注錯誤產(chǎn)生的, 反而是因為忽略詞性而導(dǎo)致前附加LAD錯標(biāo)為ADV, 如例16。
例16 從未/d[因/c_ADV] 接受/v 饋贈/v 而/ c向/p 蘇魯希/nr [提供/v_P] 任何/r 方便/n
2.4.4 數(shù)量補語(QUC)錯標(biāo)
數(shù)量結(jié)構(gòu)有4種語法角色標(biāo)記: 直接修飾名詞, 在名詞前面, 做數(shù)量短語(QUN); 充當(dāng)名詞的補充成分, 在名詞后面, 通常定語后置時, 做數(shù)量補語(QUC); 直接充當(dāng)謂語動詞的右側(cè)子節(jié)點標(biāo)記, 為補語(CMP); 充當(dāng)表示變化(包括增加、減少、改變)詞的賓語(VOB)。4種語法角色易混淆, 特別是數(shù)量補語和補語的情況, 如例17。
例17 煤礦/n 企業(yè)/n 工資/n 基金/n 平均/a [保持/v_P] 節(jié)余/v 6/m 個/q [月/n_QUC]
數(shù)量補語和補語補充說明的對象不同, 數(shù)量補語針對的是名詞, 而補語針對謂語動詞。因此, 例17中“6個月”應(yīng)作為“保持”的補語。
2.4.5 狀中結(jié)構(gòu)與述賓結(jié)構(gòu)混淆
狀中結(jié)構(gòu)中的修飾語跟中心語會形成種種的語義關(guān)系, 其中一種表示描寫性的, 表示動作的變化或情狀的變化, 可以有兩種形式表示: “V(A)+V”和“V(A)地+V”。述賓結(jié)構(gòu)前后是支配與被支配、關(guān)涉與被關(guān)涉的關(guān)系。述語主要由及物動詞充當(dāng), 少數(shù)由形容詞充當(dāng), 賓語一般是體詞或體詞性短語, 也可以是謂詞、謂詞性短語。這樣兩種結(jié)構(gòu)都有“V(A)+V”形式, 導(dǎo)致判斷時出現(xiàn)錯誤, 如例18。
例18 對/p 那些/r [堅決/a_P] [貫徹/v_VOB] 黨/n 的/u 路線/n 方針/n 政策/n 的/u 干部/n
2.5 小結(jié)
上述錯誤均為使用本文提出的方法處理已經(jīng)過兩遍人工校對的樹庫時自動檢測出來的, 可歸為兩類。一是句法標(biāo)注所依據(jù)的分詞和詞性標(biāo)注結(jié)果有誤。句法標(biāo)注工作是基于已有的分詞和詞性標(biāo)注結(jié)果進行的, 因此這部分錯誤不屬于句法標(biāo)注過程產(chǎn)生的錯誤。但是, 通過本文的方法將這些錯誤檢測出來, 有助于進一步提升樹庫的質(zhì)量。二是在進行句法標(biāo)注時沒有考慮詞性與語法角色之間的選擇限制關(guān)系, 憑主觀感覺標(biāo)注語法角色。在進行句法標(biāo)注時, 要將詞性和語法角色作為一個整體, 既要看詞性, 又要考慮與之相對應(yīng)的語法角色, 做到詞類和句法成分的一致。
3 相關(guān)工作
在依存樹向短語結(jié)構(gòu)樹轉(zhuǎn)化方面, Xia等[14]對比了3種轉(zhuǎn)化算法, 僅區(qū)分了論元和修飾語, 而沒有使用依存范疇。Xia等[15]假設(shè)一個既定的依存樹與所期望的短語結(jié)構(gòu)樹的平面化版本相同, 進而提出依存樹向短語結(jié)構(gòu)樹轉(zhuǎn)化的算法, 并且設(shè)計了一系列轉(zhuǎn)化規(guī)則。他們在錯誤分析中發(fā)現(xiàn)并列結(jié)構(gòu)和標(biāo)點的錯誤占轉(zhuǎn)化錯誤的32.1%。Bhatt等[16]2011年提出3種依存樹向短語結(jié)構(gòu)樹轉(zhuǎn)化的情景分析, Bhatt等[17]2012年進一步討論了轉(zhuǎn)化中的7種空語類現(xiàn)象。
4 結(jié)語
本文提出一種基于產(chǎn)生式規(guī)則的依存樹庫人工標(biāo)注錯誤檢測方法, 以經(jīng)過兩遍人工校對的依存樹庫為處理對象, 取得100%的正確率。由于樹庫已經(jīng)過兩遍人工校對, 存在的錯誤較少, 因此該方法所檢測出來的錯誤數(shù)量較少, 但這些錯誤涉及分詞、詞性標(biāo)注結(jié)果與句法標(biāo)注之間的不協(xié)調(diào)現(xiàn)象, 均屬于硬傷, 修改這些錯誤對于提高樹庫質(zhì)量具有重要意義。該方法適用于各類型依存樹庫。
[1]Abeillé A. Treebanks: building and using parsed corpora. Dordrecht: Kluwer Academic Publishers, 2003
[2]Ambati B, Agarwal R, Gupta M, et al. Error detection for treebank validation // The 9th International work-shop on Asian Language Resources (ALR). Chiang Mai, 2011: 23–30
[3]Volokh A, Neumann G. Automatic detection and correction of errors in dependency tree-banks // Proceedings of the 49th ACL: Short Papers—Volume 2. Stroudsburg, PA, 2011: 346–350
[4]Agarwal R, Ambati B, Sharma D. A hybrid approach to error detection in a treebank and its impact on manual validation time // Linguistic Issues in Langu-age Technology. Palo Alto, CA, 2012, 7(1): 1–12
[5]Agrawal B, Agarwal R, Husain S, et al. An automatic approach to treebank error detection using a depend-ency parser // Lecture Notes in Computer Science. Berlin: Springer, 2013: 294–303
[6]Rambow O. The simple truth about dependency and phrase structure representations // HLT-NAACL. Los Angeles, 2010: 337–340
[7]朱德熙. 語法講義. 北京: 商務(wù)印刷館, 2003
[8]陳保亞. 20世紀(jì)中國語言學(xué)方法論. 山東: 山東教育出版社, 1999
[9]Qiu Likun, Zhang Yue, Jin Peng, et al. Multi-view Chinese treebanking // Proceedings of COLING. Dublin, 2014: 257–268
[10]俞士汶, 段慧明, 朱學(xué)鋒, 等. 北大語料庫加工規(guī)范: 切分·詞類標(biāo)注·注音. 漢語語言與計算學(xué)報, 2003, 13(2): 121–158
[11]馬貝加. 在漢語歷時分析中如何區(qū)分動詞和介詞. 中國語文, 2003(1): 59-65
[12]石毓智, 李訥. 漢語語法化的歷程. 北京: 北京大學(xué)出版社, 2001
[13]郭銳. 現(xiàn)代漢語詞類研究. 北京: 商務(wù)印刷館, 2002
[14]Xia Fei, Palmer M. Converting dependency structures to phrase structures // Proceedings of HLT.Toulouse, 2001: 1–5
[15]Xia Fei, Rambow O, Bhatt R, et al. Towards a multi-representational treebank // LOT Occasional Series, volume 12. Utrecht: Netherlands Graduate School of Linguistics, 2008: 159–170
[16]Bhatt R, Rambow O, Xia Fei. Linguistic phenomena, analyses, and representations: understanding conver-sion between treebanks // Proceedings of IJCNLP. Chiang Mai, 2011: 1234–1242
[17]Bhatt R, Xia Fei. Challenges in converting between treebanks: a case study from the hutb // Proceedings of META-RESEARCH Workshop on Advanced Tree-banking. Istanbul, 2012: 1–8
Rule-Based Detection and Analysis of Annotation Errors in Dependency Treebank
SHI Linlin, QIU Likun?, KANG Shiyong
School of Chinese Language and Literature, Ludong University, Yantai 264025; ?Corresponding author, E-mail: qiulikun@pku.edu.cn
The authors try to transform dependency tree into phrase structure tree, and detect annotation errors automatically based on manual rules.The method is used in processing Peking University Multi-view Chinese Treebank (PMT). Although PMT has been manually checked twice before processed by this method, 1529 errors are detected among the 50275 sentences and the precision is 100%. The errors mainly belong to three types: word segmentation error, mismatching between POS and syntactic role, and syntactic role error. This method can further improve treebank quality, and be applied to other dependency treebanks.
treebank; part of speech; syntactic role; error detection
10.13209/j.0479-8023.2016.005
TP391
2015-06-19;
2015-08-15; 網(wǎng)絡(luò)出版日期: 2015-09-29
國家自然科學(xué)基金(61572245, 61103089, 61272215)資助