張引兵,宋繼華,彭煒明,趙亞偉,宋天寶
(1. 北京師范大學 信息科學與技術學院,北京100875;2. 淮北師范大學 數(shù)學科學學院,安徽 淮北235000)
樹庫是標注了句法信息的語料庫,是一種深度標注的語言知識資源。一般來說,一個句子雖然表面上呈現(xiàn)詞語的線性排列,但其內(nèi)部的成分組織還是存在一定層次結(jié)構的。這種層次結(jié)構通常用“樹”這種形式工具來表示,大量句子及其對應的樹結(jié)構的集合就構成了樹庫[1]。然而,標注樹庫是一項費時費力的工作,需要完善的標注體系和規(guī)范的標注流程以保證標注的質(zhì)量。另一方面,由于標注規(guī)范的復雜性,需要標注者擁有相關的專業(yè)背景。即使這樣,標注者對句子不同的理解也會產(chǎn)生不同的標注結(jié)果,這為樹庫的建設帶來了一定的困難。
基于上述弊端,目前樹庫的構建主要有兩種方法: 一是構建自動句法分析器;二是對標注好的另一種體系下的高質(zhì)量語料進行轉(zhuǎn)換。對于第一種方法,梁欣、臧德滋等人[2]已做了相關的研究;對于第二種方法,黨政法[3]、李正華[4]、邱立坤[5-6]以及周惠巍等人[7]的研究也具有十分重要的意義。在樹庫的轉(zhuǎn)換研究中,Lin[8]較早地進行了將短語結(jié)構樹庫向依存結(jié)構樹庫轉(zhuǎn)換的嘗試。Fei Xia[9]在Lin的基礎上對其算法進行了進一步的完善,完成了從Penn Treebank到依存樹庫的轉(zhuǎn)換,取得了較好的效果。另外,Hiroyasu Yamada[10]、Joakim Nivre[11]和Tylman Ule[12]等也進行過一些樹庫轉(zhuǎn)換相關的研究??v觀各種不同結(jié)構的樹庫,之所以能夠從一種結(jié)構的樹庫向另一種結(jié)構的樹庫進行轉(zhuǎn)換,是因為這些不同結(jié)構的樹庫標注方法雖然不同,但它們主要描述的都是句法結(jié)構,在更深層次上具有一致性。
目前計算語言學研究者已經(jīng)為世界上許多語言構造了一定規(guī)模的樹庫,漢語方面也有一定數(shù)量的樹庫。因此如何減少樹庫建設中的工作量就成為一個重要的研究課題。利用已有的樹庫向目標樹庫進行轉(zhuǎn)換,不僅可以減少重復勞動,還能提高工作效率。針對漢語樹庫,短語結(jié)構和依存結(jié)構的研究工作已經(jīng)相當成熟,而句式結(jié)構的研究才剛剛起步,其相關研究主要在北京師范大學語言與文字資源研究中心開展。所謂句式結(jié)構,即以句本位語法為理論指導的一種圖解語法結(jié)構。北京師范大學語言與文字資源研究中心在句本位理論的研究基礎之上,開發(fā)了句式圖解標注系統(tǒng),進行句式結(jié)構樹庫的構建。實現(xiàn)了經(jīng)典的語法理論與現(xiàn)代信息技術的結(jié)合,將復雜的句式結(jié)構通過句式圖解的方式直觀展現(xiàn),更好地揭示了蘊含在語言內(nèi)部的層次關系,從而使學習者更容易理清句子各成分間的邏輯關系,把握整個句子的句式結(jié)構。無論在中小學語文教學中,還是在國際漢語教學中都有著廣泛的應用前景。本文旨在實現(xiàn)短語結(jié)構向句式結(jié)構的轉(zhuǎn)換,提高句式結(jié)構樹庫的構建效率,擴充現(xiàn)有的句式結(jié)構樹庫的規(guī)模。
目前,世界上成規(guī)模的樹庫主要有短語結(jié)構樹庫和依存結(jié)構樹庫兩種類型。在中文領域,成規(guī)模的中文樹庫主要有賓州中文樹庫、Sinica中文樹庫、清華中文樹庫、國家語委中文樹庫、北大中文樹庫、哈工大中文依存樹庫及北師大句本位句式結(jié)構樹庫。其中,賓州中文樹庫、清華中文樹庫、國家語委中文樹庫、北大中文樹庫均為短語結(jié)構樹庫[5]。下文給出了本文所采用的實驗語料——清華短語結(jié)構樹庫(如無特殊說明,后文短語結(jié)構樹庫均指此庫)和北師大句式結(jié)構樹庫的基本情況介紹與比較分析。
清華短語結(jié)構樹庫由清華大學周強[13]等人構建。語料規(guī)模約五萬句子、100萬詞,涵蓋文學、學術、新聞、應用文等多個領域。以“美國 T.A.愛迪生發(fā)明了白熾燈?!睘槔?,其存儲形式為“[zj-XX [dj-ZW [np-DZ 美國/nS T.A.愛迪生/nP ] [vp-PO [vp-AD 發(fā)明/v 了/u ] 白熾燈/n ] ] 。/。 ]”,圖 1展示了其短語結(jié)構樹。
圖1 清華短語結(jié)構樹示例
從圖1中可見,除了詞性節(jié)點(若不計詞形節(jié)點,可視為葉節(jié)點)外,非葉節(jié)點均按“功能標記—結(jié)構標記”格式標記短語信息,例如,其中的“dj-ZW”節(jié)點,“dj”是其外部功能標記,表明這是一個單句;“ZW”是內(nèi)部結(jié)構標記,表明其子節(jié)點是主謂關系。由于可以借助“短語”節(jié)點的層級嵌套,它可以刻畫較為細致的層次結(jié)構(數(shù)據(jù)存儲時通過括號的嵌套層級表示)。
在清華短語結(jié)構樹庫的標注體系中,采用了16個短語功能標記和27個句法關系標記,詳細信息可以參考文獻[13]。
1.2.1 句本位語法理論
在所有樹庫項目的開發(fā)過程中,一個特別值得重視的發(fā)展趨勢是樹庫構建與語法理論研究的緊密結(jié)合[7]。句本位語法是黎錦熙先生在《新著國語文法》中建立的語法理論體系。其主張是在以句子為研究對象的基礎上來研究語法,指出: “句本位的文法,退而分析,便是詞類底細目;進而綜合,便成段落篇章之大觀。”[14]句本位語法以句子作為觀察點和立足點,以句子成分和句法格局為主要特征,著力研究各類句式的結(jié)構規(guī)律。這種語法體系是在借鑒西方傳統(tǒng)語法理論和體系,考慮漢語這種分析性語言的特殊性的基礎上建立起來的,注重句法與語義的統(tǒng)一[15]。
關于句本位語法的學術思想和理論價值,黃昌寧先生曾經(jīng)指出: “黎錦熙先生在《新著國語文法》中倡導的句本位語法體系和中心詞分析法具有鮮活的生命力?!盵16]所謂句本位語法,主要體現(xiàn)在兩個方面: 1)詞類上“依句辨品、離句無品”; 2)句法上采用中心詞分析法,并以圖解法作為析句工具。
1.2.2 句式結(jié)構圖解標注平臺
北京師范大學語言與文字資源研究中心的研究
著眼于現(xiàn)代漢語語法教學的實際需求,對黎氏體系中一些術語和圖形展現(xiàn)方式進行了調(diào)整和完善。何靜[17]、彭煒明[18-21]、楊天心[22]等在圖解法的形式化及其樹庫的構建方面進行了深入的系統(tǒng)研究。在堅持黎氏語法句本位析句思想的同時,改進了部分陳舊的術語和分析方式,力求實現(xiàn)與經(jīng)過多年發(fā)展的主流教學語法體系的兼容。按照“基本句式→擴展句式→復雜句式”的思路設計出一套形式化的句式圖解系統(tǒng)方案,并實現(xiàn)了一個基于句本位語法的圖解標注系統(tǒng)(見圖2),為漢語句式結(jié)構圖解樹庫的構建奠定了基礎。
圖2 基于句本位的句式圖解標注平臺
圖解析句法形式化設計方案,包括可視化的圖解樣式與XML格式的數(shù)據(jù)存儲結(jié)構兩個方面,二者是一種編碼與解碼的關系。一個具體例句的圖解及其XML結(jié)構分別如圖3和圖 4所示,標記集如表1和表2所示。
圖3 句式圖解結(jié)構示例
圖4 XML結(jié)構存儲示例
序號結(jié)構成分標記序號詞類標記1整句ju1名詞n2小句xj2時間詞t3主語sbj3方位詞f4謂語prd4數(shù)詞m5賓語obj5量詞q6定語att6代詞r7狀語adv7動詞v8補語cmp8形容詞a9獨立語ind9副詞d10介詞位pp10介詞p11連詞位cc11連詞c12助詞位1uu12助詞u13助詞位2un13嘆詞e14助詞位3uv14擬聲詞o15方位詞位ff15標點w
表2 屬性標記集
從圖、表中可見句式結(jié)構特色主要有如下兩點,更多的詳細信息可參考文獻[21]。
(1) 動態(tài)詞。對詞庫中未收錄,而又不適合進行句子成分切分的一些結(jié)構做詞法標注,即設置動態(tài)詞單位。如圖3中的“修路工”“準備了”。
(2) 虛詞位。對于不單獨充當句子成分的虛詞(主要有介詞、連詞、助詞等),在結(jié)構中設置“虛詞位”結(jié)點,如圖4中“的”標記為“
樹庫的構建都是在特定的語法理論的框架下制定標注規(guī)范的,不同結(jié)構類型的樹庫之間最本質(zhì)的區(qū)別不在于采用了何種標注體系,而在于依照何種語法體系制定的該標注體系。從這個角度上講,短語結(jié)構樹庫最本質(zhì)的特征在于其標注體系的制定是站在“短語”的角度,采用了“短語中心”的語法理論,這種語法理論是通過直接描寫句子“直接成分”(如主謂、定中、述賓、附加等)的方式分析句子的結(jié)構,進而制定標注體系。而句式結(jié)構樹庫是站在“句子”的角度,采用了“句子中心”的語法理論,是通過傳統(tǒng)語法中的主語、謂語、賓語等句子成分分析句子的結(jié)構,進而制定標注體系的,進一步的論述可以參考文獻[23]。
句式結(jié)構樹庫構建過程中所采用的標注體系為“句子成分分析法”,以“句子成分”作為節(jié)點;而短語結(jié)構體系采用“直接成分分析法”,句子成分信息蘊含在“直接成分”節(jié)點的“結(jié)構標記”中。從短語結(jié)構到句式結(jié)構主要依據(jù)“結(jié)構標記”進行轉(zhuǎn)換,而忽略“NP、VP”等“功能標記”。基本思路是,逐層地將句子成分從節(jié)點“結(jié)構標記”信息中提取出來,用于對應轉(zhuǎn)換規(guī)則的確定。而對于一般的葉子節(jié)點則直接進行轉(zhuǎn)換,即將“詞/詞性”直接轉(zhuǎn)換為“”。對于標點符號,可以看作這里的“詞”,而詞性統(tǒng)一使用“w”。
在具體轉(zhuǎn)換規(guī)則的制定過程中,將要轉(zhuǎn)換的對象分成兩類。一類是只涉及兩種體系下所采用的標注體系不同,而不涉及體系本質(zhì)的不同。對于這一類,只需按照兩種體系的對應關系,制定對應的轉(zhuǎn)換規(guī)則,直接按照對應轉(zhuǎn)換規(guī)則進行轉(zhuǎn)換即可。另一類是由于兩種不同的標注體系之間某些部分具有完全不同的本質(zhì)區(qū)別,因而需要進行特殊結(jié)構的單獨處理,進行必要的人工干預。
在短語結(jié)構的標注體系中,大部分節(jié)點是二分結(jié)構,也有少量是多分結(jié)構,對于不同的情況應區(qū)別對待。此處是否“二分”的判斷,僅從實義節(jié)點考慮,暫不計標點符號、連詞、助詞等形式節(jié)點的影響。
2.1.1 二分結(jié)構
短語結(jié)構標注體系中的二分結(jié)構主要有缺省(XX)、主謂(ZW)、述賓(PO)、述補(SB)、定中(DZ)、狀中(ZZ)、連謂(LW)、介賓(JB)、方位(FW)等九種結(jié)構形式,各節(jié)點的左右子樹分別以【LP】、【RP】表示。其轉(zhuǎn)換舉例如表 3所示。
表3 二分結(jié)構的轉(zhuǎn)換規(guī)則
續(xù)表
2.1.2 多分結(jié)構
短語結(jié)構標注體系中的多分結(jié)構主要有聯(lián)合(LH)、兼語(JY)、框式(KS)等三種結(jié)構形式。轉(zhuǎn)換舉例如表 4所示。
表4 非二分結(jié)構的轉(zhuǎn)換規(guī)則
2.1.3 詞法結(jié)構轉(zhuǎn)換規(guī)則
正如朱德熙先生所說: “句法研究的是句子的內(nèi)部構造,以詞為基本單位;詞法研究的是詞的內(nèi)部構造,以語素為基本單位??梢娋浞ê驮~法是兩個平面的東西?!盵24]句式結(jié)構樹庫中的動態(tài)詞結(jié)構來源有二: 一是漢語中的構形,二是句法構詞。
根據(jù)葛本儀先生的研究[25],漢語中構形分為附加式和重疊式兩類。附加式構形主要是: 名詞加詞尾“們”表示多數(shù),動詞加詞尾“著”“了”“過”表示進行態(tài)、完成態(tài)和經(jīng)歷態(tài)。重疊式構形主要有: “VV”“V了V”“V一V”“V不V”等,分別對應短語結(jié)構中的附加結(jié)構(AD)和重疊結(jié)構(CD),轉(zhuǎn)換規(guī)則如表5所示。
句式結(jié)構中定義的句法構詞種類很多,常見的如“數(shù)詞-量詞”構成的數(shù)量詞結(jié)構、“單音名詞+方位詞”構成的處所名詞、動結(jié)式動詞、動趨式動詞,以及圖 3中的“修路工”等,并且句法構詞與短語結(jié)構之間的對應關系相對復雜,轉(zhuǎn)換時具有一定的歧義性,詳見2.2節(jié)。
表5 詞法結(jié)構轉(zhuǎn)換規(guī)則
續(xù)表
在由短語結(jié)構向句式結(jié)構進行轉(zhuǎn)換的過程中,除了按照如上所述的對應轉(zhuǎn)換規(guī)則進行轉(zhuǎn)換之外,由于兩種體系結(jié)構之間的差異及漢語語法及句式的復雜性、靈活性,在實際的轉(zhuǎn)換過程中,會出現(xiàn)轉(zhuǎn)換的歧義現(xiàn)象以及某些特定情形的不可預期性。
在短語結(jié)構體系中關系標記區(qū)分了各種復句類型,而句本位語法體系著重于對小句的分析,所以對于一般的復句結(jié)構,簡單地轉(zhuǎn)換為若干小句即可。例如,“財政是一個歷史范疇,它隨著國家的產(chǎn)生而產(chǎn)生?!逼涠陶Z結(jié)構字符串為: “[zj-XX [fj-LS [dj-ZW 財政/n [vp-PO 是/vC [np-DZ [mp-DZ 一/m 個/qN ] [np-DZ 歷史/n 范疇/n ] ] ] ],/,[dj-ZW 它/rN [vp-ZZ [pp-JB 隨著/p [np-DZ 國家/n 的/u 產(chǎn)生/vN ] ] [vp-XX 而/c 產(chǎn)生/v ] ] ] ] 。/。 ]”而在句式結(jié)構語法體系中是將其分為“財政是一個歷史范疇,”“它隨著國家的產(chǎn)生而產(chǎn)生?!眱蓚€單句來進行處理的。故從這個角度而言,從短語結(jié)構向句式結(jié)構的轉(zhuǎn)換無法做到轉(zhuǎn)換的完全對應。
2.2.1 緊縮復句
需要注意的是,短語結(jié)構體系中的“緊縮復句”在句式結(jié)構體系中分析為“聯(lián)合謂語”句。緊縮復句一般也為二分結(jié)構,其轉(zhuǎn)換規(guī)則為:
[fj-JS 【LP】【RP】] → 【LP】
2.2.2 含能愿動詞的狀中結(jié)構
在短語結(jié)構中,“能愿動詞+VP”的組合歸為狀中結(jié)構,例如,[vp-ZZ 能夠/vM 演化/v]。而句式結(jié)構語法中能愿動詞稱為“助動詞”,其與VP的組合按“合成謂語”分析。因此,修正ZZ結(jié)構的轉(zhuǎn)換規(guī)則為:
當【LP】為: “助動詞/vM”時,[vp-ZZ 【LP】【RP】] →
2.2.3 連謂結(jié)構
一般而言,短語結(jié)構中的“連謂結(jié)構”(LW)主要對應句式結(jié)構中的“連動句”結(jié)構。但句式結(jié)構的“連動句”定義更為嚴格,要求前后VP之間:
① 無關聯(lián)詞語;
② 為序列關系。
因此,表3中的[vp-LW 【LP】【RP】]的轉(zhuǎn)換規(guī)則需考慮以上兩種例外情形,例如:
① 在形式上多順應中國戲曲及文明戲以適應觀眾的欣賞趣味。
② 在雷達發(fā)明之前,利用脈沖無線電裝置測量電離層高度的工作已進行多年。
按照句本位語法,①應轉(zhuǎn)為聯(lián)合謂語句,可以通過判斷【RP】中連詞或關聯(lián)副詞的存在來識別;②應轉(zhuǎn)為狀中結(jié)構,其轉(zhuǎn)換規(guī)則需要判斷兩個VP之間的語義關系,而并無具體的形式標記可資利用。這可視為轉(zhuǎn)換中需要消解的結(jié)構歧義之一。
2.2.4 動態(tài)詞情形
分析短語結(jié)構樹庫和句式結(jié)構樹庫的語料標注情況,可以看出在詞語層面分歧較多,主要表現(xiàn)在對“動態(tài)詞”切分粒度的不同。句式結(jié)構樹庫中“動態(tài)詞”是指一般詞庫中沒有收錄,而在句法分析時又不適宜做進一步句子成分切分的造句單位。動態(tài)詞范圍非常廣泛,除專有名詞、慣用語外還包括大量的臨時性句法構詞,如全校、桌椅、張老師、家里、看清、舉起、每天、五六年等[26]。
句式結(jié)構樹庫中定義的句法構詞種類很多,常見的如“數(shù)詞+量詞”構成的數(shù)量詞結(jié)構、“單音名詞+方位詞”構成的處所名詞、動結(jié)式動詞、動趨式動詞等。為此,文獻[19]專門構建了動態(tài)詞結(jié)構模式知識庫,以輔助句式結(jié)構析句時的動態(tài)詞識別。部分常用的動態(tài)詞結(jié)構模式如圖 5所示。
圖5 動態(tài)詞結(jié)構模式知識庫示例
動態(tài)詞在短語結(jié)構樹庫中又分為兩種情形:
① 是直接作為單詞標記為葉子節(jié)點;
② 是按短語結(jié)構分析。
在句式結(jié)構中,動態(tài)詞則直接進行詞法分析(見圖 3和圖 4)。在轉(zhuǎn)換過程中,①的情形因為沒有對應的內(nèi)部結(jié)構信息,故直接轉(zhuǎn)換,留待后續(xù)人工分析;②則需要根據(jù)短語結(jié)構類型及其內(nèi)部成分的音節(jié)數(shù)、語素是否自由及語義整合程度等約束條件進行綜合判斷。具體可參考文獻[27]中所構建的動態(tài)詞結(jié)構模式知識庫的應用。
從短語結(jié)構樹庫向句式結(jié)構樹庫的轉(zhuǎn)換包括兩個方面: 一是在兩種不同的語法結(jié)構體系下詞性標記集的轉(zhuǎn)換;二是兩種不同句法結(jié)構體系下對應結(jié)構層次的轉(zhuǎn)換。
3.1.1 數(shù)據(jù)預處理
句式結(jié)構體系中詞性標記粒度比短語結(jié)構更粗,只設置了15個大詞類,轉(zhuǎn)換時一般取短語結(jié)構體系中詞性標記的第一個字母即可。如短語結(jié)構中的詞性vN、rN、qC、nS、dN、aD等,在句式結(jié)構體系下對應的詞性分別為v、r、q、n、d、a等。特殊情況做相應映射即可。短語結(jié)構樹庫中的標點符號是用其自身標記的,句式結(jié)構樹庫中標點符號統(tǒng)一轉(zhuǎn)為“w”。采用這種轉(zhuǎn)換映射處理方式,使得詞性信息粒度變粗了,但并不會丟失詞性的大類信息,而句本位語法體系對詞類的劃分不要求太細,故可以滿足后繼應用的需要。
3.1.2 算法
結(jié)合清華短語結(jié)構樹庫存儲結(jié)構信息,算法1給出了短語結(jié)構向句式結(jié)構的轉(zhuǎn)換方法的算法描述。
算法1: 短語結(jié)構向句式結(jié)構的轉(zhuǎn)換方法輸入: 短語結(jié)構字符串輸出: 句式結(jié)構的XML數(shù)據(jù)
算法流程:
(1) 針對輸入的短語結(jié)構形式的字符串,進行數(shù)據(jù)的預處理操作。將短語結(jié)構字符串中的詞性標記符號和標點標記符號轉(zhuǎn)換為句式結(jié)構對應的詞性標記符號和標點標記符號。
(2) 小句獲取。如果是復句,則先將其切分成小句;如果是單句,則可以直接對所輸入的數(shù)據(jù)進行解析,構造短語結(jié)構樹。
(3) 從短語結(jié)構樹的根節(jié)點出發(fā),逐層掃描短語結(jié)構樹。針對掃描到的當前節(jié)點,判斷其是否為葉子節(jié)點(不計詞語節(jié)點,視詞性節(jié)點為葉子節(jié)點)。
① 如果當前節(jié)點不是葉子節(jié)點,首先判斷其是否滿足句法處理的要求,若滿足,則將節(jié)點的結(jié)構標記與句法結(jié)構轉(zhuǎn)換規(guī)則中的結(jié)構標記進行匹配并進行對應轉(zhuǎn)換;若不滿足,則結(jié)合動態(tài)詞模式庫按照詞法轉(zhuǎn)換規(guī)則進行對應轉(zhuǎn)換。
② 如果當前節(jié)點是葉子節(jié)點,則繼續(xù)判別其父節(jié)點的功能標記是否為VP。若其父節(jié)點的功能標記為VP,則直接將該葉節(jié)點轉(zhuǎn)換為謂語成分,其轉(zhuǎn)換得到的句式結(jié)構的形式為: “
(4) 生成句式結(jié)構的XML文件。
算法1對應的流程如圖6所示。
圖6 轉(zhuǎn)換算法流程圖
以“美國 T.A.愛迪生發(fā)明了白熾燈?!币痪錇槔?,其短語結(jié)構字符串為 “[zj-XX [dj-ZW [np-DZ 美國/nS T.A.愛迪生/nP ] [vp-PO [vp-AD 發(fā)明/v 了/u ] 白熾燈/n ] ] 。/。 ]”。由于該句是單句,所以無需再切分。接著由預處理過的短語結(jié)構字符串構造類似于圖 1的短語結(jié)構樹,結(jié)果如圖7所示。經(jīng)過算法1各步執(zhí)行之后,最后生成句式結(jié)構的XML文件,如圖 8所示。
為了更加形象地對語料轉(zhuǎn)換前后的結(jié)構進行對比,搭建了一套可擴展的可視化平臺,用于不同句法結(jié)構語料的可視化查看。圖 9為兩種結(jié)構下的可視化展示界面。在圖 9所示的系統(tǒng)中,不僅能夠可視化查看不同的句法結(jié)構,而且可以對轉(zhuǎn)換后的語料是否正確進行校對,后期將陸續(xù)完善相關功能,將短語結(jié)構向句式結(jié)構、依存結(jié)構向句式結(jié)構的轉(zhuǎn)換集成其中。
在測試過程中,經(jīng)過對轉(zhuǎn)換結(jié)果的初步分析,我們發(fā)現(xiàn)句子的長度對轉(zhuǎn)換正確率有著較大的影響。在對文獻[28]中關于“清華漢語樹庫”語料句子長度分析的基礎上,綜合考慮了語料庫中全部句子的平均句長、簡單句的平均句長及復雜句的平均句長等因素,我們選取了句子長度為20個漢字和句子長度為30個漢字作為斷點,對不同區(qū)間的轉(zhuǎn)換正確率進行了統(tǒng)計。對清華短語結(jié)構樹庫中的1 000條文本進行了轉(zhuǎn)換正確率的測試,通過對轉(zhuǎn)換結(jié)果的校對統(tǒng)計,發(fā)現(xiàn)其中轉(zhuǎn)換正確的句子有929句,總體正確率為92.9%。表 6給出了不同區(qū)間的句子長度對應的轉(zhuǎn)換統(tǒng)計情況。
圖7 數(shù)據(jù)預處理后生成的短語結(jié)構樹
圖8 轉(zhuǎn)換后的XML數(shù)據(jù)
圖9 多視圖可視化界面
表6 轉(zhuǎn)換正確率
由表6可以看出,當句子長度在30個漢字以下時,轉(zhuǎn)換的正確率都在90%以上。而當句子長度在30個漢字以上時,轉(zhuǎn)換的正確率則明顯地降低。在1 000句被測試的句子中,30個漢字以下的句子有829句,所以整體的轉(zhuǎn)換正確率還是比較理想的。實驗結(jié)果表明: ①所設計的從短語結(jié)構向句式結(jié)構轉(zhuǎn)換的算法是切實可行的; ②轉(zhuǎn)換結(jié)果的總體正確率為92.9%,對于不是太長的句子而言,轉(zhuǎn)換結(jié)果的正確率都在90%以上; ③最終轉(zhuǎn)換結(jié)果的正確率與句子的長度密切相關。如果有些句子比較復雜,大多句子的長度達到了30字以上,其正確率會有明顯的下降。
通過對轉(zhuǎn)換不準確的語料進行分析,可以看出轉(zhuǎn)換不準確的原因主要有兩個方面,一是原始標注語料不一致。例如,在短語結(jié)構語料中“專家學者”有的標注為“[ np-DZ 專家/n 學者/n ]”,有的標注為“[np-LH 專家/n 學者/n ]”,“小白菜”有的標注為“小白菜/n”,有的標注為“[ np-DZ 小/a 白菜/n ]” 等。二是動態(tài)詞模式庫中所收集的結(jié)構模式有限。由于動態(tài)詞的結(jié)構模式繁多,動態(tài)詞知識庫中動態(tài)詞的結(jié)構模式不可能窮盡收集所有的結(jié)構模式。因此,在由短語結(jié)構向句式結(jié)構進行轉(zhuǎn)換的過程中,該部分內(nèi)容僅僅靠程序自動地進行轉(zhuǎn)換則無法達到完全的一致,這更多地依賴于動態(tài)詞知識庫應用過程中的不斷完善。
本文從短語結(jié)構和句式結(jié)構的區(qū)別與聯(lián)系入手,設計了一種將短語結(jié)構自動轉(zhuǎn)換為句式結(jié)構的算法,實現(xiàn)了從短語結(jié)構向句式結(jié)構的自動轉(zhuǎn)換。為句式樹庫的構建提供了一種由已有的短語結(jié)構樹庫通過自動轉(zhuǎn)換的方式快速構建樹庫的方法。并以清華短語結(jié)構樹庫(TCT)為測試語料,實現(xiàn)了將大規(guī)模短語結(jié)構語料向句式結(jié)構語料的轉(zhuǎn)換。
另外,本文在設計了從短語結(jié)構向句式結(jié)構自動轉(zhuǎn)換算法的基礎之上,還搭建了一套可擴展的可視化系統(tǒng),用于不同句法結(jié)構語料的可視化查看。通過句法結(jié)構體系分析的可視化系統(tǒng),我們可以方便地比較從短語結(jié)構向句式結(jié)構轉(zhuǎn)換的正確情況,研究兩種體系下的語料規(guī)律。下一步的工作主要是從轉(zhuǎn)換不準確的語料入手,特別是對于較長的句子,找出影響轉(zhuǎn)換正確性的因素,進一步提高轉(zhuǎn)換算法的精度,同時向系統(tǒng)中添加依存結(jié)構向句式結(jié)構的轉(zhuǎn)換模塊,實現(xiàn)一套多視圖的漢語樹庫自動轉(zhuǎn)換系統(tǒng)。
[1] 王躍龍,姬東鴻. 漢語樹庫綜述[J]. 當代語言學,2009,(01): 47-55,94.
[2] 梁欣,臧德滋.自然語言句法分析器自動構造系統(tǒng)[C]. 全國計算機語言系聯(lián)合學術會議,1993.
[3] 黨政法,周強. 短語樹到依存樹的自動轉(zhuǎn)換研究[J]. 中文信息學報,2005,19(03): 21-27.
[4] 李正華,車萬翔,劉挺,等.短語結(jié)構樹庫向依存結(jié)構樹庫轉(zhuǎn)化研究[J].中文信息學報, 2008, 22(6): 14-19.
[5] 邱立坤. 多視圖漢語樹庫構建的理論研究與實踐[R]. 北京: 北京大學博士后研究工作報告,2012.
[6] 邱立坤,金澎,王厚峰. 基于依存語法構建多視圖漢語樹庫[J]. 中文信息學報, 2015,29: 9-15.
[7] 周惠巍,黃德根. 短語結(jié)構到依存結(jié)構樹庫轉(zhuǎn)換研究[J]. 大連理工大學學報,2010(04): 609-613.
[8] Lin D. A dependency-based method for evaluating broad-coverage parsers[C]//Proceedings of IJCAI. Montreal, Quebec, Canada, 1995: 97-114.
[9] Fei Xia, Martha Palmer. Converting dependency structures to phrase structures[C]//Proceedings of the Human Language Technology Conference(HLT). San Diego, CA, 2001: 1-5.
[10] Hiroyasu Yamada, Yuji Matsumoto. Statistical dependency analysis with support vector machines[C]//Proceedings of 8th International Workshop on Parsing Technologies, 2003: 195-206.
[11] Joakim Nivre, Mario Scholz. Deterministic dependency parsing of English text [C]//Proceedings of COLING,2004.
[12] Tylman Ule, Sandra Kǜbler: From phrase structure to dependencies, and Back[C]//Proceedings of the International Conference on Linguistic Evidence, Tǜbingen, Germany, January , 2004.
[13] 周強. 漢語句法樹庫標注體系[J]. 中文信息學報,2004,18(04): 1-8.
[14] 黎錦熙. 新著國語文法[M]. 北京: 商務印書館, 1992.
[15] 廖序東. 論句本位語法[J]. 北京師范大學學報,1990,(02): 7-14.
[16] 黃昌寧,李玉梅.從樹庫的實踐看句本位和中心詞分析法的生命力[J].北京師范大學學報(社會科學版),2010,(5): 53-58.
[17] Jing He, Weiming Peng, Jihua Song, et al. Annotation schema for contemporary Chinese based on JinXi Li’s grammar system[C]//Proceedings of the 14th Chinese Lexical Semantics Workshop(CLSW2013), LNAI,Volume 8229, Springer,2013: 668-681.
[18] 彭煒明,宋繼華,王寧. 基于句式結(jié)構的漢語圖解析句法設計[J]. 計算機工程與應用,2014,06: 11-18.
[19] 彭煒明,宋繼華,俞士汶. 中文信息處理的詞法問題——以句本位語法圖解樹庫構建為背景[J]. 中文信息學報,2014,28(02): 1-7.
[20] 彭煒明. 析句圖解法及其信息化[J]. 暨南學報(哲學社會科學版), 2014, 36(7): 106-112.
[21] 彭煒明. 句本位語法樹庫構建及其在對外漢語教學中的應用[R]. 北京: 北京大學博士后研究工作報告,2014.
[22] 楊天心,彭煒明,宋繼華. 基于句式結(jié)構的高效語法圖解標注系統(tǒng)[J]. 中文信息學報, 2014,28(04): 43-49,67.
[23] 何靜,彭煒明,宋繼華. 漢語句式結(jié)構的數(shù)字化——句本位語法與“圖解法”改造[J]. 北京師范大學學報(自然科學版),2016,(04): 413-419.
[24] 朱德熙. 語法講義[M].北京: 商務印書館,1999.
[25] 葛本儀. 漢語詞匯研究[M]. 北京: 外語教學與研究出版社, 2006.
[26] 郭冬冬.句本位樹庫構建中的動態(tài)詞及其結(jié)構模式分析 [D].北京: 北京師范大學碩士學位論文,2016.
[27] Dongdong Guo, Shuqin Zhu, etc. Construction of the dynamic word structural mode knowledge base for the international Chinese teaching[C]//Proceedings of the 16th Chinese Lexical Semantics Workshop(CLSW2016), 2016: 251-260.
[28] 王東波,謝靖. 基于清華漢語樹庫的有標記聯(lián)合結(jié)構統(tǒng)計分析[J]. 現(xiàn)代圖書情報技術,2010(04): 12-17.