彭煒明,宋繼華,王寧
1.計算語言學教育部重點實驗室(北京大學),北京大學計算語言學研究所,北京 100871
2.北京師范大學信息科學與技術學院,北京 100875
3.北京師范大學文學院,北京 100875
基于句式結構的漢語圖解析句法設計
彭煒明1,宋繼華2,王寧3
1.計算語言學教育部重點實驗室(北京大學),北京大學計算語言學研究所,北京 100871
2.北京師范大學信息科學與技術學院,北京 100875
3.北京師范大學文學院,北京 100875
梳理了漢語語法學界對“句式”這一術語的認識分歧;從中文信息處理角度分析了當前本領域句法分析和樹庫構建缺乏句式結構的現(xiàn)狀;對黎氏語法形式化研究作了一個最新的綜述,指出其在句式結構方面的優(yōu)勢和仍存在的不足;以黎氏語法圖解法為原型改造設計出一種新型的漢語圖解析句法,具體包括圖形化的句法結構表示和結構化的XML存儲格式。
句式結構;圖解析句;析句方法;句本位語法
眾所周知,漢語語法的研究成果通常有兩大領域應用可作為檢驗理論的具體實踐,一是對外漢語教學,一是中文信息處理。前者面向沒有漢語語感的外國人,而后者面向完全沒有人類語言經(jīng)驗的計算機。它們本質(zhì)上都是在解決漢語的語言習得問題,都需要關于漢語語法系統(tǒng)的理論指導。從邏輯上講,二者應該能夠?qū)崿F(xiàn)多方面的相互參證、相互促進。但多年來這方面的學科交叉研究卻并不多見。特別是隨著對外漢語語法教學從“以結構為綱”到“以功能和交際為綱”的思路轉(zhuǎn)變,在這兩個學科間尋找到有效結合點變得越發(fā)困難。注意到,若要實現(xiàn)與交際功能的結合,句型句式在語法教學中占據(jù)不可替代的重要地位。在特定情境中進行語法教學,不宜以詞類系統(tǒng)或短語結構知識體系為綱展開語法點教學,而必須結合如連動句、兼語句、雙賓語句、“連……都……”、“是……的”等常用句型句式進行。
然而,目前中文信息處理領域主流的句法樹庫和自動句法分析研究都是建立在結構主義語法理論的基礎上,以短語為著眼點,強調(diào)結構層次,句法關系以二元結構關系為主[1]。因此,句式結構在中文信息處理中一直處于一種模糊的邊沿地位,造成了語法教學、研究與中文信息處理應用之間的信息鴻溝。
2.1 術語說明
“句式”這一術語廣泛運用于漢語語法學界,與此相關還有“句型”、“句類”等一系列術語。不同的學者對這些術語有著不同的理解和界定。最具代表性的主要為以下幾家:
(1)呂叔湘把“句式”看作句子的結構類型,“句式”和“句型”不作區(qū)分,都指“句子的結構格局”[2]。但句子的結構分類可以從句法結構上分,也可以從語義結構上分。以主、謂、賓、補等句法成分作為結構要素的可以參照呂叔湘《現(xiàn)代漢語八百詞·現(xiàn)代漢語語法要點》中的動詞謂語句式表[3],以施事、受事、結果、工具、處所等語義標記作為結構要素的則以李臨定《現(xiàn)代漢語句型》為代表[4]。
(2)張斌認為“句式”是句子的特征類別,主張區(qū)分“句型”、“句類”和“句式”。他主編的《現(xiàn)代漢語描寫語法》中是這樣界定的:“句型指的是句子的結構類型,如單句與復句、主謂句與非主謂句,等等?!薄熬漕愔傅氖蔷渥拥恼Z氣類別,如陳述、疑問、祈使、感嘆?!薄熬涫绞蔷渥拥奶卣黝悇e,如‘把’字句、‘被’字句、存現(xiàn)句,等等[5]?!?/p>
(3)范曉的“句式”最具綜合性,他以“句型”、“句模”和“句類”分別指稱句法、語義和語用三個平面內(nèi)的句子類別,而把“句式”定義為“由一定語法形式顯示的表示一定語法意義的句子的結構格式”,是一種包含句法結構、語義結構和語用功能的三維綜合體[6-10]。
關于句子分類的術語細化當然有助于人們對此問題的深入認識,但不管是特征類別還是語義、語用類別,都需要采用一定的句法結構格局作為形式載體。因此,本文權且接受⑴中“句式”的術語定位,即“句子的結構格式或結構類型”,而將“把”字句等具有顯著特征的句子類別作為若干特殊句式(特定的下位句式)。這么做既有避免多立名目的考慮,同時也是基于中文信息處理的現(xiàn)實需求:語義理解必需首先以形式為綱實現(xiàn)句子的結構化,并且結構設計講究系統(tǒng)性,要求能夠分析和處理所有的合法句子。
2.2 句式的結構和層次
句式研究與漢語語法學的發(fā)展有著密切的聯(lián)系,從最早的《馬氏文通》到黎錦熙《新著國語文法》,再到后來的呂叔湘《中國文法概略》、王力《中國現(xiàn)代語法》等等,早期成體系的語法著作本質(zhì)上都是在探討漢語的句子結構格局??梢哉f,研究時間長,積累成果豐富,但卻鮮見句式研究成果系統(tǒng)地應用到中文信息處理中,用于指導漢語的句法分析。
究其原因,中文信息處理中句子結構的形式化處理在很大程度上模糊了漢語的句式結構,以至于很難從句法樹結構中獲取句式結構。句法樹結構與句式結構最直觀的差別是,前者以一種層級的樹狀結構為表現(xiàn)形式,而后者通常采用詞類、成分或特征詞等的線性序列。當然,這并不是說描述句式的序列配置中各部之間沒有層次關系,事實上,句式本身就蘊含了一種整體格局下的固定層次結構。
以“S+已經(jīng)+V+了+O”句式(其中S表示主語,O表示賓語,V表示動詞)為例,在現(xiàn)代漢語語法體系下自然能得出其結構層次是:“(S((已經(jīng)(V了))O))”。這種以動詞為中心,先后組合的層級順序由句式整體格局決定?!靶×忠呀?jīng)離開了書店?!币痪?,只要說明“小林”、“離開”、“書店”充當句式中的S、V和O,那么就無需再對其進行具體的層次結構分析,因為它已經(jīng)由語法體系整個地賦予了所屬句式。如果在句法結構的形式化設計中將這種屬于句式格局的固定層次結構保存下來,就可形成若干模式化的“句式結構”。
但是反觀目前主流短語結構樹的設計,卻沒有留意句式結構的信息維護。如圖1所示,(a)為上述例句的短語結構樹,直接依存的若干中心詞由于追求二分結構而分布在相隔較遠的樹層級中;(b)樹句子作了一定附加擴展,新成分的加入立即打破原有各成分之間的相對層次關系。
圖1 短語結構樹示例(“!”表示中心詞所在)
上例中只是在原有句式上增加了狀語、定語,若再考慮語序變換、成分復雜化等操作,則句子結構更加不固定,從樹結構中獲取特定句式結構信息將變得異常困難。根本原因在于樹結構設計時放棄了“句子成分”的結點形式,代之以“直接成分+句法關系”的標注模式,進而過度地追求二分層次分析。這樣,句子結構擴展和復雜化產(chǎn)生的層次與句式的固定層次雜糅在一起,從而模糊了句式結構的固有層次性。
相比短語結構樹,后來興起的依存結構樹采用中心詞直接依存的結構形式,一定程度上避免了短語層次切分瑣碎和中心詞依存關系不突出的弊端,因而在從句法結構走向句義分析方面顯示出更強的適應性。然而,依存結構只要求滿足單核心、弱連通、無環(huán)、無交叉弧等幾條依存公理的純形式約束,也沒有建立明確的句式結構信息。依存弧上所標注的各種依存關系仍然是短語結構層面的二元句法、語義關系,同樣缺乏關于句式結構的宏觀視角。
朱德熙在討論“NP+Vf著+N”句式(例如“臺上坐著主席團”)時,指出該句式中的“施事、受事”等是“低層次”語義,“表示存在方式”是“高層次”語義[11],而后者只有到句式結構層面才能顯現(xiàn)。從中文信息處理走向深層句義理解的角度出發(fā),有必要探索基于句式結構的句法表現(xiàn)形式和存儲格式。這種新型的結構格式應該既能適應句子結構擴展變換的復雜層次結構,同時又能維護特定句式的固定層次結構。
早期漢語語法體系中有一種以直觀展現(xiàn)“句子結構格局”著稱的圖解析句法,即黎錦熙《新著國語文法》中自創(chuàng)的“圖解法”。黎氏語法中圖解是面向教學而設計的一種手繪圖形,當時還未實現(xiàn)計算機的形式化。彭煒明[12]、何靜[13]等已經(jīng)開始嘗試基于黎氏圖解法進行漢語句法結構的形式化研究。本文下面將對這方面的研究作一綜述,并針對其中不足提出一個新的圖解析句法設計方案。
2.3 黎氏語法形式化研究綜述
黎氏語法體系主張“以句法控制詞類”的“句本位”語法分析思想。句法上采用“句子成分分析法”(或稱“中心詞分析法”)析句,通過主語、述語、賓語、補足語、形附、副附六大句子成分來建構漢語的句子結構格局。詞法上“依句辨品”,承認詞類與句子成分之間存在一定的對應關系。具體操作采用圖解法作為析句工具,其大致法式為:通過一條長橫線來上下分隔句子主干和枝葉,主干部分用雙豎線分隔主語和述語,述語動詞若帶賓語則以單豎線引出,帶補足語則以斜線引出。長橫線下方畫附加成分,用左斜線或左折線表示形附,右斜線或右折線表示副附,斜線、折線用以區(qū)分充當相同成分的詞類。單句圖解公式和示例如圖2所示。
何靜、彭煒明等[13]在黎氏圖解法基礎上設計出與圖解樣式相對應的XML結構存儲規(guī)范(簡稱“圖解結構”,XML樹層級與圖解樣式之間維持一種編碼、解碼的關系),通過實現(xiàn)一個可視化的圖解標注工具標注構建了規(guī)模為11萬句(21萬字)的現(xiàn)代漢語句法圖解樹庫和4 286句(3.4萬字)的古代漢語句法圖解樹庫。以這些標注語料為基礎開展?jié)h語核心句式的歸納和古今漢語的句式結構系統(tǒng)比較研究,取得了初步的研究成果。
圖2 黎氏語法圖解公式和圖解示例
根據(jù)前期研究,采用圖解結構存儲句法信息有一個明顯的優(yōu)點:對特定句式的句子,其句子成分和中心詞“具有相對穩(wěn)定的結構層次和位置順序”,符合本文所述模式化“句式結構”的特點。因此,可以方便地利用XPath等XML結構查詢工具從圖解樹庫中提取特定句式的句子,非常有利于開展基于句式結構的句法、語義統(tǒng)計分析和相關理論研究。
完全采用黎氏圖解法進行句法分析也存在一些局限[14]:
(1)首先是黎氏語法的六大成分術語陳舊,與目前漢語語法學界和語法教學界通行的術語體系存在較大差異,需要進行相關術語的清理。
(2)黎氏語法中對所謂“變式句”的成分分析太過從語義出發(fā)而不顧形式約束,因而有的分析與人們語感相差較大。比如將“董存瑞,我一輩子都忘不了他。”一句分析為“董存瑞”作“賓語”,“賓踞句首”,“他”則為賓位回指代詞;而現(xiàn)在一般都分析為“董存瑞”作全句主語的主謂謂語句。因此,對句式的語序變換分析也需要相應的規(guī)范。
(3)黎氏圖解法最大的問題還在于,僅依靠六大成分建構的句法格局并不足于區(qū)分所有的句式。比如雙賓語句,由于黎氏圖解公式中主干上只能有一個賓位,因而間接賓語通常分析為副位(補語);又如,連動句、緊縮句等復雜謂語句式,黎氏語法都用副附(前狀后補)來分析。這些都是早期語法體系欠周密的一些地方,需要重新規(guī)范和設計。
本文的圖解設計以黎氏圖解法為原型,主要包括兩方面內(nèi)容:一是圖解的圖形樣式(以下簡稱“圖解樣式”);二是相應的XML結構規(guī)范(以下簡稱“圖解結構”)。參照前人研究成果,需遵循以下設計原則:
(1)編碼解碼原則:圖解樣式與圖解結構之間可以進行信息無損的雙向轉(zhuǎn)換。即圖解樣式可以編碼保存為一定層次結構的XML樹;反之,也可將XML樹重新解碼成原始圖解樣式。另外,根據(jù)圖解樣式或圖解結構均可恢復句子原文信息(詞語序列)。
(2)固定句式結構原則:特定句式中成分、詞類或特征詞序列具有相對固定的結構層次和位置順序。句式擴展變換不影響這種結構的穩(wěn)定性,保證程序能從中獲取句式結構信息。
為了以下行文方便,首先列出圖解結構中所使用的XML元素(Element)和屬性(Attribute)標記集,分別如表1~表3所示。
表1 詞類標記集
表2 句法標記集
為了能與最廣泛的教學語法體系兼容,本文主要參考20世紀50年代提出的“暫擬漢語教學語法系統(tǒng)”,共設8類句子成分:以主語、謂語、賓語作為句式的主干成分,以定語、狀語、補語為句式的附加成分,以呼語和插入語為不影響句式的獨立成分。下面采用“主干句式→擴展變換句式”的演繹法思路逐次說明漢語句式系統(tǒng)的圖解設計。
表3 屬性標記集
3.1 主干句式
主干句式是指不考慮附加成分、語序變換和成分復雜化等因素的常規(guī)句子結構格式,即只考慮主語、謂語核心(簡稱謂核:因為“謂語”在結構設計中通常用來表示包括狀語、補語和賓語在內(nèi)的整個謂語部分,為了避免歧義,本文對主干結構上不包含附加成分的“謂語”均以“謂核”來指稱。)和賓語三種成分。根據(jù)“依句辨品”的句本位思想,主、賓語的圖解位置為“指稱位”,通常由名詞或代詞充當,謂核為“陳述位”,通常由動詞或形容詞充當??紤]到各自使用頻率,本設計中默認指稱位詞性為名詞,陳述位詞性為動詞。如果代詞充當指稱位,或者形容詞充當陳述位,則在相應圖解位置上方挑勾作為標記。
一般的句子結構通常都會有主語和謂語兩部分,這樣的句子為“主謂句”,與之相對的便是“非主謂句”。主謂句又可根據(jù)謂核的個數(shù)分為“單核謂語句”和“多核謂語句”。前者包括六類主干句式,本文大致沿用黎氏語法的主干圖解樣式,即將各主干成分依次配置于長橫線上方,以雙豎線分隔主謂,以單豎線引出賓語,體詞謂語和主謂謂語則以支架頂起以示“陳述化”。所不同者有二:(1)取消引出“補足語”的斜線,將系動詞的后接成分一律歸入“判斷賓語”;(2)主干線上一個動詞謂核(簡稱動核)可帶兩個賓語。如圖3所示。
單核謂語句的圖解結構設計以雙賓語句和主謂謂語句為例說明,如圖4所示。
圖3 單核謂語句圖解樣式
圖4 單核謂語句圖解結構示例
每個句子(按截句標點切得的文本片段,截句標點包括句號、問號和嘆號)以ju元素為根結點,屬性@ctg表示句子類型(單句、復句或非句),屬性@cnt表示句子原文內(nèi)容。ju元素之下包含若干小句元素xj,xj之下設主語sbj和謂語prd元素。主、謂以下層次遵循“中心詞分析法”思想,即成分的中心詞作為其直接兒子元素,若中心詞元素前后有附加成分或支配成分(即動核的賓語),則它們與中心詞元素互為兄弟。這樣,特定句式的主干成分及其中心詞在以ju為根的XML層級中就處于一個確定的位置,句式的線性配置描述可轉(zhuǎn)化成固定模式的XML路徑表達式(XPath)??紤]到主、謂、賓三種成分確定主干格局并以謂語為核心,在xj元素和prd元素上分別設置屬性@ptt記錄“主干結構”信息(參見表3)。單核謂語句中,xj的@ptt屬性就是在prd的@ptt前加上一個“S”。
單核主謂句中其他的四類主干句式(單動謂語句、動賓謂語句、形容詞謂語句、名詞謂語句)的圖解結構可仿雙賓語句結構類推。主謂謂語句結構稍復雜一些,因其謂核不是單詞而是小句,故prd元素內(nèi)再嵌套一小句元素xj。結合標記集表不難理解圖4的圖解結構。
多核謂語句指由兩個或兩個以上謂詞結構結合起來共同充當謂語,此時圖解主干線上將配置多個陳述位,根據(jù)它們的結合關系又分為三類:聯(lián)合謂語句、連動謂語句和兼語謂語句。如圖5所示,聯(lián)合謂語句在兩個謂詞結構中間畫一條表示聯(lián)合關系的虛線;連動謂語句和兼語謂語句則分別以單斜線和雙斜線分隔。
圖5 多核謂語句圖解樣式
多核謂語句的圖解結構特點是:(1)xj元素下有兩個或以上的prd元素(此時每個prd表示一個謂詞結構而非整個謂語);(2)第二個及以后的prd除了設@ptt外,另需增加屬性@ext來標示它與前一prd之間的結合關系:聯(lián)合UP(Union Predicate)、連動CP(Consecutive Predicate)或兼語TL(TeLescopic form),然后取首個@ext值加上“S”作為整個xj的@ptt。如圖6所示。
圖6 多核謂語句圖解結構示例
非主謂句分兩類:獨詞句和無主句。既然無主謂之分,圖解樣式就取消分隔的雙豎線。獨詞句通常由一個單獨的體詞性成分或嘆詞充當,無主句仍由謂語結構充當,因此共需區(qū)分三種情況。圖解樣式和圖解結構設計如圖7所示。
3.2 擴展變換句式
實際語言交際中使用的句子千差萬別,對應的句式也復雜多樣,但語法分析系統(tǒng)不需要把每一種句式都像主干句式一樣作為結構基元存儲起來。因為有了主干句式,任何復雜句式都可以按照一定的規(guī)則在主干句式的基礎上擴展變換得到。句式的擴展變換可以分為三類:附加擴展、語序變換和成分復雜化。
圖7 非主謂句圖解樣式和圖解格式
3.2.1 附加擴展
如前所述,附加成分包括定語、狀語和補語三類。其中,定語是對體詞性成分的修飾和限定,狀語和補語是對謂詞性成分的修飾、限定和補足。充當定語的主要是形容詞、名詞、動詞結構;充當狀語的主要是副詞、名詞(或帶介詞)和動詞結構。這兩類附加成分都位于中心詞之前,且擴展個數(shù)一般不受太大限制,擴展方式為:指稱位前可加三類定語,陳述位前可加三類狀語,如圖8所示。三類定語都可帶結構助詞“的”,副詞、動詞狀語可帶結構助詞“地”。由于基本沿襲黎氏語法的圖解設計,故此將幾種類型羅列于此,不作逐一說明。
圖8 擴展句式圖解樣式
補語的圖解設計有所調(diào)整,考慮到補語在現(xiàn)代漢語表義結構中的作用重于前兩種修飾語,特別是結果、情態(tài)兩類補語的語勢幾乎與賓語相仿,因而本設計中將由謂詞充當?shù)难a語圖解于長橫線上方、謂核之后,用符號“~”引出,而數(shù)量補語和時地補語(主要為介名結構)則圖解于長橫線下方。如圖9所示。
三類附加成分若直接粘附于主干橫線上,則它們同處在以謂核為中心的句式結構的固定層級轄域之內(nèi)。仍以“小林當時已經(jīng)悄然離開這書店。”為例,多個狀語adv和賓語obj在圖解結構中與動核v同為兄弟,如圖10所示。
圖9 補語擴展句式圖解樣式
圖10 “多狀-動-賓”句式圖解示例
從形式上看,這種結構設計似乎沒有表達圖1(b)中句法結構的層次性,但這恰恰體現(xiàn)了句式結構本身的層次觀念。因為句子是詞語序列與層級句法結構的統(tǒng)一體,句法結構顯然要受表層線性結構的制約。在單動核的句式結構中,動詞為中心,結構層次的造成因素只能是向前和向后兩個方向的組合次序。漢語是一種修飾語在前的語言,因此在不考慮向后組合(賓、補等)的情況下,多狀與動核只可能取一種組合層次,比如上例為:
(當時(已經(jīng)(悄然離開)))
而動核向前結合狀語與向后結合賓語的次序通常并不影響句式的語義理解,也就是說,“狀-動-賓”的組合層次并非句式結構的強制層次。比如上例即可按以下四種層次理解:
((當時(已經(jīng)(悄然離開)))書店)
(當時((已經(jīng)(悄然離開))書店))
(當時(已經(jīng)((悄然離開)書店)))
(當時(已經(jīng)(悄然(離開書店))))
圖1(b)的短語結構事實上是在這四種分析中人為規(guī)定了一種“正確”結構,因而在NLP短語結構分析中,相當一部分的模型計算都耗費在對語義理解影響不大的結構消歧上了。從這個意義上說,句式結構比主流NLP句法分析標準中的層次結構更具現(xiàn)實意義。
3.2.2 語序變換
在主干句式上進行語序變換即產(chǎn)生黎氏語法所謂“變式句”。黎氏語法的變式系統(tǒng)相當復雜,有些分析過于附會語義關系而不顧形式約束。本設計規(guī)范只保留兩類變式:主謂倒裝和賓語前置(排除“把”字句和“賓踞句首”句)。另外,圖解樣式不采用橫線上抬或下屈的形式,而是改為在兩種成分的分隔線上加一個“S”號。圖解結構中則在主語sbj或賓語obj元素上設屬性@inv=1作為標識。如圖11所示。
圖11 變式句圖解樣式
3.2.3 成分復雜化
成分的復雜化是多方面的,但都可從指稱位和陳述位兩個方面考慮。凡一個成分的中心詞為體詞,即可按指稱位句法規(guī)則復雜化;凡一個成分的中心詞為謂詞,即可按陳述位句法規(guī)則復雜化。主要句法規(guī)則已述于前文“主干句式”和“附加擴展”兩節(jié),比如名詞→定中結構、動詞→動賓結構等,下面補述前文未涉及規(guī)則,如表4所示。
3.3 復句和緊縮句
以上為漢語單句句式的全部圖解設計。若一個截句號內(nèi)有兩個小句(兩部分之間有句間語氣停頓,或者兩部分主謂俱全),則全句按復句分析。目前采用自上而下、逐個小句分析的方式圖解,如圖12所示。
表4 成分復雜化示例
圖12 復句圖解樣式和圖解結構
圖13 緊縮句式圖解樣式和圖解結構
圖14 基于句式結構的漢語新圖解公式
條件、假設和讓步等偏正復句經(jīng)常緊縮為一個單句形式,具體圖解樣式和圖解結構如圖13所示,即將偏正關系中主句一方作為頂層xj,然后在其內(nèi)部主、謂一級插入作為從句的xj結構。
從黎氏語法出發(fā)總結出一個如圖14所示的漢語圖解析句公式,按照此公式設計了基于句式結構的形式化圖解析句法,并實現(xiàn)了一個基于Web的可視化語法圖解標注工具,啟動了對外漢語教材文本語料的語法圖解標注工程。截至目前,完成樹庫標注規(guī)模為71.7萬字(4.8萬句)。
聘請的標注人員主要為高校的在校本科生和研究生,標注結果由專業(yè)人員統(tǒng)一審校。標注人員中有漢語語法相關專業(yè)的,也有非語法相關專業(yè)的,但是經(jīng)過不長一段時間(一到兩天)的學習和試標,都能達到一個比較高的效率和正確率。人均正確標注的效率達到:4 450字(207句)/每天(7 h)。這是出乎意料的,因為樹庫屬于深加工語料庫,向來難以兼顧正確性、一致性和標注效率??偨Y其中經(jīng)驗,最重要一條就是標注體系引入了“句式結構”的思想,并且通過對黎氏語法圖解法的改進和完善,系統(tǒng)地總結和歸納了漢語的主干句式和擴展變換句式。句式結構之所以能起到如此大的促進作用,原因在于:首先,句式本身就代表了一種結構格局,其內(nèi)部成分的固定層次結構不再需標注人員操刀,而改由程序編碼生成,這就把他們從層次切分或依存弧設置等瑣碎乏味的操作中解放出來。其次,“先主干后枝葉”的操作模式貼近人理解句子時“自頂向下,逐步求精”的認知心理。最后,圖解析句法在操作上采納了“依句辨品”的詞類觀,按照“主、賓-名、代”、“謂核-動、形”的缺省對應關系編碼,將謂詞的“指稱化”和體詞的“陳述化”過程統(tǒng)一轉(zhuǎn)化為“句法實現(xiàn)”[15],節(jié)省了大量的詞性標注時間。
[1]彭煒明,宋繼華,王寧,等.漢語傳統(tǒng)語法及其在中文信息處理中的應用展望[J].中文信息學報,2012(4):50-60.
[2]呂叔湘.漢語語法分析問題[M].北京:商務印書館,1979.
[3]呂叔湘.現(xiàn)代漢語八百詞(增訂本)·現(xiàn)代漢語語法要點[M].北京:商務印書館,1980.
[4]李臨定.現(xiàn)代漢語句型[M].增訂本.北京:商務印書館,2011.
[5]張斌.現(xiàn)代漢語描寫語法[M].北京:商務印書館,2010.
[6]范曉.關于句式問題——慶?!墩Z文研究》創(chuàng)刊30周年[J].語文研究,2010(4).
[7]范曉.略論句干及其句式[J].山西大學學報:哲學社會科學版,2012(3).
[8]范曉.論句式意義[J].漢語學報,2010(3).
[9]范曉.關于句式義的成因[J].漢語學習,2010(4).
[10]范曉.句式的應用價值初探[J].漢語學習,2011(5).
[11]朱德熙.變換分析中的平行性原則[J].中國語文,1986(2).
[12]彭煒明,何靜,宋繼華.句本位語法圖解析句系統(tǒng)的設計與實現(xiàn)[C]//第四屆數(shù)字典藏與數(shù)字人文國際研討會,臺灣,中國,2012.
[13]何靜,彭煒明,宋繼華.現(xiàn)代漢語黎氏語法圖解標注體系[C]//第十四屆漢語詞匯語義學國際研討會(CLSW2013),鄭州,2013.
[14]彭煒明.句本位語法數(shù)字化平臺的建設和應用研究[D].北京:北京師范大學,2012.
[15]彭煒明,宋繼華,俞士汶.中文信息處理的詞法問題——以句本位語法圖解樹庫構建為背景[C]//第十四屆漢語詞匯語義學國際研討會(CLSW2013),鄭州,2013.
PENG Weiming1,SONG Jihua2,WANG Ning3
1.Key Lab of Computational Linguistics,Ministry of Education,Institute of Computational Linguistics,Peking University, Beijing 100871,China
2.College of Information Science and Technology,Beijing Normal University,Beijing 100875,China
3.School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,China
This paper reviews the understanding divergence of the term“sentence pattern”of Chinese grammar scholars; from the perspective of Chinese information processing,it analyses the lack of sentence pattern structure in current syntactic parsing and treebank construction in this field;and gives a recent review of formalization research of Li Jinxi’s grammar system,indicating its strengths and still shortcomings on sentence pattern structure;it uses Li Jinxi’s diagrammatic parsing method as a prototype design of a new type of diagrammatic parsing method of Chinese syntactic structure,specifically including a diagrammatic representation of the syntactic structure and structured XML storage format.
sentence pattern structure;diagrammatic parsing;parsing method;sentence-based grammar
A
TP391
10.3778/j.issn.1002-8331.1309-0436
PENG Weiming,SONG Jihua,WANG Ning.Design of diagrammatic parsing method of Chinese based on sentence pattern structure.Computer Engineering and Applications,2014,50(6):11-18.
國家社科重大項目(No.12&ZD227);中國博士后科學基金面上資助項目(No.2013M530455)。
彭煒明(1985—),男,博士,講師,主要研究方向為中文信息處理、詞匯語義學;宋繼華(1963—),男,教授,主要研究方向為語言信息處理、計算機教育應用;王寧(1936—),女,教授,主要研究方向為漢語言文字學、文字訓詁學、漢字信息處理。
2013-09-27
2013-11-13
1002-8331(2014)06-0011-08
CNKI網(wǎng)絡優(yōu)先出版:2013-11-15,http://www.cnki.net/kcms/detail/11.2127.TP.20131115.1124.012.html