亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于句式結(jié)構(gòu)的漢語(yǔ)圖解析句法設(shè)計(jì)

        2014-07-07 01:48:54彭煒明宋繼華王寧
        關(guān)鍵詞:圖解句法句式

        彭煒明,宋繼華,王寧

        1.計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所,北京 100871

        2.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100875

        3.北京師范大學(xué)文學(xué)院,北京 100875

        基于句式結(jié)構(gòu)的漢語(yǔ)圖解析句法設(shè)計(jì)

        彭煒明1,宋繼華2,王寧3

        1.計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所,北京 100871

        2.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100875

        3.北京師范大學(xué)文學(xué)院,北京 100875

        梳理了漢語(yǔ)語(yǔ)法學(xué)界對(duì)“句式”這一術(shù)語(yǔ)的認(rèn)識(shí)分歧;從中文信息處理角度分析了當(dāng)前本領(lǐng)域句法分析和樹(shù)庫(kù)構(gòu)建缺乏句式結(jié)構(gòu)的現(xiàn)狀;對(duì)黎氏語(yǔ)法形式化研究作了一個(gè)最新的綜述,指出其在句式結(jié)構(gòu)方面的優(yōu)勢(shì)和仍存在的不足;以黎氏語(yǔ)法圖解法為原型改造設(shè)計(jì)出一種新型的漢語(yǔ)圖解析句法,具體包括圖形化的句法結(jié)構(gòu)表示和結(jié)構(gòu)化的XML存儲(chǔ)格式。

        句式結(jié)構(gòu);圖解析句;析句方法;句本位語(yǔ)法

        1 引言

        眾所周知,漢語(yǔ)語(yǔ)法的研究成果通常有兩大領(lǐng)域應(yīng)用可作為檢驗(yàn)理論的具體實(shí)踐,一是對(duì)外漢語(yǔ)教學(xué),一是中文信息處理。前者面向沒(méi)有漢語(yǔ)語(yǔ)感的外國(guó)人,而后者面向完全沒(méi)有人類(lèi)語(yǔ)言經(jīng)驗(yàn)的計(jì)算機(jī)。它們本質(zhì)上都是在解決漢語(yǔ)的語(yǔ)言習(xí)得問(wèn)題,都需要關(guān)于漢語(yǔ)語(yǔ)法系統(tǒng)的理論指導(dǎo)。從邏輯上講,二者應(yīng)該能夠?qū)崿F(xiàn)多方面的相互參證、相互促進(jìn)。但多年來(lái)這方面的學(xué)科交叉研究卻并不多見(jiàn)。特別是隨著對(duì)外漢語(yǔ)語(yǔ)法教學(xué)從“以結(jié)構(gòu)為綱”到“以功能和交際為綱”的思路轉(zhuǎn)變,在這兩個(gè)學(xué)科間尋找到有效結(jié)合點(diǎn)變得越發(fā)困難。注意到,若要實(shí)現(xiàn)與交際功能的結(jié)合,句型句式在語(yǔ)法教學(xué)中占據(jù)不可替代的重要地位。在特定情境中進(jìn)行語(yǔ)法教學(xué),不宜以詞類(lèi)系統(tǒng)或短語(yǔ)結(jié)構(gòu)知識(shí)體系為綱展開(kāi)語(yǔ)法點(diǎn)教學(xué),而必須結(jié)合如連動(dòng)句、兼語(yǔ)句、雙賓語(yǔ)句、“連……都……”、“是……的”等常用句型句式進(jìn)行。

        然而,目前中文信息處理領(lǐng)域主流的句法樹(shù)庫(kù)和自動(dòng)句法分析研究都是建立在結(jié)構(gòu)主義語(yǔ)法理論的基礎(chǔ)上,以短語(yǔ)為著眼點(diǎn),強(qiáng)調(diào)結(jié)構(gòu)層次,句法關(guān)系以二元結(jié)構(gòu)關(guān)系為主[1]。因此,句式結(jié)構(gòu)在中文信息處理中一直處于一種模糊的邊沿地位,造成了語(yǔ)法教學(xué)、研究與中文信息處理應(yīng)用之間的信息鴻溝。

        2 句式結(jié)構(gòu)

        2.1 術(shù)語(yǔ)說(shuō)明

        “句式”這一術(shù)語(yǔ)廣泛運(yùn)用于漢語(yǔ)語(yǔ)法學(xué)界,與此相關(guān)還有“句型”、“句類(lèi)”等一系列術(shù)語(yǔ)。不同的學(xué)者對(duì)這些術(shù)語(yǔ)有著不同的理解和界定。最具代表性的主要為以下幾家:

        (1)呂叔湘把“句式”看作句子的結(jié)構(gòu)類(lèi)型,“句式”和“句型”不作區(qū)分,都指“句子的結(jié)構(gòu)格局”[2]。但句子的結(jié)構(gòu)分類(lèi)可以從句法結(jié)構(gòu)上分,也可以從語(yǔ)義結(jié)構(gòu)上分。以主、謂、賓、補(bǔ)等句法成分作為結(jié)構(gòu)要素的可以參照呂叔湘《現(xiàn)代漢語(yǔ)八百詞·現(xiàn)代漢語(yǔ)語(yǔ)法要點(diǎn)》中的動(dòng)詞謂語(yǔ)句式表[3],以施事、受事、結(jié)果、工具、處所等語(yǔ)義標(biāo)記作為結(jié)構(gòu)要素的則以李臨定《現(xiàn)代漢語(yǔ)句型》為代表[4]。

        (2)張斌認(rèn)為“句式”是句子的特征類(lèi)別,主張區(qū)分“句型”、“句類(lèi)”和“句式”。他主編的《現(xiàn)代漢語(yǔ)描寫(xiě)語(yǔ)法》中是這樣界定的:“句型指的是句子的結(jié)構(gòu)類(lèi)型,如單句與復(fù)句、主謂句與非主謂句,等等?!薄熬漕?lèi)指的是句子的語(yǔ)氣類(lèi)別,如陳述、疑問(wèn)、祈使、感嘆?!薄熬涫绞蔷渥拥奶卣黝?lèi)別,如‘把’字句、‘被’字句、存現(xiàn)句,等等[5]?!?/p>

        (3)范曉的“句式”最具綜合性,他以“句型”、“句?!焙汀熬漕?lèi)”分別指稱(chēng)句法、語(yǔ)義和語(yǔ)用三個(gè)平面內(nèi)的句子類(lèi)別,而把“句式”定義為“由一定語(yǔ)法形式顯示的表示一定語(yǔ)法意義的句子的結(jié)構(gòu)格式”,是一種包含句法結(jié)構(gòu)、語(yǔ)義結(jié)構(gòu)和語(yǔ)用功能的三維綜合體[6-10]。

        關(guān)于句子分類(lèi)的術(shù)語(yǔ)細(xì)化當(dāng)然有助于人們對(duì)此問(wèn)題的深入認(rèn)識(shí),但不管是特征類(lèi)別還是語(yǔ)義、語(yǔ)用類(lèi)別,都需要采用一定的句法結(jié)構(gòu)格局作為形式載體。因此,本文權(quán)且接受⑴中“句式”的術(shù)語(yǔ)定位,即“句子的結(jié)構(gòu)格式或結(jié)構(gòu)類(lèi)型”,而將“把”字句等具有顯著特征的句子類(lèi)別作為若干特殊句式(特定的下位句式)。這么做既有避免多立名目的考慮,同時(shí)也是基于中文信息處理的現(xiàn)實(shí)需求:語(yǔ)義理解必需首先以形式為綱實(shí)現(xiàn)句子的結(jié)構(gòu)化,并且結(jié)構(gòu)設(shè)計(jì)講究系統(tǒng)性,要求能夠分析和處理所有的合法句子。

        2.2 句式的結(jié)構(gòu)和層次

        句式研究與漢語(yǔ)語(yǔ)法學(xué)的發(fā)展有著密切的聯(lián)系,從最早的《馬氏文通》到黎錦熙《新著國(guó)語(yǔ)文法》,再到后來(lái)的呂叔湘《中國(guó)文法概略》、王力《中國(guó)現(xiàn)代語(yǔ)法》等等,早期成體系的語(yǔ)法著作本質(zhì)上都是在探討漢語(yǔ)的句子結(jié)構(gòu)格局??梢哉f(shuō),研究時(shí)間長(zhǎng),積累成果豐富,但卻鮮見(jiàn)句式研究成果系統(tǒng)地應(yīng)用到中文信息處理中,用于指導(dǎo)漢語(yǔ)的句法分析。

        究其原因,中文信息處理中句子結(jié)構(gòu)的形式化處理在很大程度上模糊了漢語(yǔ)的句式結(jié)構(gòu),以至于很難從句法樹(shù)結(jié)構(gòu)中獲取句式結(jié)構(gòu)。句法樹(shù)結(jié)構(gòu)與句式結(jié)構(gòu)最直觀的差別是,前者以一種層級(jí)的樹(shù)狀結(jié)構(gòu)為表現(xiàn)形式,而后者通常采用詞類(lèi)、成分或特征詞等的線性序列。當(dāng)然,這并不是說(shuō)描述句式的序列配置中各部之間沒(méi)有層次關(guān)系,事實(shí)上,句式本身就蘊(yùn)含了一種整體格局下的固定層次結(jié)構(gòu)。

        以“S+已經(jīng)+V+了+O”句式(其中S表示主語(yǔ),O表示賓語(yǔ),V表示動(dòng)詞)為例,在現(xiàn)代漢語(yǔ)語(yǔ)法體系下自然能得出其結(jié)構(gòu)層次是:“(S((已經(jīng)(V了))O))”。這種以動(dòng)詞為中心,先后組合的層級(jí)順序由句式整體格局決定。“小林已經(jīng)離開(kāi)了書(shū)店?!币痪?,只要說(shuō)明“小林”、“離開(kāi)”、“書(shū)店”充當(dāng)句式中的S、V和O,那么就無(wú)需再對(duì)其進(jìn)行具體的層次結(jié)構(gòu)分析,因?yàn)樗呀?jīng)由語(yǔ)法體系整個(gè)地賦予了所屬句式。如果在句法結(jié)構(gòu)的形式化設(shè)計(jì)中將這種屬于句式格局的固定層次結(jié)構(gòu)保存下來(lái),就可形成若干模式化的“句式結(jié)構(gòu)”。

        但是反觀目前主流短語(yǔ)結(jié)構(gòu)樹(shù)的設(shè)計(jì),卻沒(méi)有留意句式結(jié)構(gòu)的信息維護(hù)。如圖1所示,(a)為上述例句的短語(yǔ)結(jié)構(gòu)樹(shù),直接依存的若干中心詞由于追求二分結(jié)構(gòu)而分布在相隔較遠(yuǎn)的樹(shù)層級(jí)中;(b)樹(shù)句子作了一定附加擴(kuò)展,新成分的加入立即打破原有各成分之間的相對(duì)層次關(guān)系。

        圖1 短語(yǔ)結(jié)構(gòu)樹(shù)示例(“!”表示中心詞所在)

        上例中只是在原有句式上增加了狀語(yǔ)、定語(yǔ),若再考慮語(yǔ)序變換、成分復(fù)雜化等操作,則句子結(jié)構(gòu)更加不固定,從樹(shù)結(jié)構(gòu)中獲取特定句式結(jié)構(gòu)信息將變得異常困難。根本原因在于樹(shù)結(jié)構(gòu)設(shè)計(jì)時(shí)放棄了“句子成分”的結(jié)點(diǎn)形式,代之以“直接成分+句法關(guān)系”的標(biāo)注模式,進(jìn)而過(guò)度地追求二分層次分析。這樣,句子結(jié)構(gòu)擴(kuò)展和復(fù)雜化產(chǎn)生的層次與句式的固定層次雜糅在一起,從而模糊了句式結(jié)構(gòu)的固有層次性。

        相比短語(yǔ)結(jié)構(gòu)樹(shù),后來(lái)興起的依存結(jié)構(gòu)樹(shù)采用中心詞直接依存的結(jié)構(gòu)形式,一定程度上避免了短語(yǔ)層次切分瑣碎和中心詞依存關(guān)系不突出的弊端,因而在從句法結(jié)構(gòu)走向句義分析方面顯示出更強(qiáng)的適應(yīng)性。然而,依存結(jié)構(gòu)只要求滿足單核心、弱連通、無(wú)環(huán)、無(wú)交叉弧等幾條依存公理的純形式約束,也沒(méi)有建立明確的句式結(jié)構(gòu)信息。依存弧上所標(biāo)注的各種依存關(guān)系仍然是短語(yǔ)結(jié)構(gòu)層面的二元句法、語(yǔ)義關(guān)系,同樣缺乏關(guān)于句式結(jié)構(gòu)的宏觀視角。

        朱德熙在討論“NP+Vf著+N”句式(例如“臺(tái)上坐著主席團(tuán)”)時(shí),指出該句式中的“施事、受事”等是“低層次”語(yǔ)義,“表示存在方式”是“高層次”語(yǔ)義[11],而后者只有到句式結(jié)構(gòu)層面才能顯現(xiàn)。從中文信息處理走向深層句義理解的角度出發(fā),有必要探索基于句式結(jié)構(gòu)的句法表現(xiàn)形式和存儲(chǔ)格式。這種新型的結(jié)構(gòu)格式應(yīng)該既能適應(yīng)句子結(jié)構(gòu)擴(kuò)展變換的復(fù)雜層次結(jié)構(gòu),同時(shí)又能維護(hù)特定句式的固定層次結(jié)構(gòu)。

        早期漢語(yǔ)語(yǔ)法體系中有一種以直觀展現(xiàn)“句子結(jié)構(gòu)格局”著稱(chēng)的圖解析句法,即黎錦熙《新著國(guó)語(yǔ)文法》中自創(chuàng)的“圖解法”。黎氏語(yǔ)法中圖解是面向教學(xué)而設(shè)計(jì)的一種手繪圖形,當(dāng)時(shí)還未實(shí)現(xiàn)計(jì)算機(jī)的形式化。彭煒明[12]、何靜[13]等已經(jīng)開(kāi)始嘗試基于黎氏圖解法進(jìn)行漢語(yǔ)句法結(jié)構(gòu)的形式化研究。本文下面將對(duì)這方面的研究作一綜述,并針對(duì)其中不足提出一個(gè)新的圖解析句法設(shè)計(jì)方案。

        2.3 黎氏語(yǔ)法形式化研究綜述

        黎氏語(yǔ)法體系主張“以句法控制詞類(lèi)”的“句本位”語(yǔ)法分析思想。句法上采用“句子成分分析法”(或稱(chēng)“中心詞分析法”)析句,通過(guò)主語(yǔ)、述語(yǔ)、賓語(yǔ)、補(bǔ)足語(yǔ)、形附、副附六大句子成分來(lái)建構(gòu)漢語(yǔ)的句子結(jié)構(gòu)格局。詞法上“依句辨品”,承認(rèn)詞類(lèi)與句子成分之間存在一定的對(duì)應(yīng)關(guān)系。具體操作采用圖解法作為析句工具,其大致法式為:通過(guò)一條長(zhǎng)橫線來(lái)上下分隔句子主干和枝葉,主干部分用雙豎線分隔主語(yǔ)和述語(yǔ),述語(yǔ)動(dòng)詞若帶賓語(yǔ)則以單豎線引出,帶補(bǔ)足語(yǔ)則以斜線引出。長(zhǎng)橫線下方畫(huà)附加成分,用左斜線或左折線表示形附,右斜線或右折線表示副附,斜線、折線用以區(qū)分充當(dāng)相同成分的詞類(lèi)。單句圖解公式和示例如圖2所示。

        何靜、彭煒明等[13]在黎氏圖解法基礎(chǔ)上設(shè)計(jì)出與圖解樣式相對(duì)應(yīng)的XML結(jié)構(gòu)存儲(chǔ)規(guī)范(簡(jiǎn)稱(chēng)“圖解結(jié)構(gòu)”,XML樹(shù)層級(jí)與圖解樣式之間維持一種編碼、解碼的關(guān)系),通過(guò)實(shí)現(xiàn)一個(gè)可視化的圖解標(biāo)注工具標(biāo)注構(gòu)建了規(guī)模為11萬(wàn)句(21萬(wàn)字)的現(xiàn)代漢語(yǔ)句法圖解樹(shù)庫(kù)和4 286句(3.4萬(wàn)字)的古代漢語(yǔ)句法圖解樹(shù)庫(kù)。以這些標(biāo)注語(yǔ)料為基礎(chǔ)開(kāi)展?jié)h語(yǔ)核心句式的歸納和古今漢語(yǔ)的句式結(jié)構(gòu)系統(tǒng)比較研究,取得了初步的研究成果。

        圖2 黎氏語(yǔ)法圖解公式和圖解示例

        根據(jù)前期研究,采用圖解結(jié)構(gòu)存儲(chǔ)句法信息有一個(gè)明顯的優(yōu)點(diǎn):對(duì)特定句式的句子,其句子成分和中心詞“具有相對(duì)穩(wěn)定的結(jié)構(gòu)層次和位置順序”,符合本文所述模式化“句式結(jié)構(gòu)”的特點(diǎn)。因此,可以方便地利用XPath等XML結(jié)構(gòu)查詢工具從圖解樹(shù)庫(kù)中提取特定句式的句子,非常有利于開(kāi)展基于句式結(jié)構(gòu)的句法、語(yǔ)義統(tǒng)計(jì)分析和相關(guān)理論研究。

        完全采用黎氏圖解法進(jìn)行句法分析也存在一些局限[14]:

        (1)首先是黎氏語(yǔ)法的六大成分術(shù)語(yǔ)陳舊,與目前漢語(yǔ)語(yǔ)法學(xué)界和語(yǔ)法教學(xué)界通行的術(shù)語(yǔ)體系存在較大差異,需要進(jìn)行相關(guān)術(shù)語(yǔ)的清理。

        (2)黎氏語(yǔ)法中對(duì)所謂“變式句”的成分分析太過(guò)從語(yǔ)義出發(fā)而不顧形式約束,因而有的分析與人們語(yǔ)感相差較大。比如將“董存瑞,我一輩子都忘不了他?!币痪浞治鰹椤岸嫒稹弊鳌百e語(yǔ)”,“賓踞句首”,“他”則為賓位回指代詞;而現(xiàn)在一般都分析為“董存瑞”作全句主語(yǔ)的主謂謂語(yǔ)句。因此,對(duì)句式的語(yǔ)序變換分析也需要相應(yīng)的規(guī)范。

        (3)黎氏圖解法最大的問(wèn)題還在于,僅依靠六大成分建構(gòu)的句法格局并不足于區(qū)分所有的句式。比如雙賓語(yǔ)句,由于黎氏圖解公式中主干上只能有一個(gè)賓位,因而間接賓語(yǔ)通常分析為副位(補(bǔ)語(yǔ));又如,連動(dòng)句、緊縮句等復(fù)雜謂語(yǔ)句式,黎氏語(yǔ)法都用副附(前狀后補(bǔ))來(lái)分析。這些都是早期語(yǔ)法體系欠周密的一些地方,需要重新規(guī)范和設(shè)計(jì)。

        3 句式系統(tǒng)的圖解設(shè)計(jì)

        本文的圖解設(shè)計(jì)以黎氏圖解法為原型,主要包括兩方面內(nèi)容:一是圖解的圖形樣式(以下簡(jiǎn)稱(chēng)“圖解樣式”);二是相應(yīng)的XML結(jié)構(gòu)規(guī)范(以下簡(jiǎn)稱(chēng)“圖解結(jié)構(gòu)”)。參照前人研究成果,需遵循以下設(shè)計(jì)原則:

        (1)編碼解碼原則:圖解樣式與圖解結(jié)構(gòu)之間可以進(jìn)行信息無(wú)損的雙向轉(zhuǎn)換。即圖解樣式可以編碼保存為一定層次結(jié)構(gòu)的XML樹(shù);反之,也可將XML樹(shù)重新解碼成原始圖解樣式。另外,根據(jù)圖解樣式或圖解結(jié)構(gòu)均可恢復(fù)句子原文信息(詞語(yǔ)序列)。

        (2)固定句式結(jié)構(gòu)原則:特定句式中成分、詞類(lèi)或特征詞序列具有相對(duì)固定的結(jié)構(gòu)層次和位置順序。句式擴(kuò)展變換不影響這種結(jié)構(gòu)的穩(wěn)定性,保證程序能從中獲取句式結(jié)構(gòu)信息。

        為了以下行文方便,首先列出圖解結(jié)構(gòu)中所使用的XML元素(Element)和屬性(Attribute)標(biāo)記集,分別如表1~表3所示。

        表1 詞類(lèi)標(biāo)記集

        表2 句法標(biāo)記集

        為了能與最廣泛的教學(xué)語(yǔ)法體系兼容,本文主要參考20世紀(jì)50年代提出的“暫擬漢語(yǔ)教學(xué)語(yǔ)法系統(tǒng)”,共設(shè)8類(lèi)句子成分:以主語(yǔ)、謂語(yǔ)、賓語(yǔ)作為句式的主干成分,以定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)為句式的附加成分,以呼語(yǔ)和插入語(yǔ)為不影響句式的獨(dú)立成分。下面采用“主干句式→擴(kuò)展變換句式”的演繹法思路逐次說(shuō)明漢語(yǔ)句式系統(tǒng)的圖解設(shè)計(jì)。

        表3 屬性標(biāo)記集

        3.1 主干句式

        主干句式是指不考慮附加成分、語(yǔ)序變換和成分復(fù)雜化等因素的常規(guī)句子結(jié)構(gòu)格式,即只考慮主語(yǔ)、謂語(yǔ)核心(簡(jiǎn)稱(chēng)謂核:因?yàn)椤爸^語(yǔ)”在結(jié)構(gòu)設(shè)計(jì)中通常用來(lái)表示包括狀語(yǔ)、補(bǔ)語(yǔ)和賓語(yǔ)在內(nèi)的整個(gè)謂語(yǔ)部分,為了避免歧義,本文對(duì)主干結(jié)構(gòu)上不包含附加成分的“謂語(yǔ)”均以“謂核”來(lái)指稱(chēng)。)和賓語(yǔ)三種成分。根據(jù)“依句辨品”的句本位思想,主、賓語(yǔ)的圖解位置為“指稱(chēng)位”,通常由名詞或代詞充當(dāng),謂核為“陳述位”,通常由動(dòng)詞或形容詞充當(dāng)??紤]到各自使用頻率,本設(shè)計(jì)中默認(rèn)指稱(chēng)位詞性為名詞,陳述位詞性為動(dòng)詞。如果代詞充當(dāng)指稱(chēng)位,或者形容詞充當(dāng)陳述位,則在相應(yīng)圖解位置上方挑勾作為標(biāo)記。

        一般的句子結(jié)構(gòu)通常都會(huì)有主語(yǔ)和謂語(yǔ)兩部分,這樣的句子為“主謂句”,與之相對(duì)的便是“非主謂句”。主謂句又可根據(jù)謂核的個(gè)數(shù)分為“單核謂語(yǔ)句”和“多核謂語(yǔ)句”。前者包括六類(lèi)主干句式,本文大致沿用黎氏語(yǔ)法的主干圖解樣式,即將各主干成分依次配置于長(zhǎng)橫線上方,以雙豎線分隔主謂,以單豎線引出賓語(yǔ),體詞謂語(yǔ)和主謂謂語(yǔ)則以支架頂起以示“陳述化”。所不同者有二:(1)取消引出“補(bǔ)足語(yǔ)”的斜線,將系動(dòng)詞的后接成分一律歸入“判斷賓語(yǔ)”;(2)主干線上一個(gè)動(dòng)詞謂核(簡(jiǎn)稱(chēng)動(dòng)核)可帶兩個(gè)賓語(yǔ)。如圖3所示。

        單核謂語(yǔ)句的圖解結(jié)構(gòu)設(shè)計(jì)以雙賓語(yǔ)句和主謂謂語(yǔ)句為例說(shuō)明,如圖4所示。

        圖3 單核謂語(yǔ)句圖解樣式

        圖4 單核謂語(yǔ)句圖解結(jié)構(gòu)示例

        每個(gè)句子(按截句標(biāo)點(diǎn)切得的文本片段,截句標(biāo)點(diǎn)包括句號(hào)、問(wèn)號(hào)和嘆號(hào))以ju元素為根結(jié)點(diǎn),屬性@ctg表示句子類(lèi)型(單句、復(fù)句或非句),屬性@cnt表示句子原文內(nèi)容。ju元素之下包含若干小句元素xj,xj之下設(shè)主語(yǔ)sbj和謂語(yǔ)prd元素。主、謂以下層次遵循“中心詞分析法”思想,即成分的中心詞作為其直接兒子元素,若中心詞元素前后有附加成分或支配成分(即動(dòng)核的賓語(yǔ)),則它們與中心詞元素互為兄弟。這樣,特定句式的主干成分及其中心詞在以ju為根的XML層級(jí)中就處于一個(gè)確定的位置,句式的線性配置描述可轉(zhuǎn)化成固定模式的XML路徑表達(dá)式(XPath)??紤]到主、謂、賓三種成分確定主干格局并以謂語(yǔ)為核心,在xj元素和prd元素上分別設(shè)置屬性@ptt記錄“主干結(jié)構(gòu)”信息(參見(jiàn)表3)。單核謂語(yǔ)句中,xj的@ptt屬性就是在prd的@ptt前加上一個(gè)“S”。

        單核主謂句中其他的四類(lèi)主干句式(單動(dòng)謂語(yǔ)句、動(dòng)賓謂語(yǔ)句、形容詞謂語(yǔ)句、名詞謂語(yǔ)句)的圖解結(jié)構(gòu)可仿雙賓語(yǔ)句結(jié)構(gòu)類(lèi)推。主謂謂語(yǔ)句結(jié)構(gòu)稍復(fù)雜一些,因其謂核不是單詞而是小句,故prd元素內(nèi)再嵌套一小句元素xj。結(jié)合標(biāo)記集表不難理解圖4的圖解結(jié)構(gòu)。

        多核謂語(yǔ)句指由兩個(gè)或兩個(gè)以上謂詞結(jié)構(gòu)結(jié)合起來(lái)共同充當(dāng)謂語(yǔ),此時(shí)圖解主干線上將配置多個(gè)陳述位,根據(jù)它們的結(jié)合關(guān)系又分為三類(lèi):聯(lián)合謂語(yǔ)句、連動(dòng)謂語(yǔ)句和兼語(yǔ)謂語(yǔ)句。如圖5所示,聯(lián)合謂語(yǔ)句在兩個(gè)謂詞結(jié)構(gòu)中間畫(huà)一條表示聯(lián)合關(guān)系的虛線;連動(dòng)謂語(yǔ)句和兼語(yǔ)謂語(yǔ)句則分別以單斜線和雙斜線分隔。

        圖5 多核謂語(yǔ)句圖解樣式

        多核謂語(yǔ)句的圖解結(jié)構(gòu)特點(diǎn)是:(1)xj元素下有兩個(gè)或以上的prd元素(此時(shí)每個(gè)prd表示一個(gè)謂詞結(jié)構(gòu)而非整個(gè)謂語(yǔ));(2)第二個(gè)及以后的prd除了設(shè)@ptt外,另需增加屬性@ext來(lái)標(biāo)示它與前一prd之間的結(jié)合關(guān)系:聯(lián)合UP(Union Predicate)、連動(dòng)CP(Consecutive Predicate)或兼語(yǔ)TL(TeLescopic form),然后取首個(gè)@ext值加上“S”作為整個(gè)xj的@ptt。如圖6所示。

        圖6 多核謂語(yǔ)句圖解結(jié)構(gòu)示例

        非主謂句分兩類(lèi):獨(dú)詞句和無(wú)主句。既然無(wú)主謂之分,圖解樣式就取消分隔的雙豎線。獨(dú)詞句通常由一個(gè)單獨(dú)的體詞性成分或嘆詞充當(dāng),無(wú)主句仍由謂語(yǔ)結(jié)構(gòu)充當(dāng),因此共需區(qū)分三種情況。圖解樣式和圖解結(jié)構(gòu)設(shè)計(jì)如圖7所示。

        3.2 擴(kuò)展變換句式

        實(shí)際語(yǔ)言交際中使用的句子千差萬(wàn)別,對(duì)應(yīng)的句式也復(fù)雜多樣,但語(yǔ)法分析系統(tǒng)不需要把每一種句式都像主干句式一樣作為結(jié)構(gòu)基元存儲(chǔ)起來(lái)。因?yàn)橛辛酥鞲删涫剑魏螐?fù)雜句式都可以按照一定的規(guī)則在主干句式的基礎(chǔ)上擴(kuò)展變換得到。句式的擴(kuò)展變換可以分為三類(lèi):附加擴(kuò)展、語(yǔ)序變換和成分復(fù)雜化。

        圖7 非主謂句圖解樣式和圖解格式

        3.2.1 附加擴(kuò)展

        如前所述,附加成分包括定語(yǔ)、狀語(yǔ)和補(bǔ)語(yǔ)三類(lèi)。其中,定語(yǔ)是對(duì)體詞性成分的修飾和限定,狀語(yǔ)和補(bǔ)語(yǔ)是對(duì)謂詞性成分的修飾、限定和補(bǔ)足。充當(dāng)定語(yǔ)的主要是形容詞、名詞、動(dòng)詞結(jié)構(gòu);充當(dāng)狀語(yǔ)的主要是副詞、名詞(或帶介詞)和動(dòng)詞結(jié)構(gòu)。這兩類(lèi)附加成分都位于中心詞之前,且擴(kuò)展個(gè)數(shù)一般不受太大限制,擴(kuò)展方式為:指稱(chēng)位前可加三類(lèi)定語(yǔ),陳述位前可加三類(lèi)狀語(yǔ),如圖8所示。三類(lèi)定語(yǔ)都可帶結(jié)構(gòu)助詞“的”,副詞、動(dòng)詞狀語(yǔ)可帶結(jié)構(gòu)助詞“地”。由于基本沿襲黎氏語(yǔ)法的圖解設(shè)計(jì),故此將幾種類(lèi)型羅列于此,不作逐一說(shuō)明。

        圖8 擴(kuò)展句式圖解樣式

        補(bǔ)語(yǔ)的圖解設(shè)計(jì)有所調(diào)整,考慮到補(bǔ)語(yǔ)在現(xiàn)代漢語(yǔ)表義結(jié)構(gòu)中的作用重于前兩種修飾語(yǔ),特別是結(jié)果、情態(tài)兩類(lèi)補(bǔ)語(yǔ)的語(yǔ)勢(shì)幾乎與賓語(yǔ)相仿,因而本設(shè)計(jì)中將由謂詞充當(dāng)?shù)难a(bǔ)語(yǔ)圖解于長(zhǎng)橫線上方、謂核之后,用符號(hào)“~”引出,而數(shù)量補(bǔ)語(yǔ)和時(shí)地補(bǔ)語(yǔ)(主要為介名結(jié)構(gòu))則圖解于長(zhǎng)橫線下方。如圖9所示。

        三類(lèi)附加成分若直接粘附于主干橫線上,則它們同處在以謂核為中心的句式結(jié)構(gòu)的固定層級(jí)轄域之內(nèi)。仍以“小林當(dāng)時(shí)已經(jīng)悄然離開(kāi)這書(shū)店?!睘槔?,多個(gè)狀語(yǔ)adv和賓語(yǔ)obj在圖解結(jié)構(gòu)中與動(dòng)核v同為兄弟,如圖10所示。

        圖9 補(bǔ)語(yǔ)擴(kuò)展句式圖解樣式

        圖10 “多狀-動(dòng)-賓”句式圖解示例

        從形式上看,這種結(jié)構(gòu)設(shè)計(jì)似乎沒(méi)有表達(dá)圖1(b)中句法結(jié)構(gòu)的層次性,但這恰恰體現(xiàn)了句式結(jié)構(gòu)本身的層次觀念。因?yàn)榫渥邮窃~語(yǔ)序列與層級(jí)句法結(jié)構(gòu)的統(tǒng)一體,句法結(jié)構(gòu)顯然要受表層線性結(jié)構(gòu)的制約。在單動(dòng)核的句式結(jié)構(gòu)中,動(dòng)詞為中心,結(jié)構(gòu)層次的造成因素只能是向前和向后兩個(gè)方向的組合次序。漢語(yǔ)是一種修飾語(yǔ)在前的語(yǔ)言,因此在不考慮向后組合(賓、補(bǔ)等)的情況下,多狀與動(dòng)核只可能取一種組合層次,比如上例為:

        (當(dāng)時(shí)(已經(jīng)(悄然離開(kāi))))

        而動(dòng)核向前結(jié)合狀語(yǔ)與向后結(jié)合賓語(yǔ)的次序通常并不影響句式的語(yǔ)義理解,也就是說(shuō),“狀-動(dòng)-賓”的組合層次并非句式結(jié)構(gòu)的強(qiáng)制層次。比如上例即可按以下四種層次理解:

        ((當(dāng)時(shí)(已經(jīng)(悄然離開(kāi))))書(shū)店)

        (當(dāng)時(shí)((已經(jīng)(悄然離開(kāi)))書(shū)店))

        (當(dāng)時(shí)(已經(jīng)((悄然離開(kāi))書(shū)店)))

        (當(dāng)時(shí)(已經(jīng)(悄然(離開(kāi)書(shū)店))))

        圖1(b)的短語(yǔ)結(jié)構(gòu)事實(shí)上是在這四種分析中人為規(guī)定了一種“正確”結(jié)構(gòu),因而在NLP短語(yǔ)結(jié)構(gòu)分析中,相當(dāng)一部分的模型計(jì)算都耗費(fèi)在對(duì)語(yǔ)義理解影響不大的結(jié)構(gòu)消歧上了。從這個(gè)意義上說(shuō),句式結(jié)構(gòu)比主流NLP句法分析標(biāo)準(zhǔn)中的層次結(jié)構(gòu)更具現(xiàn)實(shí)意義。

        3.2.2 語(yǔ)序變換

        在主干句式上進(jìn)行語(yǔ)序變換即產(chǎn)生黎氏語(yǔ)法所謂“變式句”。黎氏語(yǔ)法的變式系統(tǒng)相當(dāng)復(fù)雜,有些分析過(guò)于附會(huì)語(yǔ)義關(guān)系而不顧形式約束。本設(shè)計(jì)規(guī)范只保留兩類(lèi)變式:主謂倒裝和賓語(yǔ)前置(排除“把”字句和“賓踞句首”句)。另外,圖解樣式不采用橫線上抬或下屈的形式,而是改為在兩種成分的分隔線上加一個(gè)“S”號(hào)。圖解結(jié)構(gòu)中則在主語(yǔ)sbj或賓語(yǔ)obj元素上設(shè)屬性@inv=1作為標(biāo)識(shí)。如圖11所示。

        圖11 變式句圖解樣式

        3.2.3 成分復(fù)雜化

        成分的復(fù)雜化是多方面的,但都可從指稱(chēng)位和陳述位兩個(gè)方面考慮。凡一個(gè)成分的中心詞為體詞,即可按指稱(chēng)位句法規(guī)則復(fù)雜化;凡一個(gè)成分的中心詞為謂詞,即可按陳述位句法規(guī)則復(fù)雜化。主要句法規(guī)則已述于前文“主干句式”和“附加擴(kuò)展”兩節(jié),比如名詞→定中結(jié)構(gòu)、動(dòng)詞→動(dòng)賓結(jié)構(gòu)等,下面補(bǔ)述前文未涉及規(guī)則,如表4所示。

        3.3 復(fù)句和緊縮句

        以上為漢語(yǔ)單句句式的全部圖解設(shè)計(jì)。若一個(gè)截句號(hào)內(nèi)有兩個(gè)小句(兩部分之間有句間語(yǔ)氣停頓,或者兩部分主謂俱全),則全句按復(fù)句分析。目前采用自上而下、逐個(gè)小句分析的方式圖解,如圖12所示。

        表4 成分復(fù)雜化示例

        圖12 復(fù)句圖解樣式和圖解結(jié)構(gòu)

        圖13 緊縮句式圖解樣式和圖解結(jié)構(gòu)

        圖14 基于句式結(jié)構(gòu)的漢語(yǔ)新圖解公式

        條件、假設(shè)和讓步等偏正復(fù)句經(jīng)常緊縮為一個(gè)單句形式,具體圖解樣式和圖解結(jié)構(gòu)如圖13所示,即將偏正關(guān)系中主句一方作為頂層xj,然后在其內(nèi)部主、謂一級(jí)插入作為從句的xj結(jié)構(gòu)。

        4 結(jié)論

        從黎氏語(yǔ)法出發(fā)總結(jié)出一個(gè)如圖14所示的漢語(yǔ)圖解析句公式,按照此公式設(shè)計(jì)了基于句式結(jié)構(gòu)的形式化圖解析句法,并實(shí)現(xiàn)了一個(gè)基于Web的可視化語(yǔ)法圖解標(biāo)注工具,啟動(dòng)了對(duì)外漢語(yǔ)教材文本語(yǔ)料的語(yǔ)法圖解標(biāo)注工程。截至目前,完成樹(shù)庫(kù)標(biāo)注規(guī)模為71.7萬(wàn)字(4.8萬(wàn)句)。

        聘請(qǐng)的標(biāo)注人員主要為高校的在校本科生和研究生,標(biāo)注結(jié)果由專(zhuān)業(yè)人員統(tǒng)一審校。標(biāo)注人員中有漢語(yǔ)語(yǔ)法相關(guān)專(zhuān)業(yè)的,也有非語(yǔ)法相關(guān)專(zhuān)業(yè)的,但是經(jīng)過(guò)不長(zhǎng)一段時(shí)間(一到兩天)的學(xué)習(xí)和試標(biāo),都能達(dá)到一個(gè)比較高的效率和正確率。人均正確標(biāo)注的效率達(dá)到:4 450字(207句)/每天(7 h)。這是出乎意料的,因?yàn)闃?shù)庫(kù)屬于深加工語(yǔ)料庫(kù),向來(lái)難以兼顧正確性、一致性和標(biāo)注效率??偨Y(jié)其中經(jīng)驗(yàn),最重要一條就是標(biāo)注體系引入了“句式結(jié)構(gòu)”的思想,并且通過(guò)對(duì)黎氏語(yǔ)法圖解法的改進(jìn)和完善,系統(tǒng)地總結(jié)和歸納了漢語(yǔ)的主干句式和擴(kuò)展變換句式。句式結(jié)構(gòu)之所以能起到如此大的促進(jìn)作用,原因在于:首先,句式本身就代表了一種結(jié)構(gòu)格局,其內(nèi)部成分的固定層次結(jié)構(gòu)不再需標(biāo)注人員操刀,而改由程序編碼生成,這就把他們從層次切分或依存弧設(shè)置等瑣碎乏味的操作中解放出來(lái)。其次,“先主干后枝葉”的操作模式貼近人理解句子時(shí)“自頂向下,逐步求精”的認(rèn)知心理。最后,圖解析句法在操作上采納了“依句辨品”的詞類(lèi)觀,按照“主、賓-名、代”、“謂核-動(dòng)、形”的缺省對(duì)應(yīng)關(guān)系編碼,將謂詞的“指稱(chēng)化”和體詞的“陳述化”過(guò)程統(tǒng)一轉(zhuǎn)化為“句法實(shí)現(xiàn)”[15],節(jié)省了大量的詞性標(biāo)注時(shí)間。

        [1]彭煒明,宋繼華,王寧,等.漢語(yǔ)傳統(tǒng)語(yǔ)法及其在中文信息處理中的應(yīng)用展望[J].中文信息學(xué)報(bào),2012(4):50-60.

        [2]呂叔湘.漢語(yǔ)語(yǔ)法分析問(wèn)題[M].北京:商務(wù)印書(shū)館,1979.

        [3]呂叔湘.現(xiàn)代漢語(yǔ)八百詞(增訂本)·現(xiàn)代漢語(yǔ)語(yǔ)法要點(diǎn)[M].北京:商務(wù)印書(shū)館,1980.

        [4]李臨定.現(xiàn)代漢語(yǔ)句型[M].增訂本.北京:商務(wù)印書(shū)館,2011.

        [5]張斌.現(xiàn)代漢語(yǔ)描寫(xiě)語(yǔ)法[M].北京:商務(wù)印書(shū)館,2010.

        [6]范曉.關(guān)于句式問(wèn)題——慶祝《語(yǔ)文研究》創(chuàng)刊30周年[J].語(yǔ)文研究,2010(4).

        [7]范曉.略論句干及其句式[J].山西大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2012(3).

        [8]范曉.論句式意義[J].漢語(yǔ)學(xué)報(bào),2010(3).

        [9]范曉.關(guān)于句式義的成因[J].漢語(yǔ)學(xué)習(xí),2010(4).

        [10]范曉.句式的應(yīng)用價(jià)值初探[J].漢語(yǔ)學(xué)習(xí),2011(5).

        [11]朱德熙.變換分析中的平行性原則[J].中國(guó)語(yǔ)文,1986(2).

        [12]彭煒明,何靜,宋繼華.句本位語(yǔ)法圖解析句系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[C]//第四屆數(shù)字典藏與數(shù)字人文國(guó)際研討會(huì),臺(tái)灣,中國(guó),2012.

        [13]何靜,彭煒明,宋繼華.現(xiàn)代漢語(yǔ)黎氏語(yǔ)法圖解標(biāo)注體系[C]//第十四屆漢語(yǔ)詞匯語(yǔ)義學(xué)國(guó)際研討會(huì)(CLSW2013),鄭州,2013.

        [14]彭煒明.句本位語(yǔ)法數(shù)字化平臺(tái)的建設(shè)和應(yīng)用研究[D].北京:北京師范大學(xué),2012.

        [15]彭煒明,宋繼華,俞士汶.中文信息處理的詞法問(wèn)題——以句本位語(yǔ)法圖解樹(shù)庫(kù)構(gòu)建為背景[C]//第十四屆漢語(yǔ)詞匯語(yǔ)義學(xué)國(guó)際研討會(huì)(CLSW2013),鄭州,2013.

        PENG Weiming1,SONG Jihua2,WANG Ning3

        1.Key Lab of Computational Linguistics,Ministry of Education,Institute of Computational Linguistics,Peking University, Beijing 100871,China
        2.College of Information Science and Technology,Beijing Normal University,Beijing 100875,China
        3.School of Chinese Language and Literature,Beijing Normal University,Beijing 100875,China

        This paper reviews the understanding divergence of the term“sentence pattern”of Chinese grammar scholars; from the perspective of Chinese information processing,it analyses the lack of sentence pattern structure in current syntactic parsing and treebank construction in this field;and gives a recent review of formalization research of Li Jinxi’s grammar system,indicating its strengths and still shortcomings on sentence pattern structure;it uses Li Jinxi’s diagrammatic parsing method as a prototype design of a new type of diagrammatic parsing method of Chinese syntactic structure,specifically including a diagrammatic representation of the syntactic structure and structured XML storage format.

        sentence pattern structure;diagrammatic parsing;parsing method;sentence-based grammar

        A

        TP391

        10.3778/j.issn.1002-8331.1309-0436

        PENG Weiming,SONG Jihua,WANG Ning.Design of diagrammatic parsing method of Chinese based on sentence pattern structure.Computer Engineering and Applications,2014,50(6):11-18.

        國(guó)家社科重大項(xiàng)目(No.12&ZD227);中國(guó)博士后科學(xué)基金面上資助項(xiàng)目(No.2013M530455)。

        彭煒明(1985—),男,博士,講師,主要研究方向?yàn)橹形男畔⑻幚?、詞匯語(yǔ)義學(xué);宋繼華(1963—),男,教授,主要研究方向?yàn)檎Z(yǔ)言信息處理、計(jì)算機(jī)教育應(yīng)用;王寧(1936—),女,教授,主要研究方向?yàn)闈h語(yǔ)言文字學(xué)、文字訓(xùn)詁學(xué)、漢字信息處理。

        2013-09-27

        2013-11-13

        1002-8331(2014)06-0011-08

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-11-15,http://www.cnki.net/kcms/detail/11.2127.TP.20131115.1124.012.html

        猜你喜歡
        圖解句法句式
        句法與句意(外一篇)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        基本句式走秀場(chǎng)
        例析wh-ever句式中的常見(jiàn)考點(diǎn)
        圖解十八屆六中全會(huì)
        群眾(2016年11期)2016-11-28 10:45:58
        圖解天下
        新財(cái)富(2015年8期)2015-11-20 10:34:52
        特殊句式
        關(guān)心健康狀況的問(wèn)答
        免费a级毛片出奶水| 一本久道竹内纱里奈中文字幕| 日本三级片在线观看| 人妻无码αv中文字幕久久琪琪布| 国产精品无码一区二区在线国| 亚洲精品二区在线观看| 日本第一影院一区二区| 日韩精品无码一本二本三本色| 中国极品少妇videossexhd| 亚洲日韩AV无码美腿丝袜| 国产一区二区三区青青草| 亚洲av无码国产精品草莓在线| 亚洲精品永久在线观看| 亚洲国产精品日韩专区av| 亚洲国产精品国自拍av| 人妻少妇乱子伦精品| 久久亚洲黄色| 日韩av在线不卡一二三区| 精品国产成人av久久| a级毛片成人网站免费看| 国产午夜精品久久久久99| 亚洲女同精品一区二区久久| 国产亚洲精品美女久久久m| 国精产品一品二品国在线| 亚洲色无码中文字幕| 一区二区三区午夜视频在线| s级爆乳玩具酱国产vip皮裤 | av免费不卡国产观看| 日本少妇人妻xxxxx18| 国产免费三级三级三级| 国产精品网站91九色| 亚洲伊人色欲综合网| 免费国产黄线在线播放| 国产一区二区三区中出| 伊人精品久久久久中文字幕| 精品无码国产污污污免费| 在线免费观看国产视频不卡| 黄片大全视频在线播放| 看国产黄大片在线观看| 久久精品综合国产二区| 一本久道高清视频在线观看 |