王笑盈,馮志偉,張 丹,瞿云華*
(1.浙江大學(xué)外國語言文化與國際交流學(xué)院,浙江 杭州 310058;2.杭州師范大學(xué)外語學(xué)院,浙江 杭州 311121)
句子是語言的基本運用單位,以特定句式構(gòu)造而成[1].句式是句子的語法結(jié)構(gòu)格式,它是從大量句例中抽象概括出的、具有共性和本質(zhì)性的語法結(jié)構(gòu)格式.句式研究是漢語語法研究中至關(guān)重要的一部分,是漢語學(xué)界的重要議題.對漢語句式進(jìn)行研究,進(jìn)而構(gòu)建漢語句式系統(tǒng),一方面可滿足深層理解漢語的自身需求;另一方面可直接服務(wù)于漢語自然語言處理的各種應(yīng)用,如漢字輸入、語音識別、文本檢索、漢語自動分詞、信息抽取、機(jī)器翻譯與問答系統(tǒng)等.但是,現(xiàn)有適用于自然語言處理的語法分析體系在分析漢語句式時都無法準(zhǔn)確體現(xiàn)出漢語句子的3個重要特點:1) 漢語作為非形態(tài)語言,語序是其意義的載體,漢語語序既相對固定,又便于靈活變換構(gòu)成新的結(jié)構(gòu)關(guān)系[1-3];2) 虛詞是漢語的重要語法手段,虛詞對實詞的使用具有選擇和限定的關(guān)系[2,4];3) 漢語注重話題,結(jié)構(gòu)松散,多流水句[5-7].現(xiàn)有語法分析體系的缺陷不僅導(dǎo)致對漢語句子本體研究不夠深入,而且也限制了漢語自然語言處理各種應(yīng)用的精度和速度.鑒于此,急需開發(fā)一套能夠準(zhǔn)確全面描述和分析漢語句式的語法體系、歸納漢語句式規(guī)則、服務(wù)漢語句式研究和自然語言處理的系統(tǒng).
目前國內(nèi)外自然語言處理領(lǐng)域中應(yīng)用最廣的語法分析體系是短語結(jié)構(gòu)語法和依存語法.短語結(jié)構(gòu)語法[8](phrase structure grammar)是喬姆斯基用數(shù)學(xué)方法研究自然語言和人工語言的語法理論,其基本思想是句子由短語結(jié)構(gòu)組成.短語結(jié)構(gòu)分為兩大類型:名詞性短語結(jié)構(gòu)(NP)和謂詞性短語結(jié)構(gòu)(VP),S代表句子,S=NP+VP.短語結(jié)構(gòu)語法能夠識別出句子的語序、層次和詞類信息.方立等[9-11]介紹了短語結(jié)構(gòu)語法在漢語中的應(yīng)用;也有一些學(xué)者利用短語結(jié)構(gòu)語法對漢語進(jìn)行分析,姚小烈[12]探索了漢語“的”字結(jié)構(gòu),鄭友階[13]考察了漢語同位句,張瑩[14]研究了漢語人稱代詞相關(guān)句法問題,劉亮[15]分析了漢語輕動詞體系,上述研究考察了某些特定的漢語句子結(jié)構(gòu).同時,短語結(jié)構(gòu)語法在漢語句法自動分析中有廣泛的應(yīng)用,如賓州中文樹庫(Chinese Penn treebank)、斯坦福中文句法分析器(Stanford parser)、Readworld語言信息處理研究院研制的短語結(jié)構(gòu)語法分析器.短語結(jié)構(gòu)語法能夠體現(xiàn)句子線性順序和層級結(jié)構(gòu),但也有不盡如人意之處:它的樹形圖是單標(biāo)記的(如詞類標(biāo)記N,V;詞組類型標(biāo)記NP、VP等),這使得它難以表達(dá)紛繁復(fù)雜的自然語言現(xiàn)象,分析能力過弱[16];短語結(jié)構(gòu)樹中標(biāo)有大量不在句中出現(xiàn)的非終極結(jié)點(NP、 VP等),層次過多;短語結(jié)構(gòu)樹無法體現(xiàn)句中各終極結(jié)點之間的支配關(guān)系[17].
依存語法[18](dependency grammar)是泰尼埃提出的基于詞間關(guān)系的語法,強(qiáng)調(diào)動詞為句子中心,其他詞匯依存于動詞.依存語法的優(yōu)勢體現(xiàn)在依存樹的層次少、結(jié)點少,能夠清晰地表示句中各詞之間的依存關(guān)系.漢語學(xué)者曾對依存語法進(jìn)行了綜述,如馮志偉[19-20]、劉海濤[21];不少學(xué)者采用依存語法研究漢語中的名詞短語[22]、句法歧義結(jié)構(gòu)[23]、并列結(jié)構(gòu)[24],或構(gòu)建長句分析多視圖漢語樹庫[25]等.但是,依存語法忽視了自然語言的語序特點:結(jié)點之間的支配關(guān)系不能直接推導(dǎo)出它們之間的前于關(guān)系.
總之,短語結(jié)構(gòu)語法和依存語法在分析漢語句子時均存在以下缺陷:未能凸顯虛詞對實詞的限定關(guān)系,對漢語流水句的處理也差強(qiáng)人意.
模式語法[注]由于本文中旨在研究漢語句式,因此僅關(guān)注模式語法與句式相關(guān)的特征.(pattern grammar)是Hunston等[26]提出的語言描述模型.模式是以特定方式共現(xiàn)的、兩個或更多虛詞與詞類以及詞類之間的組合,能夠呈現(xiàn)語言真實的線性序列.如:標(biāo)點句“曾是個運動員”的模式為“曾…vshi…個…n”.模式語法采取新穎的編碼方式,使用具體詞形(曾、個)、詞類標(biāo)簽(vshi、n)而非傳統(tǒng)的語法功能范疇標(biāo)簽(NP、VP),清晰地描述了詞類之間的關(guān)系及具體虛詞與實詞詞類之間的關(guān)系,呈現(xiàn)了句子結(jié)構(gòu)信息.在一定程度上,增補(bǔ)了上述語法缺少具體虛詞對于實詞詞類限定關(guān)系描述的功能.利用這一限定關(guān)系,可在漢語自然語言處理中提高對實詞的預(yù)測準(zhǔn)確度,降低計算復(fù)雜度與計算量,從而提升漢語句式分析質(zhì)量.此外,模式的深度淺、長度短、出現(xiàn)頻率高,更適合作為語言特征構(gòu)建自然語言處理中的語言模型.
采用模式理論對英語進(jìn)行的語法分析已經(jīng)發(fā)揮了重要作用.英國陸續(xù)出版了基于模式的詞典與參考語法書,如《The Collins cobuild English language dictionary》[27]、《The Collins cobuild English grammar》[28]、《The Collins cobuild English dictionary》[29]等,這些成果側(cè)重描述在真實語言中常見的、典型的英語模式,增強(qiáng)學(xué)習(xí)者識別和使用英語詞匯及結(jié)構(gòu)的能力.目前模式語法在國內(nèi)的應(yīng)用仍處于起步階段:王勇[30]對模式語法進(jìn)行了介紹;陳功等[31]綜述了模式語法的產(chǎn)生、特點和應(yīng)用價值.個別研究者將模式語法應(yīng)用在英語研究中,如:Huang 等[32]將模式語法運用到學(xué)習(xí)者語法檢查系統(tǒng)中;陳功[33]構(gòu)建了一個面向中國學(xué)生的英語書面語動詞形式錯誤檢查系統(tǒng);熊思塵[34]在不同語域中研究了英語“it模式”;于濤[35]開發(fā)了一套自動識別和抽取英語動詞模式的程序等.但迄今為止,還沒有研究者將模式語法應(yīng)用于漢語句式研究.但模式語法也有其局限性:短語結(jié)構(gòu)語法和依存語法的研究對象是整個句子,而Hunston 等[26]描述的模式不包括主語和表示時間、地點及方式的狀語,因此模式語法的研究范圍僅限于句子片段.若將模式語法應(yīng)用于漢語句式研究,必須對其理論進(jìn)行擴(kuò)展和補(bǔ)充以適應(yīng)漢語句子層面的研究.
綜上所述,為了對漢語句式進(jìn)行深入研究,同時將研究成果服務(wù)于自然語言處理,本研究提出構(gòu)建能夠凸顯漢語句子特征的“現(xiàn)代漢語句子的擴(kuò)展模式語法模型”(后文簡稱為擴(kuò)展模式語法模型),全面描述漢語句式規(guī)則,構(gòu)建漢語句式體系.
針對漢語句式研究,本研究構(gòu)建擴(kuò)展模式語法模型.該模型以模式語法[26]和廣義話題理論[36]為基礎(chǔ),并在漢語句式研究背景下對二者加以擴(kuò)充、改進(jìn)和整合.
模式語法誕生于語料庫研究,基于大量真實語料對語言進(jìn)行可靠性描述.模式語法是對Firth[37]的“搭配(collocation)”研究和Sinclair[38]的“成語原則(idiom principle)”思想的繼承和發(fā)展.該語法繼承了Sinclair的思想,認(rèn)為語言具有短語傾向,即詞語不是孤立存在,而是通過它們的共選關(guān)系而獲得意義.與此同時,模式語法將詞匯看成語言的核心,句法結(jié)構(gòu)和詞項之間具有共選關(guān)系,不能將其分開考察,具體表現(xiàn)為:一方面,特定的句法結(jié)構(gòu)通常與特定的詞項共現(xiàn);另一方面,詞項通常只出現(xiàn)在有限的結(jié)構(gòu)中[26].模式語法最初在描述時著眼于短語層面,因此模式缺失了表示主語和表示時間、地點及方式的狀語等元素.但這些元素在漢語句式研究中是不可或缺的.鑒于此,本研究以模式語法的核心思想為理論指導(dǎo),擴(kuò)充模式元素,進(jìn)而提出擴(kuò)展模式語法,將擴(kuò)展模式的研究范圍提升至句式研究層面.
話題現(xiàn)象是漢語語法的重要特點.趙元任[6]指出在漢語中,把主語和謂語當(dāng)作話題和說明來看待比較合適.考慮到話題是漢語句子的突出特征,本模型在擴(kuò)展模式語法的基礎(chǔ)上引入“廣義話題理論”[39]以深入挖掘漢語句式的話題信息.該理論根據(jù)漢語篇章特點,將實體、時間/處所、狀性/謂性/推理前提等納入話題范圍[36],以邊界明確的標(biāo)點句為基本單位,闡述了漢語話題結(jié)構(gòu)和話題句特征[40].話題自足句對于漢語篇章信息處理有重要意義,話題自足句中話題與說明成對出現(xiàn),結(jié)構(gòu)相對完整,許多上下文信息在話題自足句中已經(jīng)聚集在一起,處理話題自足句可以提高漢語信息處理應(yīng)用系統(tǒng)的性能[41].若僅把標(biāo)點句作為完整的句子來處理顯然會嚴(yán)重影響漢語信息處理系統(tǒng)的性能,是漢語句子自動分析和機(jī)器翻譯質(zhì)量較差的主要原因[36].本模型的話題非自足分析模塊將標(biāo)點句轉(zhuǎn)為語法通順、語義清楚的話題自足句,從而分析和歸納漢語句式類型和特征.
在模式語法與廣義話題理論的基礎(chǔ)上構(gòu)建擴(kuò)展模式語法模型,以彌補(bǔ)短語結(jié)構(gòu)語法、依存語法與模式語法在描述漢語句式時的局限性.本研究在構(gòu)建擴(kuò)展模式語法時,利用基于短語結(jié)構(gòu)語法和依存語法的句法分析器分析出句法樹,并將句法樹轉(zhuǎn)換為擴(kuò)展模式語法的表現(xiàn)形式.在轉(zhuǎn)換過程中,保留了短語結(jié)構(gòu)語法能夠體現(xiàn)句子線性順序和層級結(jié)構(gòu)的優(yōu)勢,同時借鑒了依存語法非終極結(jié)點少的優(yōu)點,并在此基礎(chǔ)上融入了擴(kuò)展模式語法的編碼方式,一方面凸顯虛詞與實詞的限定關(guān)系,另一方面直觀反映句子各元素的線性序列而非非終極結(jié)點的序列.從本質(zhì)上講,擴(kuò)展模式語法與短語結(jié)構(gòu)語法、依存語法是不矛盾的,擴(kuò)展模式語法在繼承此兩種傳統(tǒng)語法精髓的基礎(chǔ)上,進(jìn)行了表現(xiàn)形式的變化,為漢語句式研究提供了新的觀察視角.
本研究利用現(xiàn)代漢語書面語與口語平衡語料庫,通過對把字句擴(kuò)展模式進(jìn)行實例分析,探究在利用擴(kuò)展模式語法分析漢語句式時較傳統(tǒng)語法的優(yōu)勢,從而提出現(xiàn)代漢語句子的擴(kuò)展模式語法類型.如果在本模型增加句子必有成分與漢語特色結(jié)構(gòu),對語料進(jìn)行模式標(biāo)注,將實詞標(biāo)為詞類,虛詞標(biāo)為具體詞形,就有望在今后最終建立漢語句子模式樹庫,總結(jié)出一套凸顯漢語特征的句子模式規(guī)則.
為了同時服務(wù)于漢語句式理論研究和自然語言處理的實際應(yīng)用,本研究提出建立新的句式分析模型——“現(xiàn)代漢語句子的擴(kuò)展模式語法模型”.本模型是一種基于模式語法的考察漢語句式全貌的語言描述模型,關(guān)注漢語的語序特點和虛詞對實詞的限定關(guān)系,同時提高漢語流水句的分析質(zhì)量,以期最終服務(wù)于自然語言處理.本模型包含兩大模塊:標(biāo)點句分析模塊與話題非自足句分析模塊,能夠?qū)?biāo)點句和話題非自足句的句式進(jìn)行統(tǒng)一分析.標(biāo)點句分析模塊對模式語法進(jìn)行擴(kuò)充,將表示主語、時間、地點及方式的介詞短語和副詞短語納入考察范圍,本模塊能夠描述漢語句式構(gòu)成規(guī)則,構(gòu)建漢語句式體系;在此基礎(chǔ)上,話題非自足句分析模塊引入廣義話題理論,補(bǔ)全標(biāo)點句話題,考察漢語流水句的話題-句式特征,進(jìn)而提高流水句的自動處理質(zhì)量.模型具體內(nèi)容見圖1.
圖1 擴(kuò)展模式語法模型
句式研究是現(xiàn)代漢語語法研究中的核心課題之一.早在20世紀(jì)70年代,以朱德熙、呂叔湘、陸儉明、范曉、張斌為首的語法學(xué)家都非常關(guān)注漢語句式研究.朱德熙[42]曾將句式定義為“代表這個句子的有一定的層次構(gòu)造和內(nèi)部結(jié)構(gòu)關(guān)系的抽象的詞類序列”;張斌等[43]在《現(xiàn)代漢語句子》一書中指出句式反映了句子內(nèi)部層次、關(guān)系、成分和特殊標(biāo)志;陸儉明[44]認(rèn)為同一句式通常具有相同的詞類序列、詞語、構(gòu)造層次和內(nèi)部語法結(jié)構(gòu),并指出范曉對漢語句式及其特征做了較為全面的綜述;范曉[45-46]基于前人對漢語句式的研究成果,總結(jié)出漢語句式的四大特征,即線條性、有序性、層次性和抽象性;句式的形式主要以詞類、詞類排序、特定詞語、層次分合、固定格式等體現(xiàn).
本研究提出的擴(kuò)展模式語法模型中,句式的形式以具體虛詞、實詞詞類、具體詞和詞類排序、層次分合、漢語特殊結(jié)構(gòu)等體現(xiàn),凸顯漢語虛詞對實詞的限定作用,能夠體現(xiàn)出漢語學(xué)界認(rèn)可的句式特征:
1) 線條性.句式一般由一個或多個漢語擴(kuò)展模式組成,表現(xiàn)為擴(kuò)展模式按照語流的先后順序排列成線.如擴(kuò)展模式“他…挺…adj”(“他挺高”),擴(kuò)展模式元素他、挺、adj按照先后順序成串出現(xiàn).
2) 有序性.句式內(nèi)部的擴(kuò)展模式不是孤立的,而是互相聯(lián)系互相制約的,有一定的排列規(guī)則.改變了排列次序句式也就改變了,表達(dá)的意義也隨之改變.如擴(kuò)展模式“她…v…n”(“她教學(xué)生”),如果改變?yōu)椤皀…v…她”(“學(xué)生教她”),該句式的句式意義隨之改變.
3) 層次性.句式中擴(kuò)展模式的內(nèi)部結(jié)構(gòu)關(guān)系具有層次性,在本模型中體現(xiàn)為模式流、模式線和模式環(huán):模式間沒有重疊稱為模式線(pattern string),有重疊稱為模式流(pattern flow),大模式嵌套小模式稱為模式環(huán)(pattern loop).如標(biāo)點句“你應(yīng)該掌握提問的技巧”,其句式的擴(kuò)展模式層次體現(xiàn)為:
你…v
v…v… n
v…的…n
擴(kuò)展模式“r…v”和“v…v…n”具有上下層級的關(guān)系,且這兩個模式有重疊部分“v”,因此它們共同組成了模式流;v…的…n”體現(xiàn)了“n”的內(nèi)部構(gòu)成,因此它們共同組成模式環(huán).
4) 抽象性.句式是不同內(nèi)容的具體句的相同語法組合格式的集合.同一句式下的具體句中同一位置上的詞或詞類具有替換關(guān)系.例如標(biāo)點句“我把蘋果吃了”和標(biāo)點句“你把作業(yè)寫了”,其句式的擴(kuò)展模式類型均為“你…把…n…v…了”.在該擴(kuò)展模式中,同一位置上的“你”“我”可統(tǒng)一抽象為元素“v”,同理“蘋果”和“作業(yè)”抽象為“n”,“吃”和“寫”抽象為“v”.
在擴(kuò)展模式語法模型分析句式的框架下,本文中對漢語“把”字句的句式進(jìn)行了分析.“把”字句是現(xiàn)代漢語中極其常用且比較復(fù)雜的句式,一直是漢語語法學(xué)界一個重要研究課題.張伯江[47]將“把”字句句式概括為“A把B v C”,其意義為由A作為起因,針對選定對象B以v的方式進(jìn)行的使B變化為C的行為.本文中基于前人對“把”字句的研究,在語料庫中提取“把”字句,在擴(kuò)展模式語法模型下探索“把”字句更加細(xì)化和準(zhǔn)確的句式類型.
本研究采用總規(guī)模為220萬詞次的浙江大學(xué)現(xiàn)代漢語書面語與口語平衡語料庫中的普通小說和新聞評論子庫.普通小說子庫約5萬詞次,新聞評論子庫約5.3萬詞次.語料均經(jīng)過中國科學(xué)院計算技術(shù)研究所ICTCLAS系統(tǒng)分詞、標(biāo)注,經(jīng)過人工檢查和修正后其準(zhǔn)確率達(dá)98%以上.
在提取“把”字句擴(kuò)展模式時,開放詞類標(biāo)注為詞性,封閉詞類標(biāo)注為具體詞形,其中開放詞類包括名詞、動詞、形容詞、描摹類副詞、區(qū)別詞、處所詞、狀態(tài)詞、擬聲詞、時間詞,封閉詞類包括介詞、助詞、連詞、代詞、方位詞、描摹類之外的副詞、數(shù)詞、量詞、感嘆詞、語氣詞.在自建的220萬詞次現(xiàn)代漢語書面語與口語平衡語料庫中提取句子擴(kuò)展模式,得到漢語句子擴(kuò)展模式庫.基于擴(kuò)展模式樹庫,在普通小說和新聞評論子庫中抽取“把”字句模式.提取時排除“把”作為量詞的結(jié)構(gòu),如“二把手”“推了一把”;排除“把”作為動詞的結(jié)構(gòu),如“嚴(yán)把質(zhì)量關(guān)”.共得到“把”字句265句,其中150句來自普通小說子庫,115句來自新聞評論子庫.
通過對普通小說和新聞評論子庫中抽取的265個“把”字句的總結(jié),共歸納出“把”字句擴(kuò)展模式類型11類,模式實例和具體“把”字句見表1,包含了“把”字句中時間、地點及方式的介詞短語和副詞短語的模式分析.對于這些句式實例化后的話題非自足句補(bǔ)足話題分析,詳見擴(kuò)展模式語法優(yōu)勢第3點.
為了便于歸類,表1第1列為“把”字句的擴(kuò)展模式,第2列為具體“把”字句.通過觀察可發(fā)現(xiàn)依據(jù)擴(kuò)展模式語法模型描述“把”字句,能夠完全反映出漢語“把”字句句式的特征.
首先,“把”字句的線條性體現(xiàn)為各類“把”字句擴(kuò)展模式均按照漢語語流線性排列,例如“把”字句“把瓦罐收起來”的擴(kuò)展模式為“把…n…v…vf”,模式中的各元素之間的順序均按照語流排列;其次,“把”字句有序性體現(xiàn)在模式內(nèi)部元素按照規(guī)則有序排列,且相互制約,這種規(guī)則體現(xiàn)為若改變排列次序,則句子的意義也隨之改變或不符合漢語語法,例如“把”字句“把問題搞清楚”,其擴(kuò)展模式為“把…n…v…adj”,若改變其中任意元素的位置,則會導(dǎo)致該句意義不明且違反了語法規(guī)則;再次,“把”字句的擴(kuò)展模式也具有層次性,其中的名詞性元素“n”在部分情況下可能代表名詞性短語,如果深入研究“n”,就能發(fā)現(xiàn)它與“把”字句的擴(kuò)展模式形成上下層級的關(guān)系,如“把深圳建成
表1 普通小說和新聞評論語域中“把”字句的擴(kuò)展模式
國際城市”的擴(kuò)展模式為“把…n…v…n”,其中最后一個元素n實質(zhì)為名詞短語“國際城市”,若進(jìn)行具體分析可進(jìn)一步將n擴(kuò)展為“n…n”;最后,把字句的擴(kuò)展模式具有抽象性,具有開放性的實詞標(biāo)記為詞類,封閉性的虛詞標(biāo)記為具體詞形,內(nèi)容不同但語法格式相同的“把”字句可抽象為同一“把”字句模式,例如句子“把他抱住”、“把他嚇?biāo)馈钡臄U(kuò)展模式均可歸納為“把… 他…v”.因此,擴(kuò)展模式語法適用于漢語句式研究.
利用擴(kuò)展模式語法模型研究漢語句式相對于短語結(jié)構(gòu)語法和依存語法等傳統(tǒng)語法具有以下優(yōu)勢:
1) 擴(kuò)展模式語法著重體現(xiàn)了句式中虛詞與實詞之間的限定關(guān)系.短語結(jié)構(gòu)語法和依存語法沒有強(qiáng)調(diào)漢語虛詞與實詞的限定關(guān)系.Hunston和Francis[26]指出語言中虛詞對其后的實詞類型有限定作用.文本構(gòu)建的擴(kuò)展模式語法使用詞類或具體詞形的標(biāo)注方式,這樣的編碼方式凸顯了漢語虛詞對實詞的限定關(guān)系,利用這一限定關(guān)系可在漢語自然語言處理中提高對實詞的預(yù)測準(zhǔn)確度,消解部分歧義,降低計算復(fù)雜度與計算量.以“把”字句“把人往房間拉”為例,圖2為短語結(jié)構(gòu)語法和擴(kuò)展模式語法的分析結(jié)果.
圖2 短語結(jié)構(gòu)語法(a)和擴(kuò)展模式語法(b)分析結(jié)果
從圖2(a)可以看出,短語結(jié)構(gòu)語法關(guān)注語法范疇NP與VP內(nèi)部的層級關(guān)系,但不強(qiáng)調(diào)各詞之間的限定關(guān)系;在圖2(b)的擴(kuò)展模式“把…n…往…n…v”中,虛詞“把”“往”以具體詞形體現(xiàn),實詞“人”“房間”以詞類“n”體現(xiàn).圖2(b)不僅能反映出句中5個組成元素的層級關(guān)系,并且能凸顯其中虛詞與實詞之間的限定關(guān)系,尤其能體現(xiàn)出介詞“往”對其后元素的限制:介詞“往”表示動作的方向,通常將其后出現(xiàn)的名詞限制為方位詞、方位短語、處所名詞、方所指示代詞,且一般搭配的動詞是位移性方向動詞.在本例中,介詞“往”之后出現(xiàn)的名詞是處所名詞“房間”,搭配的動詞是位移方向動詞“拉”.由此可見,擴(kuò)展模式語法在捕捉虛詞和實詞的互選關(guān)系時更具優(yōu)勢.
2) 擴(kuò)展模式語法能夠直觀反映句式的線性序列.線性是語言的基本屬性[48].盡管依存語法以層次少、結(jié)點少、體現(xiàn)詞與詞之間的支配關(guān)系的特點彌補(bǔ)了短語結(jié)構(gòu)語法的不足,但依存樹中結(jié)點之間的支配關(guān)系和前于關(guān)系是互相排斥的,只有把表示結(jié)構(gòu)關(guān)系的依存樹轉(zhuǎn)變成表示線性關(guān)系的句子才能推導(dǎo)出句子結(jié)點之間的前于關(guān)系[49].以“把”字句“把紙飛機(jī)拋向窗戶外面”為例,采用兩種分析結(jié)果如下:
圖3 依存語法(a)和擴(kuò)展模式語法(b)分析結(jié)果
從圖3(a)看出,依存樹明確體現(xiàn)出詞與詞之間的支配關(guān)系:核心動詞“拋”支配“把”和“向”,“把”和“向”分別支配“飛機(jī)”和“外面”,“飛機(jī)”和“外面”分別支配“紙”和“窗戶”.但是依存樹無法反映出“紙”前于“飛機(jī)”、“窗戶”前于“外面”的句子真實語序.圖3(b)中的擴(kuò)展模式體現(xiàn)了把字句的真實語序.
3) 依據(jù)擴(kuò)展模式語法補(bǔ)全標(biāo)點句話題,繼而研究漢語句式,有助于提高漢語流水句的自動分析質(zhì)量.補(bǔ)全話題后標(biāo)點句在句法和語義上都是完整的單句,話題與說明成對出現(xiàn),上下文信息集中,這可以解決涉及漢語局部篇章的問題[40].下文通過對比補(bǔ)全話題前后標(biāo)點句的譯文,證明補(bǔ)全話題有利于提高漢語流水句的自動分析質(zhì)量.表2對比了流水句補(bǔ)全話題前后谷歌翻譯的質(zhì)量,下劃線部分是補(bǔ)全的話題.
表2 流水句補(bǔ)全話題前后譯文對照表
將表2中標(biāo)點句補(bǔ)全話題后得到話題自足句.“俺哥”是流水句中各標(biāo)點句的話題.觀察未補(bǔ)全話題流水句的谷歌翻譯結(jié)果,可發(fā)現(xiàn)譯文存在句子成分缺失嚴(yán)重、可讀性差的問題;相比之下,補(bǔ)全話題后的標(biāo)點句譯文質(zhì)量明顯提升,各標(biāo)點句均翻譯準(zhǔn)確,語法正確,可讀性高.翻譯質(zhì)量的提高表明機(jī)器對漢語流水句原文的分析質(zhì)量顯著提升,進(jìn)而說明補(bǔ)全話題是提高漢語流水句自動分析質(zhì)量的有效途徑.
本研究構(gòu)建了擴(kuò)展模式語法模型.該模型內(nèi)置了標(biāo)點句分析模塊與話題非自足句分析模塊:標(biāo)點句分析模塊含有表示主語、時間、地點及方式的介詞短語和副詞短語的模式,以及漢語句子特殊結(jié)構(gòu)模式的功能;話題非自足句分析模塊能夠識別和補(bǔ)全流水句的話題,并對標(biāo)點句和話題非自足句的句式進(jìn)行統(tǒng)一分析,考察漢語流水句的話題-句式特征.
本模型從全新角度分析漢語句式,用擴(kuò)展模式的線性組合和層級構(gòu)造描述句式,并凸顯漢語虛詞對實詞的限定關(guān)系,同時可以對漢語句式進(jìn)行系統(tǒng)的歸納和總結(jié).通過詳細(xì)梳理該模型的背景、概念、特征及優(yōu)勢,認(rèn)為擴(kuò)展模式語法模型將補(bǔ)充和發(fā)展現(xiàn)有的漢語語法體系,對機(jī)器和人學(xué)習(xí)漢語句子都具有可觀的發(fā)展前景和應(yīng)用價值:
1) 擴(kuò)展模式語法模型的構(gòu)建將為描述漢語語法提供新視角.在理論創(chuàng)新方面,本模型結(jié)合模式語法與廣義話題理論,補(bǔ)充句子必有成分,關(guān)注漢語虛詞對實詞的限定關(guān)系以及語序特點和流水句的結(jié)構(gòu)特征;在方法論方面,本模型采用語料庫方法,觀察和歸納漢語句子模式的結(jié)構(gòu)類型,以期彌補(bǔ)傳統(tǒng)漢語句法分析多基于經(jīng)驗、無大量數(shù)據(jù)支持的不足;與此同時,本模型運用自然語言處理中的前沿算法開發(fā)識別和補(bǔ)全話題、提取模式、檢索統(tǒng)計模式的程序,能夠高效分析漢語話題自足句的模式類型和結(jié)構(gòu)特征.
2) 本模型研究成果將服務(wù)于自然語言處理中語言模型的構(gòu)建.傳統(tǒng)基于規(guī)則及基于統(tǒng)計的語言模型均未重視漢語中虛詞對實詞的限制作用,導(dǎo)致運算量過大或精度較低.擴(kuò)展模式語法模型因其虛實結(jié)合、線性順序的特點能夠提高虛詞對實詞的預(yù)測準(zhǔn)確度,降低計算復(fù)雜度與計算量.與此同時,本模型還能夠提高漢語長句自動分析的質(zhì)量和漢語句子處理系統(tǒng)的性能,降低漢語篇章處理的難度.
3) 本模型研究成果將為漢語作為第二語言的教學(xué)提供新視角.相較傳統(tǒng)句法分析,擴(kuò)展模式語法模型產(chǎn)出的句子結(jié)構(gòu)規(guī)則更加簡潔,可以幫助漢語學(xué)習(xí)者把握句子的典型用法、提高語言產(chǎn)出的準(zhǔn)確性和流利性.