宋 柔,葛詩(shī)利,尚 英,盧達(dá)威
(1. 廣東外語(yǔ)外貿(mào)大學(xué) 外語(yǔ)研究與服務(wù)協(xié)同創(chuàng)新中心,廣東 廣州 510420;2. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100086)
面向文本信息處理的漢語(yǔ)句子和小句
宋 柔1,2,葛詩(shī)利1,尚 英2,盧達(dá)威2
(1. 廣東外語(yǔ)外貿(mào)大學(xué) 外語(yǔ)研究與服務(wù)協(xié)同創(chuàng)新中心,廣東 廣州 510420;2. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100086)
小句和句子分別是篇章信息處理的基本單位和復(fù)合單位。但是漢語(yǔ)中,這兩個(gè)概念至今未有公認(rèn)的適用于語(yǔ)言信息處理的界定,這種狀況阻礙了漢語(yǔ)信息處理的發(fā)展。該文將漢語(yǔ)的句子大致界定為自足的廣義話題結(jié)構(gòu),把小句界定為基于廣義話題結(jié)構(gòu)的話題自足句,并提出了這樣界定的語(yǔ)言學(xué)依據(jù)和認(rèn)知依據(jù)。
漢語(yǔ)篇章處理;句子;小句;廣義話題結(jié)構(gòu);話題自足句
通常認(rèn)為,篇章處理的單位是句子。關(guān)于句子的界定,布龍菲爾德[1]提出: “任何一個(gè)句子都是個(gè)獨(dú)立的語(yǔ)言形式,不用任何語(yǔ)法結(jié)構(gòu)包括到任何較大的語(yǔ)言形式里去,單憑這個(gè)事實(shí)就可以把言語(yǔ)里的句子劃分出來(lái)了?!边@里強(qiáng)調(diào)的是獨(dú)立和最大。對(duì)于怎樣界定漢語(yǔ)的句子,至今還缺少深入的研究。語(yǔ)言學(xué)家對(duì)于漢語(yǔ)句子的定義并不一致,比較典型的是趙元任和朱德熙的定義: “句子是最大的語(yǔ)法分析上重要的語(yǔ)言單位。一個(gè)句子是兩頭被停頓限定的一截話語(yǔ)。這種停頓應(yīng)理解為說(shuō)話的人有意作出的。”[2]“句子是前后都有停頓并且?guī)в幸欢ǖ木湔{(diào)表示相對(duì)完整的意義的語(yǔ)言形式。”[3]其中,關(guān)于停頓和句調(diào)的條件在文本中是部分地可檢驗(yàn)的,但“最大的語(yǔ)法分析上重要的語(yǔ)言單位”和“表示相對(duì)完整的意義”則缺少可操作的檢驗(yàn)標(biāo)準(zhǔn)。
邢福義研究復(fù)句,在建立復(fù)句語(yǔ)料庫(kù)時(shí)采用了一種可操作的句子界定方法: “本章對(duì)‘句’的認(rèn)定,遵從‘點(diǎn)號(hào)標(biāo)句’的從眾性原則。標(biāo)句的點(diǎn)號(hào),最具代表性的是句號(hào),其次是問(wèn)號(hào)和感嘆號(hào)?!盵4]這種句子,這里簡(jiǎn)稱“句號(hào)句”,在語(yǔ)言信息處理界也是實(shí)際被采用的。從信息處理的視角看,句號(hào)句比較嚴(yán)重的問(wèn)題在于兩方面:
一是隨意性較大。漢語(yǔ)的句號(hào)和逗號(hào)的句法和功能的劃分并不清楚,不同人的使用習(xí)慣差異較大。以句號(hào)作為句子界定標(biāo)準(zhǔn),缺少理論依據(jù),進(jìn)而缺乏應(yīng)用的指導(dǎo)意義。邢福義雖遵從“點(diǎn)號(hào)標(biāo)句”,但強(qiáng)調(diào)只是在小學(xué)語(yǔ)文課本的范圍內(nèi),因?yàn)檫@個(gè)范圍的語(yǔ)料比較規(guī)范。
二是有時(shí)意義不完整。一般人的印象中,句號(hào)句應(yīng)當(dāng)是意義完整的,事實(shí)并非如此。
例1 (賓州中文樹庫(kù)CTB)
西藏銀行部門積極調(diào)整信貸結(jié)構(gòu),以確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入,加大對(duì)工業(yè)、能源、交通、通信等建設(shè)的正常資金供應(yīng)量。去年新增貸款十四點(diǎn)四一億元,比上年增加八億多元。農(nóng)牧業(yè)生產(chǎn)貸款(包括扶貧貸款)比上年新增四點(diǎn)三八億元;鄉(xiāng)鎮(zhèn)企業(yè)貸款增幅為百分之六十一點(diǎn)八三。
這段話按照句號(hào)切句的原則,分成三個(gè)句子,分別對(duì)西藏銀行部門的工作進(jìn)行抽象表述、給出總體貸款數(shù)據(jù)、給出具體行業(yè)部門貸款數(shù)據(jù)。這三個(gè)句號(hào)的使用是無(wú)可挑剔的。這三個(gè)句子在CTB中標(biāo)注的簡(jiǎn)化形式可以表示為:
[西藏銀行部門積極調(diào)整信貸結(jié)構(gòu), 以確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入, 加大對(duì)工業(yè)、能源、交通、通信等建設(shè)的正常資金供應(yīng)量。]
[*pro* 去年新增貸款十四點(diǎn)四一億元,
*pro* 比上年增加八億多元。]
[農(nóng)牧業(yè)生產(chǎn)貸款(包括扶貧貸款)比上年新增四點(diǎn)三八億元; 鄉(xiāng)鎮(zhèn)企業(yè)貸款增幅為百分之六十一點(diǎn)八三。]
由于采用點(diǎn)號(hào)標(biāo)句原則,這一標(biāo)注丟失了以下信息:
(1) 第3句的主體“西藏銀行部門”和時(shí)間“去年”。
(2) 第2句的第1小句和第2小句的主體“西藏銀行部門”。
我們考察了BLGTB(北京語(yǔ)言大學(xué)廣義話題結(jié)構(gòu)語(yǔ)料庫(kù))的百科全書分庫(kù),該庫(kù)共4 645個(gè)句號(hào)句,其中1 910個(gè)有話題在前面句號(hào)句中,占41.1%,比例很高。小說(shuō)中這類情況沒(méi)那么嚴(yán)重。《鹿鼎記》第一回共632個(gè)句號(hào)句,其中42個(gè)有話題在前面句號(hào)句中,占6.7%,比例雖不很高但也不能無(wú)視。這些數(shù)據(jù)說(shuō)明句號(hào)句作為漢語(yǔ)篇章單位并不合適。
對(duì)比漢語(yǔ)句子的界定研究,漢語(yǔ)小句界定在語(yǔ)言學(xué)界涉及比較多。一般來(lái)說(shuō),凡研究篇章現(xiàn)象的都會(huì)涉及小句的界定,因?yàn)樾【涫瞧碌淖罨镜膯挝?。關(guān)于小句的定義,有幾種觀點(diǎn)。一種是參照英語(yǔ)的方式,把包含謂語(yǔ)的成分都看成小句[5];另一種強(qiáng)調(diào)小句的獨(dú)立性而排斥擔(dān)任句子成分的主謂短語(yǔ)[6];還有一種強(qiáng)調(diào)小句的動(dòng)態(tài)性,小句一定要帶有語(yǔ)調(diào)[7]。
我們不建議在信息處理中采用這些定義。原因是:
(1) 缺乏可操作性。比如以謂語(yǔ)界定小句,因漢語(yǔ)缺乏形式標(biāo)記,謂語(yǔ)的判斷很成問(wèn)題?!八f(shuō)話很快”,既可看成(他(說(shuō)話 很快)),其中“說(shuō)話”是謂語(yǔ)中的主語(yǔ);也可看成((他 說(shuō)話)很快),“說(shuō)話”是主語(yǔ)中的謂語(yǔ)。又比如語(yǔ)調(diào)的判斷。一段文本是否帶語(yǔ)調(diào),在沒(méi)有語(yǔ)氣詞的情況下要靠研究者試驗(yàn)看能不能加語(yǔ)氣詞[7],這是很不可靠的,也無(wú)法自動(dòng)實(shí)現(xiàn)。
(2) 缺乏可應(yīng)用性。缺乏可操作性直接導(dǎo)致無(wú)法應(yīng)用,而研究者缺乏應(yīng)用導(dǎo)向性更使得這些定義缺乏應(yīng)用價(jià)值。比如各種定義都沒(méi)提出一個(gè)主語(yǔ)帶幾個(gè)謂語(yǔ)、中間有逗號(hào)分割的情形怎么辦,但這種情形在真實(shí)文本中很常見。
有些語(yǔ)言信息處理的實(shí)踐出于可操作性的需要,用標(biāo)點(diǎn)句作為小句。但是,標(biāo)點(diǎn)句往往意義不完整。BLGTB的考察表明,一半以上的這種小句缺話題[8],還有一些標(biāo)點(diǎn)句缺說(shuō)明。
本文認(rèn)為,作為漢語(yǔ)文本的信息處理單位,句子和小句的定義應(yīng)當(dāng)滿足如下條件:
(1) 對(duì)于各種漢語(yǔ)文本,可操作,全覆蓋;
(2) 符合語(yǔ)言學(xué)的基本原理;
(3) 具有認(rèn)知意義;
(4) 支持篇章處理的各種應(yīng)用;
本文將說(shuō)明,按照上述條件,漢語(yǔ)篇章中自足的廣義話題結(jié)構(gòu)大致可以看作漢語(yǔ)的句子,話題自足句可以看作小句。
本節(jié)內(nèi)容多已發(fā)表過(guò),但因?yàn)閺V義話題結(jié)構(gòu)和話題自足句是本文的最重要的基本概念,而許多人并不了解,故這里仍占用一些篇幅進(jìn)行概要介紹,細(xì)節(jié)請(qǐng)參看[9]。
2.1 標(biāo)點(diǎn)句和廣義話題結(jié)構(gòu)
我們把逗號(hào)、分號(hào)、句號(hào)、嘆號(hào)、問(wèn)號(hào)、直接引語(yǔ)的引號(hào)以及這種引號(hào)前的冒號(hào)所分隔出的詞語(yǔ)串稱為標(biāo)點(diǎn)句。
篇章的上下文中,如果標(biāo)點(diǎn)句中的一個(gè)成分(包括整個(gè)標(biāo)點(diǎn)句)被另一些標(biāo)點(diǎn)句談?wù)摚瑒t稱前者為后者的話題,后者為前者的說(shuō)明。話題和它的所有說(shuō)明組成一個(gè)話題結(jié)構(gòu)。話題所在標(biāo)點(diǎn)句中話題后面的部分如果也是談?wù)撍模敲匆彩撬囊粋€(gè)說(shuō)明。
這樣的話題包括篇章中被上下文共享的各種成分,主要是主語(yǔ),也包括狀語(yǔ)性、謂語(yǔ)性的成分,甚至某些連詞、介詞等,所以稱為廣義話題,相應(yīng)的話題結(jié)構(gòu)稱為廣義話題結(jié)構(gòu)。有時(shí)為了方便,也將廣義話題,稱作話題。
漢語(yǔ)的廣義話題結(jié)構(gòu)可以用換行縮進(jìn)圖式表示: 每個(gè)標(biāo)點(diǎn)句自成一行,并且當(dāng)一個(gè)標(biāo)點(diǎn)句的話題在另一個(gè)標(biāo)點(diǎn)句中時(shí),前者縮進(jìn)到話題的右側(cè)。采用這種方法,例1可以表示為圖1。
圖1 廣義話題結(jié)構(gòu)的嵌套性
這個(gè)例子展示出廣義話題結(jié)構(gòu)的嵌套性。
2.2 自足的廣義話題結(jié)構(gòu)(自足話題結(jié)構(gòu))
如果一個(gè)廣義話題結(jié)構(gòu)既沒(méi)有話題在上下文中,也沒(méi)有說(shuō)明在上下文中,它就稱為自足的廣義話題結(jié)構(gòu),簡(jiǎn)稱自足話題結(jié)構(gòu)。例1是一個(gè)自足話題結(jié)構(gòu)。例2有14個(gè)標(biāo)點(diǎn)句,組成4個(gè)自足話題結(jié)構(gòu),在圖中用帶圈的數(shù)字標(biāo)示。第3、4標(biāo)點(diǎn)句組成廣義話題結(jié)構(gòu),但需要共享第1標(biāo)點(diǎn)句中的“查繼佐”做外層話題,故不是自足話題結(jié)構(gòu)(圖2)。
例2 (金庸《鹿鼎記》)
圖2 自足話題結(jié)構(gòu)(其中第5標(biāo)點(diǎn)句中的雙豎線隔出新 支話題“雪”。新支話題的概念見文獻(xiàn)[9]
2.3 話題自足句及其生成方法
自足話題結(jié)構(gòu)中的標(biāo)點(diǎn)句,從該結(jié)構(gòu)內(nèi)的上下文中補(bǔ)足了話題和說(shuō)明,所得到的結(jié)果稱為該標(biāo)點(diǎn)句的話題自足句。如果某標(biāo)點(diǎn)句沒(méi)有話題和說(shuō)明在上下文中,只要不是省略,它自身就是話題自足句。這里的“自足”是針對(duì)上下文而言的,即從上下文的字面上看,話題和說(shuō)明已經(jīng)補(bǔ)足了,無(wú)法再補(bǔ)更多成分進(jìn)去。例1的7個(gè)標(biāo)點(diǎn)句可以補(bǔ)足話題成為7個(gè)話題自足句(圖3)。
圖3 話題自足句
我們把話題自足句的生成過(guò)程看成是與篇章中標(biāo)點(diǎn)句的輸入同步發(fā)生的。例1中的話題自足句的生成過(guò)程可以用堆棧操作來(lái)描述(圖4)。
圖4 用堆棧操作生成話題自足句,圖中每個(gè)等號(hào)表示生成一個(gè)話題自足句
話題自足句的生成方法主要是上面描述的堆棧模式,此外還有新支模式、話題后置模式、匯流模式、封閉語(yǔ)段模式,各模式合起來(lái)構(gòu)成廣義話題結(jié)構(gòu)的流水模型。詳見文獻(xiàn)[9]。
本文把漢語(yǔ)的句子大致地界定為自足話題結(jié)構(gòu)。
之所以說(shuō)“大致地”,是因?yàn)橛袝r(shí)一個(gè)自足話題結(jié)構(gòu)因帶有某些連詞而邏輯上不能獨(dú)立,需要與和它相鄰的作為邏輯關(guān)聯(lián)方的自足話題結(jié)構(gòu)合在一起,才能構(gòu)成漢語(yǔ)的句子。這種情況不是很多。限于篇幅,本文不予詳細(xì)討論。
3.1 自足話題結(jié)構(gòu)作為句子的語(yǔ)言學(xué)依據(jù)
趙元任和朱德熙關(guān)于句子定義都要求句子兩頭有停頓,朱德熙還特別提出要有句調(diào)。這兩個(gè)要求,自足話題結(jié)構(gòu)可以說(shuō)是大致滿足的。因?yàn)樽宰阍掝}結(jié)構(gòu)是標(biāo)點(diǎn)句的序列,標(biāo)點(diǎn)句以標(biāo)點(diǎn)分隔,標(biāo)點(diǎn)的功能之一就是表示停頓和語(yǔ)調(diào)。
本文第1節(jié)指出,句子被要求是“最大的語(yǔ)法分析上重要的語(yǔ)言單位”和“表示相對(duì)完整的意義”,缺少可操作的檢驗(yàn)標(biāo)準(zhǔn)。現(xiàn)在,我們從話題—說(shuō)明關(guān)系的視角來(lái)看這兩個(gè)條件。所謂意義相對(duì)完整,就是話題和說(shuō)明都齊全,不需要從上下文中補(bǔ)充;所謂最大,就是從話題—說(shuō)明關(guān)系來(lái)看,沒(méi)有更大的結(jié)構(gòu)可以包容自足話題結(jié)構(gòu)??梢钥闯?,話題—說(shuō)明關(guān)系為句子的檢驗(yàn)提供了可操作的標(biāo)準(zhǔn),而自足話題結(jié)構(gòu)滿足檢驗(yàn)標(biāo)準(zhǔn),因此可以看成漢語(yǔ)的句子。
3.2 自足話題結(jié)構(gòu)與標(biāo)點(diǎn)符號(hào)的關(guān)系
話題—說(shuō)明關(guān)系反映的是事件要素之間或事物屬性之間的關(guān)系,自足話題結(jié)構(gòu)是這種關(guān)系的組合。另一方面,逗號(hào)和句號(hào)的區(qū)別主要反映的是邏輯語(yǔ)義的層次關(guān)系,層次間隔小的用逗號(hào),間隔大的用句號(hào)。因此,自足話題結(jié)構(gòu)的結(jié)束與標(biāo)點(diǎn)符號(hào)是逗號(hào)還是句號(hào)沒(méi)有必然的聯(lián)系。例2中第2標(biāo)點(diǎn)句后面是句號(hào),但并沒(méi)有終結(jié)它所在的自足話題結(jié)構(gòu);第4和第9標(biāo)點(diǎn)句后面是逗號(hào),卻終結(jié)了它們所在的自足話題結(jié)構(gòu)。
當(dāng)然,通常情況下,終結(jié)自足話題結(jié)構(gòu)的標(biāo)點(diǎn),多數(shù)還是句號(hào),這是因?yàn)橐唤M事件或事物關(guān)系表達(dá)完成,在邏輯語(yǔ)義關(guān)系中往往也是較大層次的結(jié)束。
判斷邏輯語(yǔ)義關(guān)系層次間隔的大小,有較強(qiáng)的主觀性。因而,逗號(hào)句號(hào)的選擇也就有比較強(qiáng)的主觀性。這個(gè)結(jié)論的直接推論就是,逗號(hào)和句號(hào)的區(qū)別不能作為劃分句子的依據(jù)。
3.3 自足話題結(jié)構(gòu)與邏輯語(yǔ)義結(jié)構(gòu)的關(guān)系
邏輯語(yǔ)義分析必須建立在自足話題結(jié)構(gòu)分析的基礎(chǔ)之上,或者說(shuō),自足話題結(jié)構(gòu)分析是邏輯語(yǔ)義分析的前提。原因有二。
首先,邏輯語(yǔ)義關(guān)系是基本命題之間的關(guān)系,話題—說(shuō)明關(guān)系正是這種基本命題。所以,要分析邏輯語(yǔ)義關(guān)系,先得找出話題—說(shuō)明關(guān)系。但后者隱藏在自足話題結(jié)構(gòu)中。把自足話題結(jié)構(gòu)整體分析清楚了,得到了其內(nèi)部的話題—說(shuō)明關(guān)系,才談得上分析邏輯語(yǔ)義關(guān)系。
第二,前面已經(jīng)說(shuō)過(guò)邏輯語(yǔ)義關(guān)系的層次分析是帶有主觀性的。其實(shí)不僅是層次間隔的大小,就連邏輯語(yǔ)義關(guān)系的類型判斷也有很強(qiáng)的主觀性。例2中第3、4標(biāo)點(diǎn)句同第5、6標(biāo)點(diǎn)句的關(guān)系,既可以看作時(shí)序關(guān)系,也可以看作人與環(huán)境的對(duì)比關(guān)系,還可以看作人與環(huán)境的并列關(guān)系。因此,如果把邏輯語(yǔ)義關(guān)系分析作為基礎(chǔ),則這個(gè)基礎(chǔ)會(huì)很不牢靠,建筑于其上的工作就會(huì)有坍塌的危險(xiǎn)。
本文把漢語(yǔ)的小句界定為自足話題結(jié)構(gòu)的組分—話題自足句。
4.1 話題自足句的結(jié)構(gòu)
比起自足話題結(jié)構(gòu),話題自足句的結(jié)構(gòu)簡(jiǎn)單,一個(gè)話題只帶一個(gè)說(shuō)明。雖然其說(shuō)明可能又遞歸地構(gòu)成話題-說(shuō)明關(guān)系,但嵌套在里面的說(shuō)明仍然只有一個(gè)。因此,話題自足句具有線性結(jié)構(gòu),即(話題1 話題2 話題n 說(shuō)明),而不是自足話題結(jié)構(gòu)的多分支流水結(jié)構(gòu)。
話題自足句的結(jié)構(gòu)簡(jiǎn)單,還表現(xiàn)在話題嵌套的層次十分有限。BLGTB中話題嵌套路徑的深度分布如表1所示[10]。
表1 話題嵌套深度分布
BLGTB中,話題嵌套的最大深度是5。下面是具有最大嵌套深度的實(shí)例:
例3 (李鵬《為我國(guó)政治經(jīng)濟(jì)和社會(huì)的進(jìn)一步穩(wěn)定發(fā)展而奮斗》)
圖5 話題嵌套深度為5的廣義話題結(jié)構(gòu)
例中嵌套的五層廣義話題是:
各級(jí)領(lǐng)導(dǎo)干部和所有政府工作人員—都—要—努力—去
話題自足句長(zhǎng)度短,結(jié)構(gòu)簡(jiǎn)單,所以作為篇章處理的基本單位—小句,其尺度是合適的。
4.2 話題自足句是文本的認(rèn)知單位
在文本中,相當(dāng)一部分話題自足句的話題和說(shuō)明分屬不同的標(biāo)點(diǎn)句,在空間上是被分隔的;在口語(yǔ)的語(yǔ)流中,它們?cè)跁r(shí)間上也是被分隔的。這就帶來(lái)一個(gè)疑問(wèn): 話題自足句在大腦的認(rèn)知活動(dòng)中,是否有可能作為認(rèn)知單位而存在并被加工呢?下面的分析從不同的角度為這個(gè)問(wèn)題的正面回答提供了支持。
4.2.1 話題自足句作為文本認(rèn)知單位的存在性
(1) 自足話題結(jié)構(gòu)的規(guī)模無(wú)上界
例4(見下頁(yè))是一個(gè)自足話題結(jié)構(gòu),描述白冠長(zhǎng)尾雉的形態(tài)和習(xí)性,帶有45個(gè)標(biāo)點(diǎn)句。容易看出,只要還有內(nèi)容要說(shuō),就還可以加進(jìn)更多的標(biāo)點(diǎn)句,并且無(wú)需重復(fù)話題“白冠長(zhǎng)尾雉”。
廣義話題結(jié)構(gòu)所包含的標(biāo)點(diǎn)句的個(gè)數(shù)稱為廣義話題結(jié)構(gòu)的規(guī)模。該例說(shuō)明,漢語(yǔ)篇章中的廣義話題結(jié)構(gòu)的規(guī)??梢允菬o(wú)限的,它僅僅受到表述需求的限制,并不受認(rèn)知能力的限制。
話題結(jié)構(gòu)規(guī)模無(wú)上界,故話題和靠后的說(shuō)明之間可能隔著許多標(biāo)點(diǎn)句。但是,在實(shí)際的認(rèn)知活動(dòng)中,當(dāng)聽者或讀者接收到某一個(gè)標(biāo)點(diǎn)句(例如“尾羽常用作中國(guó)京劇武生的頭冠”)時(shí),他會(huì)即刻明白這個(gè)標(biāo)點(diǎn)句說(shuō)明的是許多標(biāo)點(diǎn)句前的話題(“白冠長(zhǎng)尾雉”)。這一現(xiàn)象表明,在大腦中,話題與其每一個(gè)用作說(shuō)明的標(biāo)點(diǎn)句都可以直接聯(lián)系,從而可以不計(jì)文本和語(yǔ)流中的時(shí)空距離。這恰好是堆棧模式生成話題自足句的效果,因此也就為話題自足句在認(rèn)知過(guò)程中的客觀存在提供了正面支持。
例4 (《中國(guó)大百科全書》生物卷)
圖6 含有45個(gè)標(biāo)點(diǎn)句的廣義話題結(jié)構(gòu)
(2) 話題嵌套路徑可以自由折返
堆棧模式中話題結(jié)構(gòu)可以自由折返。在例4中,講完
白冠長(zhǎng)尾雉—雄雉—尾羽—其中央兩對(duì)—并具一系列黑栗相間的橫斑。
立刻回退2層話題“尾羽”和“其中央兩對(duì)”,撿起13個(gè)標(biāo)點(diǎn)句前的話題“雄雉”講
白冠長(zhǎng)尾雉—雄雉—喉和胸間橫貫以黑帶;
講完
白冠長(zhǎng)尾雉—雄雉—胸與兩脅—并具栗色寬闊羽緣,—使下體大部呈為此色。
立刻回退3層話題“栗色寬闊羽緣”“胸與兩脅”“雄雉”,撿起25個(gè)標(biāo)點(diǎn)句前的話題“白冠長(zhǎng)尾雉”,講“白冠長(zhǎng)尾雉—雌雉”如何如何。
這種即時(shí)自由折返的前提,顯然是折返的起點(diǎn)與到達(dá)的目的地需要處于同一個(gè)認(rèn)知結(jié)構(gòu)中,即嵌套的各層話題需要處于同一個(gè)認(rèn)知結(jié)構(gòu)中。話題自足句正是這樣的結(jié)構(gòu)。因此,這一現(xiàn)象也為話題自足句作為認(rèn)知單位的存在性提供了支持。
4.2.2 話題自足句的認(rèn)知加工可能性
(1) 話題嵌套路徑的認(rèn)知意義
心理學(xué)曾以多種實(shí)驗(yàn)證明大腦短時(shí)記憶可容納7±2個(gè)組塊。BLGTB中話題嵌套最大深度是5,在大腦短時(shí)記憶可處理的范圍之內(nèi),這個(gè)數(shù)據(jù)支持話題自足句可以作為大腦認(rèn)知處理的工作單位。
此外,話題嵌套路徑的語(yǔ)義是有認(rèn)知基礎(chǔ)的。例3中最大的話題嵌套路徑連同最后的說(shuō)明是:
各級(jí)領(lǐng)導(dǎo)干部和所有政府工作人員—都—要—努力—去—解決實(shí)際工作中的問(wèn)題
從語(yǔ)義上看,這是事件要素路徑的一種:
主體—范圍—相態(tài)—方式—目標(biāo)導(dǎo)引—行為
例4中最大的話題嵌套路徑有兩條,連同他們各自最后的說(shuō)明是:
白冠長(zhǎng)尾雉—雄雉—尾羽—其中央兩對(duì)—呈銀白色,
白冠長(zhǎng)尾雉—雄雉—尾羽—其中央兩對(duì)—并具一系列黑栗相間的橫斑。
這是生物學(xué)的本體結(jié)構(gòu)的路徑,是事物要素路徑的一種:
生物體—子類—部件—部位部件—性狀
這種路徑模式在人的語(yǔ)言習(xí)得過(guò)程中因無(wú)數(shù)次重復(fù)而爛熟于心,所以人不但能理解這樣的話題自足句,而且能采用堆棧方式切掉尾部再續(xù)。這是話題自足句可以作為認(rèn)知單位進(jìn)行加工的正面證據(jù)。
(2) 話題—說(shuō)明關(guān)系的不可穿越性
語(yǔ)料庫(kù)的考察說(shuō)明,話題—說(shuō)明關(guān)系相互嵌套,不能交叉穿越。
例5 (自編)
我們可以說(shuō)“他衣服筆挺,面料很講究,鼻梁上架著一副金絲眼鏡?!保荒苷f(shuō)“他衣服筆挺,鼻梁上架著一副金絲眼鏡,面料很講究?!?/p>
因?yàn)樗鼈兊脑掝}結(jié)構(gòu)不同(圖7):
圖7 話題—說(shuō)明關(guān)系的不可穿越性
后面的說(shuō)法造成了話題—說(shuō)明關(guān)系“衣服—面料很講究,”穿越了另一個(gè)話題—說(shuō)明關(guān)系“鼻梁上—架著一副金絲眼鏡?!?。
話題-說(shuō)明關(guān)系的不可穿越性使得退掉的話題不能被再次共享,進(jìn)而使得話題自足句的動(dòng)態(tài)生成只需要一個(gè)話題自足句大小的存儲(chǔ)空間,并且只需采用堆棧操作(新支模式、話題后置模式、匯流模式、封閉語(yǔ)段模式還需要附加的存儲(chǔ)區(qū)和相關(guān)操作,但數(shù)量很少),這是十分高效的。因此,這一性質(zhì)保障了話題自足句作為認(rèn)知單位即時(shí)進(jìn)行加工的可行性。
(3) 話題自足句的成句性
對(duì)于自然語(yǔ)言中句子的成句性,無(wú)法給出嚴(yán)密的形式化定義,但可以大致地理解為句法通順、語(yǔ)義完整正確清楚。趙元任、朱德熙、沈家煊等人指出,漢語(yǔ)的主謂關(guān)系就是話題—說(shuō)明關(guān)系[2-3,11]。因此可以說(shuō)漢語(yǔ)中結(jié)構(gòu)完整的“成句”的單位,具有話題-說(shuō)明關(guān)系。但是反過(guò)來(lái),一對(duì)具有話題-說(shuō)明關(guān)系的詞語(yǔ)串中間不加標(biāo)點(diǎn)而能連起來(lái)成句,還需要驗(yàn)證。
首先,話題自足句的話題和說(shuō)明是相對(duì)于上下文補(bǔ)全了的,因此語(yǔ)義是相對(duì)完整的,這是成句性的基本保證。
話題自足句的話題和說(shuō)明可能分布在不同的標(biāo)點(diǎn)句中,二者在原文中可能隔著一些詞語(yǔ)和標(biāo)點(diǎn)。這些中隔的成分被去除,少數(shù)情況下有可能造成句法不通或語(yǔ)義不清、語(yǔ)義錯(cuò)亂,從而不成句。據(jù)BLGTB上的考察[8],有6.3%的話題自足句不成句,絕大部分話題自足句是成句的。例如,例5中的話題自足句“他衣服面料很講究,”和“他鼻梁上架著一副金絲眼鏡?!钡榷汲删?。少數(shù)不成句的話題自足句,只需增刪一些結(jié)構(gòu)性成分便能成句,無(wú)須增刪實(shí)義成分。比如,例1的第2標(biāo)點(diǎn)句:
西藏銀行部門以確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入,
該句并不成句,原因是有一個(gè)表示目的的篇章連詞“以”插在中間。原文中有上下文,需要這個(gè)連詞,現(xiàn)在上文沒(méi)有了,這個(gè)連詞就成了多余成分了。但只要暫時(shí)刪除“以”,話題自足句就是成句的:
西藏銀行部門確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入,
連詞“以”并不是被徹底丟棄。當(dāng)進(jìn)行邏輯關(guān)系分析時(shí),參照原有的連詞“以”,便可判斷“確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入”是一個(gè)目的從句。
話題自足句的成句性是一個(gè)很重要的性質(zhì),對(duì)于廣義話題結(jié)構(gòu)分析和應(yīng)用都很有用。單從認(rèn)知加工的角度看,它保證了話題自足句可以以自然方式被直接認(rèn)知。這從消極的視角說(shuō)明話題自足句作為認(rèn)知加工單位是可能的。
如此定義的小句和句子,適合于多個(gè)應(yīng)用領(lǐng)域。限于篇幅本文不再討論其可應(yīng)用性。
我們收集了數(shù)十萬(wàn)字多種語(yǔ)體的漢語(yǔ)篇章語(yǔ)料,按照不同的模式進(jìn)行了廣義話題結(jié)構(gòu)的標(biāo)注,其中3萬(wàn)多標(biāo)點(diǎn)句、30多萬(wàn)字的標(biāo)注語(yǔ)料已經(jīng)發(fā)布。標(biāo)注實(shí)踐證明,這樣的定義對(duì)于漢語(yǔ)文本是可操作、全覆蓋的。
我們必須加強(qiáng)語(yǔ)言信息處理的基礎(chǔ)科學(xué)研究。對(duì)于篇章處理,首先就要解決句子和小句的界定問(wèn)題,這是本文工作的驅(qū)動(dòng)力。本文的工作還是很初步的,需要進(jìn)一步做的課題至少包括:
(1) 大規(guī)模語(yǔ)料標(biāo)注(已經(jīng)標(biāo)注了數(shù)十萬(wàn)字的多種語(yǔ)體的語(yǔ)料);
(2) 廣義話題結(jié)構(gòu)流水模型的完善和精確化;
(3) 話題—說(shuō)明關(guān)系判斷方法及廣義話題結(jié)構(gòu)的計(jì)算模型;
(4) 話題自足句與認(rèn)知的關(guān)系;
(5) 漢語(yǔ)廣義話題結(jié)構(gòu)與邏輯語(yǔ)義結(jié)構(gòu)的關(guān)系;
(6) 廣義話題結(jié)構(gòu)的應(yīng)用。
[1] 布龍菲爾德.語(yǔ)言論[M].袁家驊等譯.北京: 商務(wù)印書館,1979.
[2] 趙元任.漢語(yǔ)口語(yǔ)語(yǔ)法 [M].呂叔湘譯.北京: 商務(wù)印書館,1979.
[3] 朱德熙.語(yǔ)法講義[M].北京: 商務(wù)印書館,1982
[4] 邢福義.漢語(yǔ)復(fù)句研究[M].北京: 商務(wù)印書館,2001.
[5] 屈承熹.漢語(yǔ)篇章語(yǔ)法[M].潘文國(guó)等譯.北京: 北京語(yǔ)言大學(xué)出版社,2006.
[6] 邢福義.漢語(yǔ)語(yǔ)法學(xué)[M].長(zhǎng)春: 東北師范大學(xué)出版社,1996.
[7] 儲(chǔ)澤祥,王文格.現(xiàn)代漢語(yǔ)小句的判斷標(biāo)準(zhǔn)[J].寧夏大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2009(4): 28-35.
[8] 尚英.漢語(yǔ)篇章廣義話題結(jié)構(gòu)理論的實(shí)證性研究[D]. 北京語(yǔ)言大學(xué)博士論文,2014.
[9] 宋柔.漢語(yǔ)篇章廣義話題結(jié)構(gòu)的流水模型[J].中國(guó)語(yǔ)文,2013(6): 483-494.
[10] 盧達(dá)威,宋柔,尚英.從廣義話題結(jié)構(gòu)考察漢語(yǔ)篇章話題認(rèn)知復(fù)雜度[J]. 中文信息學(xué)報(bào),2014(5): 112-124.
[11] 沈家煊.“零句”和“流水句”[J]. 中國(guó)語(yǔ)文,2012(5).
[12] 曹逢甫.漢語(yǔ)的句子與子句結(jié)構(gòu)[M].王靜,譯.北京: 北京語(yǔ)言大學(xué)出版社,2004.
Chinese Sentence and Clause for Text Information Processing
SONG Rou1,2,GE Shili1,SHANG Ying2,LU Dawei2
(1. Guangdon Collaborative Innovation Center for Language Research & Service, Guangdong University ofForeign Studies, Guangzhou, Guangdong 510420, China;2. Information Science Institute, Beijing Language and Cuiture University, Beijing 100086, China)
In text information processing, clause is regarded as the basic unit and sentence the compound unit. Thus far, a lack of operational definitions for these two concepts hinders the development of Chinese information processing. This research defines sentence as Sufficient Generalized Topic Structure roughly and clause as Topic Sufficient Clause based on it. Both definitions are put forward with linguistic and cognitive foundations.
chinese text processing; sentence; clause; generalized topic structure; topic sufficient clause
宋柔(1946—),碩士,教授,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)。E?mail:songrou@126.com葛詩(shī)利(1969—),博士,教授,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)。E?mail:geshili@gdufs.edu.cn
尚英(1979—),博士,講師,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)和對(duì)外漢語(yǔ)教學(xué)。E?mail:shangying229@126.com
2015-07-31 定稿日期: 2016-01-10
國(guó)家自然科學(xué)基金(61171129,61672175);2016年國(guó)家語(yǔ)委重點(diǎn)項(xiàng)目(ZDI135-30)
1003-0077(2017)02-0018-07
TP391
A