駱 琳
(華中科技大學(xué) 中文系,武漢 430074)
“得”作為現(xiàn)代漢語(yǔ)中一個(gè)使用頻率極高、意義用法相當(dāng)復(fù)雜的漢字,在不同的語(yǔ)境和上下文組合中,代表了幾種不同層次、不同類(lèi)屬的語(yǔ)言單位,具有不同的功能,表達(dá)不同的意義。從為計(jì)算機(jī)識(shí)別服務(wù)的目的出發(fā),立足于面向計(jì)算機(jī)的自然語(yǔ)言信息處理,將研究范圍限定在無(wú)論來(lái)源、無(wú)論讀音、無(wú)論詞性,凡字形相同的“得”字均納入我們的討論范圍。
以《漢語(yǔ)大詞典》、《現(xiàn)代漢語(yǔ)詞典》和《現(xiàn)代漢語(yǔ)八百詞》的分類(lèi)為依托,我們將“得”字的用法分為六類(lèi):“得1”為普通動(dòng)詞,“得2”為能愿動(dòng)詞,“得3”為構(gòu)成述補(bǔ)結(jié)構(gòu)的結(jié)構(gòu)助詞,“得4”為動(dòng)態(tài)助詞,“得5”為構(gòu)詞語(yǔ)素,“得6”為專(zhuān)名、借詞用字等其他用法。另外還有一些誤為“得”的錯(cuò)別字,因著眼于計(jì)算機(jī)識(shí)別,不妨稱(chēng)之為“得7”。“得7”與其他類(lèi)型性質(zhì)根本不同,前六類(lèi)根據(jù)需要或提取或排除,而“得7”是在文本預(yù)處理階段即應(yīng)予以校正的對(duì)象,永不會(huì)被提取。
我們的研究思路是在自建真實(shí)文本語(yǔ)料庫(kù)的基礎(chǔ)上,完成對(duì)封閉性訓(xùn)練語(yǔ)料的核對(duì)與標(biāo)注。使用Visual Basic.Net語(yǔ)言自行研制WordParse軟件,完成ACCESS格式的語(yǔ)料分析數(shù)據(jù)庫(kù)建設(shè)及數(shù)據(jù)統(tǒng)計(jì)分析。在自然語(yǔ)言信息處理的研究中,觀察和分析字符串的左右鄰接特征至關(guān)重要。DataWord軟件的研制則為我們建構(gòu)前后接續(xù)觀察和統(tǒng)計(jì)系統(tǒng),更直觀、更迅捷地觀察和統(tǒng)計(jì)字符串的前后接續(xù)狀況提供了便利。
限于篇幅,本文只討論研究成果中涉及對(duì)普通動(dòng)詞“得1”前后接續(xù)特征的觀察和統(tǒng)計(jì)。
判斷自然語(yǔ)言中字符串能否鄰接在語(yǔ)言信息處理研究的許多領(lǐng)域廣為使用,能否鄰接的判斷標(biāo)準(zhǔn)應(yīng)該由大規(guī)模的真實(shí)文本統(tǒng)計(jì)而出,然而由于自然語(yǔ)言中詞語(yǔ)分布的稀疏性,對(duì)判斷標(biāo)準(zhǔn)的準(zhǔn)確性和全面性所造成的干擾,使我們?cè)趯?duì)動(dòng)詞“得”的鄰接特征進(jìn)行判斷時(shí),不得不對(duì)統(tǒng)計(jì)出來(lái)的具體詞形進(jìn)行歸類(lèi),即在對(duì)語(yǔ)料庫(kù)中真實(shí)文本統(tǒng)計(jì)的基礎(chǔ)上通過(guò)內(nèi)省,并結(jié)合專(zhuān)家知識(shí)庫(kù)中的相關(guān)知識(shí),對(duì)詞語(yǔ)進(jìn)行歸類(lèi),用詞語(yǔ)類(lèi)的接續(xù)關(guān)系代替詞形的接續(xù)關(guān)系作為判斷鄰接與限制的依據(jù),并通過(guò)數(shù)據(jù)的統(tǒng)計(jì)來(lái)說(shuō)明動(dòng)詞“得”對(duì)鄰接詞語(yǔ)的選擇性。
“得”左鄰接詞類(lèi)、頻次及頻率列表 表1
從表1中可以看出,在490例含動(dòng)詞“得”結(jié)構(gòu)中共有210個(gè)詞語(yǔ)、18種詞類(lèi)(含標(biāo)點(diǎn))與“得”左鄰接,連接的詞語(yǔ)類(lèi)別相對(duì)較多,并且各個(gè)詞類(lèi)之間的分布也較為均勻。連接頻率最高的是副詞,出現(xiàn)127頻次,占總頻次的26%,這可能與“得”作為一個(gè)普通動(dòng)詞,在通常情況下能夠?yàn)楦痹~所修飾有關(guān)。其次是動(dòng)詞,出現(xiàn) 75頻次,占總頻次的 16%,其中以能愿動(dòng)詞和單音節(jié)典型動(dòng)詞為主。然后是名詞、代詞、助詞和形容詞,雖然數(shù)詞、量詞、時(shí)間詞、專(zhuān)有名詞和習(xí)用語(yǔ)也出現(xiàn)連接,但頻次極低。此外,與“得”左鄰接還出現(xiàn)了51頻次的空位和15頻次的標(biāo)點(diǎn),分別占了總頻次的11%和3%,這與含動(dòng)詞“得”結(jié)構(gòu)主要充當(dāng)謂語(yǔ)有關(guān)。
“得”右鄰接詞類(lèi)、頻次及頻率列表 表2
表2中顯示,在490例含動(dòng)詞“得”結(jié)構(gòu)中共有172個(gè)詞語(yǔ)、18種詞類(lèi)(含標(biāo)點(diǎn))與“得”右鄰接,同樣,連接的詞語(yǔ)類(lèi)別相對(duì)較多,只是各個(gè)詞類(lèi)之間的分布并不均勻,并且連接出現(xiàn)的高頻詞較為集中,如副詞“不”和時(shí)態(tài)助詞“了”均出現(xiàn)48頻次,各占連接總頻次的 10%。當(dāng)然,連接頻率最高的是名詞,出現(xiàn)179頻次,占總頻次的38%,這是由于作為普通動(dòng)詞,“得”具有一般動(dòng)詞的語(yǔ)法功能,在通常情況下,“得”后面都要帶賓語(yǔ),只有在主謂謂語(yǔ)句中,“得”充當(dāng)謂語(yǔ)部分的小謂語(yǔ),而全句的主語(yǔ)正是“得”語(yǔ)義上的關(guān)涉對(duì)象的情況下,“得”可以不帶賓語(yǔ),再就是在“得”前帶有結(jié)構(gòu)助詞“所”的格式中,“得”后也可以不帶賓語(yǔ),因此在“得”的右鄰接中出現(xiàn)了23頻次的空位,占總頻次的5%。其次是助詞,出現(xiàn) 70頻次,占總頻次的 15%,這也與一般動(dòng)詞能后接時(shí)態(tài)助詞“著、了、過(guò)”的語(yǔ)法功能有關(guān)。再就是副詞、動(dòng)詞、數(shù)詞、代詞、結(jié)構(gòu)助詞、形容詞、量詞、連詞和出現(xiàn)頻率極低的區(qū)別詞、語(yǔ)氣詞、介詞以及習(xí)用語(yǔ)。
為了進(jìn)一步驗(yàn)證對(duì)于動(dòng)詞“得”左右接續(xù)能力的考察,我們引入熵的計(jì)算,通過(guò)數(shù)據(jù)的演算進(jìn)一步說(shuō)明“得”對(duì)左右鄰接詞語(yǔ)所具有的選擇性。
熵是一個(gè)描述隨機(jī)變量的不確定性的度量。就熵而言,一個(gè)隨機(jī)變量的熵越大,它的不確定性也越大,信息量也就越大,即正確估計(jì)其值的可能性就越??;相反,一個(gè)隨機(jī)變量的熵越小,它的不確定性也越小,信息量也就越小,即正確估計(jì)其值的可能性就越大。
熵的計(jì)算公式為:
如果X是一個(gè)離散隨機(jī)變量,其概率分布為P(x),x∈X,則X的熵H(X)是:
為了表現(xiàn)某個(gè)詞或某個(gè)詞類(lèi)對(duì)于左右鄰接關(guān)系的選擇性,我們把這個(gè)詞或詞類(lèi)記作 T,把與這個(gè)詞或詞類(lèi)左鄰或右鄰的詞語(yǔ)單位看作隨機(jī)變量L和R,把L和R的取值記作c,則L和R對(duì)于T的條件熵(稱(chēng)作T的左熵和右熵),分別為:
f表示頻次。
顯然,左熵和右熵越小,T左右鄰接詞語(yǔ)的不確定性越小,確定性越大,或者說(shuō)T對(duì)左右鄰接語(yǔ)言單位的選擇性就越強(qiáng);反之,左熵和右熵越大,T左右鄰接詞語(yǔ)的不確定性越大,確定性越小,或者說(shuō)T對(duì)左右鄰接語(yǔ)言單位的選擇性就越弱。
這里我們把“得”當(dāng)作 T,通過(guò)歸并,使與動(dòng)詞“得”鄰接的語(yǔ)言單位都以(詞)類(lèi)的形式鄰接,然后在自建的真實(shí)文本數(shù)據(jù)庫(kù)中,計(jì)算出“得”的左熵和右熵,計(jì)算結(jié)果如下:
左熵H(L/T)= 0.979301 右熵H(R/T)=0.882221
從“得”左熵和右熵的計(jì)算結(jié)果可以看出,動(dòng)詞“得”的左熵和右熵都很高,并且左熵高于右熵,這說(shuō)明動(dòng)詞“得”的左右鄰接詞語(yǔ)(類(lèi))的不確定性很大,即動(dòng)詞“得”對(duì)左右鄰接語(yǔ)言單位的選擇性強(qiáng),并且左邊的選擇性又強(qiáng)于右邊。這正說(shuō)明“得”作為普通動(dòng)詞,其語(yǔ)法功能和句法組合具有較大的靈活性,能與其左右鄰接的詞語(yǔ)類(lèi)別和詞形數(shù)量較多。
“得”不同接續(xù)關(guān)系的左熵與右熵 表3
從表3中熵的計(jì)算結(jié)果可以看出,動(dòng)詞“得”在與不同詞類(lèi)的接續(xù)關(guān)系中熵值各不相同,甚至相差很遠(yuǎn)。例如,動(dòng)詞“得”對(duì)所有能與之鄰接的詞類(lèi)表現(xiàn)出了較強(qiáng)的傾向性,在與副詞的鄰接中左熵最大,因此,對(duì)副詞的選擇不確定性強(qiáng),信息量大,正確估計(jì)其值的可能性小,這與“得”作為普通動(dòng)詞最易受到副詞的修飾相一致,而在與介詞的鄰接中右熵最小,因此,對(duì)介詞的選擇確定性強(qiáng),信息量小,正確估計(jì)其值的可能性大,這也說(shuō)明了動(dòng)詞“得”的賓語(yǔ)更多時(shí)候?yàn)槊~性成分,而非謂詞性成分,故動(dòng)詞“得”與名詞接續(xù),右熵最大。
這一計(jì)算結(jié)果將為后續(xù)搭配概率的統(tǒng)計(jì)分析提供有利的數(shù)據(jù)支持。
在對(duì)漢語(yǔ)動(dòng)詞“得”的左右鄰接特征的考察中,我們以量化研究為基石,以概率統(tǒng)計(jì)為基本手段,以“數(shù)據(jù)驅(qū)動(dòng)”為基本理念,實(shí)現(xiàn)了在大規(guī)模的語(yǔ)料庫(kù)范圍內(nèi)采用基于統(tǒng)計(jì)的方法對(duì)動(dòng)詞“得”在真實(shí)文本中的前后接續(xù)情況進(jìn)行了窮盡性考察??疾旖Y(jié)果表明,“得”的左鄰接,連接詞類(lèi)相對(duì)較多,且各詞類(lèi)之間的分布也較為均勻,以副詞鄰接頻次最高,與動(dòng)詞鄰接,則以能愿動(dòng)詞和單音節(jié)典型動(dòng)詞為主;“得”的右鄰接,雖然連接的詞類(lèi)同樣較多,但分布并不均勻,高頻詞較為集中,以名詞鄰接頻次最高。這與“得”作為一個(gè)普通動(dòng)詞,具有一般動(dòng)詞的語(yǔ)法功能,且含動(dòng)詞“得”結(jié)構(gòu)主要充當(dāng)謂語(yǔ)有關(guān)。
為了進(jìn)一步說(shuō)明“得”對(duì)于左右鄰接關(guān)系的選擇性,我們引入了“熵”的概念,通過(guò)對(duì)“得”的左右熵及不同接續(xù)關(guān)系的左右熵的計(jì)算,其結(jié)果進(jìn)一步驗(yàn)證了我們?cè)诖笠?guī)模真實(shí)文本中對(duì)于動(dòng)詞“得”左右鄰接特征的考察,也為今后搭配概率的統(tǒng)計(jì)分析提供了有利的數(shù)據(jù)支持。
白碩 1995《語(yǔ)言學(xué)知識(shí)的計(jì)算機(jī)輔助發(fā)現(xiàn)》,科學(xué)出版社。
陳曉明、周渝 2004 漢語(yǔ)部分句法分析的研究和發(fā)展趨勢(shì),《貴州大學(xué)學(xué)報(bào)(自科版)》第4期。
馮志偉 1992 計(jì)算語(yǔ)言學(xué)對(duì)理論語(yǔ)言學(xué)的挑戰(zhàn),《語(yǔ)言文字應(yīng)用》第1期。
漢語(yǔ)大詞典編輯委員會(huì) 1991《漢語(yǔ)大詞典》,漢語(yǔ)大詞典出版社。
黃昌寧 1993 關(guān)于處理大規(guī)模真實(shí)文本的談話,《語(yǔ)言文字應(yīng)用》第2期。
李文浩 2013“都”的指向識(shí)別及相關(guān)“都”字句的表達(dá)策略,《漢語(yǔ)學(xué)報(bào)》第1期。
呂叔湘 1980《現(xiàn)代漢語(yǔ)八百詞》,商務(wù)印書(shū)館。
馬希文 1989 從計(jì)算語(yǔ)言學(xué)角度看語(yǔ)法研究,《國(guó)外語(yǔ)言學(xué)》第3期。
吳蔚天、羅建林 1994《漢語(yǔ)計(jì)算語(yǔ)言學(xué)——漢語(yǔ)形式語(yǔ)法和形式分析》,電子工業(yè)出版社。
俞士汶 1999《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)加工——詞語(yǔ)切分與詞性標(biāo)注規(guī)范與手冊(cè)》,北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所。
俞士汶等 1998《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解》,清華大學(xué)出版社。
詹衛(wèi)東 2000 80年代以來(lái)漢語(yǔ)信息處理研究評(píng)述,《當(dāng)代語(yǔ)言學(xué)》第2期。
中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所詞典編輯室 1996《現(xiàn)代漢語(yǔ)詞典》(修訂本),商務(wù)印書(shū)館。