戴茹冰 侍冰清 李 斌 曲維光,**
1南京師范大學(xué)文學(xué)院 江蘇 南京 210097 2南京師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 南京 210023
提要 語(yǔ)義省略是語(yǔ)言使用中存在的一類普遍現(xiàn)象,其省略的信息給機(jī)器自動(dòng)理解造成困難。其中具有語(yǔ)義省略“的”字結(jié)構(gòu),在省略概念添加的類型中所占比例最高。文章利用“的”字局部上下文的詞性和句法信息,通過(guò)動(dòng)詞框架找出具有語(yǔ)義省略的“的”字結(jié)構(gòu)。實(shí)驗(yàn)表明,該方法能夠在CTB8.0(Chinese Treebank)語(yǔ)料中有效識(shí)別出含有語(yǔ)義省略的“的”字結(jié)構(gòu),在測(cè)試集中F1值達(dá)到87%,取得了較好的實(shí)驗(yàn)效果,為機(jī)器對(duì)深層語(yǔ)義的理解奠定基礎(chǔ)。
省略是語(yǔ)言中存在的一種普遍現(xiàn)象,也是語(yǔ)言研究中不可回避的問(wèn)題之一。對(duì)于省略的界定,朱德熙(1982:248)、呂叔湘(1979:67-68)、王維賢(1997:25-26)等學(xué)者分別從句法、語(yǔ)義和語(yǔ)用三個(gè)平面給出定義。但不管哪種形式的省略,總是語(yǔ)形隱而語(yǔ)義存。對(duì)于省略的語(yǔ)義信息,人類可通過(guò)百科知識(shí)和語(yǔ)境信息加以理解,但對(duì)機(jī)器而言,語(yǔ)義省略無(wú)疑會(huì)給機(jī)器理解造成巨大障礙。在語(yǔ)言理論方面,已有學(xué)者從傳統(tǒng)語(yǔ)法、功能語(yǔ)法和認(rèn)知語(yǔ)法等角度做了大量研究。在自然語(yǔ)言處理領(lǐng)域,省略研究多集中在零代詞類別的恢復(fù)和零代詞的指代消解(尹慶宇等 2015)。對(duì)于語(yǔ)義表示,國(guó)內(nèi)外現(xiàn)有的語(yǔ)義資源,包括PropBank(Palmer et al.2005),F(xiàn)rameNet(Collin et al. 1998),Chinese FrameNet(劉開(kāi)瑛 2011)等,對(duì)省略成分的語(yǔ)義標(biāo)注問(wèn)題均未涉及。
近幾年一種新型的句子語(yǔ)義表示方式——AMR(Abstract Meaning Representation,抽象語(yǔ)義表示)(Laura et al. 2013)受到學(xué)界的廣泛關(guān)注。該方法突破了傳統(tǒng)基于句法形式表示語(yǔ)義的方式,允許補(bǔ)充省略或隱含的語(yǔ)義概念以還原句子完整語(yǔ)義。這種概念添加方式對(duì)于漢語(yǔ)中的省略結(jié)構(gòu)同樣有著良好的表示能力,能夠較為完整地補(bǔ)充出省略成分(曲維光等 2017)。李斌等(2017)將AMR語(yǔ)義表示體系引入到漢語(yǔ)中,并對(duì)AMR語(yǔ)料中需要添加的省略語(yǔ)義概念進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)“的”字結(jié)構(gòu)在所有省略概念添加類型中所占比例為45.7%,占有最高比重。
“的”作為現(xiàn)代漢語(yǔ)使用頻率最高的虛詞之一,意義和用法靈活,在各種虛詞中的研究也最為普遍。其中存在部分具有語(yǔ)義省略“的”字結(jié)構(gòu),如“賣(mài)菜的”“開(kāi)車(chē)的”等。這些不依附任何成分而獨(dú)立充當(dāng)名詞性成分的“的”字結(jié)構(gòu)通常在語(yǔ)義上伴有省略的成分。具有語(yǔ)義省略“的”字結(jié)構(gòu)雖然在整個(gè)“的”字語(yǔ)料中所占比例較小,但其所隱含的成分對(duì)于整體語(yǔ)義的理解卻有至關(guān)重要的作用。正確識(shí)別帶有語(yǔ)義省略的“的”字結(jié)構(gòu)能夠有效減少因省略造成的語(yǔ)義自動(dòng)理解障礙,為補(bǔ)充句子完整的語(yǔ)義打下基礎(chǔ)。
在現(xiàn)代漢語(yǔ)中,對(duì)于“的”的研究可追溯到1961年朱德熙《說(shuō)“的”》。他將“的”的用法分為副詞性語(yǔ)法單位的附加成分、形容詞性語(yǔ)法單位的附加成分和名詞性語(yǔ)法單位的附加成分三個(gè)類別。之后,朱德熙(1966)又進(jìn)一步完善關(guān)于“的”字的分類體系,將由謂詞性成分構(gòu)成的“的”字分為兩類:一類是如“吃的”“穿的”可獨(dú)立使用的,表示轉(zhuǎn)指的用法;另一類是不能獨(dú)立表示事物,用來(lái)修飾名詞的表示自指的用法,如“跑步的(時(shí)間)”等。
“的”字結(jié)構(gòu)是名詞性偏正結(jié)構(gòu)的語(yǔ)境變體(徐陽(yáng)春 2003:126),實(shí)質(zhì)是定中關(guān)系的偏正短語(yǔ)中心詞隱去后的短語(yǔ)。其形成特征為詞語(yǔ)后附著一個(gè)“的”字。然而并不是所有具有定中關(guān)系的偏正短語(yǔ)中心詞都可以隱去從而形成“的”字結(jié)構(gòu)。對(duì)于中心詞可省的條件限制,黃國(guó)營(yíng)(1982)、呂叔湘(1999:159-160)從語(yǔ)法角度分析了形如“X+的”結(jié)構(gòu)中X與中心詞的句法關(guān)系,即當(dāng)中心詞為X的主賓語(yǔ)時(shí),中心詞可省??琢钸_(dá)(1992)則從意義角度區(qū)分了X與中心詞的語(yǔ)義類別關(guān)系,并對(duì)X是否具有區(qū)別性總結(jié)了一套形式化的鑒別方式。此外,石毓智(2000)從語(yǔ)言認(rèn)知角度闡釋了“的”字結(jié)構(gòu)的生成機(jī)制。
在語(yǔ)言理論及認(rèn)知方面對(duì)“的”字結(jié)構(gòu)研究較為普遍。在自然語(yǔ)言處理領(lǐng)域,韓英杰等(2011)將“的”納入虛詞用法研究中,基于“三位一體”(虛詞用法詞典、虛詞用法規(guī)則庫(kù)和虛詞用法語(yǔ)料庫(kù))現(xiàn)代漢語(yǔ)廣義虛詞用法知識(shí)庫(kù)(昝紅英和朱學(xué)峰 2009)對(duì)“的”字的用法進(jìn)行自動(dòng)識(shí)別。但因其出現(xiàn)頻率高且用法復(fù)雜,基于規(guī)則的方法識(shí)別效果并不理想。并且鮮有人從省略的語(yǔ)義成分角度關(guān)注“的”字結(jié)構(gòu)表示的語(yǔ)義完整性問(wèn)題。僅從句法角度分類描述“的”的用法和特征,并不能深入挖掘受語(yǔ)境和語(yǔ)言經(jīng)濟(jì)原則制約而省略的中心語(yǔ),還原“的”字結(jié)構(gòu)完整語(yǔ)義。這也是傳統(tǒng)句法表示無(wú)法解決詞內(nèi)分析困境的缺陷之一。
本文以省略“的”字結(jié)構(gòu)為研究對(duì)象,以賓州中文樹(shù)庫(kù)CTB8.0語(yǔ)料(Chinese Treebank,以下簡(jiǎn)稱 CTB)的10000句網(wǎng)絡(luò)媒體語(yǔ)料作為統(tǒng)計(jì)樣本和實(shí)驗(yàn)語(yǔ)料,利用中文AMR的人工標(biāo)注結(jié)果抽取出省略“的”字結(jié)構(gòu)并進(jìn)行人工校對(duì),形成可用于比對(duì)的標(biāo)準(zhǔn)答案。對(duì)其中前5000句AMR語(yǔ)料中因語(yǔ)義省略而需要添加的概念進(jìn)行統(tǒng)計(jì)分析,并以此作為樣本總結(jié)“的”字結(jié)構(gòu)內(nèi)部構(gòu)成規(guī)律及上下文信息特點(diǎn),針對(duì)不同類別“的”字結(jié)構(gòu)制定識(shí)別策略。后5000句作為開(kāi)放測(cè)試語(yǔ)料來(lái)驗(yàn)證省略“的”字結(jié)構(gòu)的識(shí)別效果。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地提取省略“的”字結(jié)構(gòu),從而更好地促進(jìn)機(jī)器對(duì)深層語(yǔ)義的理解。
本文從“的”外部信息出發(fā),結(jié)合語(yǔ)法類詞典《現(xiàn)代漢語(yǔ)八百詞》(呂叔湘 1999)、《現(xiàn)代漢語(yǔ)詞典》(2012年,第六版)、現(xiàn)代漢語(yǔ)廣義虛詞用法知識(shí)庫(kù)(昝紅英和朱學(xué)峰 2009)及CTB8.0網(wǎng)絡(luò)媒體真實(shí)語(yǔ)料,分析省略與非省略“的”字所在上下文特征,并針對(duì)各類別給出不同的識(shí)別策略。
《現(xiàn)代漢語(yǔ)八百詞》把“的”的意義分為7個(gè)義項(xiàng),29種用法,其中省略“的”字結(jié)構(gòu)用法分散在兩個(gè)義項(xiàng)中?!冬F(xiàn)代漢語(yǔ)詞典》(2012年,第六版)把“的”的意義分為6個(gè)義項(xiàng),14種用法,對(duì)省略“的”字結(jié)構(gòu)的描寫(xiě)細(xì)分為5小類,但未給出具體的用法特征。在“三位一體”虛詞用法詞典中,“的”的意義分為11個(gè)義項(xiàng),39種用法,并通過(guò)釋義、用法、例句、搭配等屬性對(duì)助詞“的”的用法進(jìn)行描述。為便于統(tǒng)計(jì),劉秋慧等(2018)對(duì)虛詞用法詞典中“的”的用法設(shè)置合并方案,將出現(xiàn)頻率較低的用法向上合并。合并后的“的”字共為5個(gè)義項(xiàng),9種用法。對(duì)于每類用法的形式化描述規(guī)則主要基于上下文詞性特征。綜合以上語(yǔ)言資源,結(jié)合CTB8.0真實(shí)語(yǔ)料中各類型“的”的分布情況,本文針對(duì)語(yǔ)義省略“的”字結(jié)構(gòu)識(shí)別任務(wù),整合使用頻率較低的用法,總結(jié)了“的”的4個(gè)主要義項(xiàng)和17種用法,基本覆蓋“的”字結(jié)構(gòu)在語(yǔ)料中出現(xiàn)的各種類型?!暗摹钡闹饕x項(xiàng)和用法及在CTB8.0前5000句樣本分析語(yǔ)料中的出現(xiàn)頻率如表1所示。
表1 “的”主要義項(xiàng)及用法描述
義項(xiàng)頻率釋義用法例句義項(xiàng)14563構(gòu)成“的”字短語(yǔ)修飾名詞名|動(dòng)|形|副|介詞短語(yǔ)|小句+的+名國(guó)有企業(yè)代表國(guó)家~實(shí)力。義項(xiàng)2275構(gòu)成“的”字短語(yǔ)代替名詞,即省略“的”字結(jié)構(gòu)名|形|動(dòng)|小句+的[+名]該說(shuō)~都已經(jīng)說(shuō)了。義項(xiàng)3306構(gòu)成“的”字短語(yǔ)做謂語(yǔ)。(若前面有“是”,構(gòu)成“是…的”句式)名|代|形|動(dòng)|小句|四字語(yǔ)+的這帽子(是)我~。義項(xiàng)4148表示一定的語(yǔ)氣,一般用在句子末尾用在陳述句或疑問(wèn)句末尾他什么時(shí)候走~?
其中,義項(xiàng)2“的”字短語(yǔ)代替名詞的用法和義項(xiàng)3的部分“是……的”用例表示的“的”字結(jié)構(gòu)含有語(yǔ)義省略成分,即本文所要識(shí)別的“的”的主要用法。
為識(shí)別省略“的”字結(jié)構(gòu),我們考察其語(yǔ)義省略與非省略用法的差異,通過(guò)比對(duì)二者詞性和句法信息特征,從樣本語(yǔ)料中提取“的”的鄰接成分與共現(xiàn)成分并進(jìn)行統(tǒng)計(jì)分析,總結(jié)其中具有可操作性的判斷特征,制定形式化規(guī)則以有效識(shí)別省略“的”字結(jié)構(gòu)。采用的特征為目標(biāo)詞(“的”)上文離合共現(xiàn)的詞性序列特征及下文緊鄰共現(xiàn)的詞語(yǔ)或詞性特征。
2.1.1 下文特征
非省略“的”字用法主要包含義項(xiàng)1和義項(xiàng)3的部分用例及義項(xiàng)4。從各義項(xiàng)在語(yǔ)料中的出現(xiàn)頻率來(lái)看,非省略用法在整個(gè)語(yǔ)料中所占比例較高,在絕對(duì)數(shù)量上也遠(yuǎn)超省略類型。對(duì)比其與省略“的”字結(jié)構(gòu)用法差異如下:
省略“的”字結(jié)構(gòu)與非省略中義項(xiàng)1用法主要區(qū)別在其下文特征:“的”字下文是否含有被修飾的中心語(yǔ)。例如:(1)本文所舉例句均出自CTB8.0語(yǔ)料。例句中括號(hào)內(nèi)為省略的語(yǔ)義成分。因識(shí)別規(guī)則基于詞性信息,為便于描述,例句中的詞語(yǔ)均采用中文賓州樹(shù)庫(kù)詞性標(biāo)記集來(lái)標(biāo)注詞性。具體信息參見(jiàn)Santorini(1990:1-5)。
(1)國(guó)家/NN 的/DEG 實(shí)力/NN
(2)沒(méi)/AD 來(lái)/VV 的/DEC(人)請(qǐng)/VV 舉手/VV
例(1)中,“的”字前后的修飾語(yǔ)與中心語(yǔ)在句法和語(yǔ)義層面都是完整的,因此判為非省略結(jié)構(gòu)助詞。例(2)“的”字結(jié)構(gòu)修飾的中心語(yǔ)“人”受語(yǔ)境或經(jīng)濟(jì)原則制約而省略,表達(dá)的語(yǔ)義信息不完整,因此判為省略類型。
在區(qū)別二者時(shí)主要觀察“的”字下文的詞語(yǔ)或詞性特征:義項(xiàng)1的“的”字用法中,“的”字下文若為名詞或名詞短語(yǔ),則判斷其后存在中心語(yǔ),為非省略結(jié)構(gòu),即義項(xiàng)1的“的”字下文特征為“的+名詞|名詞短語(yǔ)”。在義項(xiàng)2的“的”字結(jié)構(gòu)中,通過(guò)對(duì)下文鄰接詞位置的詞語(yǔ)和詞性進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)出現(xiàn)頻次最高的詞語(yǔ)和詞性分別為“是”和動(dòng)詞,其中“是”出現(xiàn)頻次為156次,動(dòng)詞出現(xiàn)38次,二者占據(jù)70%以上的比例。從語(yǔ)法結(jié)構(gòu)上看,若“的”下文為動(dòng)詞,動(dòng)詞前的“的”字結(jié)構(gòu)會(huì)被看作一個(gè)整體,作為動(dòng)詞的主語(yǔ),而該主語(yǔ)以“的”字結(jié)尾,缺少中心語(yǔ),可看作語(yǔ)義省略結(jié)構(gòu)。因此我們將義項(xiàng)2“的”字下文特征界定為“的+是|動(dòng)詞”。
對(duì)“的”字用法義項(xiàng)1與義項(xiàng)2的下文特征分析表明,“的”字下文緊鄰共現(xiàn)的詞語(yǔ)或詞性有較明顯的特征。表2中省略結(jié)構(gòu)在“的+名詞|名詞短語(yǔ)”和“的+是|動(dòng)詞”兩類的比例也讓我們有理由預(yù)測(cè)將“的”字下文特征作為識(shí)別規(guī)則可以得到較好的分類效果。
2.1.2 上文特征
省略“的”字結(jié)構(gòu)與義項(xiàng)3和義項(xiàng)4在用法描述上并無(wú)明顯的下文特征區(qū)別,并且上文特征如陳述句、疑問(wèn)句及小句因結(jié)構(gòu)復(fù)雜,在虛詞用法規(guī)則庫(kù)上也未能抽取出嚴(yán)格的形式化特征。結(jié)合呂叔湘(1999:159)對(duì)“的”后中心語(yǔ)可省條件的描述:中心名詞能做前面動(dòng)詞的主語(yǔ)或賓語(yǔ)的,可省。因此我們將省略“的”字結(jié)構(gòu)和非省略語(yǔ)氣詞用法的上文特征區(qū)別定義為:判斷“的”字上文緊鄰的動(dòng)詞所包含的論元結(jié)構(gòu)是否完整,若論元結(jié)構(gòu)完整,“的”字為語(yǔ)氣詞,屬于非省略結(jié)構(gòu);否則,判斷為省略結(jié)構(gòu)。例如:
(3)事物/NN 都/AD 有/VE 正反面/NN 的/SP
(4)你/PN 能/VV 想到/VV 的/DEC(事情),/PU 國(guó)家/NN 早/AD 就/AD 能/VV 想到/VV
例(3)中,動(dòng)詞“有”的必有論元成分“事物”(主語(yǔ))和“正反面”(賓語(yǔ))完整,因此判為非省略類型。例(4)中“的”前動(dòng)詞“想到”的賓語(yǔ)成分缺失,因此判為省略類型。
義項(xiàng)3“的”字短語(yǔ)作謂語(yǔ),包含一類較為特殊句式,即“是……的”句,其中“是”所承擔(dān)的句法功能分為主要謂語(yǔ)動(dòng)詞和與“的”連用表示判斷語(yǔ)氣兩種用法。在樣本分析語(yǔ)料中,該類別中省略“的”字結(jié)構(gòu)所占比例為25.8%(見(jiàn)表2)。鑒于該類沒(méi)有明顯的上下文緊鄰詞性特征,僅將“是……的”句式單獨(dú)列出。
綜上所述,“的”字用法特征可總結(jié)為以下四類: 1)的+名詞|名詞短語(yǔ);2)的+是|動(dòng)詞;3)“是……的”句式;4)其他類型。其中1)類為非省略類型“的”字下文特征,2)類為省略類型“的”字下文特征,3)和4)類型沒(méi)有明顯的上下文緊鄰詞特征,需要進(jìn)一步挖掘深層的語(yǔ)義特征或配合使用語(yǔ)義語(yǔ)法知識(shí)資源來(lái)制定識(shí)別策略。上述4類“的”字結(jié)構(gòu)用法特征中省略及非省略的類型及所占比例詳見(jiàn)表2。
表2 各類“的”字結(jié)構(gòu)省略類型比例
“的”字結(jié)構(gòu)類型省略類型非省略類型個(gè)數(shù)比例個(gè)數(shù)比例的+名詞|名詞短語(yǔ)90.2%459399.8%的+是|動(dòng)詞20495.3%104.7%是……的8325.8%23774.2%其他5751.4%5448.6%
根據(jù)表2數(shù)據(jù),觀察到“的+是|動(dòng)詞”和“的+名詞|名詞短語(yǔ)”兩個(gè)類別可直接根據(jù)下文信息判斷省略與非省略類型。對(duì)于“是……的”句式和“其他”兩類,識(shí)別策略主要依靠“的”字上文的句法成分及所在短語(yǔ)的核心動(dòng)詞的論元結(jié)構(gòu)判斷,每種類型具體識(shí)別策略如下。
2.2.1 “的+名詞|名詞短語(yǔ)”類型識(shí)別策略
對(duì)于名詞短語(yǔ)的判斷,本文基于詞性從CTB樣本分析語(yǔ)料中總結(jié)出65種基本名詞短語(yǔ)及擴(kuò)展模板。該類別“的”下文內(nèi)容主要形式為限定性詞語(yǔ)+名詞|名詞短語(yǔ)(n|np),其中限定性詞語(yǔ)包括:形容詞(VA)|區(qū)別詞(JJ)|動(dòng)詞(VV)|名詞(NN)|代詞(PN)等。在名詞短語(yǔ)中,常會(huì)出現(xiàn)多個(gè)“的”字短語(yǔ)共現(xiàn)的現(xiàn)象。在句法結(jié)構(gòu)中,其結(jié)構(gòu)類型可分為嵌套結(jié)構(gòu)和并列結(jié)構(gòu),即中心語(yǔ)前的多個(gè)限定語(yǔ)之間的結(jié)構(gòu)關(guān)系。但在詞性序列中,表現(xiàn)為多個(gè)限定語(yǔ)+的+n|np 的線性序列,“的”前限定語(yǔ)成分為多種類型,只有中心語(yǔ)為強(qiáng)制出現(xiàn)成分,可為名詞或名詞短語(yǔ)。例如:
(5)他/PN 的/DEG 無(wú)私/AD 奉獻(xiàn)/VV 的/DEC 精神/NN……
其中“的”后的名詞短語(yǔ)為中心語(yǔ)前多個(gè)修飾語(yǔ)的嵌套結(jié)構(gòu)。
本文以有序的BNF(Backus-Naur Form)范式描寫(xiě)每類語(yǔ)言規(guī)則,名詞短語(yǔ)具體形式化描述為:{[AD]+VA|JJ|VV|PN+[的]}+n|np,即“的”下文能與該字符串模式匹配的用法為非省略類型。
2.2.2 “的+是|動(dòng)詞”類型識(shí)別策略
對(duì)于該類別,我們主要判斷“的”下文一元鄰接詞是否為“是”或動(dòng)詞,有時(shí)動(dòng)詞會(huì)受副詞成分修飾,在“是”或動(dòng)詞前加上副詞表達(dá)一定的語(yǔ)氣或程度差異,此時(shí)“是”或動(dòng)詞會(huì)出現(xiàn)在下文二項(xiàng)共現(xiàn)詞的位置。對(duì)于這類現(xiàn)象采取縮減策略對(duì)副詞性成分進(jìn)行歸并處理,避免識(shí)別過(guò)程受副詞成分干擾。該策略識(shí)別結(jié)果為省略類型。
2.2.3 “是……的”類型的識(shí)別策略
該類別主要判斷依據(jù)為“是”和“的”之間的詞語(yǔ)序列,即主謂賓句法成分是否完整。若是完整的序列結(jié)構(gòu),“的”屬于語(yǔ)氣詞,判斷為非省略,否則為省略結(jié)構(gòu)。對(duì)于“是”“的”之間的詞語(yǔ)序列,本文主要依據(jù)詞性序列判斷其語(yǔ)法成分。通過(guò)對(duì)語(yǔ)料中符合該句式的句子統(tǒng)計(jì)分析,得到詞性序列模板(其中每類所列出的模板都為該結(jié)構(gòu)的基本模板,語(yǔ)料中存在大量擴(kuò)展式小類,本文采取縮減策略對(duì)各類擴(kuò)展模板整合歸并,以還原為基本模板,具體縮減策略詳見(jiàn)下頁(yè)表4)。
通過(guò)觀察“的”字上文信息,參考《現(xiàn)代漢語(yǔ)八百詞》對(duì)“是……的”用法描寫(xiě),我們將其細(xì)分為以下四個(gè)小類。表3給出了各小類在“是……的”句中所占比例及是否為省略類型。
表3 “是……的”句式類型比例表
“是……的”句式類型個(gè)數(shù)比例是否為省略是+主謂結(jié)構(gòu)+的 7624.9%省略是+名詞性成分+的237.6%省略是+形容詞成分+的8828.8%非省略是+動(dòng)詞性成分+的11838.7%非省路
每種類型的具體分析及詞語(yǔ)序列的形式化模板描述如下:
1)是+主謂結(jié)構(gòu)+的
該句式強(qiáng)調(diào)動(dòng)作的施事,但當(dāng)“是”前面僅為指示代詞時(shí),由于“是”與“的”之間缺少賓語(yǔ),所以需要將其省略的賓語(yǔ)補(bǔ)充出來(lái)。補(bǔ)充信息多為整個(gè)句子的主語(yǔ),在標(biāo)注時(shí)需要將代詞和前面的指代信息相關(guān)聯(lián),這樣才能較為完整地表示句義。因此該類型為省略結(jié)構(gòu)。詞語(yǔ)序列基本模板:是+NN|NR|PN+{VV}+的。例如:
(6)這/PN 根本/AD 不/AD 是/VC印度/NR 想/VV 看到/VV的/DEC (事情)
2)是+名詞性成分+的
此類型的“是……的”句式,名詞性成分與主語(yǔ)的語(yǔ)義關(guān)系多為領(lǐng)屬、解釋關(guān)系。日常使用中我們?yōu)橥癸@焦點(diǎn),經(jīng)常將“的”后的從屬類省略。在此類別中需要將主語(yǔ)的上位信息補(bǔ)充完整。因此該類型為省略結(jié)構(gòu)。詞語(yǔ)序列基本模板:是+{NN|NR|PN}+的。例如:
(7)樓主/NN 是/VC淮南/NR 礦業(yè)/NN 集團(tuán)/NN的/DEG(人)吧/SP
3)是+形容詞成分+的
這里的形容詞性成分既可以為性質(zhì)形容詞,也可以是形容詞短語(yǔ)。此句式中形容詞性成分已承擔(dān)謂詞功能,因此不必增加省略信息。詞語(yǔ)序列基本模板:是+{VA|JJ}+的。例如:
(8)絕大多數(shù)/CD 中國(guó)人/NN 都/AD 是/VC舒心/VA 愉悅/VA的/SP
4)是+動(dòng)詞性成分+的
這一類別在“是……的”句式中所占比例最高。這里的動(dòng)詞性成分一般是“能愿動(dòng)詞+動(dòng)詞”結(jié)構(gòu)、“動(dòng)詞+可能補(bǔ)語(yǔ)”結(jié)構(gòu)或動(dòng)賓短語(yǔ)。由于動(dòng)詞性成分已出現(xiàn)且不缺少賓語(yǔ),因此這類結(jié)構(gòu)不需要在“的”字后增補(bǔ)內(nèi)容,為非省略結(jié)構(gòu)。詞語(yǔ)序列基本模板:是+{VV}+[NN]+的。例如:
(9)許多/CD 事情/NN 原/AD 是/VC可/VV 避免/VV的/SP
本文將語(yǔ)料中的“是……的”句式,分為以上四種類型。若修飾語(yǔ)過(guò)長(zhǎng)則采用縮減策略,將其修飾語(yǔ)成分歸并再處理,再統(tǒng)一進(jìn)行分類。表4為主要詞語(yǔ)序列縮減策略的示例。
表4 縮減策略示例
縮減序列類型縮減前序列縮減后序列定中結(jié)構(gòu){JJ}+NNNN狀中結(jié)構(gòu){AD}+VV數(shù)量結(jié)構(gòu)CD+M+NNNN并列名詞結(jié)構(gòu){NN}+CC+{NN}NN方位結(jié)構(gòu)NN+LCNN
該類別的識(shí)別策略具體步驟如下:
步驟1:提取“是”“的”中間的詞語(yǔ)序列,依據(jù)表4縮減策略對(duì)提取的詞語(yǔ)序列進(jìn)行縮減;
步驟2:將步驟1縮減后的詞語(yǔ)序列進(jìn)行字符串模式匹配,匹配到表2中的四種類型;
步驟3:根據(jù)步驟2得到的類型結(jié)果,判斷“的”字結(jié)構(gòu)是否為省略類型。
2.2.4 其他類型的識(shí)別策略
在去除“的”字下文特征及“是……的”特殊句式后,剩余的其他類型中,觀察發(fā)現(xiàn)省略“的”所在短語(yǔ)的核心動(dòng)詞的必有論元成分必定是缺失的。如“的”字結(jié)構(gòu)“當(dāng)官員的”指代“當(dāng)官員的人”,其中核心動(dòng)詞“當(dāng)”的必有論元,即施事與受事沒(méi)有全部出現(xiàn)。針對(duì)該類別本文利用動(dòng)詞框架,(2)動(dòng)詞框架(verb frame)指謂語(yǔ)動(dòng)詞所帶核心論元結(jié)構(gòu)。基于斯坦福依存分析結(jié)果和中文謂詞庫(kù)(Chinese Proposition Bank,以下簡(jiǎn)稱CPB)的謂語(yǔ)動(dòng)詞框架詞典識(shí)別“的”字所在短語(yǔ)的核心動(dòng)詞的論元結(jié)構(gòu),進(jìn)而判斷該結(jié)構(gòu)是否含有語(yǔ)義省略成分。該詞典含有每個(gè)謂詞在不同義項(xiàng)下的語(yǔ)義角色框架,共收錄24510個(gè)中文謂詞(包括動(dòng)詞、形容詞等)的26650個(gè)義項(xiàng)的不同語(yǔ)義角色框架(Xue 2008)。上例中,“當(dāng)”在CPB中的動(dòng)詞框架為“Arg0:position holder;Arg1:position”。(3)CPB中使用Arg0,Arg1,Arg2,Arg3,Arg4五種論元表示動(dòng)詞的論元種類。該“的”字結(jié)構(gòu)中“當(dāng)”的必有論元僅出現(xiàn)了框架中的Arg1,而施事未出現(xiàn),這也與上文中呂叔湘對(duì)“的”字結(jié)構(gòu)中心語(yǔ)可省的條件描述相對(duì)應(yīng)。因此可以認(rèn)為,對(duì)比完整意義的“的”字結(jié)構(gòu),在帶有省略語(yǔ)義性質(zhì)的結(jié)構(gòu)中,動(dòng)詞必有論元成分是不完整的。
不同于以上三類基于上下文共現(xiàn)的詞語(yǔ)或詞性序列模板匹配的識(shí)別策略,該類別的識(shí)別策略具體步驟如下:
步驟1:提取“的”字左邊所有的動(dòng)詞在句中的位置,依次放入列表中;
步驟2:根據(jù)列表中內(nèi)容,執(zhí)行以下操作:
1)如果列表中僅存在一個(gè)位置元素,該位置的動(dòng)詞即為核心動(dòng)詞,則跳轉(zhuǎn)至步驟3;
2)如果列表中存在多個(gè)位置元素,提取最后兩個(gè)位置元素Windex1和Windex2,執(zhí)行以下操作:
① 構(gòu)造臨時(shí)句子Snt:Windex1…… Windex2;
② 借助斯坦福依存分析工具,得到Snt中最后兩個(gè)動(dòng)詞間的機(jī)標(biāo)依存分析結(jié)果;
③ 根據(jù)②中機(jī)標(biāo)結(jié)果,判斷兩個(gè)動(dòng)詞間的依存關(guān)系,并根據(jù)依存關(guān)系和動(dòng)詞在CPB中的論元(即后一個(gè)動(dòng)詞是否能做前一個(gè)動(dòng)詞必有論元成分)來(lái)確定后一個(gè)動(dòng)詞是否為核心動(dòng)詞:如果是,則利用依存結(jié)果為后一個(gè)動(dòng)詞補(bǔ)充主語(yǔ)或賓語(yǔ),改造Snt并將原“的”字結(jié)構(gòu)用新Snt替代,跳轉(zhuǎn)至步驟3;如果不是,則將后一個(gè)動(dòng)詞的位置元素從列表中移除,跳轉(zhuǎn)至步驟2。
這里我們就步驟2中若存在多個(gè)動(dòng)詞的“的”字結(jié)構(gòu)時(shí),核心動(dòng)詞的判斷舉例說(shuō)明:
(10)而/AD 同樣/AD應(yīng)該/VV 申請(qǐng)/VV 世界/NN 紀(jì)錄/NN 的/DEC,/PU 還/AD 有/VE 當(dāng)?shù)?NN 負(fù)責(zé)/VV 治安/NN 的/DEC 部門(mén)/NN
例(10)中,根據(jù)“的”字前的動(dòng)詞,從后向前構(gòu)造Snt:應(yīng)該 申請(qǐng)。Windex1是Snt中第一個(gè)動(dòng)詞“應(yīng)該”位置元素,Windex2是Snt中第二個(gè)動(dòng)詞“申請(qǐng)”位置元素。根據(jù)構(gòu)造的Snt調(diào)用斯坦福依存分析器,得到依存分析結(jié)果dobj(應(yīng)該-1,申請(qǐng)-2)。在依存關(guān)系中dobj(direct object)表示直接賓語(yǔ),即“申請(qǐng)”為“應(yīng)該”的直接賓語(yǔ),則后一個(gè)動(dòng)詞做前一個(gè)動(dòng)詞的必有論元成分,因此判斷“申請(qǐng)”為該“的”字結(jié)構(gòu)的核心動(dòng)詞。
步驟3:將核心動(dòng)詞的主賓語(yǔ)與其所在CPB中的最少論元數(shù)義項(xiàng)的論元結(jié)構(gòu)匹配,若核心動(dòng)詞的主賓語(yǔ)與CPB中論元結(jié)構(gòu)不匹配,即核心動(dòng)詞的主語(yǔ)或賓語(yǔ)缺失,則判斷為省略;否則,判斷為非省略。
省略“的”字結(jié)構(gòu)識(shí)別任務(wù)可以看作是一個(gè)分類問(wèn)題,普遍使用的性能評(píng)價(jià)指標(biāo)是精確率(Precision,P),召回率(Recall,R),F(xiàn)1值(F1 score)。精確率是指正確判斷出省略類別的“的”字結(jié)構(gòu)數(shù)量占所有判斷出省略類別的“的”字結(jié)構(gòu)數(shù)量的比例,如公式(i)所示:
(i)
召回率是指正確判斷出省略類別的“的”字結(jié)構(gòu)數(shù)量占所有省略類別“的”字結(jié)構(gòu)數(shù)量的比例,如下頁(yè)公式(ii)所示:
(ii)
F1值(F1 Score,又稱F1 Measure)是精確率和召回率的調(diào)和平均值,如公式(iii)所示:
(iii)
本文基于的AMR表示方法,允許根據(jù)語(yǔ)義靈活增刪概念節(jié)點(diǎn)。該方式通過(guò) thing(物)、person(人)、location(地點(diǎn))等概念節(jié)點(diǎn)的添加,對(duì)于省略“的”字結(jié)構(gòu),能夠較為完整地補(bǔ)充出省略成分,彌補(bǔ)了傳統(tǒng)句法表示的嚴(yán)重缺陷。圖1給出AMR句子對(duì)于省略“的”字結(jié)構(gòu)的示例。
圖1 AMR概念補(bǔ)充省略“的”字結(jié)構(gòu)示例
AMR將句中省略的概念“person(人)”補(bǔ)充出來(lái),作為“開(kāi)車(chē)”的arg0(施事),使省略“的”字結(jié)構(gòu)的意義得到較為完整的表達(dá),也體現(xiàn)出其對(duì)漢語(yǔ)省略結(jié)構(gòu)語(yǔ)義表示的價(jià)值。
本文采用的語(yǔ)料為賓州中文樹(shù)庫(kù) CTB8.0的10000句網(wǎng)絡(luò)媒體語(yǔ)料,利用中文AMR的人工標(biāo)注結(jié)果(4)目前CTB8.0的AMR語(yǔ)料標(biāo)注數(shù)據(jù)已通過(guò)語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)平臺(tái)發(fā)布,由于本文使用早期版本,句子總數(shù)相差149句。語(yǔ)料下載地址https://catalog.ldc.upenn.edu/LDC2019T07。以及后期人工校對(duì),抽取出含有增補(bǔ)概念節(jié)點(diǎn)的“的”字結(jié)構(gòu)作為本文主要的研究對(duì)象。其中前5000句作為樣本語(yǔ)料觀察分析“的”上下文特征及規(guī)則制定,得到省略“的”字結(jié)構(gòu)識(shí)別策略,后5000句作為測(cè)試集驗(yàn)證識(shí)別策略的效果。表5是CTB8.0分析和測(cè)試語(yǔ)料中所包含“的”字類型的基本情況。
表5 CTB“的”字語(yǔ)料數(shù)據(jù)集
語(yǔ)料省略實(shí)例非省略實(shí)例總數(shù)分析語(yǔ)料32049725292測(cè)試語(yǔ)料34461936537
3.3.1 實(shí)驗(yàn)步驟
步驟1:從樣本分析語(yǔ)料中,提取所有“的”字結(jié)構(gòu)。依據(jù)中文AMR人工標(biāo)注結(jié)果,得到所有“的”字結(jié)構(gòu)省略與非省略類別;
步驟2:將所有“的”字結(jié)構(gòu)匹配到2.1節(jié)介紹的4種類型;
步驟3:對(duì)每個(gè)“的”字類型,根據(jù)2.2節(jié)介紹的基于規(guī)則的識(shí)別策略,形成機(jī)標(biāo)結(jié)果;
步驟4:將機(jī)標(biāo)語(yǔ)料與人工校對(duì)的語(yǔ)料即標(biāo)準(zhǔn)答案進(jìn)行對(duì)比,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,評(píng)價(jià)規(guī)則之間的覆蓋性,確定規(guī)則的處理順序;
步驟5:在封閉集中,使用步驟1提取所有“的”字結(jié)構(gòu)。按照步驟4確定的規(guī)則處理順序,處理每個(gè)“的”字結(jié)構(gòu),得到機(jī)標(biāo)結(jié)果。具體如下:1)遍歷規(guī)則處理順序,保留第一個(gè)和該“的”字結(jié)構(gòu)匹配的類型;2)使用1)中該類型對(duì)應(yīng)的識(shí)別策略處理該“的”字結(jié)構(gòu),判斷該“的”字結(jié)構(gòu)是否為省略類型;
步驟6:將機(jī)標(biāo)語(yǔ)料與人工校對(duì)的標(biāo)準(zhǔn)答案進(jìn)行對(duì)比,最終得到語(yǔ)義省略“的”字結(jié)構(gòu)識(shí)別的精確率和召回率等指標(biāo)結(jié)果。
3.3.2 規(guī)則處理順序
本文根據(jù)“的”字結(jié)構(gòu)的分類,旨在找到最有利于正確分類的處理順序,判斷具體哪一種類型需要優(yōu)先處理,然后針對(duì)每種類型分別制定識(shí)別策略得到類型結(jié)果。即需要確定一個(gè)固定的遍歷順序?qū)κ÷浴暗摹弊纸Y(jié)構(gòu)進(jìn)行識(shí)別??紤]各規(guī)則之間的相互覆蓋程度及各類用法在真實(shí)語(yǔ)料文本中的分布概率,規(guī)則描述清晰以及自動(dòng)識(shí)別精確率較高的規(guī)則優(yōu)先級(jí)別高,排在前面優(yōu)先處理。
表6 單獨(dú)抽取類別錯(cuò)誤比例表
抽取類別的+名詞|名詞短語(yǔ)的+是是……的的+動(dòng)詞其他的+是0.0%/0.0%0.0%0.0%是……的97.2%0.0%/2.8%0.0%的+動(dòng)詞54.3%14.2%31.5%/0.0%其他4.0%0.0%96.0%0.0%/
表6為針對(duì)每種類型單獨(dú)從樣本分析語(yǔ)料中抽出屬于該類型“的”,并列舉采取了對(duì)應(yīng)的策略得到的省略類型中錯(cuò)誤分類比例。其中每一行是一種“的”字結(jié)構(gòu)類型的處理結(jié)果,每一列是其錯(cuò)誤分類的“的”字結(jié)構(gòu)中其他類型的比例,旨在尋找是由于哪一種類型沒(méi)有優(yōu)先遍歷而產(chǎn)生錯(cuò)誤分類的比例。表6“的”字結(jié)構(gòu)抽取類別中,單獨(dú)列出“的+是”因?yàn)樵擃愋妥R(shí)別策略的精確率高達(dá)98.2%,如果合并成“的+動(dòng)詞|是”,則會(huì)忽略其他動(dòng)詞的分析。其中,“的+動(dòng)詞”與“的+是”類型可通過(guò)“的”字下文詞語(yǔ)或詞性信息直接判斷且精確率較高,因此優(yōu)先處理這兩類。此外,“是……的”對(duì)“其他”類型影響較大,因此將“是……的”置于“其他”類型之前處理。
綜上,省略“的”字結(jié)構(gòu)識(shí)別模型最優(yōu)的類型處理順序?yàn)椋旱?是→的+名詞|名詞短語(yǔ)→的+動(dòng)詞→“是……的”→其他類型。
3.3.3 實(shí)驗(yàn)結(jié)果
表7和表8是省略“的”字結(jié)構(gòu)識(shí)別模型分別在封閉訓(xùn)練集和開(kāi)放測(cè)試集上的效果。實(shí)驗(yàn)結(jié)果精確率及召回率均在85%以上,在測(cè)試集上整體F1值也達(dá)到87.1%,取得了較好的分類結(jié)果。
表7 省略“的”字結(jié)構(gòu)識(shí)別級(jí)聯(lián)模型封閉訓(xùn)練結(jié)果
精確率召回率F1值的+是|動(dòng)詞93.0%100.0%96.4%是……的84.8%62.2%71.8%其他75.9%75.9%75.9%整體88.4%88.4%88.4%
表8 省略“的”字結(jié)構(gòu)識(shí)別級(jí)聯(lián)模型開(kāi)放測(cè)試結(jié)果
精確率召回率F1值的+是|動(dòng)詞95.7%100.0%97.8%是……的80.0%53.3%64.0%其他68.1%74.6%71.2%整體88.5%85.7%87.1%
為了解不同建模方法對(duì)于省略“的”字結(jié)構(gòu)識(shí)別任務(wù)的優(yōu)劣,本文基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型對(duì)同一任務(wù)進(jìn)行對(duì)比實(shí)驗(yàn)。CRF作為一種判別式的概率無(wú)向圖模型,是在給定一組輸入隨機(jī)變量條件下,輸出隨機(jī)變量的條件概率分布模型。它結(jié)合最大熵模型和隱馬爾科夫模型的特點(diǎn),在詞性標(biāo)注和命名實(shí)體識(shí)別等自然語(yǔ)言處理任務(wù)中得到廣泛應(yīng)用。本文提取當(dāng)前詞、詞性及前后兩個(gè)詞和詞性等上下文語(yǔ)境作為省略“的”字結(jié)構(gòu)識(shí)別特征。為便于和基于規(guī)則的級(jí)聯(lián)模型對(duì)比,CRF模型以相同數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。兩種識(shí)別方法的對(duì)比測(cè)試結(jié)果如表9所示。
表9 省略“的”字結(jié)構(gòu)識(shí)別級(jí)聯(lián)模型及CRF模型對(duì)比測(cè)試結(jié)果
精確率召回率F1值CRF模型82.6%76.2%79.3%級(jí)聯(lián)模型88.5%85.7%87.1%
從表9可以看出,基于規(guī)則的方法實(shí)驗(yàn)效果明顯優(yōu)于基于統(tǒng)計(jì)的CRF模型,且基于統(tǒng)計(jì)的方法對(duì)數(shù)據(jù)需求比較高,即在大規(guī)模語(yǔ)料上表現(xiàn)要優(yōu)于小數(shù)據(jù)集。但從表5實(shí)驗(yàn)數(shù)據(jù)及真實(shí)語(yǔ)料來(lái)看,省略與非省略“的”字結(jié)構(gòu)數(shù)量懸殊,相較于非省略類型,省略“的”字結(jié)構(gòu)在訓(xùn)練和測(cè)試語(yǔ)料的出現(xiàn)頻率較低,因此在類別不均衡的數(shù)據(jù)集上基于統(tǒng)計(jì)的方法效果并不理想。基于規(guī)則的方法雖然在精確率上結(jié)果較好,但召回率在一定程度上受到規(guī)則適用限制的影響,在“是……的”類型和“其他”類型的“的”字結(jié)構(gòu)識(shí)別上表現(xiàn)較差。即便如此,從整體結(jié)果來(lái)看,在現(xiàn)有同等規(guī)模數(shù)據(jù)集下,基于規(guī)則的級(jí)聯(lián)模型F1值超過(guò)CRF模型7.8%,優(yōu)勢(shì)還是較為明顯。
綜上,基于規(guī)則的級(jí)聯(lián)模型和基于統(tǒng)計(jì)的CRF模型在省略“的”字結(jié)構(gòu)識(shí)別任務(wù)中各有優(yōu)劣。但從現(xiàn)有數(shù)據(jù)規(guī)模及實(shí)驗(yàn)結(jié)果來(lái)看,基于規(guī)則的級(jí)聯(lián)模型擁有更好的實(shí)驗(yàn)效果,更適用于省略“的”字結(jié)構(gòu)識(shí)別任務(wù)。
3.3.4 錯(cuò)誤分析
通過(guò)對(duì)實(shí)驗(yàn)中172個(gè)錯(cuò)誤實(shí)例進(jìn)行分析,發(fā)現(xiàn)其中特殊句式依存分析的錯(cuò)誤所占比例較大,如賓語(yǔ)前置句、定語(yǔ)后置句等。
一般在口語(yǔ)使用中,當(dāng)說(shuō)話者有意強(qiáng)調(diào)賓語(yǔ)時(shí),會(huì)將賓語(yǔ)前置,形成賓語(yǔ)+主語(yǔ)+謂語(yǔ)的語(yǔ)序。例如:
(11)吃住/NN 不/AD 花錢(qián)/VV ,/PU午飯/NN 單位/NN 負(fù)責(zé)/VV 的/SP
例(11)的正常語(yǔ)序?yàn)椤皢挝回?fù)責(zé)午飯”,但語(yǔ)料中說(shuō)話者將賓語(yǔ)“午飯”放在主語(yǔ)“單位”之前,形成賓語(yǔ)前置句。對(duì)于此類句子,現(xiàn)有基于依存分析的方法無(wú)法正確識(shí)別各成分間的句法關(guān)系,只能將核心謂詞“負(fù)責(zé)”的論元結(jié)構(gòu)施事定位到“單位”,而受事則為空,因此造成了省略判斷的錯(cuò)誤。
此外,對(duì)于一些定語(yǔ)后置的“的”字結(jié)構(gòu)用法,可將其理解為“中心語(yǔ)在前關(guān)系小句在后”的一種古已有之的漢語(yǔ)句法結(jié)構(gòu)在現(xiàn)代漢語(yǔ)中的延續(xù)。例如:
(12)法律/NN 上/LC 有/VE 規(guī)定/NN ,/PU 對(duì)于/P終身/NN 傷害/NN 非/VC 一次性/AD 能/VV 賠清/VV 的/DEC,/PU 以后/NT 在/P 需要/VV 時(shí)/LC 還/AD 可/VV 繼續(xù)/VV 提出/VV 索賠/NN
(13)故意/AD 傷害/VV 他人/PN 身體/NN 致/VV 人/NN 重傷/VV 的/DEC,/PU 處/VV 三/CD 年/M 以上/LC 十/CD 年/M 以下/LC 有期/JJ 徒刑/NN
對(duì)于這種定語(yǔ)后置句造成的省略結(jié)構(gòu),由于其結(jié)構(gòu)復(fù)雜經(jīng)常會(huì)判斷錯(cuò)誤,但其所在的文本類型比較集中,多為法律文書(shū),后期我們針對(duì)這類文體的“的”字結(jié)構(gòu)進(jìn)行單獨(dú)分析和處理。
本文通過(guò)對(duì)“的”字結(jié)構(gòu)的分析,對(duì)比省略與非省略“的”字結(jié)構(gòu)在句法和語(yǔ)義上的差異,結(jié)合上下文詞性信息和動(dòng)詞框架下論元結(jié)構(gòu)匹配的判斷方法,能夠較為準(zhǔn)確地識(shí)別出帶有語(yǔ)義省略的“的”字結(jié)構(gòu)。
在接下來(lái)的工作中,我們會(huì)進(jìn)一步研究各類文本中復(fù)雜的定語(yǔ)后置“的”字結(jié)構(gòu)及特殊句式,引入特征模板或其他語(yǔ)義語(yǔ)法資源來(lái)提高識(shí)別性能。另外針對(duì)省略“的”字結(jié)構(gòu)對(duì)其缺省的信息進(jìn)行補(bǔ)全,并嘗試將補(bǔ)全的“的”字結(jié)構(gòu)用于語(yǔ)義自動(dòng)解析等工作中。