劉鼎甲 張子?jì)?/p>
(北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)與教育研究中心/國(guó)家語(yǔ)言能力發(fā)展研究中心, 北京 100089)
提 要:近年來(lái),句法分析被廣泛應(yīng)用于語(yǔ)言研究,尤其是隨著語(yǔ)料數(shù)據(jù)的成倍增長(zhǎng),自動(dòng)分析方法和工具的運(yùn)用更顯重要。 然而,原本用于自然語(yǔ)言處理研究的自動(dòng)句法分析方法和工具的適用性、準(zhǔn)確性學(xué)界尚不了解,尤其在跨語(yǔ)言、跨文體研究中的適用性和特征的顯著性未加檢驗(yàn),使得研究者不敢貿(mào)然使用,因而自動(dòng)句法分析在實(shí)證語(yǔ)言研究中的信度是問(wèn)題的關(guān)鍵。 為此,本文考察和比較當(dāng)前3 種主流的句法分析工具Stanford Parser,Mate Parser 和Malt Parser 用于英、漢語(yǔ)言自動(dòng)句法分析的準(zhǔn)確性,并在此基礎(chǔ)上以科技、新聞、社會(huì)科學(xué)和文學(xué)文體為例,在依存句法框架下對(duì)英語(yǔ)源語(yǔ)、翻譯漢語(yǔ)與原創(chuàng)漢語(yǔ)的差異性進(jìn)行考察,借以討論依存句法分析方法在跨語(yǔ)言、跨文體研究中的適用性和特征的顯著性。
句法是語(yǔ)言研究的核心問(wèn)題之一(Valin 2001:1),但長(zhǎng)久以來(lái)缺乏實(shí)證研究的傳統(tǒng)(Biber et al. 1998:55)。 近年來(lái),上述限制正逐漸被打破。 首先,句法在語(yǔ)言本體的研究已在語(yǔ)料庫(kù)短語(yǔ)學(xué)研究和配價(jià)的框架下進(jìn)行。 前者主張?jiān)~匯與語(yǔ)法的統(tǒng)一,通過(guò)共選產(chǎn)生意義,體現(xiàn)出詞語(yǔ)互選的傾向性(甄鳳超2019:36,許家金2020:1 -10),具體的考察對(duì)象包括搭配、語(yǔ)義韻、語(yǔ)義傾向和類(lèi)連接(Sinclair 2004)。 后者以詞匯為切入點(diǎn),通過(guò)“局部描寫(xiě)”方法來(lái)描述詞匯間的潛在結(jié)合能力,且這種潛在能力只有在語(yǔ)言使用時(shí)被激活(劉海濤2009:23),彌補(bǔ)傳統(tǒng)次范疇化的成分語(yǔ)法割裂句法和語(yǔ)義的不足。 其次,復(fù)雜性(complexity)是句法研究重要應(yīng)用領(lǐng)域。 當(dāng)前,復(fù)雜性分析已成為歷史(歷時(shí))句法學(xué)、語(yǔ)言習(xí)得和語(yǔ)言演變3 個(gè)主要發(fā)展領(lǐng)域的重要問(wèn)題(Givón 2009:7),研究的焦點(diǎn)在句法復(fù)雜度的特征、復(fù)雜度計(jì)量以及句法復(fù)雜度和語(yǔ)言類(lèi)型、文體學(xué)、語(yǔ)言發(fā)展、語(yǔ)言習(xí)得和跨語(yǔ)言對(duì)比等領(lǐng)域(Gibson 1998;Dahl 2004; Crossley, McNamara 2014; Mancilla et al. 2015;雷蕾2017;朱周曄王金銓2020;胡韌奮2021)。 目前,已有研究利用自動(dòng)句法分析方法,通過(guò)語(yǔ)句長(zhǎng)度、從屬結(jié)構(gòu)數(shù)量、并列結(jié)構(gòu)數(shù)量和短語(yǔ)復(fù)雜度等多個(gè)維度的計(jì)算,對(duì)多達(dá)幾十個(gè)句法復(fù)雜度測(cè)量指標(biāo)進(jìn)行自動(dòng)化分析,如Biber Tagger(Biber 1988)、Coh-Metrix 3.0(Graesser et al. 2004)和L2SCA(Lu 2010), TAASSC(Kyle 2016)。
然而,準(zhǔn)確的句法分析需要經(jīng)專(zhuān)業(yè)人員手工進(jìn)行,耗時(shí)費(fèi)力,效率和準(zhǔn)確率都不高(雷蕾2017:2)。 此外,人工標(biāo)注主觀因素影響大,標(biāo)注結(jié)果一致性差。 相比而言,采用計(jì)算機(jī)程序自動(dòng)標(biāo)注具有快速、客觀的優(yōu)勢(shì)。 尤其是基于語(yǔ)料庫(kù)的研究,勢(shì)必要對(duì)語(yǔ)料庫(kù)進(jìn)行自動(dòng)詞性賦碼和句法標(biāo)注(梁茂成等2010:201),但標(biāo)注的準(zhǔn)確性需要細(xì)致的實(shí)驗(yàn)和考證。 有學(xué)者對(duì)詞性賦碼的信度進(jìn)行過(guò)考察(梁茂成2006),指出詞性賦碼工具在二語(yǔ)習(xí)得研究中具有較高的可靠性,為語(yǔ)料庫(kù)研制和語(yǔ)言研究中語(yǔ)法關(guān)系的考察掃清障礙,但也同時(shí)指出當(dāng)前句法分析的困境。 近年來(lái),自動(dòng)句法分析方法和技術(shù)已取得進(jìn)展(劉鼎甲王克非2018),對(duì)語(yǔ)料庫(kù)實(shí)施句法標(biāo)注的障礙正在逐漸被打破,但自動(dòng)句法分析方法用于語(yǔ)言研究的信度考察仍是一個(gè)亟待解決的問(wèn)題,使得研究者不敢貿(mào)然對(duì)基于自動(dòng)句法分析的語(yǔ)料進(jìn)行深入的闡釋?zhuān)℉unston, Francis 2000)。 有鑒于此,本文旨在對(duì)數(shù)據(jù)分析的準(zhǔn)確性進(jìn)行實(shí)證考察,并以翻譯漢語(yǔ)句法特征為例,考察依存句法分析方法在跨語(yǔ)言、跨文體研究中的適用性和特征的顯著性,以期對(duì)自動(dòng)句法分析方法在實(shí)證語(yǔ)言研究中的信度做初步探索。
本研究擬回答以下問(wèn)題:(1)使用自動(dòng)依存分析工具對(duì)英漢語(yǔ)言的自動(dòng)句法分析,分析的準(zhǔn)確率如何,自動(dòng)句法分析的準(zhǔn)確率與句子形式和文體存在何種關(guān)聯(lián);(2)自動(dòng)句法分析主要呈現(xiàn)何種錯(cuò)誤類(lèi)型,是否存在顯著的差異性;(3)句法分析方法及其自動(dòng)分析工具用于跨語(yǔ)言實(shí)證研究的適用性和特征顯著性如何?
本研究的語(yǔ)料取自“中國(guó)英漢平行語(yǔ)料庫(kù)”(CECPC),總庫(kù)容103,766,292 形符,包括非文學(xué)和文學(xué)兩個(gè)子類(lèi)。 其中非文學(xué)部分包含科技、社科和新聞,文學(xué)部分包含傳記、散文、小說(shuō)、戲劇和兒童文學(xué)等主題。 首先,在自動(dòng)分析工具的準(zhǔn)確性分析部分,為最大程度的驗(yàn)證自動(dòng)句法分析在真實(shí)語(yǔ)料中的準(zhǔn)確度,控制手工分析的難度,本文采用隨機(jī)抽樣的方法使用R4.0.3 的sample 函數(shù)分別從文學(xué)和非文學(xué)兩個(gè)文類(lèi)中抽取原創(chuàng)英語(yǔ)和漢語(yǔ)各100 句,共計(jì)400 句。
其次,在翻譯漢語(yǔ)句法特征分析中,本文從CECPC 中進(jìn)行采樣,抽取科技、社科、新聞和文學(xué)4 種文體英譯漢語(yǔ)料各20 萬(wàn)字/詞,并抽取蘭卡斯特現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(LCMC)中的科學(xué)、自傳和議論文與官方文檔、媒體和普通小說(shuō)作為原創(chuàng)漢語(yǔ)文本與上述各文體中翻譯漢語(yǔ)進(jìn)行對(duì)比分析,具體數(shù)據(jù)如表1所示。
表1 數(shù)據(jù)統(tǒng)計(jì)
根據(jù)劉鼎甲和王克非(2018),本文選取可以免費(fèi)獲取、使用廣泛且其報(bào)告的分析準(zhǔn)確率最高的3 種決策式自動(dòng)句法分析工具,包括:基于機(jī)器學(xué)習(xí)的Malt Parser(Nivre et al. 2006)、Mate Parser(Bohnet, Nivre 2012)和基于神經(jīng)網(wǎng)絡(luò)的Stanford Parser(Chen, Manning 2014)進(jìn)行對(duì)比考察。 為最大可能降低訓(xùn)練集對(duì)句法分析精度的影響,提高準(zhǔn)確性,實(shí)現(xiàn)對(duì)漢語(yǔ)的支持,本研究使用Penn2Malt 分別將完整的賓州樹(shù)庫(kù)和賓州漢語(yǔ)樹(shù)庫(kù)等價(jià)轉(zhuǎn)換為依存樹(shù)庫(kù),并統(tǒng)一使用Universal Dependency 進(jìn)行依存關(guān)系標(biāo)注,然后對(duì)3 個(gè)分析器進(jìn)行完整訓(xùn)練,分別獲得英語(yǔ)和漢語(yǔ)分析模型。
觀察自動(dòng)標(biāo)注工具的錯(cuò)誤類(lèi)型和理解導(dǎo)致錯(cuò)誤的成因,有助于通過(guò)預(yù)處理提高自動(dòng)標(biāo)注的準(zhǔn)確性,并在實(shí)際研究中有目標(biāo)地減少自動(dòng)標(biāo)注錯(cuò)誤對(duì)研究結(jié)果的影響。 根據(jù)Nivre 等(2006)與Chang 等(2009),分別將英漢主要依存關(guān)系按照其語(yǔ)法結(jié)構(gòu)類(lèi)型劃分為短語(yǔ)結(jié)構(gòu)和句子結(jié)構(gòu),其中短語(yǔ)結(jié)構(gòu)的中心成分為名詞節(jié)點(diǎn),句子結(jié)構(gòu)的中心成分為動(dòng)詞節(jié)點(diǎn)。 短語(yǔ)結(jié)構(gòu)的依存關(guān)系按照名詞中心成分所支配成分間關(guān)系,可劃分為修飾關(guān)系和功能關(guān)系。 前者表現(xiàn)為支配詞要求在語(yǔ)義上受其支配的從屬詞與之共現(xiàn),是典型的詞匯配價(jià)表現(xiàn)(周?chē)?guó)光2011:49)。 后者主要受中心節(jié)點(diǎn)的語(yǔ)法范疇限定,完成短語(yǔ)結(jié)構(gòu)在句子中的語(yǔ)法關(guān)系。 根據(jù)依存關(guān)系在句子結(jié)構(gòu)中的類(lèi)型來(lái)看,可劃分為描述句子內(nèi)部成分關(guān)系和小句關(guān)系兩類(lèi),前者表示句中成分之間的關(guān)系,后者描繪節(jié)點(diǎn)詞及其從屬結(jié)構(gòu)與句子內(nèi)其它節(jié)點(diǎn)詞及從屬結(jié)構(gòu)共同構(gòu)成的句法關(guān)系。
本研究分3 步進(jìn)行:首先,考察自動(dòng)句法分析工具的準(zhǔn)確性。 (1)使用3 種工具分別對(duì)虛構(gòu)和非虛構(gòu)類(lèi)英漢語(yǔ)句進(jìn)行自動(dòng)句法分析,所得結(jié)果經(jīng)PyGraphViz 可視化后,由研究者和經(jīng)過(guò)充分培訓(xùn)的4 名碩士生進(jìn)行獨(dú)立的錯(cuò)誤分析,錯(cuò)誤分析結(jié)束后,由研究者組織參與錯(cuò)誤標(biāo)記的人員進(jìn)行一致性校訂,對(duì)于有爭(zhēng)議的句法結(jié)構(gòu),研究者咨詢?cè)摲较虻耐?,直到達(dá)成一致。 (2)對(duì)句法分析的準(zhǔn)確性進(jìn)行統(tǒng)計(jì),考察對(duì)象包括:支配節(jié)點(diǎn)、依存關(guān)系和整句分析。 (3)對(duì)所得結(jié)果進(jìn)行統(tǒng)計(jì),使用R 通過(guò)多元回歸對(duì)影響句法標(biāo)注準(zhǔn)確性的因素及其影響的程度進(jìn)行分析。
其次,考察自動(dòng)句法分析工具的誤例類(lèi)型和成因。 分別對(duì)英、漢語(yǔ)依存關(guān)系標(biāo)注錯(cuò)誤及其錯(cuò)誤的類(lèi)型進(jìn)行分類(lèi)統(tǒng)計(jì),考察的依存關(guān)系類(lèi)別包括短語(yǔ)結(jié)構(gòu)類(lèi)依存關(guān)系和句子結(jié)構(gòu)類(lèi)依存關(guān)系,考察的錯(cuò)誤類(lèi)型包括詞性標(biāo)注錯(cuò)誤和依存關(guān)系的標(biāo)注錯(cuò)誤,后者包括支配節(jié)點(diǎn)及支配關(guān)系的錯(cuò)誤。
最后,以英譯漢平行庫(kù)科技、社科、新聞和文學(xué)4 類(lèi)文體為例,通過(guò)語(yǔ)際對(duì)比和語(yǔ)內(nèi)類(lèi)比,對(duì)英語(yǔ)源語(yǔ)和漢語(yǔ)翻譯、漢語(yǔ)翻譯語(yǔ)言和漢語(yǔ)原創(chuàng)語(yǔ)言的依存句法特征和以依存距離作為指標(biāo)的句法復(fù)雜度展開(kāi)對(duì)比分析,借此驗(yàn)證依存句法分析方法在跨語(yǔ)言、跨文體研究中的適用性和特征的顯著性。
語(yǔ)言研究中信度的最基本保證取決于標(biāo)注的準(zhǔn)確性。 本研究分別對(duì)經(jīng)Mate Parser,Stanford Parser 和Malt Parser 句法標(biāo)注的依存句法結(jié)構(gòu)準(zhǔn)確性進(jìn)行對(duì)比考察,結(jié)果如表2顯示。
表2 句法分析工具標(biāo)注的準(zhǔn)確性統(tǒng)計(jì)
句法標(biāo)注工具的準(zhǔn)確性較之詞性賦碼工具存在較大差距(梁茂成2006)。 無(wú)論是支配節(jié)點(diǎn)還是依存關(guān)系的標(biāo)注,句法分析器的平均精度在78%~93%之間,而整句的完全正確率最高僅36%。此外,數(shù)據(jù)顯示,語(yǔ)種和文體也影響句法分析的精度。 其中,無(wú)論是局部的支配節(jié)點(diǎn)與依存關(guān)系,還是整句準(zhǔn)確性,英語(yǔ)的句法標(biāo)注精度均顯著高于漢語(yǔ),可能是由于漢語(yǔ)沒(méi)有豐富的形態(tài)標(biāo)記系統(tǒng)(石毓智2010:13),而基于形態(tài)分析的詞性賦碼是句法分析器的重要參考指標(biāo)之一。 從文體上看,非文學(xué)文本語(yǔ)句的局部支配節(jié)點(diǎn)和依存關(guān)系的分析準(zhǔn)確率高于文學(xué)文本,而文學(xué)文本整句準(zhǔn)確率高于非文學(xué)語(yǔ)料。 本文認(rèn)為,非文學(xué)文本的句子普遍偏短,因此所有依存關(guān)系同時(shí)標(biāo)注正確的幾率也越高。 相反,非虛構(gòu)文體的語(yǔ)言較為正式,句法和語(yǔ)義結(jié)構(gòu)相對(duì)完整,但句中依存關(guān)系數(shù)量較多,因此句法分析所得正確的節(jié)點(diǎn)較多,但整句所有節(jié)點(diǎn)得到正確分析的幾率不高。
本文選擇依存節(jié)點(diǎn)分析的準(zhǔn)確率(百分比*100)作為因變量,分別將句長(zhǎng)、分析器、語(yǔ)種和文體作為解釋變量,采用多元線性回歸進(jìn)行分析(殘差F=13. 5,df=1192,p<0. 001,R2=0.0536),考察句長(zhǎng)、文體和語(yǔ)種對(duì)依存關(guān)系分析準(zhǔn)確性影響的程度。 由于句法分析的復(fù)雜性,本研究不考慮在回歸模型中對(duì)解釋變量的全面性和模型對(duì)因變量的預(yù)測(cè)性,即不考察擬合優(yōu)度(R2),也不考慮各解釋變量間的交互效應(yīng)。 結(jié)果表明,句長(zhǎng)、句法分析工具、語(yǔ)種和文體與句法分析結(jié)果的精度均存在不同程度的關(guān)系,且上述關(guān)系均具有顯著性。 其中,句長(zhǎng)與依存關(guān)系的精度存在負(fù)相關(guān)的關(guān)系(p<0.05),表明句子越長(zhǎng),句法分析的精度越低。 Stanford Parser 分析器與依存關(guān)系的精度存在顯著的正相關(guān)關(guān)系(p<0.001),且顯著性高于Mate(p<0.001)。 英語(yǔ)較之漢語(yǔ)更容易獲得較高的精度(p<0.001),而非文學(xué)文體在依存關(guān)系分析上具有較高的準(zhǔn)確性,但文體對(duì)分析準(zhǔn)確性影響的顯著性低于前兩者。
本文對(duì)英語(yǔ)和漢語(yǔ)的自動(dòng)句法分析錯(cuò)誤進(jìn)行對(duì)比分析,結(jié)果分別如表3和表4所示。
表3 英語(yǔ)依存關(guān)系標(biāo)注錯(cuò)誤分析
表4 漢語(yǔ)依存關(guān)系標(biāo)注錯(cuò)誤分析
由表3和表4可知,各分析器的誤碼呈現(xiàn)出一定的共性:句子結(jié)構(gòu)的分析較之短語(yǔ)結(jié)構(gòu)的分析錯(cuò)誤更多;Stanford Parser 的錯(cuò)誤數(shù)最少,且顯著低于Mate Parser 和Malt Parser. 較之英語(yǔ),漢語(yǔ)的句法分析錯(cuò)誤明顯增多,但錯(cuò)誤的類(lèi)型與英語(yǔ)分析結(jié)果具有一定的一致性。
首先,就短語(yǔ)結(jié)構(gòu)的分析而言,英、漢語(yǔ)既有共性,也有差異。 對(duì)于修飾關(guān)系,名詞性修飾關(guān)系(nmod)是兩種語(yǔ)言中短語(yǔ)結(jié)構(gòu)修飾關(guān)系分析錯(cuò)誤最多的類(lèi)型,其次是形容詞修飾關(guān)系(amod)。其中,英語(yǔ)中導(dǎo)致大量名詞性修飾關(guān)系分析錯(cuò)誤的原因是分析器對(duì)“復(fù)合型”名詞關(guān)系和“修飾性”名詞關(guān)系的誤判。 根據(jù)Quirk 等(1985:313,971),名詞性的復(fù)合關(guān)系(compound)通常包含兩個(gè)以上的基礎(chǔ)成分,且二者具有同位性和并列性,而各類(lèi)分析器對(duì)名詞語(yǔ)義識(shí)解的困難造成同位性無(wú)法識(shí)別的問(wèn)題。 漢語(yǔ)也存在類(lèi)似情況,但多數(shù)誤碼是數(shù)量詞詞性賦碼錯(cuò)誤所致。 此外,漢語(yǔ)這類(lèi)詞匯組成方式與近年來(lái)漢語(yǔ)因“雙音化”(王力1988:1 -3)所引起的典型“復(fù)合化”(compounding)現(xiàn)象有關(guān),如兩個(gè)語(yǔ)素“食”和“材”因削弱或喪失其間的詞匯邊界,成為一個(gè)語(yǔ)言單位,是漢語(yǔ)語(yǔ)法化和詞匯化的典型現(xiàn)象(石毓智2002:1 -2)。 第二,對(duì)于功能型依存關(guān)系,各分析器對(duì)于名詞短語(yǔ)“格”(case)關(guān)系存在一定程度的誤判,且這類(lèi)關(guān)系通常是無(wú)法判定介詞的支配節(jié)點(diǎn)所致。 此外,漢語(yǔ)中還存在限定性修飾語(yǔ)和量詞修飾關(guān)系的誤判,多因分析工具無(wú)法準(zhǔn)確識(shí)別指示型限定詞與其所指名詞或量詞與其所指名詞。
其次,在句子結(jié)構(gòu)類(lèi)關(guān)系中,英、漢語(yǔ)也呈現(xiàn)出一定的共性和差異。 就成分語(yǔ)法關(guān)系而言,句子的中心動(dòng)詞(root)、名詞性主謂關(guān)系(nsubj)和狀語(yǔ)修飾關(guān)系(advmod)依次是兩種語(yǔ)言中出現(xiàn)錯(cuò)誤較多的3 類(lèi)依存關(guān)系,且錯(cuò)誤數(shù)量遠(yuǎn)高于其它語(yǔ)法關(guān)系。 此外,漢語(yǔ)中直接賓語(yǔ)(dobj)的誤碼也呈現(xiàn)一定的顯著性。 本文發(fā)現(xiàn),絕大多數(shù)中心動(dòng)詞識(shí)解錯(cuò)誤是句子中心動(dòng)詞詞性賦碼錯(cuò)誤引起;名詞性主謂關(guān)系的分析錯(cuò)誤一般出現(xiàn)在復(fù)合句(compound sentence)或復(fù)雜句(complex sentence)中,這類(lèi)錯(cuò)誤通常也會(huì)導(dǎo)致中心動(dòng)詞的誤判。 此外,中心動(dòng)詞的誤判也會(huì)造成狀語(yǔ)修飾關(guān)系的支配節(jié)點(diǎn)的誤判。 在漢語(yǔ)中,直接賓語(yǔ)的誤碼一般在謂語(yǔ)動(dòng)詞與直接賓語(yǔ)跨小句時(shí)出現(xiàn)。 對(duì)于小句關(guān)系,英語(yǔ)中描寫(xiě)連接成分間(conj)和連接成分與連接詞(cc)的依存關(guān)系誤判情況最多,其次為狀語(yǔ)從句(advcl) 和補(bǔ)語(yǔ)從句關(guān)系(comp),一定程度上是長(zhǎng)句中狀語(yǔ)從句中心動(dòng)詞的詞性標(biāo)注錯(cuò)誤所致。 漢語(yǔ)中只有描寫(xiě)并列關(guān)系的錯(cuò)誤居多,這是由于漢語(yǔ)傾向于使用流水句式,既出于修辭需要,也是一種表達(dá)習(xí)慣,用于敘述事件在時(shí)間或空間維度上的連續(xù)性,但小句間通常不存在顯式的連接詞,部分語(yǔ)句通過(guò)“,”分割各子句,因而句法分析過(guò)程中缺乏形式上的標(biāo)記。
已有研究對(duì)比考察漢語(yǔ)和英語(yǔ)在句子擴(kuò)展手段上的差異(秦洪武周霞2019),從深層次解釋英、漢語(yǔ)言語(yǔ)句長(zhǎng)度和句子擴(kuò)展手段背后的語(yǔ)法成因。 不同于原創(chuàng)漢語(yǔ),在英漢翻譯中,有可能受英語(yǔ)源語(yǔ)的影響,通過(guò)多種手段使得翻譯漢語(yǔ)過(guò)多的接納源語(yǔ)的語(yǔ)法資源,體現(xiàn)出區(qū)別于原創(chuàng)漢語(yǔ)和英語(yǔ)源語(yǔ)的語(yǔ)言特點(diǎn)(夏云秦洪武2017,秦洪武孔蕾2018, 蔣躍等2021)。 有鑒于此,本文對(duì)英漢翻譯中英語(yǔ)源語(yǔ)與翻譯漢語(yǔ)、翻譯漢語(yǔ)和原創(chuàng)漢語(yǔ)的句法關(guān)系資源的運(yùn)用進(jìn)行對(duì)比分析,以此考察依存句法分析方法在跨語(yǔ)言、跨文體研究中的適用性和特征的顯著性。 結(jié)果如表5所示。本文采取的對(duì)比框架均來(lái)自Stanford Universal Dependency,研究結(jié)論較上述研究更為可靠。
表5 英—漢翻譯和漢語(yǔ)原創(chuàng)文本中依存關(guān)系的分布情況
表5 統(tǒng)計(jì)Stanford Core NLP 自動(dòng)句法分析后的文本所使用的依存關(guān)系的分布情況。 從文體上看,無(wú)論是英語(yǔ)源語(yǔ)、漢語(yǔ)翻譯還是作為類(lèi)比的原創(chuàng)漢語(yǔ),各文體中短語(yǔ)結(jié)構(gòu)和句子結(jié)構(gòu)的依存關(guān)系使用存在較大的差異。 對(duì)于英語(yǔ)源語(yǔ),說(shuō)明性較強(qiáng)的科技文體中,名詞結(jié)構(gòu)的修飾關(guān)系出現(xiàn)的頻數(shù)最高,描述主謂結(jié)構(gòu)的成分關(guān)系和復(fù)合型小句關(guān)系相對(duì)較少。 敘事性較強(qiáng)的文學(xué)文體則大量運(yùn)用描述主謂結(jié)構(gòu)的成分關(guān)系和小句關(guān)系,描寫(xiě)名詞結(jié)構(gòu)的修飾關(guān)系和功能關(guān)系則相對(duì)較少。 此外,社科和新聞文本兼具敘事和議論的特點(diǎn),對(duì)于短語(yǔ)結(jié)構(gòu)和句子結(jié)構(gòu)的使用居中。 類(lèi)比庫(kù)中,各文體中描寫(xiě)句中成分關(guān)系的比重較高,這與漢語(yǔ)SVO 型語(yǔ)言密切相關(guān)。 此外,翻譯漢語(yǔ)依存關(guān)系使用的分布呈現(xiàn)出獨(dú)立于英語(yǔ)源語(yǔ)和漢語(yǔ)原創(chuàng)語(yǔ)言的特點(diǎn),在句法關(guān)系上呈現(xiàn)出翻譯漢語(yǔ)的特征。各文體中絕大多數(shù)語(yǔ)法關(guān)系類(lèi)型的使用介于原創(chuàng)漢語(yǔ)和英語(yǔ)之間,可觀察到翻譯漢語(yǔ)中大量語(yǔ)法資源的異常使用,例如翻譯漢語(yǔ)各文體功能性關(guān)系中的限定(det)關(guān)系數(shù)量遠(yuǎn)高于原創(chuàng)漢語(yǔ),而限定(det)關(guān)系是英語(yǔ)源語(yǔ)的典型特征。
本文通過(guò)計(jì)算句子的平均依存距離來(lái)考察各文體中英語(yǔ)源語(yǔ)、翻譯漢語(yǔ)和原創(chuàng)漢語(yǔ)在句法復(fù)雜度上的差異性。 依存距離指依存關(guān)系中支配節(jié)點(diǎn)和從屬節(jié)點(diǎn)按照其在句子中出現(xiàn)的先后順序所標(biāo)記的位置的距離(Hudson 1995),依存距離可以測(cè)量人類(lèi)理解或者產(chǎn)出語(yǔ)句的認(rèn)知負(fù)荷,且依存距離越大,句子的復(fù)雜度越高。 本文分別對(duì)科技、新聞、社科和文學(xué)4 類(lèi)文體的英語(yǔ)源語(yǔ),漢語(yǔ)翻譯和漢語(yǔ)原創(chuàng)語(yǔ)抽樣文本中的句子平均依存距離進(jìn)行分析,結(jié)果如表6所示。
表6 英—漢翻譯和漢語(yǔ)原創(chuàng)文本句子的平均依存距離對(duì)比
首先,英、漢語(yǔ)言在平均依存距離上呈現(xiàn)出明顯的差異性。 4 類(lèi)文體中,漢語(yǔ)原創(chuàng)語(yǔ)言的平均依存距離均大于英語(yǔ)源語(yǔ)的平均依存距離,且句子依存距離的標(biāo)準(zhǔn)差均顯著高于英語(yǔ)源語(yǔ),呈現(xiàn)出句子平均依存距離的多樣性。 此外,秦洪武和周霞(2019:435)也指出,漢語(yǔ)句段的擴(kuò)展主要依賴(lài)修飾成分的前置,形成時(shí)間順序上的鋪排,進(jìn)而導(dǎo)致漢語(yǔ)依存距離較英語(yǔ)短,主從關(guān)系少,流水句多,理解上的認(rèn)知負(fù)荷偏小。
其次,翻譯漢語(yǔ)在句子的平均依存距離上呈現(xiàn)出獨(dú)立于英語(yǔ)源語(yǔ)和原創(chuàng)漢語(yǔ)的特征。 從文體分布上來(lái)看,漢語(yǔ)翻譯中科技文體和文學(xué)文體的平均依存距離最小,社科最大,新聞居中,表現(xiàn)出與英語(yǔ)源語(yǔ)相類(lèi)似的分布特征。 但從平均依存距離的大小來(lái)看,翻譯漢語(yǔ)均高于英語(yǔ)源語(yǔ),可能是受到漢語(yǔ)母語(yǔ)的影響。 此外,翻譯漢語(yǔ)句子平均依存距離的標(biāo)準(zhǔn)差高于原創(chuàng)英語(yǔ)又低于原創(chuàng)漢語(yǔ),處于二者之間。 通過(guò)對(duì)翻譯漢語(yǔ)和原創(chuàng)漢語(yǔ)的對(duì)比分析,本文也發(fā)現(xiàn)除科技文體外,翻譯漢語(yǔ)平均依存距離呈現(xiàn)出接近或略高于原創(chuàng)漢語(yǔ)的現(xiàn)象,這是由于英語(yǔ)可通過(guò)從屬小句等句法關(guān)系將句中動(dòng)詞中心和名詞中心的修飾成分后置,而漢語(yǔ)難以后置,只能通過(guò)修飾成分的大量前置來(lái)達(dá)到與英語(yǔ)同樣的效果,進(jìn)而造成翻譯漢語(yǔ)依存距離的增加,是典型的翻譯顯化現(xiàn)象。 需要指出的是,對(duì)于說(shuō)明性較強(qiáng)的科技文體,其平均句長(zhǎng)較其它文體更長(zhǎng),在漢譯時(shí)大量采用增加流水語(yǔ)句或拆分句子的譯法,導(dǎo)致其平均句長(zhǎng)降低,是翻譯的簡(jiǎn)化現(xiàn)象。
綜上所述,無(wú)論是語(yǔ)法資源的運(yùn)用還是句子的復(fù)雜度的考察,翻譯漢語(yǔ)較之原創(chuàng)語(yǔ)言或源語(yǔ)言均呈現(xiàn)出其獨(dú)立的特征,且均可通過(guò)依存句法的分析來(lái)反映較為顯著的特點(diǎn)。 因而如果將自動(dòng)句法分析的結(jié)果運(yùn)用于語(yǔ)言研究,不僅可反應(yīng)語(yǔ)料庫(kù)中文本的語(yǔ)法資源的分布情況,亦可反映句法復(fù)雜度特征,因而在實(shí)證研究中,具有較為廣泛的適用性。
對(duì)語(yǔ)料庫(kù)進(jìn)行句法標(biāo)注,可進(jìn)一步提升語(yǔ)料庫(kù)的使用價(jià)值,有助于開(kāi)展更深層次的語(yǔ)言研究。語(yǔ)料庫(kù)句法分析工具的信度不僅決定語(yǔ)料庫(kù)建庫(kù)的質(zhì)量,也對(duì)以此開(kāi)展的實(shí)證研究具有重要的影響。 信度的考察依賴(lài)于對(duì)特定理論的完整性、研究單位的可界定性、數(shù)據(jù)分析的準(zhǔn)確性、研究的適用性和所觀察現(xiàn)象與研究目標(biāo)關(guān)系的顯著性的研究(Artstein, Poesio 2008)。 劉鼎甲、 王克非(2018)的研究已對(duì)前兩者做過(guò)討論,本研究旨在對(duì)當(dāng)前句法分析方法和工具的準(zhǔn)確性進(jìn)行實(shí)證分析,考察句法分析方法在跨語(yǔ)言、跨文體研究中的適用性和特征的顯著性,以期對(duì)自動(dòng)句法分析方法在實(shí)證語(yǔ)言研究中的信度做初步探索。 本文認(rèn)為,使用自動(dòng)分析工具進(jìn)行句法分析的準(zhǔn)確性已可滿足各類(lèi)實(shí)證研究的需求,但應(yīng)對(duì)所分析的語(yǔ)言、文體和句子的長(zhǎng)度有針對(duì)性的控制,以獲得更為可信的結(jié)果。 此外,選擇基于深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)的Stanford Parser 分析準(zhǔn)確性最好,較之Mate Parser 和Malt Parser 可大大提升研究的精準(zhǔn)性。 最后,本文認(rèn)為,使用自動(dòng)句法分析工具開(kāi)展實(shí)證研究已可滿足基本的需求,且自動(dòng)分析的結(jié)果無(wú)論是在語(yǔ)法資源運(yùn)用的考察,還是句子復(fù)雜度的考察,均呈現(xiàn)出可區(qū)分性的特征,因而具有較高的適用性。 需要指出的是,如果使用自動(dòng)分析工具進(jìn)行面向語(yǔ)料庫(kù)研制的句法加工,其精度仍有相當(dāng)程度的欠缺。 為保證語(yǔ)料庫(kù)的可用性,應(yīng)根據(jù)本文所發(fā)現(xiàn)的典型錯(cuò)誤類(lèi)型輔以有針對(duì)性的人工校對(duì)。