亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的復(fù)句關(guān)聯(lián)標(biāo)記嵌套力研究
        ——以現(xiàn)代漢語(yǔ)二重有標(biāo)三分句為例

        2023-08-15 08:24:40儲(chǔ)小靜
        華中學(xué)術(shù) 2023年2期
        關(guān)鍵詞:關(guān)聯(lián)語(yǔ)義重要性

        儲(chǔ)小靜

        (常州大學(xué)周有光文學(xué)院,江蘇常州,213159)

        一、引言

        中文信息處理作為應(yīng)用語(yǔ)言學(xué)一大重要分支,目前處于句處理攻堅(jiān)階段[1]。復(fù)句作為連接小句與篇章的橋梁,在真實(shí)文本中出現(xiàn)頻率很高,是重難點(diǎn)所在。學(xué)者們結(jié)合語(yǔ)言學(xué)知識(shí)和數(shù)據(jù)挖掘技術(shù)豐富了相關(guān)應(yīng)用研究(劉云,2009;胡金柱,2010;Yang等,2017;Wang等,2020;Li等,2020)。

        復(fù)句層次關(guān)系劃分究其實(shí)質(zhì)是對(duì)分句語(yǔ)義關(guān)聯(lián)度的計(jì)算,體現(xiàn)了復(fù)句內(nèi)部不同層級(jí)意義的相對(duì)完整性[2]。這一計(jì)算過(guò)程較為復(fù)雜,離不開(kāi)對(duì)重要抓手——關(guān)聯(lián)標(biāo)記的探討[3]。學(xué)界對(duì)此展開(kāi)了系統(tǒng)研究。陸丙甫、金立鑫(1988)基于關(guān)聯(lián)標(biāo)記的“論域”概念,描寫(xiě)偏正復(fù)句內(nèi)部高低層級(jí)間嵌套關(guān)系。王維賢(1994)借助顯性關(guān)聯(lián)標(biāo)記,以計(jì)分法測(cè)算九種條件復(fù)句(69種格式)間嵌套關(guān)系。周剛(2002)沿用此思路,對(duì)表聯(lián)合、偏正關(guān)系的關(guān)聯(lián)連詞包孕機(jī)制展開(kāi)探討,并用關(guān)聯(lián)標(biāo)記的句法、語(yǔ)義特征加以理論解釋。

        在層次關(guān)系自動(dòng)劃分應(yīng)用層面,關(guān)聯(lián)標(biāo)記這一形式特征依然重要。魯松等(2001)構(gòu)建句法分析器,針對(duì)關(guān)聯(lián)標(biāo)記進(jìn)行確定性移進(jìn)—?dú)w約操作。劉云提出關(guān)系標(biāo)記的“臨近原則”“前者前則優(yōu)先,后者后則優(yōu)先”(2005)和關(guān)聯(lián)標(biāo)記的“離析度”概念(2008),重視關(guān)聯(lián)標(biāo)記的音節(jié)形式、位置前后及數(shù)量多少(2009)。吳鋒文先后總結(jié)4種二標(biāo)三句式(2012)、4種一標(biāo)三句式(2013)、14種二標(biāo)四句式(2017)、50種四句式(2017)和18種充盈態(tài)三標(biāo)四句式(2020)的關(guān)聯(lián)標(biāo)記聯(lián)結(jié)序列,制定出相應(yīng)的句法語(yǔ)義判定規(guī)則,并提取出若干制約規(guī)則與優(yōu)先序規(guī)則(2019)。李源等(2017)提倡一種基于語(yǔ)義分析與關(guān)系搭配相結(jié)合的層次分析融合模型,一定程度上提升了識(shí)別準(zhǔn)確率。楊進(jìn)才等(2021)融合關(guān)聯(lián)標(biāo)記特征,利用深度學(xué)習(xí)模型Rm-transformer實(shí)現(xiàn)二句式因果復(fù)句的自動(dòng)標(biāo)識(shí)。

        這些研究充實(shí)了關(guān)聯(lián)標(biāo)記嵌套力專(zhuān)題分析,全面翔實(shí)。“關(guān)聯(lián)標(biāo)記嵌套力”是指復(fù)句中關(guān)聯(lián)標(biāo)記嵌套分句結(jié)構(gòu)的能力,關(guān)聯(lián)標(biāo)記的嵌套力越強(qiáng),轄域越寬。二重有標(biāo)三分句的嵌套受分句總量限制,表現(xiàn)在語(yǔ)言結(jié)構(gòu)上多為單個(gè)關(guān)聯(lián)標(biāo)記嵌套其所處分句與相鄰分句構(gòu)成的小句關(guān)聯(lián)體。本文將所有與關(guān)聯(lián)標(biāo)記有關(guān)的嵌套要素統(tǒng)一視為關(guān)聯(lián)標(biāo)記嵌套力。事實(shí)上,影響關(guān)聯(lián)標(biāo)記嵌套力的因素共六類(lèi)十三種,但并非所有因素均同等重要。為此,本文借助自建的包含2092條二重有標(biāo)三分句語(yǔ)料的關(guān)聯(lián)標(biāo)記嵌套力影響因素分析語(yǔ)料庫(kù),引入信息量模型、K-means聚類(lèi)算法、CART算法、scikit-learn工具包等技術(shù)方法,考察常見(jiàn)的六類(lèi)十三種影響因素,以期得到嵌套因素的綜合重要性排名,以回答規(guī)則效用重要性問(wèn)題。

        二、關(guān)聯(lián)標(biāo)記嵌套力的影響因素

        (一)關(guān)聯(lián)標(biāo)記的音節(jié)

        音節(jié)在人類(lèi)語(yǔ)言中普遍存在,指語(yǔ)感上能從語(yǔ)流中分離出的最自然、最小的發(fā)音單位和聽(tīng)覺(jué)單位。漢語(yǔ)以音節(jié)為基本的表意單位。二重有標(biāo)三分句中關(guān)聯(lián)標(biāo)記的音節(jié)形式眾多,包含單音節(jié)、雙音節(jié)、三音節(jié)、四音節(jié)、五音節(jié)和六音節(jié)。其中,雙音節(jié)關(guān)聯(lián)標(biāo)記在數(shù)量上占有絕對(duì)優(yōu)勢(shì)(占比56.09%),從嵌套概率來(lái)看,雙音節(jié)關(guān)聯(lián)標(biāo)記比其他音節(jié)類(lèi)型的關(guān)聯(lián)標(biāo)記要大得多。

        從語(yǔ)法特征來(lái)看,單音節(jié)關(guān)聯(lián)標(biāo)記受音節(jié)所限,承載的信息意義不足,多數(shù)須成對(duì)使用,強(qiáng)整體性、高凝固性和低離析度使其嵌套能力不如雙音節(jié)。而三音節(jié)、四音節(jié)、五音節(jié)和六音節(jié)關(guān)聯(lián)標(biāo)記的“詞類(lèi)”多是超詞形式,使用位置固定,語(yǔ)義、句法限制條件多,相比之下雙音節(jié)更為靈活,嵌套能力也更強(qiáng)。如例(1)為雙音節(jié)關(guān)聯(lián)標(biāo)記對(duì)嵌套單音節(jié)關(guān)聯(lián)標(biāo)記對(duì),高層語(yǔ)義關(guān)系是“因?yàn)椤浴睒?gòu)成的因果關(guān)系,低層語(yǔ)義關(guān)系為“既……也……”組配的并列關(guān)系。后者的意義和形式結(jié)合得非常緊密,窮盡語(yǔ)料庫(kù)也很難發(fā)現(xiàn)中間插入其他關(guān)聯(lián)成分。

        (1)就因?yàn)槲覀兗炔皇浅饠?,也不是朋友,所以我才信任你?《陸小鳳傳奇》)

        從韻律學(xué)角度看,漢語(yǔ)最基本的音步是兩個(gè)音節(jié)[4],雙音節(jié)關(guān)聯(lián)標(biāo)記正是標(biāo)準(zhǔn)的韻律詞。不同于雙音步的普適性,其他類(lèi)型的音步(單音節(jié)關(guān)聯(lián)標(biāo)記稱(chēng)為蛻化音步,三音節(jié)關(guān)聯(lián)標(biāo)記為超音步,四字串關(guān)聯(lián)標(biāo)記是兩個(gè)音步的組合,五音節(jié)、六音節(jié)關(guān)聯(lián)標(biāo)記由標(biāo)準(zhǔn)韻律詞和超韻律詞組成)與特定句法環(huán)境、語(yǔ)用條件相牽連。這同樣證明雙音節(jié)關(guān)聯(lián)標(biāo)記的嵌套用法更為自由。

        (二)關(guān)聯(lián)標(biāo)記的位置

        1.關(guān)聯(lián)標(biāo)記所處分句的位次

        二重有標(biāo)三分句中,關(guān)聯(lián)標(biāo)記所處分句的位次有三種:初始分句、中位分句、末尾分句。語(yǔ)言符號(hào)的線(xiàn)條性決定了書(shū)面語(yǔ)中漢字的書(shū)寫(xiě)順序先左后右,關(guān)聯(lián)標(biāo)記管轄的分句范圍也為右向性。當(dāng)關(guān)聯(lián)標(biāo)記所處分句為初始分句或中位分句且管控范圍為兩個(gè)分句時(shí),關(guān)聯(lián)標(biāo)記嵌套所管控的小句關(guān)聯(lián)體,此關(guān)聯(lián)標(biāo)記聯(lián)結(jié)的為高層結(jié)構(gòu),嵌套力最強(qiáng)。而當(dāng)關(guān)聯(lián)標(biāo)記管控范圍為一個(gè)分句時(shí),復(fù)句的嵌套分析較為復(fù)雜,要結(jié)合搭配對(duì)象綜合考慮——若搭配對(duì)象嵌套小句關(guān)聯(lián)體,此關(guān)聯(lián)標(biāo)記標(biāo)示高層語(yǔ)義關(guān)系;否則,標(biāo)示低層語(yǔ)義關(guān)系。

        2.關(guān)聯(lián)標(biāo)記與主語(yǔ)的相對(duì)位置

        結(jié)合王維賢(1994)對(duì)關(guān)聯(lián)詞語(yǔ)放置位置的分析,二重有標(biāo)三分句中主語(yǔ)與關(guān)聯(lián)標(biāo)記的相對(duì)位置有四種:關(guān)聯(lián)標(biāo)記都在主語(yǔ)前、關(guān)聯(lián)標(biāo)記都在主語(yǔ)后、關(guān)聯(lián)標(biāo)記與主語(yǔ)一前一后、關(guān)聯(lián)標(biāo)記位于句首。

        若主語(yǔ)先于關(guān)聯(lián)標(biāo)記出現(xiàn),其管轄范圍大多超出所在分句,右向管轄。轄域內(nèi)的分句因陳述對(duì)象連貫和諧、前后過(guò)渡自然,語(yǔ)義關(guān)系上更緊密,更易形成小句關(guān)聯(lián)體。若主語(yǔ)位于關(guān)聯(lián)標(biāo)記之后且異于后分句主語(yǔ),關(guān)聯(lián)標(biāo)記管控范圍傾向于僅限當(dāng)前分句。若主語(yǔ)位于關(guān)聯(lián)標(biāo)記之后但與后分句主語(yǔ)一致,關(guān)聯(lián)標(biāo)記管控范圍須結(jié)合前后景信息進(jìn)行綜合判定。這與劉云(2008)的結(jié)論“能在主語(yǔ)前面的復(fù)句關(guān)系詞語(yǔ)當(dāng)然比僅位于主語(yǔ)后面的關(guān)系詞語(yǔ)的離析度高”[5]是一致的。

        3.連用的關(guān)聯(lián)標(biāo)記相互位置

        連用式二重有標(biāo)三分句中,兩個(gè)連用關(guān)聯(lián)標(biāo)記的相對(duì)位置具有標(biāo)示價(jià)值,先后配列一定程度上決定嵌套復(fù)句層次識(shí)別的優(yōu)先序。可概括為“前者后優(yōu)先原則”和“后者后優(yōu)先原則”。

        “前者后優(yōu)先原則”指兩個(gè)既不同義、搭配對(duì)象亦不同的關(guān)聯(lián)標(biāo)記處于同一個(gè)分句中時(shí),句法位置靠前的關(guān)聯(lián)標(biāo)記傾向于嵌套后邊的關(guān)聯(lián)標(biāo)記。由于成年人平均記憶容量?jī)H三到五塊(Cowan,2001),受前攝干擾(proactive interference)的影響,語(yǔ)言結(jié)構(gòu)中較難處理的部分嵌套較容易的部分[6]更符合人類(lèi)認(rèn)知心理操作策略。體現(xiàn)在二重有標(biāo)三分句中,高層結(jié)構(gòu)的語(yǔ)義內(nèi)容、語(yǔ)法結(jié)構(gòu)、語(yǔ)用特征都更復(fù)雜,與內(nèi)嵌結(jié)構(gòu)所表達(dá)的核心相比,最外層的引領(lǐng)性關(guān)聯(lián)標(biāo)記距離核心較遠(yuǎn)。當(dāng)各自代表的關(guān)聯(lián)標(biāo)記出現(xiàn)在同一分句中,引領(lǐng)高層結(jié)構(gòu)的關(guān)聯(lián)標(biāo)記更容易外置于引領(lǐng)低層結(jié)構(gòu)的關(guān)聯(lián)標(biāo)記前[7],書(shū)面語(yǔ)中則居于更左邊的位置。持類(lèi)似看法的還有張誼生(1996)、張文賢(2007)、吳鋒文(2010)、陸丙甫(2015)等。如例(2)假設(shè)標(biāo)“如果”在原因標(biāo)“因?yàn)椤钡淖筮叄恢闷业年P(guān)聯(lián)標(biāo)記“因?yàn)椤币I(lǐng)的分句與后分句優(yōu)先形成因果型小句關(guān)聯(lián)體,再被左邊的“如果”嵌套。

        (2)股東如果因?yàn)樘厥庠?,想在股票上市后將股票轉(zhuǎn)入在其他證券商處開(kāi)立的賬戶(hù)上,則只須到港澳證券柜臺(tái)填寫(xiě)轉(zhuǎn)托管申請(qǐng)書(shū)即可辦理轉(zhuǎn)托管手續(xù)。(1994年報(bào)刊精選)

        當(dāng)然,個(gè)別二重有標(biāo)三分連用式復(fù)句遵從“后者后優(yōu)先原則”,即兩個(gè)既不同義、搭配對(duì)象亦不同的關(guān)聯(lián)標(biāo)記處在同一分句中時(shí),句法位置靠后的關(guān)聯(lián)標(biāo)記傾向于嵌套其前邊的關(guān)聯(lián)標(biāo)記。這條原則多用來(lái)處理并列關(guān)系、遞進(jìn)關(guān)系或選擇關(guān)系與因果關(guān)系、求得式目的關(guān)系、假設(shè)關(guān)系、條件關(guān)系以及讓步關(guān)系組合而成的二重復(fù)句,并且相鄰分句大多出現(xiàn)相同的關(guān)聯(lián)標(biāo)記。如下例二、三分句的遞進(jìn)標(biāo)“既”“更”均在相同的原因標(biāo)“因?yàn)椤钡那懊?,?yōu)先規(guī)約為遞進(jìn)型小句關(guān)聯(lián)體,原因標(biāo)在語(yǔ)義上管轄著它們,前后聯(lián)結(jié)成復(fù)句的高層結(jié)構(gòu)。

        (3)椿樹(shù)園在京城可出了名,既因?yàn)榻裎糇冞w,更因?yàn)榇粯?shù)園為北京申奧做出過(guò)特殊貢獻(xiàn)。(新華社2002年9月新聞報(bào)道)

        (三)關(guān)聯(lián)標(biāo)記的詞性特征

        學(xué)界普遍認(rèn)可的復(fù)句關(guān)聯(lián)標(biāo)記有四種:連詞、副詞、助詞和超詞形式。大量語(yǔ)料觀察發(fā)現(xiàn),介詞作為顯著的形式標(biāo)志可以幫助標(biāo)示連接成分間的句法語(yǔ)義關(guān)系,是句法、語(yǔ)義及語(yǔ)用三個(gè)平面的綜合體。而部分動(dòng)詞(如“看來(lái)、想來(lái)”)經(jīng)歷了語(yǔ)義虛化、功能語(yǔ)法化的過(guò)程,向著情態(tài)副詞虛化演變,同樣可以標(biāo)明連接成分間的句法語(yǔ)義關(guān)系。為提高覆蓋面、避免收錄缺漏,本文將關(guān)聯(lián)標(biāo)記的范圍擴(kuò)充為六種。

        其中,跨語(yǔ)法單位的超詞形式按照結(jié)構(gòu)大致分為帶“說(shuō)”類(lèi)(李晉霞、劉云,2009)、帶“是”類(lèi)、組合類(lèi)和其他關(guān)聯(lián)性成分四種,多可拆解為連詞或副詞與別的詞的組合;動(dòng)、介、助詞數(shù)量較少,一般也不嵌套其他關(guān)聯(lián)標(biāo)記;關(guān)聯(lián)連詞和關(guān)聯(lián)副詞比重之和則超過(guò)60%,占絕對(duì)優(yōu)勢(shì)。相較之下,關(guān)聯(lián)連詞本身語(yǔ)義是確定的,在句法允許的前提下,可以去掉其中一個(gè)并保持句法語(yǔ)義關(guān)系的原貌;且關(guān)聯(lián)連詞與分句的嵌套關(guān)系親密,難以省略。因而連詞的關(guān)聯(lián)強(qiáng)度是最強(qiáng)的,嵌套力也最大。

        (四)關(guān)聯(lián)標(biāo)記的語(yǔ)義特征

        二重復(fù)句表達(dá)的意義事件復(fù)雜,其內(nèi)部構(gòu)成要素——每一基本的語(yǔ)義單元以分句的形式顯現(xiàn),語(yǔ)義單元的推進(jìn)正是復(fù)句結(jié)構(gòu)由低層向高層、由單重向多重的擴(kuò)張。周剛(2002)認(rèn)為虛詞也可以分析語(yǔ)義特征,對(duì)嵌套現(xiàn)象研究亦有助益。基于此,本文總結(jié)出五組和關(guān)聯(lián)標(biāo)記嵌套力有關(guān)的語(yǔ)義特征因素。

        (1)關(guān)聯(lián)標(biāo)記引領(lǐng)的分句表既成事實(shí),具有已然性——推斷標(biāo)、實(shí)讓標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句表未成事實(shí),具有未然性——假設(shè)標(biāo)、條件標(biāo)、總讓標(biāo)、忍讓標(biāo)、虛讓標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句既可以表已然也可以表未然——原因標(biāo)。

        一般情況下,具有已然性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記嵌套力強(qiáng)于具有未然性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記。這既是邏輯學(xué)上的要求,也符合語(yǔ)用學(xué)“合作原則”之“質(zhì)量準(zhǔn)則”(Quantity Maxim)。語(yǔ)義特征都具有[+未然性]的關(guān)聯(lián)標(biāo)記間亦可相互嵌套,而具有[±已然性]的關(guān)聯(lián)標(biāo)記因其內(nèi)涵外延寬廣,屬于全論域,嵌套力則僅次于[+已然性]關(guān)聯(lián)標(biāo)記。

        (2)關(guān)聯(lián)標(biāo)記引領(lǐng)的分句標(biāo)明特定條件,具有特定性——假設(shè)標(biāo)、條件標(biāo)、目的標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句表示無(wú)定條件,具有自由性——選擇標(biāo)、總讓標(biāo)。

        一般情況下,具有特定性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記嵌套力強(qiáng)于具有自由性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記。邏輯語(yǔ)義上,具有[+特定性]的關(guān)聯(lián)標(biāo)記層次高于具有[+自由性]的關(guān)聯(lián)標(biāo)記,前者可以制約后者,二者位置很難顛倒。語(yǔ)用學(xué)上,具有[+特定性]的關(guān)聯(lián)標(biāo)記提供了適量且足夠詳盡的信息量,符合“合作原則”之“數(shù)量準(zhǔn)則”(Quantity Maxim)。

        (3)關(guān)聯(lián)標(biāo)記引領(lǐng)的分句指向明確的事物,具有確定性——結(jié)果標(biāo)(表推斷關(guān)系、假設(shè)關(guān)系、條件關(guān)系、因果關(guān)系等)、轉(zhuǎn)折標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句指向非確定的事物,具有選擇性——選擇標(biāo)。

        從語(yǔ)義適應(yīng)性角度看,為防止語(yǔ)義特征相矛盾、邏輯混亂,具有選擇性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記不能嵌套具有確定性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記,具有確定性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記亦不能嵌套具有選擇性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記。

        (4)關(guān)聯(lián)標(biāo)記引領(lǐng)的分句內(nèi)容與其配對(duì)分句在思維表述上具有一致性——平列標(biāo)、解注標(biāo)、連貫標(biāo)、順遞標(biāo)、原因標(biāo)、推斷標(biāo)、條件標(biāo)、假設(shè)標(biāo)、求得目的標(biāo)、結(jié)果標(biāo);關(guān)聯(lián)標(biāo)記引領(lǐng)的分句內(nèi)容與其配對(duì)分句在思維表述上具有對(duì)立性——對(duì)照標(biāo)、反遞標(biāo)、轉(zhuǎn)折標(biāo)、求免目的標(biāo)、假轉(zhuǎn)標(biāo)。

        具有對(duì)立性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記嵌套力一般強(qiáng)于具有一致性語(yǔ)義特征的關(guān)聯(lián)標(biāo)記。這是因?yàn)榍罢弑磉_(dá)逆向思維,是從預(yù)期到反預(yù)期的命題轉(zhuǎn)換(Quirk,1985),具有一定滯后性和難以接受性;后者卻更符合人類(lèi)順向思維表達(dá)習(xí)慣。這導(dǎo)致反映直接順承思維的關(guān)聯(lián)標(biāo)記很難嵌套經(jīng)過(guò)轉(zhuǎn)變進(jìn)化、要付出更多認(rèn)知努力、違逆思維順序的關(guān)聯(lián)標(biāo)記。ERP實(shí)驗(yàn)同樣證明英語(yǔ)也存在類(lèi)似情況(Xiang M,2015)。

        (5)關(guān)聯(lián)標(biāo)記聯(lián)結(jié)的前后分句概念語(yǔ)義距離較近,認(rèn)知過(guò)程同步,停頓能力差——并列類(lèi)關(guān)聯(lián)標(biāo)記;關(guān)聯(lián)標(biāo)記聯(lián)結(jié)的前后分句概念語(yǔ)義距離較遠(yuǎn),認(rèn)知過(guò)程復(fù)雜,停頓能力強(qiáng)——因果類(lèi)關(guān)聯(lián)標(biāo)記和轉(zhuǎn)折類(lèi)關(guān)聯(lián)標(biāo)記。

        本文認(rèn)為,關(guān)聯(lián)標(biāo)記與其管控部分的線(xiàn)性距離越小、搭配距離越近,則嵌套其他關(guān)聯(lián)標(biāo)記的可能性相對(duì)小很多。相反,關(guān)聯(lián)標(biāo)記搭配距離越遠(yuǎn),意味嵌套能力越強(qiáng)。姚雙云(2006)羅列的平均搭配跨距在10個(gè)詞長(zhǎng)以上的常見(jiàn)搭配格式大部分屬于因果類(lèi)和轉(zhuǎn)折類(lèi),亦佐證本文觀點(diǎn)。

        此外,若二重有標(biāo)三分句呈現(xiàn)擴(kuò)展式嵌套(相同關(guān)聯(lián)標(biāo)記重復(fù)出現(xiàn)在相鄰分句),相同的語(yǔ)義特征使得所引領(lǐng)分句間的關(guān)系更為緊密,復(fù)句嵌套遵循“同義優(yōu)先組原則”。如例(4)初始分句和中位分句都有前配位讓步標(biāo)“即使”,優(yōu)先組配為并列型小句關(guān)聯(lián)體,再與末尾分句構(gòu)成讓轉(zhuǎn)復(fù)句。

        (4)即使成本高一點(diǎn),即使質(zhì)量不是最優(yōu),最后也得用上。(CCL語(yǔ)料)

        (五)關(guān)聯(lián)標(biāo)記的數(shù)量

        二重有標(biāo)三分句中關(guān)聯(lián)標(biāo)記的實(shí)際數(shù)量分為四種情形:關(guān)聯(lián)標(biāo)記全出現(xiàn),關(guān)聯(lián)標(biāo)記省略其一,關(guān)聯(lián)標(biāo)記省略其二,關(guān)聯(lián)標(biāo)記省略其三。各層次關(guān)聯(lián)標(biāo)記均未省略是最理想的狀態(tài),復(fù)句層次構(gòu)造、分句間語(yǔ)義關(guān)系一目了然。但實(shí)例化語(yǔ)料中,關(guān)聯(lián)標(biāo)記省略現(xiàn)象極為常見(jiàn),幾乎占語(yǔ)料庫(kù)總數(shù)的86.84%。關(guān)聯(lián)標(biāo)記的省略使某些分句變?yōu)闊o(wú)標(biāo)分句,難以判別其組合對(duì)象究竟是一個(gè)分句抑或一個(gè)小句關(guān)聯(lián)體;還會(huì)造成歧義,無(wú)法甄別省略的關(guān)聯(lián)標(biāo)記屬于高層次還是低層次結(jié)構(gòu)。

        復(fù)句是否呈現(xiàn)充盈態(tài)與關(guān)聯(lián)標(biāo)記出現(xiàn)的數(shù)量有關(guān)——關(guān)聯(lián)標(biāo)記出現(xiàn)數(shù)量愈多,復(fù)句為充盈態(tài)復(fù)句可能性愈高。從信息論的角度看,二重有標(biāo)三分句中分句共同形成一個(gè)關(guān)系集合,集合中元素的數(shù)目較多,構(gòu)建、表達(dá)說(shuō)話(huà)人思想的語(yǔ)言單位編碼較長(zhǎng),其“熵”(Shannon,1948)值自然較大。馬爾科夫鏈強(qiáng)調(diào),根據(jù)前面出現(xiàn)的語(yǔ)言符號(hào)來(lái)預(yù)測(cè)下一個(gè)語(yǔ)言符號(hào)的不肯定性會(huì)越來(lái)越小,因而,在形式上標(biāo)明分句間特定關(guān)系的關(guān)聯(lián)標(biāo)記出現(xiàn)越多,嵌套復(fù)句的結(jié)構(gòu)層次劃分越清晰明了?!皵?shù)量象似原則”(The quantity principle)亦可證明。

        (六)傳承關(guān)聯(lián)標(biāo)記

        傳承關(guān)聯(lián)標(biāo)記指關(guān)聯(lián)標(biāo)記古代社會(huì)已然存在,發(fā)展演變至現(xiàn)代社會(huì)或者衍生出更多含義用法,如“既”,做副詞表推斷關(guān)系是后起意義,始于近代漢語(yǔ)階段,見(jiàn)北宋沈括《夢(mèng)溪筆談》:“既云孟子不見(jiàn)諸侯,因何見(jiàn)梁惠王”;或者用法基本沒(méi)有發(fā)生改變。關(guān)聯(lián)標(biāo)記的傳承性是判斷其嵌套能力強(qiáng)弱的參考因素。傳承關(guān)聯(lián)標(biāo)記多出現(xiàn)在帶有文言色彩的正式文體中,適應(yīng)面較窄,不如新關(guān)聯(lián)標(biāo)記靈活,嵌套能力總體上也弱于語(yǔ)義相同的新關(guān)聯(lián)標(biāo)記。

        試比較“雖”與“雖然”。“雖然”可以嵌套并列類(lèi)關(guān)聯(lián)標(biāo)記“又、既、而且”[例(5)]、因果類(lèi)關(guān)聯(lián)標(biāo)記“如果、只要、只有”[例(6)]和讓步類(lèi)關(guān)聯(lián)標(biāo)記“無(wú)論、就算、不管”[例(7)]等;而“雖”嵌套能力較弱,適應(yīng)面很窄,多見(jiàn)于古典白話(huà)(古雅文言與白話(huà)的混合)文體[例(8)]。

        (5)雖然她連中學(xué)都沒(méi)畢業(yè),而且又是個(gè)新移民,但她卻毫不畏懼。(《讀者》)

        (6)長(zhǎng)??h文工團(tuán)雖然只有30多人,但是,演員一專(zhuān)多能,從團(tuán)長(zhǎng)到樂(lè)師都能上臺(tái)串戲。(1996年《人民日?qǐng)?bào)》)

        (7)雖然不管是機(jī)動(dòng)車(chē)撞非機(jī)動(dòng)車(chē)還是被非機(jī)動(dòng)車(chē)撞,結(jié)果一樣,但責(zé)任是一定要分清的。(微博)

        (8)林、劉、何所論雖角度不同,且各有發(fā)揮,但都是基于“企戀”這一心理現(xiàn)象生發(fā)開(kāi)去。(《讀書(shū)》)

        三、影響因素的重要性分析

        為全面描寫(xiě)分析關(guān)聯(lián)標(biāo)記嵌套力的影響因素,本研究依托CCL語(yǔ)料庫(kù)、CCCS語(yǔ)料庫(kù)自建了一個(gè)現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù),收錄2092條二重有標(biāo)三分句,并按照結(jié)構(gòu)語(yǔ)義層的不同將各影響因素進(jìn)行人工標(biāo)注,見(jiàn)下表1,共13種嵌套因素。它們是:關(guān)聯(lián)標(biāo)記的音節(jié)(A1—A9)、關(guān)聯(lián)標(biāo)記所處分句的位次(B1—B28)、關(guān)聯(lián)標(biāo)記與主語(yǔ)的相對(duì)位置(C1—C7)、連用的關(guān)聯(lián)標(biāo)記相互位置(D1—D3)、關(guān)聯(lián)標(biāo)記的詞性特征(E1—E48)、關(guān)聯(lián)標(biāo)記的已然性和未然性(F1—F10)、關(guān)聯(lián)標(biāo)記的確定性和選擇性(G1—G5)、關(guān)聯(lián)標(biāo)記的特定性和自由性(H1—H5)、關(guān)聯(lián)標(biāo)記的一致性和對(duì)立性(K1—K5)、關(guān)聯(lián)標(biāo)記聯(lián)結(jié)的前后分句概念語(yǔ)義距離(L1—L5)、擴(kuò)展的關(guān)聯(lián)標(biāo)記出現(xiàn)的句序(M1—M5)、關(guān)聯(lián)標(biāo)記的數(shù)量(N1—N7)和傳承關(guān)聯(lián)標(biāo)記(O1—O4)。標(biāo)注后的語(yǔ)料庫(kù)中,句法關(guān)聯(lián)模式為“1-2型”的有1382例,句法關(guān)聯(lián)模式為“2-1型”的有710例。

        表1 關(guān)聯(lián)標(biāo)記嵌套力影響因素分析語(yǔ)料庫(kù)標(biāo)注示例

        雖然各類(lèi)影響因素在現(xiàn)實(shí)語(yǔ)料中皆能找到實(shí)例,但并不意味著它們的影響概率或影響程度是相同的。各影響因素自身重要性并不均等,甚至差別很大。為保證系統(tǒng)性和有效性,本節(jié)基于機(jī)器學(xué)習(xí)算法分析各影響因素,并給出各因素的重要性排名。

        (一)研究方法

        本文基于構(gòu)建的關(guān)聯(lián)標(biāo)記嵌套力影響因素分析語(yǔ)料庫(kù),通過(guò)信息量與K-means聚類(lèi)集成模型、CART模型和scikit-learn算法包中的inspection. permutation. importance工具,分別對(duì)各因素的重要性進(jìn)行排名。而后給三種方法下的各因素排名分別賦予重要性得分,綜合三種方法的重要性得分,得到最終的影響因素綜合重要性排名??傮w操作流程見(jiàn)圖1。

        圖1 嵌套力影響因素重要性排名求解過(guò)程

        1.信息量模型

        信息量模型可作為分析過(guò)程中量化評(píng)價(jià)的手段之一,將句法關(guān)聯(lián)模式中“1-2型”的結(jié)果標(biāo)簽記為“0”,“2-1型”的結(jié)果標(biāo)簽記為“1”,來(lái)定量化分析各離散性指標(biāo)對(duì)嵌套結(jié)果的影響。如果某一因素指標(biāo)對(duì)“1”這類(lèi)結(jié)果的貢獻(xiàn)越大,那么其對(duì)應(yīng)的信息量值就越大,相應(yīng)地,此指標(biāo)對(duì)“0”這一類(lèi)結(jié)果的貢獻(xiàn)就越小。

        例如,對(duì)于嵌套因素“關(guān)聯(lián)標(biāo)記的音節(jié)”所屬次級(jí)狀態(tài)“A1”而言,統(tǒng)計(jì)該分級(jí)狀態(tài)下全語(yǔ)料庫(kù)有多少語(yǔ)料屬于“A1”,記為NA1;將語(yǔ)料庫(kù)中語(yǔ)料總數(shù)記為N;“A1”狀態(tài)分級(jí)下“1-2型”句法關(guān)聯(lián)模式的語(yǔ)料數(shù)量為N1A1;全語(yǔ)料庫(kù)中“1-2型”句法關(guān)聯(lián)模式的語(yǔ)料數(shù)量為N1。那么,“A1”這一次級(jí)狀態(tài)對(duì)語(yǔ)料的句法關(guān)聯(lián)模式為“1-2型”形成的信息量值為:

        (1.1)

        2.K-means聚類(lèi)算法

        聚類(lèi)算法是機(jī)器學(xué)習(xí)算法中的無(wú)監(jiān)督學(xué)習(xí)算法。事先不給定嵌套結(jié)果標(biāo)簽,僅就所給的嵌套力輸入因素進(jìn)行樣本聚類(lèi),聚類(lèi)的類(lèi)別結(jié)果就是預(yù)測(cè)或分析的嵌套結(jié)果標(biāo)簽。若兩個(gè)語(yǔ)料樣本間距離越近,則相似性越大,越容易被劃分為一類(lèi)。

        這部分借助SPSS中的運(yùn)算工具,先確定K-means聚類(lèi)的類(lèi)別為“2”,得到初始化的兩個(gè)聚類(lèi)中心,通過(guò)不斷迭代更新聚類(lèi)中心,直到達(dá)到最大的迭代次數(shù)或者目標(biāo)函數(shù)小于相應(yīng)的閾值,從而得到最終結(jié)果。

        3.CART算法

        CART(Classification and Regression Tree)屬于有監(jiān)督學(xué)習(xí)類(lèi)的機(jī)器學(xué)習(xí)算法。本研究在Python語(yǔ)言環(huán)境中采用CART算法對(duì)影響因素分析語(yǔ)料庫(kù)中的指標(biāo)因素進(jìn)行處理。首先依賴(lài)SPSS工具對(duì)2092條語(yǔ)料進(jìn)行隨機(jī)無(wú)放回的分層抽樣,其中,967條為“0”、497條為“1”作為訓(xùn)練數(shù)據(jù)集,占全部數(shù)據(jù)集的70%,剩下30%語(yǔ)料作為測(cè)試數(shù)據(jù)集,用以尋找最優(yōu)參數(shù)。隨后依次抽離各影響因素,重復(fù)尋優(yōu),得到相對(duì)應(yīng)的max_depth和最優(yōu)準(zhǔn)確率指標(biāo),以最終獲取影響因素的重要性排名。

        4.scikit-learn因素重要性分析工具

        scikit-learn包中的inspection.permutation.importance工具可以直接調(diào)用。僅需對(duì)標(biāo)注完成的標(biāo)簽化語(yǔ)料庫(kù)進(jìn)行直接操作,在算法中調(diào)用重要性分析工具對(duì)影響因素分析語(yǔ)料庫(kù)中的因素部分進(jìn)行分析,即可直接得解。

        (二)處理結(jié)果

        囿于篇幅有限,處理過(guò)程不做贅述。三種方法基于的底層邏輯均是科學(xué)合理的,但得到了不同的重要性排名,體現(xiàn)出顯著的因子重要性差異。為了得到更全面、綜合的影響因素重要性排名,還應(yīng)分別給它們進(jìn)行賦值,將三次賦值累加,得到各嵌套因素的綜合重要性得分,基于此對(duì)嵌套因素的重要性進(jìn)行綜合排名。具體的重要性得分賦分情況和最終的綜合重要性排名情況見(jiàn)表2。

        表2 重要性得分賦分情況與綜合重要性排名

        四、結(jié)論

        因素重要性分析一定程度上能夠解決二重有標(biāo)三分句嵌套分析時(shí)規(guī)則間出現(xiàn)相互沖突問(wèn)題,保證各影響因素的系統(tǒng)性及有效性。本文基于關(guān)聯(lián)標(biāo)記嵌套力影響因素分析語(yǔ)料庫(kù)和信息量與K-means聚類(lèi)集成模型、CART模型、scikit-learn因素重要性分析工具,得到嵌套因素的綜合重要性由重要到非重要的排名順序?yàn)椋宏P(guān)聯(lián)標(biāo)記所處分句的位次>關(guān)聯(lián)標(biāo)記的概念語(yǔ)義距離>關(guān)聯(lián)標(biāo)記的數(shù)量>(關(guān)聯(lián)標(biāo)記的詞性特征、傳承關(guān)聯(lián)標(biāo)記、關(guān)聯(lián)標(biāo)記的音節(jié))>擴(kuò)展的關(guān)聯(lián)標(biāo)記出現(xiàn)的句序>關(guān)聯(lián)標(biāo)記的確定性和選擇性>連用的關(guān)聯(lián)標(biāo)記相互位置>關(guān)聯(lián)標(biāo)記與主語(yǔ)的相對(duì)位置>關(guān)聯(lián)標(biāo)記的特定性和自由性>關(guān)聯(lián)標(biāo)記的一致性和對(duì)立性>關(guān)聯(lián)標(biāo)記的已然性和未然性。

        當(dāng)然,目前論文提及的重要性分析方法建立在大數(shù)據(jù)應(yīng)用的背景下,未來(lái)的發(fā)展進(jìn)程中,數(shù)量龐大且高質(zhì)量的語(yǔ)料、高準(zhǔn)確度的人工校核、穩(wěn)定高效的機(jī)器學(xué)習(xí)算法以及合理的定量化分析流程都會(huì)為影響因素的重要性研究帶來(lái)更可靠的結(jié)果。此外,對(duì)復(fù)句句法關(guān)聯(lián)模式產(chǎn)生影響的不僅有關(guān)聯(lián)標(biāo)記的嵌套力,相鄰分句句法成分間的語(yǔ)里關(guān)系與變換方式、分句的語(yǔ)氣功能類(lèi)型和結(jié)構(gòu)模式類(lèi)型異同,甚至語(yǔ)篇要素,同樣是影響嵌套結(jié)果的重要關(guān)聯(lián)手段。未來(lái)研究還要注意:(1)語(yǔ)料選擇的包容性;(2)人工判定的準(zhǔn)確性;(3)分析方法的科學(xué)合理性;(4)嵌套因素的完備性;等等。

        注釋?zhuān)?/p>

        [1] 劉云、肖辛格:《中文信息處理發(fā)展簡(jiǎn)史》,北京:科學(xué)出版社,2019年,第126頁(yè)。

        [2] 吳鋒文:《漢語(yǔ)復(fù)句句法語(yǔ)義關(guān)系判定研究》,北京:科學(xué)出版社,2022年,第170頁(yè)。

        [3] 邢福義:《漢語(yǔ)復(fù)句研究》,北京:商務(wù)印書(shū)館,2001年,第26頁(yè)。

        [4] 馮勝利:《漢語(yǔ)的韻律、詞法與句法》,北京:北京大學(xué)出版社,1997年,第3頁(yè)。

        [5] 劉云:《復(fù)句關(guān)系詞語(yǔ)離析度考察》,《語(yǔ)言教學(xué)與研究》2008年第6期,第15~21頁(yè)。

        [6] J. Jonides, D. E. Dee, “Brain Mechanisms of Proactive Interference in Working Memory”,Neuroscience,1,2006,pp.181-193.

        [7] 陸丙甫:《從賓語(yǔ)標(biāo)記的分布看語(yǔ)言類(lèi)型學(xué)的功能分析》,《當(dāng)代語(yǔ)言學(xué)》2001年第4期,第253~263頁(yè)。

        猜你喜歡
        關(guān)聯(lián)語(yǔ)義重要性
        “苦”的關(guān)聯(lián)
        “0”的重要性
        論七分飽之重要性
        幼兒教育中閱讀的重要性
        甘肅教育(2020年21期)2020-04-13 08:09:24
        語(yǔ)言與語(yǔ)義
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        讀《邊疆的重要性》有感
        認(rèn)知范疇模糊與語(yǔ)義模糊
        国产精品自在在线午夜出白浆| 男男受被攻做哭娇喘声视频| 亚洲色偷偷综合亚洲av伊人| 免费国产黄片视频在线观看| 精品国产一区二区av麻豆不卡| 麻豆91蜜桃传媒在线观看| 无码免费一区二区三区| 98色花堂国产精品首页| 日本中出熟女一区二区| 中文字幕女优av在线| 亚洲精品无码国产| 中文字幕乱码人妻无码久久麻豆| 精品国产一区二区三区久久狼| 亚洲天堂精品一区入口| 国产伦理一区二区| 精品国产高清自在线99| 国产自产自现在线视频地址| 日韩精品视频久久一区二区| 日产无人区一线二线三线乱码蘑菇| 91亚洲无码在线观看| 日韩中文字幕乱码在线| 乱码窝窝久久国产无人精品| 精品少妇人妻av一区二区| 精品久久久久久蜜臂a∨| 亚洲情久久久精品黄色| 亚洲av色欲色欲www| 久久99精品久久久久久hb无码| 国内精品久久久久久久亚洲| 国产极品大秀在线性色| 麻豆免费观看高清完整视频 | 亚洲熟妇少妇69| 中文字幕一区二区三在线| 免费国产自拍在线观看| 日本丰满熟妇bbxbbxhd| 国产精品98视频全部国产| 日本免费视频一区二区三区| 欧美精品videosex极品| 欧美一欧美一区二三区性| 日韩中文字幕一区二十| 永久天堂网av手机版| 国语对白做受xxxxx在线中国|