亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        句法結(jié)構(gòu)認(rèn)知難度的計(jì)算指標(biāo)分析

        2021-12-08 01:55:00劉海濤
        關(guān)鍵詞:工作記憶句法概率

        方 昱 劉海濤

        一、 引言

        句法復(fù)雜度是二語(yǔ)口筆語(yǔ)教學(xué)與研究中的一個(gè)重要構(gòu)念,常用來(lái)衡量學(xué)習(xí)者寫作和口語(yǔ)等語(yǔ)言水平的發(fā)展(李茜,2013;Lu,2011)。目前常用的句法復(fù)雜度指標(biāo)包括平均子句長(zhǎng)度、并列句比例和從屬句比例等。這些指標(biāo)涵蓋了句子結(jié)構(gòu)的眾多方面,但大多沒(méi)有涉及語(yǔ)言學(xué)意義上的句法。準(zhǔn)確來(lái)說(shuō),這些指標(biāo)關(guān)注的是句子結(jié)構(gòu)的復(fù)雜度。

        句法復(fù)雜度還可以從認(rèn)知角度出發(fā)來(lái)測(cè)量。語(yǔ)言使用者在句法加工過(guò)程中會(huì)耗損一定的認(rèn)知資源,消耗的資源越多,句法復(fù)雜度越高。這種句法復(fù)雜度又可稱作認(rèn)知難度。衡量認(rèn)知難度最直接的方法是實(shí)驗(yàn)。借助自控速閱讀(self-paced reading)、眼球追蹤(eye tracking)和事件相關(guān)電位(ERP)等技術(shù),獲取反應(yīng)時(shí)、注視時(shí)間和N400認(rèn)知電位等數(shù)據(jù),便可以直觀描述認(rèn)知難度。只要實(shí)驗(yàn)設(shè)計(jì)合理,結(jié)果就較為可信。但實(shí)驗(yàn)會(huì)耗費(fèi)大量人力物力,研究者難以招募很多被試,所用實(shí)驗(yàn)材料的數(shù)量也較為有限,因而實(shí)驗(yàn)結(jié)果常常難以復(fù)制和推廣。

        自然語(yǔ)言處理技術(shù)的發(fā)展,尤其是句法分析技術(shù)的完善,使得大規(guī)模、高精度的自動(dòng)句法標(biāo)注成為可能。在這一背景下,帶有句法標(biāo)注的語(yǔ)料庫(kù)(樹(shù)庫(kù))越來(lái)越多,如賓州樹(shù)庫(kù)、布拉格依存樹(shù)庫(kù)和哈工大中文依存樹(shù)庫(kù),這為基于真實(shí)語(yǔ)料衡量認(rèn)知難度提供了新思路。研究者從這些樹(shù)庫(kù)中提取句法關(guān)系、詞匯共現(xiàn)和共現(xiàn)頻率等信息,借助數(shù)理統(tǒng)計(jì)、信息論和計(jì)算機(jī)建模技術(shù),構(gòu)建認(rèn)知難度的計(jì)算指標(biāo),進(jìn)而探究符合人類普遍認(rèn)知規(guī)律的句法加工特點(diǎn)。如果計(jì)算指標(biāo)的預(yù)測(cè)結(jié)果與實(shí)驗(yàn)結(jié)果一致,便可考慮用計(jì)算指標(biāo)補(bǔ)充心理實(shí)驗(yàn),而這也是計(jì)算認(rèn)知科學(xué)(computational cognitive science)的初衷。

        按研究者對(duì)句法加工內(nèi)部機(jī)制的不同理解,現(xiàn)有計(jì)算認(rèn)知指標(biāo)可分為兩類。第一類為基于工作記憶容量限制的指標(biāo),包括存儲(chǔ)成本(storage cost,SC)、整合成本(integration cost,IC)、依存距離(dependency distance,DD)等。研究者認(rèn)為句法加工過(guò)程需要工作記憶的參與,加工難度越大,工作記憶負(fù)荷越高。而人的工作記憶容量是有限的,因而高工作記憶負(fù)荷會(huì)造成較大的認(rèn)知難度。另一類為基于經(jīng)驗(yàn)預(yù)測(cè)的指標(biāo),包括驚異值(surprisal)、概率配價(jià)(probabilistic valency)、熵(entropy)等。這一派研究者認(rèn)為在句法加工過(guò)程中,語(yǔ)言使用者會(huì)依據(jù)以往經(jīng)驗(yàn)預(yù)測(cè)之后出現(xiàn)的內(nèi)容,這些經(jīng)驗(yàn)包括但不限于句法結(jié)構(gòu)形式、句法結(jié)構(gòu)使用頻率和詞的語(yǔ)法特征。使用者擁有的經(jīng)驗(yàn)越豐富,預(yù)測(cè)成功的幾率越大,認(rèn)知難度便越小。相較于傳統(tǒng)的句法復(fù)雜度指標(biāo),這些指標(biāo)更加關(guān)注句法結(jié)構(gòu),衡量的是句法結(jié)構(gòu)認(rèn)知難度。

        這兩類指標(biāo)自提出以來(lái),已得到心理語(yǔ)言實(shí)驗(yàn)的驗(yàn)證,可以用來(lái)解釋部分語(yǔ)言現(xiàn)象。這說(shuō)明,雖然這些指標(biāo)源于認(rèn)知科學(xué)、信息論和自然語(yǔ)言處理領(lǐng)域,但同樣有助于語(yǔ)言規(guī)律的探尋。在促進(jìn)多學(xué)科交叉和深度融合的今天,語(yǔ)言學(xué)研究者需要更加積極地學(xué)習(xí)和借鑒其他學(xué)科的研究成果。鑒于此,本文將梳理上述兩類計(jì)算指標(biāo),對(duì)比指標(biāo)預(yù)測(cè)結(jié)果與實(shí)驗(yàn)結(jié)果,探究將這些指標(biāo)應(yīng)用于語(yǔ)言學(xué)研究的可行性,以期更好地了解語(yǔ)言結(jié)構(gòu)的特點(diǎn),揭示認(rèn)知機(jī)制對(duì)語(yǔ)言結(jié)構(gòu)的制約作用。

        二、 基于工作記憶容量限制的指標(biāo)

        第一類指標(biāo)以工作記憶負(fù)荷為基礎(chǔ)來(lái)衡量認(rèn)知難度。研究者認(rèn)為,句法加工是一個(gè)逐詞遞增的過(guò)程,人們會(huì)即時(shí)解析已出現(xiàn)的詞與新出現(xiàn)的詞之間的句法關(guān)系。如果句法關(guān)系出現(xiàn)在兩個(gè)非相鄰詞wn和wn+i之間,工作記憶負(fù)荷就會(huì)增加,而人們的工作記憶容量是有限的,認(rèn)知難度由此產(chǎn)生。本文介紹三種基于工作記憶容量限制的指標(biāo):存儲(chǔ)成本、整合成本和依存距離。

        (一) 存儲(chǔ)成本和整合成本

        存儲(chǔ)成本和整合成本是基于短語(yǔ)結(jié)構(gòu)語(yǔ)法提出的,它們一起構(gòu)成了依存局域理論(dependency locality theory,DLT)(Gibson,1998,2000)。這一理論認(rèn)為,一個(gè)詞出現(xiàn)后,語(yǔ)言使用者需要完成兩種句法加工任務(wù)。其一,在工作記憶中保存當(dāng)前尚不完整的句法關(guān)系,由此產(chǎn)生的認(rèn)知難度用存儲(chǔ)成本來(lái)衡量,以記憶單位(memory unit/MU)計(jì);其二,從工作記憶中回溯與該詞相關(guān)的句法信息,將其融入之前尚不完整的句法關(guān)系中,由此產(chǎn)生的認(rèn)知難度用整合成本來(lái)度量,以能量單位(energy unit/EU)計(jì)。Gibson(2000,p.102)認(rèn)為整合成本更為重要,多數(shù)情況下可以只用整合成本描述認(rèn)知難度。

        整合成本又可分為話語(yǔ)處理成本(discourse processing cost,DPC)和結(jié)構(gòu)整合成本(structural integration cost,SIC)。以圖1為例,該圖為句子S的短語(yǔ)結(jié)構(gòu)句法分析結(jié)果,以h2為中心詞的投射XP與以h1為中心詞的投射Y1之間存在句法關(guān)系。當(dāng)h2出現(xiàn)時(shí),一方面需要為h2的投射XP構(gòu)建話語(yǔ)結(jié)構(gòu),當(dāng)h2為名詞或動(dòng)詞時(shí),便會(huì)出現(xiàn)話語(yǔ)處理成本;另一方面需要建立以h2為中心詞的投射XP與投射Y1之間的聯(lián)系,這一過(guò)程消耗的結(jié)構(gòu)整合成本由h1與h2之間的名詞和動(dòng)詞數(shù)量決定。

        圖1 以h2為中心詞的投射XP到以h1為中心詞的投射Y1的整合成本

        已有研究者利用依存局域理論解釋關(guān)系從句的加工難度。不同類型關(guān)系從句的研究中,以主語(yǔ)提取關(guān)系從句(subject-extracted relative clauses,SRC)和賓語(yǔ)提取關(guān)系從句(object-extracted relative clauses,ORC)最為常見(jiàn)(何文廣、陳寶國(guó),2011)。心理語(yǔ)言實(shí)驗(yàn)結(jié)果表明,英語(yǔ)ORC的加工難度大于SRC(Grodner & Gibson,2005),與依存局域理論的預(yù)測(cè)一致。我們以Grodner & Gibson(2005)使用的一組SRC、ORC為例,對(duì)比實(shí)驗(yàn)結(jié)果與依存局域理論預(yù)測(cè)結(jié)果,見(jiàn)表1。例(2a)和(2b)分別包含SRC和ORC,用黑斜體標(biāo)識(shí),SC表示存儲(chǔ)成本,IC表示整合成本。

        表1 依存局域理論對(duì)英語(yǔ)SRC和ORC認(rèn)知難度的預(yù)測(cè)

        就(2a)而言,當(dāng)?shù)谝粋€(gè)詞the出現(xiàn)時(shí),其后至少還需要一個(gè)名詞和一個(gè)動(dòng)詞才能構(gòu)成完整的句子,它的存儲(chǔ)成本為2 MUs;the是冠詞,不消耗話語(yǔ)處理成本,整合成本為0 EU。第二個(gè)詞reporter出現(xiàn)后,只需一個(gè)動(dòng)詞就能形成完整的句子,存儲(chǔ)成本變?yōu)? MU;reporter為名詞,消耗一個(gè)話語(yǔ)整合成本,同時(shí)reporter與the相鄰,構(gòu)成名詞短語(yǔ),這一過(guò)程不會(huì)消耗結(jié)構(gòu)整合成本,因而整合成本為1 EU。類似可推知每個(gè)詞出現(xiàn)后存儲(chǔ)成本和整合成本的變化。句子的存儲(chǔ)成本由句中最大的存儲(chǔ)成本決定,整合成本由最大的整合成本決定。因而,(2a)的存儲(chǔ)成本為3 MUs,整合成本為4 EUs;(2b)的存儲(chǔ)成本為4 MUs,整合成本為4 EUs。就關(guān)系從句部分而言,SRC的存儲(chǔ)成本為3 MUs,整合成本為1 EU;ORC的存儲(chǔ)成本為4 MUs,整合成本為3 EUs。存儲(chǔ)成本和整合成本均預(yù)測(cè)ORC的認(rèn)知難度更大。

        自控速閱讀實(shí)驗(yàn)結(jié)果同樣顯示ORC的認(rèn)知難度更大。表2給出了該實(shí)驗(yàn)的結(jié)果,表中數(shù)字表示每個(gè)詞(詞組)的閱讀時(shí)間,單位為毫秒。為了方便對(duì)比實(shí)驗(yàn)結(jié)果與指標(biāo)預(yù)測(cè)結(jié)果,我們將每個(gè)詞(詞組)的存儲(chǔ)成本和整合成本以括號(hào)的形式加在閱讀時(shí)間后面,括號(hào)中的第一個(gè)數(shù)字表示存儲(chǔ)成本,第二個(gè)數(shù)字表示整合成本。由表2來(lái)看,ORC中sent的閱讀時(shí)間最長(zhǎng),是引起ORC認(rèn)知難度的主要原因,這與整合成本的預(yù)測(cè)一致(sent的整合成本最大)。但存儲(chǔ)成本預(yù)測(cè)ORC中主語(yǔ)(即thephotographer)的認(rèn)知難度更大,與實(shí)驗(yàn)結(jié)果存在差異。

        表2 英語(yǔ)SRC和ORC的閱讀時(shí)間

        (二) 依存距離

        基于工作記憶容量限制的另一指標(biāo)是句法距離(syntactic distance)。在依存語(yǔ)法框架下,句法距離(依存距離)指句子中兩個(gè)有依存句法關(guān)系的詞之間的線性距離(劉海濤,2009)。在計(jì)算依存距離前,需要對(duì)句子進(jìn)行依存句法分析。圖2為例(2a)和(2b)的依存句法分析結(jié)果。

        圖2 例(2a)(左)和(2b)(右)的依存句法結(jié)構(gòu)

        圖2中帶有箭頭的弧線連接了兩個(gè)有句法關(guān)系的詞,箭頭從支配詞指向從屬詞,表示這兩個(gè)詞之間的二元非對(duì)稱關(guān)系,弧線上方的數(shù)字表示依存距離。如the與reporter之間由一條弧線相連,the為從屬詞,reporter為支配詞,它們的依存距離為支配詞詞序減去從屬詞詞序(2-1=1)(Liu,2006,2008)。在這一句法關(guān)系中,支配詞位于從屬詞后,依存距離為正值。但某些句法關(guān)系中,支配詞位于從屬詞前,如hoped和for,這時(shí)依存距離為負(fù)值(10-11=-1)。依存距離的正負(fù)體現(xiàn)了語(yǔ)言類型的差異(Liu,2010),與認(rèn)知難度關(guān)系不大,因而這里只考慮依存距離的絕對(duì)值。多數(shù)情況下,依存距離越長(zhǎng),認(rèn)知難度越大?;谝来鏄?shù)庫(kù)的大數(shù)據(jù)分析結(jié)果顯示,依存距離最小化是自然語(yǔ)言的一個(gè)普遍特征(Futrell,Mahowald & Gibson,2015;Liu,2008),這可能是人們?yōu)闇p輕交流過(guò)程中的認(rèn)知負(fù)擔(dān)而做出的選擇。

        完成句法分析和依存距離計(jì)算后,便可統(tǒng)計(jì)每個(gè)詞的認(rèn)知難度。認(rèn)知難度源于從工作記憶中提取已出現(xiàn)過(guò)的詞,建立新出現(xiàn)的詞與這個(gè)(些)詞之間的句法關(guān)系。以(2a)中的sent為例,它與who,photographer和to之間存在句法關(guān)系,但只有who和photographer出現(xiàn)在sent之前,因此sent的認(rèn)知難度由sent與這兩個(gè)詞的依存距離之和(1+2=3)決定。類似地,計(jì)算(2a)和(2b)中每個(gè)詞的認(rèn)知難度,結(jié)果如表3所示。

        表3 基于依存距離計(jì)算的(2a)和(2b)的認(rèn)知難度

        一個(gè)句子的認(rèn)知難度由句中所有詞的平均認(rèn)知難度決定,即由句子的平均依存距離(mean dependency distance,MDD)決定(Liu,2008)。(2b)的平均依存距離為26/12,大于(2a)的平均依存距離(25/12),(2b)的認(rèn)知難度更大。如果只考慮關(guān)系從句,ORC的平均依存距離為(13/7)也大于SRC的平均依存距離(12/7),與實(shí)驗(yàn)結(jié)果一致,說(shuō)明依存距離能較好地預(yù)測(cè)句子的認(rèn)知難度。具體到每個(gè)詞,ORC中sent的認(rèn)知難度最大,同樣與實(shí)驗(yàn)結(jié)果一致。

        (三) 依存局域理論與依存距離對(duì)比

        依存局域理論和依存距離對(duì)認(rèn)知難度的動(dòng)因有一致認(rèn)識(shí),即不斷增加的工作記憶負(fù)荷與有限工作記憶容量的矛盾。存儲(chǔ)成本測(cè)量的是理解過(guò)程中需要記住的不完整句法關(guān)系數(shù)量,需要記住的數(shù)量越多,認(rèn)知難度越大。類似的指標(biāo)還有瞬時(shí)信息塊數(shù)(陸丙甫、于賽男,2018)、嵌入深度和F+L-(van Schijndel & Schuler,2013)等。整合成本和依存距離則以詞間距離衡量認(rèn)知難度,距離越長(zhǎng),認(rèn)知難度越大。由于整合成本是依據(jù)短語(yǔ)結(jié)構(gòu)語(yǔ)法定義的,依存距離是依據(jù)依存語(yǔ)法定義的,它們對(duì)距離的測(cè)算存在差異。整合成本關(guān)注短語(yǔ)結(jié)構(gòu)樹(shù)中兩個(gè)投射的中心詞之間的距離,依存距離則關(guān)注具有依存句法關(guān)系的詞與詞之間的線性距離。

        自然語(yǔ)言處理技術(shù)的快速發(fā)展使得指標(biāo)的自動(dòng)化計(jì)算成為可能。比如利用Stanford Parser、MaltParser和哈工大LTP等句法分析器標(biāo)注依存句法關(guān)系,獲取包括支配詞和從屬詞詞序在內(nèi)的句法信息,便可計(jì)算依存距離。整合成本雖是依據(jù)短語(yǔ)結(jié)構(gòu)語(yǔ)法定義的,但為了適應(yīng)大規(guī)模語(yǔ)料的處理需求,在實(shí)際計(jì)算中,常常將短語(yǔ)結(jié)構(gòu)樹(shù)轉(zhuǎn)換為線性結(jié)構(gòu),統(tǒng)計(jì)中心詞之間的名詞和動(dòng)詞數(shù)量,或直接計(jì)算詞與詞之間的線性距離(Rajkumar,etal.,2016)。對(duì)于存儲(chǔ)成本,雖然目前還沒(méi)有直接可用的測(cè)量工具,但類似的指標(biāo),如嵌入深度和F+L-,可以通過(guò)ModelBlocks計(jì)算得到。

        總體上,三個(gè)指標(biāo)都能較為準(zhǔn)確地預(yù)測(cè)句子的認(rèn)知難度,但它們卻不一定能準(zhǔn)確預(yù)測(cè)每個(gè)詞的認(rèn)知難度,如存儲(chǔ)成本沒(méi)有反映出(2b)中sent一詞的認(rèn)知難度。這可能是因?yàn)檫@些指標(biāo)強(qiáng)調(diào)的是詞與詞之間的句法關(guān)系,沒(méi)有考慮詞本身的特點(diǎn)。不同詞類的認(rèn)知負(fù)擔(dān)是有差異的,如人稱代詞比名詞更容易理解,因而將SRC和ORC的主語(yǔ)換做代詞時(shí),SRC和ORC的認(rèn)知難度差異消失(Warren & Gibson,2002)。整合成本只統(tǒng)計(jì)名詞和動(dòng)詞數(shù)量,反映了Gibson對(duì)這一問(wèn)題的思考。但只做名詞、動(dòng)詞與其他詞類的劃分顯然是不夠的。當(dāng)英語(yǔ)ORC的主語(yǔ)分別為代詞、人名、姓氏、帶定冠詞的名詞、帶不定冠詞的名詞時(shí),認(rèn)知難度逐步增加(Warren & Gibson,2002)。

        這三個(gè)指標(biāo)也不能準(zhǔn)確預(yù)測(cè)所有句子的認(rèn)知難度。比如,在德語(yǔ)句末動(dòng)詞前插入關(guān)系從句,動(dòng)詞的閱讀時(shí)間不僅不會(huì)增加,反而會(huì)減少,與整合成本和依存距離的預(yù)測(cè)剛好相反。要解釋這類現(xiàn)象,可能得借助基于經(jīng)驗(yàn)預(yù)測(cè)的指標(biāo)。

        三、 基于經(jīng)驗(yàn)預(yù)測(cè)的指標(biāo)

        第二類指標(biāo)以經(jīng)驗(yàn)的豐富度為出發(fā)點(diǎn)來(lái)衡量認(rèn)知難度。研究者認(rèn)為,在句子加工過(guò)程中,語(yǔ)言使用者會(huì)根據(jù)經(jīng)驗(yàn)預(yù)測(cè)接下來(lái)出現(xiàn)的內(nèi)容(Levy,2008)。某個(gè)詞或某種句法結(jié)構(gòu)出現(xiàn)的次數(shù)越多,語(yǔ)言使用者所獲得的經(jīng)驗(yàn)越豐富,預(yù)測(cè)的準(zhǔn)確性就會(huì)越高,這個(gè)詞或這種句法結(jié)構(gòu)的認(rèn)知難度也就越小(Levy,2008)。這里主要介紹兩種基于經(jīng)驗(yàn)預(yù)測(cè)的指標(biāo):驚異值和概率配價(jià)。

        (一) 驚異值

        “驚異”源于信息論,用來(lái)描述某一觀測(cè)事件的信息值。假設(shè)隨機(jī)事件X出現(xiàn)的概率為p(x),其驚異值便為-log2p(x)。驚異值自Hale(2001)引入心理語(yǔ)言學(xué)后,已被不少研究者用來(lái)評(píng)估句子的認(rèn)知難度(Rajkumar,etal.,2016;Smith & Levy,2013)。如果將句中某個(gè)詞的出現(xiàn)看作隨機(jī)事件X,這個(gè)詞出現(xiàn)的概率越大,它的驚異值便越小,認(rèn)知難度也就越小。假設(shè)一個(gè)句子的前n-1個(gè)詞為w1…wn-1,第n個(gè)詞wn的出現(xiàn)受w1…wn-1的制約,(條件)概率為p(wn│w1…wn-1)。將這一概率代入驚異值的計(jì)算公式,便可得到wn的驚異值surprisal(wn)=-log2p(wn│w1…wn-1)。以例(2a)中的sent為例,這個(gè)詞的條件概率可表示為p(sent│thereporterwho),驚異值為-log2p(sent│thereporterwho)。計(jì)算驚異值的關(guān)鍵是估算條件概率p(wn│w1…wn-1),可借助語(yǔ)言模型獲取,如N元語(yǔ)言模型、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型、概率上下文無(wú)關(guān)語(yǔ)法模型和概率依存語(yǔ)法模型。前兩種語(yǔ)言模型關(guān)注詞的線性順序,后兩種語(yǔ)言模型除詞的線性順序外,還加入了句法關(guān)系。本文關(guān)注的是句法結(jié)構(gòu)認(rèn)知難度,接下來(lái)將重點(diǎn)介紹后兩種語(yǔ)法模型。

        概率上下文無(wú)關(guān)語(yǔ)法(probabilistic context free grammar,PCFG)屬于短語(yǔ)結(jié)構(gòu)語(yǔ)法的一種,是將概率引入短語(yǔ)結(jié)構(gòu)語(yǔ)法形成的語(yǔ)法規(guī)則系統(tǒng)。概率依存語(yǔ)法(probabilistic dependency grammar)(Nivre,2006)是另一種將概率與語(yǔ)法規(guī)則相結(jié)合的語(yǔ)法,是依存語(yǔ)法的概率化擴(kuò)展。PCFG和概率依存語(yǔ)法的核心都是用數(shù)理統(tǒng)計(jì)的方法分析語(yǔ)言成分之間的關(guān)系,分析句法結(jié)構(gòu)出現(xiàn)的概率。假設(shè)基于PCFG分析詞串w1…wn的句法結(jié)構(gòu),這n個(gè)詞一起出現(xiàn)的概率P(w1…wn)可以表示為∑TP(T,w1…wn),其中T代指短語(yǔ)結(jié)構(gòu)樹(shù),∑TP(T,w1…wn)為由w1…wn構(gòu)成的所有短語(yǔ)結(jié)構(gòu)樹(shù)的概率之和。如果換成概率依存語(yǔ)法,∑TP(T,w1…wn)則表示由w1…wn構(gòu)成的所有依存樹(shù)的概率之和。這樣,wn的驚異值可以按照下面的公式來(lái)計(jì)算:

        接下來(lái)應(yīng)用HumDep(Boston,etal.,2008)和TdParse(Roark,etal.,2009)估算例(2a)和例(2b)的驚異值,以驗(yàn)證驚異值能否準(zhǔn)確預(yù)測(cè)句子的認(rèn)知難度。HumDep是基于概率依存語(yǔ)法開(kāi)發(fā)的,訓(xùn)練集只包含詞性信息,只能輸出非詞匯化驚異值(unlexicalized suprisal)。TdParse是基于PCFG開(kāi)發(fā)的,訓(xùn)練語(yǔ)料包含詞性和詞信息,既可以輸出非詞匯化驚異值(在該軟件中被稱作句法驚異值,syntactic surpirsal),也可以輸出詞匯化驚異值(lexicalized surprisal)。例(2a)和例(2b)的分析結(jié)果如表4所示。

        表4 基于TdParse和HumDep計(jì)算的例(2a)和(2b)的驚異值

        表4顯示了(2a)和(2b)中每個(gè)詞的驚異值,SynS和LexS的結(jié)果來(lái)自TdParse,分別表示句法驚異值和詞匯化驚異值,PosS的結(jié)果來(lái)自HumDep,表示非詞匯化驚異值。句中所有詞的驚異值之和便是整個(gè)句子的驚異值(Fang & Liu,2021)。根據(jù)TdParse的估算結(jié)果,(2a)的句法驚異值為22.85,(2b)的句法驚異值為25.15;(2a)的詞匯化驚異值為48.26,(2b)的詞匯化驚異值為47.14。根據(jù)HumDep的估算結(jié)果,(2a)的非詞匯化驚異值為12.97,(2b)的非詞匯化驚異值為11.99。其中,SRC的句法驚異值為15.09,詞匯化驚異值為21.26,非詞匯化驚異值為9.58;SRC的句法驚異值為16.91,詞匯化驚異值為20.18,非詞匯化驚異值為8.53。

        由以上結(jié)果來(lái)看,只有句法驚異值的結(jié)果顯示ORC的認(rèn)知難度大于SRC。此外,這三種驚異值的預(yù)測(cè)結(jié)果均未體現(xiàn)sent是造成ORC認(rèn)知難度的主要原因。這一結(jié)果表明:一方面,驚異值能預(yù)測(cè)句子的認(rèn)知難度,但預(yù)測(cè)的準(zhǔn)確性受語(yǔ)法、詞和詞性的影響;另一方面,驚異值在預(yù)估具體詞匯的認(rèn)知難度時(shí),可能作用有限。

        (二) 概率配價(jià)

        另一個(gè)基于經(jīng)驗(yàn)預(yù)測(cè)的認(rèn)知難度指標(biāo)是概率配價(jià)。配價(jià)是依存語(yǔ)法的核心概念,表示一個(gè)詞(類)與其他詞(類)的結(jié)合能力(劉海濤,2009)。當(dāng)一個(gè)詞(類)進(jìn)入句子時(shí),這種能力得以實(shí)現(xiàn),多種可能的配價(jià)變?yōu)橐环N,此時(shí)詞(類)與詞(類)之間便形成了句法關(guān)系。因而,配價(jià)與句法關(guān)系是包含與被包含的關(guān)系,句法關(guān)系是實(shí)現(xiàn)了的配價(jià)。正如句法關(guān)系中存在支配詞和從屬詞一樣,詞(類)的配價(jià)也分為支配和從屬兩類。支配表示它作為支配詞(類)的能力,從屬表示它受別的詞(類)支配的能力。詞(類)的配價(jià)模式可以借助圖3表示。

        圖3 詞(類)W的配價(jià)模式

        其中,W代表一個(gè)詞(類),G1,G2,…Gn-1,Gn為n種可以支配W的句法關(guān)系,D1,D2…Dm-1,Dm為m種可以受W支配的句法關(guān)系,帶有箭頭的線條表示支配方向。在語(yǔ)言使用中,不同句法關(guān)系出現(xiàn)的可能性不是均等的(Liu,2006)。假設(shè)W為動(dòng)詞,它可以支配名詞形成主謂句法關(guān)系(D3),也可以支配量詞形成動(dòng)補(bǔ)句法關(guān)系(D2)。由語(yǔ)言使用經(jīng)驗(yàn)可知,主謂句法關(guān)系比動(dòng)補(bǔ)句法關(guān)系更常見(jiàn)。

        劉海濤和馮志偉(2007)將概率引入詞(類)的配價(jià)模式,借助概率說(shuō)明句法關(guān)系出現(xiàn)可能性的差異,這便是概率配價(jià)。如圖3所示,用wg1,wg2…wgn-1和wgn分別表示句法關(guān)系G1,G2…Gn-1,Gn在W的整個(gè)被支配能力中所占的比例,wg1+wg2+…+wgn=1;用wd1,wd2…wdm-1和wdm表示句法關(guān)系D1,D2…Dn-1,Dn在W的總支配能力中所占的比例,wd1+wd2+…+wdm=1。同時(shí),用不同粗細(xì)的線條表示不同的比例,比例越大,線條越粗。具體到計(jì)算過(guò)程中,可以通過(guò)依存樹(shù)庫(kù)獲取這些比例:首先從樹(shù)庫(kù)中提取所有W為從屬詞的句法關(guān)系,再分類統(tǒng)計(jì)每種句法關(guān)系的數(shù)量,便可得到每種句法關(guān)系所占的比例wg1,…,wgn。類似地,計(jì)算wd1,…,wdm的值。

        概率配價(jià)表示兩個(gè)詞(類)形成句法關(guān)系的概率,應(yīng)用到句法加工中,可以理解為當(dāng)前出現(xiàn)的詞(類)wn與已經(jīng)出現(xiàn)的詞(類)形成句法關(guān)系的概率。當(dāng)wn出現(xiàn)時(shí),它可能與之前的某個(gè)詞(類)形成m種句法關(guān)系,對(duì)應(yīng)m個(gè)概率。人們一般傾向于按概率最大的句法關(guān)系理解。比如,高松(2013)以“小王研究魯迅的文章發(fā)表了”為例,利用最大概率原則解釋了花園幽徑句理解困難的原因。當(dāng)我們看到專有名詞“魯迅”時(shí),會(huì)將其理解為動(dòng)詞“研究”的賓語(yǔ),此時(shí)這種句法關(guān)系的概率最大。看到名詞“文章”后,我們會(huì)修正之前的分析,將名詞理解為動(dòng)詞“研究”的賓語(yǔ),因?yàn)槊~作賓語(yǔ)的概率大于專有名詞作賓語(yǔ)的概率。動(dòng)詞“發(fā)表”出現(xiàn)后,我們又會(huì)推翻之前的分析,將前面出現(xiàn)的詞理解為名詞短語(yǔ),作動(dòng)詞“發(fā)表”的主語(yǔ)。句法分析過(guò)程一波三折,正體現(xiàn)了概率對(duì)句法加工的影響。從計(jì)算角度來(lái)看,如果wn與已經(jīng)出現(xiàn)的多個(gè)詞(類)都有句法關(guān)系,那就先按最大概率原則確定wn與每個(gè)詞(類)的句法關(guān)系,然后將這些句法關(guān)系對(duì)應(yīng)的概率相乘,便是wn在這個(gè)位置形成句法關(guān)系的概率。在計(jì)算句法關(guān)系的概率時(shí),還需要考慮構(gòu)成句法關(guān)系的詞(類)在句中的相對(duì)位置,也就是要考慮兩個(gè)詞(類)之間的依存距離。

        接下來(lái)以(2a)和(2b)為例,具體說(shuō)明如何用概率配價(jià)理論分析句子的認(rèn)知難度。配價(jià)既可以是詞類的結(jié)合能力,也可以是詞的結(jié)合能力,這里暫只考慮詞類的配價(jià)。我們將從布拉格捷克英語(yǔ)依存樹(shù)庫(kù)(Prague Czech-English Dependency Treebank)中提取概率信息,因而依照該樹(shù)庫(kù)的標(biāo)注準(zhǔn)則對(duì)(2a)和(2b)進(jìn)行詞性標(biāo)注和句法分析。按以下步驟從左到右依次分析(2a)中每個(gè)詞類的認(rèn)知難度,即分析每個(gè)詞類與已出現(xiàn)詞類形成句法關(guān)系的概率。

        (1) 任意句子中,第一個(gè)詞類的概率記作0,因?yàn)樗鼪](méi)有與任何詞類形成句法關(guān)系。

        (2) 確定當(dāng)前詞的詞性,分析該詞性與已出現(xiàn)詞性的關(guān)系。如果這個(gè)詞有多種詞性,則需分別分析每種詞性的情況。如sent既可能是動(dòng)詞的過(guò)去式,也可能是過(guò)去分詞,它的前面有the(冠詞)、reporter(名詞)、who(疑問(wèn)代詞),需要分別確定過(guò)去式(或過(guò)去分詞)與冠詞、名詞、疑問(wèn)代詞的關(guān)系。

        (3) 根據(jù)最大概率原則,確定每對(duì)詞性組合的共現(xiàn)概率和句法關(guān)系。如前所述,計(jì)算詞類的概率配價(jià)時(shí),需分別考慮它作支配詞和從屬詞兩種情況。計(jì)算詞性組合的共現(xiàn)概率時(shí),同樣需分開(kāi)考慮。以過(guò)去式(sent)與名詞(reporter)為例,第一種情況以過(guò)去式為支配詞,名詞為從屬詞,依存距離2為條件,檢索到樹(shù)庫(kù)中共出現(xiàn)了323次,包含三種句法關(guān)系,其中主語(yǔ)句法關(guān)系(Sb)出現(xiàn)了300次,占比最大,為0.93;第二種情況以過(guò)去式為從屬詞,名詞為支配詞,依存距離-2(1)布拉格捷克英語(yǔ)依存樹(shù)庫(kù)在計(jì)算依存距離時(shí)區(qū)分了正負(fù),這里同樣以支配詞詞序減去從屬詞詞序作為它們這兩個(gè)詞的依存距離。為條件,得到24個(gè)檢索項(xiàng),均為屬性關(guān)系(Atr),概率為1。最終確定這對(duì)詞性組合構(gòu)成了屬性關(guān)系,概率為1。

        (4) 得到當(dāng)前詞性與已出現(xiàn)詞性的共現(xiàn)概率后,將這些概率相乘,作為當(dāng)前詞性形成句法關(guān)系的概率。如過(guò)去式(sent)形成句法關(guān)系的概率為1(過(guò)去式-名詞)×1(過(guò)去式-疑問(wèn)代詞)=1(樹(shù)庫(kù)中沒(méi)有檢索到過(guò)去式與冠詞的句法關(guān)系,說(shuō)明冠詞出現(xiàn)與否并不影響過(guò)去式的概率)。

        (5) 如果一個(gè)詞有多種詞性,它的詞性由概率較大的那種詞性決定。如sent作過(guò)去式時(shí)的概率為1,作過(guò)去分詞時(shí)的概率為0.99,因而將其標(biāo)記為過(guò)去式。

        (6) 依存樹(shù)庫(kù)中可能有一些標(biāo)注誤差,因而只有當(dāng)檢索項(xiàng)超過(guò)10個(gè)時(shí),才認(rèn)定兩個(gè)詞性的句法關(guān)系成立。此外,如果兩種句法關(guān)系有沖突,選擇概率較大的那個(gè)。比如步驟(3)中將過(guò)去式理解為名詞的從屬詞,不僅因?yàn)樵摼浞P(guān)系的概率為1,還因?yàn)槿绻眠^(guò)去式支配名詞,構(gòu)成主謂句法關(guān)系,就同過(guò)去式與疑問(wèn)代詞構(gòu)成的主謂句法關(guān)系產(chǎn)生了沖突,而后者的概率更大。

        按以上步驟,計(jì)算例(2a)和(2b)中每個(gè)詞類出現(xiàn)后形成句法關(guān)系的概率,結(jié)果見(jiàn)表5。

        表5 例(2a)和(2b)中每個(gè)詞性形成句法關(guān)系的概率

        一個(gè)詞形成句法關(guān)系的概率越大,這個(gè)詞(類)被理解的可能性越大,它的認(rèn)知難度便越小。句子的認(rèn)知難度由句中所有詞的概率之和決定。這樣,(2a)的概率為7.89,(2b)的概率為6.78,其中,SRC的概率為4.59,ORC的概率為3.48。ORC的概率越小,認(rèn)知難度越大,與實(shí)驗(yàn)結(jié)果一致,說(shuō)明概率配價(jià)能準(zhǔn)確預(yù)測(cè)這兩個(gè)句子的認(rèn)知難度。

        劉海濤和馮志偉(2007)認(rèn)為,在配價(jià)模式中引入概率,有助于更好地解釋語(yǔ)言的生成和理解過(guò)程,判定句法的合格性。目前已有研究者基于概率配價(jià)理論,闡釋了花園幽徑句的理解機(jī)理(高松,2013)。還有研究者基于概率配價(jià)理論考察了語(yǔ)言結(jié)構(gòu)的隱現(xiàn)規(guī)律(徐春山,2015)。本文基于(2a)和(2b)的試驗(yàn)結(jié)果則說(shuō)明概率配價(jià)也可以用來(lái)衡量句子的認(rèn)知難度,但可能還需要通過(guò)更多語(yǔ)言、更多例句來(lái)驗(yàn)證這個(gè)指標(biāo)的有效性。當(dāng)然,對(duì)其他指標(biāo)也需如此。

        (三) 驚異值與概率配價(jià)對(duì)比

        研究者提出驚異值和概率配價(jià)等指標(biāo),是因?yàn)樗麄冋J(rèn)為在言語(yǔ)交流過(guò)程中,我們會(huì)根據(jù)對(duì)方說(shuō)過(guò)的話,預(yù)測(cè)他接下來(lái)會(huì)說(shuō)什么。預(yù)測(cè)的準(zhǔn)確性與使用頻率密切相關(guān)。一個(gè)詞如果經(jīng)常與某些詞(串)一起出現(xiàn),當(dāng)我們看到這些詞(串),會(huì)自然預(yù)測(cè)到這個(gè)詞,當(dāng)它出現(xiàn)時(shí),便不會(huì)覺(jué)得“驚異”。但是,如果一個(gè)詞很少與這些詞(串)一起出現(xiàn),當(dāng)我們看到它時(shí),就會(huì)覺(jué)得“驚異”。也就是說(shuō),使用頻率與認(rèn)知難度呈負(fù)相關(guān)。驚異值和概率配價(jià)的出發(fā)點(diǎn)便是通過(guò)數(shù)學(xué)運(yùn)算,建立使用頻率與認(rèn)知難度的相關(guān)關(guān)系。因而,這里的主要任務(wù)就是從真實(shí)語(yǔ)言數(shù)據(jù)中獲取頻率,為每種可能的預(yù)測(cè)標(biāo)記一個(gè)概率。

        驚異值解決這一問(wèn)題的方法是建立語(yǔ)言模型獲取詞的條件概率。最早廣泛使用的語(yǔ)言模型是n元模型,該模型的基本思想是,句中某個(gè)詞wn的出現(xiàn)只與它前面出現(xiàn)的n-1個(gè)詞有關(guān)。理論上,n越大,條件概率越精確。但n越大,需要的訓(xùn)練文本也就越多。在實(shí)際操作過(guò)程中,不可能無(wú)限增加文本,只能將n限制在一個(gè)合理的取值范圍內(nèi),二元和三元便是常見(jiàn)的兩種取值。二元和三元模型簡(jiǎn)化了詞的條件概率,會(huì)損失部分潛在有用的信息。PCFG模型和概率依存語(yǔ)法模型的出現(xiàn)解決這個(gè)問(wèn)題。近年來(lái),研究者又嘗試將循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)等技術(shù)應(yīng)用到語(yǔ)言建模中,利用神經(jīng)網(wǎng)絡(luò)模型估算驚異值。這些新方法進(jìn)一步提高了驚異值預(yù)測(cè)的準(zhǔn)確性(Frank & Bod 2011)。

        概率配價(jià)將配價(jià)、句法關(guān)系和依存距離等概念融合在一起,借助依存樹(shù)庫(kù)提取句法關(guān)系的使用頻率,從而確定新出現(xiàn)的詞(類)與已出現(xiàn)的詞(類)可能形成的句法關(guān)系。但同時(shí),這一指標(biāo)可能還存在一些問(wèn)題。首先,我們認(rèn)為句法關(guān)系的概率與認(rèn)知難度呈負(fù)相關(guān),但某些概率為0的詞可能并不是很難理解,如(2a)和(2b)中的冠詞the。冠詞屬于虛詞的范疇,通常不會(huì)造成太大的認(rèn)知負(fù)擔(dān)。其次,在句法分析過(guò)程中,我們會(huì)根據(jù)后來(lái)出現(xiàn)的詞不斷調(diào)整之前預(yù)測(cè)的句法關(guān)系(如花園幽徑句的理解),但概率配價(jià)并未衡量這一修正過(guò)程對(duì)詞類認(rèn)知難度的影響。最后,鑒于目前還沒(méi)有成熟的工具可以自動(dòng)計(jì)算概率配價(jià),很難在大規(guī)模文本中推廣應(yīng)用這一指標(biāo)。

        四、 認(rèn)知難度指標(biāo)與語(yǔ)言研究

        由以上結(jié)果可知:整合成本、依存距離、驚異值和概率配價(jià)等指標(biāo)都可以較為準(zhǔn)確地衡量句子的認(rèn)知難度。借助數(shù)理統(tǒng)計(jì)方法和自然語(yǔ)言處理技術(shù),就可以獲取這些指標(biāo)。由此打破了被試和材料對(duì)實(shí)驗(yàn)的限制,為依賴實(shí)驗(yàn)的認(rèn)知研究提供了一種新范式,同時(shí)也為語(yǔ)言學(xué)研究提供了新方法和新路徑。這一部分將探討將這些認(rèn)知難度指標(biāo)應(yīng)用于語(yǔ)言學(xué)研究的可行性。

        首先,認(rèn)知難度指標(biāo)可以應(yīng)用于二語(yǔ)習(xí)得研究,尤其是二語(yǔ)寫作研究。我們?cè)陂_(kāi)篇已經(jīng)提到,以往二語(yǔ)寫作研究多關(guān)注句子結(jié)構(gòu)的復(fù)雜度?,F(xiàn)有的各種分析工具,如Coh-Metrix、二語(yǔ)句法復(fù)雜度分析器(L2 Syntactic Complexity Analyzer,L2SCA),能夠從大規(guī)模文本中自動(dòng)提取平均句長(zhǎng)、并列句比例等復(fù)雜度指標(biāo),保證了數(shù)據(jù)處理的規(guī)模和速度。但是,這種復(fù)雜度并不是語(yǔ)言學(xué)意義上的句法復(fù)雜度。從語(yǔ)言學(xué)的句法角度出發(fā)來(lái)衡量句子的復(fù)雜度,需要考慮詞與詞之間的句法關(guān)系。本文介紹的幾種指標(biāo)或是基于短語(yǔ)結(jié)構(gòu)語(yǔ)法計(jì)算的,或是基于依存語(yǔ)法計(jì)算的,可視作句法結(jié)構(gòu)復(fù)雜度指標(biāo)。將這些指標(biāo)引入二語(yǔ)寫作的研究,或許有助于研究者從更多維度探討二語(yǔ)寫作的特點(diǎn)。

        已有研究表明,依存距離可以用來(lái)衡量二語(yǔ)學(xué)習(xí)者語(yǔ)言水平的發(fā)展。Ouyang & Jiang(2018)對(duì)不同年級(jí)的中國(guó)英語(yǔ)學(xué)習(xí)者的作文進(jìn)行了依存句法分析,探析依存距離的概率分布特點(diǎn)。他們發(fā)現(xiàn)各年級(jí)作文的依存距離均符合齊普夫-阿列克謝耶夫分布(Zipf-Alekseev distribution),但分布函數(shù)中的具體參數(shù)存在差異。隨著學(xué)習(xí)者年級(jí)的增加(或者說(shuō)隨著學(xué)習(xí)者語(yǔ)言水平的提高),參數(shù)越來(lái)越趨近于本族語(yǔ)者作文的擬合結(jié)果。Li & Yan(2021)以日本英語(yǔ)學(xué)習(xí)者的作文為研究對(duì)象,同樣發(fā)現(xiàn)依存距離的概率符合齊普夫-阿列克謝耶夫分布,分布函數(shù)中的參數(shù)也能區(qū)分日本學(xué)習(xí)者的語(yǔ)言水平。蔣景陽(yáng)和姜茜茜(2021)則基于中國(guó)英語(yǔ)學(xué)習(xí)者的寫作文本,考察了寫作錯(cuò)誤、依存距離與二語(yǔ)水平之間的關(guān)系。中低水平的學(xué)習(xí)者對(duì)長(zhǎng)距離句法關(guān)系處理能力較弱,錯(cuò)誤率較高。

        除二語(yǔ)習(xí)得研究外,認(rèn)知難度指標(biāo)也可以用來(lái)描述母語(yǔ)者的語(yǔ)言產(chǎn)出特征?;诙嗾Z(yǔ)種依存樹(shù)庫(kù)的研究表明,自然語(yǔ)言有依存距離最小化的傾向(Futrell,Mahowald & Gibson,2015;Liu,2008)?;谟⒄Z(yǔ)或漢語(yǔ)近義句式語(yǔ)料庫(kù)的研究表明,當(dāng)多種句式可以表達(dá)相近意思時(shí),說(shuō)話者傾向于選擇依存距離小、驚異值小的那個(gè)句子(Fang & Liu,2021;Rajkumar,etal.,2016)?;诘抡Z(yǔ)書(shū)面語(yǔ)依存樹(shù)庫(kù)的研究表明,德語(yǔ)句子的破框現(xiàn)象并非特例,破框句的依存距離縮小,降低了認(rèn)知成本(李媛、黃含笑、劉海濤,2021)。

        還有研究者利用依存距離分析翻譯文本的語(yǔ)言特點(diǎn)。比如,以同聲傳譯和交替?zhèn)髯g譯文文本為語(yǔ)料,研究者對(duì)比了這兩種譯本的依存距離,發(fā)現(xiàn)交替?zhèn)髯g譯本的依存距離更小(Liang,etal.,2017)。以英語(yǔ)翻譯文本和英語(yǔ)母語(yǔ)文本為語(yǔ)料,研究者發(fā)現(xiàn)翻譯文本與母語(yǔ)文本的依存距離存在顯著差異,一定程度上證實(shí)了翻譯語(yǔ)言為“第三語(yǔ)碼”的觀點(diǎn)(蔣躍、范璐、王余藍(lán),2021)。此外,通過(guò)一項(xiàng)英漢視譯實(shí)驗(yàn),研究者考察了依存距離的長(zhǎng)短對(duì)口譯流利度的影響,發(fā)現(xiàn)譯者翻譯依存距離長(zhǎng)的句子時(shí),流利度更差(蔣躍、蔣新蕾,2019)。

        這些研究反映出語(yǔ)言學(xué)研究與認(rèn)知科學(xué)相結(jié)合的趨勢(shì),說(shuō)明將依存距離等計(jì)算認(rèn)知指標(biāo)應(yīng)用于語(yǔ)言學(xué)研究是可行的。將認(rèn)知科學(xué)領(lǐng)域的最新研究成果引入語(yǔ)言學(xué)研究,或可促進(jìn)語(yǔ)言學(xué)研究的進(jìn)一步發(fā)展,提高語(yǔ)言學(xué)研究的精確性和科學(xué)性。但與此同時(shí),現(xiàn)有研究的不足也不可忽視。

        第一,當(dāng)前語(yǔ)言學(xué)研究多關(guān)注基于工作記憶容量限制的指標(biāo),較少應(yīng)用基于經(jīng)驗(yàn)預(yù)測(cè)的指標(biāo)。這可能是因?yàn)楹笳咝枰柚Z(yǔ)言模型計(jì)算,而這并不是語(yǔ)言學(xué)研究者擅長(zhǎng)的領(lǐng)域。為解決這一困境,研究者可以嘗試與計(jì)算語(yǔ)言學(xué)、自然語(yǔ)言處理等領(lǐng)域的學(xué)者交流合作,尋求技術(shù)上的支持與幫助。

        第二,除以上提到的Fang & Liu(2021)、Rajkumar等(2016)的研究外,少有基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究綜合考量這兩種指標(biāo)。值得一提的是,借助心理實(shí)驗(yàn),研究者發(fā)現(xiàn)認(rèn)知難度是這兩種指標(biāo)綜合作用的結(jié)果(Husain,Vasishth & Srinivasan,2014)。未來(lái)的語(yǔ)言學(xué)研究可以更多關(guān)注兩種指標(biāo)的關(guān)系。

        第三,這兩類指標(biāo)目前主要應(yīng)用于二語(yǔ)寫作、語(yǔ)言結(jié)構(gòu)特征和翻譯語(yǔ)言特征等研究,接下來(lái)或可探究這些指標(biāo)在更多語(yǔ)言學(xué)研究中的適用性。比如,考察認(rèn)知難度與文學(xué)作品質(zhì)量(和讀者接受度)的關(guān)系;討論句子的認(rèn)知難度是否與不同的話語(yǔ)策略和目的相關(guān);從計(jì)算認(rèn)知難度出發(fā)對(duì)比分析特殊人群使用的句子與正常人使用的句子。

        五、 總結(jié)與展望

        本文梳理了計(jì)算認(rèn)知科學(xué)中用來(lái)衡量句法結(jié)構(gòu)認(rèn)知難度的五個(gè)指標(biāo):存儲(chǔ)成本、整合成本、依存距離、驚異值和概率配價(jià)。這些指標(biāo)對(duì)認(rèn)知難度的預(yù)測(cè)與心理語(yǔ)言實(shí)驗(yàn)結(jié)果基本吻合,說(shuō)明除實(shí)驗(yàn)外,還可以嘗試從計(jì)算角度出發(fā)探討語(yǔ)言的認(rèn)知機(jī)制。同時(shí),我們也要認(rèn)識(shí)到這些指標(biāo)的局限。

        第一,這兩類指標(biāo)或關(guān)注工作記憶容量限制對(duì)句法加工的影響,忽略了句法加工過(guò)程中可能出現(xiàn)的預(yù)測(cè)行為;或關(guān)注句法加工中的預(yù)測(cè)行為,忽略了工作記憶容量的限制。當(dāng)前,已有研究者嘗試整合這兩種指標(biāo),構(gòu)建新指標(biāo)來(lái)量化認(rèn)知難度。這些新指標(biāo)或許有助于發(fā)現(xiàn)更多有趣的語(yǔ)言規(guī)律與特點(diǎn)。

        第二,這兩類指標(biāo)的計(jì)算均依賴句法信息,而句法標(biāo)注工作耗時(shí)耗力。盡管已有不少準(zhǔn)確率較高的句法分析器,但這些分析器并不能保證百分之百的準(zhǔn)確率,還需輔以人工校對(duì)。如果出于研究目的需要自建樹(shù)庫(kù),便很難最大化語(yǔ)料規(guī)模,使得語(yǔ)料更全面地、更精確地反映語(yǔ)言現(xiàn)象。

        不可否認(rèn)的是,認(rèn)知難度指標(biāo)的出現(xiàn)和改進(jìn)是自然語(yǔ)言處理技術(shù)應(yīng)用于語(yǔ)言和認(rèn)知研究的結(jié)果。與心理語(yǔ)言實(shí)驗(yàn)相比,指標(biāo)的計(jì)算更加省時(shí)省力,結(jié)果的可重復(fù)率更高,可以幫助我們更好地基于大數(shù)據(jù)、基于真實(shí)語(yǔ)言材料發(fā)現(xiàn)語(yǔ)言與認(rèn)知的規(guī)律。正如計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(Association for Computational Linguistics)終生成就獎(jiǎng)得主、詞匯功能語(yǔ)法理論的創(chuàng)立者瓊·布利斯南(Joan Bresnan)所說(shuō):“我希望未來(lái)能加大對(duì)計(jì)算語(yǔ)言學(xué)理論、技術(shù)和資源的應(yīng)用力度,以不斷加深我們對(duì)人類語(yǔ)言和認(rèn)知的理解(Bresnan,2016,p.613)?!边@是一種信息時(shí)代的語(yǔ)言觀,是信息時(shí)代對(duì)語(yǔ)言研究提出的新要求,也是信息時(shí)代為語(yǔ)言研究提供的機(jī)遇。在大力推動(dòng)不同學(xué)科融合發(fā)展的今天,語(yǔ)言學(xué)研究者更應(yīng)該積極學(xué)習(xí)借鑒計(jì)算語(yǔ)言學(xué)的相關(guān)技術(shù)和資源,推進(jìn)語(yǔ)言研究的科學(xué)化進(jìn)程。

        猜你喜歡
        工作記憶句法概率
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        句法與句意(外一篇)
        第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
        概率與統(tǒng)計(jì)(一)
        概率與統(tǒng)計(jì)(二)
        述謂結(jié)構(gòu)與英語(yǔ)句法配置
        工作記憶怎樣在大腦中存儲(chǔ)
        科學(xué)(2020年2期)2020-01-08 14:55:16
        句法二題
        詩(shī)詞聯(lián)句句法梳理
        情緒影響工作記憶的研究現(xiàn)狀與發(fā)展動(dòng)向
        欧美奶涨边摸边做爰视频| 日本一区二区三区精品不卡| 四虎影视国产在线观看精品| 曰韩精品无码一区二区三区 | 无码片久久久天堂中文字幕| 国产亚洲欧美另类久久久| 综合激情中文字幕一区二区| 久久精品伊人久久精品| 国产91成人精品高潮综合久久| 日本h片中文字幕在线| 大学生高潮无套内谢视频| 国产免费人成视频在线观看| 国产成人麻豆精品午夜福利在线| 久久久窝窝午夜精品| 日韩啪啪精品一区二区亚洲av| 国产免费视频一区二区| 久久免费精品日本久久中文字幕| 手机av在线中文字幕| 麻豆网神马久久人鬼片| 精品无码日韩一区二区三区不卡 | 精品视频入口| 亚洲AV无码一区二区三区少妇av| 国产三级精品三级在线| 在线人成视频播放午夜| 免费高清av一区二区三区| 99久久国产福利自产拍| 四虎永久免费影院在线| 久久精品国产88久久综合| 日本视频一区二区这里只有精品| 亚洲第一幕一区二区三区在线观看 | 国产在线精品亚洲视频在线| 免费av网站大全亚洲一区| 无码av不卡一区二区三区| 中日韩精品视频在线观看| 免费一级毛片麻豆精品| av免费在线观看网站大全| 亚洲伊人av天堂有码在线| 色婷婷亚洲一区二区三区| 国产精品亚洲二区在线观看| 欧美综合图区亚洲综合图区| 五月激情在线观看视频|