亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多義詞詞典義項(xiàng)可區(qū)分度的度量

        2020-07-16 03:43:14柏曉鵬
        辭書研究 2020年4期
        關(guān)鍵詞:多義詞區(qū)分度義項(xiàng)

        摘要多義詞詞典義項(xiàng)的可區(qū)分度是指,人們根據(jù)詞典提供的信息在語料中對(duì)多義詞義項(xiàng)進(jìn)行辨析的難度。文章探討如何度量多義詞可區(qū)分度。以往對(duì)這個(gè)問題的研究主要使用兩種方法: 基于義類體系的方法和基于機(jī)器學(xué)習(xí)的詞義消歧方法。文章提出利用人工標(biāo)注詞典義項(xiàng),然后對(duì)標(biāo)注結(jié)果計(jì)算標(biāo)注者一致性(interannotators agreement)的方法,從而計(jì)算多義詞義項(xiàng)可區(qū)分度?;趯?duì)幾種方法的討論和對(duì)比,文章發(fā)現(xiàn),通過計(jì)算人工標(biāo)注結(jié)果一致性的方法較為有效、直觀和省力。文章認(rèn)為,“多義詞詞典義項(xiàng)可分區(qū)度”是利用人對(duì)多義詞辨析的結(jié)果,對(duì)詞典義項(xiàng)的評(píng)價(jià),并不必然反映詞典釋義的好壞,它應(yīng)該被視為一類參考數(shù)據(jù),為詞典編纂提供指示。

        關(guān)鍵詞多義詞義項(xiàng)可區(qū)分度標(biāo)注一致性詞義消歧

        一、 多義詞詞典義項(xiàng)的可區(qū)分度

        在使用詞典釋義進(jìn)行多義詞辨析的過程中,多義詞義項(xiàng)區(qū)別的難易程度是不同的,而這種難易程度不一定與詞典釋義有關(guān)。有的多義詞義項(xiàng)比較難區(qū)分。如“包圍”有兩個(gè)義項(xiàng)[1]:

        (1) 包圍1四面圍?。?亭子被茂密的松林包圍著。

        包圍2正面進(jìn)攻的同時(shí),向敵人的翼側(cè)和后方進(jìn)攻。

        就詞典釋義來看,“包圍”的兩個(gè)義項(xiàng)不難區(qū)分。但在我們的實(shí)驗(yàn)中(將于下文第四節(jié)討論),“包圍”的詞典義項(xiàng)可區(qū)分度僅為0.38。

        又如,“暴雨”有兩個(gè)義項(xiàng):

        (2) 暴雨1大而急的雨。

        暴雨2氣象學(xué)上指1小時(shí)內(nèi)雨量在16毫米以上,或24小時(shí)內(nèi)雨量在50毫米以上的雨。

        從詞典釋義上來看,“氣象學(xué)上指1小時(shí)內(nèi)雨量在16毫米以上,或24小時(shí)內(nèi)雨量在50毫米以上的雨”應(yīng)該是一種“大而急的雨”,難以區(qū)分。在我們的實(shí)驗(yàn)中,“暴雨”的可區(qū)分度為0.86。

        我們把這種區(qū)別多義詞詞典義項(xiàng)的難易程度稱為“可區(qū)分度”。從詞義關(guān)系的角度看,多義詞義項(xiàng)可區(qū)分度體現(xiàn)了義項(xiàng)在語義上的“重合”程度(肖航2010),它是一種對(duì)詞義關(guān)系的描寫。盡管各家詞典在多義詞義項(xiàng)分立的標(biāo)準(zhǔn)和釋義方法上多有不同,但是沒有一部詞典能夠做到所有多義詞都有等同的可區(qū)分度。這是因?yàn)?,詞典釋義是“語言輸入”,而可區(qū)分度是對(duì)多義詞辨析結(jié)果——“語言輸出”——的評(píng)價(jià)。從學(xué)習(xí)多義詞詞典釋義到使用它在具體上下文中辨析詞義的過程來看,從詞典釋義到義項(xiàng)可區(qū)分度過程如下:

        1) 詞典對(duì)多義詞定義;

        2) 用戶學(xué)習(xí)詞典釋義,掌握多義詞義項(xiàng)區(qū)別;

        3) 在語料中進(jìn)行多義詞辨析;

        4) 對(duì)辨析結(jié)果進(jìn)行評(píng)價(jià);

        5) 得到義項(xiàng)可區(qū)分度。

        根據(jù)上面的過程描述,可以發(fā)現(xiàn),一方面,義項(xiàng)可區(qū)分度不是對(duì)多義詞詞典釋義的直接評(píng)價(jià),它從義項(xiàng)辨析結(jié)果中獲得,反映詞典釋義對(duì)多義詞辨析的有效性,即,人們學(xué)習(xí)了詞典釋義后,可以使用它有效地區(qū)分多義詞義項(xiàng);另一方面,作為“輸出”的可區(qū)分度直接受到詞典釋義的影響,并反映詞典釋義可能存在的問題,為詞典編纂提供參考性指示。義項(xiàng)的可區(qū)分度小,意味著人們對(duì)義項(xiàng)的區(qū)分有困難,詞典編纂者可以對(duì)該多義詞的釋義進(jìn)行檢視。在積累了一些多義詞義項(xiàng)可區(qū)分度數(shù)據(jù)后,詞典編纂者可進(jìn)一步對(duì)義項(xiàng)分立的原則和依據(jù)進(jìn)行探討。

        我們認(rèn)為,義項(xiàng)可區(qū)分度的形式應(yīng)該是一個(gè)有限范圍內(nèi)的數(shù)值,所以無法通過理論探討獲得,必須在實(shí)證研究(empirical study)框架中,通過某種方法計(jì)算得到。

        本文將討論計(jì)算多義詞詞典義項(xiàng)可區(qū)分度的方法?,F(xiàn)有的計(jì)算方法基本可以視為是對(duì)義項(xiàng)可區(qū)分度的簡(jiǎn)介描寫。我們提出通過計(jì)算詞義標(biāo)注任務(wù)中的標(biāo)注者一致性來估計(jì)義項(xiàng)的可區(qū)分度。本文內(nèi)容安排如下: 第一節(jié),提出我們對(duì)義項(xiàng)可區(qū)分度的定義;第二節(jié),討論已有的計(jì)算義項(xiàng)可區(qū)分度的方法,指出這些方法的缺陷;第三節(jié),我們提出使用標(biāo)注一致性估計(jì)可區(qū)分度;第四節(jié),我們簡(jiǎn)單對(duì)比機(jī)器學(xué)習(xí)方法和標(biāo)注者一致性方法的相關(guān)性;最后是結(jié)論和討論。

        二、 計(jì)算義項(xiàng)可區(qū)分度的方法

        計(jì)算義項(xiàng)可區(qū)分度,是要將可區(qū)分度以數(shù)值形式量化地表示,使得“可區(qū)分度”這一概念被直觀地表示出來。詞典義項(xiàng)是書面語構(gòu)成的句子,無法被直接計(jì)算,所以首先需要將義項(xiàng)轉(zhuǎn)換為可計(jì)算的表示方式。表示方式有兩種,一種是將義項(xiàng)映射到一個(gè)詞義分類體系中,然后通過計(jì)算義項(xiàng)在義類體系中的距離,以此代表可區(qū)分度;另一種是在大規(guī)模語料庫(kù)中抽取義項(xiàng)的語言學(xué)特征,使用機(jī)器學(xué)習(xí)算法進(jìn)行詞義自動(dòng)消歧(word sense disambiguation,以下簡(jiǎn)稱WSD),用WSD的結(jié)果表示義項(xiàng)可區(qū)分度。這兩種方法都需要比較大規(guī)模的語言資源,且各有利弊。

        (一) 基于義類體系的方法

        詞的義類體系以詞義的上下位關(guān)系為主線,將詞義以義項(xiàng)為單位組織成樹狀結(jié)構(gòu)。義類體系由根節(jié)點(diǎn)、中間節(jié)點(diǎn)、葉子節(jié)點(diǎn)和詞義集合組成。根節(jié)點(diǎn)是義類體系的開頭,衍生出若干下位節(jié)點(diǎn)(子節(jié)點(diǎn));中間節(jié)點(diǎn)位于根節(jié)點(diǎn)和葉子節(jié)點(diǎn)之間,每個(gè)中間節(jié)點(diǎn)衍生自一個(gè)上位節(jié)點(diǎn)(父節(jié)點(diǎn)),并衍生出若干個(gè)下位節(jié)點(diǎn);葉子節(jié)點(diǎn)是處于最下方的節(jié)點(diǎn),每一個(gè)葉子節(jié)點(diǎn)衍生自一個(gè)上位節(jié)點(diǎn),且不再衍生出下位節(jié)點(diǎn);每個(gè)節(jié)點(diǎn)代表一個(gè)義類,每個(gè)義類對(duì)應(yīng)一個(gè)詞義集合,一個(gè)詞義集合包含若干詞義?;诹x類體系的方法首先將多義詞義項(xiàng)分配到義類樹上(一個(gè)義項(xiàng)對(duì)應(yīng)義類樹的一個(gè)節(jié)點(diǎn)),然后計(jì)算義項(xiàng)在義類樹上的距離,即,從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)需要經(jīng)過多少步。距離越小,意味著義項(xiàng)在義類樹上越接近,則越難區(qū)分——可區(qū)分度越低。最小的距離為0,這時(shí)義項(xiàng)對(duì)應(yīng)義類樹上的同一個(gè)義類節(jié)點(diǎn)。

        該方法省時(shí)省力,不依賴詞義標(biāo)注語料庫(kù)和復(fù)雜的計(jì)算方法,可以快速實(shí)現(xiàn)義項(xiàng)可區(qū)分度計(jì)算。(李安2014)

        然而,該方法的缺陷也很明顯。

        第一,該方法假設(shè),在義類樹上,節(jié)點(diǎn)到節(jié)點(diǎn)的距離是相等的,即,任意兩個(gè)存在上下位關(guān)系的義類在語義上的差距是等同的(否則它就失去了通過計(jì)算義類節(jié)點(diǎn)相隔路徑長(zhǎng)度得到義項(xiàng)可區(qū)分度的基礎(chǔ)),但實(shí)際上這個(gè)假設(shè)不成立。義類體系賴以建立的詞義上下位關(guān)系只規(guī)定了詞義的語義關(guān)系,并未對(duì)義類之間的這種語義關(guān)系的強(qiáng)弱做任何說明,義類體系也無法體現(xiàn)這一點(diǎn)。

        第二,該方法依賴義類體系,而義類體系的建設(shè)存在隨機(jī)性和主觀性,且目前沒有評(píng)價(jià)義類體系優(yōu)劣的有效方法。構(gòu)成義類樹的基本詞義關(guān)系是上下位關(guān)系,現(xiàn)實(shí)的義類體系則往往由多種詞義關(guān)系和詞義特征共同決定。比如,“同義詞詞林”至少包含了詞義的相似關(guān)系和相關(guān)關(guān)系;“現(xiàn)代漢語詞義分類體系”則納入了詞義在句法上實(shí)現(xiàn)的特征。另外,現(xiàn)有理論認(rèn)為,義類劃分應(yīng)該盡可能避免跨類,認(rèn)為分類應(yīng)該是離散且互斥的,所以不同的學(xué)者對(duì)義類體系中義類的數(shù)量、定義以及具體詞義應(yīng)該納入哪個(gè)義類,其意見是不統(tǒng)一的。比如,“鍋”可以是“廚具類”,也可以是“容器類”。這樣一來,義項(xiàng)在義類樹上的距離會(huì)因?yàn)槭褂昧瞬煌牧x類體系而不同。

        第三,該方法要求先對(duì)多義詞義項(xiàng)進(jìn)行義類標(biāo)注,即,將義項(xiàng)劃分到義類樹的一個(gè)義類上,這使得該方法在本質(zhì)上是對(duì)義項(xiàng)詞典釋義進(jìn)行比較,而非本文所定義的“義項(xiàng)可區(qū)分度”。

        (二) 基于機(jī)器學(xué)習(xí)的詞義消歧方法

        詞義消歧是在語料庫(kù)中對(duì)多義詞進(jìn)行義項(xiàng)自動(dòng)判別的工作。Ide和Veronis(1998)、吳云芳和俞士汶(2006)認(rèn)為,傳統(tǒng)詞典在多義詞定義方面缺乏一致性,義項(xiàng)間語義距離(稱為“語義顆粒度”,semantic granuity)不等,使得對(duì)WSD結(jié)果難以準(zhǔn)確評(píng)價(jià)。不過,這恰好可以為計(jì)算義項(xiàng)可區(qū)分度服務(wù)。既然WSD結(jié)果受詞典定義影響,可以認(rèn)為,語義距離大的義項(xiàng),其消歧結(jié)果可能會(huì)比較好,其可區(qū)分度就比較大,反之,可區(qū)分度比較小。

        該方法首先需要在語料庫(kù)中標(biāo)注多義詞的詞典義項(xiàng),然后在語料庫(kù)中抽取多義詞義項(xiàng)的各種語言學(xué)特征,用這些特征構(gòu)成向量來表示義項(xiàng),通過計(jì)算義項(xiàng)向量的距離,來獲得可區(qū)分度數(shù)值。

        詞義消歧的方法使用真實(shí)語料庫(kù),在消歧算法一致的前提下能夠公正地評(píng)價(jià)義項(xiàng)可區(qū)分度,其優(yōu)勢(shì)在于盡可能地?cái)[脫了主觀性因素,使得計(jì)算結(jié)果較為客觀。

        當(dāng)然,該方法亦有其缺陷。

        第一,該方法假設(shè),詞典對(duì)義項(xiàng)的定義會(huì)充分反映在語料庫(kù)中,所以從語料庫(kù)抽取特征表示義項(xiàng)。但是,并不是所有的詞義特征都會(huì)被顯性地實(shí)現(xiàn)在語言中,尤其是語用義、修辭義。

        第二,詞義消歧依賴從語料庫(kù)中獲取的義項(xiàng)特征,而能夠獲取到什么樣的特征,取決于語料庫(kù)加工的深度和規(guī)模。如果語料庫(kù)中沒有語法標(biāo)注,那么義項(xiàng)的語法特征是無法獲得的。而制作大規(guī)模深加工語料庫(kù)的時(shí)間和人力成本都非常高昂,獲得難度比較大。所以,使用不同語料庫(kù)得到的結(jié)果往往是不同的。這也證明了第一點(diǎn)的觀點(diǎn)。

        第三,該方法的結(jié)果需要在詞匯學(xué)上得到解釋。該方法是對(duì)義項(xiàng)可區(qū)分度的“間接估計(jì)”,本質(zhì)上是用機(jī)器學(xué)習(xí)算法模擬人在真實(shí)語境中辨析多義詞的行為。但算法與人在多義詞判斷的過程和方式上存在差異,所以通過詞義消歧得到的義項(xiàng)可區(qū)分度數(shù)值需要在詞匯學(xué)上得到解釋,簡(jiǎn)單來說,就是要解決其在多大程度上可信的問題。

        三、 使用標(biāo)注者一致性估計(jì)多義詞義項(xiàng)的可區(qū)分度

        根據(jù)上一節(jié)的論述,基于義類體系的方法和詞義消歧的方法都不是對(duì)義項(xiàng)可區(qū)分度的直接度量,且在理論上有諸多缺點(diǎn)。本文提出使用標(biāo)注者一致性的方法來估計(jì)多義詞詞典義項(xiàng)的可區(qū)分度。肖航(2010)做了一些嘗試,利用標(biāo)注者一致性來說明詞典對(duì)多義詞義項(xiàng)定義中存在的“重合”問題,指出,意義“重合”多的義項(xiàng),標(biāo)注者一致性更差。這說明,標(biāo)注者一致性反映了人對(duì)詞典釋義的使用情況。

        假設(shè)語料庫(kù)中包含多義詞W的詞例數(shù)量為N,且W在詞典中義項(xiàng)數(shù)量為I,標(biāo)注者被要求對(duì)該多義詞的每個(gè)詞例標(biāo)注合適的義項(xiàng)i(顯然i屬于I)。那么,那些標(biāo)注者標(biāo)注了相同義項(xiàng)標(biāo)簽的詞例數(shù)量為A,標(biāo)注了不同義項(xiàng)標(biāo)簽的詞例數(shù)量為D(A與D之和為N)。可以用A除以N(A/N)獲得標(biāo)注者的簡(jiǎn)單一致性(simple agreement),其值越大,說明標(biāo)注者一致性越高。不過,Veronis(1998)、Artstein和Poesio(2008)指出,簡(jiǎn)單一致性(A/N)存在標(biāo)注者隨意標(biāo)注的問題,即,不排除標(biāo)注結(jié)果是標(biāo)注者隨意標(biāo)注的情況。比如,標(biāo)注者對(duì)某個(gè)多義詞標(biāo)注了10條詞例,且義項(xiàng)標(biāo)記都是i,然后他/她對(duì)余下所有的詞例義項(xiàng)都標(biāo)注上i。為了消除簡(jiǎn)單一致性的這一缺陷,我們采用Cohens Kappa算法(Cohen1960)來計(jì)算標(biāo)注者一致性:

        其中Ao是實(shí)際觀察到的一致性,Ae是任意標(biāo)注產(chǎn)生的一致性(也就是我們需要消除的那部分)。上式的大致意思是: 去除了由任意標(biāo)注產(chǎn)生的一致性,才是準(zhǔn)確的標(biāo)注者一致性。Kappa值越高的多義詞,其義項(xiàng)區(qū)分度越高。

        標(biāo)注者一致性是對(duì)義項(xiàng)可區(qū)分度的直接度量,因?yàn)樗菍?duì)多義詞辨析活動(dòng)的直接觀察。相較之下,詞義消歧的結(jié)果是對(duì)可區(qū)分度的間接度量且需要語言學(xué)解釋。所以,Kappa值更加“可信”。

        四、 義項(xiàng)可區(qū)分度結(jié)果分析

        我們相信,多義詞義項(xiàng)的可區(qū)分度值可以為詞典編纂帶來有益的信息。如前述“包圍”的可區(qū)分度值提示了兩個(gè)義項(xiàng)的定義可能存在難以區(qū)分的問題。這部分我們?cè)斒鋈绾瓮ㄟ^詞義標(biāo)注任務(wù)來獲取義項(xiàng)可區(qū)分度,分析可區(qū)分度低于一定閾值的多義詞,討論低可區(qū)分度多義詞詞典義項(xiàng)定義的問題,以展示義項(xiàng)可區(qū)分度如何對(duì)詞典編纂產(chǎn)生積極作用。

        (一) 數(shù)據(jù)

        我們從已標(biāo)注了詞典義項(xiàng)的“中小學(xué)教材語料庫(kù)”中選取了419個(gè)包含兩個(gè)義項(xiàng)的多義詞,作為實(shí)驗(yàn)對(duì)象。在語料庫(kù)中抽取到35068條包含所有實(shí)驗(yàn)對(duì)象的句子。

        (二) 標(biāo)注者一致性實(shí)驗(yàn)

        標(biāo)注者一致性實(shí)驗(yàn)及結(jié)果分析在(柏曉鵬2020)[2]中有詳細(xì)描述。我們選取了12位中文系語言學(xué)背景的本科生和研究生作為標(biāo)注者,每條多義詞例句由三位標(biāo)注者標(biāo)注,要求標(biāo)注者每天最多標(biāo)注1000條例句或最長(zhǎng)連續(xù)工作60分鐘,一共使用10天完成全部標(biāo)注工作。這樣,每一條多義詞例句產(chǎn)生三個(gè)標(biāo)注結(jié)果,可以有三個(gè)一致性Kappa值,我們?nèi)∑骄底鳛榭蓞^(qū)分度數(shù)值: 平均Kappa值越高,則義項(xiàng)可區(qū)分度越大,反之義項(xiàng)可區(qū)分度越小。一般認(rèn)為(Veronis1998;Artstein & Poesio2008),一致性結(jié)果中0.6和0.8是兩個(gè)具有意義的值: 當(dāng)Kappa值低于0.6的時(shí)候,可以認(rèn)為一致性較差,在本文中表示義項(xiàng)可區(qū)分度較低;當(dāng)Kappa值大于等于0.8的時(shí)候,一致性較好,表示義項(xiàng)可區(qū)分度較高。

        (三) 可區(qū)分度低的多義詞

        在419個(gè)實(shí)驗(yàn)對(duì)象中,有229個(gè)多義詞的義項(xiàng)可區(qū)分度低于0.6(54.7%)。這意味著在我們的實(shí)驗(yàn)對(duì)象中,有超過一半的多義詞,其詞典義項(xiàng)無法被很好地區(qū)分。通過分析可區(qū)分度低于0.6的多義詞,我們發(fā)現(xiàn),義項(xiàng)間有多種關(guān)系導(dǎo)致可區(qū)分度低下。

        1. 義項(xiàng)釋義存在重合關(guān)系。有的多義詞義項(xiàng)間存在一個(gè)義項(xiàng)可以被另一個(gè)義項(xiàng)包含的現(xiàn)象,如:

        (3) 奔(0.315)

        奔走1急走;跑: 奔走相告。

        奔走2為一定目的而到處活動(dòng): 奔走衣食│四處奔走│奔走了幾天,事情仍然沒有結(jié)果。

        (4) 失?。?.56)

        失敗1在斗爭(zhēng)或競(jìng)賽中被對(duì)方打敗(跟“勝利”相對(duì)): 非正義的戰(zhàn)爭(zhēng)注定是要失敗的。

        失敗2工作沒有達(dá)到預(yù)定的目的(跟“成功”相對(duì)): 試驗(yàn)失敗│失敗是成功之母。

        以上兩個(gè)多義詞,其義項(xiàng)內(nèi)涵有“包含”關(guān)系,也就是肖航(2010)指出的義項(xiàng)“重合”關(guān)系?!盀橐欢康亩教幓顒?dòng)”(奔走2)描述了人的活動(dòng),但可以包含“急走、跑”(奔走1)這樣的具體動(dòng)作行為。如:

        (5) ……一面要上書塾,一面要幫家務(wù),天天奔走于當(dāng)鋪和藥鋪之間。

        例(5)中的“奔走”做兩種理解都可以,奔走1的詞義內(nèi)容被奔走2完全包含。

        而“在斗爭(zhēng)或競(jìng)賽中被對(duì)方打敗”(失敗1)也可視為“工作沒有達(dá)到預(yù)定的目的”(失敗2)的具體表現(xiàn)。

        這種重合關(guān)系還體現(xiàn)在義項(xiàng)釋義內(nèi)容接近,有交疊,如:

        (6) 學(xué)(0.594)

        學(xué)1學(xué)習(xí): 學(xué)技術(shù)│勤工儉學(xué)│我跟著他學(xué)了許多知識(shí)。

        學(xué)2模仿: 他學(xué)杜鵑叫,學(xué)得很像。

        學(xué)1義為通過一種系統(tǒng)性的方式學(xué)習(xí)到一種有用技能,有“獲取”義。學(xué)2描述這個(gè)行為本身,而不關(guān)注學(xué)習(xí)的對(duì)象和對(duì)象本身的價(jià)值。但可以認(rèn)為在語義上,學(xué)2描述的是學(xué)1的一個(gè)階段,二者釋義內(nèi)容有交疊: 人們總是通過模仿開始習(xí)得新的本領(lǐng)。如例(7):

        (7) 一只小鷹跟著老鷹學(xué)飛行。

        例(7)中的“學(xué)”應(yīng)選擇哪個(gè)義項(xiàng),與如何理解“小鷹”和“飛行”的關(guān)系有關(guān): 如果認(rèn)為“飛行”是一種技能,則應(yīng)選學(xué)1;如果認(rèn)為“小鷹學(xué)飛行”是一種來自于本能的行為,那選學(xué)2也不無道理。

        2. 義項(xiàng)區(qū)別特征的實(shí)現(xiàn)問題。詞典釋義中用以區(qū)分義項(xiàng)的語言學(xué)特征在語料中不實(shí)現(xiàn),使得義項(xiàng)難以區(qū)分,如:

        (8) 貢獻(xiàn)(0.594)

        貢獻(xiàn)1拿出物資、力量、經(jīng)驗(yàn)等獻(xiàn)給國(guó)家或公眾: 為祖國(guó)貢獻(xiàn)自己的一切。

        貢獻(xiàn)2對(duì)國(guó)家或公眾所做的有益的事: 他們?yōu)閲?guó)家做出了新的貢獻(xiàn)。

        “貢獻(xiàn)”的兩個(gè)義項(xiàng),一個(gè)是名詞義項(xiàng),一個(gè)是動(dòng)詞義項(xiàng),當(dāng)出現(xiàn)在賓語位置上時(shí)(此時(shí),詞性得不到區(qū)分),義項(xiàng)的區(qū)分就發(fā)生問題了,如例(9):

        (9) 本來是可以不斷再生,長(zhǎng)期給人類做貢獻(xiàn)的。

        例(9)中“貢獻(xiàn)”可以是貢獻(xiàn)2,也可以看作是貢獻(xiàn)1的動(dòng)名詞用法。

        同樣的例子還有:

        (10) 青年(0.591)

        青年1人十五六歲到三十歲左右的階段: 青年人│青年時(shí)代。

        青年2指上述年齡的人: 新青年│好青年。

        “青年”義項(xiàng)的釋義是比較清晰的,二者的區(qū)分條件是: 青年1大部分時(shí)候出現(xiàn)在定語位置上,青年2大部分時(shí)候出現(xiàn)在中心語位置上。但我們觀察到,在“青年男女”“青年農(nóng)民”“青年畫家”“青年朋友”“青年突擊隊(duì)員”等例子中產(chǎn)生了不一致,我們認(rèn)為,這可能是因?yàn)榍嗄?也可以出現(xiàn)在定語位置上的緣故。如:

        (11) 青年組織的隊(duì)伍走過主席臺(tái)……

        例(11)中的“青年”即為青年2。此時(shí),區(qū)別兩個(gè)義項(xiàng)的重要特征沒有實(shí)現(xiàn)。

        3. 搭配詞有重合。有些多義詞義項(xiàng)依靠與之搭配詞的詞義得以區(qū)分,當(dāng)搭配詞有重合的時(shí)候,義項(xiàng)區(qū)分發(fā)生困難。

        (12) 命運(yùn)(0.333)

        命運(yùn)11. 指生死、貧富和一切遭遇(迷信的人認(rèn)為是生來注定的): 悲慘的命運(yùn)│命運(yùn)不濟(jì)。

        命運(yùn)2比喻事物發(fā)展變化的趨向及結(jié)局: 關(guān)心國(guó)家的前途和命運(yùn)。

        根據(jù)釋義,命運(yùn)1是已經(jīng)發(fā)生的事件的總和,命運(yùn)2指稱事物未來發(fā)展的可能性。而根據(jù)所舉的例子,命運(yùn)1指的是人的經(jīng)歷,命運(yùn)2指的是社會(huì)組織(國(guó)家、集體等)的發(fā)展?fàn)顟B(tài),“命運(yùn)”的兩個(gè)義項(xiàng)的差異主要通過定語位置上名詞短語的語義來確定。命運(yùn)2可以看作命運(yùn)1的隱喻結(jié)果,除了指稱對(duì)象發(fā)生明顯變化外,兩個(gè)義項(xiàng)在其他方面相似度較高,而“命運(yùn)”在指稱上的語義組合限制,即“生死、貧富和一切遭遇”或“發(fā)展變化趨勢(shì)”,并不能通過前后幾個(gè)詞的搭配,在一個(gè)句子范圍內(nèi)得以實(shí)現(xiàn),這使得兩個(gè)義項(xiàng)定語位置上的搭配詞有一定重合度,使得義項(xiàng)區(qū)分困難,如:

        (13) 這是每一個(gè)人的命運(yùn): 如果他達(dá)到注定的某一級(jí)……

        (14) 因?yàn)闅W洲的命運(yùn)全系在拿破侖這一個(gè)人的命運(yùn)。

        例(13)中的“命運(yùn)”應(yīng)是命運(yùn)1,但句子的后半部分“如果他達(dá)到注定的某一級(jí)”,又符合命運(yùn)2的表述。例(14)中后一個(gè)“命運(yùn)”應(yīng)是命運(yùn)1,因?yàn)橹阜Q“拿破侖”,但句子前半部分有“歐洲的命運(yùn)”,而這兩處“命運(yùn)”應(yīng)該是語義相同的。如此,導(dǎo)致“命運(yùn)”的可區(qū)分度很低。

        (四) 義項(xiàng)可區(qū)分度對(duì)詞典編纂的啟示

        上文的工作顯示,義項(xiàng)的可區(qū)分度提供了關(guān)于多義詞的指向性信息,即,那些義項(xiàng)可區(qū)分度低于一定值的多義詞義項(xiàng)需要進(jìn)一步檢視。通過上文第(三)部分中對(duì)一些義項(xiàng)可區(qū)分度小于0.6的詞的分析,我們發(fā)現(xiàn),造成多義詞義項(xiàng)可區(qū)分度低原因可能是詞典義項(xiàng)設(shè)置和釋義不佳造成的,如例(3)、例(4)、例(6);有些則與釋義無關(guān),而與義項(xiàng)在語言中的具體實(shí)現(xiàn)有關(guān),如例(8)、例(10)。所以,詞典在釋義方面可能需要注意義項(xiàng)在語義上的關(guān)系,并探討是否需要在釋義時(shí)考慮語法等表層實(shí)現(xiàn)的情況。

        五、 結(jié)論

        本文對(duì)“多義詞詞典義項(xiàng)可區(qū)分度”這一概念進(jìn)行了界定。我們認(rèn)為,義項(xiàng)可區(qū)分度是通過對(duì)多義詞辨析結(jié)果的評(píng)價(jià),以此來評(píng)價(jià)多義詞義項(xiàng)辨析難易程度的指標(biāo),其形式為有限范圍內(nèi)的數(shù)值。義項(xiàng)可區(qū)分度為詞典編纂提供了參考信息: 義項(xiàng)可區(qū)分度低于閾值的多義詞,編纂者可能需要對(duì)其定義進(jìn)行檢視。有利于詞典編纂者有目的性地對(duì)詞典進(jìn)行修訂。

        我們討論了當(dāng)前計(jì)算義項(xiàng)可區(qū)分度的方法: 基于義類體系的方法和基于機(jī)器學(xué)習(xí)的詞義消歧方法。基于義類體系的方法在理論上存在缺陷?;跈C(jī)器學(xué)習(xí)的詞義消歧方法是對(duì)義項(xiàng)可區(qū)分度的間接評(píng)價(jià),其結(jié)果的準(zhǔn)確性需要語言學(xué)解釋的支撐。

        我們進(jìn)一步提出通過詞義標(biāo)注工作,計(jì)算標(biāo)注者一致性數(shù)據(jù)來表示義項(xiàng)可區(qū)分度。這個(gè)方法基于多義詞辨析活動(dòng)的直接觀察,是對(duì)義項(xiàng)辨識(shí)難度較為直接的測(cè)量,故具有比較好的可信度。同時(shí)需要指出,用標(biāo)注者一致性來估計(jì)義項(xiàng)可區(qū)分度的方法依然會(huì)受到標(biāo)注者的影響。主要是標(biāo)注者人數(shù)、知識(shí)背景以及具體標(biāo)注環(huán)境這幾個(gè)方面。

        我們今后的工作將集中在兩個(gè)方面: 一是擴(kuò)大標(biāo)注者一致性實(shí)驗(yàn)的規(guī)模,對(duì)本文實(shí)驗(yàn)中可能存在的一些問題進(jìn)行糾正;另一方面是嘗試用詞義消歧的方法來計(jì)算多義詞義項(xiàng)可區(qū)分度,使用標(biāo)注者一致性數(shù)據(jù)進(jìn)行驗(yàn)證,以期找到一個(gè)合適的自動(dòng)化工具。

        附注

        [1]本文詞典釋義來自《現(xiàn)代漢語詞典》第7版。

        [2]柏曉鵬.利用標(biāo)注者一致性數(shù)據(jù)估計(jì)多義詞義項(xiàng)的區(qū)分度.世界漢語教學(xué)(待刊)。

        參考文獻(xiàn)

        1. 李安.多義詞義項(xiàng)的語義關(guān)系及其對(duì)詞義消歧的影響.語言文字應(yīng)用,2014(1).

        2. 肖航.詞典多義詞義項(xiàng)關(guān)系與詞義區(qū)分.云南師范大學(xué)學(xué)報(bào),2010(1).

        3. 吳云芳,俞士汶.信息處理用詞語義項(xiàng)區(qū)分的原則和方法.語言文字應(yīng)用,2006(2).

        4. 中國(guó)社會(huì)科學(xué)院語言研究所詞典編輯室編.現(xiàn)代漢語詞典(第7版).北京: 商務(wù)印書館,2016.

        5. Artstein R, Poesio M. Intercoder Agreement for Computational Linguistics. Computational Linguistics, 2008,34(4).

        6. Jacob Cohen. A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 1960,20(1).

        7. Ide N, Veronis J. Word Sense Disambiguation: The State of the Art. Computational Linguistics, 1998,24(1).

        8. Veronis J. A Study of Polysemy Judgements and Interannotator Agreement. Programme and Advanced Papers of the Senseval Workshop. Herstmonceux, 1998.

        (華東師范大學(xué)中文系、華東師范大學(xué)語文教育研究中心上海200241)

        (責(zé)任編輯郎晶晶)

        猜你喜歡
        多義詞區(qū)分度義項(xiàng)
        “玄”“懸”二字含義不同
        鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
        多義詞
        淺談試卷分析常用的幾個(gè)參數(shù)及其應(yīng)用
        圖形推理測(cè)量指標(biāo)相關(guān)性考察*
        江淮論壇(2018年4期)2018-08-24 01:22:30
        小心兩用成語中的冷義項(xiàng)
        淺觀一道題的“區(qū)分度”
        淺議多義詞在語境中的隱喻認(rèn)知
        單維參數(shù)型與非參數(shù)型項(xiàng)目反應(yīng)理論項(xiàng)目參數(shù)的比較研究*
        多義詞way的語義認(rèn)知分析及實(shí)證研究
        兩用成語中的冷義項(xiàng)
        知識(shí)窗(2015年1期)2015-05-14 09:08:17
        亚洲在线视频免费视频| 日韩Va亚洲va欧美Ⅴa久久| 操老熟妇老女人一区二区| 极品尤物精品在线观看| 一本色道久久88精品综合| 人人狠狠综合久久亚洲婷婷| 国产在线高清无码不卡| 亚洲1区第2区第3区在线播放 | 丰满的人妻hd高清日本| 国模无码人体一区二区| 无码a级毛片免费视频内谢| 欧美俄罗斯乱妇| 精品国产91久久久久久久a| 亚洲精品中文字幕乱码无线| 日日日日做夜夜夜夜做无码| 国产乱人伦偷精品视频| 中国免费av网| 一级黄色一区二区三区| 日日噜噜夜夜狠狠视频| 亚洲国产精品福利片在线观看| 亚洲V在线激情| 免费看黄片视频在线观看| 亚洲av无码专区在线| 五十路熟妇高熟无码视频| 伊在人亚洲香蕉精品区麻豆 | 人妻少妇哀求别拔出来| 欧美艳星nikki激情办公室| 久久精品国产亚洲婷婷| 亚洲天堂av在线观看免费| 中文字幕在线亚洲精品| 免费无码av片在线观看网址| 亚洲精品高清av在线播放| 人妻免费一区二区三区免费| 亚洲国产精品第一区二区| 久久国产乱子伦精品免费强| 一区二区三区极品少妇| 真实人与人性恔配视频| 国产午夜精品电影久久| 亚洲中文字幕乱码免费看| 亚洲国产精品久久久久秋霞小说| 永久免费不卡在线观看黄网站|