亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對義項設立是否貼切的一種檢驗方法*——詞義標注對詞典編纂的一點啟示

        2012-05-13 01:45:40
        辭書研究 2012年3期
        關鍵詞:多義詞義項詞義

        李 安

        一、詞義標注對詞典檢驗的啟示

        釋義從一定意義上說是詞典編纂的中心工作。一部詞典的質(zhì)量高低很大程度上決定于釋義的質(zhì)量(胡明揚1982)。加之詞義概括、多義詞義項劃分、釋義幾個過程都比較復雜,處置不當容易導致諸如“肢解詞的完整理性意義”(鄒酆2003)、“義項關系不當”(吳云芳,俞士汶 2006)等問題。胡明揚等(1982)指出:“詞義概括是否得當,義項劃分是否合理等問題,其實是可以通過語料檢驗的方法來發(fā)現(xiàn)并加以改進的?!比欢~典釋義檢驗有多大必要性、檢驗方法應如何設計、通過檢驗可以解決哪些問題等,尚少細致的討論。

        我們在完成課題“基于國家語委‘通用語料庫’之上的漢語義頻詞庫的開發(fā)(SCT)”過程中發(fā)現(xiàn),對詞典釋義的檢驗不僅必要,而且不能隨意為之。課題的核心是計算機詞義自動標注,也就是使計算機根據(jù)詞典的義項設置,給使用中的多義詞自動標注一個合適的義項。課題使用的詞典是《現(xiàn)代漢語詞典》(1996年修訂版,以下簡稱《現(xiàn)漢》),目前已經(jīng)完成了對3771個高頻、雙音節(jié)多義詞的研究。作為課題的一個子項目,我們研制了“驗證庫”,即首先從大規(guī)模語料庫中為每個多義詞抽取一定量的句子形成語料庫,然后由人模擬計算機標注一個義項,再由計算機自動標注義項,兩相對照以檢驗計算機標注的正確率。在這個過程中發(fā)現(xiàn)部分句子難以標注,原因有多種:有的是僅憑句內(nèi)上下文的確無法判斷詞義;有的是機用詞典與普通語文詞典的性質(zhì)與功能不同所致;也有的表現(xiàn)為語文詞典原有義項設置不合理。

        在涉及詞典義項設置的問題上,課題中對《現(xiàn)漢》調(diào)整有百余處,當然這些調(diào)整主要緣于機用義項庫有著不同的性質(zhì)與功能,調(diào)整的類型、原則、方法在《機用義項庫在詞義標注中的作用及其完善》一文中做了介紹(蘇新春等2010),然而其中也不乏傳統(tǒng)詞典本身可做改進之處,從這個角度來說,我們認為詞義標注正是實踐了從詞典釋義回到言語實際的檢驗過程,對詞義標注的結(jié)果及其困難進行深入分析就可以發(fā)現(xiàn)詞典存在的不當之處。本文把詞義標注相關課題中與語文詞典釋義相關的部分提取出來,設計了一種詞典釋義的封閉式檢驗方法,希望對一般詞典編纂中義項的設立和釋義有所幫助。下文就介紹這種檢驗方法的詳細步驟,并舉例分析課題中發(fā)現(xiàn)的詞典釋義不當之處。

        二、檢驗方法——封閉式檢驗的三個步驟

        封閉式檢驗旨在于一個封閉的語料庫中,通過詞義標注考察詞典義項設置是否合理,重點考察一個“詞形”所對應的意義的整體范圍、義項關系、義項與語料的對應關系,進而分析詞典中義項的概括模式、粒度是否與語料契合,個體義項是否恰當。有三個基本步驟:

        (一)建立大規(guī)模平衡語料庫

        建立大規(guī)模平衡語料庫作為基礎語料庫,要能覆蓋一般語文詞典的基本范圍,語料構(gòu)成要與詞典的性質(zhì)、定位相對應。我們的課題以現(xiàn)代漢語為研究對象,要求語料能反映現(xiàn)代漢語的基本狀況。研制的平衡語料庫有2億多字,主要包括三個部分:(1)國家語委研制的“現(xiàn)代漢語語料庫”;(2)部分人民日報語料(2001年后的若干月份);(3)文學作品及部分教材語料。

        “‘國家語委現(xiàn)代漢語語料庫’是一個大型的通用語料庫。該語料庫以語言文字的信息處理、語言文字規(guī)范和標準的制定、語言文字的學術研究、語文教育和語言文字的社會應用為主要服務對象……選材有足夠的時間跨度,語料抽樣合理、分布均勻、比例適當,能夠比較科學地反映現(xiàn)代漢語全貌?!?靳光瑾等2005)“國家語委現(xiàn)代漢語語料庫”設計比較合理,我們采用了它的基本結(jié)構(gòu)和內(nèi)容,但其字數(shù)略少,語料稍嫌陳舊,因而做了些補充。

        (二)隨機抽取一定規(guī)模的語料作為檢驗庫

        隨機抽樣檢驗是指從大規(guī)?;A語料庫中隨機抽取一定量的句子組成檢驗語料庫。在SCT課題中確定抽樣句子數(shù)時考慮到了詞頻高低、詞義標注規(guī)則復雜程度(一般標注規(guī)則復雜的,其用法也就復雜,就需要更多的語料)、人工標注任務量三個因素。對3771個多義詞,抽取的總句子數(shù)達493369個,一個詞最多有233個句子,最少有100個句子。如此規(guī)模的語料量雖很難完全覆蓋生僻義、方言義、行業(yè)義等不常用的義項,但覆蓋詞的常用義、較常用義,反映其基本面貌,則是沒有問題的。

        隨機抽取步驟主要從檢驗方法的可行性方面考慮。在總語料庫中檢索3771個詞總共得到245萬個句子,即便有計算機輔助也難以細致分析。檢驗庫規(guī)模僅為原來的20%,既能保證充分反映原來大規(guī)?;A語料庫的特征,又大大減輕了檢驗的工作量。

        (三)對抽樣語料做完全性標注是這一方法的核心

        完全標注是指在一個封閉的驗證語料庫中,給每個例詞都標注唯一的義項,并保證標注結(jié)果的一致性。如不能順利完成標注,或者標注結(jié)果不統(tǒng)一,則分析其根源,檢查是否為詞典詞義歸納、義項設置不當所致。

        三、方法的運用——對現(xiàn)有義項存在問題的分析

        封閉式檢驗中對語料進行義項標注的過程,既是對使用中的多義詞義域規(guī)模、結(jié)構(gòu)進行調(diào)查的過程,也是將詞典釋義與言語實際進行對照,考察每個義項的義域在整體義域中的地位、比例以及與相鄰義項關系的過程。其核心意義在于把詞的實際義域、詞典釋義的義域、個體義項義域、個體義項間的關系這幾個要素綜合起來,做定量考察。不僅可以檢驗個別義項是否合理,是否有新義、漏收義,更可以從深層次發(fā)現(xiàn)詞典釋義中的義項粒度、義項關系等方面存在的不合理之處。下面舉例著重說明在義項粒度、義項關系方面發(fā)現(xiàn)的問題。

        (一)部分語料無法標注,反映詞典中義項粒度過小的問題

        多數(shù)情況下義項粒度與詞典規(guī)模、用途有關,在詞的整體義域一定的情況下,大型詞典義項粒度小,義項數(shù)多;小型詞典義項粒度大,義項數(shù)少,這種義項粒度大小不一的現(xiàn)象是合理的。

        但是如果義項粒度過小則會導致詞典釋義覆蓋力不足,造成一定數(shù)量的語料無法標注,這時就是不合理的。如在《現(xiàn)漢》中:“出場 ①演員登臺(表演)。②運動員進入場地(參加競賽或表演)。”我們從大規(guī)模語料庫中隨機抽取了73個含“出場”的句子做測試,超過20%的句子無法標注義項,如:

        (1)有人怕鬧事,開始退場,劇團的領導出場,懇求大家安靜。

        (2)新式戰(zhàn)機隆重出場。

        詞典以動作發(fā)出者區(qū)別兩個義項,而例句中“劇團的領導”、“新式戰(zhàn)機”既不能歸入“演員”或“運動員”,也很難確定與哪個義項在語義上更相近,因而無法標注。

        再如:“過道 ①新式房子由大門通向各房間的走道。②舊式房子連通各個院子的走道,特指大門所在的一間或半間屋子?!痹谟行┚渥永餆o法標注,如:

        (3)草地的兩邊種了幾排桑樹,中間露出一條寬的過道。

        例句(3)里的“過道”既不屬于“新式房子”,也不屬于“舊式房子”,類似的還有“車廂過道”、“劇場過道”等都不在詞典釋義范圍內(nèi),也無法判斷這些義項與哪個更相近,因而無法標注。

        義項粒度過小還有一種表現(xiàn),即難以涵蓋詞義發(fā)生的一些新變化。

        如:“封面 ①線裝書指書皮里面印著書名和刻書者的名稱等的一頁。②新式裝訂的書刊指最外面的一層,用厚紙、布、皮等做成。③特指新式裝訂的書刊印著書刊名稱等的第一面。也叫封一。”盡管以上三個義項釋義詳盡具體,然而不能覆蓋“專輯封面”、“相冊封面”、“簡歷封面”等“新事物”。

        以上幾個詞條的相同之處在于:(1)詞典釋義中每個義項都是完整的,都對應一定量的語料。(2)詞典釋義不能覆蓋全部語料,很多語料的意思與相鄰的兩個義項都有相似之處,但是難以確定屬于哪個義項。(3)詞典釋義中每個義項的義域都十分狹窄,所指的動作或事物都十分具體。(4)如果在原有義項粒度基礎上用增設義項的方式覆蓋所有語料,義項設置將十分繁雜。因此,這類詞的根本問題不是漏收詞義,而是義項粒度過小,概括性不足?!傲x項的概括性要求這個義項具有普遍意義,即通過這個義項來解釋一系列相類似有時又有細微差別的語義現(xiàn)象,人們在閱讀過程中遇到與此義有關的語義,都應從這個義項得到滿意的解釋,或者從這個義項中受到啟示,去求得這個詞的最確切的含義?!?汪耀楠1990)如果適當“合并”義項,增加概括度,釋義將更具解釋力,也更加簡潔。

        (二)標注結(jié)果不唯一,反映義項間存在交叉覆蓋

        標注結(jié)果不唯一是指在同一具體語境下,一個多義詞可以標注為相鄰的兩個或多個義項。造成這種現(xiàn)象的原因有很多,如語境不充足等。但有時語境充足,仍然難以標注唯一義項,往往就反映出義項交叉覆蓋的問題。

        如:“發(fā)表 ①向集體或社會表達(意見);宣布:~談話丨~聲明丨代表團成員已經(jīng)確定,名單尚未正式~。②在刊物上登載(文章、繪畫、歌曲等):~論文?!毕旅娴木渥又小鞍l(fā)表”同時符合義項①②:

        (4)閻世鐸在人民網(wǎng)發(fā)表談話勇敢面對中國足球前進中的問題。

        句(4)既符合“向集體或社會表達”的特征,又是“以文章形式”“在刊物上登載”。進一步分析發(fā)現(xiàn)造成這種狀況的原因是兩個義項意義相近卻沒有對立的區(qū)別性義素,如表1所示:

        表1

        動作對象方面,義項②雖未做說明,實際與義項①是一樣的;動作方面,義項②的義素“登載”是義項①“表達”的一種形式;動作內(nèi)容方面,義項①“意見”是從內(nèi)容方面說的,義項②“文章”等是從載體方面說的,“意見”也可以以“文章”的形式發(fā)表;動作方式上,義項②說明通過刊物,義項①沒有說明??傊?,義項②的釋義比較明確地指出通過刊物“發(fā)表”,義項①卻不設范圍,大致包含了義項②的內(nèi)容。

        那么原有的釋義能不能讓它形成具有區(qū)別特征的對立性釋義呢?應該是可以的,如可在“發(fā)表”的方式上加以區(qū)別,義項①改為“口頭表達(意見)”即可。

        其他原因也可能造成義項間的交叉覆蓋,如“出門”有三個義項:“①(~兒)外出。②(~兒)離家遠行。③〈方〉出嫁?!绷x項①的釋義詞“外出”在同一詞典中的釋義為“到外面去,特指因事到外地去”?!暗酵饷嫒ァ迸c“出門①”對應,“因事到外地去”與“出門②”對應,這樣實際上是導致了“出門①”同時包含義項①②的意思。如此,所有可標為義項②的句子都可以標為義項①,如:

        (5)他想,出門一個多月,究竟發(fā)生了什么事呢?

        以上兩詞出現(xiàn)的問題比較隱蔽,在檢驗中如果僅僅尋找典型例子很容易錯過,而唯有在一定量的語料的詞義標注中,在人、機標注結(jié)果的對比中才能發(fā)現(xiàn)問題。

        四、結(jié) 論

        本文根據(jù)“基于國家語委‘通用語料庫’之上的漢語義頻詞庫的開發(fā)”課題的詞義標注實踐,概括出了可以應用于語文詞典編纂中檢驗義項設立、釋義是否得當?shù)姆椒ǎ@種方法的實質(zhì)是對真實語料進行窮盡式的調(diào)查,從而將產(chǎn)生于典型取樣的詞典釋義放到多義詞的實際語言運用中,系統(tǒng)、量化地檢驗其是否周全、均勻、對稱。這種方法的優(yōu)點主要有兩個:其一,可以發(fā)現(xiàn)語文詞典義項、釋義中存在的一些潛在問題;其二,利用語料庫與抽樣技術,不需要投入過多的人力、物力。當然上面分析的某些現(xiàn)象對現(xiàn)有的語文詞典來說有點“苛刻”,但是這種檢驗和討論可以使傳統(tǒng)詞典釋義更加貼近真實語料,有利于提高義項概括與釋義的科學性、可操作性。

        1.胡明揚,謝自立,梁式中等.詞典學概論.北京:中國人民大學出版社,1982.

        2.靳光瑾,肖航,富麗等.現(xiàn)代漢語語料庫建設及深加工.語言文字應用,2005(2).

        3.蘇新春,李安,洪桂治.機用義項庫在詞義標注中的作用及其完善.廈門大學學報,2010(3).

        4.汪耀楠.詞典學研究.成都:四川辭書出版社,1990.

        5.吳云芳,俞士汶.信息處理用詞語義項區(qū)分的原則和方法.語言文字應用,2006(2).

        6.鄒酆.辭書學叢稿.武漢:崇文書局,2003.

        猜你喜歡
        多義詞義項詞義
        “玄”“懸”二字含義不同
        鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
        多義詞
        西夏語“頭項”詞義考
        西夏研究(2020年1期)2020-04-01 11:54:26
        詞義辨別小妙招——看圖辨詞
        小心兩用成語中的冷義項
        淺議多義詞在語境中的隱喻認知
        多義詞way的語義認知分析及實證研究
        兩用成語中的冷義項
        知識窗(2015年1期)2015-05-14 09:08:17
        字意與詞義
        語言與翻譯(2014年3期)2014-07-12 10:31:59
        Enhanced Precision
        Beijing Review(2012年37期)2012-10-16 02:24:10
        女同av免费在线播放| 人妖av手机在线观看| 精品三级国产一区二区三| 国产一区二区三区在线视频观看| 91亚洲欧洲日产国码精品| 久久99久久99精品免视看国产成人| 亚洲AV成人无码国产一区二区| 亚洲男人天堂| 国产suv精品一区二人妻| 久久久国产一区二区三区四区小说 | 久久国产精品无码一区二区三区| 国产精品亚洲A∨天堂| 国产主播无套内射一区| 亚洲AV无码一区二区水蜜桃| 国产大片中文字幕| 亚洲中文字幕日产喷水| 魔鬼身材极品女神在线| 亚洲福利网站在线一区不卡| 久久国产精品av在线观看| 国产麻豆国精精品久久毛片| 99久久婷婷国产精品网| 蜜臀av毛片一区二区三区| 国产精品久久久久久久久久红粉| 午夜精品久久久久久久无码| 久久99精品国产麻豆不卡| 国产欧美日韩综合精品一区二区| 国产性生大片免费观看性| 亚洲av无码1区2区久久| 国产在线不卡AV观看| 亚洲国产剧情在线精品视| 日本经典中文字幕人妻| 亚洲激情视频在线观看a五月| 一区二区三区乱码专区| 性色视频加勒比在线观看| 亚洲精品无码永久在线观看| 特级毛片a级毛片100免费播放| 亚洲熟妇无码一区二区三区导航| 国产熟女露脸大叫高潮| 亚洲精品无码久久毛片| 久久天天躁狠狠躁夜夜中文字幕| 精品久久日产国产一区|