亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知網(wǎng)的無(wú)指導(dǎo)詞義消歧

        2015-05-29 12:23:14陳浩
        電腦知識(shí)與技術(shù) 2015年10期
        關(guān)鍵詞:means聚類(lèi)

        陳浩

        摘要:詞義消歧仍然是自然語(yǔ)言處理中一個(gè)重大的挑戰(zhàn),在自然語(yǔ)言處理的一開(kāi)始,詞義消歧就被認(rèn)為是自然語(yǔ)言處理的中心任務(wù)之一。這篇文章提出了一種無(wú)導(dǎo)詞義消歧的方法,該方法采用二階context構(gòu)造上下文向量,使用k-means算法進(jìn)行聚類(lèi),最后通過(guò)計(jì)算相似度來(lái)進(jìn)行詞義的排歧.實(shí)驗(yàn)是在抽取術(shù)語(yǔ)的基礎(chǔ)上進(jìn)行的,在多個(gè)漢語(yǔ)高頻多義詞的兩組測(cè)試中取得了平均準(zhǔn)確率82.67%和84.55%的較好的效果。

        關(guān)鍵詞:詞義消歧;Hownet;二階context,k-means聚類(lèi)

        中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)10-0067-02

        1 概述

        在自然語(yǔ)言里有些詞語(yǔ)在不同的語(yǔ)言環(huán)境中有不同的語(yǔ)義,我們把它稱為多義詞,多義詞的存在給自然語(yǔ)言的很多問(wèn)題帶來(lái)麻煩[1]. 由于多義詞的頻繁出現(xiàn),給自然語(yǔ)言處理中的很多領(lǐng)域,比如機(jī)器翻譯,自動(dòng)文摘等造成困難。詞義消歧的好壞已經(jīng)關(guān)系到自然語(yǔ)言中的很多問(wèn)題,成為自然語(yǔ)言處理的重要的關(guān)注點(diǎn)。

        20世紀(jì)90年代以前,人工智能的方法被廣泛應(yīng)用于詞義的消歧[2]。人工智能的方法需要人工的設(shè)計(jì)一些規(guī)則,使詞語(yǔ)消歧的開(kāi)銷(xiāo)增大,覆蓋面變小。到了20世紀(jì)90年代,出現(xiàn)了大規(guī)模的語(yǔ)料庫(kù),并且很多語(yǔ)料庫(kù)是標(biāo)注過(guò)的,從而使詞義消歧進(jìn)入一個(gè)新的時(shí)期,準(zhǔn)確率也有所提高。Wilks和Lesk在1998年[3]提出了一種詞義排歧的方法,它是根據(jù)義項(xiàng)和上下文的匹配程度,如果不能找到合適的匹配程度的上下文,則無(wú)法進(jìn)行詞義排歧。1998年,語(yǔ)言學(xué)家Yarowsky[4]通過(guò)在大規(guī)模語(yǔ)料庫(kù)尋找凸顯詞,利用義類(lèi)詞典來(lái)進(jìn)行排歧。文獻(xiàn)[5]提出向量空間模型的方法,把多義詞的上下文放到一個(gè)向量空間中去,通過(guò)比較它們的相似度來(lái)確定多義詞的確切詞義,在向量空間模型中,多義詞被看作一個(gè)空間中的向量。

        本文是一種基于知網(wǎng)的無(wú)指導(dǎo)詞義消歧的方法,它具有如下幾個(gè)特點(diǎn):

        1)通過(guò)聚類(lèi)的方法來(lái)對(duì)多義詞的上下文進(jìn)行分類(lèi)。

        2)為了從上下文中獲得更多的信息,采用了二階上下文的方法

        3)通過(guò)確定k值來(lái),用k-means方法進(jìn)行聚類(lèi),提高聚類(lèi)的效果。

        2 基于知網(wǎng)的無(wú)指導(dǎo)學(xué)習(xí)方法

        我們提出了一種詞義的消除歧義的方法,使用二階上下文的方法把多義詞的上下文向量化,目的是要確定多義詞在詞典中的概念定義。這種方法可以由機(jī)器自動(dòng)完成的。

        2.1 使用知網(wǎng)進(jìn)行詞義消歧。

        [6]知網(wǎng)是用來(lái)描述漢語(yǔ)或英語(yǔ)所代表的概念屬性之間的關(guān)系的一個(gè)數(shù)據(jù)庫(kù),在對(duì)多義詞進(jìn)行消歧中,我們主要應(yīng)用其中的知識(shí)字典。.

        2.1.1知識(shí)字典的記錄模式

        在知識(shí)字典里,每條記錄都包含四項(xiàng)內(nèi)容,這四條記錄用來(lái)描述詞語(yǔ)的概念,在這四條記錄里,詞語(yǔ)用W_X表示,詞語(yǔ)例子用E _X表示,詞語(yǔ)詞性用G_X表示,概念定義用DEF表示,我們通過(guò)詞義消歧來(lái)確定某個(gè)多詞義在具體的語(yǔ)境中是第幾個(gè)DEF。

        2.1.2 知網(wǎng)中的義項(xiàng)結(jié)構(gòu)

        比如對(duì)于多義詞沽,在知網(wǎng)中的描述是這樣的,其中No是032339,G_C是v,W_E是Sell,其義項(xiàng)是sell|賣(mài),commercial|商,對(duì)于No是032340,W_C是沽,G_C是v,W_E是buy,其義項(xiàng)是buy|買(mǎi),commercial|商。這是多義詞沽在知網(wǎng)中的2個(gè)義項(xiàng),一個(gè)是賣(mài),一個(gè)是買(mǎi),我們可以確定在具體某個(gè)語(yǔ)境中是哪個(gè)義項(xiàng)。

        每個(gè)多義詞都有一個(gè)同義詞的集合,而同義詞集合中的詞義也可能有幾個(gè)意思,我們用k-means的方法對(duì)其進(jìn)行聚類(lèi),這樣我們只要找出其中平均距離最小的一個(gè)類(lèi)就可以了,而距離最小的那個(gè)類(lèi)中的上下文應(yīng)該就是正確的上下文了,這些上下文的集合就是這個(gè)同義詞的上下文。

        2.2 k-means聚類(lèi)方法在二階上下文的應(yīng)用

        K-means聚類(lèi)算法[7]是數(shù)據(jù)挖掘領(lǐng)域經(jīng)常使用的一種聚類(lèi)方法,其特點(diǎn)是比較簡(jiǎn)單而且收斂速度快。在使用K-means聚類(lèi)時(shí),我們首先面臨的一個(gè)問(wèn)題是把上下文表示成數(shù)學(xué)上可處理的形式,我們采用二階上下文的方法來(lái)把多義詞進(jìn)行向量化。

        我們可以首先采用文獻(xiàn)[8]的方法進(jìn)行術(shù)語(yǔ)抽取,抽取了術(shù)語(yǔ)以后我們引入一個(gè)參數(shù)n來(lái)測(cè)試出現(xiàn)次數(shù)多的詞語(yǔ),把出現(xiàn)次數(shù)多的詞語(yǔ)作為特征詞,在一個(gè)上下文中至少抽取出一個(gè)詞語(yǔ),如果有多個(gè)特征詞出現(xiàn),則把這些向量相加。

        在一個(gè)大的數(shù)據(jù)庫(kù)中查找包含多義詞“包袱”的文本,然后構(gòu)造部分二階上下文,每個(gè)上下文的詞語(yǔ)都是一個(gè)向量,然后把這些向量相加就是這個(gè)義項(xiàng)的向量。

        接著我們用采用k-means的方法進(jìn)行聚類(lèi),其中k表示最后聚成的類(lèi)數(shù)。如何確定最終聚成的類(lèi)數(shù)k呢?我們開(kāi)始設(shè)k=n,但是也許有些義項(xiàng)在上下文中并不會(huì)出現(xiàn),于是我們采用一種給k打分的方法來(lái)確定 k,對(duì)于k=2,3…n的每一個(gè)數(shù)值,計(jì)算距離,然后確定距離最近的一個(gè)就是最好的k的值。

        通過(guò)這種方法可以確定一個(gè)k值,我們以多義詞“包袱”為例,在近500個(gè)文本中有48個(gè)上下文,k的確定方法見(jiàn)下表1。

        2.3 計(jì)算相似度

        我們可以用距離計(jì)算公式來(lái)計(jì)算上下文和義項(xiàng)的距離,距離比較近的就是相似度高的,也就是我們要找的義項(xiàng)。向量空間中的一個(gè)點(diǎn)用來(lái)表示一個(gè)上下文的內(nèi)容,相鄰間距離近的就是那個(gè)義項(xiàng)。

        3 實(shí)驗(yàn)結(jié)果

        3.1 本實(shí)驗(yàn)以知網(wǎng)為數(shù)據(jù)庫(kù)

        算法步驟:

        [步驟1:從語(yǔ)料庫(kù)中找個(gè)n個(gè)句子,每個(gè)句子里都包含多義詞l.

        步驟2:對(duì)n個(gè)句子進(jìn)行聚類(lèi),使用k-means方法聚類(lèi)

        步驟3: 對(duì)于每個(gè)多義詞l找出它的m個(gè)上下文,然后構(gòu)造二階上下文的同義詞集合,

        這個(gè)義項(xiàng)就用這個(gè)同義詞集合來(lái)表示。

        步驟4: 計(jì)算每個(gè)義項(xiàng)和步驟2中用k-means方法聚成的類(lèi)進(jìn)行距離計(jì)算,距離比較近的就是我們所要找的義項(xiàng)。\&]

        3.2 實(shí)驗(yàn)2

        我們以詞林作為詞典,這樣在步驟3時(shí),需要找出詞林中的幾個(gè)具體的義項(xiàng),然后對(duì)于其中的每一個(gè)義項(xiàng)構(gòu)造同義詞集合,再構(gòu)造二階上下文,那么每個(gè)義項(xiàng)的同義詞集合構(gòu)造的上下文就代表這個(gè)義項(xiàng),具體數(shù)據(jù)見(jiàn)下表2。

        通過(guò)比較,發(fā)現(xiàn)使用現(xiàn)在的方法在詞義消歧上有比較好的效果,在準(zhǔn)確率上有一定程度的提高。

        4結(jié)論[9]

        在本文中,我們?cè)谝粋€(gè)語(yǔ)料庫(kù)中選取若干個(gè)含有多義詞的語(yǔ)句,我們認(rèn)為和多義詞的上下文相似的上下文的義項(xiàng)就是正確的義項(xiàng)[10].

        通過(guò)實(shí)驗(yàn)[11],我們發(fā)現(xiàn)我們提出的方法具有可行性,下一步可以從以下幾個(gè)方面繼續(xù)進(jìn)行研究:

        1) 選擇更好的特征詞,對(duì)于提高聚類(lèi)的效果有很大的幫助。

        2) 選擇其他的聚類(lèi)方法來(lái)提高聚類(lèi)的效果。

        3)可以選取標(biāo)注好的語(yǔ)料庫(kù)來(lái)檢驗(yàn)詞義消歧的效果。

        參考文獻(xiàn):

        [1] 魯松,白碩,黃雄,等.基于向量空間模型的有導(dǎo)詞義消歧[J].計(jì)算機(jī)研究與發(fā)展,2001,38(6): 662-667.

        [2] 黃昌寧,李涓子.詞義排歧的一種語(yǔ)言模型[J].語(yǔ)言文字應(yīng)用,2000(3):85-90.

        [3] Nancy Ide,Jean Veronis.Computational linguistics: special issue on word sense disambiguation[J].Computational Linguistics,1998,24(1):1-42.

        [4] Yarowsky,David.word-sense disambiguation using statistical models of Rigets categories trained on large corpora[C].Proceedings of COLING-92,Nantes,F(xiàn)rance,1992

        [5] 魯松,白碩,黃雄.基于向量空間模型中義項(xiàng)詞語(yǔ)的無(wú)導(dǎo)詞義消歧[J].軟件學(xué)報(bào),2009,13(6):1082-1089.

        [6] 董振東,董強(qiáng)知網(wǎng)[EB/OL].http://keenage.com.

        [7] 行小帥,潘進(jìn),焦李成.基于免疫規(guī)劃的K-means聚類(lèi)算法[J]計(jì)算機(jī)學(xué)報(bào),2003,26(5):605-610.

        [8] Patrick Pantel,Dekang Lin.A Statistical Corpus-Based Term Extractor[C].Canadian Conference.on.AI,2001:36-46.

        [9] Word sense Disambiguation Improves Statistical Machine Translation[C].proceeding of the 48th Annual Meeting of the Association for Computational Linguistics,2010.

        [10] Chiang D. Hierachiacal phrase-based translation To appear [C] .Computational Linguistics,2007,33.

        [11] Roberto Navigli and Mirella Lapata 2007 Graph connectivity measures for unsupervised word sense disambiguation [C]. proceeding of the 20th International Joint Conference on Artificial Intelligence.

        猜你喜歡
        means聚類(lèi)
        基于內(nèi)容和協(xié)同過(guò)濾相融合的推薦算法
        基于改進(jìn)FCM聚類(lèi)醫(yī)學(xué)圖像配準(zhǔn)
        基于改進(jìn)的K—means算法研究家庭環(huán)境對(duì)中學(xué)生認(rèn)知能力的影響
        一個(gè)基于超像素的圖像分割算法
        改進(jìn)模擬退火算法的K—means聚類(lèi)方法在學(xué)生成績(jī)上的應(yīng)用
        基于用戶偏好和K—means聚類(lèi)的可信云資源選擇算法
        基于改進(jìn)的K—Means視頻分類(lèi)
        基于“粉絲經(jīng)濟(jì)”的自媒體社群用戶消費(fèi)意愿研究
        人工神經(jīng)網(wǎng)絡(luò)在聚類(lèi)分析中的運(yùn)用
        雹云圖像的識(shí)別指標(biāo)設(shè)計(jì)
        少妇免费av一区二区三区久久| 国产美女69视频免费观看| 一本一道AⅤ无码中文字幕| 午夜少妇高潮免费视频| 成av人大片免费看的网站| 色综合天天综合欧美综合| 国产又色又爽又刺激在线播放| 亚洲av无码片一区二区三区| 精品无码国产一二三区麻豆| 亚洲精品视频一区二区三区四区| 国产亚洲一区二区三区综合片| 久久久无码精品亚洲日韩蜜臀浪潮| 国产人妻精品一区二区三区不卡| 亚洲三区二区一区视频| 亚洲一区二区三区视频免费| 与漂亮的女邻居少妇好爽| 日韩精品真人荷官无码| 免费人成无码大片在线观看| 国产在视频线精品视频二代| 国产熟女露脸大叫高潮| 婷婷亚洲岛国热超碰中文字幕| 亚洲国产精品无码专区影院| caoporen国产91在线| 国产一区二区三区白浆在线观看| 久久一区二区国产精品| 国产亚洲精品久久久闺蜜| 久久综合精品国产丝袜长腿| 无码成人AV在线一区二区| 亚洲天堂av黄色在线观看| 少妇久久久久久人妻无码| 国产全肉乱妇杂乱视频| 亚洲人成绝费网站色www| 自拍偷拍韩国三级视频| 在线中文字幕乱码英文字幕正常| 国产精品白丝喷水在线观看| 欧美亚洲尤物久久综合精品| 亚洲a级视频在线播放| 国产亚州精品女人久久久久久| 亚洲精品aa片在线观看国产| 乱人伦人妻中文字幕不卡| 侵犯了美丽丰满人妻中文字幕|