亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        上下文邊界可變的詞義消歧

        2015-12-23 01:09:30高光來
        計算機工程與設計 2015年10期
        關鍵詞:消歧多義詞義項

        閆 蓉,高光來

        (內蒙古大學 計算機學院,內蒙古 呼和浩特010021)

        0 引 言

        通常詞義消歧方法可分為基于統(tǒng)計的方法和基于知識的方法[1]。傳統(tǒng)的基于知識的方法[2-4]針對文本中出現(xiàn)的多義詞,不管是什么詞性,均選取固定上下文來進行消歧的,這樣一定會引入不同程度的噪音,影響消歧效果。歸其原因,該方法從根本上忽略了不同詞性的多義詞制約其含義的上下文語境范圍應是不同的。通常,詞語含義的差別一定會在語言運用中得到體現(xiàn),詞的不同含義會在句法或詞匯搭配層面上表現(xiàn)出不同的組合特征,并且不同詞性詞語的這種彼此獨立且呈互補分布的特征是不一樣的。這樣,對詞的含義辨析時所依據的內容應該是不同的。直觀上,對于不同詞性的多義詞而言,制約其語義的語境范圍是有所差異的。如句子 “只有這樣,我們才可能進一步體會這首歌曲所 [表現(xiàn)/v]的感情和內容?!保嗔x動詞 [表現(xiàn)]在句中語義為 “show|表現(xiàn)”,位置較近的語境詞 {歌曲}足已制約其語義,無需其它語境詞。而在句子 “古老的中藥,在這里插上了現(xiàn)代科技的 [翅膀/n]?!?,多義名詞 [翅膀]在句中語義為 “part|部件:PartPosition= {wing|翅},whole= {aircraft|飛行器}”,制約其含義還需要距離較遠的語境詞 {插上}。鑒于此,提出一種上下文邊界可變的中文詞義消歧模型 (Chinese WSD model with variable context window,CWSD-VCW),基本思想是按照多義詞詞類信息,針對性得選擇消歧語境范圍,減少噪音來達到消歧目標。實驗結果表明,該方法可以提高全文消歧正確率。

        1 詞義消歧原則

        文獻 [3,4]利用距離函數(shù)約束上下文中各詞語對多義詞含義的影響。文獻 [5,6]通過構建上下文模型的方法,進一步以更為量化的方式給出了上下文各詞語對多義詞含義的影響。但上述方法在進行消歧過程中,盡管考慮了上下文中各詞語對多義詞含義的制約作用的不同,但均是在固定上下文范圍下進行的,未考慮到對不同詞性的多義詞,詞義和詞的分布之間是具有密切的,制約其語義的上下文范圍應是不同的。這正是本文解決詞義消歧問題的出發(fā)點。本文主要依據多義詞詞性,按照在特定上下文范圍內使得多義詞某個義項與上下文詞語關系的密切程度最大作為消歧原則,來尋求制約多義詞語義的最小上下文范圍。

        2 詞義消歧方案

        通常,在解決詞義消歧過程中,上下文范圍的選取就是第一個要解決的問題。因為上下文范圍選取的大小直接影響消歧問題解決的好壞[6],而且在選取過程中,多義詞左右兩邊詞語選擇是否對稱,也是值得考慮的問題[7,8]。第二個要解決的問題是關于詞語詞義的定義問題。因為在不同的主題、記錄、句子、搭配和詞性等方面有著些許差異。第三個要解決的問題是如何計算多義詞義項和上下文各詞語間的相關度。文章接下來的部分,給出了上述3個問題的具體解決策略。

        2.1 上下文邊界可變的消歧模型構建

        消歧過程中要解決的第一個問題即消歧上下文的選取,關于它的解決是本文要研究的重點。通常上下文范圍選取是與實際應用問題相關的。本文主要目的是為了考察詞語含義辨析時所依據的上下文有效范圍的大小,所以選取的上下文范圍是對稱的 (去掉停用詞和虛詞后的結果)。模型建立的主要思路:利用多義詞與選取的特定上下文各詞語間的語義關系和搭配關系的組合,保證選取的上下文中各詞與多義詞盡可能的存在著句法關系并且語義關系值最大,達到消歧目的。

        模型的構造如下:

        設特定文本 (去掉停用詞和虛詞后的結果)中有多義詞S 存在n 個義項,記為S1,S2,…,Sn,上下文范圍為距離多義詞S左右各m 個詞語,記為W-m,W-m+1,…,W-1,S,W1,…,Wm-1,Wm,Ai和Bi分別為義項Si的右搭配矩陣和左搭配矩陣。那么,多義詞S 的正確義項就是使得式 (1)取最大值的那個義項

        式中:SR(Wi,Wj)——詞語Wi和Wj之間的語義相關度。

        從語言信息處理角度來看,不同詞性詞語的語義組合特征是不一致的。那么,確定不同詞性詞語的語義所依據的信息也應該是有差異的。本文的核心工作是考察消歧上下文的選取是否會與待消歧多義詞詞性有聯(lián)系,聯(lián)系如何。這里的消歧上下文m 的大小選取,將會根據待消歧多義詞詞性的不同有所區(qū)別。具體的,就是分詞性的選取消歧上下文范圍,即m 的取值會和待消歧多義詞詞性相關,m 成了可調值。對于名詞詞性的多義詞,其義項區(qū)分主要是依靠其所聯(lián)系的謂詞,而且不同詞義的語法組合能力不同,消歧窗口大小不大統(tǒng)一,需要設置的m 值應較大些;對于動詞詞性的多義詞,其義項區(qū)分主要是依靠其相聯(lián)系的補足語,需要的m 值應較小;對于形容詞詞性的多義詞,其義項區(qū)分主要是依靠其所修飾的名詞,需要的m 值也較小。關于在不同詞性條件下,m 最佳估計值的確定待后文實驗說明。

        2.2 詞語間語義相關度的計算

        關于詞語詞義的定義,在不同的主題、記錄、句子、搭配和詞性等方面有著些許差異。本文按照在 《知網》中出現(xiàn)詞語的義項定義來進行研究。

        本文對于詞語間語義相關度,主要用基于詞語間語義關系來度量相關度。詞語間語義關系的獲取是本文計算多義詞義項和上下文各詞語間的相關度的基礎,它主要依賴于所應用的語義關系分類資源,具體定義參見文獻 [9]。除了義原間的語義關系外,還用到了兩個詞語間的共現(xiàn)度,來細化詞語間的相關度。具體可參見文獻 [10],簡記為SR(W1,W2)。

        2.3 義項語義搭配庫的構建

        為了進一步細化多義詞義項和上下文各詞語間的相關度,本文構造了一個義項語義搭配庫,式 (1)中的Ai和Bi分別為多義詞S 某個義項Si在義項語義搭配庫中的右搭配矩陣和左搭配矩陣。義項語義搭配庫的構造,主要是以《知網》中各詞的語義搭配實例為種子搭配,利用山西大學STC973ver1.0 的500 萬漢字的語料庫,包含2915894 詞次,通過計算各詞對間的SR(W1,W2)獲得詞語各義項的搭配信息。但在實際的漢語使用中,多義詞隨詞性的分布并不相同。表1中列出了部分高頻多義詞在STC973中各詞類出現(xiàn)次數(shù)的統(tǒng)計信息。如詞語 “打”,在2005 版 《知網》中義項數(shù)達到32個,在STC973中共出現(xiàn)1291次,其中動詞出現(xiàn)1281 次,占99.23%;詞語 “地方”,在 《知網》中義項數(shù)6個,其中詞性為形容詞的義項數(shù)1 個,但在STC973中未出現(xiàn)。由此可以看出在特定語料中多義詞各詞類出現(xiàn)次數(shù)很不均衡,并且經過進一步的實驗驗證,多義詞有的義項很常用,有的義項則很少使用,這將影響各義項搭配信息的獲取,所以在實際應用中應充分考慮。為解決構建過程中的數(shù)據稀疏問題,本文對多義詞語中各義項的搭配數(shù)目進行約束,對于搭配數(shù)目較少或沒有的義項,從其它資源 (搜狗公布的中文詞語搭配庫http://www.sogou.com/labs/dl/r.html)中進行追加。表2為部分多義詞的各義項搭配信息。

        表1 部分高頻多義詞各詞類在STC973中出現(xiàn)的統(tǒng)計信息

        表2 部分詞語各義項的搭配信息

        表2 (續(xù))

        3 實驗與分析

        3.1 語料準備

        在對語料STC973 進一步的統(tǒng)計中,我們發(fā)現(xiàn)多義詞在語料中多以名詞、動詞和形容詞的詞性出現(xiàn),且動詞和名詞詞類使用頻率較高。因此,對于大規(guī)模實際文本,解決實詞的歧義問題是非常重要的。實驗中我們也是這樣做的。實驗數(shù)據集選用公開漢語評測語料SemEval-2007 (名詞19個,動詞21 個)和SemEval-2010 (動詞27 個),另外還有人民日報1998年1月份 (動詞119個,名詞214個)進行。

        3.2 實驗設計與結果分析

        本文選取的評測標準是Pmar(macro average accuracy),即詞義標注正確句子數(shù)占所有句子數(shù)的比例。本文共進行4個實驗。

        實驗1:通過調整消歧上下文范圍,考察選取的上下文范圍大小對消歧效果的影響。實驗結果表明,在消歧過程中,隨著引入的消歧知識的增加,并不會使得消歧效果有顯著的提高,結果如圖1所示。當選取窗口信息不斷增加的同時,消歧效果增加并不明顯,反而有所降低。分析其原因,在于擴大窗口引入更多消歧有效信息的同時,也不同程度的增加了噪音量。

        那么進一步的實驗,應該考察這些噪音具體的是影響哪些詞性的多義詞,即是否要在消歧過程中,針對多義詞詞性分開來考察其選取的上下文范圍。為此進行了實驗2。

        圖1 窗口大小調整對消歧效果的影響

        實驗2:對不同詞性的多義詞在不同窗口下分別進行了消歧實驗,來觀察詞性信息對消歧結果影響,即確定式(1)中m 的最佳估計值。實驗結果如圖2所示。從圖2可以看出:對于不同詞性的多義詞詞語進行消歧時,窗口大小的選取不應該采用固定大小的方式,應有區(qū)別的對待,從而盡可能減少噪音的引入,提高消歧效果。從實驗結果我們可以得到,制約各詞性多義詞語義的最小上下文范圍如下:m名詞=6,因為名詞義項的區(qū)分主要是依靠其所聯(lián)系的謂詞,而且針對特定名詞的不同義項的語法組合能力不同,消歧窗口大小不大統(tǒng)一,需要設置的消歧窗口值大;m動詞=4,因為動詞義項區(qū)分主要是依靠其相聯(lián)系的補足語,需要的消歧窗口值較小;m形容詞=4,因為形容詞義項區(qū)分主要是依靠其所修飾的名詞,需要的消歧窗口值也要小一些。接下來的實驗3就是考察這種根據詞性調節(jié)上下文范圍來進行消歧,是否會提高消歧正確率。

        圖2 窗口大小對不同詞性詞語消歧效果的影響

        實驗3:針對語料中出現(xiàn)的所有多義詞,根據其詞性的不同,選擇性的選取其消歧上下文范圍。各詞性多義詞的Pmar結果分別為:名詞0.790,動詞0.759,形容詞0.812,系統(tǒng)Pmar為0.787,其消歧性能要比沒有對不同詞性的多義詞限定上下文范圍的平均正確率高出6.26%。實驗結果表明,CWSD-VCW 方法是有效的。為了進一步驗證本文所提出方法的有效性,進行了實驗4。

        實驗4:將SemEval-2007測試實例的最常用詞義MFS(most frequent sense)作為Baseline,將CWSD-VCW、Baseline和SemEval-2007最好名次[11]這3種方法分別對40個多義詞進行消歧,實驗結果如圖3和圖4所示。

        圖3 3種方法對名詞消歧結果比較

        圖4 3種方法對動詞消歧結果比較

        實驗結果表明,方法CWSD-VCW 對于名詞和動詞的Pmar均高于SemEval-2007 最好名次分別超出1.6%和17.5%,系統(tǒng)Pmar超出8.6%,進一步驗證了本文提出方法的有效性。同時,實驗中也發(fā)現(xiàn),CWSD-VCW 方法對于名詞消歧效果的提升并不大,原因在于名詞詞性的多義詞,其義項間區(qū)分主要是依靠與之相聯(lián)系的謂詞,而且不同義項與謂詞的語法組合不同。

        整體上,雖然CWSD-VCW 實驗結果遜于MFS,但結果中有8個名詞和9個動詞的正確率高于MFS,說明這種無監(jiān)督的消歧方法的性能還有較大的提升空間。

        4 結束語

        本文研究制約詞語語義的上下文語境,對于解決詞義消歧問題具有重要的意義。在消歧過程中,引入的消歧知識的增加,并不會使得消歧效果有顯著提高,歸咎原因主要是引入了更多的噪音。為解決詞義消歧中的噪音問題,本文針對不同詞性的多義詞在進行消歧時,采取分而治之的原則,按照多義詞詞類信息來選擇上下文語境范圍,選取多義詞義項集中與上下文語境詞語義相關度最大的作為其正確義項。從實驗結果可以看出,本文提出的CWSD-VCW 方法可以有效解決詞性為名詞、動詞和形容詞的多義詞消歧問題。但對于多義詞本身而言,其種類不限于這些,再有詞義研究所用信息是復雜多樣的,除了文中提及的語境信息,還有主題約束和篇章一致性等因素。正因為這樣,對于不同類型的歧義詞的處理過程,其難度和策略會有所差異。正如學者Kilgariff所說: “senses depend on the task”,在解決詞義消歧問題的實際應用過程中,如何將多種知識資源的融合來解決詞義消歧問題,將是今后工作的難點和重點。

        [1]Navigli R.Word sense disambiguation:A survey [J].ACM Computing Surveys,2009,41 (2):1-69.

        [2]Agirre E,De Lacalle OL,Soroa A,et al.Knowledge-based WSD on specific domains:Performing better than generic supervised WSD [C]//Proceedings of the 21st International Jont Conference on Artifical Intelligence,2009:1501-1506.

        [3]YANG Zhizhuo,HUANG Heyan.Graph based word sense disambiguation method using distance between words [J].Journal of Software,2012,23 (4):776-785 (in Chinese).[楊陟卓,黃河燕.基于詞語距離的網絡圖詞義消歧 [J].軟件學報,2012,23 (4):776-785.]

        [4]YANG Zhizhuo,HUANG Heyan.WSD method based on heterogeneous relation graph [J].Journal of Computer Research and Development,2013,50 (2):437-444 (in Chinese). [楊陟卓,黃河燕.基于異構關系網絡圖的詞義消歧研究 [J].計算機研究與發(fā)展,2013,50 (2):437-444.]

        [5]Bernard Brosseau Villeneuve,Nie Jianyun,Noriko Kando.Towards an optimal weighting of context words based on distance[C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010:107-115.

        [6]Bernard Brosseau Villeneuve,Noriko Kando,Nie Jianyun.Construction of context models for word sense disambiguation[J].Information and Media Technologies,2011,6 (3):701-729.

        [7]Li G,Kou G,Quan J.Symmetric is not the optimal local context window in Chinese word sense disambiguation [C]//International Conference on Information Technology and Computer Science,2009:201-204.

        [8]Li G,Kou G,Zhou E,et al.Symmetric trends:Optimal local context window in Chinese word sense disambiguation[C]//International Conference on Hybrid Intelligent Systems,2009:151-154.

        [9]DONG Zhendong,DONG Qiang.HowNet[EB/OL].[2010-11-05].http://www.keenage.com(in Chinese).[董振東,董強.知網[EB/OL].[2010-11-05].http://www.keenage.com.]

        [10]YAN Rong,GAO Guanglai. Word sense disambiguation based on word semantic relevancy computation [J].Computer Engineering and Applications,2012,48 (27):109-113 (in Chinese).[閆蓉,高光來.面向詞義消歧的詞語相關度計算[J].計算機工程與應用,2012,48 (27):109-113.]

        [11]Mohammad S,Hirst G,Resnik P.Tor,TorMD:Distributional profiles of concepts for unsupervised word sense disambiguation [C]//4th International Workshop on Semantic Evaluations,2007:326-333.

        猜你喜歡
        消歧多義詞義項
        “玄”“懸”二字含義不同
        鄉(xiāng)音(2024年12期)2024-12-31 00:00:00
        基于關聯(lián)圖和文本相似度的實體消歧技術研究*
        多義詞
        基于半監(jiān)督集成學習的詞義消歧
        藏文歷史文獻識別過程中藏文自由虛詞的自動識別及消歧算法的研究
        小心兩用成語中的冷義項
        淺議多義詞在語境中的隱喻認知
        多義詞way的語義認知分析及實證研究
        兩用成語中的冷義項
        知識窗(2015年1期)2015-05-14 09:08:17
        Enhanced Precision
        Beijing Review(2012年37期)2012-10-16 02:24:10
        999久久66久6只有精品| 一本一道av无码中文字幕﹣百度| 美女免费视频观看网址| 精品在线视频在线视频在线视频| 日本一级特黄aa大片| 风韵丰满熟妇啪啪区老熟熟女| a级国产乱理伦片| 亚洲国产精品无码久久98| www插插插无码视频网站| 免费观看又污又黄的网站 | 久久亚洲av成人无码国产最大| 久久久久亚洲av成人片| 免费a级毛片18以上观看精品| 日本做受高潮好舒服视频| 一本色综合亚洲精品蜜桃冫| 亚洲av无码专区亚洲av| 亚洲AV无码久久久久调教| 国产三级av在线播放| 蓝蓝的天空,白白的云| 精品露脸熟女区一粉嫩av| 国产精品免费观看调教网| 国产成人精品无码一区二区老年人| 国产精品美女一区二区三区| 国产精品6| 国产系列丝袜熟女精品视频| 人妻无码中文专区久久AV| 色av色婷婷18人妻久久久| 国产无卡视频在线观看| 人妖av手机在线观看| 国产内射爽爽大片视频社区在线| 黄色a级国产免费大片| 国产成人午夜福利在线观看者| 亚洲男人堂色偷偷一区| 午夜桃色视频在线观看| 国产网站一区二区三区| 国产xxx69麻豆国语对白| 在线va免费看成| 国产成人精品三级在线影院| 青青青伊人色综合久久| 中文字幕有码在线亚洲| 青青草国产精品一区二区|