亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        詞語相似度計算方法分析

        2012-03-19 14:02:17崔韜世麥范金
        關(guān)鍵詞:語料庫本體語義

        崔韜世 麥范金

        桂林理工大學(xué) 廣西 541004

        0 引言

        詞語相似度計算研究的是用什么樣的方法來計算或比較兩個詞語的相似性。詞語相似度計算在自然語言處理、智能檢索、文本聚類、文本分類、自動應(yīng)答、詞義排歧和機(jī)器翻譯等領(lǐng)域都有廣泛的應(yīng)用,它是一個基礎(chǔ)研究課題,正在為越來越多的研究人員所關(guān)注。筆者對詞語相似度計算的應(yīng)用背景、研究成果進(jìn)行了歸納和總結(jié),包括每種策略的基本思想、依賴的工具和主要的方法等,以供自然語言處理、智能檢索、文本聚類、文本分類、數(shù)據(jù)挖掘、信息提取、自動應(yīng)答、詞義排歧和機(jī)器翻譯等領(lǐng)域的研究人員參考和應(yīng)用。詞語相似度計算的應(yīng)用主要有以下幾點(diǎn):

        (1) 在基于實(shí)例的機(jī)器翻譯中,詞語相似度主要用于衡量文本中詞語的可替換程度。

        (2) 在信息檢索中,相似度更多的是反映文本與用戶查詢在意義上的符合程度。

        (3) 在多文檔文摘系統(tǒng)中,相似度可以反映出局部主題信息的擬合程度。

        (4) 在自動應(yīng)答系統(tǒng)領(lǐng)域,相似度的計算主要體現(xiàn)在計算用戶問句和領(lǐng)域文本內(nèi)容的相似度上。

        (5) 在文本分類研究中,相似度可以反映文本與給定的分類體系中某類別的相關(guān)程度。

        (6) 相似度計算是文本聚類的基礎(chǔ),通過相似度計算,把文檔集合按照文檔間的相似度大小分成更小的文本簇。

        1 基于語料庫的詞語相似度計算方法

        基于統(tǒng)計方法計算詞語相似度通常是利用詞語的相關(guān)性來計算詞語的相似度。其理論假設(shè)凡是語義相近的詞,它們的上下文也應(yīng)該相似。因此統(tǒng)計的方法對于兩個詞的相似度算建立在計算它們的相關(guān)詞向量相似度基礎(chǔ)上。首先要選擇一組特征詞,然后計算這一組特征詞與每一個詞的相關(guān)性(一般用這組詞在實(shí)際的大規(guī)模語料中在該詞的上下文中出現(xiàn)的頻率來度量),于是,對于每一個詞都可以得到一個相關(guān)性的特征詞向量,然后計算這些向量之間的相似度,一般用向量夾角余弦的計算結(jié)果作為這兩個詞的相似度。

        Lee利用相關(guān)熵,Brown采用平均互信息來計算詞語之間的相似度。李涓子(1999)利用這種思想來實(shí)現(xiàn)語義的自動排歧;魯松(2001)研究了如何利用詞語的相關(guān)性來計算詞語的相似度。PBrownetc采用平均互信息來計算詞語之間的相似度?;诮y(tǒng)計的定量分析方法能夠?qū)υ~匯間的語義相似性進(jìn)行比較精確和有效的度量?;诖笠?guī)模語料庫進(jìn)行的獲取受制于所采用的語料庫,難以避免數(shù)據(jù)稀疏問題,由于漢語的一詞多義現(xiàn)象,統(tǒng)計的方法得到的結(jié)果中含有的噪聲是相當(dāng)大的,常常會出現(xiàn)明顯的錯誤。

        2 基于本體庫的詞語相似度計算方法

        2.1 常用本體庫

        關(guān)于 Ontology的定義有許多,目前獲得較多認(rèn)同的是R.Studer的解釋:“Ontology是對概念體系的明確的、形式化的、可共享的規(guī)范說明”。在最簡單的情況下,本體只描述概念的分類層次結(jié)構(gòu);在復(fù)雜的情況下,本體可以在概念分類層次的基礎(chǔ)上,加入一組合適的關(guān)系、公理、規(guī)則來表示概念間的其它關(guān)系,約束概念的內(nèi)涵解釋。

        WordNet是一個聯(lián)機(jī)英語詞匯檢索系統(tǒng),由 Prince-ton大學(xué)研制。它作為語言學(xué)本體庫同時又是一部語義詞典,在自然語言處理研究方面應(yīng)用很廣。它采用語義網(wǎng)絡(luò)作為其詞匯本體的基本表示形式。在 WordNet中,網(wǎng)絡(luò)節(jié)點(diǎn)由字形(Wordform)標(biāo)識,分為名詞、動詞、形容詞、副詞和功能詞等5種。節(jié)點(diǎn)之間的關(guān)系分為同義關(guān)系(Synonymy)、反義關(guān)系(Antonymy)、繼承關(guān)系(Hypony-my)、部分/整體關(guān)系(Meronymy)、形態(tài)關(guān)系(Morpholog-icalrelation)等。WordNet提供了很好的概念層次結(jié)構(gòu)。

        知網(wǎng)是一個以漢語和英語詞語所代表的概念為描述對象、以揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內(nèi)容的常識庫和知識庫。其中包含豐富的詞匯語義知識和本體知識,這些關(guān)系都隱含在知網(wǎng)的知識詞典和義原的特征文件中。知網(wǎng)中有以下兩個主要的概念:

        (1) 義項(xiàng)。它是對詞匯語義的一種描述,每一個詞可以表達(dá)為幾個義項(xiàng)。義項(xiàng)是用一種知識表示語言來描述的,這種知識表示語言所用的詞匯叫做義原。

        (2) 義原。它是用于描述一個概念的最小意義單位,從所有詞匯中提煉出的可以用來描述其他詞匯的不可再分的基本元素。

        與一般的語義詞典(如同義詞、詞林或 WordNet)不同,知網(wǎng)并不是簡單地將所有的概念歸結(jié)到一個樹狀的概念層次體系中,而是試圖用一系列的義原來對每一個概念進(jìn)行描述。

        知網(wǎng)的漢語知識庫中每個詞匯由一個四元組表示:

        DEF部分是表示詞與義原的關(guān)系,也是詞匯描述中最重要的部分,可以簡單地認(rèn)為詞是由義原通過某種關(guān)系構(gòu)成的。

        2.2 相似度計算方法分析

        根據(jù)本體知識來計算。主要是基于按照概念間結(jié)構(gòu)層次關(guān)系組織的語義詞典方法,根據(jù)概念之間的關(guān)系來計算詞語的相似度。這類方法通常依賴于比較完備的大型語義詞典,一般詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結(jié)構(gòu)中,在一棵樹型圖中,任何兩個節(jié)點(diǎn)之間有且只有一條路徑,這條路徑的長度就可以作為這兩個概念的語義距離的一種度量。

        傳統(tǒng)基于本體的概念之間相似度計算模型主要有基于距離的語義相似度計算模型、基內(nèi)容的語義相似度計算模型和基于屬性的語義相似度計算模型3種。

        劉群等人利用知網(wǎng)作為語義詞典計算漢語詞匯的相似度;Rada等人和Lee等人通過計算在WordNet中詞節(jié)點(diǎn)之間上下位關(guān)系構(gòu)成的最短路徑來計算詞語之間的相似度。許多學(xué)者考慮到其他因素對語義距離的影響,如Resnik根據(jù)兩個詞的公共祖先節(jié)點(diǎn)的最大信息量來衡量兩個詞的語義相似度;Agirre等人在計算詞語的語義相似度時,除了節(jié)點(diǎn)間的路徑長度外,還考慮到概念層次樹的深度和區(qū)域密度的影響。張瑞霞等人提出了一種基于知識圖的漢語詞匯相似度計算方法,該方法以知識圖為知識表示方法,在構(gòu)造詞圖的基礎(chǔ)上對詞匯概念中的義原進(jìn)行分類,通過計算不同類型義的相似度得到概念的相似度。

        3 比較與總結(jié)

        這兩種方法各有特點(diǎn)?;谑澜缰R的方法簡單有效,無需用語料庫進(jìn)行訓(xùn)練,也比較直觀,易于理解,但這種方法得到的結(jié)果受人的主觀意識影響較大,有時并不能準(zhǔn)確反映客觀事實(shí)。另外,這種方法比較準(zhǔn)確地反映了詞語之間語義方面的相似性和差異,而對于詞語之間的句法和語用特點(diǎn)考慮得比較少?;谡Z料庫的方法比較客觀,綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是,這種方法比較依賴于訓(xùn)練所用的語料庫,計算量大,計算方法復(fù)雜,另外,受資料稀疏和資料噪聲的干擾較大。

        [1]秦春秀,趙捧未,劉懷亮.詞語相似度計算研究[J].信息系統(tǒng).2007.

        [2]余超.基于知網(wǎng)的詞匯語義計算研究及應(yīng)用[D].遼寧:沈陽航空工業(yè)學(xué)院.2007.

        [3]劉紫玉,黃磊.基于領(lǐng)域本體模型的概念語義相似度計算研究[J].計算機(jī)技術(shù)與發(fā)展.2010.

        [4]http://wordnet.princeton.edu/.

        [5]http://www.keenage.com/.

        [6]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].知識組織與知識管理.2010.

        [7]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].計算語言學(xué)及中文信息處理.2002.

        [8]Resnik O.Semantic Similarity in a Taxonomy:An Information-Based Measure and Its Application to Problems of Ambiguity and Natural Language[J].Journal of A rtificial Intelligence Research.1999.

        猜你喜歡
        語料庫本體語義
        Abstracts and Key Words
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        語言與語義
        《語料庫翻譯文體學(xué)》評介
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        認(rèn)知范疇模糊與語義模糊
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        91热视频在线观看| 欧美成人片在线观看| 玩两个丰满老熟女| 亚洲AV无码国产精品久久l| 女同欲望一区二区三区| 久久精品国产亚洲av精东 | 美女视频在线观看网址大全| 久9re热视频这里只有精品 | 一本大道久久精品 东京热| 青青草免费在线视频导航 | 岛国av无码免费无禁网站下载| 国产高清女人对白av在在线| 久久综合精品国产丝袜长腿| 99精品国产丝袜在线拍国语| 国产精品丝袜黑色高跟鞋| 久久久精品国产视频在线| 国产精品白浆一区二区免费看 | 日本av不卡一区二区三区| 一女被多男玩喷潮视频| 日韩精品无码一区二区三区视频| 中文字幕乱码人妻无码久久久1| 一级一片内射视频网址| 成人特黄a级毛片免费视频| 成人区人妻精品一区二区不卡网站 | 2021久久最新国产精品| 亚洲av色香蕉一区二区三区蜜桃| 久久红精品一区二区三区| 国产精品夜间视频香蕉| 毛片无遮挡高清免费久久| 亚洲av成人波多野一区二区| 日本精品人妻一区二区三区| 自拍偷拍 视频一区二区| 亚洲欧美国产国产综合一区| 亚洲最大成av人网站| 精品亚洲av一区二区| 呦系列视频一区二区三区| 中文字幕精品无码一区二区| 亚洲黄片高清在线观看| 日韩三级一区二区三区| a级毛片免费观看网站| a级国产精品片在线观看|