亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        詞語(yǔ)相似度算法研究綜述

        2015-09-08 07:50:47李慧
        現(xiàn)代情報(bào) 2015年4期
        關(guān)鍵詞:維基百科語(yǔ)料庫(kù)

        李慧

        [摘要]詞語(yǔ)相似度計(jì)算方法在信息檢索、詞義消歧、機(jī)器翻譯等自然語(yǔ)言處理領(lǐng)域有著廣泛的應(yīng)用?,F(xiàn)有的詞語(yǔ)相似度算法主要分為基于統(tǒng)計(jì)和基于語(yǔ)義資源兩類方法,前者是從大規(guī)模的語(yǔ)料中統(tǒng)計(jì)與詞語(yǔ)共現(xiàn)的上下文信息以計(jì)算其相似度,而后者利用人工構(gòu)建的語(yǔ)義詞典或語(yǔ)義網(wǎng)絡(luò)計(jì)算相似度。本文比較分析了兩類詞語(yǔ)相似度算法,重點(diǎn)介紹了基于Web語(yǔ)料庫(kù)和基于雛基百科的算法,并總結(jié)了各自的特點(diǎn)和不足之處。最后提出,在信息技術(shù)的影響下,基于維基百科和基于混合技術(shù)的詞語(yǔ)相似度算法以及關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的相似性計(jì)算具有潛在的發(fā)展趨勢(shì)。

        [關(guān)鍵詞]詞語(yǔ)相似度;語(yǔ)義資源;語(yǔ)料庫(kù);維基百科;WordNet

        [中圖分類號(hào)]TP18

        [文獻(xiàn)標(biāo)識(shí)碼]A

        [文章編號(hào)]1008-0821(2015)04-0172-06

        詞語(yǔ)之間的語(yǔ)義相似性研究是自然語(yǔ)言處理以及人工智能領(lǐng)域的基礎(chǔ)性研究,如搜索、聚類以及歧義消除等,需要依賴于包含現(xiàn)實(shí)世界概念與關(guān)系的范圍廣泛的知識(shí)組織體系。自然語(yǔ)言的詞語(yǔ)之間有著非常復(fù)雜的關(guān)系,如上下位關(guān)系、同義關(guān)系、反義關(guān)系等。詞語(yǔ)相似度是對(duì)詞語(yǔ)間復(fù)雜關(guān)系的數(shù)量化,是詞語(yǔ)間語(yǔ)義相似緊密程度的一種定量度量。目前,詞語(yǔ)相似度的研究可以分為兩類,一類是基于語(yǔ)料庫(kù)的算法,通過(guò)統(tǒng)計(jì)大規(guī)模語(yǔ)料庫(kù),根據(jù)詞語(yǔ)間信息量或者詞語(yǔ)共現(xiàn)頻率來(lái)計(jì)算詞語(yǔ)相似度。利用統(tǒng)計(jì)技術(shù)計(jì)算詞語(yǔ)間語(yǔ)義相似度是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法。第二類是基于語(yǔ)義資源的算法,也可被稱為基于本體的詞語(yǔ)相似度算法,主要根據(jù)手工建立的語(yǔ)義網(wǎng)絡(luò),通過(guò)計(jì)算詞語(yǔ)間距離得到詞語(yǔ)相似度。另外,還有一類基于混合技術(shù)的詞語(yǔ)相似度算法,通過(guò)將基于統(tǒng)計(jì)和基于語(yǔ)義的詞語(yǔ)相似度算法集合起來(lái),發(fā)揮各自算法的優(yōu)勢(shì)來(lái)計(jì)算詞語(yǔ)相似度。

        1 基于統(tǒng)計(jì)的詞語(yǔ)相似度算法

        這種方法是利用詞語(yǔ)之間的相關(guān)性來(lái)計(jì)算詞語(yǔ)相似度,假設(shè)語(yǔ)義相似的詞語(yǔ)之間具有相同的上下文信息,根據(jù)上下文信息的概率分布作為相似度計(jì)算的依據(jù)。根據(jù)所用語(yǔ)料庫(kù)的類型,可將其分為基于傳統(tǒng)大規(guī)模語(yǔ)料庫(kù)的方法和基于Web語(yǔ)料庫(kù)的方法。

        1.1基于傳統(tǒng)大規(guī)模語(yǔ)料庫(kù)的詞語(yǔ)相似度算法

        語(yǔ)料庫(kù)是人們針對(duì)某一特定領(lǐng)域收集和整理的大量文檔的集合,在利用大規(guī)模語(yǔ)料庫(kù)進(jìn)行詞語(yǔ)相似度計(jì)算的研究中,很多學(xué)者應(yīng)用了傳統(tǒng)的互信息方法。L.Lillian利用相關(guān)熵,P.Brown等通過(guò)計(jì)算平均互信息來(lái)計(jì)算詞語(yǔ)相似度。Dagan等使用了更為復(fù)雜的概率模型來(lái)計(jì)算詞語(yǔ)的距離。Salton等提出詞包法,通過(guò)構(gòu)建詞語(yǔ)語(yǔ)境向量,計(jì)算向量夾角余弦值來(lái)計(jì)算詞語(yǔ)相似度。Deerwester等在詞包方法的基礎(chǔ)上提出潛在語(yǔ)義分析法(LSA),通過(guò)構(gòu)建詞匯——文檔矩陣來(lái)解決數(shù)據(jù)稀疏的問(wèn)題。趙軍等在其提出的算法中,對(duì)關(guān)聯(lián)頻率分布規(guī)范化,通過(guò)計(jì)算詞的屬性向量間的距離來(lái)計(jì)算詞語(yǔ)相似度。章志凌等基于統(tǒng)計(jì)的方法提出了基于詞匯空間和關(guān)系空間的Corpus庫(kù),該庫(kù)使用詞語(yǔ)空間和關(guān)系空間結(jié)構(gòu)化地存儲(chǔ)了詞語(yǔ)和其上下文之間的統(tǒng)計(jì)信息,為詞語(yǔ)相似度的計(jì)算提供數(shù)據(jù)支持。

        基于傳統(tǒng)語(yǔ)料庫(kù)的方法嚴(yán)重依賴于訓(xùn)練所用的語(yǔ)料庫(kù),語(yǔ)料庫(kù)是提前準(zhǔn)備好的,這種方法不能避免詞匯不斷更新,也無(wú)法計(jì)算未登錄詞相似度的問(wèn)題,無(wú)法消除數(shù)據(jù)噪音的問(wèn)題。另外,基于統(tǒng)計(jì)的算法沒(méi)有考慮詞匯的語(yǔ)義背景信息,這也大大降低了結(jié)果的準(zhǔn)確度。

        1.2基于Web語(yǔ)料庫(kù)的詞語(yǔ)相似度算法

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,Web語(yǔ)料庫(kù)的出現(xiàn)為語(yǔ)料庫(kù)的建設(shè)和研究提供了新的思路和方法。Web語(yǔ)料庫(kù)以網(wǎng)絡(luò)文本為基礎(chǔ),網(wǎng)絡(luò)檢索軟件為技術(shù)手段,其詞匯共現(xiàn)特征可被直接用來(lái)詞語(yǔ)相似度的計(jì)算。商業(yè)搜索引擎提供了Web語(yǔ)料庫(kù)的訪問(wèn)途徑,能夠方便快速地獲取詞語(yǔ)在Web數(shù)據(jù)庫(kù)中單獨(dú)出現(xiàn)、共同出現(xiàn)以及所處語(yǔ)境等信息,從而進(jìn)行詞語(yǔ)相似度的計(jì)算。目前,基于Web語(yǔ)料庫(kù),利用搜索引擎進(jìn)行詞語(yǔ)相似度計(jì)算的研究中,具有代表性的算法有PMI-IR、LC-IR以及Web-PMI算法。

        P.Turney提出了PMI-IR(Pointwise Mutual Information using Information Retrieval)算法,通過(guò)搜索引擎獲取數(shù)據(jù),利用點(diǎn)互信息(PMI)以及搜索引擎檢索返回的頁(yè)面數(shù)作為詞語(yǔ)相似度計(jì)算的指標(biāo)。D.Higgins提出的LC-IR(Local Context-Information Retrieval)算法與PMI-IR算法相似,也采用Alta Vista搜索引擎,依賴于詞語(yǔ)共現(xiàn)的頻率統(tǒng)計(jì)信息。但是,LC-IR采用了不同的相似度度量標(biāo)準(zhǔn),使用了詞語(yǔ)被發(fā)現(xiàn)彼此相鄰的頻率,而不是詞語(yǔ)在彼此10個(gè)字窗口內(nèi)被發(fā)現(xiàn)的頻率。該方法在一定程度上減少了PMI-IR算法存在的偶然共現(xiàn)詞語(yǔ)對(duì)計(jì)算結(jié)果的干擾。在PMI-IR算法的基礎(chǔ)上,D.Bollegala等提出了Web-PMI算法,通過(guò)搜索引擎返回的頁(yè)面數(shù)來(lái)定義兩個(gè)不同的詞語(yǔ)P、Q以及P和Q的相似度,同時(shí),還提出了一個(gè)使用從文本片段中自動(dòng)提取的語(yǔ)法模式來(lái)計(jì)算詞語(yǔ)相似度的新方法。再利用支持向量機(jī)將這些不同的相似度的值進(jìn)行集成。實(shí)驗(yàn)數(shù)據(jù)表明該方法遠(yuǎn)遠(yuǎn)優(yōu)于之前研究中基于Web語(yǔ)義相似性的計(jì)算方法。

        此外,Rudi L.C.等利用信息論、壓縮原理、柯?tīng)柲缏宸驈?fù)雜性、語(yǔ)義學(xué)等知識(shí),把Internet作為一個(gè)大型的語(yǔ)料庫(kù),以Google搜索返回的結(jié)果數(shù)做為計(jì)算的數(shù)據(jù)依據(jù),提出了一種語(yǔ)義相關(guān)性計(jì)算方法,設(shè)NGD(Normalized Google Distance,介于0與1之間)表示標(biāo)準(zhǔn)谷歌距離,用以衡量語(yǔ)義相關(guān)性的大小,f(x)和f(y)分別表示包含概念x和y的網(wǎng)頁(yè)數(shù),N表示Google引用的互聯(lián)網(wǎng)上網(wǎng)頁(yè)總數(shù),那么概念x和y間的語(yǔ)義相關(guān)性計(jì)算公式可以表示稱:

        2 基于語(yǔ)義資源的詞語(yǔ)相似度算法

        詞語(yǔ)所處的語(yǔ)境在一定程度上反映詞語(yǔ)語(yǔ)義,但基于語(yǔ)料庫(kù)的方法對(duì)訓(xùn)練所用語(yǔ)料庫(kù)有很強(qiáng)的依賴性,而且計(jì)算量大,計(jì)算方法復(fù)雜,同時(shí)存在著數(shù)據(jù)稀疏的問(wèn)題。如果采用人工標(biāo)注的語(yǔ)義詞典計(jì)算詞語(yǔ)相似度,能夠較好地減少數(shù)據(jù)稀疏和數(shù)據(jù)噪音對(duì)計(jì)算結(jié)果產(chǎn)生的影響。語(yǔ)義詞典規(guī)范地描述了詞語(yǔ)之間的上下位關(guān)系、同義關(guān)系、反義關(guān)系等,是詞語(yǔ)相似度計(jì)算的重要依據(jù)。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,維基百科作為一個(gè)公開(kāi)的數(shù)據(jù)庫(kù),蘊(yùn)含豐富的語(yǔ)義知識(shí),數(shù)據(jù)范圍廣,更新速度快,也同樣具有良好的結(jié)構(gòu)化信息,目前已有許多學(xué)者選取維基百科作為數(shù)據(jù)資源進(jìn)行詞語(yǔ)相似度的相關(guān)研究。endprint

        2.1基于傳統(tǒng)語(yǔ)義詞典的算法

        2.1.1基于WordNet的算法

        WordNet是一個(gè)包含了語(yǔ)義信息的英語(yǔ)詞典,是一個(gè)在線的詞匯參照系統(tǒng)。R.Rada等利用WordNet,提出了一種基于距離的語(yǔ)義相關(guān)度計(jì)算方法,其基本思想是通過(guò)兩個(gè)詞語(yǔ)在本體樹(shù)狀分類體系或者語(yǔ)義詞典中的最短路徑長(zhǎng)度來(lái)計(jì)算它們之間的相關(guān)度,二者距離越小,那么它們的相關(guān)度越大,反之,距離越大,其相關(guān)度越小。Richardson又在此基礎(chǔ)上,加入權(quán)重值,對(duì)最短路徑法提出了改進(jìn)??紤]詞語(yǔ)在WordNet中的層次信息和邊所表征的關(guān)聯(lián)度,將表示該詞語(yǔ)涉及的邊的進(jìn)行加權(quán)求和,這樣得到的詞語(yǔ)語(yǔ)義相關(guān)度的結(jié)果也將更準(zhǔn)確。

        Hirst等從一個(gè)新的角度來(lái)闡述基于距離的計(jì)算方法,如果兩個(gè)詞語(yǔ)相關(guān),那么它們之間存在一條較短路徑,并且遍歷過(guò)程不需要或者很好改變路徑,并提出獨(dú)立的計(jì)算公式來(lái)證明結(jié)果確實(shí)具有一定的優(yōu)化。Jiang等在使用共享父節(jié)點(diǎn)和被比較詞語(yǔ)包含的信息的同時(shí),直接通過(guò)語(yǔ)義距離計(jì)算詞語(yǔ)的相關(guān)度,充分結(jié)合了距離和信息內(nèi)容,較之以往的方法,它的效果更好。Philip Resnik提出了一種基于節(jié)點(diǎn)共享信息內(nèi)容概念的語(yǔ)義相似性度量方法,在解決句法和語(yǔ)義模糊的問(wèn)題上充分利用了分類相似,針對(duì)人類相似性基準(zhǔn)集的判斷實(shí)驗(yàn)表明,該方法的性能優(yōu)于傳統(tǒng)的邊緣統(tǒng)計(jì)方法。Agirre等提出了一種針對(duì)詞匯歧義的解決方法,該方法依賴于WordNet中名詞分類的使用,同時(shí)定義了概念密度公式。該自動(dòng)計(jì)算的方法不需要手工編碼的詞匯條目,手工標(biāo)注的文字,也不需要任何一種培訓(xùn)過(guò)程。吳思穎等利用中文WordNet,在其同義詞集的上下位關(guān)系圖中,引入了距離、密度、深度3個(gè)因素來(lái)估計(jì)同義詞集之間的相似度。Sussna在考察WordNet詞義網(wǎng)密度、節(jié)點(diǎn)深度、鏈接類型等因素后,提出了一種基于詞義網(wǎng)邊的詞語(yǔ)之間的相似度量方法。除WordNet外,其他應(yīng)用較為廣泛的語(yǔ)義詞典還包括MindNet和FrameNet等,但應(yīng)用思想都是一樣的。

        2.1.2基于知網(wǎng)(HowNet)、《同義詞詞林》的算法

        近年來(lái),隨著“知網(wǎng)”等本體知識(shí)模型的出現(xiàn)和不斷完善,針對(duì)漢語(yǔ)詞語(yǔ)相似度方面的研究又開(kāi)始盛行起來(lái)。該技術(shù)的基本假設(shè)是,在本體中距離越近的義原或詞匯,它們的相似度越大。國(guó)內(nèi)學(xué)者一般是借助于知網(wǎng)或者《同義詞詞林》來(lái)進(jìn)行研究。

        劉群等提出一種基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算方法。該方法在計(jì)算兩個(gè)概念的語(yǔ)義表達(dá)式之間的相似度時(shí),采用了“整體的相似度等于部分相似度加權(quán)平均”的做法。對(duì)于兩個(gè)義原的相似度,采用根據(jù)上下位關(guān)系得到語(yǔ)義距離并進(jìn)行轉(zhuǎn)換的方法。夏天提出了一種基于知網(wǎng)、面向語(yǔ)義的相似度計(jì)算方法,并通過(guò)概念切分解決了知網(wǎng)中未登錄詞的語(yǔ)義相似度計(jì)算的難題。王斌采用樹(shù)形圖中節(jié)點(diǎn)之間路徑的方法,利用《同義詞詞林》來(lái)計(jì)算漢語(yǔ)詞語(yǔ)之間的相似度?!锻x詞詞林》將所有的詞組織在一棵或幾棵樹(shù)狀的層次結(jié)構(gòu)中,在一棵樹(shù)形圖中,任何兩個(gè)節(jié)點(diǎn)之間有且只有一條路徑,在計(jì)算詞語(yǔ)相似度時(shí),通過(guò)計(jì)算這條路徑的長(zhǎng)度來(lái)計(jì)算概念語(yǔ)義距離,進(jìn)而作為詞語(yǔ)相似度的一種度量。呂立輝等利用《同義詞詞林》,綜合考慮詞語(yǔ)在詞典中的密度信息和路徑信息,并模擬計(jì)算函數(shù)來(lái)計(jì)算相似度。李素建等人提出了一種綜合利用了知網(wǎng)和《同義詞詞林》來(lái)計(jì)算漢語(yǔ)詞語(yǔ)語(yǔ)義相似度的方法。許云提出了一種利用知網(wǎng)來(lái)計(jì)算語(yǔ)義相關(guān)度的方法。知網(wǎng)中描述語(yǔ)義的基本單位是義原,所以該算法通過(guò)計(jì)算義原相關(guān)度和義原關(guān)聯(lián)度來(lái)計(jì)算詞語(yǔ)的語(yǔ)義相關(guān)度。

        2.2基于維基百科的算法

        維基百科是一種基于Web2.0技術(shù)的合作型知識(shí)庫(kù)。維基百科可以被看作含有語(yǔ)義詞典功能的大型語(yǔ)料庫(kù),其獨(dú)特的信息組織方式,使它成為了科研中重要的語(yǔ)義數(shù)據(jù)資源。維基百科作為詞語(yǔ)相似度計(jì)算的資源基礎(chǔ),比搜索引擎的知識(shí)結(jié)構(gòu)更合理,比WordNet覆蓋范圍更廣泛。

        自然語(yǔ)言語(yǔ)義相關(guān)度的計(jì)算需要訪問(wèn)大量特定領(lǐng)域或者常識(shí)性的世界知識(shí)。Strube等最早利用維基百科計(jì)算詞語(yǔ)相似度,通過(guò)實(shí)驗(yàn)在不同的基準(zhǔn)數(shù)據(jù)集上比較了基于維基百科的算法與基于WordNet的算法,利用WikiRelate!算法可以比較不同詞性的詞語(yǔ)之間的語(yǔ)義相似度,同時(shí)發(fā)現(xiàn)當(dāng)應(yīng)用于最大可用數(shù)據(jù)集時(shí),維基百科優(yōu)于WordNet。隨后,Gabrilovich等提出了基于維基百科文章內(nèi)容的顯性語(yǔ)義分析法(ESA)。ESA是一種基于來(lái)自維基百科高維空間文本概念的新的方法,使用機(jī)器學(xué)習(xí)技術(shù)將文本的含義表達(dá)為基于維基百科概念的加權(quán)向量。由于自然概念的使用,ESA模型更容易被用戶理解?;诰S基百科的詞語(yǔ)相似度算法取得了領(lǐng)域內(nèi)最精確的結(jié)果,得到了廣泛應(yīng)用,許多學(xué)者也在已有算法基礎(chǔ)上進(jìn)行了改進(jìn)。Milne提出了利用維基百科文檔內(nèi)鏈接信息計(jì)算詞語(yǔ)相關(guān)度的方法WLVM(Wikipedia Link Vector Model),這種方法與ESA和WikiRelate!方法相似,不同的是,該方法只利用了鏈接結(jié)構(gòu)和文章標(biāo)題等信息來(lái)計(jì)算相關(guān)度,而沒(méi)有利用維基百科中所有的文本內(nèi)容,雖然計(jì)算方法變得更加簡(jiǎn)單,但其準(zhǔn)確性遠(yuǎn)遠(yuǎn)落后于ESA方法。Yeh等為了解決資源整合問(wèn)題,通過(guò)運(yùn)用基于維基百科圖形的個(gè)性化的PageRank來(lái)計(jì)算詞語(yǔ)相似度。該研究評(píng)估了圖形建立,包括鏈路選擇策略的方法,以及用于表示圖形節(jié)點(diǎn)分布的輸入文本的兩種方法。Radinsky等認(rèn)為通過(guò)研究隨著詞語(yǔ)時(shí)間推移的使用模式也可以獲取大量的相關(guān)信息,進(jìn)而提出了一種新的語(yǔ)義關(guān)聯(lián)模型,即時(shí)空語(yǔ)義分析(TSA)。ESA方法將詞語(yǔ)語(yǔ)義表示為概念向量,而在TSA方法中,每個(gè)概念被表示為文檔語(yǔ)料庫(kù)中的時(shí)間序列。這是第一次將時(shí)間信息引入到語(yǔ)義關(guān)聯(lián)模型的研究中。實(shí)驗(yàn)表明,TSA比ESA方法取得了更好的效果。盛志超等通過(guò)研究發(fā)現(xiàn),WikiRelate!算法僅依靠類別信息作為背景知識(shí),而ESA算法雖然在精度上有了較大提高,但其并沒(méi)有充分利用類別信息以及內(nèi)鏈接信息,于是提出了基于維基百科頁(yè)面網(wǎng)的詞語(yǔ)相似度算法,結(jié)合了頁(yè)面的內(nèi)容信息、網(wǎng)絡(luò)信息以及類別信息,提高了計(jì)算結(jié)果的準(zhǔn)確率。endprint

        2.3基于百度百科的算法

        百度百科是一個(gè)基于Web2.0技術(shù)的中文百科全書(shū),現(xiàn)已成為互聯(lián)網(wǎng)上規(guī)模最大、使用最廣泛的開(kāi)放式中文電子百科全書(shū),也成為由互聯(lián)網(wǎng)用戶以自由貢獻(xiàn)、共同協(xié)作的方式構(gòu)建大規(guī)模知識(shí)資源的典范。作為語(yǔ)料庫(kù),百度百科包含了數(shù)百萬(wàn)的文檔資源,質(zhì)量上和數(shù)量上都有著其它語(yǔ)料庫(kù)無(wú)法比擬的優(yōu)勢(shì)。

        詹志建等提出了一種新的基于百度百科的詞語(yǔ)相似度量方法,通過(guò)分析百度百科詞條信息,從表征詞條的解釋內(nèi)容方面綜合分析詞條相似度,并定義了詞條間的相似度計(jì)算公式,通過(guò)計(jì)算部分之間的相似度得到整體的相似度。作者具體討論應(yīng)用這種算法在百科名片、詞條正文、開(kāi)放分類和相關(guān)詞條部分的相似度計(jì)算,對(duì)其再加權(quán)就得到整體的相似度結(jié)果。與傳統(tǒng)的基于語(yǔ)義詞典和大規(guī)模語(yǔ)料庫(kù)的方法不同,這種方法通過(guò)計(jì)算表征百科詞條各個(gè)部分內(nèi)容的相似度加權(quán)得到詞條的相似度,實(shí)驗(yàn)結(jié)果也表明,與已有的相似度計(jì)算方法對(duì)比,提出的算法更加有效合理。

        3 基于混合技術(shù)的詞語(yǔ)相似度算法

        綜上可見(jiàn),基于統(tǒng)計(jì)的方法比較客觀,但依賴于訓(xùn)練所用的語(yǔ)料庫(kù),受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大?;谡Z(yǔ)義資源的方法簡(jiǎn)單有效,但得到的結(jié)果受研究者的主觀意識(shí)影響較大。若將基于統(tǒng)計(jì)和基于語(yǔ)義資源的方法結(jié)合起來(lái),發(fā)揮兩種算法各自的優(yōu)勢(shì)進(jìn)行詞匯間的語(yǔ)義相似度計(jì)算,有可能彌補(bǔ)各自算法的不足,達(dá)到更符合人們客觀需要的計(jì)算結(jié)果。

        Li等探討了基于多個(gè)信息源的詞語(yǔ)相似度計(jì)算方法,其中包括語(yǔ)義詞典的結(jié)構(gòu)化語(yǔ)義信息以及語(yǔ)料庫(kù)中的信息內(nèi)容,將詞語(yǔ)在層次樹(shù)中最短路徑和密度等信息進(jìn)行非線性結(jié)合來(lái)計(jì)算詞語(yǔ)相似度,實(shí)驗(yàn)證明該方法優(yōu)于傳統(tǒng)的相似度度量方法。魏(韋華)等從基于信息量的方法、基于距離的方法和混合方法3個(gè)角度分類總結(jié)了基于本體的術(shù)語(yǔ)間語(yǔ)義相似度的計(jì)算方法。在此基礎(chǔ)上,提出了基于有向無(wú)環(huán)圖和內(nèi)在信息量的混合方法。該方法避免了分析語(yǔ)料庫(kù)的問(wèn)題,具有比較高的準(zhǔn)確度。郭麗等綜合應(yīng)用了傳統(tǒng)基于知網(wǎng)和基于互信息的方法,從語(yǔ)義和統(tǒng)計(jì)相融合的角度提出了詞語(yǔ)相似度的算法,結(jié)果表明本算法可以得到更符合人們預(yù)期的結(jié)果。蔡?hào)|風(fēng)等人結(jié)合知網(wǎng)提出了一種基于語(yǔ)境的詞語(yǔ)相似度算法,通過(guò)構(gòu)造隸屬函數(shù)計(jì)算詞語(yǔ)上下文信息的模糊重要度,有效地解決數(shù)據(jù)噪聲問(wèn)題。

        通過(guò)分析前人研究成果發(fā)現(xiàn),將基于統(tǒng)計(jì)和基于語(yǔ)義資源的方法結(jié)合起來(lái),能夠在一定程度上彌補(bǔ)兩種算法的不足,得到與客觀實(shí)際符合程度更大的詞語(yǔ)相似度。但是這兩類方法也包含很多不同的方法,具體的融合技術(shù)還有待深入研究,這也可以成為詞語(yǔ)相似度研究的一個(gè)分支。

        4 分析與結(jié)論

        基于上述研究綜述,表1從類別、數(shù)據(jù)來(lái)源、主要優(yōu)缺點(diǎn)等角度對(duì)詞語(yǔ)相似度的算法進(jìn)行了分析總結(jié),并介紹了各個(gè)類別中的代表算法及其研究者。得到以下兩點(diǎn)結(jié)論:

        4.1基于維基百科的詞語(yǔ)相似度算法具有潛在的發(fā)展趨勢(shì)

        與傳統(tǒng)的語(yǔ)義詞典相比,維基百科具有知識(shí)覆蓋范圍廣,結(jié)構(gòu)化程度高等優(yōu)點(diǎn),同時(shí)其語(yǔ)義資源還可以及時(shí)更新,提高相似度計(jì)算的準(zhǔn)確率。研究表明,在大數(shù)據(jù)集上,基于維基百科的算法遠(yuǎn)好于WordNet的算法。目前基于維基百科的算法利用了維基百科分類圖、文檔圖以及內(nèi)鏈接等信息,未來(lái)的研究可以進(jìn)一步探索對(duì)維基百科中其他語(yǔ)義知識(shí)的運(yùn)用。另外,由于分類圖在結(jié)構(gòu)上與語(yǔ)義詞典比較相似,而且其記錄的語(yǔ)義關(guān)系比較精確,可以將基于傳統(tǒng)語(yǔ)義詞典的方法應(yīng)用到維基百科的分類圖資源上來(lái)因此,基于維基百科分類圖的相似度算法值得進(jìn)一步的探索和研究。

        4.2基于混合技術(shù)的詞語(yǔ)相似度算法存在很大的發(fā)展空間

        在詞語(yǔ)相似度算法中,由于基于統(tǒng)計(jì)的方法依賴于所用語(yǔ)料庫(kù),計(jì)算量大,計(jì)算方法復(fù)雜,同時(shí)存在著數(shù)據(jù)稀疏和數(shù)據(jù)噪音的問(wèn)題;而基于語(yǔ)義資源的方法受所用語(yǔ)義詞典的限制,無(wú)法反應(yīng)客觀實(shí)際情況。目前相關(guān)研究表明,基于混合技術(shù)的算法,利用本體知識(shí)彌補(bǔ)基于統(tǒng)計(jì)算法中的數(shù)據(jù)稀疏和數(shù)據(jù)噪音問(wèn)題,可以取得比較客觀和精確的計(jì)算結(jié)果。將語(yǔ)料庫(kù)以及語(yǔ)義詞典合理融合作為背景信息,可以綜合考慮詞匯之間的多種語(yǔ)義關(guān)系,使各種語(yǔ)義信息進(jìn)行優(yōu)勢(shì)互補(bǔ),從而提高詞語(yǔ)相似度計(jì)算結(jié)果的精確度。然而,語(yǔ)料庫(kù)以及語(yǔ)義詞典畢竟是兩類結(jié)構(gòu)組織不同的數(shù)據(jù)資源,基于統(tǒng)計(jì)和基于語(yǔ)義的算法的原理也存在著根本性的不同,因此,在不同方法的融合技術(shù)上還有待進(jìn)一步研究和實(shí)踐。

        4.3信息技術(shù)影響下的算法將為詞語(yǔ)相似度研究提供新的思路

        隨著信息技術(shù)的發(fā)展和研究的不斷深入,詞語(yǔ)相似度的計(jì)算精確度逐步提高。從前面關(guān)于基于Web語(yǔ)料庫(kù)以及基于維基百科的詞語(yǔ)相似度算法介紹即可看出這種趨勢(shì)?;赪eb語(yǔ)料庫(kù)的算法利用了搜索引擎技術(shù),把利用詞語(yǔ)共現(xiàn)信息計(jì)算相似度的方法應(yīng)用在廣泛豐富的Web文本資源中;而基于維基百科的算法把維基百科看作具有語(yǔ)義詞典功能的大型語(yǔ)料庫(kù),利用其獨(dú)特的信息組織方式來(lái)計(jì)算詞語(yǔ)相似度,目前有學(xué)者在維基百科和其他語(yǔ)義資源融合算法方面的研究中也取得了不錯(cuò)的成果,這些方法將為詞語(yǔ)相似度的計(jì)算提供新的觀點(diǎn)和平臺(tái)。

        4.4語(yǔ)義網(wǎng)技術(shù)的最新發(fā)展為詞匯相似度的計(jì)算開(kāi)辟了新的途徑

        隨著語(yǔ)義網(wǎng)技術(shù)的不斷深化,Tim Berners-Lee于2006年提出關(guān)聯(lián)數(shù)據(jù)(Linked Data)的概念,它是一種適用于語(yǔ)義網(wǎng)(Semantic Web)的數(shù)據(jù)存在形式。關(guān)聯(lián)開(kāi)放數(shù)據(jù)(Linking Open Data)運(yùn)動(dòng)啟動(dòng)后,LOD集中數(shù)據(jù)量不斷擴(kuò)大,這些數(shù)據(jù)集應(yīng)用在包括信息檢索、推薦系統(tǒng)等多個(gè)領(lǐng)域中,而將LOD數(shù)據(jù)集應(yīng)用在相似性計(jì)算必然是未來(lái)的發(fā)展方向之一。目前在利用WordNet進(jìn)行相似性計(jì)算中,WordNet由于自身的限制,容納的詞匯量具有一定的限度,在這種情況下,可以利用關(guān)聯(lián)數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)WordNet的補(bǔ)充,因此在映射本體時(shí),可以增加概念匹配度,增強(qiáng)詞匯相似度計(jì)算的準(zhǔn)確性。

        (本文責(zé)任編輯:孫國(guó)雷)endprint

        猜你喜歡
        維基百科語(yǔ)料庫(kù)
        維基百科影響司法
        維基百科青年
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        基于語(yǔ)料庫(kù)“隱秘”的詞類標(biāo)注初步探究
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        APP
        維基百科何去何從
        IBM的監(jiān)視
        意林(2014年2期)2014-02-11 11:09:17
        借力HTML5技術(shù)在線多人協(xié)作編輯視頻,維基百科正式邁入視頻時(shí)代!
        开心激情站开心激情网六月婷婷| 一本久久伊人热热精品中文字幕| 岳毛多又紧做起爽| 香蕉久久久久久久av网站| 日韩成人无码v清免费| 久久精品亚洲国产成人av| 白白色发布免费手机在线视频观看 | 国模无码一区二区三区| 一道久在线无码加勒比| 久久er这里都是精品23| 在线视频一区二区国产| 国产欧美性成人精品午夜| 久久国产精久久精产国| 久99久精品免费视频热77| 国产尤物自拍视频在线观看| 国产亚洲精品成人aa片新蒲金 | 国产精品不卡免费版在线观看| 最新中文字幕人妻少妇| 五月综合缴情婷婷六月| 国产精品自产拍在线18禁| 亚洲av男人免费久久| 优优人体大尺大尺无毒不卡| 国产精品美女一区二区三区| 探花国产精品三级在线播放| 国产美女高潮流白浆视频| 国产成人av综合色| 亚洲av无码成人精品区天堂 | 亚洲av无码av吞精久久| 最新国产美女一区二区三区| 日本不卡一区二区三区久久精品| 国产午夜毛片v一区二区三区| 国产精品密播放国产免费看| 亚洲中文字幕高清视频| 日韩亚洲精品中文字幕在线观看| 欧美大屁股xxxxhd黑色 | 国产99一区二区三区四区| 亚洲人成无码网站在线观看| 亚洲中文字幕无码久久2018| 中文字幕人妻激情在线视频| 国产私人尤物无码不卡| 亚洲精品永久在线观看|