亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義的文本相似度算法研究

        2014-04-29 00:00:00鄶媛媛

        摘 要:文本相似度算法研究一直是文本挖掘領(lǐng)域非常重要的算法,指采用一定的策略比較兩個(gè)文本之間的相似程度,目前文本相似度算法已經(jīng)在文本分類、文本聚類、自然語(yǔ)言處理等多個(gè)領(lǐng)域嶄露頭角。本文主要就語(yǔ)義角度出發(fā)對(duì)文本之間相似度進(jìn)行界定。

        關(guān)鍵詞:文本挖掘;文本相似度;語(yǔ)義

        中圖分類號(hào):TP311.13

        文本之間相似度的度量一直是是文本挖掘領(lǐng)域研究的熱點(diǎn)問(wèn)題,優(yōu)良的文本相似度算法可以更加精準(zhǔn)的實(shí)現(xiàn)對(duì)文本之間相似度的界定。在文本分類、文本聚類和搜索引擎等文本處理領(lǐng)域,文本相似度算法占據(jù)著非常重要的地位。目前文本相似度算法有基于文本結(jié)構(gòu)特征的相似度算法、基于關(guān)鍵詞匹配的文本相似度算法和基于語(yǔ)義的文本相似度算法等,本文試圖從語(yǔ)義的角度出發(fā)來(lái)闡釋文本之間相似度。

        1 HowNet簡(jiǎn)介

        知網(wǎng)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。是一部比較詳盡的語(yǔ)義知識(shí)詞典。相比于其它語(yǔ)義詞典,其特點(diǎn)是基于世界知識(shí)來(lái)構(gòu)建語(yǔ)義網(wǎng)絡(luò),并且摒棄了完全用樹(shù)狀結(jié)構(gòu)來(lái)描述知識(shí),而是采用了網(wǎng)狀結(jié)構(gòu)來(lái)描述知識(shí)。知網(wǎng)中用“義原”來(lái)描述概念,并以之作為最小意義單位?!傲x原”間層次結(jié)構(gòu)如圖1所示。

        根據(jù)知網(wǎng)的網(wǎng)狀結(jié)構(gòu)特點(diǎn),各個(gè)知網(wǎng)“義原”節(jié)點(diǎn)對(duì)應(yīng)于各個(gè)網(wǎng)狀節(jié)點(diǎn),通過(guò)對(duì)知網(wǎng)邏輯節(jié)點(diǎn)進(jìn)行梳理,各個(gè)“義原”之間關(guān)聯(lián)性可以通過(guò)這種復(fù)雜的網(wǎng)狀結(jié)構(gòu)加以反映,各個(gè)節(jié)點(diǎn)之間具備邏輯層次關(guān)系,正是這種邏輯層次關(guān)系,得到“義原”之間語(yǔ)義關(guān)聯(lián)性,如公式1所示。

        自然界中詞語(yǔ)通常都可以包含多個(gè)詞義,知網(wǎng)中定義這個(gè)多個(gè)詞義為概念(義項(xiàng)),每個(gè)概念可以通過(guò)多個(gè)“義原”按照不同的組合方式加以過(guò)程,則關(guān)鍵詞之間語(yǔ)義關(guān)聯(lián)性可以通過(guò)具有語(yǔ)義關(guān)聯(lián)性的“義原”加以反映。

        2 文本相似度算法

        目前文本相似度算法多采用基于關(guān)鍵詞的余弦相似度算法,算法思路如下:將文本進(jìn)行關(guān)鍵詞切分,并對(duì)經(jīng)過(guò)切分的關(guān)鍵詞進(jìn)行權(quán)值計(jì)算,結(jié)合向量空間模型,將關(guān)鍵詞進(jìn)行維度填充,通過(guò)計(jì)算向量之間內(nèi)積來(lái)定義文本之間相似度。假設(shè)文本D1和D2分別表示為D1=(t11,t12,…,t1n)和D2=(t21,t22,…t2n),相似度計(jì)算方法如公式2所示。

        3 結(jié)束語(yǔ)

        本文從語(yǔ)義的角度出發(fā)對(duì)文本之間相似度進(jìn)行分析,在文本之間語(yǔ)義相似度進(jìn)行闡述時(shí),對(duì)語(yǔ)義工具HowNet進(jìn)行了介紹,并且梳理了當(dāng)前流行的基于余弦相似度的文本相似度的處理流程。

        參考文獻(xiàn):

        [1]馬軍紅.分階段融合的文本語(yǔ)義相似度計(jì)算方法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(10):20-26.

        [2]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013(12):229-232.

        [3]郭麗,劉磊.詞匯語(yǔ)義相似度算法研究及應(yīng)用[J].軟件導(dǎo)刊,2013(07):57-58.

        作者簡(jiǎn)介:鄶媛媛(1983.10-),女,遼寧沈陽(yáng)人,圖書(shū)館中級(jí)職稱,主要研究方向:圖書(shū)館管理。

        作者單位:遼寧行政學(xué)院,沈陽(yáng) 110161

        性生交片免费无码看人| 91在线视频视频在线| 日本淫片一区二区三区| 无码国内精品人妻少妇蜜桃视频 | 日本a级特级黄色免费| 色妞色视频一区二区三区四区| 中文字幕无码无码专区| 久久久久国产精品四虎| 黄色影院不卡一区二区| 久久精品国产亚洲7777| 肉体裸交丰满丰满少妇在线观看| 亚洲日本精品一区久久精品| 日韩有码在线观看视频| 无码字幕av一区二区三区| 久久香蕉国产精品一区二区三| 亚洲啊啊啊一区二区三区 | 国产一区二区黑丝美女| 国产偷国产偷亚洲高清视频| 亚洲av福利无码无一区二区| 国产精品亚洲一区二区杨幂| 亚洲国产线茬精品成av| 激情综合五月| 欧美日韩亚洲国产精品| 中文字幕亚洲人妻系列| 日本av不卡一区二区三区| 亚洲欧美牲交| 牛牛本精品99久久精品88m| 国产传媒剧情久久久av| 久久精品人搡人妻人少妇| 99久久精品日本一区二区免费| 久久国产品野战| 麻豆视频黄片在线免费观看| 成人免费无码大片a毛片| 国产精品乱码在线观看| 人成视频在线观看免费播放| 亚洲精品国产第一区二区| 成 人 免费 黄 色 视频| 国产传媒在线视频| 精品国产一区二区三区性色| 久久精品国产视频在热| 久久福利资源国产精品999|