亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義的文本相似度算法研究

        2014-04-29 00:00:00鄶媛媛

        摘 要:文本相似度算法研究一直是文本挖掘領(lǐng)域非常重要的算法,指采用一定的策略比較兩個(gè)文本之間的相似程度,目前文本相似度算法已經(jīng)在文本分類、文本聚類、自然語(yǔ)言處理等多個(gè)領(lǐng)域嶄露頭角。本文主要就語(yǔ)義角度出發(fā)對(duì)文本之間相似度進(jìn)行界定。

        關(guān)鍵詞:文本挖掘;文本相似度;語(yǔ)義

        中圖分類號(hào):TP311.13

        文本之間相似度的度量一直是是文本挖掘領(lǐng)域研究的熱點(diǎn)問(wèn)題,優(yōu)良的文本相似度算法可以更加精準(zhǔn)的實(shí)現(xiàn)對(duì)文本之間相似度的界定。在文本分類、文本聚類和搜索引擎等文本處理領(lǐng)域,文本相似度算法占據(jù)著非常重要的地位。目前文本相似度算法有基于文本結(jié)構(gòu)特征的相似度算法、基于關(guān)鍵詞匹配的文本相似度算法和基于語(yǔ)義的文本相似度算法等,本文試圖從語(yǔ)義的角度出發(fā)來(lái)闡釋文本之間相似度。

        1 HowNet簡(jiǎn)介

        知網(wǎng)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。是一部比較詳盡的語(yǔ)義知識(shí)詞典。相比于其它語(yǔ)義詞典,其特點(diǎn)是基于世界知識(shí)來(lái)構(gòu)建語(yǔ)義網(wǎng)絡(luò),并且摒棄了完全用樹(shù)狀結(jié)構(gòu)來(lái)描述知識(shí),而是采用了網(wǎng)狀結(jié)構(gòu)來(lái)描述知識(shí)。知網(wǎng)中用“義原”來(lái)描述概念,并以之作為最小意義單位?!傲x原”間層次結(jié)構(gòu)如圖1所示。

        根據(jù)知網(wǎng)的網(wǎng)狀結(jié)構(gòu)特點(diǎn),各個(gè)知網(wǎng)“義原”節(jié)點(diǎn)對(duì)應(yīng)于各個(gè)網(wǎng)狀節(jié)點(diǎn),通過(guò)對(duì)知網(wǎng)邏輯節(jié)點(diǎn)進(jìn)行梳理,各個(gè)“義原”之間關(guān)聯(lián)性可以通過(guò)這種復(fù)雜的網(wǎng)狀結(jié)構(gòu)加以反映,各個(gè)節(jié)點(diǎn)之間具備邏輯層次關(guān)系,正是這種邏輯層次關(guān)系,得到“義原”之間語(yǔ)義關(guān)聯(lián)性,如公式1所示。

        自然界中詞語(yǔ)通常都可以包含多個(gè)詞義,知網(wǎng)中定義這個(gè)多個(gè)詞義為概念(義項(xiàng)),每個(gè)概念可以通過(guò)多個(gè)“義原”按照不同的組合方式加以過(guò)程,則關(guān)鍵詞之間語(yǔ)義關(guān)聯(lián)性可以通過(guò)具有語(yǔ)義關(guān)聯(lián)性的“義原”加以反映。

        2 文本相似度算法

        目前文本相似度算法多采用基于關(guān)鍵詞的余弦相似度算法,算法思路如下:將文本進(jìn)行關(guān)鍵詞切分,并對(duì)經(jīng)過(guò)切分的關(guān)鍵詞進(jìn)行權(quán)值計(jì)算,結(jié)合向量空間模型,將關(guān)鍵詞進(jìn)行維度填充,通過(guò)計(jì)算向量之間內(nèi)積來(lái)定義文本之間相似度。假設(shè)文本D1和D2分別表示為D1=(t11,t12,…,t1n)和D2=(t21,t22,…t2n),相似度計(jì)算方法如公式2所示。

        3 結(jié)束語(yǔ)

        本文從語(yǔ)義的角度出發(fā)對(duì)文本之間相似度進(jìn)行分析,在文本之間語(yǔ)義相似度進(jìn)行闡述時(shí),對(duì)語(yǔ)義工具HowNet進(jìn)行了介紹,并且梳理了當(dāng)前流行的基于余弦相似度的文本相似度的處理流程。

        參考文獻(xiàn):

        [1]馬軍紅.分階段融合的文本語(yǔ)義相似度計(jì)算方法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(10):20-26.

        [2]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013(12):229-232.

        [3]郭麗,劉磊.詞匯語(yǔ)義相似度算法研究及應(yīng)用[J].軟件導(dǎo)刊,2013(07):57-58.

        作者簡(jiǎn)介:鄶媛媛(1983.10-),女,遼寧沈陽(yáng)人,圖書(shū)館中級(jí)職稱,主要研究方向:圖書(shū)館管理。

        作者單位:遼寧行政學(xué)院,沈陽(yáng) 110161

        亚洲熟妇丰满大屁股熟妇| 蜜桃视频网址在线观看| 亚洲最大不卡av网站| 亚洲综合自拍偷拍一区| 久久精品国产久精国产爱| 品色堂永远免费| 国产第一页屁屁影院| 亚洲精品国产一二三无码AV| 日韩人妻无码精品系列专区无遮| 91蜜桃精品一区二区三区毛片| 尤物蜜桃视频一区二区三区 | 亚洲欧美日韩人成在线播放| 欧美日韩国产成人高清视| 91青草久久久久久清纯| 久久久亚洲精品蜜臀av| 国产精品老熟女乱一区二区| 久久成人成狠狠爱综合网| a级毛片无码久久精品免费| 亚洲爱婷婷色婷婷五月| 亚洲欧美性另类春色| 亚洲综合免费在线视频| 男女动态91白浆视频| 肉色丝袜足j视频国产| 欧美日韩精品一区二区三区高清视频 | 久久久综合九色合综国产| 亚洲av黄片一区二区| 国产视频一区二区三区观看| 精品久久久久久综合日本| 激烈的性高湖波多野结衣| 亚洲av日韩av不卡在线观看| 日韩国产成人精品视频| 亚洲成人黄色av在线观看| 亚洲国产中文字幕精品| 医院人妻闷声隔着帘子被中出 | 中文无码免费在线| 人妻夜夜爽天天爽三区麻豆av| 伊人久久精品无码二区麻豆| 韩国无码av片在线观看网站 | 国产精品无码一区二区在线看| 亚洲国产一区二区三区亚瑟| 日韩美无码一区二区三区|