亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義的文本相似度算法研究

        2014-04-29 00:00:00鄶媛媛

        摘 要:文本相似度算法研究一直是文本挖掘領(lǐng)域非常重要的算法,指采用一定的策略比較兩個(gè)文本之間的相似程度,目前文本相似度算法已經(jīng)在文本分類、文本聚類、自然語(yǔ)言處理等多個(gè)領(lǐng)域嶄露頭角。本文主要就語(yǔ)義角度出發(fā)對(duì)文本之間相似度進(jìn)行界定。

        關(guān)鍵詞:文本挖掘;文本相似度;語(yǔ)義

        中圖分類號(hào):TP311.13

        文本之間相似度的度量一直是是文本挖掘領(lǐng)域研究的熱點(diǎn)問(wèn)題,優(yōu)良的文本相似度算法可以更加精準(zhǔn)的實(shí)現(xiàn)對(duì)文本之間相似度的界定。在文本分類、文本聚類和搜索引擎等文本處理領(lǐng)域,文本相似度算法占據(jù)著非常重要的地位。目前文本相似度算法有基于文本結(jié)構(gòu)特征的相似度算法、基于關(guān)鍵詞匹配的文本相似度算法和基于語(yǔ)義的文本相似度算法等,本文試圖從語(yǔ)義的角度出發(fā)來(lái)闡釋文本之間相似度。

        1 HowNet簡(jiǎn)介

        知網(wǎng)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。是一部比較詳盡的語(yǔ)義知識(shí)詞典。相比于其它語(yǔ)義詞典,其特點(diǎn)是基于世界知識(shí)來(lái)構(gòu)建語(yǔ)義網(wǎng)絡(luò),并且摒棄了完全用樹(shù)狀結(jié)構(gòu)來(lái)描述知識(shí),而是采用了網(wǎng)狀結(jié)構(gòu)來(lái)描述知識(shí)。知網(wǎng)中用“義原”來(lái)描述概念,并以之作為最小意義單位?!傲x原”間層次結(jié)構(gòu)如圖1所示。

        根據(jù)知網(wǎng)的網(wǎng)狀結(jié)構(gòu)特點(diǎn),各個(gè)知網(wǎng)“義原”節(jié)點(diǎn)對(duì)應(yīng)于各個(gè)網(wǎng)狀節(jié)點(diǎn),通過(guò)對(duì)知網(wǎng)邏輯節(jié)點(diǎn)進(jìn)行梳理,各個(gè)“義原”之間關(guān)聯(lián)性可以通過(guò)這種復(fù)雜的網(wǎng)狀結(jié)構(gòu)加以反映,各個(gè)節(jié)點(diǎn)之間具備邏輯層次關(guān)系,正是這種邏輯層次關(guān)系,得到“義原”之間語(yǔ)義關(guān)聯(lián)性,如公式1所示。

        自然界中詞語(yǔ)通常都可以包含多個(gè)詞義,知網(wǎng)中定義這個(gè)多個(gè)詞義為概念(義項(xiàng)),每個(gè)概念可以通過(guò)多個(gè)“義原”按照不同的組合方式加以過(guò)程,則關(guān)鍵詞之間語(yǔ)義關(guān)聯(lián)性可以通過(guò)具有語(yǔ)義關(guān)聯(lián)性的“義原”加以反映。

        2 文本相似度算法

        目前文本相似度算法多采用基于關(guān)鍵詞的余弦相似度算法,算法思路如下:將文本進(jìn)行關(guān)鍵詞切分,并對(duì)經(jīng)過(guò)切分的關(guān)鍵詞進(jìn)行權(quán)值計(jì)算,結(jié)合向量空間模型,將關(guān)鍵詞進(jìn)行維度填充,通過(guò)計(jì)算向量之間內(nèi)積來(lái)定義文本之間相似度。假設(shè)文本D1和D2分別表示為D1=(t11,t12,…,t1n)和D2=(t21,t22,…t2n),相似度計(jì)算方法如公式2所示。

        3 結(jié)束語(yǔ)

        本文從語(yǔ)義的角度出發(fā)對(duì)文本之間相似度進(jìn)行分析,在文本之間語(yǔ)義相似度進(jìn)行闡述時(shí),對(duì)語(yǔ)義工具HowNet進(jìn)行了介紹,并且梳理了當(dāng)前流行的基于余弦相似度的文本相似度的處理流程。

        參考文獻(xiàn):

        [1]馬軍紅.分階段融合的文本語(yǔ)義相似度計(jì)算方法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(10):20-26.

        [2]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013(12):229-232.

        [3]郭麗,劉磊.詞匯語(yǔ)義相似度算法研究及應(yīng)用[J].軟件導(dǎo)刊,2013(07):57-58.

        作者簡(jiǎn)介:鄶媛媛(1983.10-),女,遼寧沈陽(yáng)人,圖書(shū)館中級(jí)職稱,主要研究方向:圖書(shū)館管理。

        作者單位:遼寧行政學(xué)院,沈陽(yáng) 110161

        久久久久久一级毛片免费无遮挡 | 少妇被粗大猛进进出出男女片| 久久精品人妻中文av| 国产成人av三级在线观看韩国| 最近更新中文字幕一区二区| 国产精品久久久久久妇女| 成人国产精品一区二区视频| 男男性恋免费视频网站| 亚洲美免无码中文字幕在线| 国产清品夜色一区二区三区不卡| 国产av天堂亚洲国产av麻豆| 在线观看极品裸体淫片av| 日韩中文字幕一区二十| 成年人视频在线观看麻豆| 亚洲国产精品中文字幕久久| 天堂中文а√在线| 免费看美女被靠的网站| 婷婷色中文字幕综合在线| 少妇人妻偷人精品无码视频| 精品午夜一区二区三区久久| 国内人妖一区二区在线播放| 国产亚洲中文字幕久久网| 五月色婷婷丁香无码三级| 中国女人做爰视频| 国产成人亚洲综合无码精品| 美女窝人体色www网站| 中文字幕人妻激情在线视频| 国产成人91久久麻豆视频| 曰本人做爰又黄又粗视频| 国产成人无码一二三区视频| 精品国产乱来一区二区三区| 日本av一区二区三区四区| 亚洲男人天堂一区二区| 国产av国片精品有毛| 午夜成人理论无码电影在线播放 | 成人国产高清av一区二区三区| 久久精品国产色蜜蜜麻豆国语版 | 99热久久这里只精品国产www| 日本岛国精品中文字幕| 蜜桃视频在线在线观看| 亚洲av无码日韩av无码网站冲|