亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        引文相似性測(cè)量模型

        2017-08-07 15:01:15陳衛(wèi)玲袁乖寧重慶科創(chuàng)職業(yè)學(xué)院
        大陸橋視野 2017年12期
        關(guān)鍵詞:關(guān)鍵字詞條相似性

        陳衛(wèi)玲 袁乖寧 王 華 / 重慶科創(chuàng)職業(yè)學(xué)院

        引文相似性測(cè)量模型

        陳衛(wèi)玲 袁乖寧 王 華 / 重慶科創(chuàng)職業(yè)學(xué)院

        CSLN 是引文語義鏈網(wǎng)絡(luò)。傳統(tǒng)相似度計(jì)算不能準(zhǔn)確的測(cè)量CSLN中引文間的相似性。本文在對(duì)引文的特征進(jìn)行分析后,提出了引文相似性測(cè)量模型,該模型能夠提高引文相似性測(cè)量的準(zhǔn)確性。

        引文;CSLN;相似性

        1.引言

        引文網(wǎng)絡(luò)是指被引文獻(xiàn)與引用文獻(xiàn)之間因引用關(guān)系而形成的一種網(wǎng)絡(luò)。語義鏈網(wǎng)絡(luò)(SLN)是一個(gè)用于管理Web資源的語義數(shù)據(jù)模型[1]。一個(gè)典型的語義鏈網(wǎng)絡(luò)包含語義節(jié)點(diǎn),語義鏈以及語義鏈推理規(guī)則。其中,語義節(jié)點(diǎn)可以是任意類型的資源、抽象概念或者是另外一個(gè)語義鏈網(wǎng)絡(luò)。語義鏈?zhǔn)菍?duì)超鏈接的擴(kuò)展,并為之添加語義關(guān)系。語義鏈繼承了超鏈接的易用性,使之具有推理能力,并且具有語義自組織性:任意節(jié)點(diǎn)可以連接到其他語義相關(guān)的節(jié)點(diǎn)。利用語義鏈推理規(guī)則可以推導(dǎo)出更多的語義鏈[2]。

        在這篇文章中,我們首先介紹了傳統(tǒng)相似度計(jì)算模型,接著對(duì)引文的特征進(jìn)行深入的分析后,最后提出引文相似性測(cè)量模型,該模型能夠提高引文相似性測(cè)量的準(zhǔn)確性。

        2.傳統(tǒng)相似度計(jì)算模型

        當(dāng)我們進(jìn)行引文相似度計(jì)算時(shí),最常用的方法是采用數(shù)學(xué)工具把引文表示成一個(gè)數(shù)學(xué)模型,然后在這個(gè)模型上進(jìn)行引文相似度運(yùn)算。傳統(tǒng)的相似度計(jì)算模型有向量空間模型和集合運(yùn)算模型等。

        2. 1向量空間模型

        向量空間模型VSM是六十年代末由Salton等人提出來的。VSM是一種代數(shù)的模型,目前已經(jīng)被廣泛的應(yīng)用于信息檢索等領(lǐng)域而且已經(jīng)取得了很好的效果。VSM的表示方法是它最與眾不同的優(yōu)點(diǎn),VSM是通過把文本以向量的形式定義到實(shí)數(shù)域來對(duì)自然語言的文本進(jìn)行表示。這種對(duì)自然語言文本的表示方法極大的提高了文本的可操作性和可計(jì)算性。而模式識(shí)別和其它領(lǐng)域中的計(jì)算方法也采用了VSM這種對(duì)文本的表示方法[3]。

        向量空間模型VSM的基本思想是:我們用向量來表示文檔,并且假設(shè)詞與詞之間是不相關(guān)的,這樣就可以簡(jiǎn)化文檔中關(guān)鍵詞之間的復(fù)雜關(guān)系,從而使得向量空間模型VSM具備了可計(jì)算性。而在向量空間模型VSM中,把文檔看成是由相互獨(dú)立的詞條組 (T1,T2,T3,……,Tn) 所構(gòu)成,并且對(duì)于每一個(gè)詞條Ti根據(jù)這個(gè)詞條在文檔中的重要程度賦以該詞條一定的權(quán)值Wi。如果將這些相互獨(dú)立的詞條組(T1,T2,T3,……,Tn)看作是一個(gè)n維坐標(biāo)系中的坐標(biāo)軸,那么這些詞條的權(quán)重(W1,W2,W3,……,Wn)就這些坐標(biāo)軸所對(duì)應(yīng)的坐標(biāo)值。所以由這些詞條組(T1,T2,T3,……,Tn) 分解得到的正交詞條矢量組就構(gòu)成了一個(gè)文檔向量空間。

        2. 2集合運(yùn)算模型

        集合運(yùn)算模型中用的最多的是Jaccard系數(shù)方法:

        其中, dj、dk是引文,引文是關(guān)鍵詞的集合。Sim(dj, dk)是引文dj和dk的相似度。

        3.引文相似性測(cè)量模型

        一篇引文是由標(biāo)題、關(guān)鍵字、正文等多個(gè)部分組成。因?yàn)橐牡母鱾€(gè)部分的重要程度不一樣,所以在計(jì)算兩個(gè)引文之間的相似性時(shí)我們應(yīng)當(dāng)把引文的各個(gè)部分分開當(dāng)作多個(gè)對(duì)象來分析,而不能把一篇引文當(dāng)作一個(gè)對(duì)象來分析。例如,引文的正文部分有大量的文字而且關(guān)鍵詞很分散,所以我們應(yīng)當(dāng)采用統(tǒng)計(jì)詞頻的方法來計(jì)算兩個(gè)引文之間的相似程度。而對(duì)于標(biāo)題和關(guān)鍵字,因?yàn)殛P(guān)鍵字是整個(gè)文章中非常重要的一部分,所占權(quán)重也非常大,因此這一部分我們必須要重點(diǎn)考慮。所以我們?cè)谟?jì)算引文相似性時(shí)應(yīng)該對(duì)關(guān)鍵字這一部分進(jìn)行單獨(dú)處理。

        通過上述分析,本文提出了引文相似性測(cè)量模型,我們首先把一篇引文的各個(gè)部分分開來進(jìn)行相似性測(cè)量,然后再把各個(gè)部分綜合起來以此來計(jì)算兩篇引文之間的相似性。本文采用的相似性計(jì)算方法如下:

        A.正文

        引文的正文部分文字量通常都很大,所以我們?cè)谟?jì)算兩篇引文之間相似性時(shí),首先將引文分解成一系列的句子序列,然后統(tǒng)計(jì)出兩篇引文中相同句子的數(shù)量和兩篇引文中共有的句子數(shù)量,最后用以下公式計(jì)算兩篇引文之間的相似性,引文相似度計(jì)算公式如下所示:

        其中,d1和d2分別代表兩篇引文。

        B.關(guān)鍵詞

        一般來說,引文中都會(huì)有關(guān)鍵詞,關(guān)鍵字是對(duì)引文內(nèi)容的高度概括,是整篇引文最重要的部分。我們通??梢酝ㄟ^計(jì)算兩個(gè)引文的關(guān)鍵詞集合來求出兩個(gè)引文之間的相似程度。假設(shè)引文d1和引文d2的關(guān)鍵詞集合分別是S(d1) 和S(d2),其中S(d1) = (t1,t2, ……,tm),S(d2) = (t1,t2, ……, tn),那么兩篇引文之間相似度計(jì)算公式如下:

        其中,引文d1的關(guān)鍵詞集合的個(gè)數(shù)m≥0 并且引文d2的關(guān)鍵詞集合的個(gè)數(shù)n ≥0。

        C.引文相似性測(cè)量模型

        因?yàn)橐牡闹攸c(diǎn)內(nèi)容分布在引文的不同部分,所以我們首先分別對(duì)這些部分進(jìn)行單獨(dú)的相似度計(jì)算,然后在這些相似度計(jì)算的基礎(chǔ)上得出引文相似性測(cè)量模型。

        引文相似性測(cè)量模型如下:

        其中,d1和 d2分別代表兩篇引文,sim(d1,d2)為兩引文之間的相似性。

        4.總結(jié)

        計(jì)算兩個(gè)引文之間的相似性有多種方法,因?yàn)镃SLN中的引文是許多對(duì)象的集合。單個(gè)對(duì)象的相似度計(jì)算顯然不能準(zhǔn)確的測(cè)量引文間的相似性。因此,有必要針對(duì)引文的不同部分使用不同的相似度計(jì)算方法。本文首先介紹了傳統(tǒng)相似度計(jì)算模型,然后在對(duì)引文各部分的特點(diǎn)進(jìn)行深入分析后,提出了引文相似性測(cè)量模型,該模型能夠提高引文相似性測(cè)量的準(zhǔn)確性。

        [1]H. Zhuge, Y. Sun, and J. Zhang, “Schema theory for semantic link network,” in Proc. Fourth Int. Conf. Semantics, Knowledge and Grid SKG ’08, 2008, pp. 189-196.

        [2]H. Zhuge, “Communities and emerging semantics in semantic link network: Discovery and learning,” IEEE Trans. Knowl. Data Eng.,vol. 21, no. 6, pp. 785-799, 2009.

        [3]侯海燕. 基于知識(shí)圖譜的科學(xué)計(jì)量學(xué)進(jìn)展研究[博士學(xué)位論文].大連:大連理工大學(xué),2006.

        猜你喜歡
        關(guān)鍵字詞條相似性
        一類上三角算子矩陣的相似性與酉相似性
        履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個(gè)關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
        淺析當(dāng)代中西方繪畫的相似性
        成功避開“關(guān)鍵字”
        2016年4月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
        2016年3月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
        低滲透黏土中氯離子彌散作用離心模擬相似性
        2016年9月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
        大數(shù)據(jù)相關(guān)詞條
        V4國(guó)家經(jīng)濟(jì)的相似性與差異性
        久久综合狠狠综合久久综合88| 日韩熟女一区二区三区| 亚洲一区二区三区在线激情| 日韩精品熟女中文字幕| 日韩精品久久久久久久电影蜜臀| 人妻av一区二区三区精品| 久久久99精品视频| 天堂一区二区三区精品| 热99re久久精品这里都是精品免费 | 久久免费大片| 人妻熟女中文字幕在线视频| 国产成人精品一区二三区孕妇| 日本午夜精品一区二区三区电影| 无码人妻精品一区二区三区66| 噜噜噜色97| 日本人妻系列中文字幕| 国产免费一区二区三区免费视频| 99久久精品国产一区二区蜜芽| 久久国产av在线观看| 国产在线观看午夜视频| 夫妇交换性三中文字幕| 99热成人精品热久久66| 日韩av一区在线播放| 三级国产精品久久久99| 精品少妇爆乳无码av无码专区| 久久久久中文字幕无码少妇| 成年女人午夜特黄特色毛片免 | 午夜国产小视频在线观看黄| 日韩女优av一区二区| a级大胆欧美人体大胆666| 狠狠干视频网站| 九九久久精品一区二区三区av| 精品av熟女一区二区偷窥海滩| 男人和女人高潮免费网站| 高潮社区51视频在线观看| 日本最新视频一区二区| 国产男小鲜肉同志免费| 日韩欧美第一页| 最新亚洲视频一区二区| 4455永久免费视频| 亚洲中文有码字幕青青|