亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種文本文檔相似性計(jì)算的方法

        2014-01-15 01:51:04黃淑芹
        關(guān)鍵詞:語義文本方法

        黃淑芹,徐 勇,常 郝

        (安徽財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,安徽 蚌埠 233030)

        0 引言

        隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)的飛速發(fā)展,數(shù)據(jù)資源在急速增加,其中很大一部分?jǐn)?shù)據(jù)屬于文本數(shù)據(jù),所以對(duì)文本數(shù)據(jù)的處理是信息處理領(lǐng)域的重要組成部分.其中,文本文檔的相似度計(jì)算又是文本處理技術(shù)中一項(xiàng)重要的基礎(chǔ)技術(shù),在自動(dòng)文摘、文本分類、知識(shí)挖掘、機(jī)器翻譯、自動(dòng)問答系統(tǒng)、文檔復(fù)制檢測(cè)及信息檢索等領(lǐng)域發(fā)揮著基礎(chǔ)性的作用[1].文本文檔相似度計(jì)算是否合理直接影響到文檔聚類、文檔分類、信息檢索、查詢處理、數(shù)據(jù)挖掘的性能效果.

        1 相關(guān)工作

        文本文檔相似度計(jì)算的重要性引起了很多學(xué)者對(duì)其研究.像張煥炯提出了基于漢明距離的文本相似性計(jì)算[2],該方法將歐式空間相似度計(jì)算中的大量乘法運(yùn)算轉(zhuǎn)換成模2加運(yùn)算,計(jì)算簡單方便,但建立文本與碼字之間的1-1關(guān)系卻要花費(fèi)大量工作.曹恬等將詞共現(xiàn)的概念引入到傳統(tǒng)VSM中,提出基于詞共現(xiàn)的文本相似度計(jì)算方法[3],該方法能表達(dá)一定的語義信息.但對(duì)于短文本,由于其信息量少,那么抽取的能代表主題的詞共現(xiàn)信息也少,所以該方法不適合短文本.基于屬性論的文本相似性計(jì)算能較全面地體現(xiàn)文本的內(nèi)容,所以在相似度計(jì)算上比較精確[4].上述這些方法都是基于向量空間提出的,把文檔轉(zhuǎn)化成某一向量,再結(jié)合相似度計(jì)算公式來計(jì)算相似度.但基于向量空間的方法要求特征元素之間不存在任何的語義關(guān)系,其實(shí)這是不現(xiàn)實(shí)的.另外,這類方法往往適合于大粒度的文檔,因?yàn)槲臋n如果過小,抽取的特征詞就少,不能很好地體現(xiàn)文檔主題.還有基于語義理解的相似度計(jì)算,像基于WordNet[5]、同義詞詞林[6]、知網(wǎng)語義結(jié)構(gòu)[7]進(jìn)行相似度計(jì)算.這類方法往往依賴于語義庫,計(jì)算效率不高,并且現(xiàn)在研究大都局限于詞語、句子和段落范圍.還有基于字符串匹配的相似度計(jì)算方法,這類方法的主流思想是基于編輯距離[8]的方法,即字符串A通過插入、刪除、替換變成另外一個(gè)字符串B所需的操作的次數(shù),用此來表示兩個(gè)字符串的差異.該方法的計(jì)算主要消耗在由A變成B所需的操作次數(shù)上.文獻(xiàn)[9]提出了基于編輯距離的相似度計(jì)算.

        由于字符串匹配方式簡單方便,不需要額外的語料庫數(shù)據(jù),所以被廣泛應(yīng)用在信息檢索、機(jī)器翻譯、計(jì)算生物學(xué)和信號(hào)處理等方面[10].本文也是基于字符串匹配的思想,不是通過編輯距離,而是對(duì)不同長度的公共序列賦予不同的權(quán)值,構(gòu)造相似度計(jì)算公式.

        2 文本文檔相似度的計(jì)算

        2.1 相關(guān)定義

        公共序列:設(shè)有序列A=(a1a2…am),B=(b1b2…bn),若A中(ai…aj)是B的子串,且(ai…ajaj+1)不是B的子串,則稱(ai…aj)是序列A和B的長度為(j-i+1)的公共序列.

        2.2 統(tǒng)計(jì)公共序列頻度的算法

        設(shè)有兩組文本A、B,用數(shù)組count[n](n=1,2,…,min,min=min(len(A),len(B))存放連續(xù)長度為n的公共序列數(shù).則統(tǒng)計(jì)A、B公共序列頻度count[n]的算法如下:

        (1)去掉文本中虛詞和重復(fù)詞;

        (2)初始化數(shù)組count[n]=0

        (3)start=1,n=1 //start為子序列的起始位置

        (4)while (n<= min)

        (5){ substr=substring(A,start,n)

        //從A的第start個(gè)字符開始取n個(gè)長度的子串

        (6)判斷substr在B中是否存在

        (7)if存在,則

        {count[n]++;

        If (n>1),則count[n-1]--;

        n=n+1 //連續(xù)長度n增1}

        else

        {If (n>1)

        {start=start+n-1;//起始位置回溯

        n=1;}

        else

        start++;//起始位置后移}}

        2.3 相似度計(jì)算公式

        由于同一個(gè)字與不同的其它字組成詞組表達(dá)不同的意思,并且詞組長度越長,一般表示的含義越完整.所以公共序列的長度越長,則認(rèn)為相似度越大,相應(yīng)的權(quán)值系數(shù)要大些.公共序列的的權(quán)值系數(shù)按照下面給出的公式計(jì)算:記max=max(len(A),len(B)),min=min(len(A),len(B)),則長度為n的公共序列的權(quán)重為

        3 相似度計(jì)算公式的合理性分析

        3.1 對(duì)稱性分析,即SIM(A,B)=SIM(B,A)

        由于我們事先進(jìn)行了重復(fù)詞處理,很明顯,如果A中的子串在B中存在,那么B中的該子串一定也在A中存在,所以必然SIM(A,B)=SIM(B,A).

        3.2 相似度取值范圍的證明即SIM(A,B)≤1

        首先根據(jù)前面公式的構(gòu)造過程,可以知道一定滿足:

        (1)

        且滿足

        (2)

        顯然,SIM(A,B)≥0,下面證明

        SIM(A,B)<1

        (1) 當(dāng)兩個(gè)文本序列完全不同時(shí),即沒有任何字符相同,可知,

        count[n]=0(n=1,…,min),則

        SIM(A,B)=0

        (2) 當(dāng)兩個(gè)文本序列完全相同時(shí),則count[max]=1,其余count[n]=0(n=1,…,max-1),此時(shí)Ωmax=1,則SIM(A,B)=1

        (3) 當(dāng)兩個(gè)文本序列有部分相同時(shí),

        根據(jù)(2)和(3)式可以得出

        命題得證.即我們構(gòu)造的相似度計(jì)算函數(shù)值介于[0,1]之間,是合理的.

        4 實(shí)驗(yàn)分析

        為了進(jìn)一步說明該算法的有效性,我們構(gòu)造了5組數(shù)據(jù).該算法已在WinXP操作系統(tǒng),1.95 G內(nèi)存,300 GB硬盤環(huán)境,用VC6.0編程實(shí)現(xiàn).

        4.1 實(shí)驗(yàn)數(shù)據(jù)比較

        為了說明實(shí)驗(yàn)效果,和單純通過統(tǒng)計(jì)相同字符個(gè)數(shù)來計(jì)算相似度的方法(表1中稱方法0)進(jìn)行比較.單純通過統(tǒng)計(jì)相同字符個(gè)數(shù)計(jì)算相似度公式:

        其中Same為文本序列d1,d2相同字符的個(gè)數(shù),nd1,nd2分別為文本序列d1、d2的字符個(gè)數(shù).實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)結(jié)果見表1.

        表1 實(shí)驗(yàn)結(jié)果數(shù)據(jù)

        為了使比較結(jié)果更直觀,我們通過直方圖來顯示效果(圖1).橫坐標(biāo)為數(shù)據(jù)組序號(hào),縱坐標(biāo)為相似度大小.

        圖1 實(shí)驗(yàn)結(jié)果柱形圖

        從表中數(shù)值可以看出,明顯地本文相似度的計(jì)算更符合實(shí)際,更加合理.像第五組數(shù)據(jù),不完全相同的兩組數(shù)據(jù),我們沒有理由說它們的相似度為1.

        4.2 實(shí)驗(yàn)數(shù)據(jù)分析

        從上面的實(shí)驗(yàn)數(shù)據(jù)可以看出,本文得出的數(shù)值是符合正常邏輯的,且保證了SIM(A,B)=SIM(B,A),是有效的.在公共序列頻度相同的情況下,連續(xù)公共序列長的文本要比連續(xù)公共序列短的文本間的相似度要大.比如“數(shù)據(jù)庫概論”與“數(shù)據(jù)庫原理”的連續(xù)公共序列長度要比“算法與設(shè)計(jì)”與“程序設(shè)計(jì)”間的連續(xù)公共序列長度要長,所以前一組的數(shù)據(jù)比后一組數(shù)據(jù)的相似度要大.

        5 結(jié)論

        文本相似性計(jì)算是一基礎(chǔ)而又重要的工作.本文提出的算法,適合所有的文本文檔.算法中考慮了序列順序,對(duì)于中文來講,順序很重要.所以從連續(xù)序列比對(duì)的角度進(jìn)行相似度計(jì)算,要比單純的計(jì)算相同字符個(gè)數(shù)更合理.算法中考慮了最大連續(xù)公共序列,并且序列長的賦予較大的權(quán)值系數(shù),也符合“一般詞語越長,表達(dá)的意思越完整”的邏輯.但由于漢語的復(fù)雜性,相似度計(jì)算精確度問題還需從語義上進(jìn)行考慮,所以如何把語義和該方法結(jié)合起來將是我們下一步研究的方向.

        [1]秦春秀,趙捧未,劉懷亮.詞語相似度計(jì)算研究[J].情報(bào)理論與實(shí)踐,2007,30(1):105~108.

        [2]張煥炯,王國勝,鐘義信.基于漢明距離的文本相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2001,(19):21~22.

        [3]曹 恬,周 麗,張國煊.一種基于詞共現(xiàn)的文本相似度計(jì)算[J].計(jì)算機(jī)工程與科學(xué),2007,29(3):52~53,73.

        [4]潘謙紅,王 炬,史忠植.基于屬性論的文本相似度計(jì)算[J].計(jì)算機(jī)學(xué)報(bào),1999,22(6):651~655.

        [5]E.Agirre,G.Rigau.A proposal for word sense disambiguation using conceptual distance[C].International Conference on Recent Advances in Natural Language Processing,1995,258~264.

        [6]車萬翔,劉 挺,秦 兵,等.面向雙語句對(duì)檢索的漢語句子相似度計(jì)算[C].全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議.北京:清華大學(xué)出版社,2003,520~526.

        [7]F.S.Hu,Y.Guo.An Improved Algorithm of Word Similarity Computation Based on HowNet.In:Proc of the 2th International Conference on Computer Science and Automation Engineering,2012,5:372~376.

        [8]V.L.Levenshtein.Binary codes capable of correcting deletions,insertions and reversals[J].Doklady Akademii Nauk SSSR,1966,163(4):707~710.

        [9]刁興春,譚明超,曹建軍.一種融合多種編輯距離的字符串相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(12):4523~4525.

        [10]孫德才,孫星明,張 偉,等.基于匹配區(qū)域特征的相似字符串匹配過濾算法[J].計(jì)算機(jī)研究與發(fā)展,2010,47(4):663~670.

        猜你喜歡
        語義文本方法
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對(duì)
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語義模糊
        亚洲国产色婷婷久久精品| 中文字幕一区日韩精品| 国产97在线 | 中文| 手机在线看永久av片免费| 百合av一区二区三区| 青青草免费在线视频导航| 国产一区三区二区视频在线观看| 亚洲成a∨人片在线观看无码| 女人扒开屁股爽桶30分钟| 中国大陆一级毛片| 国产av天堂亚洲国产av麻豆| 国产成人福利av一区二区三区| 日韩av一区二区无卡| 成人影院在线视频免费观看 | 大肉大捧一进一出视频出来呀| 999国产精品视频| 黄色三级国产在线观看| 成年人视频在线观看麻豆| 亚洲中文字幕无码爆乳app| 亚洲中文字幕久久无码精品| 国产精品美女久久久久久久久| 国产啪精品视频网给免丝袜| 我和丰满老女人性销魂| 亚洲一区二区三区中文字幕网| 国产成人精品一区二区三区视频 | 亚洲一区二区三区播放| 亚洲av无码一区二区三区系列| 911国产在线观看精品| 日韩中文字幕熟女人妻| 成年女人vr免费视频| 亚洲91av| 日韩欧美亚洲国产一区二区三区| 亚洲天堂av一区二区三区不卡| 日本真人做爰免费视频120秒 | 一本久道综合在线无码人妻| 国产成人久久综合热| 亚洲av永久无码精品水牛影视| 国产一区二区三区成人| 无码精品人妻一区二区三区av| 成人久久免费视频| 国产精品女同二区五区九区|