亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于整體相似度的文檔主題匹配研究

        2018-03-19 12:02:46魏小銳
        關(guān)鍵詞:文本

        ◆魏小銳

        ?

        基于整體相似度的文檔主題匹配研究

        ◆魏小銳

        (東莞理工學(xué)院計(jì)算機(jī)與網(wǎng)絡(luò)安全學(xué)院廣東 523808)

        基于內(nèi)容的網(wǎng)絡(luò)信息過濾需要?jiǎng)討B(tài)地比較網(wǎng)頁與用戶模板。傳統(tǒng)文檔主題匹配算法主要以兩兩文檔間的相似度為基礎(chǔ)來計(jì)算,這在高維的文檔向量空間并不總是合適。超團(tuán)模式是一種附加了整體相似度約束的頻繁項(xiàng)集,其內(nèi)部文檔更有可能屬于同一類別。利用超團(tuán)模式這種特性,提出了基于整體相似度的文檔主題匹配方法,只利用同一個(gè)超團(tuán)內(nèi)部的文檔來預(yù)測類別。該方法通過在現(xiàn)實(shí)世界數(shù)據(jù)集上與K-最近鄰算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果證實(shí)了超團(tuán)算法應(yīng)用于文檔主題匹配的優(yōu)越性。

        文本挖掘;文檔匹配;整體相似度;超團(tuán)模式

        0 引言

        隨著因特網(wǎng)迅速發(fā)展,互聯(lián)網(wǎng)已成為一個(gè)巨大的信息空間,為用戶提供了極具價(jià)值的信息資源。但是由于互聯(lián)網(wǎng)的開放性,人們發(fā)布、傳播和接收信息幾乎不受任何的控制, 人們對(duì)網(wǎng)絡(luò)資源的非正當(dāng)使用也逐漸成為社會(huì)正常生產(chǎn)與生活的威脅。因此,信息過濾技術(shù)越來越多地應(yīng)用在網(wǎng)絡(luò)上。比如,通過信息過濾技術(shù),家長可以防止自己不在家時(shí)孩子訪問不健康的網(wǎng)頁,教師可以防止學(xué)生在實(shí)驗(yàn)課上瀏覽與課堂內(nèi)容不相關(guān)的網(wǎng)頁,公司可以防止員工上班時(shí)間瀏覽與工作不相關(guān)的內(nèi)容。

        由于網(wǎng)絡(luò)的動(dòng)態(tài)性,基于內(nèi)容過濾是當(dāng)前網(wǎng)絡(luò)信息過濾系統(tǒng)主要采用的一種方法[1,2]。針對(duì)禁止用戶訪問的主題,選取一些代表性的種子文檔作為用戶模板。把用戶瀏覽的文檔作為測試文檔,我們需要從測試文檔中找出有可能與種子文檔屬于同一主題的文檔。這種檢索要求結(jié)果同時(shí)具有理想的召回率與準(zhǔn)確率。較低的召回率意味著漏掉許多本該禁止訪問的文檔,而準(zhǔn)確率過低則意味著許多正常的文檔也被禁止了。可見,基于內(nèi)容過濾的關(guān)鍵在于從測試文檔集中找出與種子文檔主題匹配的文檔。

        本文在傳統(tǒng)的信息檢索基礎(chǔ)上提出將超團(tuán)模式應(yīng)用于文檔主題匹配,研究如何用關(guān)聯(lián)模式來評(píng)估文檔間的相似度。通過在給定的文本集中挖掘最大文檔超團(tuán)并計(jì)算相關(guān)文檔的整體相似度,從而找出那些與用戶模板里的種子文檔最相關(guān)的測試文檔,并以此為依據(jù)對(duì)用戶所瀏覽的網(wǎng)絡(luò)信息進(jìn)行有效的監(jiān)控和過濾。

        本文接下來組織如下:第1節(jié)介紹文檔模型與文檔檢索的相關(guān)技術(shù),第2節(jié)介紹超團(tuán)模式以及相應(yīng)的文檔主題匹配算法,第3節(jié)報(bào)告實(shí)驗(yàn)結(jié)果,第4節(jié)是小結(jié)。

        1 相關(guān)技術(shù)

        1.1文檔向量模型

        文檔向量空間模型是一個(gè)常應(yīng)用于信息過濾、擷取、索引以及評(píng)估相關(guān)性的代數(shù)模型[3,4]。在該模型中,用D(Document)表示文本,其中文本是泛指各種機(jī)器可讀的記錄。

        特征項(xiàng)(Term,用t表示)是指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語言單位,文本可以用特征項(xiàng)集表示為D(T1,T2,…,Tk, …,Tn),其中Tk是特征項(xiàng),1<=k<=n。對(duì)含有n個(gè)特征項(xiàng)的文本而言,通常會(huì)給每個(gè)特征項(xiàng)賦予一定的權(quán)重表示其重要程度。即D=D(T1,W1;T2,W2;…,Tn,Wn),簡記為D=D (W1,W2,…,Wn),我們把它叫做文本D的向量表示,其中Wk是Tk的權(quán)重(1≤ k ≤n )。

        1.2文檔相似度計(jì)算

        兩個(gè)對(duì)象之間的相似度是這兩個(gè)對(duì)象相似程度的數(shù)值度量。當(dāng)文檔用向量來表示時(shí),那么向量的每個(gè)屬性代表一個(gè)特定詞條在文檔中出現(xiàn)的頻率。通常一個(gè)文檔集中擁有數(shù)以萬計(jì)的詞條。但是,具體到某一篇文檔時(shí),由于它具有相對(duì)較少的單詞,所以其向量都很稀疏。這就要求文檔的相似性度量必須能夠處理稀疏向量[5,6]。

        計(jì)算文檔相似度的方法有很多,其中比較有代表性的是余弦計(jì)算法(cosine measure)[7]。在向量空間模型中,兩個(gè)文本D1和D2之間的內(nèi)容相關(guān)度Sim(D1,D2)可以用向量之間夾角的余弦值表示,公式為:

        其中,W1k、W2k分別表示文本D1和D2第k個(gè)特征項(xiàng)的權(quán)值(1≤ k ≤n ) 。

        1.3 基于K-最近鄰的k文檔匹配

        K-最近鄰(KNN, K nearest neighbors)分類算法常用于文檔類別匹配[8,9]。該算法的主要思想是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。

        該方法在定類決策上只依據(jù)最鄰近幾個(gè)樣本與待分樣本之間的兩兩相似度來預(yù)測類別。其前提是:

        (1)兩個(gè)樣本之間相似度越大,它們?cè)接锌赡軐儆谕活悇e;

        (2)所選擇的近鄰都是已經(jīng)提前正確分類的對(duì)象。

        對(duì)于文檔這種高維數(shù)據(jù),該算法計(jì)算量非常大,而且前面的前提(1)經(jīng)常并不成立[10]。當(dāng)樣本所屬類別不平衡時(shí),如一個(gè)類的樣本容量很大,而其他類樣本容量比較小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的k個(gè)鄰居中大容量類的樣本永遠(yuǎn)占多數(shù)。

        2 基于整體相似度的文檔匹配

        2.1超團(tuán)模式

        本算法提出了基于超團(tuán)的整體相似度概念,在大量的測試文檔集中,利用整體相似度檢索出最接近于種子文檔集主題的文檔。接下來介紹“超團(tuán)”(hyperclique)。

        超團(tuán)是在頻繁項(xiàng)集(frequent item set)的基礎(chǔ)上提出的一個(gè)較新的概念,是一種特殊的頻繁項(xiàng)集[11]。下面是H置信度的相關(guān)定義:

        定義1 關(guān)聯(lián)規(guī)則的H置信度

        對(duì)于頻繁項(xiàng)集X={i1,i2,i3,…,ik},h置信度(h-confidence)的公式如下:

        其中,s({ik})表示項(xiàng)集{ik}的支持度。

        給定一個(gè)用戶自定義的支持度和h置信度閾值HC,我們把大于等于這些閥值的項(xiàng)集稱作超團(tuán)。超團(tuán)模式是一種強(qiáng)關(guān)聯(lián)模式,它的特點(diǎn)是當(dāng)超團(tuán)內(nèi)的某個(gè)項(xiàng)目在事務(wù)中出現(xiàn)時(shí),該超團(tuán)的其他全部項(xiàng)在這個(gè)事務(wù)出現(xiàn)的概率不低于h置信度。如果用0-1矩陣表示事務(wù)集數(shù)據(jù),用0-1列向量來表示每個(gè)項(xiàng),那么超團(tuán)內(nèi)部任意兩項(xiàng)的余弦相似度可以由以下公式計(jì)算:

        由以上兩個(gè)公式可知超團(tuán)內(nèi)部任意兩項(xiàng)的cosine相似度不低于超團(tuán)的h置信度閥值HC。

        2.2整體相似度

        傳統(tǒng)文檔主題類別匹配主要根據(jù)所有文檔間的兩兩相似度來計(jì)算。本文提出利用超團(tuán)模式強(qiáng)關(guān)聯(lián)的性質(zhì)來計(jì)算多文檔之間的整體相似度,用于文檔類別匹配。具體地,相似度的計(jì)算只局限于文檔超團(tuán)內(nèi)部的文檔。將超團(tuán)內(nèi)的文檔分為種子文檔子集和測試文檔子集,然后為測試文檔子集中的每個(gè)文檔計(jì)算其與種子文檔子集所有文檔的相似度并取最大值,所得值即為該測試文檔與整個(gè)種子集的整體相似度值。

        下面舉例說明整體相似度與兩兩相似度的區(qū)別。假設(shè)種子文檔集O={O1,O2,O3,O4},測試文檔集D={D1,D2,D3,D4},其中測試文檔集中只有D4與種子集不屬同一類別,兩個(gè)文檔集合之間文檔的兩兩相似度如表1所示。

        表1 文檔兩兩相似度矩陣

        根據(jù)相似度從高到低排列,測試集中的文檔排列為D2、D3、D4和D1。若采用K-最近鄰算法,當(dāng)選取出相似度最高的3個(gè)測試文檔時(shí),D4被視為與種子集屬于同一類別,但實(shí)際上它與種子集不屬同一類別。

        當(dāng)運(yùn)用超團(tuán)模式,通過設(shè)置一定的參數(shù)閥值挖掘得出的文檔超團(tuán)為{ D1,D4,O1,O3}和{ D2,D3,O2,O4},那么文檔之間所需計(jì)算的相似度如表2所示。

        表2 文檔超團(tuán)相似度矩陣

        如表2所示,D1只需計(jì)算跟O1和O3的相似度,并取他們的最大值0.51作為測試文檔D1與種子集的整體相似度。根據(jù)相似度從高到低排列原則,測試集中的文檔排列為D3、D2、D1和D4。當(dāng)選取出相似度最高的3個(gè)測試文檔時(shí),所得文檔均與種子集同屬一個(gè)類別。在表2中,盡管D1與種子集的相似度為0.51,該值小于表1中D4與種子集的相似度0.73,但D1卻與種子集同屬一個(gè)類別。這就說明了在某些情況下通過計(jì)算多個(gè)文檔間的整體相似度對(duì)于文檔類別預(yù)測,要優(yōu)于計(jì)算文檔兩兩間的相似度。

        2.3算法描述

        圖1是將超團(tuán)運(yùn)用到文檔類別匹配中的一個(gè)高層描述。輸入包括:測試文檔集D、用戶模板存儲(chǔ)的種子集O、超團(tuán)的參數(shù)最小支持度閥值、最小H置信度閥值,以及用戶期待的輸出文檔數(shù)量K。輸出為從測試文檔集D選出的最有可能與種子集O屬于同一類別的K篇測試文檔。

        圖1 基于超團(tuán)的文檔類別匹配算法描述

        在該算法中,步驟1-2首先將測試集與種子集兩兩文檔之間的相似度初始化為零;接著根據(jù)測試集、種子集以及用戶輸入條件(包括最小支持度閥值、最小H置信度閥值)挖掘出最大超團(tuán)集。步驟3-11對(duì)最大超團(tuán)集中的所有集合進(jìn)行遍歷,把每個(gè)集合劃分為測試集和種子集,若其中一個(gè)子集為空則對(duì)下一個(gè)最大超團(tuán)進(jìn)行劃分,否則計(jì)算出劃分后測試集中所有文檔與劃分后種子集的相似度。在遍歷完最大超團(tuán)集中所有最大超團(tuán)后,步驟12根據(jù)文檔相似度從大到小的原則排列測試集中所有文檔,根據(jù)用戶選擇輸出的文檔數(shù)量輸出前K篇文檔,而這K篇文檔就被視為最有可能與種子集O屬于同一類別。

        3 實(shí)驗(yàn)評(píng)估

        3.1實(shí)驗(yàn)設(shè)計(jì)

        為了比較基于超團(tuán)的算法和K-最近鄰算法對(duì)于文檔類別匹配的效果,在實(shí)驗(yàn)過程中我們采用了各種主題的文檔集。文檔集來源于中文文本分類語料庫 。語料庫包括財(cái)經(jīng)、電腦、房產(chǎn)、教育、科技、汽車、人才、體育、衛(wèi)生和娛樂十個(gè)主題的文檔集。按照類別大小比例,把語料庫隨機(jī)地劃分為種子集與測試集。每次在種子集選取一個(gè)主題的文檔作為當(dāng)前種子集(用戶模板),計(jì)算測試集中文檔與它匹配的情況。

        具體地,令D表示測試文檔中屬于當(dāng)前主題的文檔集,P表示結(jié)果文檔集(總共K 篇),可以分別計(jì)算輸出結(jié)果的召回率(rec)、準(zhǔn)確率(pre)和F1值如下:

        3.2實(shí)驗(yàn)結(jié)果

        限于篇幅,下面只給出部分結(jié)果。當(dāng)在種子集中選取“衛(wèi)生”主題進(jìn)行文檔類別匹配,超團(tuán)算法中支持度及H-置信度值分別取0.001及0.002時(shí)實(shí)驗(yàn)的比較結(jié)果如圖2所示:

        當(dāng)在種子集中選取“人才”主題進(jìn)行文檔類別匹配,超團(tuán)算法中支持度及H-置信度值分別取0.001及0.002時(shí)實(shí)驗(yàn)的比較結(jié)果如圖3所示:

        在圖2和圖3中我們可以看到兩種算法隨著K的取值的不斷變化,召回率、準(zhǔn)確率和F1值都有所變化,但總體的趨勢是運(yùn)用超團(tuán)的算法的各個(gè)評(píng)測指標(biāo)比KNN算法的要高。

        在實(shí)驗(yàn)過程中,我們分別選取種子集中的十個(gè)主題的文檔集進(jìn)行檢測,發(fā)現(xiàn)在絕大多數(shù)情況下,采用超團(tuán)算法的檢測結(jié)果的各項(xiàng)評(píng)價(jià)指標(biāo)整體上都優(yōu)于采用KNN算法的檢測結(jié)果。這也在一定程度上證實(shí)了將超團(tuán)應(yīng)用于文檔類別匹配總體性能上要優(yōu)于采用K-最近鄰算法。

        4 總結(jié)

        本文重點(diǎn)研究了如何用關(guān)聯(lián)模式評(píng)估文檔間的相似度,匹配文檔主題?;诔瑘F(tuán)模式的概念,提出利用整體相似度來找出那些與用戶模板主題最相關(guān)的測試文檔。大量的實(shí)驗(yàn)結(jié)果也證實(shí)了基于超團(tuán)的文檔主題匹配在準(zhǔn)確性上要優(yōu)于傳統(tǒng)基于兩兩相似度的KNN算法。雖然初步達(dá)到了預(yù)期的目標(biāo),但在超團(tuán)模式參數(shù)選取等方面有待進(jìn)一步完善。另外,如何自動(dòng)學(xué)習(xí)具有代表性的種子集,以及如何解釋并展示檢測出的結(jié)果文檔,這些都是值得進(jìn)一步研究的方向。

        [1]劉宗仁.網(wǎng)上內(nèi)容過濾技術(shù)的現(xiàn)狀及面臨的問題[J].現(xiàn)代情報(bào),2005.

        [2]白寧.基于特征選擇融合的垃圾郵件過濾方法[J].計(jì)算機(jī)應(yīng)用與軟件,2014.

        [3]Baeza-Yates, R, Ribeiro-Neto, B. Modern Information Retrieval. Addison-Wesley, 1999.

        [4]潘俊輝,王輝.一種基于模糊VSM和神經(jīng)網(wǎng)絡(luò)的文本分類方法[J].科學(xué)技術(shù)與工程,2011.

        [5]張翔,周明全,董麗麗,閆清波.結(jié)合粗糙集與集成學(xué)習(xí)的中文文本分類方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011.

        [6]郭頌,馬飛.文本分類中信息增益特征選擇算法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2013.

        [7]France, S. L., Carroll, J. D., Xiong, H.. Distance metrics for high dimensional nearest neighborhood recovery: Compression and normalization[J]. Information Sciences,2012.

        [8]楊夢雄, 楊貫中.基于K-最近鄰算法的話務(wù)智能預(yù)測技術(shù)[J].科學(xué)技術(shù)與工程, 2007.

        [9]羅辛, 歐陽元新,熊璋等.通過相似度支持度優(yōu)化基于K 近鄰的協(xié)同過濾算法[J].計(jì)算機(jī)學(xué)報(bào),2010.

        [10]Vadapalli, S, Valluri, S. R., Karlapalem, K. A simple yet effective data clustering algorithm[J]. Proceedings of the 6th IEEE International Conference on Data Mining,2006.

        [11]Xiong, H., Tan, P.-N., Kumar, V. Hyperclique pattern discovery[J]. Data Mining and Knowledge Discovery,2006.

        本文受廣東省東莞市科技計(jì)劃項(xiàng)目(批準(zhǔn)號(hào):東科[2015]16-2014106101003)資助。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點(diǎn):論述類文本閱讀
        重點(diǎn):實(shí)用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對(duì)具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        国产精品白浆一区二区免费看 | 精品含羞草免费视频观看| 国产黄色三级一区二区三区四区| 欲求不満の人妻松下纱荣子| 思思久久96热在精品国产| 大陆国产乱人伦| 免费看男女啪啪的视频网站 | 国产又猛又黄又爽| 每天更新的免费av片在线观看| 91精品国产91热久久p| 国产福利不卡视频在线| 日日日日做夜夜夜夜做无码| 亚洲熟妇丰满大屁股熟妇| 欧美手机在线视频| 粉嫩的极品女神尤物在线| 亚洲乱码中文在线观看| 狠狠色噜噜狠狠狠狠米奇777| 日本午夜国产精彩| 亚洲精品在线一区二区三区| 亚洲一区精品无码| 国产精品亚洲二区在线观看| 自拍欧美日韩| 性一交一乱一乱一视频亚洲熟妇| 久久综合精品人妻一区二区三区| 色老板精品视频在线观看| 国产AV国片精品有毛| 日本熟妇精品一区二区三区| 亚洲一区在线二区三区| 高h小月被几个老头调教| 伊人久久大香线蕉亚洲五月天| 亚洲最大在线精品| 国产一级自拍av播放| 亚洲天堂av在线网站| 成人网站免费看黄a站视频| 品色堂永远的免费论坛| 国产一区二区亚洲av| 中文字幕亚洲熟女av| a级毛片100部免费看| 另类专区欧美在线亚洲免费| 精品黄色一区二区三区| 高潮毛片无遮挡高清视频播放 |