亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題詞語義分詞與距離的去重算法

        2014-09-02 02:42:55陳亞峰郭一帆王崢
        中國科技縱橫 2014年15期

        陳亞峰++郭一帆++王崢

        【摘 要】 對(duì)主題網(wǎng)頁去重技術(shù)進(jìn)行了綜述,結(jié)合已有算法的缺點(diǎn),提出了一種基于主題詞語義與距離的網(wǎng)頁去重算法。該方法通過對(duì)用戶輸入的關(guān)鍵詞進(jìn)行語義標(biāo)注后分詞檢索,計(jì)算分詞子集在網(wǎng)頁文本中的距離,來判斷網(wǎng)頁與主題的相關(guān)度以及網(wǎng)頁之間的相似度。同時(shí)避開了網(wǎng)頁文本向量空間維數(shù)大的不足,在一定程度上考慮到了網(wǎng)頁的語義信息。

        【關(guān)鍵詞】 網(wǎng)頁去重 語義分詞與距離 去重

        目前大多數(shù)搜索引擎采用基于關(guān)鍵詞的方法返回用戶所需信息,這些信息的冗余度通常很高,很多不相關(guān)的信息沒有進(jìn)行有效的組織。因此人們迫切地希望擁有一種方法,能夠自動(dòng)的將與特定主題相關(guān)的信息分類匯總后,供用戶查閱。主題搜索引擎的出現(xiàn)使得用戶能夠?qū)μ囟ㄖ黝}相關(guān)信息的進(jìn)行獲取,然而在信息采集過程中如何對(duì)搜索回來的頁面進(jìn)行分類,在下一次信息采集的過程中讓爬蟲主動(dòng)發(fā)現(xiàn)主題相關(guān)頁面,并去除相關(guān)頁面中的重復(fù)或近似重復(fù)的頁面成為搜索引擎的研究熱點(diǎn)之一。

        1 網(wǎng)頁去重技術(shù)綜述

        搜索引擎的工作原理主要分為三個(gè)部分:網(wǎng)頁抓取,網(wǎng)頁處理,提供檢索服務(wù)。網(wǎng)頁去重是搜索引擎預(yù)處理技術(shù)的關(guān)鍵部分,主要是由于web上存在大量的重復(fù)信息,有統(tǒng)計(jì)信息表明,網(wǎng)頁的重復(fù)率平均為4,即用戶通過一個(gè)URL在互聯(lián)網(wǎng)上看到一篇相似網(wǎng)頁的同時(shí),平均還有三個(gè)URL不同的網(wǎng)頁給出的內(nèi)容相同或近似相同。因此為了提高搜索引擎的工作效率,網(wǎng)頁去重在整個(gè)搜索引擎的工作中是必不可少的。

        國外對(duì)于網(wǎng)頁去重的研究最初主要是針對(duì)大型文件系統(tǒng)的近似鏡像文檔檢測(cè)算法上的研究,后來這些算法又被拓展應(yīng)用到數(shù)字化圖書館項(xiàng)目以及搜索引擎系統(tǒng)中。美國Arizona大學(xué)的研究人員對(duì)于大型文件系統(tǒng)中的相似文件采用了計(jì)算文檔的重疊程度的方法來進(jìn)行實(shí)現(xiàn)。國內(nèi),網(wǎng)頁去重重點(diǎn)還是對(duì)網(wǎng)頁去重的算法進(jìn)行研究。大連理工大學(xué)韓冰主要研究了大規(guī)模的網(wǎng)頁文本去重和科技論文抄襲檢測(cè)。江蘇大學(xué)呂霞提出了一種基于關(guān)鍵詞和特征碼的網(wǎng)頁去重K-CC算法,在分析國內(nèi)外目前比較通用的幾種去重技術(shù)的基礎(chǔ)上,提出了一種基于關(guān)鍵詞和特征碼的網(wǎng)頁去重K-CC算法。

        2 基于主題詞語義分詞與距離的網(wǎng)頁去重算法的背景

        傳統(tǒng)的特征碼實(shí)現(xiàn)的精確匹配完全可以與先進(jìn)的檢索系統(tǒng)聯(lián)系起來,其去重效率比較高,是一種去重的好方法。但是該方法的缺點(diǎn)是:

        (1)特征碼所實(shí)現(xiàn)的是精確匹配,并不能有效的檢測(cè)出轉(zhuǎn)載所造成的近似的重復(fù)網(wǎng)頁;(2)在沒有利用網(wǎng)頁文本結(jié)構(gòu)信息的前提下,極有可能會(huì)發(fā)生長(zhǎng)度不同甚至差別懸殊的文本被視為相同網(wǎng)頁的情況;(3)作為可以產(chǎn)生特征碼的標(biāo)志的句號(hào)有時(shí)也并不會(huì)在網(wǎng)頁文本中出現(xiàn),也有可能只出現(xiàn)在文章的末尾,或者出現(xiàn)在版權(quán)信息和超鏈接中,而所有這些都會(huì)導(dǎo)致特征碼產(chǎn)生重大錯(cuò)誤。

        由于目前大多數(shù)搜索引擎是通過關(guān)鍵詞匹配來完成用戶的檢索請(qǐng)求的,考慮到正文文本語義的復(fù)雜性我們對(duì)關(guān)鍵詞的語義進(jìn)行標(biāo)注,作為網(wǎng)頁檢索的主題詞,并且利用不同關(guān)鍵詞組合的語義及其之間的距離差因素作為評(píng)判標(biāo)準(zhǔn)。故提出了一種基于主題詞語義分詞與距離的網(wǎng)頁去重方法。

        3 基于主題詞語義分詞與距離的網(wǎng)頁去重算法的背景

        把主題詞(Ks)按詞組形式分成若干個(gè)詞組的模糊集合S,S中詞組的組合必須具有一定語義。然后在給定文本中記錄每個(gè)詞組wi在文本中的位置pi,j,pi,j組成Pi,然后比較所有Pi分量組成的向量的距離差,若距離差L不小于某個(gè)值Kd(模糊評(píng)判標(biāo)準(zhǔn)閥值),則與主題相關(guān),若小于Kd,則與主題無關(guān)。在不大于Kd中,若L在某個(gè)區(qū)間[a,b](此區(qū)間是認(rèn)定為重復(fù)置信區(qū)間),若在此區(qū)間,則認(rèn)定為重復(fù),否則認(rèn)定為不同類。具體模型和方法如下:

        (1)設(shè)主題詞為Ks

        (2)Ks分拆的模糊集合S為:

        S={w1,w2,…,wm}

        (3)wi在文本中出現(xiàn)位置的向量:Pi=(pi,1,pi,2,…,pi,k),1≤i≤m,ki∈N

        若:wi在文本中沒有出現(xiàn),則Pi=

        (4)語義位置向量V={vi︱vj=(pi,j1,p2,j2,…,pm,jm),1≤jj≤ki}

        注:若Pi=,則pi,ji不記入向量中。

        (5)計(jì)算V中每個(gè)向量分量差分集合D={di︱dj=△vj=(pi,j-pi-1,ji-1)}

        (6)根據(jù)D中的值來判斷主題是否相關(guān),包括不相關(guān)、相關(guān)(包括重復(fù)(強(qiáng)相關(guān))或不同類(弱相關(guān)))。

        4 相關(guān)性判別方法

        判別指標(biāo)用下式表示:

        r=∩pi

        若r=則不相關(guān),否則相關(guān)。也可以用向量空間V的維數(shù)r=Dim(V))來判別,若r

        重復(fù)性判別方法:在相關(guān)的情況下,判別主題內(nèi)容是否接近或相同。

        首先記:

        該式表明模糊集S中前m-1個(gè)詞的長(zhǎng)度總合。

        (1)若兩文本(S1,S2)內(nèi)容一樣,則兩個(gè)D1=D2應(yīng)相同。(2)若一個(gè)文本S1包含另一文本S2,則D1D2。

        注:這里的包含關(guān)系不是di∈D2,則d i∈D1,而是d i∈D2,要么di∈D1,要么di與D1中的某個(gè)dj相差的值小于主觀認(rèn)定的某個(gè)值Kd。把置信區(qū)間[a,b]置為[1,L],則Kd∈[1, L]可以認(rèn)為主題的語義相同,可以去重,否則認(rèn)為不同即不同類。一般取L=Kd,否則,視查詢文本復(fù)雜度主觀設(shè)定。

        通過下面例子對(duì)算法進(jìn)行具體的說明:用戶輸入關(guān)鍵詞“鄭州游覽區(qū)”,得到如下四段網(wǎng)頁文本,用模糊搜索集合S{}表示為:S{鄭州,黃河,游覽區(qū)}。對(duì)應(yīng)的標(biāo)記集合中的各元素為:鄭州—>w1,黃河—>w2,游覽區(qū)—>w3。

        文檔A:“黃河游覽區(qū)位于鄭州市北郊的黃河游覽區(qū)是20世紀(jì)70年代才在黃河之濱在荒山上開始建設(shè)的著名風(fēng)景游覽區(qū),到20世紀(jì)80年代中期,它已有了相當(dāng)?shù)囊?guī)模,不僅成為鄭州市最重要的游覽區(qū),而且成為馳名中外的華夏歷史文化紀(jì)念地。”例子中:

        P1={8,73}

        P2={1,13}

        P3={3,15,45,80}

        V={(8,1,3);(8,1,15);(8,1,45);(8,1,80);( 8,13,3);(8,13,15);

        (8,13,45);(8,13,80);(73,1,3);(73,1,15);(73,1,45);(73,1,80);

        (73,13,3);(73,13,15);(73,13,45);(73,13,80);}

        DA={9,21,51,86,15,7,37,73,74,86,116,151,70,62,92,127}

        文檔 B:“桃花峪黃河特大橋工程北起鄭焦晉高速公路,南接鄭州西南繞城高速公路,途經(jīng)焦作武陟縣、鄭州滎陽市,全長(zhǎng)28.64公里。其中,黃河特大橋長(zhǎng)7.69公里,北連接線長(zhǎng)8.92公里,南連接線長(zhǎng)12.02公里。主橋位于鄭州黃河風(fēng)景區(qū)西側(cè)桃花峪村附近,北望嘉應(yīng)觀、跨御壩,南臨漢霸二王城,跨黃河中下游分界線桃花峪,俯瞰黃河游覽區(qū)。大橋建成后將為沿黃風(fēng)景名勝旅游發(fā)展提供便利,成為桃花峪綜合旅游的基礎(chǔ)性工程和新的景觀線”。

        P1={23,42,89}

        P2={4,57,91,124,138}

        P3={140}

        文檔C:“本網(wǎng)獨(dú)家現(xiàn)場(chǎng)連線人民網(wǎng)河南視窗記者辛靜表示,北京時(shí)間15時(shí)48分,鄭州發(fā)生了日偏食現(xiàn)象,通過觀測(cè)眼鏡可以清晰看到太陽被吞噬掉一個(gè)小邊。記者所在的鄭州黃河游覽區(qū)觀測(cè)點(diǎn)聚集了上百名群眾,大家都得到了相關(guān)機(jī)構(gòu)免費(fèi)派發(fā)的專業(yè)觀測(cè)眼鏡,并且很專注的在欣賞著日偏食景觀,群眾們的心情都十分激動(dòng)”。

        P1={32,71}

        P2={73}

        P3={75}

        文檔D:“位于鄭州市北郊的黃河游覽區(qū)是20世紀(jì)70年代才在黃河之濱在荒山上開始建設(shè)的著名風(fēng)景游覽區(qū),到20世紀(jì)80年代中期,它已有了相當(dāng)?shù)囊?guī)模,成為鄭州市最重要的游覽區(qū)。”

        P1={3}

        P2={9}

        P3={11,40,73}

        在上面的例子中分別得到了文檔A、B、C、D中模糊集合S中出現(xiàn)元素的位置集合和語義位置向量集合V的值。由公式計(jì)算得到向量分量差分集合:

        D1={9,21,51,86,15,7,37,73,74,86,116,151,70,62,92,127}

        D2=(155,115,117,107,117,174,98,98,98,98,221,115,51,51)

        D3={43,4}

        D4={8,37,70}

        置信區(qū)間為[1,4]。

        分析D4,D4中37,70在D1中出現(xiàn),8與D1中的7、9差1,在置信區(qū)間內(nèi),可以去重,而D4中任何元素與D2中元素差都不在置信區(qū)間內(nèi),可以認(rèn)為不同類;D4維數(shù)與D3維數(shù)不同可以認(rèn)為不同類,也可看出元素差不在置信區(qū)間內(nèi),認(rèn)為不同類。

        依次類推,D1,D2,D3,屬于不同類。

        5 結(jié)語

        提出的一種基于主題詞語義與距離的網(wǎng)頁去重算法,通過對(duì)用戶輸入的關(guān)鍵詞進(jìn)行語義標(biāo)注后分詞檢索,計(jì)算分詞子集在網(wǎng)頁文本中的距離,來判斷網(wǎng)頁與主題的相關(guān)度以及網(wǎng)頁之間的相似度。該方法避開了網(wǎng)頁文本向量空間維數(shù)大的不足,并在一定程度上充分考慮到了網(wǎng)頁的語義信息。

        參考文獻(xiàn):

        [1]樊小超.基于機(jī)器學(xué)習(xí)的中文文本主題分類及情感分類研究[D].南京:南京理工大學(xué),2014.

        [2]何佳.基于社會(huì)化標(biāo)注的網(wǎng)頁搜索算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2014(06).endprint

        P1={8,73}

        P2={1,13}

        P3={3,15,45,80}

        V={(8,1,3);(8,1,15);(8,1,45);(8,1,80);( 8,13,3);(8,13,15);

        (8,13,45);(8,13,80);(73,1,3);(73,1,15);(73,1,45);(73,1,80);

        (73,13,3);(73,13,15);(73,13,45);(73,13,80);}

        DA={9,21,51,86,15,7,37,73,74,86,116,151,70,62,92,127}

        文檔 B:“桃花峪黃河特大橋工程北起鄭焦晉高速公路,南接鄭州西南繞城高速公路,途經(jīng)焦作武陟縣、鄭州滎陽市,全長(zhǎng)28.64公里。其中,黃河特大橋長(zhǎng)7.69公里,北連接線長(zhǎng)8.92公里,南連接線長(zhǎng)12.02公里。主橋位于鄭州黃河風(fēng)景區(qū)西側(cè)桃花峪村附近,北望嘉應(yīng)觀、跨御壩,南臨漢霸二王城,跨黃河中下游分界線桃花峪,俯瞰黃河游覽區(qū)。大橋建成后將為沿黃風(fēng)景名勝旅游發(fā)展提供便利,成為桃花峪綜合旅游的基礎(chǔ)性工程和新的景觀線”。

        P1={23,42,89}

        P2={4,57,91,124,138}

        P3={140}

        文檔C:“本網(wǎng)獨(dú)家現(xiàn)場(chǎng)連線人民網(wǎng)河南視窗記者辛靜表示,北京時(shí)間15時(shí)48分,鄭州發(fā)生了日偏食現(xiàn)象,通過觀測(cè)眼鏡可以清晰看到太陽被吞噬掉一個(gè)小邊。記者所在的鄭州黃河游覽區(qū)觀測(cè)點(diǎn)聚集了上百名群眾,大家都得到了相關(guān)機(jī)構(gòu)免費(fèi)派發(fā)的專業(yè)觀測(cè)眼鏡,并且很專注的在欣賞著日偏食景觀,群眾們的心情都十分激動(dòng)”。

        P1={32,71}

        P2={73}

        P3={75}

        文檔D:“位于鄭州市北郊的黃河游覽區(qū)是20世紀(jì)70年代才在黃河之濱在荒山上開始建設(shè)的著名風(fēng)景游覽區(qū),到20世紀(jì)80年代中期,它已有了相當(dāng)?shù)囊?guī)模,成為鄭州市最重要的游覽區(qū)?!?/p>

        P1={3}

        P2={9}

        P3={11,40,73}

        在上面的例子中分別得到了文檔A、B、C、D中模糊集合S中出現(xiàn)元素的位置集合和語義位置向量集合V的值。由公式計(jì)算得到向量分量差分集合:

        D1={9,21,51,86,15,7,37,73,74,86,116,151,70,62,92,127}

        D2=(155,115,117,107,117,174,98,98,98,98,221,115,51,51)

        D3={43,4}

        D4={8,37,70}

        置信區(qū)間為[1,4]。

        分析D4,D4中37,70在D1中出現(xiàn),8與D1中的7、9差1,在置信區(qū)間內(nèi),可以去重,而D4中任何元素與D2中元素差都不在置信區(qū)間內(nèi),可以認(rèn)為不同類;D4維數(shù)與D3維數(shù)不同可以認(rèn)為不同類,也可看出元素差不在置信區(qū)間內(nèi),認(rèn)為不同類。

        依次類推,D1,D2,D3,屬于不同類。

        5 結(jié)語

        提出的一種基于主題詞語義與距離的網(wǎng)頁去重算法,通過對(duì)用戶輸入的關(guān)鍵詞進(jìn)行語義標(biāo)注后分詞檢索,計(jì)算分詞子集在網(wǎng)頁文本中的距離,來判斷網(wǎng)頁與主題的相關(guān)度以及網(wǎng)頁之間的相似度。該方法避開了網(wǎng)頁文本向量空間維數(shù)大的不足,并在一定程度上充分考慮到了網(wǎng)頁的語義信息。

        參考文獻(xiàn):

        [1]樊小超.基于機(jī)器學(xué)習(xí)的中文文本主題分類及情感分類研究[D].南京:南京理工大學(xué),2014.

        [2]何佳.基于社會(huì)化標(biāo)注的網(wǎng)頁搜索算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2014(06).endprint

        P1={8,73}

        P2={1,13}

        P3={3,15,45,80}

        V={(8,1,3);(8,1,15);(8,1,45);(8,1,80);( 8,13,3);(8,13,15);

        (8,13,45);(8,13,80);(73,1,3);(73,1,15);(73,1,45);(73,1,80);

        (73,13,3);(73,13,15);(73,13,45);(73,13,80);}

        DA={9,21,51,86,15,7,37,73,74,86,116,151,70,62,92,127}

        文檔 B:“桃花峪黃河特大橋工程北起鄭焦晉高速公路,南接鄭州西南繞城高速公路,途經(jīng)焦作武陟縣、鄭州滎陽市,全長(zhǎng)28.64公里。其中,黃河特大橋長(zhǎng)7.69公里,北連接線長(zhǎng)8.92公里,南連接線長(zhǎng)12.02公里。主橋位于鄭州黃河風(fēng)景區(qū)西側(cè)桃花峪村附近,北望嘉應(yīng)觀、跨御壩,南臨漢霸二王城,跨黃河中下游分界線桃花峪,俯瞰黃河游覽區(qū)。大橋建成后將為沿黃風(fēng)景名勝旅游發(fā)展提供便利,成為桃花峪綜合旅游的基礎(chǔ)性工程和新的景觀線”。

        P1={23,42,89}

        P2={4,57,91,124,138}

        P3={140}

        文檔C:“本網(wǎng)獨(dú)家現(xiàn)場(chǎng)連線人民網(wǎng)河南視窗記者辛靜表示,北京時(shí)間15時(shí)48分,鄭州發(fā)生了日偏食現(xiàn)象,通過觀測(cè)眼鏡可以清晰看到太陽被吞噬掉一個(gè)小邊。記者所在的鄭州黃河游覽區(qū)觀測(cè)點(diǎn)聚集了上百名群眾,大家都得到了相關(guān)機(jī)構(gòu)免費(fèi)派發(fā)的專業(yè)觀測(cè)眼鏡,并且很專注的在欣賞著日偏食景觀,群眾們的心情都十分激動(dòng)”。

        P1={32,71}

        P2={73}

        P3={75}

        文檔D:“位于鄭州市北郊的黃河游覽區(qū)是20世紀(jì)70年代才在黃河之濱在荒山上開始建設(shè)的著名風(fēng)景游覽區(qū),到20世紀(jì)80年代中期,它已有了相當(dāng)?shù)囊?guī)模,成為鄭州市最重要的游覽區(qū)?!?/p>

        P1={3}

        P2={9}

        P3={11,40,73}

        在上面的例子中分別得到了文檔A、B、C、D中模糊集合S中出現(xiàn)元素的位置集合和語義位置向量集合V的值。由公式計(jì)算得到向量分量差分集合:

        D1={9,21,51,86,15,7,37,73,74,86,116,151,70,62,92,127}

        D2=(155,115,117,107,117,174,98,98,98,98,221,115,51,51)

        D3={43,4}

        D4={8,37,70}

        置信區(qū)間為[1,4]。

        分析D4,D4中37,70在D1中出現(xiàn),8與D1中的7、9差1,在置信區(qū)間內(nèi),可以去重,而D4中任何元素與D2中元素差都不在置信區(qū)間內(nèi),可以認(rèn)為不同類;D4維數(shù)與D3維數(shù)不同可以認(rèn)為不同類,也可看出元素差不在置信區(qū)間內(nèi),認(rèn)為不同類。

        依次類推,D1,D2,D3,屬于不同類。

        5 結(jié)語

        提出的一種基于主題詞語義與距離的網(wǎng)頁去重算法,通過對(duì)用戶輸入的關(guān)鍵詞進(jìn)行語義標(biāo)注后分詞檢索,計(jì)算分詞子集在網(wǎng)頁文本中的距離,來判斷網(wǎng)頁與主題的相關(guān)度以及網(wǎng)頁之間的相似度。該方法避開了網(wǎng)頁文本向量空間維數(shù)大的不足,并在一定程度上充分考慮到了網(wǎng)頁的語義信息。

        參考文獻(xiàn):

        [1]樊小超.基于機(jī)器學(xué)習(xí)的中文文本主題分類及情感分類研究[D].南京:南京理工大學(xué),2014.

        [2]何佳.基于社會(huì)化標(biāo)注的網(wǎng)頁搜索算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2014(06).endprint

        在线不卡av天堂| 亚洲精品无码永久中文字幕| 国精品人妻无码一区二区三区性色| 久久精品人人做人人爽| 久久婷婷色香五月综合缴缴情| 性欧美牲交xxxxx视频欧美| 伊人色网站| 亚洲中文字幕在线第二页| 日本视频一中文有码中文| 在线看片免费人成视频电影 | 黑人巨大亚洲一区二区久| 一区二区三区中文字幕在线播放 | 丁香花在线影院观看在线播放| 伊香蕉大综综综合久久| 亚洲AⅤ樱花无码| 亚洲中文乱码在线观看| 亚州终合人妖一区二区三区| 最新中文字幕av无码不卡| 久久久久无码精品亚洲日韩| 最新永久免费AV网站| 国产三级黄色免费网站| 蜜桃久久精品成人无码av| 久久综合五月天| 国产午夜在线观看视频| 十八禁视频在线观看免费无码无遮挡骂过 | 中文字幕乱码亚洲无线精品一区 | 亚洲AV无码久久精品国产老人| 素人系列免费在线观看| 亚洲一区二区三区高清在线观看 | 日韩AV无码一区二区三| 日产精品毛片av一区二区三区| 国产三级a三级三级| 亚洲经典三级| 美女被射视频在线观看91| 国产一品二品精品在线| 少妇久久久久久被弄到高潮| 玖玖资源站无码专区| 日本一区二区在线播放观看| 校园春色综合久久精品中文字幕| 午夜无码国产理论在线| 日韩av一区二区毛片|