亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)頁網(wǎng)站相似度判別方法研究

        2014-04-29 00:00:00張玥琪陳志鵬馮浩
        西江月·上旬 2014年3期

        【摘 要】當(dāng)今時(shí)代是一個(gè)以信息技術(shù)為代表的知識(shí)經(jīng)濟(jì)時(shí)代,各種先進(jìn)的科學(xué)技術(shù)迅猛發(fā)展,給人們的生活帶來了深遠(yuǎn)的影響,它極大的改變了我們的生活方式。以計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)為代表的信息科技改變著我們的生活。在這個(gè)信息高速傳播的時(shí)代,互聯(lián)網(wǎng)已經(jīng)成為用戶瀏覽信息,搜索信息的主要來源,然而搜索引擎再采集網(wǎng)頁時(shí)會(huì)出現(xiàn)許多相同或者近似的網(wǎng)頁,這樣不僅降低了用戶在檢索中的效率,同事也增加哦了存儲(chǔ)空間,并且減少了用戶的體驗(yàn)。我們就這個(gè)問題進(jìn)行了討論。

        【關(guān)鍵詞】相似度;搜索引擎;算法

        一、引言

        現(xiàn)代搜索引擎中的爬行程序在巨大的網(wǎng)絡(luò)中采集網(wǎng)頁時(shí)會(huì)搜集到許多相同或者是近似的網(wǎng)頁,這樣不僅降低了用戶在檢索過程中的效率,同時(shí)也增加了存儲(chǔ)空間,并且減少了用戶的體驗(yàn)。因此,判別網(wǎng)站頁面的相似度并在此基礎(chǔ)上去除重復(fù)的網(wǎng)頁已經(jīng)成為搜索引擎領(lǐng)域目前所研究的熱點(diǎn)和重點(diǎn)問題。本文所研究的是網(wǎng)站頁面相似度判別的方法,文中第一章分析了研究該課題的目的和意義,然后在第二章簡(jiǎn)單介紹了當(dāng)前最好的檢測(cè)網(wǎng)站頁面相似度的幾種算法以及它們各自的優(yōu)點(diǎn)和缺點(diǎn),對(duì)前人的研究成果作進(jìn)一步的分析和學(xué)習(xí),接著在第三章提出了一種相對(duì)先進(jìn)的相似網(wǎng)頁檢測(cè)的算法,這種比較先進(jìn)的算法采用的是基于最長公共子序列的相似性度量方法去判別網(wǎng)站頁面的相似度,它能夠很好地去度量出網(wǎng)頁之間的相似程度和它們的包含關(guān)系,并能夠獲得較為理想的準(zhǔn)確度。這個(gè)方法中同時(shí)也設(shè)計(jì)了一個(gè)有效的檢測(cè)過程框架,此框架包含有三個(gè)步驟,可以用來保證算法運(yùn)行時(shí)候的效率。

        二、目的與意義

        互聯(lián)網(wǎng)誕生到現(xiàn)在,從共享性和開放性等特點(diǎn)以及對(duì)人類社會(huì)生活和工作等方面的影響來說,它無可厚非地已經(jīng)成為了新世紀(jì)最偉大的創(chuàng)造之一。但是在網(wǎng)絡(luò)迅猛發(fā)展的同時(shí)也給人們帶來了一系列難題,最明顯的就是現(xiàn)在的網(wǎng)絡(luò)中已經(jīng)存在著很多經(jīng)過轉(zhuǎn)載的網(wǎng)頁,即一篇網(wǎng)頁文檔的內(nèi)容會(huì)以相同的或者是以近似的形式去出現(xiàn)在其他的網(wǎng)頁文檔當(dāng)中。而在這些重復(fù)的網(wǎng)頁文檔中有的是沒有經(jīng)過任何改動(dòng)的粘貼復(fù)制,有的在內(nèi)容上稍微做了一些改動(dòng),而有的則僅僅只是網(wǎng)頁文檔的格式不同而已。因?yàn)檫@個(gè)緣故,搜索引擎在收集網(wǎng)頁文檔時(shí)肯定會(huì)收集到很多主題內(nèi)容相同或者是內(nèi)容近似的網(wǎng)頁文檔,對(duì)這些相同或近似的網(wǎng)頁文檔如果不去進(jìn)行處理,不僅會(huì)造成大量的存儲(chǔ)資源浪費(fèi)、索引的效率降低,而且也會(huì)造成最終用戶檢索困難和閱讀困難的不良后果。所以,判別網(wǎng)站頁面的相似度并在此基礎(chǔ)上去除重復(fù)的網(wǎng)頁已經(jīng)成為搜索引擎領(lǐng)域目前所研究的熱點(diǎn)和重點(diǎn)問題。

        在此,我們所指的“相似度”是指不同兩個(gè)網(wǎng)頁之間相同部分的代碼字節(jié)數(shù)占兩個(gè)網(wǎng)頁總字節(jié)數(shù)的百分比。合理降低網(wǎng)頁相似度是網(wǎng)站優(yōu)化中重要的一步。網(wǎng)頁相似度顧名思義就是不同網(wǎng)頁的相似程度,如果你的網(wǎng)站轉(zhuǎn)載了其他網(wǎng)站的文章,那么可以說你這個(gè)網(wǎng)頁和之前原創(chuàng)文章的網(wǎng)頁是“相似”的。而對(duì)于那些重復(fù)度相對(duì)比較低的網(wǎng)頁文檔,比如以聚類的形式去呈現(xiàn)給用戶的同一主題的新聞資源,如騰訊資訊、Google資訊等,我們卻可以根據(jù)用戶的個(gè)人喜好去進(jìn)行顯示。所以,對(duì)那些在內(nèi)容上相同或者是近似的網(wǎng)站頁面作一定的處理是一項(xiàng)非常有實(shí)際意義和價(jià)值的工作。

        三、算法的優(yōu)點(diǎn)與缺點(diǎn)

        在網(wǎng)絡(luò)的發(fā)展歷程中,關(guān)于如何檢測(cè)那些相似網(wǎng)頁的方法始終是學(xué)者們研究的一個(gè)熱點(diǎn)問題。用于檢測(cè)相似網(wǎng)站頁面的方法在那些與Web信息有關(guān)系的應(yīng)用方面長期來都扮演著非常重要的角色。也正是因?yàn)檫@樣,這些年來有許許多多檢測(cè)相似網(wǎng)頁的方法不斷被提出來,并且被應(yīng)用于實(shí)踐,還都得到了有關(guān)專家的評(píng)估。不過在這些諸多方法中,比較具有權(quán)威性的當(dāng)屬由美國人Broder所研究提出的shingling算法[3]和由Charikar所研究提出的simhash算法[4]以及由Chowdhury所研究提出的I-Match算法[10],這三個(gè)算法被人們公認(rèn)是目前對(duì)相似的網(wǎng)站頁面進(jìn)行檢測(cè)時(shí)比較實(shí)用的算法。雖然說是比較實(shí)用,但這三種算法中也都存在著這樣或那樣的不足:一方面,這三種算法都只是采用了基于語法和基于語義的方法去評(píng)估兩篇網(wǎng)頁文檔之間的相似度,而不是采用基于文檔內(nèi)容的匹配;另一方面,雖然高的評(píng)估分?jǐn)?shù)可以代表很高的相似率,但是它并不代表很高的相似程度。完全可以這樣說,就算存在兩個(gè)網(wǎng)頁文檔,它們的內(nèi)容是一點(diǎn)都不相同的,但這兩篇文檔仍然有可能會(huì)被判定為相似的兩個(gè)網(wǎng)頁文檔。針對(duì)目前搜索引擎搜索結(jié)果中普遍存在大量重復(fù)網(wǎng)頁的現(xiàn)象,提出了一種基于聚類算法DBSCAN的搜索結(jié)果優(yōu)化算法。該算法選取源搜索結(jié)果中排名靠前的部分網(wǎng)頁,對(duì)這部分網(wǎng)頁根據(jù)網(wǎng)頁相似度進(jìn)行DBSCAN聚類,最大限度剔除冗余網(wǎng)頁,實(shí)現(xiàn)搜索結(jié)果的優(yōu)化。實(shí)驗(yàn)結(jié)果表明本算法可以提高搜索結(jié)果的全面性和準(zhǔn)確性,提升用戶使用搜索引擎的滿意度。

        四、先進(jìn)算法

        對(duì)于如何檢測(cè)網(wǎng)絡(luò)中存在的相似網(wǎng)頁文檔,這方面的研究早期只是針對(duì)那些比較大型的文件系統(tǒng),但后來很快就被投入應(yīng)用到搜索引擎領(lǐng)域,在這方面最典型的檢測(cè)系統(tǒng)應(yīng)該是美國斯坦福大學(xué)的SCAM檢測(cè)系統(tǒng)。針對(duì)目前搜索引擎搜索結(jié)果中普遍存在大量重復(fù)網(wǎng)頁的現(xiàn)象,提出了一種基于聚類算法DBSCAN的搜索結(jié)果優(yōu)化算法。該算法選取源搜索結(jié)果中排名靠前的部分網(wǎng)頁,對(duì)這部分網(wǎng)頁根據(jù)網(wǎng)頁相似度進(jìn)行DBSCAN聚類,最大限度剔除冗余網(wǎng)頁,實(shí)現(xiàn)搜索結(jié)果的優(yōu)化。實(shí)驗(yàn)結(jié)果表明本算法可以提高搜索結(jié)果的全面性和準(zhǔn)確性,提升用戶使用搜索引擎的滿意度。到現(xiàn)在為止,許多研究人員對(duì)網(wǎng)頁文檔相似性的檢測(cè)提出了大量的方法,而經(jīng)過研究分析,這些諸多方法大致又可以被分為這樣的兩大類:從網(wǎng)頁文檔中去提取出網(wǎng)頁文檔特征的方法和由網(wǎng)頁文檔的這些被提取出的特征去計(jì)算網(wǎng)頁文檔簽名的方法。

        五、結(jié)論

        總體來說,雖然判斷網(wǎng)頁網(wǎng)站的相似度被很多國內(nèi)外學(xué)者所關(guān)注,所研究的興趣點(diǎn)越來越多,研究成果也越來越豐富,但依然存在一些問題,比如說發(fā)表的相關(guān)論文總量偏少,而國內(nèi)學(xué)者在實(shí)踐上的欠缺更使得其成果沒有經(jīng)典技術(shù)的可用性高,因此,判斷網(wǎng)頁網(wǎng)站的相似度還需要經(jīng)過多次周密的實(shí)踐去進(jìn)行嚴(yán)格的考證。

        【參考文獻(xiàn)】

        [1]胡瑜,王立志.基于HTML結(jié)構(gòu)特征的網(wǎng)頁信息提取[J].遼寧石油化工大學(xué)學(xué)報(bào),2009(03).

        [2]宋明秋,張瑞雪,吳新濤,等.網(wǎng)頁正文信息抽取新方法[J].大連理工大學(xué)學(xué)報(bào),2009(04).

        [3]董全中.當(dāng)代搜索引擎存在的問題及其改進(jìn)[J].圖書館理論與實(shí)踐,2007(05).

        [4]宋睿華,馬少平,陳剛,等.一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法[J].中文信息學(xué)報(bào),2003(04).

        [5]孫承杰,關(guān)毅.基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J].中文信息學(xué)報(bào),2004(05).

        [6]陳瓊,蘇文健.基于網(wǎng)頁結(jié)構(gòu)樹的Web信息抽取方法[J].計(jì)算機(jī)工程,2005(20).

        欧美片欧美日韩国产综合片| 亚洲精品无码久久久久秋霞| 麻豆精品久久久久久久99蜜桃| 无码吃奶揉捏奶头高潮视频| av一区二区三区观看| 国产suv精品一区二区四| 中国凸偷窥xxxx自由视频妇科| 自拍 另类 综合 欧美小说| 国产青春草在线观看视频| 丰满少妇在线播放bd| 人妻少妇精品无码专区动漫| 欧美一区波多野结衣第一页| 久久久亚洲日本精品一区| 国产亚洲av看码精品永久| 亚洲精品无amm毛片| 国产亚洲精品看片在线观看| 日韩精品久久不卡中文字幕| 丁香花五月六月综合激情| 国产台湾无码av片在线观看| 亚洲视频99| 人妻少妇激情久久综合| 日韩精品无码一区二区三区| 国产xxxx99真实实拍| 人妻无码在线免费| 少妇精品偷拍高潮少妇在线观看| 国产亚洲综合一区二区三区| 日韩精品中文字幕无码一区| 蜜臀aⅴ永久无码一区二区| 亚洲中文字幕人成乱码在线| 伊人久久大香线蕉av不卡| 99成人精品| 手机在线中文字幕av| 男人添女人囗交做爰视频| 亚洲国产综合精品 在线 一区| 亚洲AV秘 片一区二区三区| 午夜福利视频一区二区二区| 日韩人妻无码精品久久久不卡| 98在线视频噜噜噜国产| 日韩三级一区二区三区四区| 中文字幕在线日亚州9| 男女超爽视频免费播放|