亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

網(wǎng)頁網(wǎng)站相似度判別方法研究

2014-04-29 00:00:00張玥琪陳志鵬馮浩

西江月·上旬 2014年3期

【摘要】當(dāng)今時(shí)代是一個(gè)以信息技術(shù)為代表的知識(shí)經(jīng)濟(jì)時(shí)代，各種先進(jìn)的科學(xué)技術(shù)迅猛發(fā)展，給人們的生活帶來了深遠(yuǎn)的影響，它極大的改變了我們的生活方式。以計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)為代表的信息科技改變著我們的生活。在這個(gè)信息高速傳播的時(shí)代，互聯(lián)網(wǎng)已經(jīng)成為用戶瀏覽信息，搜索信息的主要來源，然而搜索引擎再采集網(wǎng)頁時(shí)會(huì)出現(xiàn)許多相同或者近似的網(wǎng)頁，這樣不僅降低了用戶在檢索中的效率，同事也增加哦了存儲(chǔ)空間，并且減少了用戶的體驗(yàn)。我們就這個(gè)問題進(jìn)行了討論。

【關(guān)鍵詞】相似度；搜索引擎；算法

一、引言

現(xiàn)代搜索引擎中的爬行程序在巨大的網(wǎng)絡(luò)中采集網(wǎng)頁時(shí)會(huì)搜集到許多相同或者是近似的網(wǎng)頁，這樣不僅降低了用戶在檢索過程中的效率，同時(shí)也增加了存儲(chǔ)空間，并且減少了用戶的體驗(yàn)。因此，判別網(wǎng)站頁面的相似度并在此基礎(chǔ)上去除重復(fù)的網(wǎng)頁已經(jīng)成為搜索引擎領(lǐng)域目前所研究的熱點(diǎn)和重點(diǎn)問題。本文所研究的是網(wǎng)站頁面相似度判別的方法，文中第一章分析了研究該課題的目的和意義，然后在第二章簡(jiǎn)單介紹了當(dāng)前最好的檢測(cè)網(wǎng)站頁面相似度的幾種算法以及它們各自的優(yōu)點(diǎn)和缺點(diǎn)，對(duì)前人的研究成果作進(jìn)一步的分析和學(xué)習(xí)，接著在第三章提出了一種相對(duì)先進(jìn)的相似網(wǎng)頁檢測(cè)的算法，這種比較先進(jìn)的算法采用的是基于最長公共子序列的相似性度量方法去判別網(wǎng)站頁面的相似度，它能夠很好地去度量出網(wǎng)頁之間的相似程度和它們的包含關(guān)系，并能夠獲得較為理想的準(zhǔn)確度。這個(gè)方法中同時(shí)也設(shè)計(jì)了一個(gè)有效的檢測(cè)過程框架，此框架包含有三個(gè)步驟，可以用來保證算法運(yùn)行時(shí)候的效率。

二、目的與意義

互聯(lián)網(wǎng)誕生到現(xiàn)在，從共享性和開放性等特點(diǎn)以及對(duì)人類社會(huì)生活和工作等方面的影響來說，它無可厚非地已經(jīng)成為了新世紀(jì)最偉大的創(chuàng)造之一。但是在網(wǎng)絡(luò)迅猛發(fā)展的同時(shí)也給人們帶來了一系列難題，最明顯的就是現(xiàn)在的網(wǎng)絡(luò)中已經(jīng)存在著很多經(jīng)過轉(zhuǎn)載的網(wǎng)頁，即一篇網(wǎng)頁文檔的內(nèi)容會(huì)以相同的或者是以近似的形式去出現(xiàn)在其他的網(wǎng)頁文檔當(dāng)中。而在這些重復(fù)的網(wǎng)頁文檔中有的是沒有經(jīng)過任何改動(dòng)的粘貼復(fù)制，有的在內(nèi)容上稍微做了一些改動(dòng)，而有的則僅僅只是網(wǎng)頁文檔的格式不同而已。因?yàn)檫@個(gè)緣故，搜索引擎在收集網(wǎng)頁文檔時(shí)肯定會(huì)收集到很多主題內(nèi)容相同或者是內(nèi)容近似的網(wǎng)頁文檔，對(duì)這些相同或近似的網(wǎng)頁文檔如果不去進(jìn)行處理，不僅會(huì)造成大量的存儲(chǔ)資源浪費(fèi)、索引的效率降低，而且也會(huì)造成最終用戶檢索困難和閱讀困難的不良后果。所以，判別網(wǎng)站頁面的相似度并在此基礎(chǔ)上去除重復(fù)的網(wǎng)頁已經(jīng)成為搜索引擎領(lǐng)域目前所研究的熱點(diǎn)和重點(diǎn)問題。

在此，我們所指的“相似度”是指不同兩個(gè)網(wǎng)頁之間相同部分的代碼字節(jié)數(shù)占兩個(gè)網(wǎng)頁總字節(jié)數(shù)的百分比。合理降低網(wǎng)頁相似度是網(wǎng)站優(yōu)化中重要的一步。網(wǎng)頁相似度顧名思義就是不同網(wǎng)頁的相似程度，如果你的網(wǎng)站轉(zhuǎn)載了其他網(wǎng)站的文章，那么可以說你這個(gè)網(wǎng)頁和之前原創(chuàng)文章的網(wǎng)頁是“相似”的。而對(duì)于那些重復(fù)度相對(duì)比較低的網(wǎng)頁文檔，比如以聚類的形式去呈現(xiàn)給用戶的同一主題的新聞資源，如騰訊資訊、Google資訊等，我們卻可以根據(jù)用戶的個(gè)人喜好去進(jìn)行顯示。所以，對(duì)那些在內(nèi)容上相同或者是近似的網(wǎng)站頁面作一定的處理是一項(xiàng)非常有實(shí)際意義和價(jià)值的工作。

三、算法的優(yōu)點(diǎn)與缺點(diǎn)

在網(wǎng)絡(luò)的發(fā)展歷程中，關(guān)于如何檢測(cè)那些相似網(wǎng)頁的方法始終是學(xué)者們研究的一個(gè)熱點(diǎn)問題。用于檢測(cè)相似網(wǎng)站頁面的方法在那些與Web信息有關(guān)系的應(yīng)用方面長期來都扮演著非常重要的角色。也正是因?yàn)檫@樣，這些年來有許許多多檢測(cè)相似網(wǎng)頁的方法不斷被提出來，并且被應(yīng)用于實(shí)踐，還都得到了有關(guān)專家的評(píng)估。不過在這些諸多方法中，比較具有權(quán)威性的當(dāng)屬由美國人Broder所研究提出的shingling算法[3]和由Charikar所研究提出的simhash算法[4]以及由Chowdhury所研究提出的I-Match算法[10]，這三個(gè)算法被人們公認(rèn)是目前對(duì)相似的網(wǎng)站頁面進(jìn)行檢測(cè)時(shí)比較實(shí)用的算法。雖然說是比較實(shí)用，但這三種算法中也都存在著這樣或那樣的不足：一方面，這三種算法都只是采用了基于語法和基于語義的方法去評(píng)估兩篇網(wǎng)頁文檔之間的相似度，而不是采用基于文檔內(nèi)容的匹配；另一方面，雖然高的評(píng)估分?jǐn)?shù)可以代表很高的相似率，但是它并不代表很高的相似程度。完全可以這樣說，就算存在兩個(gè)網(wǎng)頁文檔，它們的內(nèi)容是一點(diǎn)都不相同的，但這兩篇文檔仍然有可能會(huì)被判定為相似的兩個(gè)網(wǎng)頁文檔。針對(duì)目前搜索引擎搜索結(jié)果中普遍存在大量重復(fù)網(wǎng)頁的現(xiàn)象，提出了一種基于聚類算法DBSCAN的搜索結(jié)果優(yōu)化算法。該算法選取源搜索結(jié)果中排名靠前的部分網(wǎng)頁，對(duì)這部分網(wǎng)頁根據(jù)網(wǎng)頁相似度進(jìn)行DBSCAN聚類，最大限度剔除冗余網(wǎng)頁，實(shí)現(xiàn)搜索結(jié)果的優(yōu)化。實(shí)驗(yàn)結(jié)果表明本算法可以提高搜索結(jié)果的全面性和準(zhǔn)確性，提升用戶使用搜索引擎的滿意度。

四、先進(jìn)算法

對(duì)于如何檢測(cè)網(wǎng)絡(luò)中存在的相似網(wǎng)頁文檔，這方面的研究早期只是針對(duì)那些比較大型的文件系統(tǒng)，但后來很快就被投入應(yīng)用到搜索引擎領(lǐng)域，在這方面最典型的檢測(cè)系統(tǒng)應(yīng)該是美國斯坦福大學(xué)的SCAM檢測(cè)系統(tǒng)。針對(duì)目前搜索引擎搜索結(jié)果中普遍存在大量重復(fù)網(wǎng)頁的現(xiàn)象，提出了一種基于聚類算法DBSCAN的搜索結(jié)果優(yōu)化算法。該算法選取源搜索結(jié)果中排名靠前的部分網(wǎng)頁，對(duì)這部分網(wǎng)頁根據(jù)網(wǎng)頁相似度進(jìn)行DBSCAN聚類，最大限度剔除冗余網(wǎng)頁，實(shí)現(xiàn)搜索結(jié)果的優(yōu)化。實(shí)驗(yàn)結(jié)果表明本算法可以提高搜索結(jié)果的全面性和準(zhǔn)確性，提升用戶使用搜索引擎的滿意度。到現(xiàn)在為止，許多研究人員對(duì)網(wǎng)頁文檔相似性的檢測(cè)提出了大量的方法，而經(jīng)過研究分析，這些諸多方法大致又可以被分為這樣的兩大類：從網(wǎng)頁文檔中去提取出網(wǎng)頁文檔特征的方法和由網(wǎng)頁文檔的這些被提取出的特征去計(jì)算網(wǎng)頁文檔簽名的方法。

五、結(jié)論

總體來說，雖然判斷網(wǎng)頁網(wǎng)站的相似度被很多國內(nèi)外學(xué)者所關(guān)注，所研究的興趣點(diǎn)越來越多，研究成果也越來越豐富，但依然存在一些問題，比如說發(fā)表的相關(guān)論文總量偏少，而國內(nèi)學(xué)者在實(shí)踐上的欠缺更使得其成果沒有經(jīng)典技術(shù)的可用性高，因此，判斷網(wǎng)頁網(wǎng)站的相似度還需要經(jīng)過多次周密的實(shí)踐去進(jìn)行嚴(yán)格的考證。

【參考文獻(xiàn)】

[1]胡瑜，王立志.基于HTML結(jié)構(gòu)特征的網(wǎng)頁信息提取[J].遼寧石油化工大學(xué)學(xué)報(bào)，2009（03）.

[2]宋明秋，張瑞雪，吳新濤，等.網(wǎng)頁正文信息抽取新方法[J].大連理工大學(xué)學(xué)報(bào)，2009（04）.

[3]董全中.當(dāng)代搜索引擎存在的問題及其改進(jìn)[J].圖書館理論與實(shí)踐，2007（05）.

[4]宋睿華，馬少平，陳剛，等.一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法[J].中文信息學(xué)報(bào)，2003（04）.

[5]孫承杰，關(guān)毅.基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J].中文信息學(xué)報(bào)，2004（05）.

[6]陳瓊，蘇文健.基于網(wǎng)頁結(jié)構(gòu)樹的Web信息抽取方法[J].計(jì)算機(jī)工程，2005（20）.

西江月·上旬2014年3期

西江月·上旬的其它文章: 不要說我們把愛情都看的太重; 探討水冷冷水機(jī)組冷卻水溫度優(yōu)化策略; 淺析中國當(dāng)下古籍修復(fù)市場(chǎng)的現(xiàn)狀; 論革命紀(jì)念館工作的實(shí)踐及理論內(nèi)涵; 重載交通公路橋梁設(shè)計(jì)中車輛載荷的研究; 廣州外來人口分析與優(yōu)化