亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進的最好優(yōu)先搜索策略算法

        2014-01-02 02:42:20余兆釵傅化權(quán)
        科技視界 2014年33期
        關(guān)鍵詞:爬蟲隊列優(yōu)先

        余兆釵 傅化權(quán)

        (閩江學(xué)院計算機科學(xué)系,福建 福州 350108)

        0 引言

        我國域名總數(shù)為1844萬個,其中“.CN”域名總數(shù)較去年同期增長44.2%,達到1083萬,在中國域名總數(shù)中占比達58.7%,我國網(wǎng)站總數(shù)為320萬個,較去年同期增長19.4%。除了互聯(lián)網(wǎng)中新的網(wǎng)頁不斷增加,互聯(lián)網(wǎng)中原有的網(wǎng)頁也會因為各種原因被刪除,有研究指出:50%網(wǎng)頁的平均生命周期大約為50天,互聯(lián)網(wǎng)中每天都新的網(wǎng)頁增加,每天都網(wǎng)頁被刪除。面對海量的網(wǎng)絡(luò)資源,如何加快搜索引擎信息的更新頻率,成了重要的課題。

        網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分,搜索引擎存儲的信息資源就是由網(wǎng)絡(luò)爬蟲在海量的互聯(lián)網(wǎng)中搜索下載的,加快網(wǎng)絡(luò)爬蟲的搜索速度,是加快搜索引擎信息更新的有效手段。

        1 基于內(nèi)容評價最好優(yōu)先搜索策略

        (1)頁面信息提取。網(wǎng)絡(luò)爬蟲從主題種子集隊列中,挑選一個頁面價值度最高的URL,網(wǎng)絡(luò)爬蟲訪問該URL頁面并下載頁面,保存在本地。

        (2)頁面解析過濾。對下載的頁面,首先去除頁面中的javascript腳本語言、CSS樣式;然后去除網(wǎng)頁中的HTML標簽,得到頁面的正文文本。同時提取頁面中超鏈接URL。

        (3)頁面分詞。頁面得到正文文本后,計算正文文本相鄰字的相似度。對于相關(guān)度大于閾值,將其劃分出來,歸類為詞語;小于閾值的,另作其他處理。

        (4)頁面關(guān)鍵字提取。分詞得到的頁面詞語,首先對它們做預(yù)處理,過濾詞語中是虛詞、人稱代詞、疊詞、數(shù)量、連詞、介詞、語句助詞等對頁面內(nèi)容無關(guān)的詞語。依據(jù)詞語在頁面正文中所占比例按照大小排序,去除一定數(shù)量比例大的詞語和比例小的詞語,剩余的詞語選取排列在靠前的作為關(guān)鍵字。

        (5)頁面關(guān)鍵字加權(quán)重。對于選出的關(guān)鍵字進行加權(quán)計算,一般采用采用TF-IDF詞頻統(tǒng)計方法。

        (6)頁面主題相關(guān)度計算。頁面關(guān)鍵字加權(quán)計算完以后,再根據(jù)向量空間模型(VSM)進行頁面與主題的相關(guān)度計算。如果相關(guān)度高,就加入到搜索隊列中,作為以后搜索到對象;相關(guān)度低或不相關(guān),丟棄這個網(wǎng)頁。

        2 改進的最好優(yōu)先搜索策略

        網(wǎng)站開發(fā)者在開發(fā)一個網(wǎng)站時,通常會根據(jù)網(wǎng)頁的主題,為每個網(wǎng)頁劃分各個目錄,這樣每個目錄存放的網(wǎng)頁主題都是有一定相關(guān)性的。比如新浪新聞網(wǎng)站的目錄結(jié)構(gòu),在新浪新聞網(wǎng)目錄下劃分了國內(nèi)新聞、國際新聞、社會新聞、新聞評論等子目錄,分別管理著不同模塊的新聞信息。子目錄孫目錄下的網(wǎng)頁主題,相關(guān)性更強。因此我們利用這一特點,對最好優(yōu)先搜索策略做了改進。

        根據(jù)網(wǎng)站的結(jié)構(gòu),如果一個網(wǎng)頁的URL是另一個網(wǎng)頁URL的網(wǎng)站目錄,例如:新浪新聞 http://news.sina.com.cn/是新浪國內(nèi)新聞 http://news.sina.com.cn/China/的目錄,稱新浪新聞 http://news.sina.com.cn/為上行鏈,稱新浪國內(nèi)新聞 http://news.sina.com.cn/China/下行鏈。 同時再為每個網(wǎng)頁的URL分別設(shè)置父鏈、祖先鏈。如果搜索的網(wǎng)頁有上行鏈,則設(shè)置該URL的祖先鏈為這個網(wǎng)頁的上行鏈,否則為空;父鏈則是用于存放提取這個URL的網(wǎng)頁的URL。

        永州市涔天河庫區(qū)位于湘江流域上游,是永州地區(qū)重要的水源地,其流域控制面積為2423平方公里,多年平均產(chǎn)水量26億立方米,正常蓄水位254.26 m,總庫容1.05億立方米。該工程是湘江流域上游龍頭水利工程,擴建后將形成湖南省最大的灌區(qū)。涔天河庫區(qū)擴建工程可謂“牽一發(fā)而動全身”,不僅占用了大量的土地資源,而且對周圍環(huán)境也產(chǎn)生了巨大的影響。水庫擴建工程浩大,大量人力物力的投入,以及對區(qū)域物質(zhì)能量的擾動,使流域生態(tài)系統(tǒng)的穩(wěn)定性受到一定程度的影響。

        最好優(yōu)先搜索策略改進的主要思想:當網(wǎng)絡(luò)爬蟲在進行最好優(yōu)先搜索時,如果遇到一個與主題相關(guān)的網(wǎng)站,就將這個網(wǎng)站內(nèi)的所有具有相同目錄的網(wǎng)頁直接下載,并將這些URL放到搜索隊列中,作為以后搜索到對象,跳過對這些URL進行網(wǎng)頁相關(guān)度計算。

        最好優(yōu)先搜索策略改進算法流程圖如圖1所示,描述如下:

        (1)將原始URL集加入到網(wǎng)絡(luò)爬蟲搜索隊列中,運行網(wǎng)絡(luò)爬蟲。

        (2)在搜索隊列中提取一個請求路徑A,搜索下載網(wǎng)頁,提取A網(wǎng)頁中新的請求路徑B。

        (3)對比請求路徑,將請求路徑B和A的祖先鏈比較,如果請求路徑B的開頭為A的祖先鏈,則標記B的祖先鏈為A的祖先鏈且B的父鏈為A,加入到搜索隊列中,跳轉(zhuǎn)到步驟(2);否則比較A的父鏈和請求路徑B進行比較;如果請求路徑B的開頭為A的父鏈,B的祖先鏈為A的父鏈且B的父鏈也A,加入到搜索隊列中,跳轉(zhuǎn)到步驟(2),否則將請求路徑B和A比較,如果B的開頭為A,則B的祖先鏈為A且B的父親鏈為A,跳轉(zhuǎn)到步驟(2),否則標記A的父鏈的B,祖先鏈為空,跳轉(zhuǎn)到步驟(4)。

        (4)對新提取出請求路徑URL,下載網(wǎng)頁,對網(wǎng)頁進行預(yù)處理,獲取純文本。

        (5)純文本分詞,提取關(guān)鍵字作為網(wǎng)頁的特征項。

        (6)特征項的權(quán)重計算,計算網(wǎng)頁中的特征項的權(quán)重。

        (7)相似度計算,利用向量空間模型計算網(wǎng)頁與主題之間的相似度。如果相似度大于或等于閾值f,則網(wǎng)頁與主題相關(guān),加入到搜索隊列中;反之,丟棄這個URL。

        圖1 最好優(yōu)先搜索策略搜索結(jié)果

        3 實驗結(jié)果與分析

        本實驗的硬件環(huán)境:CPU是 Pentium Dual-Core E6700,內(nèi)存4GB。

        軟件環(huán)境:操作系統(tǒng)Windows XP,變成軟件Eclipse V3.5。

        圖2 最好優(yōu)先搜索策略改進后的搜索結(jié)果

        實驗內(nèi)容是在給定一個新浪軍事新聞 :http://mil.news.sina.com.cn/的請求路徑,并指定其終止的條件是:“臺媒:菲律賓與中國在南海激烈對峙”,分別利用改進前與改進后的算法進行搜索,然后計算運行的時間。圖1是改進前的算法用時299921毫秒,在圖2是改進后算法的用時為233676毫秒??梢钥闯龈倪M后的算法明顯提高了搜索速度。

        4 結(jié)論

        由于網(wǎng)站開發(fā)過程中,大部分開發(fā)人員都會根據(jù)主題為每個網(wǎng)頁劃分各個目錄,每個目錄存放的網(wǎng)頁主題都是相似的,因此在網(wǎng)絡(luò)爬蟲搜索過程中,碰到目錄相同的網(wǎng)頁,直接放入搜索隊列中,這樣省去了這些網(wǎng)頁的分析評價時間,從而提高爬蟲的搜索效率。根據(jù)這種思路對最好優(yōu)先搜索算法做了改進,并進行了實驗驗證,實驗結(jié)果表明改進后的算法明顯提高了搜索速度。

        [1]李耀華,楊海燕.論網(wǎng)絡(luò)爬蟲搜索策略[J].山西廣播電視大學(xué)學(xué)報,2013(2):48-50.

        [2]S.E.Robertson.Theprobability ranking principle in IR[J].Journal of Documentation,1977,33:294-304.

        猜你喜歡
        爬蟲隊列優(yōu)先
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        隊列里的小秘密
        基于多隊列切換的SDN擁塞控制*
        軟件(2020年3期)2020-04-20 00:58:44
        40年,教育優(yōu)先
        商周刊(2018年25期)2019-01-08 03:31:08
        在隊列里
        多端傳播,何者優(yōu)先?
        傳媒評論(2018年5期)2018-07-09 06:05:26
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        豐田加速駛?cè)胱詣玉{駛隊列
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        国产麻豆久久av入口| 日韩人妻少妇一区二区三区| 91九色人妻精品一区二区三区| 亚洲av无码一区二区一二区| 中国丰满熟妇xxxx性| 国产午夜影视大全免费观看| 亚洲AV无码一区二区水蜜桃| 亚洲中文字幕免费精品| 中国人在线观看免费的视频播放| 中文字幕色av一区二区三区| 老色鬼永久精品网站| 久久婷婷国产精品香蕉| 午夜一区二区三区在线观看| 久久精品亚洲成在人线av乱码| 美女很黄很色国产av| 亚洲人交乣女bbw| 美女把尿囗扒开让男人添| 少妇av射精精品蜜桃专区| 中日韩精品视频在线观看| 欧美日韩一区二区三区色综合| 国内自拍偷拍一区二区| 白白色发布会在线观看免费| 精品国产乱码久久久久久郑州公司| 中国a级毛片免费观看| 国产美女裸身网站免费观看视频| 中文字幕久久国产精品| 91丝袜美腿亚洲一区二区| 337p粉嫩日本欧洲亚洲大胆 | 在线观看的网站| 丰满少妇被猛烈进入| 无码国产日韩精品一区二区| 在线观看国产激情免费视频| 97色伦图片97综合影院| 女人被爽到高潮视频免费国产| 女人色毛片女人色毛片18| 国产哟交泬泬视频在线播放| 亚洲免费人成网站在线观看| 亚洲一区二区三区2021| 国产成+人+综合+亚洲欧美丁香花| av网站免费线看| 中文字幕亚洲精品第一页|