亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應(yīng)用

        2019-05-08 03:01:26周海山
        科學(xué)與技術(shù) 2019年19期
        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲信息檢索數(shù)據(jù)挖掘

        周海山

        摘要:隨著計算機網(wǎng)絡(luò)技術(shù)的發(fā)展,計算機通訊、計算機原理等這些內(nèi)容已經(jīng)逐漸被人們深知,關(guān)于網(wǎng)絡(luò)爬蟲的概念人們也逐漸的理解,并且不斷的探索網(wǎng)絡(luò)爬蟲在信息檢索與數(shù)據(jù)挖掘中的應(yīng)用。本文主要從網(wǎng)絡(luò)爬蟲的概念和分類進行概述,并且分析和探討了網(wǎng)絡(luò)爬蟲在信息檢索和數(shù)據(jù)挖掘中的應(yīng)用,最后對于未來網(wǎng)絡(luò)的發(fā)展進行了展望。

        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;信息檢索;數(shù)據(jù)挖掘

        由于計算機技術(shù)的發(fā)展,現(xiàn)在的網(wǎng)絡(luò)資源類型也十分的豐富,并且所含的數(shù)據(jù)和信息也是特別的多,基本上可以滿足人們目前的需要,但是如何快速的對這些信息和數(shù)據(jù)進行分類,這就需要擁有很強的數(shù)據(jù)處理能力,人們對于獲取數(shù)據(jù),處理數(shù)據(jù)是非常關(guān)心的。網(wǎng)絡(luò)爬蟲可以非常容易的獲取到我們需要的一些信息,方便人們對于數(shù)據(jù)的搜索、整理和利用,使我們?nèi)粘P畔@取的高效工具。

        一、網(wǎng)絡(luò)爬蟲的概念與類型

        以前人們經(jīng)常取名為網(wǎng)絡(luò)蜘蛛的,其實就是網(wǎng)絡(luò)爬蟲,這是按照一定的規(guī)則在人們自動瀏覽網(wǎng)站時獲取信息的程序或者腳本,曾經(jīng)被廣泛應(yīng)用于互聯(lián)網(wǎng)的搜索引擎中,一般在各種網(wǎng)頁中會有許多的鏈接,網(wǎng)絡(luò)爬蟲正是從這些鏈接中不斷的獲取其他界面上的信息,那么網(wǎng)絡(luò)爬蟲在進行數(shù)據(jù)采集時就是像一個爬蟲在網(wǎng)絡(luò)上漫游,所以才被形象的稱之為網(wǎng)絡(luò)爬蟲。根據(jù)不同的分工,網(wǎng)絡(luò)爬蟲有不同的分類,就像社會上有各種職業(yè)的分工一樣,大型的爬蟲系統(tǒng),內(nèi)部也是有不同的分工的,這將爬蟲分為新網(wǎng)頁爬蟲和定期網(wǎng)絡(luò)爬蟲,新網(wǎng)頁爬蟲是專門負責尋找沒有被采集過的一些新網(wǎng)頁;定期爬蟲是負責采集那些更新比較快,并且內(nèi)容比較多的網(wǎng)站,然后把這些網(wǎng)頁的網(wǎng)址進行保存,定期的去進行采集,查看網(wǎng)頁中內(nèi)容是否有更新。但是根據(jù)不同的應(yīng)用和系統(tǒng)的結(jié)構(gòu)以及實現(xiàn)技術(shù),又把網(wǎng)絡(luò)爬蟲分為增量式網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲、和通用網(wǎng)絡(luò)爬蟲。增量式網(wǎng)絡(luò)爬蟲指的是在更新的時候只更新改變的地方,而沒有改變的地方則不更新,所以網(wǎng)絡(luò)爬蟲僅僅采集內(nèi)容發(fā)生變化的網(wǎng)頁或者新產(chǎn)生的網(wǎng)頁;聚焦網(wǎng)絡(luò)爬蟲是按照預(yù)先定義好的主題有選擇地驚醒網(wǎng)頁爬取,采集目標那些與主題相關(guān)的頁面,使用網(wǎng)絡(luò)爬蟲大大節(jié)省采集數(shù)據(jù)所需的帶寬和服務(wù)器資源,適用于特定人群;深層網(wǎng)絡(luò)爬蟲是需要調(diào)教一定的關(guān)鍵詞之后才能獲取的頁面;通用網(wǎng)絡(luò)爬蟲主要應(yīng)用在大型的搜索引擎中,一般采集的目標是全網(wǎng)的資源,目標的數(shù)據(jù)比較龐大。

        二、網(wǎng)絡(luò)爬蟲在web信息檢索中和數(shù)據(jù)挖掘中的應(yīng)用

        1.網(wǎng)絡(luò)爬蟲在web信息檢索中的應(yīng)用

        網(wǎng)絡(luò)爬蟲在網(wǎng)頁信息檢索中的應(yīng)用主要是將爬蟲分為三種模塊實現(xiàn)的:網(wǎng)頁采集模塊,索引模塊和搜索模塊。這里的采集模塊實際上包含兩個部分。第一個部分是單純網(wǎng)頁采集模塊,它負責搜索網(wǎng)頁,是整個系統(tǒng)的關(guān)鍵部分,這將直接影響數(shù)據(jù)采集的效果。第二個是信息分析和過濾模塊,它負責將網(wǎng)頁中的信息進行自動歸類,然后根據(jù)解析提取出網(wǎng)頁的主要數(shù)據(jù),包括標題、節(jié)選、發(fā)布時間、鏈接地址等,將所有的噪音信息剔除,最后將提取出的信息展示給用戶。索引模塊是為HTML 頁面來創(chuàng)建索引。在下載的過程中,不可避免地會遇到重復(fù)的鏈接,如何消除這些重復(fù)的鏈接,是個很復(fù)雜的問題。URL 的去重可以說是爬蟲系統(tǒng)中最重要的一部分,直接影響數(shù)據(jù)搜索和采集的效率和效果,索引模塊主要就是為了去除重復(fù)鏈接的。搜索模塊則是系統(tǒng)與用戶交互的模塊,系統(tǒng)根據(jù)用戶輸入的查詢語句,負責在數(shù)據(jù)庫和索引文件上搜索出相應(yīng)數(shù)據(jù)并按照一定的排序反饋給用戶。網(wǎng)絡(luò)爬蟲的設(shè)計流程中,核心部分是獲得網(wǎng)頁中的?URL列表、創(chuàng)建下載的客戶端、獲取并存儲得到的網(wǎng)頁結(jié)果。

        2.網(wǎng)絡(luò)爬蟲在數(shù)據(jù)挖掘中的應(yīng)用

        互聯(lián)網(wǎng)是實時變化的,具有很強的動態(tài)性。網(wǎng)頁更新策略主要是決定何時更新之前已經(jīng)下載過的頁面。常見的更新策略有以下三種:1)歷史參考策略:根據(jù)頁面以往的歷史更新數(shù)據(jù),預(yù)測該頁面未來何時會發(fā)生變化。一般來說,是通過泊松過程進行建模進行預(yù)測。2)用戶體驗策略:盡管搜索引擎針對于某個查詢條件能夠返回數(shù)量巨大的結(jié)果,但是用戶往往只關(guān)注前幾頁結(jié)果。因此,抓取系統(tǒng)可以優(yōu)先更新那些現(xiàn)實在查詢結(jié)果前幾頁中的網(wǎng)頁,而后再更新那些后面的網(wǎng)頁。這種更新策略也是需要用到歷史信息的。用戶體驗策略保留網(wǎng)頁的多個歷史版本,并且根據(jù)過去每次內(nèi)容變化對搜索質(zhì)量的影響,得出一個平均值,用這個值作為決定何時重新抓取的依據(jù)。3)聚類抽樣策略:之前兩種更新策略都需要網(wǎng)頁的歷史信息。這樣會有兩個問題:1、系統(tǒng)要是為每個系統(tǒng)保存多個版本的歷史信息,無疑增加了很多的系統(tǒng)負擔;2、另一方面是如果新的網(wǎng)頁完全沒有歷史信息,這樣就無法確定更新策略。這種策略認為,網(wǎng)頁具有很多屬性,類似屬性的網(wǎng)頁,可以認為其更新頻率也是類似的。要計算某一個類別網(wǎng)頁的更新頻率,只需要對這一類網(wǎng)頁抽樣,以他們的更新周期作為整個類別的更新周期。一般來說,網(wǎng)絡(luò)爬蟲的系統(tǒng)需要面對的是整個互聯(lián)網(wǎng)上數(shù)以億計的網(wǎng)頁。單個數(shù)據(jù)采集和搜索的程序不可能完成這樣的任務(wù)。往往需要多個搜索程序一起來處理。一般來說網(wǎng)絡(luò)爬蟲的系統(tǒng)往往是一個分布式的三層結(jié)構(gòu)。最下一層是分布在不同地理位置的數(shù)據(jù)中心,在每個數(shù)據(jù)中心里有若干臺抓取服務(wù)器,而每臺抓取服務(wù)器上可能部署了若干套爬蟲程序。這就構(gòu)成了一個基本的分布式抓取系統(tǒng),這樣使得數(shù)據(jù)處理更加方便。

        三、總結(jié)

        網(wǎng)絡(luò)爬蟲不同于黑客,網(wǎng)絡(luò)爬蟲所做的事情是利于人們發(fā)展的,使用網(wǎng)絡(luò)爬蟲可以發(fā)現(xiàn)網(wǎng)絡(luò)中隱藏的有價值的信息,提高篩選和索引率,為用戶提供好服務(wù)。隨著計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,未來網(wǎng)絡(luò)爬蟲會朝著精準化、個性化和智能化的方向不斷發(fā)展,給人們提供需要的信息,方便人們的工作和生活。

        參考文獻

        [1]楊文剛,韓海濤.大數(shù)據(jù)背景下基于主題網(wǎng)絡(luò)爬蟲的檔案信息采集[J].蘭臺世界(旬刊),2015(20):20-21.

        [2] 陳維.網(wǎng)絡(luò)環(huán)境下的信息檢索與數(shù)據(jù)挖掘技術(shù)[J].現(xiàn)代情報,2009(5).

        猜你喜歡
        網(wǎng)絡(luò)爬蟲信息檢索數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
        基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
        醫(yī)學(xué)期刊編輯中文獻信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
        中國市場(2016年23期)2016-07-05 04:35:08
        基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計與實施
        河南科技(2014年11期)2014-02-27 14:10:19
        亚洲视频在线观看| 狠狠躁夜夜躁无码中文字幕| 在线播放国产女同闺蜜| 极品 在线 视频 大陆 国产| 久久久国产精品ⅤA麻豆百度| 女同舌吻互慰一区二区| 国产三级黄色大片在线免费看 | 日韩精品无码久久一区二区三| 亚洲高清精品50路| 中文字幕av素人专区| 成人国产一区二区三区 | 美利坚合众国亚洲视频| 亚洲av五月天一区二区| 影音先锋中文字幕无码资源站 | 十四以下岁毛片带血a级| 99久久精品午夜一区二区| 台湾佬自拍偷区亚洲综合| 成年男女免费视频网站| 欧美国产伦久久久久久久| 一区二区三区日本高清| 国产精品视频亚洲二区| 台湾佬中文娱乐网22| 精品免费看国产一区二区| 婷婷综合久久中文字幕蜜桃三电影 | 一 级做人爱全视频在线看| 亚洲熟妇少妇任你躁在线观看无码| 色一情一乱一伦一区二区三欧美 | 日韩在线精品视频观看| 国产精品午夜夜伦鲁鲁| 国产中文三级全黄| 亚洲精品乱码久久久久久金桔影视| 无码a∨高潮抽搐流白浆| 爱我久久国产精品| 亚洲精品国产精品系列| 久久伊人精品色婷婷国产| aaa日本高清在线播放免费观看| 国产精品久久久久久久久免费| 日产精品一区二区三区| 中文字幕亚洲精品一二三区| 91麻豆精品国产91久久麻豆| 亚洲av中文无码乱人伦下载|