亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于python的網(wǎng)絡爬蟲技術的研究

        2019-09-10 20:25:57劉文輝李麗
        E動時尚·科學工程技術 2019年3期
        關鍵詞:分析

        劉文輝 李麗

        摘 要:面對數(shù)據(jù)大爆炸,人們很難獲取有用的信息。網(wǎng)絡爬蟲技術成為了搜索引擎中最為重要的部分,能夠有效的在海量數(shù)據(jù)中找到有價值的信息。本論文從不同方面基于python的網(wǎng)絡爬蟲技術的研究,希望為研究網(wǎng)絡爬蟲技術的專家和學者提供理論參考依據(jù)。

        關鍵詞:python;網(wǎng)絡爬蟲技術;分析

        隨著我國社會化和移動互聯(lián)網(wǎng)的逐步發(fā)展,網(wǎng)絡上的數(shù)據(jù)呈爆炸式增長。數(shù)據(jù)大爆炸,導致了那些有需要的人們在網(wǎng)上找他們所需的信息愈發(fā)的困難,由此搜索引擎根據(jù)這種需求產(chǎn)生了。這個時候我們需要搜索引擎去解決的困難,不僅僅是幫助人們從大量的數(shù)據(jù)里找到答案,還要在大量的答案里面找到人們最需要的結果,迅速快捷的找到精準答案比找到很多無用答案更被人們所需要。搜素引擎要做什么呢?搜索引擎需要從海量數(shù)據(jù)中提取價值,即為數(shù)據(jù)挖掘。從本質上看,搜索引擎是一個典型的大數(shù)據(jù)應用。網(wǎng)絡爬蟲技術在搜索引擎中,是很關鍵也很基礎的構件。搜索引擎聚集了網(wǎng)絡中成千上萬的信息網(wǎng)頁,并為網(wǎng)頁中逐個詞建立索引。在人們設立搜索引擎的過程中,采集信息網(wǎng)頁是一個很重要的部分。爬蟲程序就是用來搜集網(wǎng)頁的程序。網(wǎng)絡爬蟲是搜索引擎中信息采集的部分,整個搜索引擎索引網(wǎng)頁的質量、數(shù)量和更新周期,都會受網(wǎng)絡爬蟲技術性能的影響。因此對于網(wǎng)絡爬蟲的研究具有深遠的意義。

        1 網(wǎng)絡爬蟲以及網(wǎng)絡爬行

        網(wǎng)絡爬蟲(Web Crawler)是搜索引擎的最基礎部分,主要是一個能夠下載網(wǎng)頁的計算機程序或者腳本,又被稱為網(wǎng)絡蜘蛛(Web Spider)。一般而言,網(wǎng)絡爬蟲從種子集的URL 集合開始運行,先將 URL 放入一個有序隊列中,然后按照一定的順序將 URL 取出,然后下載所對應的頁面。經(jīng)過對網(wǎng)絡頁面的分析,獲取新的 URL,并將其放入有序隊列中,如此反復,直到隊列為空或者是滿足停止爬行的條件,從而遍歷整個網(wǎng)絡。這便是網(wǎng)絡爬蟲的運行過程,稱為網(wǎng)絡爬行(Web Crawling)。

        2 網(wǎng)絡爬蟲的分類

        網(wǎng)絡爬蟲的分類比較多,根據(jù)其結構和實現(xiàn)技術主要可以分為通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲以及深層網(wǎng)絡爬蟲四種,實際應用中的網(wǎng)絡爬蟲一般是多種及技術結合實現(xiàn)的。

        2.1通用網(wǎng)絡爬蟲

        一般情況下,通用網(wǎng)絡爬蟲對爬行頁面的順序要求不高,大多采用并行的工作方式,刷新頁面需要的時間比較長。因此,通用網(wǎng)絡爬蟲往往會采用一定的爬行策略來縮短爬行時間,比較常用的有深度優(yōu)先和廣度優(yōu)先兩種。深度優(yōu)先是指按照深度由低到高訪問鏈接,直到無法再深入;廣度優(yōu)先是指首先爬行網(wǎng)頁的淺目錄內(nèi)容,然后爬行深目錄內(nèi)容。比較常見的通用網(wǎng)絡爬蟲有 Mercator 和Google Crawler。Google Crawler 是一個分布式的爬蟲,它利用異步 I/O 來實現(xiàn)并行化,并且擁有獨立的進程來維護 URL 隊列,Google Crawler 還使用了PageRank 等多種算法來提高系統(tǒng)的性能。

        2.2聚焦網(wǎng)絡爬蟲

        聚焦網(wǎng)絡爬蟲能夠選擇性的爬行與預設主題相關的頁面。聚焦爬蟲的爬行范圍小,能夠有效的節(jié)省網(wǎng)絡資源,并且頁面更新比較快。聚焦網(wǎng)絡爬蟲的爬行策略主要由頁面的內(nèi)容評價以及連接的結構評價決定。在基于內(nèi)容評價的爬行策略中,主要采用 Fish Search 算法來評價查詢頁面與查詢主題的相關度;在基于連接結構評價的爬行策略中,主要 PageRank 算法來評價鏈接的重要性,具體就是優(yōu)先訪問 PageRank 值最大的頁面;在基于增強學習的爬行策略中,利用貝葉斯分類器對文本進行分類,從而計算出不同鏈接的重要性,從而確定訪問順序。

        2.3增量式網(wǎng)絡爬蟲

        增量式網(wǎng)頁爬蟲主要是對已經(jīng)下載的網(wǎng)頁進行更新,只爬行更新的網(wǎng)頁,從而保證刷新出的網(wǎng)頁是最新的。增量式網(wǎng)絡爬蟲一般只在頁面需要時才會開始爬行,不會重復下載沒有發(fā)生變化的網(wǎng)頁,因此在很大程度上減少了網(wǎng)絡資源的浪費,但是算法比較復雜且實現(xiàn)難度比較大。

        3 基于Python的網(wǎng)絡爬蟲分析

        3.1 Python語言的優(yōu)越性

        (1)方便簡單,容易上手。Python幾乎能在所有的操作系統(tǒng)上運行,很容易上手,初學者可以快速適應。

        (2)Python是一個廣泛使用的腳本語言,其自帶了urllib、url-lib2等爬蟲最基本的庫,可以抓取Url的內(nèi)容。

        (3)Python擅長處理字節(jié)流的各種模式,具有很好的開發(fā)速度。

        3.2 Python網(wǎng)絡爬蟲模塊

        3.2.1 Url管理模塊

        Url管理模塊的作用是管理Url,包括已經(jīng)被抓取的Url集合和還未被抓取的Url集合。Url管理模塊可以有效預防重復抓取循環(huán)抓取的問題。

        Python中實現(xiàn)網(wǎng)址管理有三種途徑:

        (1)存儲在內(nèi)存中,針對于Url數(shù)據(jù)較少的情況。在Python中用Set()集合加以實現(xiàn),Set()可以消除重復數(shù)據(jù),避免重復抓取的問題。

        (2)存儲在關系數(shù)據(jù)庫,實現(xiàn)永久存儲。建立Url表,該表中有兩個字段,一個字段是Url地址,另一個字段用來表示Url是否被抓取。

        (3)存儲在緩存數(shù)據(jù)庫redis中,針對于Url數(shù)據(jù)較多的情況下。也可以用Set()集合來實現(xiàn),來存取“待爬”的Url地址和“已爬”的Url地址。

        3.2.2 網(wǎng)頁下載器

        網(wǎng)頁下載器將Url對應的網(wǎng)頁下載到本地,將其存儲為字符串,以便接下來對數(shù)據(jù)進行處理。

        Python支持的網(wǎng)頁下載工具有兩種:Python自身攜帶的urllib2模塊。urllib2針對于簡單的網(wǎng)絡爬蟲,能夠完成網(wǎng)頁下載,提交用戶數(shù)據(jù),代理訪問,客戶登錄等多種功能。

        3.2.3 網(wǎng)頁解析器

        網(wǎng)頁解析器用來從網(wǎng)頁中提取從最初想要的數(shù)據(jù)。實則上提取的是兩部分:(1)Url列表;(2)目標數(shù)據(jù)。Python中的網(wǎng)頁解析器有兩種類型:

        (1)利用正則表達式。正則表達式將網(wǎng)頁當作字符串來處理,只適用于簡單的網(wǎng)頁。一般網(wǎng)頁較為復雜時,不采用此類方法。

        (2)基于網(wǎng)頁的DOM結構。DOM樹是一種樹形標簽結構。網(wǎng)頁解析器會將HTML文檔當成DOM樹,對其進行上下級結構的遍歷來提取有用信息。使用樹形結構可以對網(wǎng)頁中的具體信息來進行定位,定位到具體的某個節(jié)點、屬性等。其中BeautifulSoup解析器功能強大,更為盛行。BeautifulSoup利用find_all()和find()方法來搜索節(jié)點,find_all()可以查找所有符合查詢條件的標簽節(jié)點,并返回一個列表。find()方法查找符合查詢條件的第一個標簽節(jié)點。用這兩種方法搜索節(jié)點,提取有價值信息。

        參考文獻

        [1]大數(shù)據(jù)環(huán)境下的網(wǎng)絡爬蟲設計[J].郭麗蓉.山西電子技術.2018(02)

        [2]基于網(wǎng)絡爬蟲技術的時令旅游信息獲取[J].鄭鑫臻,吳韶波.物聯(lián)網(wǎng)技術.2018(05)

        [3]主題網(wǎng)絡爬蟲抓取策略的研究[J].劉清.科技廣場.2017(04)

        [4]網(wǎng)絡爬蟲技術的研究與實現(xiàn)[J].繆治.中國新通信.2019(06)

        [5]基于匿名網(wǎng)絡的網(wǎng)絡爬蟲設計與實現(xiàn)分析[J].劉煥欣.計算機產(chǎn)品與流通.2017(12)

        [6]主題網(wǎng)絡爬蟲關鍵技術的應用探討[J].楊凌云.電腦編程技巧與維護.2018(11)

        [7]網(wǎng)絡爬蟲技術在電力產(chǎn)業(yè)中的應用[J].賀冠博,蘇宇琦,黃源.電子技術與軟件工程.2017(18)

        [8]一種新的主題網(wǎng)絡爬蟲爬行策略[J].宋海洋,劉曉然,錢???計算機應用與軟件.2011(11)

        猜你喜歡
        分析
        隱蔽失效適航要求符合性驗證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        中西醫(yī)結合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        国产片精品av在线观看夜色| 国产精品一区二区久久毛片| 国产无卡视频在线观看| 日本三级吃奶头添泬| 国产真实老熟女无套内射| 国产精品区一区二区三在线播放| 少妇人妻出水中文字幕乱码| 亚洲精品午夜久久久九九 | 午夜短视频日韩免费| 日本人妖一区二区三区| 伊人久久这里只有精品 | 99亚洲精品久久久99| 欧美h久免费女| 免费一区二区在线观看视频在线| 一边做一边喷17p亚洲乱妇50p | 天堂av中文在线官网| 精品人妻少妇av中文字幕| 久久亚洲精品11p| 欧美日韩中文字幕久久伊人| 国产一区二区三区精品成人爱| 少妇无码太爽了在线播放 | 国产午夜精品理论片| 骚货人妻视频中文字幕| 丰满人妻熟妇乱又仑精品| 欧美日韩国产一区二区三区不卡 | 热re99久久精品国产66热6| 国产精品亚洲一区二区麻豆| 国产精品人妻一码二码| 成人a在线观看| 日韩中文字幕一区在线| 国产av熟女一区二区三区| 欧美国产日本高清不卡| 无码国产精品一区二区免费式芒果| 国产一区二区三区啊啊| 日本丰满熟妇videossex8k| 亚洲熟妇网| 一区二区日本免费观看| 狠狠躁18三区二区一区| 欧美性猛交xxxx黑人| 日韩精品极品在线观看视频| 美女脱了内裤露出奶头的视频|