亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)

        2018-05-11 10:30:54潘巧智
        關(guān)鍵詞:解析器爬蟲網(wǎng)頁

        ◆潘巧智 張 磊

        ?

        淺談大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)

        ◆潘巧智1張 磊2

        (1.遼寧科技學(xué)院曙光大數(shù)據(jù)學(xué)院 遼寧 117004;2.遼寧科技學(xué)院現(xiàn)代教育技術(shù)中心 遼寧 117004)

        本文以大數(shù)據(jù)環(huán)境為基礎(chǔ),闡述了python網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)內(nèi)容。先介紹了python網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)內(nèi)容,包括網(wǎng)絡(luò)爬蟲技術(shù)的定義、python下網(wǎng)絡(luò)爬蟲技術(shù)的先進(jìn)性等;之后從大數(shù)據(jù)環(huán)境的角度出發(fā),對python下網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)策略進(jìn)行研究,希望能對相關(guān)人員工作有所幫助。

        大數(shù)據(jù)環(huán)境;python;網(wǎng)絡(luò)爬蟲技術(shù)

        0 前言

        在大數(shù)據(jù)環(huán)境下,各行各業(yè)對數(shù)據(jù)信息提出了更高的要求,在這種情況下,如何才能快速、準(zhǔn)確的獲取自己想要的信息,就需要對數(shù)據(jù)檢索技術(shù)進(jìn)行優(yōu)化。從現(xiàn)階段相關(guān)技術(shù)的發(fā)展情況來看,雖然現(xiàn)在的搜索引擎技術(shù)已經(jīng)得到了充分的發(fā)展,但是對于一些復(fù)雜的信息資料,這些搜索引擎在數(shù)據(jù)檢索中依然會出現(xiàn)一定的問題。所以為了能夠有效解決上述問題,就應(yīng)該從利用網(wǎng)絡(luò)爬蟲技術(shù),進(jìn)一步提高數(shù)據(jù)檢索質(zhì)量。

        1 python的網(wǎng)絡(luò)爬蟲技術(shù)分析

        1.1網(wǎng)絡(luò)爬蟲技術(shù)的定義

        網(wǎng)絡(luò)爬蟲技術(shù)又被稱為網(wǎng)絡(luò)機器人、網(wǎng)路蜘蛛,是一種按照規(guī)則,自動抓取信息的程序或者腳本。從現(xiàn)階段網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用情況來看,這一技術(shù)已經(jīng)被廣泛地應(yīng)用在互聯(lián)網(wǎng)引擎中,以便獲取更多的網(wǎng)站內(nèi)容。通過這個技術(shù),能夠自動獲取任何權(quán)限范圍內(nèi)的信息資料,為檢索引擎對數(shù)據(jù)資料做進(jìn)一步處理奠定基礎(chǔ),最終讓用戶能夠獲取自己想要的信息。

        網(wǎng)絡(luò)爬蟲技術(shù)作為一種能夠自動獲取網(wǎng)頁信息的程序,在技術(shù)應(yīng)用階段具有明顯的先進(jìn)性,能夠為搜索引擎從互聯(lián)網(wǎng)上下載資料,并通過數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲三方面來實現(xiàn)功能。在程序運行過程中,爬蟲會從一個或者多個初始的URL開始下載網(wǎng)頁內(nèi)容,之后通過搜索或者內(nèi)容匹配的方法,從網(wǎng)頁中“抓取”感興趣內(nèi)容內(nèi)容,在“抓取”的同時,爬蟲還會持續(xù)的從網(wǎng)頁中獲取新的Url[1]。上述過程是持續(xù)進(jìn)行的,直到爬蟲所檢索的信息已經(jīng)滿足了停止條件。檢索結(jié)束后,對這些被“抓取”的數(shù)據(jù)進(jìn)行處理,并構(gòu)建索引,將其存入到相應(yīng)的文件夾或則數(shù)據(jù)庫中,最后根據(jù)查詢要求,分別從數(shù)據(jù)庫中提取數(shù)據(jù)資料,根據(jù)用戶要求的方式進(jìn)行展示。

        1.2 python下網(wǎng)絡(luò)爬蟲技術(shù)的優(yōu)越性

        與傳統(tǒng)技術(shù)相比,python下網(wǎng)絡(luò)爬蟲技術(shù)具有先進(jìn)性,主要集中在以下幾方面:

        (1)語言簡潔,操作簡單。在基于python程序下的網(wǎng)絡(luò)爬蟲技術(shù)編寫過程中,技術(shù)人員可以快速適應(yīng)工作,不需要像傳統(tǒng)程序編寫那樣耗費過多的精力,這也是python偽代碼最本質(zhì)的特點。

        (2)在利用python編寫網(wǎng)絡(luò)爬蟲技術(shù)程序時,不需要使用笨重的IDE,只需要一個文本編輯器就能滿足大部分的網(wǎng)絡(luò)爬蟲技術(shù)功能開發(fā)。

        (3)python具有一個強大功能的爬蟲框架,該框架是一個基于結(jié)構(gòu)型數(shù)據(jù)提取而創(chuàng)作出來的框架,能夠為爬蟲獲取網(wǎng)站數(shù)據(jù)提供幫助。在該框架下,python的網(wǎng)絡(luò)爬蟲技術(shù)能夠快速完成數(shù)據(jù)挖掘、信息處理等多種程序任務(wù)[2-3]。

        (4)python具有強大的網(wǎng)絡(luò)支持,依靠python網(wǎng)絡(luò)能力的影響,網(wǎng)絡(luò)爬蟲技術(shù)能夠更好地適應(yīng)大數(shù)據(jù)下的信息檢索要求,所以只需要編寫極少數(shù)的代碼就能基本完成下載網(wǎng)頁的任務(wù)。同時,依靠python網(wǎng)頁解析庫,網(wǎng)絡(luò)爬蟲技術(shù)能夠更好的解讀不同網(wǎng)頁的標(biāo)簽,再對標(biāo)簽進(jìn)行正式表達(dá),提高數(shù)據(jù)抓取的質(zhì)量。

        2 大數(shù)據(jù)環(huán)境下python網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)

        2.1網(wǎng)絡(luò)爬蟲技術(shù)的流程與架構(gòu)

        網(wǎng)絡(luò)爬蟲技術(shù)的架構(gòu)主要分為三方面,分別是爬蟲調(diào)度端、網(wǎng)絡(luò)爬蟲主程序、目標(biāo)數(shù)據(jù)等。而在此技術(shù)上,爬蟲主程序也有三方面構(gòu)成,具體信息如表1所示。

        表 1 網(wǎng)絡(luò)爬蟲技術(shù)的模塊介紹

        根據(jù)大數(shù)據(jù)時代下網(wǎng)絡(luò)信息處理的要求,在基于python程序下的網(wǎng)絡(luò)爬蟲技術(shù)中,需要根據(jù)爬蟲調(diào)度端所提供的信息,調(diào)動爬蟲程序獲取目標(biāo)數(shù)據(jù),在這個過程中,爬蟲的工作程序如圖1所示。

        圖 1 網(wǎng)絡(luò)爬蟲的工作程序

        根據(jù)圖1所提示的相關(guān)資料,網(wǎng)絡(luò)爬蟲在獲取數(shù)據(jù)過程中,調(diào)度器需要先詢問Url管理器的信息,判斷其中是否存在待爬取的Url信息;若此時所提示的結(jié)果是肯定的,那么調(diào)度器將會從Url管理器中獲取需要第一個被爬取的地址,這樣,調(diào)度器就能通過Url所提供的地址信息資料,下載其中的網(wǎng)頁信息內(nèi)容,并將其上傳到解析器中,由解析器來分析其中是否存在有價值的信息。上述過程無限循環(huán),直到滿足相應(yīng)的條件后才能停止,因此能夠保證信息獲取質(zhì)量。

        2.2 Url管理模塊的實現(xiàn)

        從上文分析可知,Url管理模塊就是對那些待被抓取的集合進(jìn)行控制,避免爬蟲在抓取過程中出現(xiàn)重復(fù)抓取的問題。因此在功能上,還需要進(jìn)一步對Url管理模塊的功能進(jìn)行優(yōu)化,確保其具有以下幾種功能:

        (1)能夠判斷新的Url是否存在于已經(jīng)確定的Url集合中;

        (2)能夠?qū)σ呀?jīng)確定的Url集合進(jìn)行編輯,可有將新Url模塊添加到原有的集合中;

        (3)將已經(jīng)爬出的Url轉(zhuǎn)移到“已爬”的Url集合中。

        針對上述提出的系統(tǒng)軟件功能,在Url管理模塊設(shè)計中,應(yīng)該采用下列幾個流程來實現(xiàn)管理模式:

        (1)用內(nèi)存軟件來存儲Url的地址,尤其是針對Url數(shù)據(jù)相對較少的情況下,可以將Url存入到兩個集合中,其中分別表示“待爬”集合與“已爬”集合并,并分別從python不同的功能模塊中加以實現(xiàn)(例如“Set()”模塊),這是因為這些模塊本身具有充分清除重復(fù)數(shù)據(jù)的作用,因此能夠提高數(shù)據(jù)處理質(zhì)量;

        (2)使用關(guān)系數(shù)據(jù)來實現(xiàn)相應(yīng)的Url功能,例如技術(shù)人員可以構(gòu)建“Url表”,這個表中具有兩個字段,兩個字段分別表示相關(guān)數(shù)據(jù)是否已經(jīng)被爬取。

        2.3網(wǎng)頁下載器模塊的實現(xiàn)

        在對Url數(shù)據(jù)做進(jìn)一步處理過程中,需要對已經(jīng)被下載的網(wǎng)頁模塊做深入的編輯處理,并采用HTML格式,將已經(jīng)被下載的模塊,以本地字符串的形式予以表達(dá),最終滿足網(wǎng)絡(luò)爬蟲數(shù)據(jù)處理的要求。

        一般在技術(shù)應(yīng)用階段,可以借助request的第三方包進(jìn)行編輯處理。這個功能就是針對簡單的網(wǎng)絡(luò)爬蟲運行要求,采用Urllib2的形式進(jìn)行實現(xiàn)。這個模塊作為一個python官方的基礎(chǔ)模塊,在整個網(wǎng)絡(luò)爬蟲技術(shù)中,能夠完成網(wǎng)頁下載、提交用戶數(shù)據(jù)、代理訪問等多種功能,并且能滿足網(wǎng)絡(luò)爬蟲技術(shù)下文件上傳、客戶登錄等基本功能。在這個模塊功能的定義中,假設(shè)用戶在登Url時,需要操作cookie才能登錄成功。在這種情況下,就需要使用特殊的處理器,將爬蟲程序做編輯,讓這個程序能換個始終偽裝成為用戶正在瀏覽或者登錄的網(wǎng)站,這樣才能更好地獲取網(wǎng)絡(luò)數(shù)據(jù)信息。

        2.4網(wǎng)頁解析器模塊的實現(xiàn)

        在網(wǎng)頁解析器模塊的實現(xiàn)過程中,需要根據(jù)待提取的Url爬取列表進(jìn)行分析,并獲取其中最為關(guān)鍵的信息。因此對于網(wǎng)絡(luò)爬蟲而言,需要提取Url列表及其相應(yīng)的價值數(shù)據(jù)進(jìn)行分析。根據(jù)現(xiàn)有的python網(wǎng)頁解析器,第三方插件的解析器較為常見,能夠?qū)W(wǎng)頁字符做進(jìn)一步處理,在對全面解構(gòu)網(wǎng)頁數(shù)據(jù)資料后,依靠不同數(shù)據(jù)之間的映射關(guān)系,將網(wǎng)頁文檔做進(jìn)一步處理。在這種情況下,技術(shù)人員就能采用樹形解構(gòu)的方式,對網(wǎng)頁中的詳細(xì)資料進(jìn)行定位,并獲取有關(guān)資料的全面信息,例如信息的屬性、節(jié)點信息等;在確定資料信息之后,就能依靠相應(yīng)的訪問節(jié)點,判斷哪些是最有價值的信息,并呈獻(xiàn)給用戶。

        3 結(jié)論

        在大數(shù)據(jù)時代下,基于python的網(wǎng)絡(luò)爬蟲技術(shù)具有必要性,能夠滿足未來信息檢索的要求,因此具有一定的推廣價值。對于相關(guān)人員而言,在研究網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)內(nèi)容時,需要了解大數(shù)據(jù)環(huán)境下的信息處理要求,能夠從多個維度入手,對網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)策略進(jìn)行改進(jìn),最終進(jìn)一步提高網(wǎng)絡(luò)爬蟲技術(shù)的實施效果。

        [1]彭崧.基于異步JavaScript技術(shù)的水稻病蟲害圖像網(wǎng)絡(luò)爬蟲設(shè)計[J].科技視界,2017.

        [2]吳睿,張俊麗.基于R語言的網(wǎng)絡(luò)爬蟲技術(shù)研究[J].科技資訊,2016.

        [3]錢程,陽小蘭,朱福喜.基于Python的網(wǎng)絡(luò)爬蟲技術(shù)[J].黑龍江科技信息,2016.

        猜你喜歡
        解析器爬蟲網(wǎng)頁
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于多解析器的域名隱私保護(hù)機制
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        基于Wireshark的列控中心以太網(wǎng)通信協(xié)議解析器的研究與實現(xiàn)
        如何防御DNS陷阱?常用3種DNS欺騙手法
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        一種基于無關(guān)DNS的通信隱私保護(hù)技術(shù)研究
        電子世界(2018年14期)2018-04-15 16:14:25
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        香蕉免费一区二区三区| 亚洲av网站首页在线观看| 女同舌吻互慰一区二区| 免费午夜爽爽爽www视频十八禁| 人妻激情另类乱人伦人妻| 亚洲av永久无码天堂网手机版| 成人国产精品一区二区网站| 日本道免费一区日韩精品| 日本一二三区免费在线| 人与动牲交av免费| 中文字幕第一页亚洲| 91青青草在线观看视频| 国产日产久久高清ww| 内地老熟女老少配视频| 亚洲综合色一区二区三区小说| 免费的黄网站精品久久| 国产一区二区三区我不卡| 国内精品卡一卡二卡三| 亚洲高清无码第一| 国产高清不卡在线视频| 欧美疯狂性受xxxxx喷水| 中文国产日韩欧美二视频| 9久9久女女热精品视频免费观看| 久久久精品网站免费观看| 男女性杂交内射女bbwxz| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交| 亚欧免费视频一区二区三区| 国产精品高清国产三级国产av | 久久久亚洲精品免费视频| 东北熟妇露脸25分钟| 挺进朋友人妻雪白的身体韩国电影| 久久国产亚洲精品超碰热| 青青草成人免费播放视频| 色欲人妻aaaaaaa无码| 毛片免费全部无码播放| 亚洲av精品一区二区三| 91丝袜美腿亚洲一区二区 | 真正免费一级毛片在线播放| 亚洲视频在线中文字幕乱码| 国产精品偷窥熟女精品视频| 国产大学生粉嫩无套流白浆|