亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)

2018-05-11 10:30:54潘巧智

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2018年5期

關(guān)鍵詞：解析器爬蟲網(wǎng)頁

◆潘巧智張磊

◆潘巧智1張磊2

(1.遼寧科技學(xué)院曙光大數(shù)據(jù)學(xué)院遼寧 117004；2.遼寧科技學(xué)院現(xiàn)代教育技術(shù)中心遼寧 117004)

本文以大數(shù)據(jù)環(huán)境為基礎(chǔ)，闡述了python網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)內(nèi)容。先介紹了python網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)內(nèi)容，包括網(wǎng)絡(luò)爬蟲技術(shù)的定義、python下網(wǎng)絡(luò)爬蟲技術(shù)的先進(jìn)性等；之后從大數(shù)據(jù)環(huán)境的角度出發(fā)，對python下網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)策略進(jìn)行研究，希望能對相關(guān)人員工作有所幫助。

大數(shù)據(jù)環(huán)境；python；網(wǎng)絡(luò)爬蟲技術(shù)

0 前言

在大數(shù)據(jù)環(huán)境下，各行各業(yè)對數(shù)據(jù)信息提出了更高的要求，在這種情況下，如何才能快速、準(zhǔn)確的獲取自己想要的信息，就需要對數(shù)據(jù)檢索技術(shù)進(jìn)行優(yōu)化。從現(xiàn)階段相關(guān)技術(shù)的發(fā)展情況來看，雖然現(xiàn)在的搜索引擎技術(shù)已經(jīng)得到了充分的發(fā)展，但是對于一些復(fù)雜的信息資料，這些搜索引擎在數(shù)據(jù)檢索中依然會出現(xiàn)一定的問題。所以為了能夠有效解決上述問題，就應(yīng)該從利用網(wǎng)絡(luò)爬蟲技術(shù)，進(jìn)一步提高數(shù)據(jù)檢索質(zhì)量。

1 python的網(wǎng)絡(luò)爬蟲技術(shù)分析

1.1網(wǎng)絡(luò)爬蟲技術(shù)的定義

網(wǎng)絡(luò)爬蟲技術(shù)又被稱為網(wǎng)絡(luò)機器人、網(wǎng)路蜘蛛，是一種按照規(guī)則，自動抓取信息的程序或者腳本。從現(xiàn)階段網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用情況來看，這一技術(shù)已經(jīng)被廣泛地應(yīng)用在互聯(lián)網(wǎng)引擎中，以便獲取更多的網(wǎng)站內(nèi)容。通過這個技術(shù)，能夠自動獲取任何權(quán)限范圍內(nèi)的信息資料，為檢索引擎對數(shù)據(jù)資料做進(jìn)一步處理奠定基礎(chǔ)，最終讓用戶能夠獲取自己想要的信息。

網(wǎng)絡(luò)爬蟲技術(shù)作為一種能夠自動獲取網(wǎng)頁信息的程序，在技術(shù)應(yīng)用階段具有明顯的先進(jìn)性，能夠為搜索引擎從互聯(lián)網(wǎng)上下載資料，并通過數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲三方面來實現(xiàn)功能。在程序運行過程中，爬蟲會從一個或者多個初始的URL開始下載網(wǎng)頁內(nèi)容，之后通過搜索或者內(nèi)容匹配的方法，從網(wǎng)頁中“抓取”感興趣內(nèi)容內(nèi)容，在“抓取”的同時，爬蟲還會持續(xù)的從網(wǎng)頁中獲取新的Url[1]。上述過程是持續(xù)進(jìn)行的，直到爬蟲所檢索的信息已經(jīng)滿足了停止條件。檢索結(jié)束后，對這些被“抓取”的數(shù)據(jù)進(jìn)行處理，并構(gòu)建索引，將其存入到相應(yīng)的文件夾或則數(shù)據(jù)庫中，最后根據(jù)查詢要求，分別從數(shù)據(jù)庫中提取數(shù)據(jù)資料，根據(jù)用戶要求的方式進(jìn)行展示。

1.2 python下網(wǎng)絡(luò)爬蟲技術(shù)的優(yōu)越性

與傳統(tǒng)技術(shù)相比，python下網(wǎng)絡(luò)爬蟲技術(shù)具有先進(jìn)性，主要集中在以下幾方面：

（1）語言簡潔，操作簡單。在基于python程序下的網(wǎng)絡(luò)爬蟲技術(shù)編寫過程中，技術(shù)人員可以快速適應(yīng)工作，不需要像傳統(tǒng)程序編寫那樣耗費過多的精力，這也是python偽代碼最本質(zhì)的特點。

（2）在利用python編寫網(wǎng)絡(luò)爬蟲技術(shù)程序時，不需要使用笨重的IDE，只需要一個文本編輯器就能滿足大部分的網(wǎng)絡(luò)爬蟲技術(shù)功能開發(fā)。

（3）python具有一個強大功能的爬蟲框架，該框架是一個基于結(jié)構(gòu)型數(shù)據(jù)提取而創(chuàng)作出來的框架，能夠為爬蟲獲取網(wǎng)站數(shù)據(jù)提供幫助。在該框架下，python的網(wǎng)絡(luò)爬蟲技術(shù)能夠快速完成數(shù)據(jù)挖掘、信息處理等多種程序任務(wù)[2-3]。

（4）python具有強大的網(wǎng)絡(luò)支持，依靠python網(wǎng)絡(luò)能力的影響，網(wǎng)絡(luò)爬蟲技術(shù)能夠更好地適應(yīng)大數(shù)據(jù)下的信息檢索要求，所以只需要編寫極少數(shù)的代碼就能基本完成下載網(wǎng)頁的任務(wù)。同時，依靠python網(wǎng)頁解析庫，網(wǎng)絡(luò)爬蟲技術(shù)能夠更好的解讀不同網(wǎng)頁的標(biāo)簽，再對標(biāo)簽進(jìn)行正式表達(dá)，提高數(shù)據(jù)抓取的質(zhì)量。

2 大數(shù)據(jù)環(huán)境下python網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)

2.1網(wǎng)絡(luò)爬蟲技術(shù)的流程與架構(gòu)

網(wǎng)絡(luò)爬蟲技術(shù)的架構(gòu)主要分為三方面，分別是爬蟲調(diào)度端、網(wǎng)絡(luò)爬蟲主程序、目標(biāo)數(shù)據(jù)等。而在此技術(shù)上，爬蟲主程序也有三方面構(gòu)成，具體信息如表1所示。

表 1 網(wǎng)絡(luò)爬蟲技術(shù)的模塊介紹

根據(jù)大數(shù)據(jù)時代下網(wǎng)絡(luò)信息處理的要求，在基于python程序下的網(wǎng)絡(luò)爬蟲技術(shù)中，需要根據(jù)爬蟲調(diào)度端所提供的信息，調(diào)動爬蟲程序獲取目標(biāo)數(shù)據(jù)，在這個過程中，爬蟲的工作程序如圖1所示。

圖 1 網(wǎng)絡(luò)爬蟲的工作程序

根據(jù)圖1所提示的相關(guān)資料，網(wǎng)絡(luò)爬蟲在獲取數(shù)據(jù)過程中，調(diào)度器需要先詢問Url管理器的信息，判斷其中是否存在待爬取的Url信息；若此時所提示的結(jié)果是肯定的，那么調(diào)度器將會從Url管理器中獲取需要第一個被爬取的地址，這樣，調(diào)度器就能通過Url所提供的地址信息資料，下載其中的網(wǎng)頁信息內(nèi)容，并將其上傳到解析器中，由解析器來分析其中是否存在有價值的信息。上述過程無限循環(huán)，直到滿足相應(yīng)的條件后才能停止，因此能夠保證信息獲取質(zhì)量。

2.2 Url管理模塊的實現(xiàn)

從上文分析可知，Url管理模塊就是對那些待被抓取的集合進(jìn)行控制，避免爬蟲在抓取過程中出現(xiàn)重復(fù)抓取的問題。因此在功能上，還需要進(jìn)一步對Url管理模塊的功能進(jìn)行優(yōu)化，確保其具有以下幾種功能：

（1）能夠判斷新的Url是否存在于已經(jīng)確定的Url集合中；

（2）能夠?qū)σ呀?jīng)確定的Url集合進(jìn)行編輯，可有將新Url模塊添加到原有的集合中；

（3）將已經(jīng)爬出的Url轉(zhuǎn)移到“已爬”的Url集合中。

針對上述提出的系統(tǒng)軟件功能，在Url管理模塊設(shè)計中，應(yīng)該采用下列幾個流程來實現(xiàn)管理模式：

（1）用內(nèi)存軟件來存儲Url的地址，尤其是針對Url數(shù)據(jù)相對較少的情況下，可以將Url存入到兩個集合中，其中分別表示“待爬”集合與“已爬”集合并，并分別從python不同的功能模塊中加以實現(xiàn)（例如“Set（）”模塊），這是因為這些模塊本身具有充分清除重復(fù)數(shù)據(jù)的作用，因此能夠提高數(shù)據(jù)處理質(zhì)量；

（2）使用關(guān)系數(shù)據(jù)來實現(xiàn)相應(yīng)的Url功能，例如技術(shù)人員可以構(gòu)建“Url表”，這個表中具有兩個字段，兩個字段分別表示相關(guān)數(shù)據(jù)是否已經(jīng)被爬取。

2.3網(wǎng)頁下載器模塊的實現(xiàn)

在對Url數(shù)據(jù)做進(jìn)一步處理過程中，需要對已經(jīng)被下載的網(wǎng)頁模塊做深入的編輯處理，并采用HTML格式，將已經(jīng)被下載的模塊，以本地字符串的形式予以表達(dá)，最終滿足網(wǎng)絡(luò)爬蟲數(shù)據(jù)處理的要求。

一般在技術(shù)應(yīng)用階段，可以借助request的第三方包進(jìn)行編輯處理。這個功能就是針對簡單的網(wǎng)絡(luò)爬蟲運行要求，采用Urllib2的形式進(jìn)行實現(xiàn)。這個模塊作為一個python官方的基礎(chǔ)模塊，在整個網(wǎng)絡(luò)爬蟲技術(shù)中，能夠完成網(wǎng)頁下載、提交用戶數(shù)據(jù)、代理訪問等多種功能，并且能滿足網(wǎng)絡(luò)爬蟲技術(shù)下文件上傳、客戶登錄等基本功能。在這個模塊功能的定義中，假設(shè)用戶在登Url時，需要操作cookie才能登錄成功。在這種情況下，就需要使用特殊的處理器，將爬蟲程序做編輯，讓這個程序能換個始終偽裝成為用戶正在瀏覽或者登錄的網(wǎng)站，這樣才能更好地獲取網(wǎng)絡(luò)數(shù)據(jù)信息。

2.4網(wǎng)頁解析器模塊的實現(xiàn)

在網(wǎng)頁解析器模塊的實現(xiàn)過程中，需要根據(jù)待提取的Url爬取列表進(jìn)行分析，并獲取其中最為關(guān)鍵的信息。因此對于網(wǎng)絡(luò)爬蟲而言，需要提取Url列表及其相應(yīng)的價值數(shù)據(jù)進(jìn)行分析。根據(jù)現(xiàn)有的python網(wǎng)頁解析器，第三方插件的解析器較為常見，能夠?qū)W(wǎng)頁字符做進(jìn)一步處理，在對全面解構(gòu)網(wǎng)頁數(shù)據(jù)資料后，依靠不同數(shù)據(jù)之間的映射關(guān)系，將網(wǎng)頁文檔做進(jìn)一步處理。在這種情況下，技術(shù)人員就能采用樹形解構(gòu)的方式，對網(wǎng)頁中的詳細(xì)資料進(jìn)行定位，并獲取有關(guān)資料的全面信息，例如信息的屬性、節(jié)點信息等；在確定資料信息之后，就能依靠相應(yīng)的訪問節(jié)點，判斷哪些是最有價值的信息，并呈獻(xiàn)給用戶。

3 結(jié)論

在大數(shù)據(jù)時代下，基于python的網(wǎng)絡(luò)爬蟲技術(shù)具有必要性，能夠滿足未來信息檢索的要求，因此具有一定的推廣價值。對于相關(guān)人員而言，在研究網(wǎng)絡(luò)爬蟲技術(shù)的相關(guān)內(nèi)容時，需要了解大數(shù)據(jù)環(huán)境下的信息處理要求，能夠從多個維度入手，對網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)策略進(jìn)行改進(jìn)，最終進(jìn)一步提高網(wǎng)絡(luò)爬蟲技術(shù)的實施效果。

[1]彭崧.基于異步JavaScript技術(shù)的水稻病蟲害圖像網(wǎng)絡(luò)爬蟲設(shè)計[J].科技視界，2017.

[2]吳睿，張俊麗.基于R語言的網(wǎng)絡(luò)爬蟲技術(shù)研究[J].科技資訊，2016.

[3]錢程，陽小蘭，朱福喜.基于Python的網(wǎng)絡(luò)爬蟲技術(shù)[J].黑龍江科技信息，2016.