亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Scrapy的分布式網(wǎng)頁及文件爬蟲應(yīng)用的研究

2020-03-02 01:14:16張捷郝建維李歡歡

科技創(chuàng)新導(dǎo)報 2020年21期

張捷郝建維李歡歡

摘? 要：隨著移動互聯(lián)網(wǎng)、大數(shù)據(jù)以及人工智能時代的到來，數(shù)據(jù)在整個互聯(lián)網(wǎng)體系中的地位顯得越來越重要，而數(shù)據(jù)體量的大小對大數(shù)據(jù)的分析以及人工智能的最終學(xué)習(xí)成果也有著深刻影響。但是目前的現(xiàn)狀是，全世界范圍內(nèi)的大多數(shù)企業(yè)都深陷數(shù)據(jù)不完善或者數(shù)據(jù)體量太小的窘境，尤其對新創(chuàng)企業(yè)和小微型企業(yè)來說，這個已經(jīng)成為了它們生存和發(fā)展的桎梏。因此，能夠從無時無刻抓取大量數(shù)據(jù)的爬蟲就顯得尤為必要，故而我們深入地研究網(wǎng)絡(luò)爬蟲是非常有必要的。本文將會通過基于twisted的異步爬蟲框架Scrapy，對網(wǎng)絡(luò)爬蟲進行研究，并實現(xiàn)抓取互聯(lián)網(wǎng)頁數(shù)據(jù)以及文件文本數(shù)據(jù)的分布式策略。

關(guān)鍵詞：Scrapy? Python? 爬蟲? 分布式? 文件? 網(wǎng)頁

中圖分類號：TP391.3 ? ? ? ? ? 文獻標識碼：A 文章編號：1674-098X（2020）07（c）-0149-05

Abstract： With the advent of the mobile Internet， big data and artificial intelligence era， the status of data in the entire Internet system is becoming more and more important， and the amount of data has a profound impact on the analysis of big data and the final learning results of artificial intelligence. However， the current status quo is that most companies around the world are deeply mired in data imperfections or too small data volume， especially for new ventures and small and micro enterprises， which have become their survival and development. Therefore， it is especially necessary to be able to crawl large amounts of data from time to time， so it is very necessary for us to study web crawlers in depth. This article will explore the layer web crawler through the twisted asynchronous crawler framework Scrapy， and implement the strategy of crawling Internet page data and file text data.

Key Words： Scrapy;Python;Crawler;Distributed;File;WebPage

1? 引言

隨著互聯(lián)網(wǎng)在人類經(jīng)濟社會中的應(yīng)用日益廣泛，其所涵蓋的信息規(guī)模呈指數(shù)增長，信息的形式和分布具有多樣化、全球化特征。專業(yè)化的信息獲取和加工需求，正面臨著巨大的挑戰(zhàn)。如何獲取互聯(lián)網(wǎng)中的有效信息？這就促進了“爬蟲”技術(shù)的飛速發(fā)展。

傳統(tǒng)的爬蟲對于網(wǎng)頁內(nèi)容信息的關(guān)注遠遠大于其他形式的存儲的信息。然而，互聯(lián)網(wǎng)作為人類巨大的數(shù)據(jù)寶庫，并不僅僅只存有網(wǎng)頁內(nèi)容信息，還存在極其龐大的各種各樣格式的文件信息。

本文將以Scrapy為框架，對以文件和網(wǎng)頁進行抓取并進行內(nèi)容解析的分布式爬蟲進行研究和設(shè)計。

2? 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲，是一種按照一定的規(guī)則，自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本。網(wǎng)絡(luò)爬蟲一般從一個url開始，通過獲取網(wǎng)頁內(nèi)容，并識別網(wǎng)頁上的其它url，放入url隊列中，再不斷地從隊列中獲取url重復(fù)上述過程，直至url集合為空。

對于爬蟲的分類，我們可以從爬蟲面向的對象和url入隊方式的不同，分為以下四種。

（1）通用網(wǎng)絡(luò)爬蟲，又稱為全網(wǎng)爬蟲，一般搜索引擎采用這種類別的爬蟲。通用爬蟲可以以一定數(shù)量的種子url開始，對整個互聯(lián)網(wǎng)的網(wǎng)絡(luò)信息進行采集，供搜索引擎使用。這類爬蟲的爬取范圍和數(shù)量巨大，對速度和存儲有著很高的要求。基于這兩點要求，通用爬蟲一般會采取一定的策略，常見策略有：廣度優(yōu)先策略和深度優(yōu)先策略。

①廣度優(yōu)先策略：其基本原理是按照深度由小到大的順序，依次訪問url，直到?jīng)]有url可以訪問為止。爬蟲在訪問一條分支后返回到最后url的上一級搜索其它url，直至所有的url訪問完畢。這種策略一般使用于垂直搜索。

②深度優(yōu)先策略：這種策略將所有url劃分為多層，當同一層的鏈接訪問完畢后才深入到下層鏈接進行訪問，直到所有的鏈接訪問完畢。這種策略對爬蟲訪問的深度能夠很好控制，防止爬蟲進入過深的分支。

（2）聚焦網(wǎng)絡(luò)爬蟲，又叫定向爬蟲，是指有選擇性地爬取指定內(nèi)容或特定鏈接的網(wǎng)絡(luò)爬蟲。聚焦網(wǎng)絡(luò)爬蟲引入了評分模塊，針對網(wǎng)頁內(nèi)容或鏈接信息對其進行評分，不同的評分，訪問的優(yōu)先級也不同。

（3）增量式網(wǎng)絡(luò)爬蟲是指只爬取新產(chǎn)生的或發(fā)生內(nèi)容改變的網(wǎng)頁的爬蟲，對已經(jīng)爬取的并且沒有內(nèi)容變化的網(wǎng)頁不進行采集。

（4）深層網(wǎng)絡(luò)爬蟲一般是指爬取深層網(wǎng)絡(luò)頁面的網(wǎng)絡(luò)爬蟲。深層網(wǎng)絡(luò)頁面是相對于能夠任意訪問的表層網(wǎng)絡(luò)頁面而言的，一般類似于用戶需要登錄或需要提交關(guān)鍵字才能訪問的頁面，我們就稱之為深層網(wǎng)絡(luò)頁面。

3? Scrapy原理介紹

Scrapy是Python開發(fā)的一個以twisted異步網(wǎng)絡(luò)通信為核心的網(wǎng)絡(luò)爬蟲框架。因為其靈活性和易擴展性讓Scrapy廣為人們使用，且用途非常廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試等。

Scrapy的總體架構(gòu)可以分為以下部分：

（1）引擎（Engine），主要負責Spider、Downloader、Itempiplien以及Scheduler之間通信，信號和數(shù)據(jù)傳遞。

（2）調(diào)度器（Scheduler），接收Engine傳遞過來的Request請求，將請求整理，入隊，并且在Engine需要Request的時候，將Request傳遞給Engine。

（3）下載器（Downloader），下載Engine推送的Request，并將下載好的Response返回給Engine。

（4）爬蟲（Spiders），接收Engine推送的Response，解析Reponse內(nèi)容，并根據(jù)內(nèi)容獲取Item需要的數(shù)據(jù)，并且提取頁面相關(guān)鏈接，重新生成Request推送給Engine，由Engine交由Scheduler。

（5）項目管道（Pipeline），負責處理爬蟲從網(wǎng)頁中抽取的實體，并對實體進行業(yè)務(wù)操作。

（6）下載器中間件（Downloader Middewares），介于Engine和Downloader之間，主要處理兩者之間的請求和響應(yīng)。

（7）爬蟲中間件（Spiders Middewares），介于Engine和Spider之間，主要工作是處理Spider的響應(yīng)輸入和請求輸出。

（8）調(diào)度器中間件（Scheduler Middewares），介于Scrapy引擎和調(diào)度之間的中間件，處理從Scrapy引擎發(fā)送到調(diào)度的請求和響應(yīng)。

5種核心組件極其中間鍵通過異步網(wǎng)絡(luò)進行通信，各自完成自己的功能而不依賴于其他組件的裝填。正是這種通過異步網(wǎng)絡(luò)通信的低耦合架構(gòu)，讓Scrapy在解析url，下載內(nèi)容，實體處理上有著非常高的效率。

4? 分布式網(wǎng)頁及文件爬蟲解決方案

雖然異步網(wǎng)絡(luò)通信架構(gòu)使Scrapy能在短時間訪問大量的鏈接，但是相較于互聯(lián)網(wǎng)龐大的數(shù)據(jù)體量而言，還是顯得力不從心。于是我們考慮設(shè)計分布式的爬蟲架構(gòu)來滿足現(xiàn)在的互聯(lián)網(wǎng)的需求。

我們可以使用Scrapy-Redis組件來擴展Scrapy，Scrapy-Redis 是為了更方便地實現(xiàn) Scrapy 分布式爬取而提供的一些以 Redis 為基礎(chǔ)的組件。然而Scrapy-Redis對Redis去重隊列的策略仍存在著一些弊端，導(dǎo)致隊列無限地增長。如何優(yōu)化Scrapy-Redis，并實現(xiàn)網(wǎng)頁和文件的爬取將是接下來的主要內(nèi)容。

4.1 Scrapy-Redis的去重優(yōu)化

Scrapy去重在配置文件中去重是默認開啟，主要通過RFPDupeFilter類進行去重，通過查看RFPDupeFilter類源碼，可看到去重的核心是request_seen方法，其代碼如下：

def request_seen（self， request）

fp = request_fingerprint（request）

added = self.server.sadd（self.key， fp）

return not added

其中request_fingerprint方法對requset進行sha1加密，將加密過后的密文存儲到Redis的dupefilter去重隊列中，當Spider之后每次獲取網(wǎng)頁上連接生成request后，再一次通過requset進行加密，并與dupefilter隊列中的數(shù)據(jù)進行比較，如果發(fā)現(xiàn)有重復(fù)數(shù)據(jù)，則當前request不進入Scheduler的url隊列中。然而，dupefilter隊列會隨著訪問的鏈接增長而持續(xù)增長，這樣就會消耗大量的內(nèi)存資源和比較request的時間資源。

Bloom filter 是由 Howard Bloom 在1970年提出的二進制向量數(shù)據(jù)結(jié)構(gòu)，它具有很好的空間和時間效率，被用來檢測一個元素是不是集合中的一個成員。如果檢測結(jié)果為是，該元素不一定在集合中;但如果檢測結(jié)果為否，該元素一定不在集合中。因此Bloom filter具有100%的召回率。利用Bloolm的特性，我們可以優(yōu)化scrapy的去重隊列。

通過重寫request_seen（）方法，使用Redis的Bloolm類對入隊過程進行改寫，Bloolm filter的特性快速的判斷request是否存在，如果存在，則不將request放入url隊列。通過重寫后代碼如下：

def request_seen（self， request）：

fp = request_fingerprint（request）

if self.bf.isContains（fp）：? ? # 如果已經(jīng)存在

return True

else：

self.bf.insert（fp）

return False

至此，我們通過Bloolm filter改寫后的去重組件，能夠極大地提升我們的去重效率和內(nèi)存資源。

4.2 網(wǎng)頁和文件的策略

4.2.1 網(wǎng)頁爬蟲策略

Scrapy爬取數(shù)據(jù)過程可以分為定義實體（Item）、抽取內(nèi)容（Spider），存儲實體（Pipeline）三個部分，通過這三個部分，能夠快速地實現(xiàn)一個網(wǎng)頁爬蟲，這也是Scrapy框架流行的重要原因。

（1）Item是保存爬取到的數(shù)據(jù)容器，使用方法和Python字典類似。根據(jù)從網(wǎng)頁上獲取到的數(shù)據(jù)對Item進行統(tǒng)一建模。從而在Item中定義相應(yīng)的字段field。示例代碼如下：

class CrawlerItem（scrapy.Item）：

#標題

title = scrapy.Field（）;

#內(nèi)容

content = scrapy.Field（）;

#鏈接

hrefs = scrapy.Field（）;

#url

url = scrapy.Field（）;

（2）Sprider的parse方法是抽取內(nèi)容的主要方法，Spider類必須繼承scrapy-redis. spiders.RedisSpider類以實現(xiàn)分布式采集，Spider采集過程是，首先從Redis的start_url中讀取種子url，由Download下載返回response，Engine會將response傳遞給spider的parse方法，由parse方法對reponse進行處理，并返回request生成器和item生成器。抽取頁面內(nèi)容時，可以使用xpath模塊。Scrapy內(nèi)置對xpath支持，能夠快速地提取頁面內(nèi)容。代碼如下：

def parse（self， response）：

url = response.url;

item = CrawlerItem（）;

item['title'] = response.xpath（

'//head/title/text（）'）.extract（）;

item['content'] =self._get_content（

response.body.decode（response.encoding））

item['url'] = response.url;

item['hrefs'] = self._get_href（response）;

yield item;

for href in item['hrefs']：

yield Request（url= href，

callback=self.parse）;

（3）Pipeline是數(shù)據(jù)存儲的管道，parse提取的Item由Enginec傳遞給Pipeline，調(diào)用Pipeline的process_item方法對Item進行存儲操作，示例如下：。

def process_item（self， item， spider）;

#處理數(shù)據(jù)

logger.info（item['url']+'? has crawled'）;

通過這三個部分的簡單實現(xiàn)，一個能夠爬取網(wǎng)頁的標題，內(nèi)容，頁面鏈接以及當前頁面的通用型網(wǎng)頁爬蟲產(chǎn)生了。常見的互聯(lián)網(wǎng)頁面就可以通過該爬蟲進行采集。

4.2.2 文件爬蟲策略

文件爬蟲的策略整個流程與與網(wǎng)頁爬蟲的策略相似，而且Scrapy支持FTP形式的文件爬蟲，但是Scrapy的FTP并不能對整個文件節(jié)點的文件進行下載，只能手動地推送文件的url，對該url的單個文件進行下載。而我們希望通過配置FTP的根節(jié)點，來采集整個FTP節(jié)點的所有文件，并解析文件內(nèi)容。我們對原Scrapy的FTP爬蟲框架進行優(yōu)化，以支持FTP節(jié)點的整體下載。

Scrapy主要通過FTPDownloadHandler類對文件進行下載，該類中由download_request方法生成FTP連接生成器對象，gotClient方法通過生成器對象來獲取FTP的客戶端，并通過_build_response私有方法下載文件，如果文件出現(xiàn)錯誤，則由_failed方法返回錯誤內(nèi)容。

gotClient方法只能下載文件，如果url為文件夾路徑，則會返回錯誤信息。gotClient源碼如下：

def gotClient（self， client， request， filepath）：

self.client = client

protocol = ReceivedDataProtocol

（request.meta.get（"ftp_local_filename"））

return client.retrieveFile（filepath， protocol）

.addCallbacks（callback=self._build_response，

callbackArgs=（request， protocol），

errback=self._failed，

errbackArgs=（request，））

通過集成FTPDownloadHandler類，重寫gotClient方法，我們可以實現(xiàn)當url為文件夾路徑時，獲取該路徑下的文件名，并將文件名放入response中返回，交由spider處理，當url為文件路徑時，下載文件，返回response。另外，通過對response.meta.file_type進行設(shè)置，當url為文件夾時設(shè)置為dir，為文件時設(shè)置為file來判別url的類型。實現(xiàn)代碼如下：

def gotClient（self， client， request， filepath）：

self.client = client

protocol = ReceivedDataProtocol（request.meta.get（"ftp_local_filename"））

if （not 'file_type' in request.meta） or （'dir' in request.meta['file_type']）：

return client.list（filepath， protocol）＼

.addCallbacks（callback=self._build_response，

callbackArgs=（request， protocol），

errback=self._failed，

errbackArgs=（request，））

else：

return client.retrieveFile（filepath， protocol）＼

.addCallbacks（callback=self._build_response，

callbackArgs=（request， protocol），

errback=self._failed，

errbackArgs=（request，））

Spider獲取到reponse后，判斷response.meta.file_type，如果為dir，則解析reponse的文件名，并生成相應(yīng)的url，包裝成Request放入Scheduler的url隊列;如果為file，則抽取相應(yīng)內(nèi)容，存儲實體。spider代碼如下：

def parse（self， response）：

item = CrawlerItem（）;

url = response.url;

ftp_user = response.meta['ftp_user'];

ftp_password = response.meta['ftp_password'];

#當文件為文件夾或者file_type 為None時，獲取當前文件夾下的所有文檔及文件夾

if （not 'file_type' in response.meta） or （'dir' in response.meta['file_type']）：

content = response.body.decode（'latin-1'）

line = content.split（'＼r＼n'）;

re_fileName = re.compile（'[^＼s]+'， re.I）

for files in line：

#判斷目錄

#通過空格分隔信息

infos = re_fileName.findall（files）;

if not infos：

continue;

file_name = infos[-1];

if '

' in files：

req = Request（ url = url+'/'+file_name，meta={'file_type'：'dir'，'ftp_user'：ftp_user，'ftp_password'：ftp_password}，callback=self.parse，dont_filter=True）;

else：

req = Request（ url = url+'/'+file_name，meta={'file_type'：'file'，'ftp_user'：ftp_user，'ftp_password'：ftp_password}，callback=self.parse）;

yield req;

logger.debug（response.body.decode（'gbk'）+' has puted in quee'）;

else：

util = FileUtil（）;

file_name = url.split（'/'）[-1];

item['content'] =util.get_content（file_name，response.body）;

url = parse.unquote（url）;

title = url.split（'/'）[-1];

item['title'] = title.encode（encoding='latin-1'）.decode（'gbk'）;

item['url'] = url;

yield item;

至此，一個FTP節(jié)點爬蟲就實現(xiàn)了，我們可以通過配置根節(jié)點url到start_url隊列中，來采集整個FTP節(jié)點的文件內(nèi)容。

5? 結(jié)語

Scrapy雖然有著擴展性好。易于開發(fā)的特點，但是單節(jié)點的爬取方式已經(jīng)不能適應(yīng)信息指數(shù)式增長大數(shù)據(jù)時代，而集成了scrapy-redis組件的Scrapy雖然能夠分布式部署，但是內(nèi)存會持續(xù)消耗，并且速度也會逐漸降低。

優(yōu)化后的scrapy-redis，大大降低了內(nèi)存使用量，在速度上也有所提升。另外，文件節(jié)點整體爬取的問題也得到了有效的解決，能夠滿足現(xiàn)有互聯(lián)網(wǎng)信息爬取的大部分需求。

參考文獻

[1] 李光敏，李平，汪聰.基于Scrapy的分布式數(shù)據(jù)采集與分析——以知乎話題為例[J].湖北師范大學(xué)學(xué)報：自然科學(xué)版，2019，39（3）：1-7.

[2] 華云彬，匡芳君.基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[J].智能計算機與應(yīng)用，2018，8（5）：46-50.

[3] 陶興海.基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲實現(xiàn)[J].電子技術(shù)與軟件工程，2017（11）：23.

[4] 李代祎，謝麗艷，錢慎一，等.基于Scrapy的分布式爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[J].湖北民族學(xué)院學(xué)報：自然科學(xué)版，2017，35（3）：317-322.

[5] 舒德華.基于Scrapy爬取電商平臺數(shù)據(jù)及自動問答系統(tǒng)的構(gòu)建[D].武漢：華中師范大學(xué)，2016.

[6] 樊宇豪.基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計與實現(xiàn)[D].成都：電子科技大學(xué)，2018.

[7] 李代祎，謝麗艷，錢慎一，等.基于Scrapy的分布式爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[J].湖北民族學(xué)院學(xué)報（自然科學(xué)版），2017，35（3）：317-322.

[8] 張靖宇，梁久禎.中文網(wǎng)頁分布式并行索引的設(shè)計與實現(xiàn)[J].微計算機信息，2010，26（15）：127-128，191.

科技創(chuàng)新導(dǎo)報2020年21期

科技創(chuàng)新導(dǎo)報的其它文章: 項目教學(xué)法在中職維修電工實訓(xùn)教學(xué)中的實施研究; 微信結(jié)合CBL在核醫(yī)學(xué)住院醫(yī)師規(guī)范化培訓(xùn)中的應(yīng)用及評價; 信息化背景下“金課”打造在高職高專軟件開發(fā)類課程中的實踐探索; 基于TRIZ理論的創(chuàng)新型人才培養(yǎng)途徑分析; STEAM趣味演示實驗在高職物理教學(xué)中的實踐探究; 高職汽車專業(yè)教改中的生本原則定位及實踐