日本激情网址,美女一级毛片免费观看97,国产综合久久久久影院

Scrapy是一個開源協(xié)作的框架，基于Twisted，它適用于Python快速、高層次地進(jìn)行屏幕抓取和抓取web站點(diǎn)信息，從頁面中提取結(jié)構(gòu)化數(shù)據(jù)，常用于數(shù)據(jù)挖掘、信息處理或存儲歷史數(shù)據(jù)等程序中[1]。它提供的框架結(jié)構(gòu)簡單明了，架構(gòu)清晰，模塊之間耦合程度低，擴(kuò)展性很強(qiáng)，任何人可以根據(jù)爬取數(shù)據(jù)的需要對其進(jìn)行修改，代碼編寫簡單。其還提供了如BaseSpider、sitemap等爬蟲基類，功能強(qiáng)大，適用面廣泛[2]。

● Engine，它是整個框架的核心，主要處理整個系統(tǒng)的數(shù)據(jù)流，觸發(fā)事務(wù)。

● Item，定義爬取數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)，爬取到的數(shù)據(jù)會被賦值成該對象。編寫者要根據(jù)爬取對象自己編寫代碼定義其數(shù)據(jù)結(jié)構(gòu)。

● Scheduler，接受Engine發(fā)過來的請求并加入到隊列中，在Engine再次請求的時候提供給Engine。

● Downloader，下載網(wǎng)頁的內(nèi)容，并將網(wǎng)頁內(nèi)容返回給Spiders。

● Spiders，定義爬取的邏輯和網(wǎng)頁解析規(guī)則，主要負(fù)責(zé)解析響應(yīng)并生成提取結(jié)果和新請求。這部分需要編寫者根據(jù)網(wǎng)頁信息和爬蟲的邏輯自己編寫。

● Item Pipeline，將從Spiders要爬取的網(wǎng)頁中抽取的項目進(jìn)行處理，清洗、驗證和存儲爬取到的數(shù)據(jù)。這部分需要編寫者根據(jù)爬取結(jié)果存儲形式和后續(xù)用途自己編寫。

● Downloader Middlewares，和Downloader之間的連接，處理二者之間的請求和響應(yīng)。

● Spider Middlewares，Engine和Spiders之間的連接，處理Spiders輸入輸出的響應(yīng)和新的請求。

首先，先找到目標(biāo)網(wǎng)站，然后抓取URL頁面的內(nèi)容。根據(jù)response的內(nèi)容對頁面進(jìn)行分析、抓取，最后將抓取到的數(shù)據(jù)進(jìn)行存儲。這些模塊形成一個循環(huán)，直至要抓取的URL為空，網(wǎng)頁抓取就結(jié)束[4]。

接下來，就來看看Scrapy框架在爬取數(shù)據(jù)中如何設(shè)計各個文件和應(yīng)用。

2 Scrapy框架爬取數(shù)據(jù)應(yīng)用

2.1 創(chuàng)建Scrapy工程

在命令提示符窗口中，使用命令“scrapy startproject工程名稱”，在Python文件存儲位置處創(chuàng)建Scrapy工程。然后進(jìn)入到工程中，使用命令“scrapy genspider爬蟲名稱要爬取網(wǎng)頁的地址”，生成爬蟲文件。網(wǎng)頁地址為：https://book.douban.com/top250?start=0。

2.2 分析網(wǎng)頁

使用谷歌瀏覽器打開上述網(wǎng)址，按下F12鍵，打開該網(wǎng)頁的開發(fā)者模式，進(jìn)入到Elements標(biāo)簽中，獲取當(dāng)前文檔的DOM信息，從中定位我們要爬取數(shù)據(jù)的位置，如圖1所示。

這個總標(biāo)簽下，每本圖書都分別在的標(biāo)簽下。從這個標(biāo)簽向下展開，圖書名稱在標(biāo)簽向下展開第二個“td”標(biāo)簽下的

標(biāo)簽中，從此標(biāo)簽向下展開的“a”標(biāo)簽的文本信息就是圖書名稱。圖書的作者、出版社、出版日期、圖書價格信息在

標(biāo)簽向下展開第二個“td”標(biāo)簽向下展開的

標(biāo)簽中。圖書的評分信息在

標(biāo)簽向下展開第二個“td”標(biāo)簽向下展開的

標(biāo)簽中，從此標(biāo)簽繼續(xù)向下展開第二個“span”標(biāo)簽的文本信息就是評分。

下一頁的鏈接如圖2所示。在標(biāo)簽

向下展開的“a”標(biāo)簽中，屬性“href”的值就是每一頁的鏈接。標(biāo)簽

的位置和

標(biāo)簽的位置是同一級別。從“a”標(biāo)簽的屬性值中可以發(fā)現(xiàn)規(guī)律，每一頁的偏移量為25，第一頁為0，第二頁為25，依次類推，最后一頁的偏移量為225。可以采用直接獲取鏈接值轉(zhuǎn)到下一頁，也可以設(shè)置偏移量的值轉(zhuǎn)到下一頁，也可獲取標(biāo)簽下“a”標(biāo)簽的“href”屬性值轉(zhuǎn)到下一頁。

圖2 網(wǎng)頁鏈接

2.3 編寫Scrapy框架代碼

在PyCharm里打開Scrapy工程，就能看到Scrapy框架所對應(yīng)的相應(yīng)文件，主要有：items.py、settings.py、pipelines.py和spider路徑下定義的爬蟲python文件。

● items.py文件

首先要在items.py文件中定義圖書的名稱、圖書的作者、圖書的出版社、圖書的評分、圖書的價格信息數(shù)據(jù)結(jié)構(gòu)。

在items.py文件中編寫如下代碼：

import scrapy

class工程名Item(scrapy.Item):

b_name=scrapy.Field()

b_publisher=scrapy.Field()

……

● settings.py文件

在settings.py文件中要設(shè)置以下幾項內(nèi)容，完成爬蟲項目的配置信息：

BOT_NAME=′……′ #爬蟲項目名稱

SPIDER_MODULES=[′……′]#Scrapy要搜索的爬蟲模塊

NEWSPIDER_MODULE=′……′#爬蟲文件的模板，由scrapy genspider命令創(chuàng)建

USER_AGENT=′……′#爬蟲的head頭部信息，不寫頭部信息容易被網(wǎng)站判斷為爬蟲，會被網(wǎng)站禁止爬取信息

DEFAULT_REQUEST_HEADERS={

′Accept′:′……′,

′Accept-Language′:′……′,

} #請求頭信息，避免403問題

ROBOTSTXT_OBEY=False #是否服從機(jī)器人(爬蟲)協(xié)議，默認(rèn)為服從，一般會改為False

ITEM_PIPELINES={

′工程名.pipelines.工程名Pipeline′:300,

} #如果要對爬取到的數(shù)據(jù)永久化保存，需要激活此項。數(shù)字越小，優(yōu)先級越高[5]

● pipelines.py文件

在pipelines.py文件中要處理傳輸過來的數(shù)據(jù)，這里我們將爬取到的數(shù)據(jù)以CSV文件永久化保存，以便后期的數(shù)據(jù)分析，主要代碼如下：

from itemadapter import ItemAdapter

import csv

class DoubanbookscrapyPipeline:

def __init__(self):

path=′ F://d_book250.csv′

self.file=open(path,′ab′,encoding=′utf-8′)

self.writer=csv.writer(self.file)

……

將文件以CSV格式保存起來，后期可以繼續(xù)使用Python進(jìn)行分析。也可以寫代碼將其保存到數(shù)據(jù)庫中，以MySQL數(shù)據(jù)庫常見，在pipelines.py中設(shè)置數(shù)據(jù)庫連接、端口等信息，數(shù)據(jù)保存到數(shù)據(jù)庫中可以使用大數(shù)據(jù)的其他組件進(jìn)行分析。

● 爬蟲.py文件

爬蟲文件中實現(xiàn)在網(wǎng)頁中爬取數(shù)據(jù)。代碼思路：首先要給出初始爬取網(wǎng)站的URL，可以使用bs4、正則表達(dá)式、xpath、CSS等方法將要爬取的信息抽取出來，交給items.py中對應(yīng)的數(shù)據(jù)結(jié)構(gòu)。下一頁的URL如何獲取，如何轉(zhuǎn)到等這些操作需要在這個文件中編寫出來。主要代碼如下：

第一部分，爬蟲名稱和首頁的URL要給出來，這些信息在創(chuàng)建工程和文件的時候會自動生成。

name=′doubanbook′

allowed_domains=[′book.douban.com′]

start_urls=[′https://book.douban.com/top250?start=0′]

第二部分，分析response返回的結(jié)果，此處使用xpath的方法獲取要爬取的信息，將這些信息都賦值給items.py中對應(yīng)的數(shù)據(jù)結(jié)構(gòu)，這里item列表中的名稱要和數(shù)據(jù)結(jié)構(gòu)中的名稱一致。每一頁有25本圖書信息，所以使用for循環(huán)查找節(jié)點(diǎn)信息。

for content in response.xpath("http://tr[@class=′item′]"):

item=DoubanbookscrapyItem()

item[′b_title′]=content.xpath("td[2]/div[@class=′pl2′]/a/@title").extract_first()

book_info=content.xpath("td[2]/p[1]/text()").extract_first()

book_info_list=book_info.strip().split(" / ")

item[′b_publish′]=……

yield item

第三部分，下一頁繼續(xù)爬取信息，直到最后一個URL網(wǎng)頁爬取完畢。先獲取每個頁面的URL，形成列表信息，然后for循環(huán)遍歷該列表，到每一個網(wǎng)頁中去爬取信息，直至遍歷結(jié)束。

next_pages=response.xpath("http://div[@class=′paginator′]/a/@href").extract()

for next_page in next_pages:

if next_page:

yield scrapy.Request(next_page,callback=self.parse)

● main.py文件

爬蟲代碼編寫完畢后，可以在命令提示符中使用命令運(yùn)行，也可在PyCharm中運(yùn)行。

在PyCharm中，右鍵單擊工程名稱，新建一個python文件，名稱為main。這個文件主要功能是執(zhí)行scrapy中的爬蟲程序。

from scrapy import cmdline

cmdline.execute([′scrapy′,′crawl′,′爬蟲文件名′])

最后運(yùn)行main.py文件，可以在下方的console中看到爬取的結(jié)果。解決CSV文件亂碼問題后，可以看到結(jié)果文件內(nèi)容，如圖3所示。

圖3 CSV文件內(nèi)容

3 總結(jié)

Scrapy框架能夠高效率地實現(xiàn)爬蟲。作為數(shù)據(jù)分析的數(shù)據(jù)來源，用Scrapy框架能夠理順爬蟲思路，簡化代碼。在教學(xué)中要求學(xué)生須合法地利用該框架去爬取學(xué)習(xí)所需要的數(shù)據(jù)，涉及到的分布式爬蟲、正則表達(dá)式、CSS等技術(shù)也可以得到訓(xùn)練。以后的教學(xué)中可以更深地去運(yùn)用Scrapy框架，多實戰(zhàn)練習(xí)，接近工程實際，提升學(xué)生技能水平。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Scrapy框架爬取豆瓣圖書的設(shè)計與實現(xiàn)

1 什么是Scrapy框架

2 Scrapy框架爬取數(shù)據(jù)應(yīng)用

2.1 創(chuàng)建Scrapy工程

2.2 分析網(wǎng)頁

2.3 編寫Scrapy框架代碼

3 總結(jié)