亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于scrapy框架下網(wǎng)絡(luò)爬蟲的開發(fā)與實(shí)現(xiàn)

        2021-09-24 04:15:30魯鑫肖小玲
        電腦知識(shí)與技術(shù) 2021年23期
        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲

        魯鑫 肖小玲

        摘要:本文先簡述scrapy框架的平臺(tái)架構(gòu),然后介紹了網(wǎng)絡(luò)爬蟲的流程,并說明了爬蟲程序的設(shè)計(jì)與實(shí)現(xiàn)的基本流程?;谶@些技術(shù),本文設(shè)計(jì)實(shí)現(xiàn)了基于Scrapy框架下的網(wǎng)絡(luò)爬蟲。本文給出了網(wǎng)絡(luò)爬蟲的主要流程,以及主要的模塊,包括item模塊、spider模塊以及scheduler模塊。并且,本文對網(wǎng)絡(luò)爬蟲的具體實(shí)現(xiàn)進(jìn)行了介紹,包括UA的實(shí)現(xiàn)、頁面抓取的實(shí)現(xiàn)、數(shù)據(jù)提取的實(shí)現(xiàn)等。最后,本設(shè)計(jì)在Linux操作系統(tǒng)下進(jìn)行了相關(guān)測試。對網(wǎng)絡(luò)爬蟲的功能和性能進(jìn)行了測試,爬蟲的運(yùn)行總體來說較為順利,且對電腦性能的要求不高。該爬蟲基本完成了本文的研究目的。通過本次的研究,對網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)有了更深的理解。也對scrapy框架有了更加深刻的認(rèn)識(shí)。

        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;Scrapy框架;數(shù)據(jù)提取;頁面抓取

        中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2021)23-0134-03

        1 前言

        在如今信息高速發(fā)展的萬維網(wǎng)上,像百度、谷歌這些傳統(tǒng)引擎對信息的搜索全都是在對關(guān)鍵字處理的方式的基礎(chǔ)上進(jìn)行的,并不能精確的定位用戶的需求,這種對信息的搜索處理方式有著天然的劣勢和局限。首先,它不能很好地定位用戶所需的精確數(shù)據(jù),其次,它所返回的數(shù)據(jù)是非常繁多冗雜的,其中包含大量用戶所不關(guān)心的數(shù)據(jù),這對用戶在進(jìn)行數(shù)據(jù)查看是非常沉重的。

        為了對萬維網(wǎng)上的數(shù)據(jù)進(jìn)行特定的搜索,各種搜索引擎也是層出不窮,搜索引擎在數(shù)據(jù)搜集中站著越來越重要的地位,但正是因?yàn)樾畔⒌母咚侔l(fā)展,用戶對信息的搜索也是越來越嚴(yán)苛,如今的搜索引擎也越來越難以滿足用戶的需求[1]。

        萬維網(wǎng)其實(shí)就是一個(gè)巨大信息和數(shù)據(jù)的集合,只是這種集合并沒有規(guī)律可言。但如果我們將這種集合通過特定的技術(shù)和手段進(jìn)行有效的檢索,在擁有巨大用戶的情況下,這種檢索將會(huì)具有不可衡量的價(jià)值和作用。而傳統(tǒng)搜索引擎對數(shù)據(jù)的處理并不能完全滿足用戶的需求。用戶在不同的地點(diǎn)和不同的時(shí)間,往往有著不一樣的數(shù)據(jù)需求。傳統(tǒng)引擎所返回的數(shù)據(jù)包含大量用戶完全不關(guān)心的內(nèi)容,也并不能對用戶的需求進(jìn)行精確的定位。一個(gè)靈活高效又能完全符合用戶需求的爬蟲設(shè)計(jì)就越來越具有現(xiàn)實(shí)意義。

        2 發(fā)展現(xiàn)狀及存在問題

        此課題主要的目的是利用scrapy_redis 框架類建立分布式的斷點(diǎn)續(xù)爬的網(wǎng)絡(luò)爬蟲程序,同時(shí)要保證爬取數(shù)據(jù)時(shí)代碼的穩(wěn)定性和高效性,又能完全滿足用戶對數(shù)據(jù)精確抓取的需求[2]。

        爬蟲的基本原理是運(yùn)用xpath 進(jìn)行對url 進(jìn)行定位,并用文本定位工具對用戶所需求的數(shù)據(jù)進(jìn)行精確抓取。為了使網(wǎng)絡(luò)爬蟲的效率更高,在設(shè)計(jì)爬蟲程序時(shí)就必須利用redis 數(shù)據(jù)庫進(jìn)行服務(wù)器之間的連接,實(shí)現(xiàn)多臺(tái)服務(wù)器共同爬取數(shù)據(jù)的功能。通過對IP池和UA的設(shè)置,避免了我們爬蟲被對方服務(wù)器識(shí)別為惡意程序的情況。在以上技術(shù)理論的支持下,我們所設(shè)計(jì)的爬蟲程序要既能實(shí)現(xiàn)高效抓取數(shù)據(jù)、又能根據(jù)用戶的需求對數(shù)據(jù)進(jìn)行精確定位的功能[3]。

        其實(shí),傳統(tǒng)搜索引擎的缺點(diǎn)早就20世紀(jì)已經(jīng)被發(fā)現(xiàn)了,對于爬蟲的研究也早已開始了。隨著年代的發(fā)展,爬蟲的技術(shù)也越來越多,越來越完善穩(wěn)定。萬維網(wǎng)上的數(shù)據(jù)是以完全虛擬的方式存在于我們的認(rèn)知中,由于傳統(tǒng)搜索引擎的存在,我們才能將萬維網(wǎng)上的數(shù)據(jù)以實(shí)體的形式呈現(xiàn)在我們的眼前,變成一個(gè)我們可知、可感的真實(shí)存在體。但是,不能對數(shù)據(jù)進(jìn)行特定搜索和特定抓取的傳統(tǒng)搜索引擎,只能以web1.0的形式存在。

        未來的發(fā)展中,萬維網(wǎng)中的數(shù)據(jù)抓取、精確定位和特定篩選,是會(huì)占據(jù)主流地位的。這種對數(shù)據(jù)的篩選會(huì)越來越滿足用戶的需求。利用scrapy_redis 框架所設(shè)計(jì)的爬蟲程序正好定位了用戶的精確需求,日后,也會(huì)越來越盛行。如今網(wǎng)絡(luò)上的各種數(shù)據(jù)篩選和文本定位及分析工具會(huì)為未來的爬蟲奠定基調(diào)。這種基調(diào)的奠定,可能會(huì)促使傳統(tǒng)搜索引擎的改革,而這種改革,將會(huì)成為一次重大意義的蛻變,對用戶來說,也是具有促進(jìn)意義的。本課題主要研究scrapy分布式爬蟲框架的搭建和 在scrapy框架下設(shè)計(jì)與實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲,實(shí)現(xiàn)在終端控制、后臺(tái)自動(dòng)運(yùn)行的爬蟲程序[4]。3 爬蟲發(fā)展需求分析

        網(wǎng)絡(luò)爬蟲其實(shí)就是一個(gè)專門從互聯(lián)網(wǎng)上下載網(wǎng)頁并分析網(wǎng)頁的自動(dòng)化程序。它將下載的網(wǎng)頁內(nèi)容和采集到的數(shù)據(jù)儲(chǔ)存在數(shù)據(jù)庫中。伴隨著起始url的抓取又不斷從抓取到的網(wǎng)頁中抽取新的url 放入到待抓取url 隊(duì)列中,直到爬蟲程序所抓取的數(shù)去能夠滿足用戶的精確需求,這是搜索程序的重要組成部分[6]。

        (1)網(wǎng)頁下載功能

        1)下載任何能滿足http協(xié)議和https協(xié)議的網(wǎng)頁。

        2)HTTP響應(yīng)中構(gòu)造GET請求。

        3)HTTP響應(yīng)請求分析。

        (2)網(wǎng)頁分析功能

        1)網(wǎng)頁標(biāo)題提取。

        2)網(wǎng)頁關(guān)鍵字提取。

        3)網(wǎng)頁摘要提取。

        4)網(wǎng)頁鏈接并統(tǒng)計(jì)數(shù)量提取。

        5)將新url 加入待爬取URL隊(duì)列。

        (3)內(nèi)存池功能

        1)固定大小內(nèi)存分配。

        2)內(nèi)存對象回收。

        3)內(nèi)存對象釋放。

        4)內(nèi)存池銷毀。

        (4)保存功能

        1)能夠正確將網(wǎng)頁內(nèi)容以及數(shù)據(jù)保存到數(shù)據(jù)庫中。

        2)將程序運(yùn)行時(shí)的異常寫入日志文件。

        4 通用爬蟲和聚焦爬蟲

        結(jié)合使用場景的不同,網(wǎng)絡(luò)爬蟲有通用爬蟲與聚焦爬蟲兩種。

        百度、谷歌、雅虎等傳統(tǒng)的大型搜索引擎的基本原理就是通用網(wǎng)絡(luò)爬蟲的基本原理,將萬維網(wǎng)上的網(wǎng)頁采集到本地時(shí)它的主要目的,這樣可以創(chuàng)造一個(gè)互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容的鏡像備份。

        通用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中搜集網(wǎng)頁,采集信息,這些網(wǎng)頁信息用于為搜索引擎建立索引從而提供支持,它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富,信息是否即時(shí)。

        猜你喜歡
        網(wǎng)絡(luò)爬蟲
        基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        微信平臺(tái)下的教務(wù)信息獲取和隱私保護(hù)方法研究
        基于網(wǎng)絡(luò)爬蟲的電子易購軟件設(shè)計(jì)與實(shí)現(xiàn)
        搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
        煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)研究
        淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
        中國市場(2016年23期)2016-07-05 04:35:08
        基于淘寶某商品銷售量監(jiān)控系統(tǒng)
        網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究
        老太脱裤子让老头玩xxxxx| 亚洲国产免费一区二区| 亚洲精品视频一区二区三区四区| 丰满少妇被啪啪到高潮迷轩| 亚洲精品中文幕一区二区| 久久综合国产乱子伦精品免费| 图图国产亚洲综合网站| 久青青草视频手机在线免费观看| 亚洲av日韩综合一区尤物| 无人区乱码一区二区三区| 无码国产福利av私拍| 国产精品露脸视频观看| 中文字幕亚洲区第一页| av网站免费观看入口| av无码国产精品色午夜| 成人精品一区二区三区中文字幕| 亚洲熟妇AV一区二区三区宅男| 中文字幕国内一区二区| 亚洲一区二区三区视频免费看| 国产国语亲子伦亲子| 自慰无码一区二区三区| 日韩在线不卡一区在线观看| 人妻熟女中文字幕av| av一区二区三区在线| 一本一道av无码中文字幕﹣百度| 国产丝袜在线精品丝袜不卡| 亚洲天堂av另类在线播放| 男女av免费视频网站| 天堂网www资源在线| 国产三级在线观看免费| 日本一区二区三本视频在线观看| 亚洲男人的天堂av一区| 放荡的少妇2欧美版| 久久中文字幕人妻熟av女蜜柚m| 久久久久国产精品四虎| 免费在线国产不卡视频| 三年片免费观看影视大全视频 | 夜夜欢性恔免费视频| 国产在线h视频| 精品女厕偷拍视频一区二区区| 国产精品女同久久久久电影院|