亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Scrapy的招生信息專題搜索引擎研究

        2022-01-20 13:29:24方錦文童樺茜
        電子制作 2021年24期
        關(guān)鍵詞:詳情頁爬蟲搜索引擎

        方錦文,童樺茜

        (1.桂林電子科技大學(xué)信息科技學(xué)院,廣西桂林,541004;2.廣西城市建設(shè)學(xué)校,廣西桂林,541003)

        0 引言

        搜索引擎是一種專門在網(wǎng)絡(luò)上提供查詢服務(wù)的系統(tǒng),它把分布在網(wǎng)絡(luò)上的信息資源進(jìn)行收集、處理,然后經(jīng)過整理后方便人們查詢。目前像百度和Google這樣的大型搜索引擎能為用戶提供海量的信息查詢服務(wù),其查詢范圍遍布各行各業(yè),基本可以滿足各個(gè)領(lǐng)域的信息橫向搜索。也正是因?yàn)檫@類通用搜索引擎所覆蓋領(lǐng)域廣闊,所以很難在搜索的同時(shí)兼顧到搜索的精準(zhǔn)度。其價(jià)值在于對(duì)大量的分散信息做信息導(dǎo)航,對(duì)于信息量相對(duì)集中、分類類別更詳細(xì)的某一特定領(lǐng)域的信息檢索就會(huì)表現(xiàn)出其縱向搜索的局限性。

        垂直搜索引擎的出現(xiàn)正是為了解決通用搜索引擎在特定領(lǐng)域下的搜索精度不高、主題偏移、搜索深度不夠等問題。垂直搜索引擎專注于某一類信息、專業(yè)領(lǐng)域、特定主題下的信息檢索,其追求的是專業(yè)性和檢索服務(wù)深度。對(duì)于大學(xué)招生信息主題的搜索引擎,則專注于提供各個(gè)學(xué)校招生信息、學(xué)校信息、招生專業(yè)等信息的檢索服務(wù)。

        1 系統(tǒng)工作原理

        系統(tǒng)主要由信息采集、信息預(yù)處理、信息檢索三部分組成。在信息采集部分,主要通過網(wǎng)絡(luò)爬蟲抓取因特網(wǎng)上的網(wǎng)頁數(shù)據(jù)的方式,用構(gòu)建招生信息主題詞庫的過濾器過濾掉與招生信息不相關(guān)的網(wǎng)頁鏈接,然后把與招生信息相關(guān)的網(wǎng)頁信息存放到網(wǎng)頁庫中。在信息預(yù)處理部分通過索引器對(duì)對(duì)采集到的網(wǎng)頁庫建立索引方便系統(tǒng)查詢。信息檢索部分主要負(fù)責(zé)與用戶的直接對(duì)接,如圖1所示。

        圖1 主題搜索引擎總體框架

        用戶通過Web服務(wù)器界面接入系統(tǒng),輸入要查詢的內(nèi)容,檢索器與索引庫對(duì)接,在索引庫中搜索信息,用排序器對(duì)搜索結(jié)果進(jìn)行排序處理后返回給用戶。

        2 專題網(wǎng)絡(luò)爬蟲構(gòu)建

        ■2.1 Scrapy爬蟲框架

        Scrapy是基于 Python 實(shí)現(xiàn)的爬蟲框架,其架構(gòu)清晰,模塊耦合度低[1]??梢詰?yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中,簡(jiǎn)單來說,Scrapy是一個(gè)可以爬取網(wǎng)站的數(shù)據(jù),提取數(shù)據(jù)的框架。

        Scrapy 框架組件及其中間件的功能如下[2]:

        (1)Scrapy Engine(引擎):串聯(lián)框架各個(gè)模塊,觸發(fā)事務(wù)處理流程,控制數(shù)據(jù)流在系統(tǒng)中所有組件中流動(dòng)。

        (2)Scheduler(調(diào)度器):負(fù)責(zé)管理待抓取 URL 隊(duì)列。接受請(qǐng)求后返回下一個(gè)要爬取的鏈接。

        (3)Downloader(下載器):向網(wǎng)站服務(wù)器發(fā)送訪問頁面請(qǐng)求,獲取頁面數(shù)據(jù)并提供給引擎。

        (4)Spiders(爬蟲):爬取指定網(wǎng)站的數(shù)據(jù)內(nèi)容,管理爬取規(guī)則和網(wǎng)頁解析規(guī)則等。

        (5)Item Pipeline(項(xiàng)目管道):處理被spider提取出來的item,包括數(shù)據(jù)清洗、驗(yàn)證及持久化(例如存取到數(shù)據(jù)庫中)等。

        (6)Middlewares(中間件):包括下載器中間件(Downloader middlewares)和Spider中間件(Spider middlewares),處理引擎與下載器、爬蟲之間的請(qǐng)求及響應(yīng),其提供了一個(gè)簡(jiǎn)便的機(jī)制,通過插入自定義代碼來擴(kuò)展Scrapy功能。

        Scrapy框架安裝完成后,便可創(chuàng)建自己的爬蟲項(xiàng)目,Scrapy爬蟲項(xiàng)目結(jié)構(gòu)如圖2所示。

        圖2 項(xiàng)目文件結(jié)構(gòu)

        各文件功能如下[3]:

        (1)scrapy.cfg: 項(xiàng)目運(yùn)行的參數(shù)設(shè)定。

        (2)middlewares.py:爬蟲程序中間件。

        (3)items.py: 項(xiàng)目中的item文件,管理待抓取的一些信息。

        (4)pipelines.py: 項(xiàng)目中的pipelines文件,對(duì)爬取的數(shù)據(jù)進(jìn)行清洗。

        (5)settings.py: 項(xiàng)目的設(shè)置文件。

        (6)spiders: 放置spider代碼的目錄。

        ■2.2 專題爬蟲策略

        為使抓取的網(wǎng)頁與高校信息主題相關(guān)度更高,本文采用知名度較高的高校招生網(wǎng)作為初始目標(biāo)網(wǎng)站爬取數(shù)據(jù)。通過觀察目標(biāo)網(wǎng)頁,在高校信息詳情頁部分,可以找到高校名字、類型、聯(lián)系電話、地址、簡(jiǎn)介、招生計(jì)劃等信息,均包含在屬性值為class的li標(biāo)簽中??梢韵全@取一級(jí)頁面的列表頁信息,在根據(jù)列表頁中的詳情頁URL來獲取詳情頁的數(shù)據(jù)。

        先在項(xiàng)目的全局性配置文件setting.py中,配置好項(xiàng)目的名稱、下載延遲、Scrapy執(zhí)行的最大并發(fā)請(qǐng)求數(shù)等信息[4]。然后在數(shù)據(jù)模塊items.py文件中設(shè)置好要爬取的高校信息字段,然后通過scripy對(duì)目標(biāo)網(wǎng)頁的高校信息頁面進(jìn)行一級(jí)頁面的連接爬取和二級(jí)頁面的詳細(xì)內(nèi)容。在scripy文件中,通過start_urls = []設(shè)置初始目標(biāo)網(wǎng)站,通過allowed_domains = []設(shè)置允許爬取的范圍,在def parse()通過Xpath獲取到爬取的一級(jí)頁面的列表

        標(biāo)簽,通過遍歷列表
        標(biāo)簽獲得不同類型的高校目錄。從中提取高校信息詳情頁的href屬性,就可以獲取所有的高校信息詳情頁鏈接。然后就可以對(duì)每一個(gè)高校信息詳情頁進(jìn)行數(shù)據(jù)爬取,利用Request請(qǐng)求,獲取服務(wù)器發(fā)回來的Respond響應(yīng)后,用Xpath提取高校信息詳情頁中的
        青青操视频手机在线免费观看| 亚洲AV永久无码制服河南实里| 中文字幕无码日韩欧毛| 日韩精品成人一区二区在线观看| 蜜桃臀av一区二区三区| 极品白嫩的小少妇| 久久综合给合久久狠狠狠97色69| 久久99亚洲综合精品首页| 熟女少妇精品一区二区三区| 国产精品久久久久一区二区三区| 中国a级毛片免费观看| 91精品久久久久含羞草| 亚洲熟妇av一区二区三区hd| 欧美肥妇毛多水多bbxx水蜜桃| 亚洲av无码av日韩av网站| 天天干夜夜躁| 男女啪啪动态视频在线观看| 国产97色在线 | 国产| 狼色精品人妻在线视频| 无码伊人66久久大杳蕉网站谷歌| 久久青青草原一区网站| 三个男吃我奶头一边一个视频| 久久精品中文字幕一区| 日韩中文字幕网站| 极品美女调教喷水网站| 青青国产揄拍视频| 国产高级黄区18勿进一区二区| 国产精品三级1区2区3区| 免费在线观看视频播放| 国产一女三男3p免费视频| 免青青草免费观看视频在线| 特级国产一区二区三区| 正在播放强揉爆乳女教师| 少妇极品熟妇人妻无码| 国产三级在线观看性色av | 丁香九月综合激情| 久久精品一区二区三区蜜桃| 国产l精品国产亚洲区久久| 亚洲aⅴ无码日韩av无码网站| 日本老熟女一区二区三区| 国产精品186在线观看在线播放|