亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Scrapy的招生信息專題搜索引擎研究

        2022-01-20 13:29:24方錦文童樺茜
        電子制作 2021年24期
        關(guān)鍵詞:詳情頁爬蟲搜索引擎

        方錦文,童樺茜

        (1.桂林電子科技大學(xué)信息科技學(xué)院,廣西桂林,541004;2.廣西城市建設(shè)學(xué)校,廣西桂林,541003)

        0 引言

        搜索引擎是一種專門在網(wǎng)絡(luò)上提供查詢服務(wù)的系統(tǒng),它把分布在網(wǎng)絡(luò)上的信息資源進(jìn)行收集、處理,然后經(jīng)過整理后方便人們查詢。目前像百度和Google這樣的大型搜索引擎能為用戶提供海量的信息查詢服務(wù),其查詢范圍遍布各行各業(yè),基本可以滿足各個(gè)領(lǐng)域的信息橫向搜索。也正是因?yàn)檫@類通用搜索引擎所覆蓋領(lǐng)域廣闊,所以很難在搜索的同時(shí)兼顧到搜索的精準(zhǔn)度。其價(jià)值在于對(duì)大量的分散信息做信息導(dǎo)航,對(duì)于信息量相對(duì)集中、分類類別更詳細(xì)的某一特定領(lǐng)域的信息檢索就會(huì)表現(xiàn)出其縱向搜索的局限性。

        垂直搜索引擎的出現(xiàn)正是為了解決通用搜索引擎在特定領(lǐng)域下的搜索精度不高、主題偏移、搜索深度不夠等問題。垂直搜索引擎專注于某一類信息、專業(yè)領(lǐng)域、特定主題下的信息檢索,其追求的是專業(yè)性和檢索服務(wù)深度。對(duì)于大學(xué)招生信息主題的搜索引擎,則專注于提供各個(gè)學(xué)校招生信息、學(xué)校信息、招生專業(yè)等信息的檢索服務(wù)。

        1 系統(tǒng)工作原理

        系統(tǒng)主要由信息采集、信息預(yù)處理、信息檢索三部分組成。在信息采集部分,主要通過網(wǎng)絡(luò)爬蟲抓取因特網(wǎng)上的網(wǎng)頁數(shù)據(jù)的方式,用構(gòu)建招生信息主題詞庫的過濾器過濾掉與招生信息不相關(guān)的網(wǎng)頁鏈接,然后把與招生信息相關(guān)的網(wǎng)頁信息存放到網(wǎng)頁庫中。在信息預(yù)處理部分通過索引器對(duì)對(duì)采集到的網(wǎng)頁庫建立索引方便系統(tǒng)查詢。信息檢索部分主要負(fù)責(zé)與用戶的直接對(duì)接,如圖1所示。

        圖1 主題搜索引擎總體框架

        用戶通過Web服務(wù)器界面接入系統(tǒng),輸入要查詢的內(nèi)容,檢索器與索引庫對(duì)接,在索引庫中搜索信息,用排序器對(duì)搜索結(jié)果進(jìn)行排序處理后返回給用戶。

        2 專題網(wǎng)絡(luò)爬蟲構(gòu)建

        ■2.1 Scrapy爬蟲框架

        Scrapy是基于 Python 實(shí)現(xiàn)的爬蟲框架,其架構(gòu)清晰,模塊耦合度低[1]??梢詰?yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中,簡(jiǎn)單來說,Scrapy是一個(gè)可以爬取網(wǎng)站的數(shù)據(jù),提取數(shù)據(jù)的框架。

        Scrapy 框架組件及其中間件的功能如下[2]:

        (1)Scrapy Engine(引擎):串聯(lián)框架各個(gè)模塊,觸發(fā)事務(wù)處理流程,控制數(shù)據(jù)流在系統(tǒng)中所有組件中流動(dòng)。

        (2)Scheduler(調(diào)度器):負(fù)責(zé)管理待抓取 URL 隊(duì)列。接受請(qǐng)求后返回下一個(gè)要爬取的鏈接。

        (3)Downloader(下載器):向網(wǎng)站服務(wù)器發(fā)送訪問頁面請(qǐng)求,獲取頁面數(shù)據(jù)并提供給引擎。

        (4)Spiders(爬蟲):爬取指定網(wǎng)站的數(shù)據(jù)內(nèi)容,管理爬取規(guī)則和網(wǎng)頁解析規(guī)則等。

        (5)Item Pipeline(項(xiàng)目管道):處理被spider提取出來的item,包括數(shù)據(jù)清洗、驗(yàn)證及持久化(例如存取到數(shù)據(jù)庫中)等。

        (6)Middlewares(中間件):包括下載器中間件(Downloader middlewares)和Spider中間件(Spider middlewares),處理引擎與下載器、爬蟲之間的請(qǐng)求及響應(yīng),其提供了一個(gè)簡(jiǎn)便的機(jī)制,通過插入自定義代碼來擴(kuò)展Scrapy功能。

        Scrapy框架安裝完成后,便可創(chuàng)建自己的爬蟲項(xiàng)目,Scrapy爬蟲項(xiàng)目結(jié)構(gòu)如圖2所示。

        圖2 項(xiàng)目文件結(jié)構(gòu)

        各文件功能如下[3]:

        (1)scrapy.cfg: 項(xiàng)目運(yùn)行的參數(shù)設(shè)定。

        (2)middlewares.py:爬蟲程序中間件。

        (3)items.py: 項(xiàng)目中的item文件,管理待抓取的一些信息。

        (4)pipelines.py: 項(xiàng)目中的pipelines文件,對(duì)爬取的數(shù)據(jù)進(jìn)行清洗。

        (5)settings.py: 項(xiàng)目的設(shè)置文件。

        (6)spiders: 放置spider代碼的目錄。

        ■2.2 專題爬蟲策略

        為使抓取的網(wǎng)頁與高校信息主題相關(guān)度更高,本文采用知名度較高的高校招生網(wǎng)作為初始目標(biāo)網(wǎng)站爬取數(shù)據(jù)。通過觀察目標(biāo)網(wǎng)頁,在高校信息詳情頁部分,可以找到高校名字、類型、聯(lián)系電話、地址、簡(jiǎn)介、招生計(jì)劃等信息,均包含在屬性值為class的li標(biāo)簽中??梢韵全@取一級(jí)頁面的列表頁信息,在根據(jù)列表頁中的詳情頁URL來獲取詳情頁的數(shù)據(jù)。

        先在項(xiàng)目的全局性配置文件setting.py中,配置好項(xiàng)目的名稱、下載延遲、Scrapy執(zhí)行的最大并發(fā)請(qǐng)求數(shù)等信息[4]。然后在數(shù)據(jù)模塊items.py文件中設(shè)置好要爬取的高校信息字段,然后通過scripy對(duì)目標(biāo)網(wǎng)頁的高校信息頁面進(jìn)行一級(jí)頁面的連接爬取和二級(jí)頁面的詳細(xì)內(nèi)容。在scripy文件中,通過start_urls = []設(shè)置初始目標(biāo)網(wǎng)站,通過allowed_domains = []設(shè)置允許爬取的范圍,在def parse()通過Xpath獲取到爬取的一級(jí)頁面的列表

        標(biāo)簽,通過遍歷列表
        標(biāo)簽獲得不同類型的高校目錄。從中提取高校信息詳情頁的href屬性,就可以獲取所有的高校信息詳情頁鏈接。然后就可以對(duì)每一個(gè)高校信息詳情頁進(jìn)行數(shù)據(jù)爬取,利用Request請(qǐng)求,獲取服務(wù)器發(fā)回來的Respond響應(yīng)后,用Xpath提取高校信息詳情頁中的
        蜜桃尤物在线视频免费看| 日韩在线视频专区九区| 国产高清a| 亚洲AV无码AV色| 亚洲av一区二区三区网站| 在线观看国产自拍视频| 久久中文字幕一区二区| 日本精品一区二区高清| 中文字幕日韩三级片| 青楼妓女禁脔道具调教sm | 欧美巨大xxxx做受l| 在线成人福利| 美女视频很黄很a免费国产| 日本一区二区三区四区在线看| 国产免费精品一品二区三| 手机在线播放av网址| 亚洲av福利天堂一区二区三 | 在线免费观看毛视频亚洲精品| 久久精品国产免费观看三人同眠| 67194熟妇人妻欧美日韩| 人妻av无码系列一区二区三区| 免费一级特黄欧美大片久久网 | 国产成人无码综合亚洲日韩| 无码不卡av东京热毛片| 欧美喷潮久久久xxxxx| 老汉tv永久视频福利在线观看| 在线一区二区三区视频观看| 精品国产中文久久久免费| 国产三级精品视频2021| 亚洲av无码乱码在线观看裸奔| 亚洲av无码av制服丝袜在线| 99福利网| 蜜桃视频一区二区三区在线| 亚洲一区二区三区四区地址| 精品国产精品国产偷麻豆| 亚洲av理论在线电影网| 青草青草伊人精品视频| 午夜亚洲精品一区二区| 一区二区三区视频在线观看| 国模吧无码一区二区三区| 中文字幕一区二区三区精彩视频 |