亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)爬蟲技術(shù)在農(nóng)業(yè)生產(chǎn)數(shù)據(jù)獲取中的研究和應(yīng)用

        2021-04-18 16:54:56王曉楠張海峰楊雪峰
        農(nóng)業(yè)工程技術(shù) 2021年3期
        關(guān)鍵詞:爬蟲哈希網(wǎng)頁

        王曉楠,李 楊,張海峰,張 宇,楊雪峰

        (1.黑龍江省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)遙感與信息研究所,黑龍江 哈爾濱 150086;2.黑龍江省農(nóng)業(yè)科學(xué)院作物資源研究所,黑龍江 哈爾濱 150086)

        關(guān)鍵字:爬蟲;分布式;Nutch框架;二級哈希

        隨著中國經(jīng)濟(jì)的快速發(fā)展,現(xiàn)代化農(nóng)業(yè)也在不斷地進(jìn)步和發(fā)展,高科技在農(nóng)業(yè)領(lǐng)域中的投入也隨之加大,目標(biāo)就是轉(zhuǎn)變傳統(tǒng)農(nóng)業(yè)的生產(chǎn)模式。通過抓取農(nóng)業(yè)生產(chǎn)數(shù)據(jù),將更好的種植數(shù)據(jù)提供給廣大農(nóng)業(yè)工作人員,對于解決現(xiàn)代農(nóng)業(yè)種植過程中的問題非常有利。

        1 基于農(nóng)作物生長信息的采集結(jié)構(gòu)設(shè)計

        1.1 分布式爬蟲架構(gòu)

        網(wǎng)絡(luò)爬蟲主要是通過采集網(wǎng)絡(luò)中特定信息為后續(xù)工作提供精確的數(shù)據(jù),因此,該論文運(yùn)用垂直搜索引擎獲取數(shù)據(jù)。為了更好的完成網(wǎng)絡(luò)爬取任務(wù),收集到更多符合條件的網(wǎng)頁信息,運(yùn)用主從分布式架構(gòu)方式來實現(xiàn)對農(nóng)作物生長信息數(shù)據(jù)的爬取,主從分布式架構(gòu)主要包括了分節(jié)點(diǎn)的工作狀態(tài)和監(jiān)控以及URL的分發(fā)工作等,分節(jié)點(diǎn)獲得主節(jié)點(diǎn)分發(fā)的調(diào)度任務(wù)以后,完成調(diào)度任務(wù)中的爬取工作,并且將爬取結(jié)果反饋給主節(jié)點(diǎn)。爬蟲網(wǎng)絡(luò)的主從結(jié)構(gòu),如圖1所示。

        1.2 分布式任務(wù)的優(yōu)化調(diào)整

        在分布式網(wǎng)絡(luò)結(jié)構(gòu)中,計算機(jī)并行化處理很關(guān)鍵,該論文運(yùn)用Nutch框架實現(xiàn)分布式網(wǎng)絡(luò)爬蟲。在農(nóng)作物生長信息數(shù)據(jù)爬取的過程中,主節(jié)點(diǎn)將所有帶URL下載任務(wù)分配給不同的分節(jié)點(diǎn)進(jìn)行爬取。論文設(shè)計分布式下載任務(wù)調(diào)度中,將URL映射到服務(wù)器上來完成下載的任務(wù),計算公式如下:

        分布式網(wǎng)絡(luò)伸縮性非常強(qiáng),因此,只要節(jié)點(diǎn)數(shù)量發(fā)生變化,就會導(dǎo)致對數(shù)據(jù)二次爬取,Nutch系統(tǒng)運(yùn)用集中式分割方法解決上述的問題主要是通過構(gòu)建哈希函數(shù)來完成劃分任務(wù)的工作。首先構(gòu)造Hash函數(shù),第一次計算獲得新的URL,并將其映射到表A中;接下來對表A進(jìn)行哈希映射,并將映射后的結(jié)果值劃分給分節(jié)點(diǎn)中。

        2 采集農(nóng)作物生長信息的流程

        2.1 基于Nutch的URL過濾

        為了提高爬取的效率,降低主題爬蟲的工作量,最有效的方式將URL的數(shù)目過濾和限定。所有的URL過濾規(guī)則,都是在conf文件目錄下,進(jìn)行參數(shù)配置和過濾規(guī)則的設(shè)計,而非在源代碼中直接進(jìn)行修改;接下來調(diào)取過濾規(guī)則,則是需要調(diào)用URLFilter子類下的getConf()函數(shù),流程如圖2所示,通過上述方式就能夠更加便捷地實現(xiàn)過濾規(guī)則的修改。

        圖2 URL 種子抓取

        2.2 主題相關(guān)性判斷

        農(nóng)作物生長信息數(shù)據(jù)的主題爬取,不僅要通過URL種子的限定和過濾,還要判斷主題的內(nèi)容。所有網(wǎng)絡(luò)爬取后獲得URL列表注入以后,此時parse Text文該文件就會自動生成,相關(guān)性判斷是基于parse Text文件采用向量模型來實現(xiàn)的,將任意的網(wǎng)頁信息都定義為空間向量,其中表示當(dāng)前網(wǎng)頁的關(guān)鍵詞,表示關(guān)鍵詞的權(quán)重,則兩個向量間的相關(guān)性采用余弦值表示:

        2.3 信息抽取

        通過定義信息抽取模板,就能夠?qū)崿F(xiàn)大部分類型網(wǎng)頁的提取,再將 HTMLPsrser解析庫加載,將提取到的多種類型網(wǎng)頁編寫為相對應(yīng)的頁面進(jìn)行解析方法,從特定的文件中提取到農(nóng)作物生長信息數(shù)據(jù)以后,匹配URL,調(diào)用相對應(yīng)的解析模板,完成相關(guān)網(wǎng)頁的解析工作。具體的流程如下:

        (1)構(gòu)建解析網(wǎng)頁信息模板,將不同類型的網(wǎng)頁信息分類以后,編寫相對應(yīng)的解析信息模板;

        (2)將下載的URL與模板信息庫進(jìn)行匹配,此時將信息URL種子注入以后,通過對比和分析以后,匹配對應(yīng)的解析模板;

        (3)抽取解析后網(wǎng)頁中的信息,并在特定的文件中存儲所有的文本信息。

        3 結(jié)果分析

        相關(guān)網(wǎng)絡(luò)爬蟲模板和信息提取流程完成以后,接下來就是優(yōu)化測試分布式網(wǎng)絡(luò)爬蟲的性能,以此來驗證其是否具備一定的優(yōu)勢。該論文通過對比,分析分布式爬蟲網(wǎng)絡(luò)和單機(jī)網(wǎng)絡(luò)爬蟲的數(shù)量和時間性能。

        首先,闡述分布式網(wǎng)絡(luò)爬蟲結(jié)構(gòu)的軟硬件,如表1、表2所示。

        表1 計算機(jī)軟件配置

        表2 集群配置

        通過測試,分布式爬取和單機(jī)采集數(shù)據(jù)量在規(guī)定的時間內(nèi)進(jìn)行統(tǒng)計,具體如表3所示,記錄了不同時間段爬蟲抓取獲得的信息量。

        表3 采取數(shù)據(jù)量統(tǒng)計表

        圖4 統(tǒng)計對比圖

        通過分析可以知道,當(dāng)時間段比較小時,分布式爬取數(shù)量并沒有太大的差異。隨著時間的增長和數(shù)據(jù)量遞增以后,分布式網(wǎng)絡(luò)爬取能夠?qū)⒏蟮臄?shù)據(jù)信息量獲得。

        4 總結(jié)

        在大數(shù)據(jù)時代,為了更好的完成網(wǎng)絡(luò)爬取任務(wù),收集到更多符合條件的網(wǎng)頁信息,該論文運(yùn)用了分布式網(wǎng)絡(luò)爬蟲技術(shù)。在分布式集群中,各個計算機(jī)都是并行執(zhí)行的,這就會涉及到資源調(diào)配問題,因此,當(dāng)網(wǎng)絡(luò)規(guī)模擴(kuò)大到一定程度以后,集中式分割方式會導(dǎo)致整體運(yùn)行速率降低等相關(guān)問題,研究表明,運(yùn)用二級哈希算法來解決該問題,可使整體的負(fù)載均衡效率更好,提高數(shù)據(jù)采集效率。

        猜你喜歡
        爬蟲哈希網(wǎng)頁
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        基于維度分解的哈希多維快速流分類算法
        10個必知的網(wǎng)頁設(shè)計術(shù)語
        亚洲国产日韩欧美综合a| 97国产精品麻豆性色| 成人免费毛片内射美女-百度 | 99精品又硬又爽又粗少妇毛片 | 国产成人一区二区三区在线观看| 国产精品久久久久影视不卡| 国产亚洲精品一区二区在线播放| 日本国产亚洲一区二区| 精品久久久久成人码免费动漫| 男女啪啪无遮挡免费网站| 一级呦女专区毛片| 精品日韩av专区一区二区| 99e99精选视频在线观看| 无码福利写真片视频在线播放| 国产真实露脸4p视频| 国产亚洲激情av一区二区| 国产偷国产偷亚洲高清视频 | 中文字幕无线码中文字幕| 制服无码在线第一页| 人日本中文字幕免费精品| 人妻少妇精品无码专区| 国产又黄又大又粗视频| 日本一区二区三区在线 | 亚洲精品美女自拍偷拍| 美女被内射很爽的视频网站| 性久久久久久| 69精品丰满人妻无码视频a片| 伊人色综合九久久天天蜜桃| av日韩高清一区二区| 特黄特色的大片观看免费视频| 亚洲国产A∨无码影院| 在线观看av不卡 一区二区三区| 久久精品国产亚洲av久| 国产成人www免费人成看片 | 成人试看120秒体验区| 亚洲黄色电影| 黑人免费一区二区三区| 国产av自拍视频在线观看| 摸进她的内裤里疯狂揉她动视频 | 亚洲一区二区三区在线观看播放 | 国产极品美女高潮抽搐免费网站|