亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下分布式數(shù)據(jù)抓取策略的研究與應(yīng)用

        2019-12-07 08:37:22段玉風(fēng)
        關(guān)鍵詞:爬蟲網(wǎng)頁分布式

        ◆段玉風(fēng)

        大數(shù)據(jù)環(huán)境下分布式數(shù)據(jù)抓取策略的研究與應(yīng)用

        ◆段玉風(fēng)

        (運(yùn)城廣播電視大學(xué) 山西 044000)

        隨著網(wǎng)絡(luò)技術(shù)與移動(dòng)通信技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,傳統(tǒng)的數(shù)據(jù)抓取技術(shù)已經(jīng)很難適應(yīng)當(dāng)前海量數(shù)據(jù)的應(yīng)用需求,為了能夠有效改善這一現(xiàn)狀,本文提出了基于Hadoop的分布式網(wǎng)絡(luò)爬蟲改進(jìn)策略,以滿足大數(shù)據(jù)環(huán)境下用戶對(duì)互聯(lián)網(wǎng)信息的應(yīng)用需求。

        大數(shù)據(jù);Hadoop;分布式網(wǎng)絡(luò)爬蟲

        1 Hadoop大數(shù)據(jù)平臺(tái)

        Hadoop是一種分布式架構(gòu)的數(shù)據(jù)處理系統(tǒng),其技術(shù)優(yōu)勢主要體現(xiàn)在兩個(gè)方面:一是硬件兼容性方面,Hadoop系統(tǒng)對(duì)網(wǎng)絡(luò)集群設(shè)備的性能要求較低,這大大較低了系統(tǒng)構(gòu)建的設(shè)備購置成本;二是應(yīng)用軟件兼容性方面,Hadoop系統(tǒng)提供有標(biāo)準(zhǔn)統(tǒng)一的程序接口,可為第三方應(yīng)用軟件開發(fā)提供穩(wěn)定的運(yùn)行環(huán)境[1]。Hadoop系統(tǒng)底層架構(gòu)主要由海量數(shù)據(jù)存儲(chǔ)和并行數(shù)據(jù)處理兩個(gè)大核心功能組件構(gòu)成,分別是HDFS、MapReduce[2]。其中HDFS(分布式文件系統(tǒng))采用主從節(jié)點(diǎn)結(jié)構(gòu)建立了分布式網(wǎng)絡(luò)集群的數(shù)據(jù)管理模式,該模式下,主節(jié)點(diǎn)負(fù)責(zé)元數(shù)據(jù)的存儲(chǔ)管理,從節(jié)點(diǎn)直接面向客戶端對(duì)象,完成數(shù)據(jù)的讀寫操作,大大提高了數(shù)據(jù)的響應(yīng)效率和數(shù)據(jù)管理的安全性;MapReduce(并行數(shù)據(jù)處理)提供了高效的分布式數(shù)據(jù)并行處理模型,通過HDFS系統(tǒng)創(chuàng)建對(duì)應(yīng)的MapReduce任務(wù),并在多個(gè)主節(jié)點(diǎn)間調(diào)度分配,使得多個(gè)節(jié)點(diǎn)設(shè)備之間能夠協(xié)同工作,完成數(shù)據(jù)的分析處理。

        Hadoop系統(tǒng)是當(dāng)前最為主流的大數(shù)據(jù)管理平臺(tái),在數(shù)據(jù)存儲(chǔ)與并行處理方面有著明顯的技術(shù)優(yōu)勢,但在有效數(shù)據(jù)的抓取方面還有所欠缺,由于傳統(tǒng)的網(wǎng)絡(luò)數(shù)據(jù)抓取方式難以適用于Hadoop的分布式系統(tǒng)環(huán)境,因此如何快速、準(zhǔn)確獲取到用戶需要的數(shù)據(jù)是當(dāng)下大數(shù)據(jù)平臺(tái)發(fā)展急待解決的問題。

        2 分布式網(wǎng)絡(luò)數(shù)據(jù)抓取策略

        2.1 網(wǎng)絡(luò)爬蟲

        數(shù)據(jù)抓取指的是依據(jù)用戶需求,通過搜索引擎在大數(shù)據(jù)平臺(tái)中檢索到相關(guān)數(shù)據(jù)并反饋至請(qǐng)求客戶端。這種網(wǎng)絡(luò)數(shù)據(jù)抓取技術(shù)主要采用了一種叫作網(wǎng)絡(luò)爬蟲的排序算法作為核心算法?;诰W(wǎng)絡(luò)爬蟲技術(shù)的數(shù)據(jù)抓取過程主要有五個(gè)步驟組成:

        (1)構(gòu)建數(shù)據(jù)抓取的檢索連接庫,用于管理能夠提供適合需求的網(wǎng)站URL,這些URL為數(shù)據(jù)抓取的提供了對(duì)應(yīng)的數(shù)據(jù)檢索范圍,被稱為URL種子;

        (2)依據(jù)用戶請(qǐng)求,選取適合的URL種子建立并更新數(shù)據(jù)檢索隊(duì)列;

        (3)通過URL種子檢索,從相應(yīng)的網(wǎng)頁中獲取到所需數(shù)據(jù),并保持到本地文件系統(tǒng)當(dāng)中;

        (4)對(duì)已抓取數(shù)據(jù)當(dāng)中的URL進(jìn)行檢測、去重,將重復(fù)數(shù)據(jù)結(jié)果刪除;

        (5)結(jié)束數(shù)據(jù)抓取,將結(jié)果響應(yīng)至網(wǎng)絡(luò)客戶端。

        網(wǎng)絡(luò)爬蟲技術(shù)的數(shù)據(jù)抓取策略主要有深度遍歷、廣度遍歷與最優(yōu)路徑遍歷等[3],前兩種策略,主要是通過已鎖定的任一URL種子,對(duì)其進(jìn)行縱向或橫向遍歷,最優(yōu)路徑策略是需要先在相關(guān)的URL間繪制路徑,通過預(yù)先設(shè)定的條件對(duì)路徑進(jìn)行優(yōu)先選擇,并沿選擇的路徑進(jìn)行遍歷。無論哪種策略,在面向海量的網(wǎng)絡(luò)數(shù)據(jù)時(shí),其復(fù)雜的數(shù)據(jù)關(guān)系都使得數(shù)據(jù)遍歷的時(shí)間開銷在成倍增加,每抓取一次數(shù)據(jù),都會(huì)涉及對(duì)上億的URL進(jìn)行遍歷。為了進(jìn)一步提高海量數(shù)據(jù)抓取的時(shí)效性與準(zhǔn)確性,基于Hadoop分布式數(shù)據(jù)平臺(tái)的網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用研究受到了極大的關(guān)注,并提出了分布式網(wǎng)絡(luò)爬蟲概念。

        2.2 分布式網(wǎng)絡(luò)爬蟲

        分布式網(wǎng)絡(luò)爬蟲,簡單講就是部署在分布式集群設(shè)備上的數(shù)據(jù)抓取策略,借助網(wǎng)絡(luò)集群并行完成海量數(shù)據(jù)的抓取工作。其核心問題涉及兩個(gè)方面,一是各個(gè)集群節(jié)點(diǎn)間的任務(wù)協(xié)調(diào)問題,二是各個(gè)節(jié)點(diǎn)間的任務(wù)分配問題。目前這兩類問題主要是通過建立節(jié)點(diǎn)間的通信模式來解決,分布式網(wǎng)絡(luò)爬蟲提供了三種通信模式:

        主從模式:在節(jié)點(diǎn)間建立主從關(guān)系,主節(jié)點(diǎn)負(fù)責(zé)維護(hù)和管理URL種子列表,以及各個(gè)從節(jié)點(diǎn)之間通信和任務(wù)分配;從節(jié)點(diǎn)負(fù)責(zé)完成具體的檢索任務(wù),并將產(chǎn)生的結(jié)果反饋至從節(jié)點(diǎn)。該模式實(shí)現(xiàn)較為復(fù)雜,適用于復(fù)雜的數(shù)據(jù)處理環(huán)境。

        自治模式:不設(shè)置專門的控制節(jié)點(diǎn),各節(jié)點(diǎn)之間直接進(jìn)行通信,協(xié)調(diào)任務(wù)管理,常見的有單向環(huán)形通信和全連通通信兩種結(jié)構(gòu)。單向環(huán)形通信中所有節(jié)點(diǎn)單向環(huán)形連接在一起,每個(gè)節(jié)點(diǎn)只能單向發(fā)送和接收信息;全連通通信中所有節(jié)點(diǎn)均可雙方發(fā)送和接收信息。該模式實(shí)現(xiàn)較為簡單,適用于數(shù)據(jù)處理量較少的分布式網(wǎng)絡(luò)環(huán)境。

        混合模式:即以上兩種模式主要特點(diǎn)的結(jié)合,節(jié)點(diǎn)間直接進(jìn)行通信,在通信過程中的錯(cuò)誤信息、失敗的任務(wù)分配等,會(huì)通過特定節(jié)點(diǎn)進(jìn)行收集和整理,并予以糾正。

        由于Hadoop平臺(tái)的分布式文件管理模式也采用的是主從模式,因此數(shù)據(jù)抓取策略中也將重點(diǎn)針對(duì)主從模式的分布式網(wǎng)絡(luò)爬蟲技術(shù)展開研究。

        3 基于Hadoop平臺(tái)的網(wǎng)絡(luò)爬蟲系統(tǒng)框架設(shè)計(jì)

        基于Hadoop平臺(tái)的網(wǎng)絡(luò)爬蟲系統(tǒng)的基本設(shè)計(jì)架構(gòu)如圖1所示:

        圖1 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)架構(gòu)

        如圖所示,分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的功能框架包括URL數(shù)據(jù)庫、抓取網(wǎng)頁、解析數(shù)據(jù)、數(shù)據(jù)去重四個(gè)功能模塊。其中抓取網(wǎng)頁、解析數(shù)據(jù)和數(shù)據(jù)去重模塊構(gòu)建在Hadoop的MapReduce并行處理系統(tǒng)當(dāng)中,以主從通信模式完成任務(wù)分配與執(zhí)行,URL數(shù)據(jù)庫內(nèi)置于Hadoop的HDFS文件管理系統(tǒng)當(dāng)中,用于存儲(chǔ)URL網(wǎng)頁數(shù)據(jù)。其工作流程如下:

        首先通過抓取網(wǎng)頁模塊對(duì)URL數(shù)據(jù)庫中的URL列表進(jìn)行檢索,并將檢索過程中采集到的數(shù)據(jù)存儲(chǔ)在URL數(shù)據(jù)庫的DATA數(shù)據(jù)表中。

        再通過解析數(shù)據(jù)模塊對(duì)采集到的網(wǎng)頁數(shù)據(jù)信息進(jìn)行解析,將解析后取得的數(shù)據(jù)連接信息回存至DATA數(shù)據(jù)表中。

        最后由數(shù)據(jù)去重模塊對(duì)DATA數(shù)據(jù)表中的重復(fù)數(shù)據(jù)進(jìn)行檢索與刪除。整個(gè)工作流程中所涉及的數(shù)據(jù)存儲(chǔ)由Hadoop的HDFS進(jìn)行統(tǒng)一管理。

        分布式網(wǎng)絡(luò)爬蟲系統(tǒng)借助了Hadoop的分布式平臺(tái)架構(gòu)優(yōu)勢,在傳統(tǒng)的數(shù)據(jù)抓取策略中加入了分布式通信概念,大大提高了網(wǎng)絡(luò)爬蟲系統(tǒng)的執(zhí)行效率、運(yùn)行穩(wěn)定性和易擴(kuò)展性,有效緩解了大數(shù)據(jù)環(huán)境中數(shù)據(jù)自動(dòng)采集的時(shí)延、系統(tǒng)開銷大、準(zhǔn)確率低等問題。但這一改進(jìn)策略主要針對(duì)的是靜態(tài)網(wǎng)頁設(shè)計(jì)中的數(shù)據(jù)抓取,針對(duì)動(dòng)態(tài)網(wǎng)頁的數(shù)據(jù)采集功能尚有欠缺,本研究還將就這一問題展開深入的研究與探討,通過爬蟲算法的策略改進(jìn),實(shí)現(xiàn)動(dòng)態(tài)頁面中海量數(shù)據(jù)的快速采集。

        [1]陳新. Hadoop平臺(tái)中作業(yè)調(diào)度算法分析與改進(jìn)研究[J].微型機(jī)與應(yīng)用,2016,35(11):80-82.

        [2]馬梅,劉東蘇,李慧.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J].情報(bào)科學(xué),2016,34(3):25-28.

        [3]翟周偉.Hadoop核心技術(shù)[M].北京:機(jī)械工業(yè)出版社,2015.

        猜你喜歡
        爬蟲網(wǎng)頁分布式
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        分布式光伏熱錢洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        基于DDS的分布式三維協(xié)同仿真研究
        午夜国产在线| av大全亚洲一区二区三区| 国产乱对白刺激视频| 色翁荡息又大又硬又粗又视频图片| 中文字幕人妻中文| 一区二区三区夜夜久久| 中国久久久一级特黄久久久| 亚洲av无码久久精品狠狠爱浪潮| 欧美色欧美亚洲另类二区不卡| 九九日本黄色精品视频| 日本精品一区二区三区在线观看| 美女脱了内裤张开腿让男人桶网站| 亚洲爆乳无码专区| 亚洲精品中文字幕乱码二区| 亚洲一区二区三区高清在线观看| 白丝兔女郎m开腿sm调教室| 另类免费视频在线视频二区| 亚洲一级av大片在线观看| 日本高清一道本一区二区| 爽爽精品dvd蜜桃成熟时电影院| 精品国产群3p在线观看| 在线播放偷拍一区二区| 国产成人无码一区二区三区| 夜夜欢性恔免费视频| 午夜精品久视频在线观看| 人妻少妇被粗大爽视频| 国产成人综合亚洲看片| 在线一区不卡网址观看| 国产成版人性视频免费版| 2021国产精品视频网站| 人人妻人人澡人人爽欧美二区| 国产成人福利在线视频不卡| 亚洲不卡av一区二区三区四区| 国产特级毛片aaaaaa视频| 日韩中文字幕中文有码| 丝袜美女美腿一区二区| 曰韩少妇内射免费播放| 精品无码国产自产野外拍在线| 国产成人丝袜在线无码| 国产成人亚洲一区二区| 白天躁晚上躁麻豆视频|