亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于webmagic 爬取技術(shù)的西藏主流媒體熱點新聞的獲取

        2020-01-08 08:04:48王國慶高紅梅黃法錦白瑪旺久西藏大學(xué)信息科學(xué)技術(shù)學(xué)院西藏拉薩850000
        數(shù)碼世界 2020年1期
        關(guān)鍵詞:熱點新聞爬蟲網(wǎng)頁

        王國慶 高紅梅 黃法錦 白瑪旺久 西藏大學(xué)信息科學(xué)技術(shù)學(xué)院 (西藏 拉薩850000)

        1 研究背景

        通過調(diào)查研究發(fā)現(xiàn),在西藏自治區(qū)外,大部分人對西藏的物質(zhì)文化和人民生活一知半解。造成此種現(xiàn)象的原因在于獲取西藏信息的渠道太少,人們對西藏的看法與實際情況存在偏差。但隨著互聯(lián)網(wǎng)的迅猛發(fā)展,爬蟲技術(shù)的日益成熟,通過對西藏主流媒體的爬取來獲取所需要的新聞,不僅能改變外界對于西藏的認(rèn)知和看法,而且有助于向區(qū)外展示和發(fā)揚西藏文化,能夠讓人們更加清楚的了解和認(rèn)識到西藏人民多姿多彩的物質(zhì)文化生活。

        2 相關(guān)技術(shù)

        2.1 Maven 工具

        Maven 是一個針對Java 開發(fā)項目的管理工具,能夠管理項目所依賴的jar 包。它以Jelly 作為自己的腳本語言。包含了一個項目對象模型(POM),一組標(biāo)準(zhǔn)集合,一個項目生命周期,一個依賴管理系統(tǒng)和用來定義在生命周期階段中插件目標(biāo)的邏輯。

        2.2 WebMagic 總體框架

        WebMagic 是一個簡單靈活的Java 爬蟲框架, WebMagic 主要包括兩個包,分別是核心包和擴展包。其中核心包(webmagic-core)包含爬蟲基本模塊和基本抽取器,而擴展包(webmagic-extension)則提供一些方便編寫爬蟲的工具。同時內(nèi)置了一些常用組件,便于爬蟲開發(fā)。

        WebMagic 是 由Downloader、PageProcessor、Scheduler、Pipeline 四個組件構(gòu)成的。而Spider 則將四大組件組織起來。

        用 于 數(shù) 據(jù) 流 轉(zhuǎn) 的 對 象:(1)Request: Request 是URL 地址 的 封 裝 層,實 現(xiàn) 了pageprocessor 和Downloader 交 互,是pageprocessor 控制Downloader 的唯一途徑。(2)Page:Page 代表Downloader下載的界面,可以是HTML、JSON或其他文本格式等。(3)Resultitems:Resultitems 負(fù)責(zé)存儲由pageprocessor 處理的結(jié)果以供Pipeline 使用。

        WebMagic 總體架構(gòu)如圖1 所示。

        4 案例實現(xiàn)

        4.1 具體操作流程

        圖2 信息爬取操作流程

        4.2 爬蟲準(zhǔn)備工作

        如果使用WebMagic 框架來進行爬蟲的構(gòu)建,首先需要借助Maven 來創(chuàng)建WebMagic 項目,其次則是在項目的pom.xml 配置文件中添加對象的依賴。

        4.3 網(wǎng)頁的下載

        對于通用的網(wǎng)頁,Downloader 組件可通過URL 地址直接獲取網(wǎng)頁信息,具體則是通過超鏈接得到對應(yīng)的網(wǎng)頁,然后按照所需要的數(shù)據(jù)字段進行抽取,將獲得的字段為空的數(shù)據(jù)舍棄,將所獲得的完整的數(shù)據(jù)存儲到MySQL 數(shù)據(jù)庫中。循環(huán)重試機制會把下載失敗的URL 再次放在隊尾進行重試,直到超過所設(shè)置的重試次數(shù)為止,循環(huán)重試機制和設(shè)置重試次數(shù)可以有效解決因為某些網(wǎng)絡(luò)原因而漏抓頁面的問題。

        4.4 信息的抽取

        PageProcessor 組件負(fù)責(zé)解析頁面,抽取有用的信息,以及發(fā)現(xiàn)新的鏈接。它可以根據(jù)用戶的需求來定制所需要的PageProcessor。其定制的功能主要分為三大部分:

        (1)對爬蟲的配置,包括:配置帶爬取網(wǎng)站的編碼、Http 頭、超時時間、重試策略、代理等信息。

        (2)爬蟲最為重要的部分則是頁面元素的抽取,對于已經(jīng)下載的頁面,主要采取三種抽取方式,分別為CSS 選擇器、Xpath 和正則表達式。代碼實現(xiàn):

        page.putField("div",page.getHtml().css("div1.headline h1").all());

        //以css 抽取方式抽取div 標(biāo)簽下class 為headline 中的h1標(biāo)簽。

        page.putField("div2",page.getHtml().xpath("http://div[@id=qds_boxb1]/ul/li/a"));//以Xpath 抽取方式抽取div 標(biāo)簽下的id 為qds_boxb1 下的a 標(biāo)簽。

        Page.putField(key: "div3",page.getHtml().css(selector:"div#demo1 li").Regex(".*中國特色社會主義.*").all());

        //css 和正則表達式抽取方式混合使用來抽取。

        (3)獲取鏈接則是第三個需要解決的問題,應(yīng)采用適合的方法來篩選出所需要的鏈接并將其加入到待抓取的隊列中。

        page.addTargetRequests(page.getHtml().css("div.jdyw").links().all()); //獲取class 為jdyw下的URL

        page.putField("url",page.getHtml().css("div.tbig_title h1").all());

        //獲取URL 中class 為tbig_title下h1 標(biāo)簽中的內(nèi)容。

        4.5 URL 的管理與去重

        數(shù)據(jù)的抓取過程中需要對已經(jīng)抓取的、重復(fù)的URL 隊列進行管理,Scheduler 組件負(fù)責(zé)管理待抓取的URL,以及一些去重的工作。URL 有二種去重方式,一是HashSet,使用Java 中的HashSet不能重復(fù)的特點去重,優(yōu)點是容易理解,使用方便。缺點是占用內(nèi)存大,性能較低。二是布隆過濾器,使用布隆過濾器也可以實現(xiàn)去重,優(yōu)點是占用的內(nèi)存要比使用HashSet 要小的多,也適合大量數(shù)據(jù)的去重操作。缺點是有誤判的可能。除非項目有特殊需求,否則無需定制Scheduler。

        4.6 抽取結(jié)果的處理

        Pipeline 組件負(fù)責(zé)抽取結(jié)果的處理,包括計算、持久化到文件、數(shù)據(jù)庫等。采用Pipeline 來處理抽取結(jié)果,有兩個重要的原因:(1)頁面抽取與后處理相分離,分離這兩個階段使得模塊化結(jié)構(gòu)更加明顯,代碼結(jié)構(gòu)更加清晰。(2)Pipeline 的功能相對固定,更易做成通用組件。WebMagic 默認(rèn)提供了“輸出到控制臺”和“保存到文件”兩種結(jié)果處理方案。Pipeline 定義了如何保存結(jié)果,如果要保存到指定的數(shù)據(jù)庫,則需編寫對應(yīng)的Pipeline。

        5 新聞數(shù)據(jù)分析與可視化

        即進一步對已經(jīng)保存在MySQL 中的新聞數(shù)據(jù)進行分析統(tǒng)計,整理分類,通過使用Dreamweaver 軟件用PHP 語言來制作動態(tài)網(wǎng)頁與MySQL 相連。將所爬取到的新聞信息通過網(wǎng)頁的方式呈現(xiàn)給用戶。所爬取到的新聞將會進行分類,用戶通過對網(wǎng)頁的訪問,以及利用關(guān)鍵字進行檢索,將會獲取不同類別的新聞。

        6 總結(jié)和展望

        通過對以WebMagic 為框架構(gòu)建爬蟲,以Maven 技術(shù)管理Java 項目的研究,實現(xiàn)了對西藏主流媒體熱點新聞的爬取和存儲,在爬取過程中,可能會遇到內(nèi)部網(wǎng)絡(luò)不允許訪問外網(wǎng)的情況,這時就需要設(shè)置代理IP。有些網(wǎng)絡(luò)服務(wù)器反感爬蟲,會對請求頭做個簡單判別,直接拒絕那些明顯是由自動化程序發(fā)起的請求,為了避免自動化程序被拒絕,在請求時,可以修改請求頭,讓自動化程序更像一個瀏覽器。

        此爬蟲系統(tǒng)能夠使用戶更加全面的獲知和了解西藏主流媒體上的熱點新聞,促進了人們對于西藏地區(qū)物質(zhì)文化與人民生活的了解,改善了人們心中對于西藏的認(rèn)知和看法。

        猜你喜歡
        熱點新聞爬蟲網(wǎng)頁
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        熱點新聞事件中網(wǎng)絡(luò)流行語產(chǎn)生的原因及其傳播效應(yīng)
        新聞傳播(2018年5期)2018-05-30 07:02:43
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        做精做深熱點新聞,提升地方媒體影響力
        傳媒評論(2018年1期)2018-03-22 01:24:32
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        2016年中考物理熱點新聞延伸題
        熱點新聞在大學(xué)生中的傳播及其對思政工作的啟示研究
        新聞傳播(2016年21期)2016-07-10 12:22:35
        国产日韩精品视频一区二区三区| 无码成人一区二区| 青青草原综合久久大伊人精品| 自拍偷自拍亚洲精品第按摩| 亚洲无线一二三四区手机| 亚洲av无码av制服另类专区| 天天爱天天做天天爽| 中文字幕亚洲精品人妻| 婷婷久久亚洲中文字幕| 一级内射免费观看视频| 女优一区二区三区在线观看| 窝窝午夜看片| 免费人成再在线观看网站| 欧美成人网视频| 亚洲人妻御姐中文字幕| 亚洲中文久久精品字幕| 欧美私人情侣网站| 国产精品亚洲一区二区无码| 熟妇与小伙子露脸对白| av在线不卡免费中文网| 免费国产在线精品一区| 欧美野外疯狂做受xxxx高潮| 国产精品久久综合桃花网| 久久色悠悠亚洲综合网 | 深夜一区二区三区视频在线观看| 日韩欧美在线综合网另类| 国产伦久视频免费观看视频 | 久久久久99精品国产片| 亚洲精品国产福利在线观看 | 人妻少妇中文字幕乱码| 在线观看国产成人av片| 深夜福利国产| 大陆少妇一区二区三区| 国产一区二区精品久久岳| 狠狠色噜噜狠狠狠888米奇视频| 九九久久国产精品大片| 白嫩少妇在线喷水18禁| 77777亚洲午夜久久多喷| 亚洲国产精品日韩av不卡在线| 国产综合精品久久亚洲| 搞黄色很刺激的网站二区|