亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)輿情爬蟲(chóng)系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用

        2024-12-31 00:00:00王小月
        中國(guó)新通信 2024年19期
        關(guān)鍵詞:爬蟲(chóng)網(wǎng)絡(luò)輿情預(yù)防

        摘要:在網(wǎng)絡(luò)輿情業(yè)務(wù)監(jiān)測(cè)中,以傳統(tǒng)爬蟲(chóng)的方式進(jìn)行監(jiān)測(cè),容易產(chǎn)生監(jiān)測(cè)效率低、成本高等問(wèn)題,在此背景下,采用分布式爬蟲(chóng)技術(shù),能夠?qū)W(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行快速監(jiān)測(cè),進(jìn)而進(jìn)行數(shù)據(jù)的處理與分析,以此能夠高效率感知輿情信息,進(jìn)一步提升輿情管控與預(yù)防能力。

        關(guān)鍵詞:網(wǎng)絡(luò)輿情;分布式;爬蟲(chóng);預(yù)防

        一、 引言

        近年來(lái),我國(guó)社會(huì)進(jìn)入社交媒體爆炸式發(fā)展的階段,信息的傳播速度極快,網(wǎng)絡(luò)輿情信息不僅是一個(gè)個(gè)熱門(mén)話(huà)題,更是對(duì)政府的感知能力和社會(huì)治理能力提出了全新的挑戰(zhàn)[1]?;谠摤F(xiàn)狀,一款能夠自動(dòng)獲取網(wǎng)絡(luò)輿情信息并對(duì)輿情信息進(jìn)行分析的軟件是相關(guān)職能部門(mén)迫切需要的。相關(guān)職能部門(mén)可以通過(guò)該系統(tǒng)在海量數(shù)據(jù)中抓取網(wǎng)民對(duì)某事件的評(píng)論和情感傾向,來(lái)了解并把握群眾的情緒,從而對(duì)輿情事件做出更加高效、正確的決策。

        二、網(wǎng)絡(luò)輿情爬蟲(chóng)系統(tǒng)關(guān)鍵技術(shù)

        (一)Python開(kāi)發(fā)語(yǔ)言

        在信息技術(shù)體系的開(kāi)發(fā)中,采用Python語(yǔ)言對(duì)網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)實(shí)現(xiàn)的過(guò)程進(jìn)行實(shí)現(xiàn),以此明確需求階段、設(shè)計(jì)階段與實(shí)現(xiàn)階段的工作內(nèi)容與目標(biāo)。Python語(yǔ)言與Java語(yǔ)言、C語(yǔ)言是彼此相互獨(dú)立,采用開(kāi)發(fā)的方式為面向?qū)ο蟮哪J?,吸取其他開(kāi)發(fā)語(yǔ)言的優(yōu)點(diǎn),能夠指導(dǎo)軟件開(kāi)發(fā)過(guò)程[2]。

        (二)MongoDB數(shù)據(jù)庫(kù)

        信息技術(shù)的快速發(fā)展,推動(dòng)了數(shù)據(jù)存儲(chǔ)、前端開(kāi)發(fā)等技術(shù)的進(jìn)步,能夠完成業(yè)務(wù)數(shù)據(jù)信息的存儲(chǔ)與處理。目前業(yè)務(wù)系統(tǒng)需要存儲(chǔ)的數(shù)據(jù)信息越來(lái)越多,主要采用的主要是面向?qū)ο蟮年P(guān)系數(shù)據(jù)庫(kù),目前典型的關(guān)系數(shù)據(jù)庫(kù)有SQL Server系列的數(shù)據(jù)庫(kù)、Oracle數(shù)據(jù)庫(kù)與MySQL數(shù)據(jù)庫(kù)。目前網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)開(kāi)發(fā)中,MongoDB數(shù)據(jù)庫(kù)是目前典型的非結(jié)構(gòu)化應(yīng)用的數(shù)據(jù)庫(kù)。數(shù)據(jù)信息存儲(chǔ)在一個(gè)大倉(cāng)庫(kù),而是根據(jù)數(shù)據(jù)信息的類(lèi)別存儲(chǔ)到不同的表格中,能夠有效增加數(shù)據(jù)信息的靈活性。數(shù)據(jù)信息的查詢(xún)能夠采用標(biāo)準(zhǔn)的SQL語(yǔ)句,方便技術(shù)人員快速上手進(jìn)行操作[3]。

        三、需求分析

        (一)系統(tǒng)業(yè)務(wù)分析

        爬蟲(chóng)系統(tǒng)的基本工作原理為:爬蟲(chóng)系統(tǒng)從待抓取URL隊(duì)列中取出一個(gè)URL作為程序的入口地址,通過(guò)DNS解析后找到該URL對(duì)應(yīng)的網(wǎng)站頁(yè)面,在頁(yè)面中提取到的頁(yè)面內(nèi)容存入MongoDB數(shù)據(jù)庫(kù)[4]。爬蟲(chóng)系統(tǒng)體系結(jié)構(gòu)如圖1所示。

        (二)系統(tǒng)功能需求分析

        系統(tǒng)業(yè)務(wù)功能主要包括頁(yè)面抓取、頁(yè)面解析與頁(yè)面存儲(chǔ),詳細(xì)系統(tǒng)總體用例圖如圖2所示。

        圖2 系統(tǒng)業(yè)務(wù)功能用例圖

        具體系統(tǒng)業(yè)務(wù)功能用例內(nèi)容包括:首先,頁(yè)面抓取功能:在頁(yè)面抓取的工作過(guò)程中,先給出一個(gè)URL作為起始點(diǎn),網(wǎng)絡(luò)爬蟲(chóng)處于該位置點(diǎn)進(jìn)行檢索提取操作,找到使用的客戶(hù)端主機(jī)名稱(chēng)和網(wǎng)絡(luò)端口信息[5]。其次,頁(yè)面解析功能:對(duì)于網(wǎng)絡(luò)中的各類(lèi)網(wǎng)頁(yè),能夠通過(guò)正則表達(dá)式進(jìn)行規(guī)則搜索及解析。最后,數(shù)據(jù)存儲(chǔ)功能:在過(guò)程中,通過(guò)正則表達(dá)式來(lái)對(duì)頁(yè)面進(jìn)行篩選,將信息以JSON的形式存儲(chǔ)[6]。

        (三)系統(tǒng)性能需求分析

        對(duì)這些性能指標(biāo)明確敘述后,主要的工作需要對(duì)系統(tǒng)的性能進(jìn)行說(shuō)明,以此保障系統(tǒng)的性能具備良好的運(yùn)行保障,這些性能方面的內(nèi)容主要分為響應(yīng)的時(shí)間、系統(tǒng)用戶(hù)并發(fā)與系統(tǒng)穩(wěn)定操作方面的內(nèi)容,詳細(xì)的這些性能指標(biāo)具體闡述:

        首先,可靠性方面的指標(biāo)。一方面是需要確保系統(tǒng)遇到攻擊時(shí)候同時(shí)具備良好的穩(wěn)定性,能夠快速恢復(fù)穩(wěn)定運(yùn)行;另外一方面是系統(tǒng)能夠穩(wěn)定運(yùn)行的時(shí)間,因此需要系統(tǒng)能夠長(zhǎng)時(shí)間保持穩(wěn)定狀態(tài)運(yùn)行[7]。其次,并發(fā)人數(shù)。對(duì)于系統(tǒng)的使用而言,需要考慮并發(fā)性的因素,結(jié)合系統(tǒng)的需求來(lái)確定,系統(tǒng)的并發(fā)人數(shù)客戶(hù)應(yīng)在500用戶(hù)以上,使得系統(tǒng)后期在系統(tǒng)運(yùn)行時(shí)候能夠適應(yīng)人數(shù)的并發(fā)使用[8]。最后,系統(tǒng)功能模塊響應(yīng)時(shí)間。對(duì)于系統(tǒng)而言,每次用戶(hù)操作后,系統(tǒng)進(jìn)行響應(yīng),這些功能模塊的最大響應(yīng)時(shí)間不宜超過(guò)5s,如果超過(guò)該響應(yīng)時(shí)間,則必然降低系統(tǒng)使用的交互性,以此提升系統(tǒng)的響應(yīng)效率,滿(mǎn)足用戶(hù)的操作需要[9]。

        四、關(guān)鍵技術(shù)研究與應(yīng)用

        (一)體系架構(gòu)設(shè)計(jì)

        在系統(tǒng)總體設(shè)計(jì)中,按目前系統(tǒng)設(shè)計(jì)模式,需要完成系統(tǒng)架構(gòu)設(shè)計(jì)。這些架構(gòu)設(shè)計(jì)工作重點(diǎn)是確定三層架構(gòu)設(shè)計(jì),每一層設(shè)計(jì)架構(gòu)包括數(shù)據(jù)層、表現(xiàn)層與業(yè)務(wù)邏輯層,這些層次架構(gòu)每一的目標(biāo)與使用方式不同,設(shè)計(jì)架構(gòu)如圖3所示。

        圖3 系統(tǒng)體系架構(gòu)設(shè)計(jì)

        結(jié)合系統(tǒng)體系架構(gòu)設(shè)計(jì)來(lái)說(shuō),系統(tǒng)采用微服務(wù)的設(shè)計(jì)方式,主要從三層架構(gòu)設(shè)計(jì)的方式進(jìn)行處理,不同層次架構(gòu)之間耦合度應(yīng)盡量降低,每一層工作內(nèi)容與工作目標(biāo)不同,以此滿(mǎn)足系統(tǒng)的處理需要。

        1.表現(xiàn)層

        系統(tǒng)中的用戶(hù)角色分為用戶(hù)與管理員,這些用戶(hù)在表現(xiàn)層對(duì)系統(tǒng)的功能進(jìn)行操作,用戶(hù)能夠完成網(wǎng)絡(luò)輿情信息的抓取、解析與存儲(chǔ)操作。表現(xiàn)層設(shè)計(jì)的原則是友好便利化,用戶(hù)根據(jù)系統(tǒng)的提示能夠快速完成各個(gè)模塊的操作[10]。

        2.業(yè)務(wù)處理層

        在系統(tǒng)中,系統(tǒng)的主要處理源碼在業(yè)務(wù)處理層,結(jié)合需求分析階段的功能,這部分源碼包括頁(yè)面抓取、頁(yè)面解析、頁(yè)面存儲(chǔ)等功能。用戶(hù)與管理員對(duì)這些模塊進(jìn)行操作,每一項(xiàng)業(yè)務(wù)功能的操作需要完成對(duì)應(yīng)數(shù)據(jù)的存儲(chǔ)與更新,后將數(shù)據(jù)信息返回到表現(xiàn)層。

        3.數(shù)據(jù)層

        這一層次主要目標(biāo)是完成系統(tǒng)中所有數(shù)據(jù)信息的存儲(chǔ),結(jié)合系統(tǒng)處理需要,系統(tǒng)需要存儲(chǔ)表格包括頁(yè)面信息等內(nèi)容,不同的數(shù)據(jù)庫(kù)表格需要確定數(shù)據(jù)存儲(chǔ)的字段、長(zhǎng)度與類(lèi)型,這些數(shù)據(jù)庫(kù)存儲(chǔ)用戶(hù)操作的信息。

        (二)系統(tǒng)技術(shù)架構(gòu)設(shè)計(jì)

        在實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲(chóng)管理系統(tǒng)中,中心節(jié)點(diǎn)負(fù)責(zé)控制,包括URL控制、抽取器學(xué)習(xí)及主題控制,如圖4所示。

        圖4 中心節(jié)點(diǎn)服務(wù)器業(yè)務(wù)流程示意圖

        在中心節(jié)點(diǎn)服務(wù)器中,主要包括的模塊:第一,主題控制模塊。本模塊完成關(guān)于主題的操作,包括對(duì)主題的描述、添加和刪除;控制主題抓取頻率;編輯每個(gè)主題種子隊(duì)列。第二,抽取器學(xué)習(xí)模塊。本模塊采用基于內(nèi)容的網(wǎng)頁(yè)分析算法,從URL種子入手,訓(xùn)練形成針對(duì)種子代表的權(quán)威站點(diǎn)的數(shù)據(jù)抽取器。第三,URL控制器。URL模塊主要負(fù)責(zé)中心節(jié)點(diǎn)內(nèi)的URL隊(duì)列的排序,并根據(jù)各子節(jié)點(diǎn)負(fù)載反饋進(jìn)行任務(wù)分割[11]。

        (三)系統(tǒng)測(cè)試效果分析

        在網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的測(cè)試操作中,系統(tǒng)的測(cè)試目標(biāo)需要滿(mǎn)足穩(wěn)定運(yùn)行,因此需要確定系統(tǒng)在功能、接口與性能等多個(gè)方面的反應(yīng)需要。在功能方面,通過(guò)系統(tǒng)的功能測(cè)試能夠有效發(fā)現(xiàn)每一個(gè)前臺(tái)與后臺(tái)功能可能出現(xiàn)的缺陷,有效識(shí)別這些可能出現(xiàn)的缺陷,滿(mǎn)足系統(tǒng)的穩(wěn)定可靠運(yùn)行。對(duì)于系統(tǒng)的性能,需要結(jié)合性能需求方面提出的目標(biāo),主要是響應(yīng)時(shí)間、并發(fā)性與可靠性方面的要求,測(cè)試階段需要滿(mǎn)足這些具體的性能指標(biāo);對(duì)于系統(tǒng)的接口,需要判斷數(shù)據(jù)處理的流程、前后臺(tái)接口能否正常完成數(shù)據(jù)的流轉(zhuǎn)處理,以此滿(mǎn)足系統(tǒng)穩(wěn)定可靠地運(yùn)行,實(shí)現(xiàn)網(wǎng)絡(luò)輿情信息的抓取、解析與存儲(chǔ)等操作[12]。

        五、 結(jié)束語(yǔ)

        對(duì)于網(wǎng)絡(luò)輿情爬蟲(chóng)系統(tǒng)實(shí)現(xiàn)來(lái)說(shuō),開(kāi)發(fā)關(guān)鍵的內(nèi)容主要是確定兩個(gè)方面,第一個(gè)是確定系統(tǒng)采用的開(kāi)發(fā)技術(shù),充分對(duì)比不同開(kāi)發(fā)技術(shù)的優(yōu)劣,確定采用Python開(kāi)發(fā)語(yǔ)言;第二個(gè)方面是以實(shí)現(xiàn)系統(tǒng)的需求為核心,以此完成系統(tǒng)的功能模塊的分析、設(shè)計(jì)與測(cè)試,核心功能包括頁(yè)面抓取、頁(yè)面解析與頁(yè)面存儲(chǔ)等內(nèi)容。目前系統(tǒng)在測(cè)試后,其總體的功能保持穩(wěn)定可靠地運(yùn)行,后期主要在系統(tǒng)穩(wěn)定可靠性方面不斷進(jìn)行持續(xù)改進(jìn)優(yōu)化,第二個(gè)方面結(jié)合用戶(hù)的具體使用意見(jiàn)完善系統(tǒng)的操作界面。

        作者單位:王小月 江蘇宿遷澤達(dá)職業(yè)技術(shù)學(xué)院

        參考文獻(xiàn)

        [1]李琳.基于Python的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 信息通信,2017,(09):26-27.

        [2]趙茉莉. 網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與實(shí)現(xiàn)[D].電子科技大學(xué),2013.

        [3]張明杰.基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的輿情數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī),2015,(12):72-75.

        [4]Aghamohammadi A, Eydgahi A. A novel defense mechanism against web crawlers intrusion. Electronics, Computer and Computation (ICECCO), 2013 International Conference on. IEEE, 2013:269-272.

        [5]段兵營(yíng). 搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的研究與實(shí)現(xiàn)[D].西安電子科技大學(xué),2014.

        [6]Bhushan R, Nath R. Web Crawler–A Review. International Journal of Advanced Research in Computer Science and Software Engineering. 2013, 8(03): 54-57.

        [7]郭麗蓉. 基于Python的網(wǎng)絡(luò)爬蟲(chóng)程序設(shè)計(jì)[J]. 電子技術(shù)與軟件工程,2017,(23):248-249.

        [8]龔千軍. 基于網(wǎng)絡(luò)爬蟲(chóng)的多媒體課件下載系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦編程技巧與維護(hù),2016,(9):70-71.

        [9]Brin, Sergey, and Lawrence Page. “The anatomy of a large-scale hypertextual Web search engine.” Computer networks and ISDN systems30.1 (1998): 107-117.

        [10]褚宏爽.主題搜索引擎網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2013.

        [11]姜杉彪,黃凱林,盧昱江,等. 基于Python的專(zhuān)業(yè)網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 企業(yè)科技與發(fā)展,2016,(08):17-19.

        [12]惠瑩.基于爬蟲(chóng)技術(shù)的校園網(wǎng)絡(luò)輿情監(jiān)測(cè)元數(shù)據(jù)管理研究[J]. 電腦編程技巧與維護(hù),2018,(01):116-118.

        猜你喜歡
        爬蟲(chóng)網(wǎng)絡(luò)輿情預(yù)防
        利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
        基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
        利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
        淺析網(wǎng)絡(luò)輿情治理
        淺談跑步運(yùn)動(dòng)中膝關(guān)節(jié)的損傷和預(yù)防
        鋁箔針孔產(chǎn)生原因與預(yù)防方法探討
        基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
        今傳媒(2016年9期)2016-10-15 22:02:52
        新形勢(shì)下預(yù)防校園暴力的策略研究
        成才之路(2016年25期)2016-10-08 09:52:32
        青青国产成人久久91| 久久婷婷五月国产色综合| 伊人久久大香线蕉av网禁呦| 天天av天天爽无码中文| 亚洲色欲色欲欲www在线| 三级国产自拍在线观看| 97人伦影院a级毛片| 亚洲欧美在线观看| 国产综合精品久久亚洲| 久久91精品国产91久久跳舞| 国产激情久久久久久熟女老人| 国产精品无码久久久久久久久久| 国产亚洲精久久久久久无码苍井空| 日美韩精品一区二区三区| 国产精品妇女一区二区三区| 又粗又粗又黄又硬又深色的| 国产精品美女久久久久久大全| 亚洲无av高清一区不卡| 亚洲 欧美 偷自乱 图片| 亚洲精品乱码久久久久久蜜桃图片| 91情侣视频| 日韩av天堂综合网久久| 国产精品二区一区二区aⅴ污介绍| 性一乱一搞一交一伦一性| 男人深夜影院无码观看| 日本一区二区三区四区啪啪啪| 宅男666在线永久免费观看 | 国产乱子伦一区二区三区| 亚洲AⅤ樱花无码| av网页免费在线观看| 亚欧中文字幕久久精品无码| 欧美三级不卡视频| 人妻熟女妇av北条麻记三级| 日本不卡高字幕在线2019| 在教室伦流澡到高潮hgl视频 | 欧美巨大xxxx做受l| a√无码在线观看| 夜晚黄色福利国产精品| 男女爽爽无遮挡午夜视频| 久久精品国产亚洲一区二区| 日本久久大片中文字幕|