亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的網絡輿情關鍵字監(jiān)控體系分析

        2022-02-16 12:10:14張曉飛
        無線互聯(lián)科技 2022年23期
        關鍵詞:爬蟲關鍵字網頁

        張曉飛

        (遵義師范學院,貴州 遵義 563000)

        0 引言

        互聯(lián)網使用具有隨意性、便利性及隱蔽性,已成為民眾間接或直接表達觀念的首選。特別是微信、微博社交平臺的興起,人們熱衷于在網絡上對某件事表達看法、立場與態(tài)度。不乏消極輿論通過網絡傳播,如果引導不善,可能會威脅社會秩序與穩(wěn)定性。加強互聯(lián)網輿情監(jiān)控,利用Hadoop作為分布式處理框架處理海量數據,設置監(jiān)控網絡關鍵字,可以有效減輕網絡輿情數據分析工作量。

        1 系統(tǒng)需求分析

        互聯(lián)網相關的人工智能、云計算、大數據等技術迅速發(fā)展,已經融入網民生活,使得信息技術成為生活生產要素重組、改變競爭格局、重塑經濟結構的重要力量。根據統(tǒng)計可知,我國截至2021年網民規(guī)模達到10.32億人,相比2020年網民增加4 296萬人,互聯(lián)網普及率是73.0%。網民數量快速增長,多數網民在互聯(lián)網中發(fā)表過言論觀點,因此,必須提高網絡輿監(jiān)控力,以免由于消極論斷引發(fā)社會動蕩[1]。Hadoop平臺是分布式系統(tǒng),利用編程模型處理龐雜數據,子項目是HDFS,借助HDFS能夠存儲大型數據,容錯性及數據吞吐量高,可實現大規(guī)模數據訪問。在網絡輿情監(jiān)督中,管理人員需結合網監(jiān)部門及網絡發(fā)展要求,提取輿情關鍵字,從而實現敏感話題監(jiān)測、傳播途徑監(jiān)測、輿情態(tài)勢分析、重點話題自動關注,有效篩選網絡輿情熱點,識別敏感話題。在此過程中,系統(tǒng)能夠根據熱點話題進行跟蹤,生成統(tǒng)計報告;對于微博評論、新聞評論、論壇跟帖等也能做到數據精準抽取、準確挖掘、合理分析。按照設計要求,該輿情分析系統(tǒng)的熱點篩選準確度需超過90%,涉及社會穩(wěn)定的輿情內容篩選準確度需達到100%。

        2 系統(tǒng)設計方案

        2.1 系統(tǒng)框架

        Hadoop網絡輿情系統(tǒng)設計采取MVC架構,系統(tǒng)利用web爬蟲處理網頁URL及其聯(lián)結數據,經過去重、分類、除綴等操作,結合不同類別信息,采集相應網頁。URL原始地址是使用eTools元搜索引擎,搜索某些關鍵字,返回搜索結果枝系統(tǒng),成為網絡爬蟲URL初始采集列表,且URL可以將列表劃分為若干信息數據類型,下發(fā)至不同采集節(jié)點[2]。網絡爬蟲經過深度迭代與廣度迭代,采集互聯(lián)網網頁信息。在提取信息時,利用抽取信息模塊處理爬蟲采集數據,篩選網頁內容,采取去重技術清理數據,能夠有效獲取輿情純文本信息。在存儲數據時,用戶先根據關鍵字內容范圍抽取網頁信息,將其存儲至相應HDFS文件系統(tǒng)之后,處理基礎數據。具體步驟為:開發(fā)人員先應用Mahout開源算法庫,通過機器學習與數據挖掘算法,處理存儲于HDFS系統(tǒng)網頁數據;再尋找輿情熱點,檢測敏感話題,提取關鍵字,追蹤輿情發(fā)展態(tài)勢;最后生成專題,分析網絡輿情。系統(tǒng)架構如圖1所示。

        圖1 系統(tǒng)架構

        在系統(tǒng)實施中,借助網絡爬蟲提取互聯(lián)網數據后,用戶方能對網頁預處理,提取網頁內容、標題關鍵字,做到去重、消噪、分詞。系統(tǒng)部署運算的框架是Map/Reduce模型,該模型立足于B/S架構,能保證系統(tǒng)開發(fā)的安全性。

        2.2 數據收集模塊

        在網絡關鍵字監(jiān)控中,由于輿情數據來源于各大網絡平臺,包括新浪微博、網易新聞、西瓜視頻、搜狐新聞等,系統(tǒng)數據收集作為重要的初始環(huán)節(jié),需結合數據來源,選擇恰當的收集模式。以新聞數據為例,Nutch由非分布式、分布式構成,在實際運行中,分布式系統(tǒng)由于穩(wěn)定性、運行效率均優(yōu)于非分布式系統(tǒng),所以可使用分布式Nutch[3]。收集數據步驟如下:用戶利用元搜索引擎檢索關鍵字,添加URL列表至系統(tǒng)內,在URL列表創(chuàng)建Fetchlist,通過內容解析器分析輿情數據,提取全新URL,更新CrawIDB,完成數據收集。數據信息源于微博網站,管理人員利用API接口完成數據采集,在這一過程中需先保證客戶端獲得微博平臺的真實授權,再完成開放工作。

        2.3 數據處理模塊

        網絡數據處理,主要是利用URL去重、建立索引、網頁分詞等,網頁分詞先用漢語詞法分析系統(tǒng),它具有分詞效果好、系統(tǒng)功能成熟的效果。在系統(tǒng)采集數據中,抽取網頁URL地址,收集互聯(lián)網數據,不同網頁URL地址相同,網頁爬蟲為避免多次爬取相同網頁,增加系統(tǒng)負荷,降低爬取網頁速度,需考慮判重URL地址,進行重復URL地址過濾[4]。在URL驅蟲中,系統(tǒng)使用Bloom Filter算法能夠識別某元素是否處于集合內,實現去重效果。Nutch爬蟲在爬取網頁URL內容時,能夠維護2個URL庫,分別為即將抓取與已抓取URL地址庫。在爬取關鍵字時,開發(fā)人員需要用到Bloom Filter算法,判斷URL地址是否已經抓取,存在則放棄爬取;不存在則需添加至地址庫內。由于利用輿情分析系統(tǒng)爬取的URL數量較大,為加快該進程,本設計使用拆分Bloom Filter算法。具體表現為:先通過s×m位串矩陣V表達數據集合,即Data={d1,d2,…,dn},算法將s長度作為m位串及h+1散列函數,確定其映射范圍后,查詢1個位串是否處于集合內。

        2.4 數據存儲模塊

        在Hadoop輿情關鍵字監(jiān)控系統(tǒng)中,數據存儲作為重要部分,能夠存儲網頁源數據,包括網頁URL、網頁標題、建立時間、瀏覽網頁數量、品論數量等,以XML文件模式存儲。存儲結果數據,包括中間結果與分析結果數據,前者是網頁預處理信息,后者是輿情統(tǒng)計信息,提取輿情關鍵字,篩選輿情熱點,追蹤輿情結果。存儲系統(tǒng)參數,包括角色權限、密碼、用戶名、運行系統(tǒng)日志等,包括采集網頁日志、提取數據日志等,配制主要系統(tǒng)參數[5]。在數據存儲中,系統(tǒng)采取HDFS文件存儲。經過網頁預處理后,數據中如果存在圖片內容,則大小低于10 MB;如果收集的數據中無圖片內容,則數據大小在2~64 k范圍內。為提高該系統(tǒng)的存儲效率,設計人員以key存儲序列化文件,以value存儲真正文件,將多個小文件進行合并,匯集成大文件后存儲至HDFS。此種方法使得用戶訪問文件時,可利用Index了解文件key信息,快速訪問后面的數據信息。

        2.5 輿情分析模塊

        系統(tǒng)輿情分析模塊需提取輿情關鍵詞,構建Map/Reduce模型,實現多層次、多角度的輿情分析。在模塊集群中,利用Master控制運行環(huán)境,完成資源調度與進程調度,通過節(jié)點Node提交輿情分析表申請后,系統(tǒng)即可根據預先定義的環(huán)境進行工作。Map/Reduce模型中,由于CPU工作流程相同,僅數據不同,可將作業(yè)劃分為若干獨立單元,將獨立單元分配至處理器處理。任務分配過程,即為mapper過程,處理任務是reduce過程,由reduce進程與mapper進程執(zhí)行,處理多種數據,還能組合處理后數據,Reduce任務喚醒Reducer執(zhí)行操作,結果輸出后存儲于系統(tǒng)內。

        2.5.1 提取關鍵字

        在輿情關鍵字中,文件集關鍵詞和文檔關鍵詞屬于包含關系,關鍵詞詞頻越高,表明受關注度越高。通常,輿情關鍵詞是信息量較高的命名實體,在提取過程中,增加命名實體權重,能夠準確提取關鍵詞。文檔中出現關鍵詞位置,對于文檔也有一定的影響。計算權重公式如下:

        W(t.d)=

        (1)

        其中,W(t.d)是指t詞在d文檔中權重;N是文檔集內文檔數量;tf(t,d)是頻率;nt是文檔中t詞出現數量;W(POS(T))是t詞詞性權重;|d|是文檔向量長度;W(Position(t,d))是文檔中t位置系數。根據公式,關鍵詞權重計算如下:

        (2)

        其中,Wt是候選關鍵字t權重;f(t)是文檔中有候選關鍵字t的數量;N是全部文檔數量;d是候選關鍵字集中關鍵詞數量。

        2.5.2 熱點分析

        在進行網絡熱點分析時,用戶首先隨機選取網頁樣本,通過聚類分析的方式,獲得熱點網絡輿情簇;然后選擇1個輿情簇提取關鍵詞特征,將熱點關鍵詞作為二次聚類依據,可以將純文字文本向量化。系統(tǒng)自動將計算文本傳遞至TF-IDF模塊,獲得結果后返回至向量模塊,再通過第一與第二聚類,獲得有關分類,根據類別話題數量,篩選熱門話題。

        2.5.3 生成專題

        生成專題是專題輿情、熱點輿情進行抽取簡報;生成專題過程,就是計算文本向量權重維度,將維度文本摘要、整理相關信息,以簡報方式提供用戶,迅速識別熱點輿情。

        3 系統(tǒng)測試

        在系統(tǒng)測試中,為準確監(jiān)測網絡關鍵字,本設計使用6臺服務器作為系統(tǒng)硬件,應用64位Cent0S6.4及jdkl.7為軟件設施,評估網絡輿情監(jiān)測情況。本設計以漏報率與誤報率為指標,對高校網絡數據進行抓取,得出關鍵字有就業(yè)、考研、兼職、旅游、飲食等。測試結果表明,漏報率與誤報率較低,系統(tǒng)準確性較好。

        4 結語

        綜上所述,隨著互聯(lián)網發(fā)展,產生海量、動態(tài)、異構新聞數據,人們難以高效、迅速地尋找到感興趣的新聞。為監(jiān)控網絡輿情,相關人員需要挖掘此類數據,對新聞話題進行輿情預測與持續(xù)追蹤。為此,本文立足于Hapood軟件平臺框架,使用MVC架構,系統(tǒng)利用web爬蟲處理網頁URL及有關聯(lián)結數據,設計了數據收集、處理、存儲及輿情分析模塊,提取輿情關鍵字,生成輿情專題,便于監(jiān)控網絡輿情。

        猜你喜歡
        爬蟲關鍵字網頁
        利用網絡爬蟲技術驗證房地產灰犀牛之說
        履職盡責求實效 真抓實干勇作為——十個關鍵字,盤點江蘇統(tǒng)戰(zhàn)的2021
        華人時刊(2022年1期)2022-04-26 13:39:28
        基于Python的網絡爬蟲和反爬蟲技術研究
        成功避開“關鍵字”
        基于CSS的網頁導航欄的設計
        電子制作(2018年10期)2018-08-04 03:24:38
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        基于URL和網頁類型的網頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        大數據環(huán)境下基于python的網絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        網頁制作在英語教學中的應用
        電子測試(2015年18期)2016-01-14 01:22:58
        10個必知的網頁設計術語
        毛片免费全部无码播放| 久久精品熟女亚洲av麻| √天堂中文官网在线| 少妇被爽到高潮动态图| 免费国产h视频在线观看86| 女同另类一区二区三区| 丰满人妻一区二区三区视频| 一本一道av中文字幕无码| 亚洲AV无码国产成人久久强迫| 亚洲男人av香蕉爽爽爽爽| 中文字幕午夜AV福利片| 国产成人精品久久二区二区91 | 99re6热在线精品视频播放6| 超级少妇一区二区三区| 全亚洲高清视频在线观看| 精品无码av一区二区三区| 国产不卡一区二区三区免费视| 少妇爽到爆视频网站免费| 国产一区二区三区在线蜜桃 | 欧美xxxx黑人又粗又长精品| 国内精品久久久久影院蜜芽 | 亚洲av永久无码精品网站| 不卡高清av手机在线观看| 日韩精品一区二区三区毛片| 91精品国产高清久久福利| 国模精品一区二区三区| 在线播放国产一区二区三区| 中文字幕麻豆一区二区| 在线观看国产成人自拍视频| 在线欧美中文字幕农村电影| 无码毛片高潮一级一免费| 国产亚洲一区二区毛片| 色多多性虎精品无码av| 中文字幕人妻偷伦在线视频| 区一区一日本高清视频在线观看| 97中文乱码字幕在线| 噜噜综合亚洲av中文无码| 亚洲成a人片在线观看天堂无码| 国产一区二区精品网站看黄| 日韩不卡的av二三四区| 亚洲精品乱码久久久久久久久久久久|