亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的災(zāi)情輿情分析與預(yù)警系統(tǒng)研究

        2022-08-29 12:14:00劉曉輝邵開麗周凱祥
        物聯(lián)網(wǎng)技術(shù) 2022年8期
        關(guān)鍵詞:分析信息系統(tǒng)

        劉曉輝,邵開麗,周凱祥

        (黃河科技學(xué)院,河南 鄭州 450009)

        0 引 言

        互聯(lián)網(wǎng)時(shí)代,每個(gè)人都擁有使用網(wǎng)絡(luò)發(fā)表自己意見的權(quán)力。人們?cè)诰W(wǎng)絡(luò)中表達(dá)自己情緒和發(fā)表評(píng)論的渠道越來(lái)越多,也越來(lái)越復(fù)雜。而大多數(shù)人正是通過這些渠道來(lái)了解災(zāi)情信息。在復(fù)雜的環(huán)境下,如果一旦有人發(fā)表了背離災(zāi)情真實(shí)性的消息,就會(huì)誤導(dǎo)網(wǎng)民,使災(zāi)情在傳播過程中逐漸偏離其真實(shí)的軌道。因此,研究解決災(zāi)情在傳播過程中的質(zhì)量問題,有很大的使用和探索價(jià)值。

        如何對(duì)災(zāi)情輿情產(chǎn)生的大數(shù)據(jù)進(jìn)行分析和處理,并給出相應(yīng)的預(yù)警,國(guó)內(nèi)一些研究者對(duì)其進(jìn)行了很多研究。王展、趙征鵬的研究中,對(duì)學(xué)校的輿情管理起到了關(guān)鍵作用。夏玲玲等的研究中,幫助政府和有關(guān)監(jiān)管部門及時(shí)管理和掌握公眾號(hào)的文章和評(píng)論內(nèi)容,有助于提高社會(huì)穩(wěn)定性。鄺楚文的研究中,通過對(duì)大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)面臨的問題進(jìn)行分析,設(shè)計(jì)了校內(nèi)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)。袁志遠(yuǎn)、徐懷超等的研究中,對(duì)輿情信息進(jìn)行了多個(gè)維度的智能分析,提升了對(duì)輿情信息的分析能力。王政的研究中,精準(zhǔn)、迅速的掌握和判斷互聯(lián)網(wǎng)輿情發(fā)展現(xiàn)狀及未來(lái)發(fā)展走勢(shì),為構(gòu)建和諧社會(huì),打造良好的輿情生態(tài)環(huán)境和正能量意識(shí)形態(tài)打下了基礎(chǔ)。黃迅、孫軍梅的研究中,通過LSTM-CNN混合模型了解學(xué)生主要關(guān)注的熱點(diǎn),進(jìn)而分析學(xué)生的思想。田煜的研究中,為網(wǎng)絡(luò)熱點(diǎn)事件得到控制和增強(qiáng)管控提供了技術(shù)支撐。朱琪的研究中,通過對(duì)數(shù)據(jù)的預(yù)處理,為數(shù)據(jù)去重、降噪,并利用數(shù)據(jù)分析方法實(shí)現(xiàn)了預(yù)警。陳剛、李弼程等的研究中,用威脅評(píng)估等方法構(gòu)建預(yù)警系統(tǒng)模型。曾宇的研究提高了監(jiān)測(cè)的準(zhǔn)確率,增強(qiáng)了輿情的管控能力。

        以上研究可分為三類:

        (1)第一類只是對(duì)災(zāi)情數(shù)據(jù)的分析和分類進(jìn)行了研究;

        (2)第二類主要為系統(tǒng)的數(shù)據(jù)來(lái)源比較單一;

        (3)第三類是系統(tǒng)的對(duì)象只針對(duì)政府和有關(guān)部門而設(shè)計(jì),預(yù)警涉及面窄。

        綜合而言,這些研究針對(duì)基層網(wǎng)民的比較少,收集的輿情評(píng)論范圍不夠廣泛,沒能從根本上起到對(duì)網(wǎng)民的預(yù)警作用。網(wǎng)民是數(shù)據(jù)的產(chǎn)生者和傳播者,如果系統(tǒng)能建立起與網(wǎng)民之間的聯(lián)系,直接引導(dǎo)、糾正網(wǎng)民對(duì)災(zāi)情的評(píng)論與傳播行為,從根本上解決輿情傳播變質(zhì)的問題,將大大減少災(zāi)情輿情的監(jiān)控工作量。

        1 基于大數(shù)據(jù)的災(zāi)情輿情采集流程

        在網(wǎng)民普遍的時(shí)代,數(shù)據(jù)越來(lái)越多,出現(xiàn)了很多獲取數(shù)據(jù)的手段。面對(duì)如此多的數(shù)據(jù),可以用爬蟲迅速獲取需要的數(shù)據(jù)。爬蟲選擇需要爬取的網(wǎng)頁(yè),使用規(guī)定的規(guī)則,通過網(wǎng)頁(yè)鏈接及源代碼進(jìn)行數(shù)據(jù)爬取,爬蟲流程如圖1所示。

        圖1 基于大數(shù)據(jù)的災(zāi)情輿情采集流程

        本文針對(duì)網(wǎng)絡(luò)信息的海量特性,將爬蟲技術(shù)從功能上分為3個(gè)部分,分別為數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)。

        (1)數(shù)據(jù)獲取是通過爬取網(wǎng)頁(yè)的鏈接獲取其中摻雜文本的源代碼,然后對(duì)源代碼進(jìn)行解析,獲得需要的輿情數(shù)據(jù);

        (2)數(shù)據(jù)處理是對(duì)獲取的災(zāi)情輿情數(shù)據(jù),利用自然語(yǔ)言處理技術(shù)進(jìn)行處理;

        (3)數(shù)據(jù)存儲(chǔ)是將處理好的輿情數(shù)據(jù)自動(dòng)存儲(chǔ)到數(shù)據(jù)庫(kù)中,方便后續(xù)流程使用數(shù)據(jù)。

        2 輿情數(shù)據(jù)的分析與處理

        為使獲取的原始數(shù)據(jù)能夠在系統(tǒng)中有效使用,需要對(duì)災(zāi)情輿情數(shù)據(jù)做進(jìn)一步提取,并且對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,獲取標(biāo)準(zhǔn)格式的數(shù)據(jù),然后再對(duì)數(shù)據(jù)進(jìn)行文本分析,得到不同類型的輿情數(shù)據(jù)。數(shù)據(jù)分析流程如圖2所示。

        圖2 數(shù)據(jù)的分析流程

        2.1 信息提取

        爬蟲爬取HTML頁(yè)面的原始代碼,找到代碼中對(duì)應(yīng)的成對(duì)標(biāo)簽。標(biāo)簽層層嵌套,在爬取時(shí)要選對(duì)標(biāo)簽,找到需要的信息后開始爬取。

        2.2 數(shù)據(jù)預(yù)處理

        由于爬取的數(shù)據(jù)并非標(biāo)準(zhǔn)數(shù)據(jù),所以需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)的清洗、集成、變換和規(guī)約。數(shù)據(jù)清洗是指去除噪聲和部分無(wú)用數(shù)據(jù)。其中,噪聲是數(shù)據(jù)隨機(jī)產(chǎn)生的誤差和方差,即obs=。數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源合并,最終變成一個(gè)大數(shù)據(jù)并存儲(chǔ)。數(shù)據(jù)變換是將原數(shù)據(jù)轉(zhuǎn)換成適合使用的數(shù)據(jù)。數(shù)據(jù)規(guī)約的主要方法一般為維度歸約、離散化等。

        2.3 文本分析

        在得到標(biāo)準(zhǔn)格式的數(shù)據(jù)后需要進(jìn)行文本分詞和文本分類。文本分詞一般基于詞典分詞或者基于語(yǔ)言模型分詞。詞典分詞有英文分詞,通常以空格分詞。中文分詞有3種匹配法,分別為正向最大匹配法、逆向最大匹配法和雙向最大匹配法,這些方法基于詞典匹配而成?;谡Z(yǔ)言模型的分詞方法有很多,常用的是隱馬爾可夫模型。文本分類方法包括K-最近鄰、決策樹、貝葉斯分類方法等。KNN是指找到個(gè)最近的測(cè)試樣本,按照占比最多的類別,判斷測(cè)試樣本為該類,計(jì)算可由公式(1)實(shí)現(xiàn),其中為奇數(shù)。

        式中,=1, 2, ...,

        在貝葉斯公式中,B被認(rèn)為是導(dǎo)致試驗(yàn)結(jié)果發(fā)生的原因,而(B)(=1, 2, ...)是多種原因發(fā)生的概率,即先驗(yàn)概率;(B|)(=1, 2, ...)是當(dāng)產(chǎn)生一個(gè)試驗(yàn)結(jié)果后,對(duì)其他原因進(jìn)行新的概率分析,即后驗(yàn)概率。

        3 基于大數(shù)據(jù)的災(zāi)情輿情分析與預(yù)警系統(tǒng)

        3.1 系統(tǒng)總體框架

        該系統(tǒng)由5層組成,分別為數(shù)據(jù)的采集層、處理層、提取層、應(yīng)用層和用戶交互層。系統(tǒng)的總體框架如圖3所示。

        圖3 系統(tǒng)總體框架

        數(shù)據(jù)采集層:主要功能是通過反爬蟲、網(wǎng)頁(yè)爬取、框架設(shè)計(jì)獲取新聞、微博、微信、APP、短視頻、評(píng)論等數(shù)據(jù)。

        數(shù)據(jù)處理層:主要包含2個(gè)模塊,分別為數(shù)據(jù)處理和聚類法分類。其中,數(shù)據(jù)處理主要是對(duì)采集的災(zāi)情輿情數(shù)據(jù)進(jìn)行規(guī)范化處理,包括過濾去重、降噪、格式轉(zhuǎn)換等處理方式。聚類法模塊主要是對(duì)采集的數(shù)據(jù)進(jìn)行簡(jiǎn)單分類。

        數(shù)據(jù)提取層:從輿情采集模塊中獲取及時(shí)數(shù)據(jù),形成不斷更新的數(shù)據(jù)流,再通過輿情檢索模塊、輿情分析模塊構(gòu)建具有流動(dòng)性數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)。結(jié)構(gòu)化數(shù)據(jù)庫(kù)采用分布式存儲(chǔ)方法,分類存儲(chǔ)不同類型的數(shù)據(jù),為應(yīng)用層的數(shù)據(jù)計(jì)算和數(shù)據(jù)分析提供大量不同類型的數(shù)據(jù)。

        應(yīng)用層:在數(shù)據(jù)提取層的基礎(chǔ)上,借助輿情采集、檢索、分析、預(yù)警4個(gè)模塊,為預(yù)警系統(tǒng)構(gòu)建簡(jiǎn)潔、方便、通俗易懂的可視化頁(yè)面。

        用戶交互層:主要結(jié)合數(shù)據(jù)整合和文本處理與分析,判斷用戶發(fā)表的輿情言論是否準(zhǔn)確,便于系統(tǒng)發(fā)揮對(duì)用戶引導(dǎo)和預(yù)警的作用。校對(duì)信息來(lái)自數(shù)據(jù)提取層。

        3.2 系統(tǒng)主要功能模塊

        該系統(tǒng)主要包含4個(gè)模塊,分別是輿情采集、檢索、分析和預(yù)警模塊。系統(tǒng)主要功能模塊如圖4所示。

        圖4 系統(tǒng)主要功能模塊

        輿情采集模塊:輿情采集主要是對(duì)系統(tǒng)涉及的輿情信息進(jìn)行采集、收納,并存入數(shù)據(jù)庫(kù)。信息來(lái)源于不同網(wǎng)站,以及微博、微信、抖音等APP。

        輿情檢索模塊:該部分主要將檢索的網(wǎng)絡(luò)輿情信息暫時(shí)儲(chǔ)存,然后信息數(shù)據(jù)采集爬蟲根據(jù)任務(wù)要求工作,并將結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。

        輿情分析模塊:輿情分析主要完成對(duì)收集的災(zāi)情信息的分類,提取其中的重要信息,以及對(duì)用戶評(píng)論的內(nèi)容進(jìn)行分析,最終構(gòu)建結(jié)構(gòu)化數(shù)據(jù)庫(kù),為后續(xù)預(yù)警打下基礎(chǔ)。

        輿情預(yù)警模塊:預(yù)警模塊主要根據(jù)結(jié)構(gòu)化數(shù)據(jù)庫(kù)對(duì)用戶發(fā)表有關(guān)輿情的評(píng)論內(nèi)容,進(jìn)行真實(shí)性的監(jiān)測(cè)與追蹤,最終通過頁(yè)面展示分析結(jié)果,達(dá)到預(yù)警目的。

        3.3 災(zāi)情信息分類和預(yù)警分類標(biāo)準(zhǔn)展示

        為提高系統(tǒng)的預(yù)警性能,需要對(duì)災(zāi)情信息進(jìn)行分類并劃出預(yù)警的標(biāo)準(zhǔn),見表1所列。表中將災(zāi)難分為四大類,即自然災(zāi)難、人為災(zāi)難、技術(shù)性災(zāi)難、區(qū)域性災(zāi)難。預(yù)警等級(jí)為4個(gè)等級(jí),每個(gè)等級(jí)都有相應(yīng)的條件。在系統(tǒng)預(yù)警過程中,根據(jù)這些條件可以很好地實(shí)現(xiàn)對(duì)輿情走勢(shì)的把控,預(yù)防劣質(zhì)災(zāi)情信息傳播。

        表1 災(zāi)情信息分類與預(yù)警標(biāo)準(zhǔn)

        4 結(jié) 語(yǔ)

        由于互聯(lián)網(wǎng)數(shù)據(jù)飛速增長(zhǎng)和輿情信息快速傳播,使輿情分析難度增大。在應(yīng)對(duì)網(wǎng)絡(luò)輿情時(shí)要充分利用大數(shù)據(jù)技術(shù),通過專業(yè)的技術(shù)分析可以很好地進(jìn)行測(cè)評(píng)和評(píng)估,實(shí)現(xiàn)預(yù)警。該系統(tǒng)有助于及時(shí)、快速,并且準(zhǔn)確地分析輿情走向,引導(dǎo)用戶成為高質(zhì)量的輿情傳播者。

        猜你喜歡
        分析信息系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無(wú)人機(jī)系統(tǒng)
        隱蔽失效適航要求符合性驗(yàn)證分析
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        展會(huì)信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        亚洲日本一区二区在线观看 | 中文无码乱人伦中文视频在线v| 久久福利青草精品免费| 九九99久久精品在免费线97| 亚洲精品天堂日本亚洲精品| 亚洲精品乱码久久久久久不卡| 成人激情五月天| 巨臀中文字幕一区二区| 美利坚亚洲天堂日韩精品| 免费a级毛片无码免费视频首页| 国产国拍精品av在线观看按摩| 亚洲精品有码在线观看| 亚洲一区二区女优视频| 亚洲国产成人极品综合| 国产suv精品一区二区883| 97中文字幕在线观看| 国产黄色三级三级三级看三级| 妺妺窝人体色777777| 国产人妻久久精品二区三区| 春色成人在线一区av| 国产愉拍91九色国产愉拍| 天天爽夜夜爽人人爽| 婷婷丁香社区| 亚洲每天色在线观看视频| 亚洲色图在线免费视频| 久久精品国产亚洲av麻豆| 日本韩国一区二区三区| 亚洲情久久久精品黄色| 免费国产黄网站在线观看视频| 亚洲日本va午夜在线电影| 人妻少妇精品视中文字幕国语| 国产一区二区三免费视频| 免费a级毛片无码av| 无码熟妇人妻AV影音先锋| 亚洲情久久久精品黄色| 成年性生交大片免费看| 国产精品美女久久久久久2018| 61精品人妻一区二区三区蜜桃| 不卡的av网站在线观看| 日本欧美视频在线观看| 亚洲蜜芽在线精品一区|